Informazione in linea ed informazione in rete


L’Istituto Nazionale di Bioaerchitettura ha organizzato, presso la sua Sezione di Imperia, un Corso di Bioarchitettura, rivolto ai giovani operatori del settore, per una maggiore coscienza nell’ecologia dell’edilizia. Il corso, della durata di quattro mesi (febbraio-giugno 1999), si è articolato attraverso lezioni-seminario multidisciplinari. In tale contesto il Servizio di Documentazione Scientifica (SDS) dell’Area della Ricerca di Genova è stato invitato a partecipare ai lavori per il suddetto corso di specializzazione. Di seguito si riporta il testo della lezione-seminario tenuta in tale occasione.


Premessa

Uno degli scopi di questo intervento è, almeno nelle sue intenzioni, generare realistiche aspettative in chi si accinga per la prima volta ad utilizzare Internet e le sue risorse informative. A questo proposito diviene prioritario fugare eventuali false aspettative derivanti da un confronto tra l'informazione in rete e l'ormai consolidato ambito delle basi di dati in linea. Tale confronto sarebbe malposto in quanto la natura di Internet è profondamente diversa da quella dell'offerta commerciale di basi di dati; si tratta di due mondi complementari ciascuno con le proprie caratteristiche e con la propria validità specifica.
Una prima distinzione scaturisce banalmente dalla terminologia anglosassone utilizzata per indicare le due classi di informazione: "networked information" per l'informazione disponibile in rete e "online information" per l'informazione disponibile attraverso fornitori commerciali di basi di dati.
Le basi di dati in linea sono fondate sull'architettura cosiddetta "a stella", dove un terminale "muto", privo cioè della capacità di elaborazione locale che possiede (ad esempio un personal computer), si collega ad un elaboratore che eroga servizi (ad esempio un host computer). Il terminale è completamente asservito all'elaboratore centrale sia per il linguaggio di interrogazione, cioè quello che l'host usa ed impone, sia per il tipo di servizio, cioè il terminale può utilizzare solo i servizi e le risorse informative che l'host mette a disposizione. Nella singola sessione di lavoro l'utente può accedere ad un unico host ed usufruire quindi di un servizio specifico. Questo tipo di architettura è sbilanciata a favore dell'host, il quale ne costituisce il fulcro.
Nel caso di Internet, invece, la connessione è reticolare, in quanto Internet è una costellazione di nodi interconnessi dove, nella medesima sessione di lavoro, è possibile "navigare" da un nodo all'altro della rete vagolando tra le risorse informative di interesse sparse nella rete ed utilizzando alternativamente i diversi servizi di rete, passando dall'uno all'altro con estrema facilità. Qualunque tipo di calcolatore (dal grande elaboratore al personal computer) e di qualunque fornitore (Digital, Macintosh, Sun, IBM, ....) può essere connesso ad Internet; quest'ultima è dunque una rete di calcolatori eterogenei. Nella rete ogni calcolatore ha pari dignità dal punto di vista della comunicazione, ha cioè diritto di operare con linguaggio e modalità propri: "peer-to-peer connection".
Questa democrazia tecnologica è una conquista dovuta al protocollo Tcp/Ip il quale funge da minimo comun denominatore tra i linguaggi di calcolatori eterogenei. Gli strumenti di navigazione in rete, quali Goopher e World wide web sono stati appunto costruiti in base al protocollo Tcp/Ip; questo fatto spiega come da un singolo strumento di navigazione sia possibile accedere a più risorse informative residenti su calcolatori eterogenei.
É noto come l'offerta di informazione in linea sia vincolata ad un abbonamento al servizio. É pur vero che l'industria dell'informazione si sta adeguando alle pressioni del mercato e sta modificando i propri criteri di attribuzione dei costi, non più basati sul tempo di collegamento, bensì sulla quantità di informazione recuperata: l'accesso all'informazione resta comunque subordinato ad un costo. La maggior parte dell'informazione in Internet è invece gratuita, in virtù della matrice accademica di Internet, dove l'utente è anche produttore di informazione, in uno scambio tipico del ciclo di produzione della conoscenza in ambito scientifico.
Strettamente legato all'aspetto dei costi è il fattore qualità dell'informazione. L'informazione in Internet è messa a disposizione spontaneamente e non esistono al momento procedure sistematiche di validazione né organismi responsabili di valutare e filtrare l'informazione. Questi meccanismi potrebbero garantire la qualità dell'informazione in termini di contenuto e di aggiornamento. Allo stesso modo potrebbe essere risolto un ulteriore aspetto poco desiderabile dell'informazione in rete, la sua volatilità. Non esiste infatti alcuna garanzia circa la disponibilità permanente di quanto oggi è presente nella rete. Internet si pone dunque come uno strumento di lavoro capace di portare sulla scrivania un patrimonio informativo enorme, fin troppo esteso ed in continuo aumento. Chi si affaccia alla rete viene travolto da una miriade di informazioni entro le quali a fatica riesce ad orientarsi. Questa situazione è descritta da espressioni coniate appositamente dalla comunità statunitense di Internet, quali "infoglut" (indigestione da informazione) o "drinking from a firehose" (bere da un estintore). L'atteggiamento del neofita di Internet passa attraverso tre fasi fondamentali: l'entusiasmo iniziale che lo porta a lunghe sessioni di navigazione nell'informazione in rete, la perplessità, quando si accorge che non esistono supporti sistematici al recupero dell'informazione; la delusione, o quanto meno il ridimensionamento dell'entusiasmo, quando si rende conto che solo alcune fonti o alcuni punti di partenza sono validi. La delusione è tanto più forte poi se abbinata alla aspettativa di trovare in rete un'offerta di servizi informativi comparabile con quella delle basi di dati in linea, tecnologia del contenuto e del recupero e non solo dell'accesso.
É noto al contrario il livello di qualità e di aggiornamento dell'informazione in linea.


Formato dell'informazione e strumenti di ricerca

L'informazione in linea esiste prevalentemente sotto forma di base di dati interrogabile per mezzo di un programma per il recupero dell'informazione, chiamato Information retrieval system (Irs). Questo tipo di software è capace di individuare nella base di dati l'insieme dei documenti che risultano pertinenti rispetto ad una specifica esigenza informativa. Quest'ultima, definita query, è esplicitata dall'utente attraverso un linguaggio di interrogazione (query language). Ogni information retrieval system ha associato il proprio linguaggio e programmi diversi utilizzano linguaggi di interrogazione diversi. La pertinenza del singolo documento rispetto alla esigenza informativa espressa nella query è valutata dal programma attraverso l'uso di un thesaurus; questo è uno strumento di classificazione e di rappresentazione semantica di un corpus di conoscenza ed offre molteplici punti di accesso al singolo documento. Il thesaurus è un elemento fondamentale nella logica operativa dell'information retrieval system, che si basa sul principio che nel documento siano presenti uno o più dei descrittori presenti nel thesaurus. In altre parole la base documentaria è classificata coerentemente con lo schema semantico espresso nel thesaurus. Un altro fattore fondamentale negli Irs è la strutturazione della base documentaria: ogni documento è costituito da almeno due parti: una parte strutturata ed una parte a testo libero; il formato dei documenti nella stessa base documentaria è omogeneo. Pertinenza dunque come risultato di due elementi fondamentali: thesaurus e strutturazione dei documenti.
Il formato base di dati è invece il meno diffuso in Internet, dove prevale informazione a testo completo, non strutturata e soprattutto non organizzata e classificata.
Internet è un gigante cresciuto troppo in fretta ed in maniera selvaggia che solo ora si sta cercando di imbrigliare in una struttura organizzata. Gli strumenti per l'accesso all'informazione in rete vengono indicati nella letteratura anglofona come "Nir tools" (Networked information retrieval tools), ma questa denominazione appare alquanto impropria poiché sembra indicare una classe di strumenti capaci di realizzare le funzioni di recupero dell'informazione proprie degli Irs, applicandole, per di più, a risorse informative distribuite in rete. Si tratterebbe pertanto di strumenti ancor più potenti dei tradizionali Irs che operano su basi di dati locali. A mio avviso sistemi quali Goopher e World wide web assolvono invece egregiamente alla funzione di navigazione nell'informazione in rete, offrendo all'utente la possibilità di accedere in modo facilitato ed unificato a risorse che diversamente sarebbero accessibili in modo più complesso. Per tale ragione si preferisce, per questa classe di sistemi, la denominazione "strumenti di navigazione in rete".
Il Goopher è un sistema ormai desueto di distribuzione dell'informazione in rete. Nel Goopher l'informazione viene organizzata secondo una gerarchia di menù. Al contrario World wide web (più confidenzialmente chiamato Www o W3), anch'esso sistema di distribuzione dell'informazione in rete, è basato sulla tecnologia degli ipertesti. Per questa funzionalità di base sono state sviluppate interfacce grafiche del tipo "point and click" quali Netscape, Internet Explorer, Opera che facilitano ulteriormente la navigazione in rete.
Quest'ultima però, vista la selvaggia proliferazione dell'informazione, necessita di strumenti adeguati in grado di agevolare il "netsurfer" nella fase di reperimento della documentazione; si vuole cioè introdurre il concetto di motore di ricerca e, in particolare, di navigazione a motore Altavista. Questo è il mitico motore di ricerca sul web, basato su una tecnologia nativa a 64 bit, che ha reso famosa la ricerca scientifico/tecnica vantata da Digital e che, a tutt'oggi, non ha eguali nel mondo.


Navigazione a motore Altavista

Quando puntiamo alla home page di Altavista (http://www.altavista.digital.com) compare subito una schermata, di facile interpretazione, che permette di effettuare immediatamente ricerche di ogni tipo. Tale interfaccia di default è quella per operare ricerche in modalità "Simple Query" ma è anche disponibile una modalità "Advanced Query" con un'interfaccia utente più friendly della precedente.
Prima di fornire una sintetica descrizione delle modalità di interrogazione del motore Altavista, è bene precisare che nel compiere la ricerca tale motore esclude le pagine web in cui i termini da ricercare siano inseriti come commento. Ciò significa che, a seconda della sintassi usata, Altavista ricerca la parola digitata all'interno del titolo, del testo, dei link, delle Aplet, degli ActiveX, dei titoli e delle immagini.
Simple Query. É bene innanzitutto precisare alcune definizioni relative alla terminologia di seguito utilizzata.
Parola: Altavista individua come parola qualunque gruppo di caratteri alfanumerici ad eccezione, quindi, di quelli non esplicitamente alfanumerici (, . ; ' & % $ / # _ ~) e, ovviamente, degli spazi bianchi, dei caratteri tab e dei ritorno-carrello. Pertanto Altavista individuerà nel termine cd-rom due parole distinte ed altrettanto farà con i cognomi quali D'Elia.
Frase: Altavista definisce come frase un qualsiasi gruppo di parole separate da un qualsivoglia numero di spazi bianchi o segni di punteggiatura, anche se privi di senso. In tale ottica la frase "il lettore di cd-rom era collegato al personal di O'Neal" è composta da 12 parole ed è perfettamente identica a quella eventualmente così digitata: "il lettore di cd rom era collegato al personal di O Neal".
Nella modalità Simple Query occorre spesso fare uso intensivo delle virgolette ("). Digitando per esempio,....
Informatica "Russel Borland" italiano
....verranno individuati tutti i siti in cui sia citato almeno uno dei tre gruppi alfanumerici "Informatica" oppure "Russel Borland" oppure "italiano". Di tale quantità, decisamente enorme, verranno elencati per primi i siti in cui Altavista ha incontrato il maggior numero di ricorrenze dei gruppi alfanumerici indicati. Tra i primi, per esempio, verrà indicato il sito che contiene la frase del tipo "Esce il manuale in italiano "Introduzione a Windows 98" di Russel Borland edito da Mondadori Informatica", ma non farà parte della selezione il sito contenente la frase "Esce il manuale in italiano "Introduzione a Windows 98" di R. Borland edito da Mondadori Informatica".
In tema di precisazioni occorre ricordare che digitando....
informatica "russel borland" italiano
....verrà individuato anche il sito che dovesse contenere al suo interno le parole Informatica, "Russel BORLAND" oppure Italiano.
La stessa ricerca attuata però con....
Informatica "Russel BoRLAND" ITAliano
....evidenzierà probabilmente solo i siti in cui è presente la parola "Informatica" con la "I" maiuscola. In altre parole, per Altavista non c'è differenza tra maiuscole e minuscole, purché la parola sia digitata interamente in minuscolo. Nel caso in cui anche una sola lettera sia digitata in maiuscolo, la parola cui appartiene verrà rintracciata esattamente come digitata. Anche i caratteri accentati vengono considerati con rigore: la ricerca basata sul plurale di dominio (dominì) escluderà di fatto i siti in cui è presente la stessa parola digitata semplicisticamente come domini; cercando invece domini, entrambe le parole (domini e dominì) verranno considerate valide.
Altavista consente l'utilizzo degli operatori booleani AND, OR, NOT, ma con la modalità Simple Query occorre usare una simbologia differente. Per effettuare, ad esempio, una ricerca che individui i siti che parlano di D'Alema e di Berlusconi ma non di Bertinotti, usando un linguaggio di programmazione digiteremo....
D'Alema AND Berlusconi AND NOT Bertinotti
In modalità Simple Query di Altavista, invece, la ricerca si imposta digitando....
+D'Alema +Berlusconi -Bertinotti
Analogamente per simulare....
D'Alema OR Berlusconi AND NOT Bertinotti
....occorrerà digitare:
D'Alema Berlusconi -Bertinotti
Oltre ai segni meno e più una funzione in parte superflua la svolge il punto e virgola (;) che, simile allo spazio lo sostituisce. Per esempio:
"Russel Borland"
....conduce a risultati identici se digitata come....
Russel;Borland
Molto interessante, al contrario, l'uso dell'asterisco, carattere wilcard (*) che permette, come nella sintassi MS-DOS, di individuare tutti i siti che contengono qualunque carattere posto di seguito fino al primo spazio incontrato o, al massimo, fino a cinque caratteri. Per esempio....
ital*
....individuerà i siti in cui è presente la parola Italia, Italy, italico, italiano, ma anche la società ItalStat.
L'asterisco può essere impiegato anche all'interno di una parola. Per esempio....
con*za
....individua conferenza, ma anche continenza e consulenza. Altavista è dotato di un sistema di "autoprotezione" da ricerche eccessivamente estenuanti: non appena il numero di siti supera un certo valore (che comunque si aggira sulla rispettabile cifra di circa cinque milioni) interrompe la ricerca e non visualizza alcun risultato se non la notifica del numero di siti individuato sino a quel momento.
Altavista visualizza il risultato della ricerca in ordine che rispetta priorità ben definite. In particolare compaiono in cima alla lista i documenti caratterizzati dai seguenti requisiti:
Presenza delle parole (da ricercare) all'interno del nome del sito stesso o, in alternativa, nelle prime cinque parole della home page.
Nel caso di ricerca di più parole, hanno precedenza i siti web che contengono le parole stesse molto vicine tra loro.
Documenti che contengono più volte le parole da ricercare.
Quando Altavista individua i vari siti ne visualizza l'elenco dando precedenza alle modalità sopra descritte. A seconda dell'impostazione iniziale al link dell'Url seguirà una descrizione breve o lunga (comunque al massimo 1024 caratteri) trascrivendo le prime parole della pagina stessa.
Advanced Query. Le regole per definire parole o interi paragrafi, l'impostazione di maiuscole e minuscole ed il carattere wilcard asterisco (*), possono qui essere utilizzate intensivamente per attivare ricerche complesse.
Oltre ai classici operatori binari AND, OR e NOT (da scrivere indifferentemente in maiuscolo o minuscolo) Altavista riconosce il nuovo operatore NEAR. Volendo è possibile sostituire gli operatori con i simboli riportati nella seguente tabella dove vengono peraltro esplicitati anche i rispettivi valori ASCII.

Operatore

Simbolo

Valore ASCII

AND

&

38

OR

|

124

NOT

!

33

NEAR

~

126

Come avviene per i linguaggi di programmazione, nel caso in cui gli operatori dovessero far parte della ricerca, gli operatori devono essere racchiusi tra virgolette ("). In caso contrario, infatti, gli operatori verranno interpretati come tali.
Facciamo ora alcune considerazioni di base su ciascun operatore. Nell'esempio che segue, relativo a AND (&)....
Inter AND Milan
....Altavista effettuerà la ricerca dei documenti in cui siano presenti sia la parola Inter sia Milan ovunque esse si trovino. Ma una ricerca del tipo....
Inter Milan
....apparentemente simile alla precedente, restituirebbe invece documenti in cui le due parole siano presenti esattamente come digitate, cioè segnalando il documento "La partita Inter Milan di domenica scorsa ha entusiasmato i tifosi di entrambe le squadre" ma con la sicura esclusione del documento che riportasse per esempio "Anche stavolta la sfida Milan Inter non ha deluso i tifosi".
L'operatore OR (|) è molto più elastico di AND dal momento che individua indifferentemente uno qualsiasi dei termini legati all'operatore, ma con l'indubbio risultato di restituire un numero maggiore di documenti. Per esempio....
Ferrari OR Fiat
....individuerà qualunque documento in cui sia presente almeno uno dei due termini.
L'operatore NOT (!) consente di escludere documenti in cui sia presente, anche una sola volta, la parola che segue l'operatore stesso. Per esempio....
Inter AND NOT Milan
....escluderà di fatto tutti i documenti in cui sia presente la parola Inter e compaia contemporaneamente anche la parola Milan, anche se il riferimento a quest'ultima fosse del tutto marginale.
Passiamo ora a considerare l'operatore NEAR (~). Una ricerca del tipo....
Schiffer NEAR Campbell
....individuerà solo i documenti in cui le due parole risultino distanti l'una dall'altra (anche in senso inverso) non più di dieci parole. Ciò significa tra l'altro che le due ricerche....
Schiffer NEAR Campbell
Campbell NEAR Schiffer
....conducono a risultati identici.
Vi è una sostanziale differenza fra le parentesi tonde (aperte e chiuse) e le virgolette descritte nella sezione Simple Query. Con quest'ultima modalità impostando....
"Naomi Campbell"
....si individuano solo documenti che contengono le due parole così come sono digitate. Escludendo quindi tutti quei documenti che, se pur significativi, riportassero solo il cognome della nota topmodel oppure accanto al cognome la sola iniziale del nome. Per l'intercettazione anche di questi documenti sarebbe sufficiente impostare la ricerca in modalità Simple Query con:
+Naomi +Campbell
....ed in modalità Advanced Query con:
Naomi AND Campbell
Ma anche AND, OR e NOT nascondono sottili insidie oppure, al contrario, favoriscono ricerche più accurate. Impostando sempre in Advanced Query la ricerca con....
Naomi Campbell OR N. Campbell AND Claudia Schiffer OR C. Schiffer
....si aumenta la possibilità di individuare documenti che parlano contemporaneamente delle due famose topmodel. La ricerca....
(Claudia OR Schiffer) AND (Naomi OR Campbell)
....aumenta a dismisura tale probabilità perché restituirebbe anche documenti che parlano di Claudia Campbell o di Naomi Schiffer.
Comandi apparentemente diversi come....
Ferrari OR (Porsche AND Ford)
Ferrari OR Porsche AND Ford
....sono invece del tutto identici perché le parentesi sono inutili in quanto l'operatore AND ha priorità su OR e verrebbe comunque attuato per primo.
Per quanto riguarda ancora le equivalenze....
NOT Berlusconi AND D'Alema
(NOT Berlusconi) AND D'Alema
....le due espressioni sono identiche perché individuano entrambe documenti in cui si parla di D'Alema ma non di Berlusconi, anche in questo caso AND ha priorità su NOT.
Diversa è la situazione se si impartisce....
NOT (Berlusconi AND D'Alema)
....che esclude tutti i documenti che citano entrambi gli uomini politici.
Anche l'uso troppo disinvolto di NEAR può offrire trabocchetti. Anzitutto c'è da dire che NEAR ha priorità su AND. Ciò significa che le due impostazioni che seguono sono equivalenti....
Ferrari NEAR Porsche AND Torino
(Ferrari NEAR Porsche) AND Torino
....ed entrambe hanno un'elevata probabilità di trovare documenti sul Salone dell'Auto di Torino in cui si parli di eventuali confronti tra Ferrari e Porsche, purché, come già detto in precedenza, tali nomi siano a distanza non eccessiva.
Il motore di ricerca di Altavista è identico qualunque sia il tipo di ricerca attivato. Ciò nonostante è possibile pervenire a risultati sostanzialmente diversi a seconda della modalità impostata (Simple oppure Advanced Query). Nel caso delle ricerche avanzate compare un campo speciale definito Results Ranking Criteria il cui inadeguato utilizzo può generare perplessità.
Quando effettuiamo una ricerca con la modalità Simple Query per cercare ad esempio "Claudia Schiffer" in effetti Altavista attiva, in modo trasparente, la modalità Advanced Query ed inserisce "Claudia Schiffer" sia nel campo di ricerca Selection Criteria (d'ora in poi definito SC) sia nel campo Resulting Ranking Criteria (d'ora in poi definito RRC). Questo modo di operare impartisce ad Altavista un ordine con il seguente significato: "cerca sul web i siti che contengono la coppia di parole "Claudia Schiffer" ed elencali secondo la priorità indicata nel campo RRC". Dal momento che entrambi i campi contengono "Claudia Schiffer" ecco che la ricerca ha esito identico tanto se condotta con la modalità Simple Query, quanto se effettuata in modalità Advanced Query, riempiendo, come indicato, i due campi.
Se, invece, in quest'ultima modalità si effettua la ricerca impostando il nome della topmodel solo nel campo SC (lasciando vuoto RRC) in elenco compariranno i siti senza un ordine ben preciso, o meglio secondo l'ordine FIFO (First In First Out), il primo sito incontrato che soddisfa le condizioni imposte è il primo ad essere inserito nell'elenco, e così per quelli che seguono.
Per riassumere Altavista effettua la ricerca dei siti in cui siano presenti le impostazioni indicate nel campo SC. Nell'elencare i siti individuati esamina dapprima il contenuto del campo RRC; se questo è vuoto l'elenco è pressoché casuale, se invece in RRC è presente una parola, o anche un criterio, verranno individuati gli stessi siti di prima, ma verranno indicati per primi quelli che contengono la parola o che soddisfano al criterio indicato in RRC. In pratica si tratta di un'azione simile all'inserimento di un ulteriore operatore AND che svolge la funzione di un secondo filtro.


Information retrieval system

Gli Irs, nati negli Stati Uniti verso la fine degli anni 60 per scopi esclusivamente militari, si convertono, dopo circa un decennio, per un impiego civile e sono di indiscusso valore per tutti i settori della ricerca scientifica e tecnologica. I suddetti sistemi hanno subito, in questi ultimi trent'anni, uno sviluppo esponenziale tanto sul piano quantitativo che su quello qualitativo e possono essere attualmente considerati il prodotto di eccellenza del mercato dell'informazione.
Con il termine banche dati e basi di dati in linea si intende comunemente un archivio di informazioni: a) memorizzato su supporto magnetico; b) gestito tramite elaboratore; c) organizzato secondo un insieme di relazioni contestuali che ne consentono il recupero tramite opportuni linguaggi di interrogazione; d) interrogabile tramite un terminale ed un collegamento su linea telefonica.
Poiché il termine base di dati può riferirsi a differenti tipi di archivi informativi, come ad esempio quelli utilizzati dalle banche, dalle compagnie aeree, dalle grandi compagnie alberghiere, ecc., si precisa che le basi dati cui si fa riferimento in questa nota sono quelle contenenti informazioni di vario tipo ed accessibili pubblicamente ad un'utenza molto diversificata composta da ricercatori, manager, amministratori, bibliotecari, documentalisti, ecc.
Nell'industria delle basi di dati in linea è possibile, almeno concettualmente, distinguere quattro figure di partners, ognuna delle quali assicura lo svolgimento di ben precise funzioni:
PRODUZIONE:
Produttori di basi dati. Sono organizzazioni che raccolgono e memorizzano le informazioni bibliografiche su supporti magnetici. Sono responsabili del contenuto intellettuale dei dati e della qualità di documentazione, scelgono le fonti di informazione ed il modo di analizzarle e ne determinano il grado di approfondimento. Facendo uso di specialisti nei vari settori svolgono operazioni di indicizzazione sulle referenze bibliografiche che consistono nell'associare delle parole chiave ad ogni documento per facilitarne il loro recupero. La maggior parte dei produttori non distribuisce direttamente i propri prodotti ma si affida ad un distributore.
DISTRIBUZIONE:
Distributori di basi dati. Si pongono come intermediari tra i produttori e gli utenti di informazioni, commercializzando le basi dati, assicurandone la promozione e fornendo assistenza. Vengono abitualmente chiamati host computers, identificandoli con i calcolatori che ospitano le basi dati. La funzione principale dei distributori è rappresentata dallo sviluppo e dalla gestione autonoma del software necessario sia per il collegamento via rete, sia per il reperimento in linea dell'informazione. Essi inoltre assicurano una nutrita serie di servizi collaterali quali la diffusione di informazioni in merito alle basi dati ospitate, l'organizzazione di corsi di formazione all'uso di questo servizio, la pubblicazione di manuali per l'utilizzo delle basi dati, ecc. Generalmente gli host computers sviluppano un proprio linguaggio di interrogazione, compatibile con tutte le basi dati distribuite, la cui semplicità di impiego rappresenta il principale parametro di scelta utilizzato dall'utente. Gli host computers possono essere specializzati o generici; i primi garantiscono la copertura approfondita di un argomento specifico, i secondi tendono a coprire l'offerta di mercato gestendo basi dati di settori diversi. Per questi ultimi viene spesso utilizzato il termine di supermercati dell'informazione o host supermercato. Tra questi il più importante a livello mondiale è senza dubbio DIALOG Information Services Inc. di Palo Alto (USA) che rende fruibili in linea circa 800 basi dati a copertura di vari settori, dall'economico al tecnico-scientifico, dal finanziario all'umanistico, ecc. Recentemente il mercato dell'informazione ha visto svilupparsi, con il nome di "gateway", un particolare tipo di servizio che si pone da intermediario tra l'utente e diversi host computers. Tipici esempi sono Easynet per gli Stati Uniti.
TRASPORTO:
Gestori delle reti di trasmissione. Rappresentano il mezzo di comunicazione tra l'host computer e l'utente e sono costituiti dalla rete telefonica che collega, tramite un apposito apparecchio o modem, l'elaboratore al terminale video dell'utente.
USO DEI DATI:
Utente. Ciascun individuo dotato dei mezzi idonei al collegamento è potenzialmente in grado di accedere ad un host computer per utilizzarne i servizi. Per molti utenti però l'uso occasionale di questi servizi non giustifica l'immobilizzo delle risorse necessarie a questo scopo ed il tempo necessario per la continua documentazione sulle basi dati che si rendono disponibili, sui diversi linguaggi di interrogazione e sull'uso dei vari sistemi di classificazione adottati. L'utente occasionale preferisce quindi rivolgersi a professionisti intermediari che svolgono le ricerche in linea per conto terzi.
Le numerose basi di dati accessibili in linea (attualmente superano le 3.000 unità) si differenziano oltre che per gli argomenti che trattano, anche per le finalità che intendono raggiungere, la copertura geografica e temporale che consentono, la periodicità con cui i loro produttori rendono disponibili in esse nuove informazioni, la frequenza di aggiornamento, ecc.
L'European Association of Information and Documentation Services (EUSICID) ha tracciato una tipologia molto adeguata a descrivere la varietà delle basi dati accessibili in linea, basata sul tipo delle informazioni in esse contenute e sulla funzione da esse svolta.
Secondo questa tipologia le basi dati possono essere classificate in due principali categorie:
Basi dati di informazione secondaria (Reference Databases) che consentono di avere accesso ad informazioni di riferimento. Questo tipo di archivio contiene i dati che consentono di identificare e descrivere la fonte informativa (articoli, rapporti, atti di congressi, tesi, ecc.) atta a soddisfare le esigenze dell'utente. Appartengono a questa classe:
basi dati bibliografiche che contengono descrizioni bibliografiche relative a vari tipi di pubblicazioni originali;
basi dati di riferimento che contengono segnalazioni di informazioni, in genere non pubblicate, relative a progetti di ricerca in corso nell'ambito di vari settori, organizzazioni, materiali audiovisivi, ecc.
Basi dati di informazione primaria (Source Databases) che forniscono direttamente l'informazione stessa, quella elaborabile per produrre nuova conoscenza. Questo tipo di archivio contiene direttamente dati ed informazioni su elementi reali: testi completi di documenti, formule chimiche, dati fisici, energetici, informazioni economiche, statistiche, ecc. Appartengono a questa classe:
basi dati di testi completi che contengono il testo integrale o le parti fondamentali di documenti originali come ad esempio articoli di riviste, di quotidiani, testi di leggi, norme di unificazione, capitoli di libri, ecc.;
basi dati numeriche che contengono dati numerici accompagnati da una documentazione che ne facilita l'accesso e la manipolazione, a questi dati si adattano generalmente software statistici utilizzabili in linea;
basi dati numerico-testuali che contengono combinazioni di dati numerici ed alfanumerici;
basi dati di proprietà che contengono dati su caratteristiche di molti materiali, processi, fenomeni, ecc.
In questi ultimi anni lo sviluppo del protocollo di comunicazione Tcp/Ip associato alla presenza ormai globale di terminali grafici, hanno consentito la comparsa, per ora molto tiepida, di una terza categoria:
Basi dati di informazione secondaria e primaria (Reference and Source Databases). Si tratta in pratica di archivi bibliografici in grado di fornire anche il testo integrale dei riferimenti in essi contenuti.
Come è stato accennato in precedenza il mercato dell'informazione in linea ha come fulcro la figura del distributore ed è proprio una scelta oculata di quest'ultimo a determinare i massimi risultati con il minimo sforzo da parte dei singoli utenti. Le scelte normalmente vengono operate in modo tale da poter accedere al maggior numero di basi di dati, attinenti al settore di interesse, sul minor numero di host; questa esigenza è fondamentalmente dettata dal fatto che, in genere, quando si cambia host è necessario rivedere la strategia dell'interrogazione, operazione che può risultare onerosa specialmente se si tratta di interrogazioni complesse.
Per quanto riguarda poi la scelta delle basi di dati, è molto importante conoscere la filosofia con cui è stata costruita una base di dati per poterla utilizzare al meglio; sono infatti disponibili più basi di dati per uno stesso argomento ma contenenti informazioni provenienti da fonti diverse.
Analizziamo ora in dettaglio i servizi offerti da un host multidisciplinare quale DIALOG Information Service.
Tale distributore, che come già ricordato rende fruibile in linea circa 800 basi di dati, ha sviluppato un software di interrogazione unico (DialogLink), cioè a dire che l'utente, ragionando per assurdo, è in grado di consultare con una singola query tutte le basi dati distribuite. Parallelamente DIALOG ha promosso un servizio collaterale (Dialorder), ma fondamentale quale la fornitura di documenti integrali (brevetti, pubblicazioni, rapporti tecnici, tesi, ecc.), interfacciando l'utente con i più prestigiosi document supplier quali ad esempio The British Library, NTIS, CNRS, ecc.
Nel 1995 DIALOG ha assorbito un altro distributore DataStar Europe's ed ha contestualmente reso fruibili circa 350 archivi elettronici di questo secondo host.
I principali argomenti di copertura delle basi dati distribuite da DIALOG sono raggruppate nelle seguenti 13 supercategorie:
Agriculture, food, and nutrition
Biosciences and chemistry
Business news and industry analysis
Company information and financial data
Computers, software, and engineering
Energy and environment
Government, public affairs, and law
Medicine, health care, and drug information
News and complete-text publications
Patents, trademarks, and copyrights
People, books, consumer news, and travei
Physical science and technology
Sociai sciences and humanities
All'interno di quest'ultima supercategoria si ritrovano le due seguenti categorie con le relative basi dati:
Architecture
Academic Index
Avery Architecture Index
Architecture Database
Arts & Humanities Search
Arts
Artbibliographies Modem
Academic Index
Art Literature Internationai (RILA)
Arts & Humanities Search
Come già accennato, le informazioni presenti negli archivi elettronici non sono caotiche ma rigidamente organizzate secondo la più classica architettura che governa tutti i database: i record ed i fields; cioè a dire che ciascuna informazione elementare, come ad esempio una citazione bibliografica, rappresenta un'unità del database, il record appunto, e quest'ultimo è composto da tanti fields quanti sono gli elementi essenziali della citazione: uno per gli Autori, uno per il Titolo, uno per la Fonte bibliografica, uno per l'anno di pubblicazione, e così via.
É intuitivo che una siffatta strutturazione dell'informazione, unitamente ad un efficace software di consultazione, conduce a ricerche estremamente mirate e fornisce conseguentemente risultati non ridondanti.
Come si può accedere alle basi dati ed ai servizi di DIALOG Information Service?
Innanzitutto occorre stipulare un contratto con il suddetto distributore, verranno così assegnati un Account number ed una Password necessari per entrare nell'host. Assolta questa formalità si può optare, sul piano squisitamente operativo, per un collegamento attraverso linea telefonica (ad esempio linea Itapac dedicata o commutata) o per un collegamento via Telnet o, infine, per un collegamento via Internet. Sostanzialmente le differenze tra questi sistemi riguardano sia la velocità di trasmissione sia la modalità dell'interfaccia di interrogazione. Nel caso di Internet l'interfaccia è di tipo friendly, ma questa utilità si paga con un rallentamento, a volte estenuante, delle fasi di consulatzione. Le due figure sono abbastanza eloquenti, nel caso della consultazione via Internet l'utente dispone di tutta una serie di tasti che rendono decisamente semplice la consultazione degli archivi elettronici. Al contrario, con la consultazione via Telnet o su linea telefonica si devono esplicitare, su una command line che inizia con un "?", tutti i comandi secondo la sintassi propria del software di interrogazione e non si dispone di alcun elemento di aiuto.
Anche se può sembrare paradossale, la consultazione via Internet, con tutte le sue facility, non può eguagliare la precisione e la rapidità delle interrogazioni effettuate per altre vie.
A titolo di esempio se volessimo ricercare in una base di dati tutte le citazioni che soddisfano la condizione:
«i lavori di Renzo Piano sulla progettazione di Centri Congressi pubblicati dopo il 1990 sulla rivista Pencil points»
Saremmo costretti, con la consulatzione via Internet, ad eseguire la ricerca in due fasi: un primo passaggio per la selezione dell'Autore, dell'anno e del Periodico e successivamente, all'interno delle citazioni che soddisfano queste condizioni, un passaggio per la selezione dell'argomento. Con un'interfaccia non friendly il tutto si traduce con la seguente sintassi sulla command line:
? S Piano,R/AU and PY>1990 and JN="Pencil points" and Congress?/TI and Center? ?/TI
Da questo semplice esempio si evince, come peraltro già accennato in precedenza, che l'utilizzo dei sistemi informativi in linea, o per meglio dire delle basi di dati comunque distribuite, non è consigliabile ad un utente occasionale.
Al contrario, per consultazioni frequenti, o per argomenti estremamente specialistici, possono essere di indubbio interesse ed utilità sistemi informativi monotematici sia distribuiti in linea e/o rete, sia, molto più convenientemente, offerti su CD-ROM. Un tipico esempio per questi ultimi, soprattutto per l'argomento di copertura, è la Biobau-Datebank: una banca dati per l'edilizia nell'ottica del costruire bioecologico, ideata ed ingegnerizzata da Bosco Büeler e distribuita da GIBB Genossenschaft Information Baubiologie St. Gallerstrasse 28 CH-9230 Flawil Switzerland.


Bibliografia

Basili C. - La ricerca per soggetto dell'informazione in Internet. Biblioteche oggi n.6 1995.

Büeler B. - La Biobau-Datebank: una banca dati per l'edilizia nell'ottica del costruire bioecologico. Convegno Internazionale "Architettura bioecologica per la sostenibilità urbana: opportunità, conflitti e consensi per il governo del territorio" Genova 6 maggio 1999.

De Simone A. - La navigazione a motore Altavista. PCWindows n.65 1997.

Di Cintio R. - Banche dati di interesse ambientale. Inquinamento n.6 1991.

Di Cintio R. - Marine corrosion databank: design and developments. Corrosion prevention and control n.3 1991.

Feldt J. - Materials science and technology databases. Advanced materials & processes n.4 1994.

Schatz B.R. - Information retrieval in digital libraries: bringing search to the net. Science n.5298 1997.