|
Premessa
|
Uno degli scopi di questo intervento è, almeno
nelle sue intenzioni, generare realistiche aspettative in
chi si accinga per la prima volta ad utilizzare Internet e
le sue risorse informative. A questo proposito diviene
prioritario fugare eventuali false aspettative derivanti da
un confronto tra l'informazione in rete e l'ormai
consolidato ambito delle basi di dati in linea. Tale
confronto sarebbe malposto in quanto la natura di Internet
è profondamente diversa da quella dell'offerta
commerciale di basi di dati; si tratta di due mondi
complementari ciascuno con le proprie caratteristiche e con
la propria validità specifica.
Una prima distinzione scaturisce banalmente dalla
terminologia anglosassone utilizzata per indicare le due
classi di informazione: "networked information" per
l'informazione disponibile in rete e "online information"
per l'informazione disponibile attraverso fornitori
commerciali di basi di dati.
Le basi di dati in linea sono fondate sull'architettura
cosiddetta "a stella", dove un terminale "muto", privo
cioè della capacità di elaborazione locale che
possiede (ad esempio un personal computer), si collega ad un
elaboratore che eroga servizi (ad esempio un host computer).
Il terminale è completamente asservito
all'elaboratore centrale sia per il linguaggio di
interrogazione, cioè quello che l'host usa ed impone,
sia per il tipo di servizio, cioè il terminale
può utilizzare solo i servizi e le risorse
informative che l'host mette a disposizione. Nella singola
sessione di lavoro l'utente può accedere ad un unico
host ed usufruire quindi di un servizio specifico. Questo
tipo di architettura è sbilanciata a favore
dell'host, il quale ne costituisce il fulcro.
Nel caso di Internet, invece, la connessione è
reticolare, in quanto Internet è una costellazione di
nodi interconnessi dove, nella medesima sessione di lavoro,
è possibile "navigare" da un nodo all'altro della
rete vagolando tra le risorse informative di interesse
sparse nella rete ed utilizzando alternativamente i diversi
servizi di rete, passando dall'uno all'altro con estrema
facilità. Qualunque tipo di calcolatore (dal grande
elaboratore al personal computer) e di qualunque fornitore
(Digital, Macintosh, Sun, IBM, ....) può essere
connesso ad Internet; quest'ultima è dunque una rete
di calcolatori eterogenei. Nella rete ogni calcolatore ha
pari dignità dal punto di vista della comunicazione,
ha cioè diritto di operare con linguaggio e
modalità propri: "peer-to-peer connection".
Questa democrazia tecnologica è una conquista dovuta
al protocollo Tcp/Ip il quale funge da minimo comun
denominatore tra i linguaggi di calcolatori eterogenei. Gli
strumenti di navigazione in rete, quali Goopher e World wide
web sono stati appunto costruiti in base al protocollo
Tcp/Ip; questo fatto spiega come da un singolo strumento di
navigazione sia possibile accedere a più risorse
informative residenti su calcolatori eterogenei.
É noto come l'offerta di informazione in linea sia
vincolata ad un abbonamento al servizio. É pur vero
che l'industria dell'informazione si sta adeguando alle
pressioni del mercato e sta modificando i propri criteri di
attribuzione dei costi, non più basati sul tempo di
collegamento, bensì sulla quantità di
informazione recuperata: l'accesso all'informazione resta
comunque subordinato ad un costo. La maggior parte
dell'informazione in Internet è invece gratuita, in
virtù della matrice accademica di Internet, dove
l'utente è anche produttore di informazione, in uno
scambio tipico del ciclo di produzione della conoscenza in
ambito scientifico.
Strettamente legato all'aspetto dei costi è il
fattore qualità dell'informazione. L'informazione in
Internet è messa a disposizione spontaneamente e non
esistono al momento procedure sistematiche di validazione
né organismi responsabili di valutare e filtrare
l'informazione. Questi meccanismi potrebbero garantire la
qualità dell'informazione in termini di contenuto e
di aggiornamento. Allo stesso modo potrebbe essere risolto
un ulteriore aspetto poco desiderabile dell'informazione in
rete, la sua volatilità. Non esiste infatti alcuna
garanzia circa la disponibilità permanente di quanto
oggi è presente nella rete. Internet si pone dunque
come uno strumento di lavoro capace di portare sulla
scrivania un patrimonio informativo enorme, fin troppo
esteso ed in continuo aumento. Chi si affaccia alla rete
viene travolto da una miriade di informazioni entro le quali
a fatica riesce ad orientarsi. Questa situazione è
descritta da espressioni coniate appositamente dalla
comunità statunitense di Internet, quali "infoglut"
(indigestione da informazione) o "drinking from a firehose"
(bere da un estintore). L'atteggiamento del neofita di
Internet passa attraverso tre fasi fondamentali:
l'entusiasmo iniziale che lo porta a lunghe sessioni di
navigazione nell'informazione in rete, la
perplessità, quando si accorge che non esistono
supporti sistematici al recupero dell'informazione; la
delusione, o quanto meno il ridimensionamento
dell'entusiasmo, quando si rende conto che solo alcune fonti
o alcuni punti di partenza sono validi. La delusione
è tanto più forte poi se abbinata alla
aspettativa di trovare in rete un'offerta di servizi
informativi comparabile con quella delle basi di dati in
linea, tecnologia del contenuto e del recupero e non solo
dell'accesso.
É noto al contrario il livello di qualità e di
aggiornamento dell'informazione in linea.
|
|
Formato dell'informazione e
strumenti di ricerca
|
L'informazione in linea esiste prevalentemente sotto
forma di base di dati interrogabile per mezzo di un
programma per il recupero dell'informazione, chiamato
Information retrieval system (Irs). Questo tipo di software
è capace di individuare nella base di dati l'insieme
dei documenti che risultano pertinenti rispetto ad una
specifica esigenza informativa. Quest'ultima, definita
query, è esplicitata dall'utente attraverso un
linguaggio di interrogazione (query language). Ogni
information retrieval system ha associato il proprio
linguaggio e programmi diversi utilizzano linguaggi di
interrogazione diversi. La pertinenza del singolo documento
rispetto alla esigenza informativa espressa nella query
è valutata dal programma attraverso l'uso di un
thesaurus; questo è uno strumento di classificazione
e di rappresentazione semantica di un corpus di conoscenza
ed offre molteplici punti di accesso al singolo documento.
Il thesaurus è un elemento fondamentale nella logica
operativa dell'information retrieval system, che si basa sul
principio che nel documento siano presenti uno o più
dei descrittori presenti nel thesaurus. In altre parole la
base documentaria è classificata coerentemente con lo
schema semantico espresso nel thesaurus. Un altro fattore
fondamentale negli Irs è la strutturazione della base
documentaria: ogni documento è costituito da almeno
due parti: una parte strutturata ed una parte a testo
libero; il formato dei documenti nella stessa base
documentaria è omogeneo. Pertinenza dunque come
risultato di due elementi fondamentali: thesaurus e
strutturazione dei documenti.
Il formato base di dati è invece il meno diffuso in
Internet, dove prevale informazione a testo completo, non
strutturata e soprattutto non organizzata e
classificata.
Internet è un gigante cresciuto troppo in fretta ed
in maniera selvaggia che solo ora si sta cercando di
imbrigliare in una struttura organizzata. Gli strumenti per
l'accesso all'informazione in rete vengono indicati nella
letteratura anglofona come "Nir tools" (Networked
information retrieval tools), ma questa denominazione appare
alquanto impropria poiché sembra indicare una classe
di strumenti capaci di realizzare le funzioni di recupero
dell'informazione proprie degli Irs, applicandole, per di
più, a risorse informative distribuite in rete. Si
tratterebbe pertanto di strumenti ancor più potenti
dei tradizionali Irs che operano su basi di dati locali. A
mio avviso sistemi quali Goopher e World wide web assolvono
invece egregiamente alla funzione di navigazione
nell'informazione in rete, offrendo all'utente la
possibilità di accedere in modo facilitato ed
unificato a risorse che diversamente sarebbero accessibili
in modo più complesso. Per tale ragione si
preferisce, per questa classe di sistemi, la denominazione
"strumenti di navigazione in rete".
Il Goopher è un sistema ormai desueto di
distribuzione dell'informazione in rete. Nel Goopher
l'informazione viene organizzata secondo una gerarchia di
menù. Al contrario World wide web (più
confidenzialmente chiamato Www o W3), anch'esso sistema di
distribuzione dell'informazione in rete, è basato
sulla tecnologia degli ipertesti. Per questa
funzionalità di base sono state sviluppate interfacce
grafiche del tipo "point and click" quali Netscape, Internet
Explorer, Opera che facilitano ulteriormente la navigazione
in rete.
Quest'ultima però, vista la selvaggia proliferazione
dell'informazione, necessita di strumenti adeguati in grado
di agevolare il "netsurfer" nella fase di reperimento della
documentazione; si vuole cioè introdurre il concetto
di motore di ricerca e, in particolare, di navigazione a
motore Altavista. Questo è il mitico motore di
ricerca sul web, basato su una tecnologia nativa a 64 bit,
che ha reso famosa la ricerca scientifico/tecnica vantata da
Digital e che, a tutt'oggi, non ha eguali nel mondo.
|
|
Navigazione a motore
Altavista
|
Quando puntiamo alla home page di Altavista
(http://www.altavista.digital.com) compare subito una
schermata, di facile interpretazione, che permette di
effettuare immediatamente ricerche di ogni tipo. Tale
interfaccia di default è quella per operare ricerche
in modalità "Simple Query" ma è anche
disponibile una modalità "Advanced Query" con
un'interfaccia utente più friendly della
precedente.
Prima di fornire una sintetica descrizione delle
modalità di interrogazione del motore Altavista,
è bene precisare che nel compiere la ricerca tale
motore esclude le pagine web in cui i termini da ricercare
siano inseriti come commento. Ciò significa che, a
seconda della sintassi usata, Altavista ricerca la parola
digitata all'interno del titolo, del testo, dei link, delle
Aplet, degli ActiveX, dei titoli e delle immagini.
Simple Query. É bene innanzitutto precisare alcune
definizioni relative alla terminologia di seguito
utilizzata.
Parola: Altavista individua come parola qualunque gruppo di
caratteri alfanumerici ad eccezione, quindi, di quelli non
esplicitamente alfanumerici (, . ; ' & % $ / # _ ~) e,
ovviamente, degli spazi bianchi, dei caratteri tab e dei
ritorno-carrello. Pertanto Altavista individuerà nel
termine cd-rom due parole distinte ed altrettanto
farà con i cognomi quali D'Elia.
Frase: Altavista definisce come frase un qualsiasi gruppo di
parole separate da un qualsivoglia numero di spazi bianchi o
segni di punteggiatura, anche se privi di senso. In tale
ottica la frase "il lettore di cd-rom era collegato al
personal di O'Neal" è composta da 12 parole ed
è perfettamente identica a quella eventualmente
così digitata: "il lettore di cd rom era collegato al
personal di O Neal".
Nella modalità Simple Query occorre spesso fare uso
intensivo delle virgolette ("). Digitando per
esempio,....
Informatica "Russel Borland" italiano
....verranno individuati tutti i siti in cui sia citato
almeno uno dei tre gruppi alfanumerici "Informatica" oppure
"Russel Borland" oppure "italiano". Di tale quantità,
decisamente enorme, verranno elencati per primi i siti in
cui Altavista ha incontrato il maggior numero di ricorrenze
dei gruppi alfanumerici indicati. Tra i primi, per esempio,
verrà indicato il sito che contiene la frase del tipo
"Esce il manuale in italiano "Introduzione a Windows 98" di
Russel Borland edito da Mondadori Informatica", ma non
farà parte della selezione il sito contenente la
frase "Esce il manuale in italiano "Introduzione a Windows
98" di R. Borland edito da Mondadori Informatica".
In tema di precisazioni occorre ricordare che
digitando....
informatica "russel borland" italiano
....verrà individuato anche il sito che dovesse
contenere al suo interno le parole Informatica, "Russel
BORLAND" oppure Italiano.
La stessa ricerca attuata però con....
Informatica "Russel BoRLAND" ITAliano
....evidenzierà probabilmente solo i siti in cui
è presente la parola "Informatica" con la "I"
maiuscola. In altre parole, per Altavista non c'è
differenza tra maiuscole e minuscole, purché la
parola sia digitata interamente in minuscolo. Nel caso in
cui anche una sola lettera sia digitata in maiuscolo, la
parola cui appartiene verrà rintracciata esattamente
come digitata. Anche i caratteri accentati vengono
considerati con rigore: la ricerca basata sul plurale di
dominio (dominì) escluderà di fatto i siti in
cui è presente la stessa parola digitata
semplicisticamente come domini; cercando invece domini,
entrambe le parole (domini e dominì) verranno
considerate valide.
Altavista consente l'utilizzo degli operatori booleani AND,
OR, NOT, ma con la modalità Simple Query occorre
usare una simbologia differente. Per effettuare, ad esempio,
una ricerca che individui i siti che parlano di D'Alema e di
Berlusconi ma non di Bertinotti, usando un linguaggio di
programmazione digiteremo....
D'Alema AND Berlusconi AND NOT Bertinotti
In modalità Simple Query di Altavista, invece, la
ricerca si imposta digitando....
+D'Alema +Berlusconi -Bertinotti
Analogamente per simulare....
D'Alema OR Berlusconi AND NOT Bertinotti
....occorrerà digitare:
D'Alema Berlusconi -Bertinotti
Oltre ai segni meno e più una funzione in parte
superflua la svolge il punto e virgola (;) che, simile allo
spazio lo sostituisce. Per esempio:
"Russel Borland"
....conduce a risultati identici se digitata come....
Russel;Borland
Molto interessante, al contrario, l'uso dell'asterisco,
carattere wilcard (*) che permette, come nella sintassi
MS-DOS, di individuare tutti i siti che contengono qualunque
carattere posto di seguito fino al primo spazio incontrato
o, al massimo, fino a cinque caratteri. Per esempio....
ital*
....individuerà i siti in cui è presente la
parola Italia, Italy, italico, italiano, ma anche la
società ItalStat.
L'asterisco può essere impiegato anche all'interno di
una parola. Per esempio....
con*za
....individua conferenza, ma anche continenza e consulenza.
Altavista è dotato di un sistema di "autoprotezione"
da ricerche eccessivamente estenuanti: non appena il numero
di siti supera un certo valore (che comunque si aggira sulla
rispettabile cifra di circa cinque milioni) interrompe la
ricerca e non visualizza alcun risultato se non la notifica
del numero di siti individuato sino a quel momento.
Altavista visualizza il risultato della ricerca in ordine
che rispetta priorità ben definite. In particolare
compaiono in cima alla lista i documenti caratterizzati dai
seguenti requisiti:
Presenza delle parole (da ricercare) all'interno del nome
del sito stesso o, in alternativa, nelle prime cinque parole
della home page.
Nel caso di ricerca di più parole, hanno precedenza i
siti web che contengono le parole stesse molto vicine tra
loro.
Documenti che contengono più volte le parole da
ricercare.
Quando Altavista individua i vari siti ne visualizza
l'elenco dando precedenza alle modalità sopra
descritte. A seconda dell'impostazione iniziale al link
dell'Url seguirà una descrizione breve o lunga
(comunque al massimo 1024 caratteri) trascrivendo le prime
parole della pagina stessa.
Advanced Query. Le regole per definire parole o interi
paragrafi, l'impostazione di maiuscole e minuscole ed il
carattere wilcard asterisco (*), possono qui essere
utilizzate intensivamente per attivare ricerche
complesse.
Oltre ai classici operatori binari AND, OR e NOT (da
scrivere indifferentemente in maiuscolo o minuscolo)
Altavista riconosce il nuovo operatore NEAR. Volendo
è possibile sostituire gli operatori con i simboli
riportati nella seguente tabella dove vengono peraltro
esplicitati anche i rispettivi valori ASCII.
Operatore
|
Simbolo
|
Valore ASCII
|
AND
|
&
|
38
|
OR
|
|
|
124
|
NOT
|
!
|
33
|
NEAR
|
~
|
126
|
Come avviene per i linguaggi di programmazione, nel caso in
cui gli operatori dovessero far parte della ricerca, gli
operatori devono essere racchiusi tra virgolette ("). In
caso contrario, infatti, gli operatori verranno interpretati
come tali.
Facciamo ora alcune considerazioni di base su ciascun
operatore. Nell'esempio che segue, relativo a AND
(&)....
Inter AND Milan
....Altavista effettuerà la ricerca dei documenti in
cui siano presenti sia la parola Inter sia Milan ovunque
esse si trovino. Ma una ricerca del tipo....
Inter Milan
....apparentemente simile alla precedente, restituirebbe
invece documenti in cui le due parole siano presenti
esattamente come digitate, cioè segnalando il
documento "La partita Inter Milan di domenica scorsa ha
entusiasmato i tifosi di entrambe le squadre" ma con la
sicura esclusione del documento che riportasse per esempio
"Anche stavolta la sfida Milan Inter non ha deluso i
tifosi".
L'operatore OR (|) è molto più elastico di AND
dal momento che individua indifferentemente uno qualsiasi
dei termini legati all'operatore, ma con l'indubbio
risultato di restituire un numero maggiore di documenti. Per
esempio....
Ferrari OR Fiat
....individuerà qualunque documento in cui sia
presente almeno uno dei due termini.
L'operatore NOT (!) consente di escludere documenti in cui
sia presente, anche una sola volta, la parola che segue
l'operatore stesso. Per esempio....
Inter AND NOT Milan
....escluderà di fatto tutti i documenti in cui sia
presente la parola Inter e compaia contemporaneamente anche
la parola Milan, anche se il riferimento a quest'ultima
fosse del tutto marginale.
Passiamo ora a considerare l'operatore NEAR (~). Una ricerca
del tipo....
Schiffer NEAR Campbell
....individuerà solo i documenti in cui le due parole
risultino distanti l'una dall'altra (anche in senso inverso)
non più di dieci parole. Ciò significa tra
l'altro che le due ricerche....
Schiffer NEAR Campbell
Campbell NEAR Schiffer
....conducono a risultati identici.
Vi è una sostanziale differenza fra le parentesi
tonde (aperte e chiuse) e le virgolette descritte nella
sezione Simple Query. Con quest'ultima modalità
impostando....
"Naomi Campbell"
....si individuano solo documenti che contengono le due
parole così come sono digitate. Escludendo quindi
tutti quei documenti che, se pur significativi, riportassero
solo il cognome della nota topmodel oppure accanto al
cognome la sola iniziale del nome. Per l'intercettazione
anche di questi documenti sarebbe sufficiente impostare la
ricerca in modalità Simple Query con:
+Naomi +Campbell
....ed in modalità Advanced Query con:
Naomi AND Campbell
Ma anche AND, OR e NOT nascondono sottili insidie oppure, al
contrario, favoriscono ricerche più accurate.
Impostando sempre in Advanced Query la ricerca con....
Naomi Campbell OR N. Campbell AND Claudia Schiffer OR C.
Schiffer
....si aumenta la possibilità di individuare
documenti che parlano contemporaneamente delle due famose
topmodel. La ricerca....
(Claudia OR Schiffer) AND (Naomi OR Campbell)
....aumenta a dismisura tale probabilità
perché restituirebbe anche documenti che parlano di
Claudia Campbell o di Naomi Schiffer.
Comandi apparentemente diversi come....
Ferrari OR (Porsche AND Ford)
Ferrari OR Porsche AND Ford
....sono invece del tutto identici perché le
parentesi sono inutili in quanto l'operatore AND ha
priorità su OR e verrebbe comunque attuato per
primo.
Per quanto riguarda ancora le equivalenze....
NOT Berlusconi AND D'Alema
(NOT Berlusconi) AND D'Alema
....le due espressioni sono identiche perché
individuano entrambe documenti in cui si parla di D'Alema ma
non di Berlusconi, anche in questo caso AND ha
priorità su NOT.
Diversa è la situazione se si impartisce....
NOT (Berlusconi AND D'Alema)
....che esclude tutti i documenti che citano entrambi gli
uomini politici.
Anche l'uso troppo disinvolto di NEAR può offrire
trabocchetti. Anzitutto c'è da dire che NEAR ha
priorità su AND. Ciò significa che le due
impostazioni che seguono sono equivalenti....
Ferrari NEAR Porsche AND Torino
(Ferrari NEAR Porsche) AND Torino
....ed entrambe hanno un'elevata probabilità di
trovare documenti sul Salone dell'Auto di Torino in cui si
parli di eventuali confronti tra Ferrari e Porsche,
purché, come già detto in precedenza, tali
nomi siano a distanza non eccessiva.
Il motore di ricerca di Altavista è identico
qualunque sia il tipo di ricerca attivato. Ciò
nonostante è possibile pervenire a risultati
sostanzialmente diversi a seconda della modalità
impostata (Simple oppure Advanced Query). Nel caso delle
ricerche avanzate compare un campo speciale definito Results
Ranking Criteria il cui inadeguato utilizzo può
generare perplessità.
Quando effettuiamo una ricerca con la modalità Simple
Query per cercare ad esempio "Claudia Schiffer" in effetti
Altavista attiva, in modo trasparente, la modalità
Advanced Query ed inserisce "Claudia Schiffer" sia nel campo
di ricerca Selection Criteria (d'ora in poi definito SC) sia
nel campo Resulting Ranking Criteria (d'ora in poi definito
RRC). Questo modo di operare impartisce ad Altavista un
ordine con il seguente significato: "cerca sul web i siti
che contengono la coppia di parole "Claudia Schiffer" ed
elencali secondo la priorità indicata nel campo RRC".
Dal momento che entrambi i campi contengono "Claudia
Schiffer" ecco che la ricerca ha esito identico tanto se
condotta con la modalità Simple Query, quanto se
effettuata in modalità Advanced Query, riempiendo,
come indicato, i due campi.
Se, invece, in quest'ultima modalità si effettua la
ricerca impostando il nome della topmodel solo nel campo SC
(lasciando vuoto RRC) in elenco compariranno i siti senza un
ordine ben preciso, o meglio secondo l'ordine FIFO (First In
First Out), il primo sito incontrato che soddisfa le
condizioni imposte è il primo ad essere inserito
nell'elenco, e così per quelli che seguono.
Per riassumere Altavista effettua la ricerca dei siti in cui
siano presenti le impostazioni indicate nel campo SC.
Nell'elencare i siti individuati esamina dapprima il
contenuto del campo RRC; se questo è vuoto l'elenco
è pressoché casuale, se invece in RRC è
presente una parola, o anche un criterio, verranno
individuati gli stessi siti di prima, ma verranno indicati
per primi quelli che contengono la parola o che soddisfano
al criterio indicato in RRC. In pratica si tratta di
un'azione simile all'inserimento di un ulteriore operatore
AND che svolge la funzione di un secondo filtro.
|
|
Information retrieval
system
|
Gli Irs, nati negli Stati Uniti verso la fine degli anni
60 per scopi esclusivamente militari, si convertono, dopo
circa un decennio, per un impiego civile e sono di
indiscusso valore per tutti i settori della ricerca
scientifica e tecnologica. I suddetti sistemi hanno subito,
in questi ultimi trent'anni, uno sviluppo esponenziale tanto
sul piano quantitativo che su quello qualitativo e possono
essere attualmente considerati il prodotto di eccellenza del
mercato dell'informazione.
Con il termine banche dati e basi di dati in linea si
intende comunemente un archivio di informazioni: a)
memorizzato su supporto magnetico; b) gestito tramite
elaboratore; c) organizzato secondo un insieme di relazioni
contestuali che ne consentono il recupero tramite opportuni
linguaggi di interrogazione; d) interrogabile tramite un
terminale ed un collegamento su linea telefonica.
Poiché il termine base di dati può riferirsi a
differenti tipi di archivi informativi, come ad esempio
quelli utilizzati dalle banche, dalle compagnie aeree, dalle
grandi compagnie alberghiere, ecc., si precisa che le basi
dati cui si fa riferimento in questa nota sono quelle
contenenti informazioni di vario tipo ed accessibili
pubblicamente ad un'utenza molto diversificata composta da
ricercatori, manager, amministratori, bibliotecari,
documentalisti, ecc.
Nell'industria delle basi di dati in linea è
possibile, almeno concettualmente, distinguere quattro
figure di partners, ognuna delle quali assicura lo
svolgimento di ben precise funzioni:
PRODUZIONE:
Produttori di basi dati. Sono organizzazioni che raccolgono
e memorizzano le informazioni bibliografiche su supporti
magnetici. Sono responsabili del contenuto intellettuale dei
dati e della qualità di documentazione, scelgono le
fonti di informazione ed il modo di analizzarle e ne
determinano il grado di approfondimento. Facendo uso di
specialisti nei vari settori svolgono operazioni di
indicizzazione sulle referenze bibliografiche che consistono
nell'associare delle parole chiave ad ogni documento per
facilitarne il loro recupero. La maggior parte dei
produttori non distribuisce direttamente i propri prodotti
ma si affida ad un distributore.
DISTRIBUZIONE:
Distributori di basi dati. Si pongono come intermediari tra
i produttori e gli utenti di informazioni, commercializzando
le basi dati, assicurandone la promozione e fornendo
assistenza. Vengono abitualmente chiamati host computers,
identificandoli con i calcolatori che ospitano le basi dati.
La funzione principale dei distributori è
rappresentata dallo sviluppo e dalla gestione autonoma del
software necessario sia per il collegamento via rete, sia
per il reperimento in linea dell'informazione. Essi inoltre
assicurano una nutrita serie di servizi collaterali quali la
diffusione di informazioni in merito alle basi dati
ospitate, l'organizzazione di corsi di formazione all'uso di
questo servizio, la pubblicazione di manuali per l'utilizzo
delle basi dati, ecc. Generalmente gli host computers
sviluppano un proprio linguaggio di interrogazione,
compatibile con tutte le basi dati distribuite, la cui
semplicità di impiego rappresenta il principale
parametro di scelta utilizzato dall'utente. Gli host
computers possono essere specializzati o generici; i primi
garantiscono la copertura approfondita di un argomento
specifico, i secondi tendono a coprire l'offerta di mercato
gestendo basi dati di settori diversi. Per questi ultimi
viene spesso utilizzato il termine di supermercati
dell'informazione o host supermercato. Tra questi il
più importante a livello mondiale è senza
dubbio DIALOG Information Services Inc. di Palo Alto (USA)
che rende fruibili in linea circa 800 basi dati a copertura
di vari settori, dall'economico al tecnico-scientifico, dal
finanziario all'umanistico, ecc. Recentemente il mercato
dell'informazione ha visto svilupparsi, con il nome di
"gateway", un particolare tipo di servizio che si pone da
intermediario tra l'utente e diversi host computers. Tipici
esempi sono Easynet per gli Stati Uniti.
TRASPORTO:
Gestori delle reti di trasmissione. Rappresentano il mezzo
di comunicazione tra l'host computer e l'utente e sono
costituiti dalla rete telefonica che collega, tramite un
apposito apparecchio o modem, l'elaboratore al terminale
video dell'utente.
USO DEI DATI:
Utente. Ciascun individuo dotato dei mezzi idonei al
collegamento è potenzialmente in grado di accedere ad
un host computer per utilizzarne i servizi. Per molti utenti
però l'uso occasionale di questi servizi non
giustifica l'immobilizzo delle risorse necessarie a questo
scopo ed il tempo necessario per la continua documentazione
sulle basi dati che si rendono disponibili, sui diversi
linguaggi di interrogazione e sull'uso dei vari sistemi di
classificazione adottati. L'utente occasionale preferisce
quindi rivolgersi a professionisti intermediari che svolgono
le ricerche in linea per conto terzi.
Le numerose basi di dati accessibili in linea (attualmente
superano le 3.000 unità) si differenziano oltre che
per gli argomenti che trattano, anche per le finalità
che intendono raggiungere, la copertura geografica e
temporale che consentono, la periodicità con cui i
loro produttori rendono disponibili in esse nuove
informazioni, la frequenza di aggiornamento, ecc.
L'European Association of Information and Documentation
Services (EUSICID) ha tracciato una tipologia molto adeguata
a descrivere la varietà delle basi dati accessibili
in linea, basata sul tipo delle informazioni in esse
contenute e sulla funzione da esse svolta.
Secondo questa tipologia le basi dati possono essere
classificate in due principali categorie:
Basi dati di informazione secondaria (Reference Databases)
che consentono di avere accesso ad informazioni di
riferimento. Questo tipo di archivio contiene i dati che
consentono di identificare e descrivere la fonte informativa
(articoli, rapporti, atti di congressi, tesi, ecc.) atta a
soddisfare le esigenze dell'utente. Appartengono a questa
classe:
basi dati bibliografiche che contengono descrizioni
bibliografiche relative a vari tipi di pubblicazioni
originali;
basi dati di riferimento che contengono segnalazioni di
informazioni, in genere non pubblicate, relative a progetti
di ricerca in corso nell'ambito di vari settori,
organizzazioni, materiali audiovisivi, ecc.
Basi dati di informazione primaria (Source Databases) che
forniscono direttamente l'informazione stessa, quella
elaborabile per produrre nuova conoscenza. Questo tipo di
archivio contiene direttamente dati ed informazioni su
elementi reali: testi completi di documenti, formule
chimiche, dati fisici, energetici, informazioni economiche,
statistiche, ecc. Appartengono a questa classe:
basi dati di testi completi che contengono il testo
integrale o le parti fondamentali di documenti originali
come ad esempio articoli di riviste, di quotidiani, testi di
leggi, norme di unificazione, capitoli di libri, ecc.;
basi dati numeriche che contengono dati numerici
accompagnati da una documentazione che ne facilita l'accesso
e la manipolazione, a questi dati si adattano generalmente
software statistici utilizzabili in linea;
basi dati numerico-testuali che contengono combinazioni di
dati numerici ed alfanumerici;
basi dati di proprietà che contengono dati su
caratteristiche di molti materiali, processi, fenomeni,
ecc.
In questi ultimi anni lo sviluppo del protocollo di
comunicazione Tcp/Ip associato alla presenza ormai globale
di terminali grafici, hanno consentito la comparsa, per ora
molto tiepida, di una terza categoria:
Basi dati di informazione secondaria e primaria (Reference
and Source Databases). Si tratta in pratica di archivi
bibliografici in grado di fornire anche il testo integrale
dei riferimenti in essi contenuti.
Come è stato accennato in precedenza il mercato
dell'informazione in linea ha come fulcro la figura del
distributore ed è proprio una scelta oculata di
quest'ultimo a determinare i massimi risultati con il minimo
sforzo da parte dei singoli utenti. Le scelte normalmente
vengono operate in modo tale da poter accedere al maggior
numero di basi di dati, attinenti al settore di interesse,
sul minor numero di host; questa esigenza è
fondamentalmente dettata dal fatto che, in genere, quando si
cambia host è necessario rivedere la strategia
dell'interrogazione, operazione che può risultare
onerosa specialmente se si tratta di interrogazioni
complesse.
Per quanto riguarda poi la scelta delle basi di dati,
è molto importante conoscere la filosofia con cui
è stata costruita una base di dati per poterla
utilizzare al meglio; sono infatti disponibili più
basi di dati per uno stesso argomento ma contenenti
informazioni provenienti da fonti diverse.
Analizziamo ora in dettaglio i servizi offerti da un host
multidisciplinare quale DIALOG Information Service.
Tale distributore, che come già ricordato rende
fruibile in linea circa 800 basi di dati, ha sviluppato un
software di interrogazione unico (DialogLink), cioè a
dire che l'utente, ragionando per assurdo, è in grado
di consultare con una singola query tutte le basi dati
distribuite. Parallelamente DIALOG ha promosso un servizio
collaterale (Dialorder), ma fondamentale quale la fornitura
di documenti integrali (brevetti, pubblicazioni, rapporti
tecnici, tesi, ecc.), interfacciando l'utente con i
più prestigiosi document supplier quali ad esempio
The British Library, NTIS, CNRS, ecc.
Nel 1995 DIALOG ha assorbito un altro distributore DataStar
Europe's ed ha contestualmente reso fruibili circa 350
archivi elettronici di questo secondo host.
I principali argomenti di copertura delle basi dati
distribuite da DIALOG sono raggruppate nelle seguenti 13
supercategorie:
Agriculture, food, and nutrition
Biosciences and chemistry
Business news and industry analysis
Company information and financial data
Computers, software, and engineering
Energy and environment
Government, public affairs, and law
Medicine, health care, and drug information
News and complete-text publications
Patents, trademarks, and copyrights
People, books, consumer news, and travei
Physical science and technology
Sociai sciences and humanities
All'interno di quest'ultima supercategoria si ritrovano le
due seguenti categorie con le relative basi dati:
Architecture
Academic Index
Avery Architecture Index
Architecture Database
Arts & Humanities Search
Arts
Artbibliographies Modem
Academic Index
Art Literature Internationai (RILA)
Arts & Humanities Search
Come già accennato, le informazioni presenti negli
archivi elettronici non sono caotiche ma rigidamente
organizzate secondo la più classica architettura che
governa tutti i database: i record ed i fields; cioè
a dire che ciascuna informazione elementare, come ad esempio
una citazione bibliografica, rappresenta un'unità del
database, il record appunto, e quest'ultimo è
composto da tanti fields quanti sono gli elementi essenziali
della citazione: uno per gli Autori, uno per il Titolo, uno
per la Fonte bibliografica, uno per l'anno di pubblicazione,
e così via.
É intuitivo che una siffatta strutturazione
dell'informazione, unitamente ad un efficace software di
consultazione, conduce a ricerche estremamente mirate e
fornisce conseguentemente risultati non ridondanti.
Come si può accedere alle basi dati ed ai servizi di
DIALOG Information Service?
Innanzitutto occorre stipulare un contratto con il suddetto
distributore, verranno così assegnati un Account
number ed una Password necessari per entrare nell'host.
Assolta questa formalità si può optare, sul
piano squisitamente operativo, per un collegamento
attraverso linea telefonica (ad esempio linea Itapac
dedicata o commutata) o per un collegamento via Telnet o,
infine, per un collegamento via Internet. Sostanzialmente le
differenze tra questi sistemi riguardano sia la
velocità di trasmissione sia la modalità
dell'interfaccia di interrogazione. Nel caso di Internet
l'interfaccia è di tipo friendly, ma questa
utilità si paga con un rallentamento, a volte
estenuante, delle fasi di consulatzione. Le due figure sono
abbastanza eloquenti, nel caso della consultazione via
Internet l'utente dispone di tutta una serie di tasti che
rendono decisamente semplice la consultazione degli archivi
elettronici. Al contrario, con la consultazione via Telnet o
su linea telefonica si devono esplicitare, su una command
line che inizia con un "?", tutti i comandi secondo la
sintassi propria del software di interrogazione e non si
dispone di alcun elemento di aiuto.
Anche se può sembrare paradossale, la consultazione
via Internet, con tutte le sue facility, non può
eguagliare la precisione e la rapidità delle
interrogazioni effettuate per altre vie.
A titolo di esempio se volessimo ricercare in una base di
dati tutte le citazioni che soddisfano la condizione:
«i lavori di Renzo Piano sulla progettazione di Centri
Congressi pubblicati dopo il 1990 sulla rivista Pencil
points»
Saremmo costretti, con la consulatzione via Internet, ad
eseguire la ricerca in due fasi: un primo passaggio per la
selezione dell'Autore, dell'anno e del Periodico e
successivamente, all'interno delle citazioni che soddisfano
queste condizioni, un passaggio per la selezione
dell'argomento. Con un'interfaccia non friendly il tutto si
traduce con la seguente sintassi sulla command line:
? S Piano,R/AU and PY>1990 and JN="Pencil points" and
Congress?/TI and Center? ?/TI
Da questo semplice esempio si evince, come peraltro
già accennato in precedenza, che l'utilizzo dei
sistemi informativi in linea, o per meglio dire delle basi
di dati comunque distribuite, non è consigliabile ad
un utente occasionale.
Al contrario, per consultazioni frequenti, o per argomenti
estremamente specialistici, possono essere di indubbio
interesse ed utilità sistemi informativi monotematici
sia distribuiti in linea e/o rete, sia, molto più
convenientemente, offerti su CD-ROM. Un tipico esempio per
questi ultimi, soprattutto per l'argomento di copertura,
è la Biobau-Datebank: una banca dati per l'edilizia
nell'ottica del costruire bioecologico, ideata ed
ingegnerizzata da Bosco Büeler e distribuita da GIBB
Genossenschaft Information Baubiologie St. Gallerstrasse 28
CH-9230 Flawil Switzerland.
|