Giugno 2002
Vol.III, no. 3, Giugno 2002
L'Information Retrieval ed il Web
Pubblicato per conto del CEPIS da Novática. Versione italiana a cura di Tecnoteca in collaborazione con l' ALSI, con i dovuti permessi degli editori di Upgrade
Guest Editor: Ricardo Baeza-Yates, Peter Schäuble
Numero completo:[Abstract HTML in Inglese] - [PDF in Inglese: 86 pagine; 2.530 KB]
Singoli articoli
Copertina PDF in Inglese: 215 KB di Antonio Crespo Foix, © ATI 2001
L' Acrobat Reader è necessario per visualizzare i file PDF
--------------------------------------------------------------------------------
Editorial: UPGRADE grows and matures [PDF in Inglese: 1 pagina, 480 KB]
Prof. Wolffried Stucky, Presidente del CEPIS
Riassunto italiano: Editoriale: UPGRADE cresce e matura.Il Presidente del CEPIS, l'ente che pubblica UPGRADE, rivede il presente ed il futuro della nostra rivista digitale.
L'Information Retrieval ed il Web
Ricardo Baeza-Yates, Peter Schäuble Guest Editor
Presentation - Retrieving Information: A Discipline with a Tradition [vedi traduzione in italiano in calce] [PDF in Inglese: 1 pagina, 833 KB]
(Includes Useful References on Information Retrieval)
Ricardo Baeza-Yates, Peter Schäuble, Guest Editor
Riassunto italiano: Presentazione - Il recupero dell'informazione: una disciplina con una tradizione (Include Referenze utili sull' Information Retrieval) I guest editor introducono lo schema ed i contenuti di questo numero, inclusa una lista di referenze utili ad approfondire l'argomento dell' Information Retrieval (IR)
Errata: La breve biografia professionale di Ricardo Baeza-Yates è stata completata con la seguente informazione, che era stata omessa per errore nella sua versione originale: E' coautore del libro Modern Information Retrieval, Addison-Wesley, 1999.
Information Retrieval for Enterprise Content [PDF in Inglese: 4 pagine, 845 KB]
Prabakhar Raghavan
Riassunto italiano: Information Retrieval per contenuti aziendali. L'ultima decade ha visto la crescita dell' Information Retrieval da una disciplina limitata alle scienze dell'Informazione e librarie, a una quotidiana esperienza lavorativa per milioni di persone nel mondo. Questa rivoluzione è stata guidata in larga misura dal World Wide Web, quando i fornitori di strumenti software hanno focalizzato la loro attenzione sulla gestione, ricerca e tassonomia dei contenuti attraverso il Web. Allo stesso tempo, le grosse aziende hanno investito talmente verso la messa in rete di tutta la loro informazione, che è ormai possibile per i loro dipendenti avere una finestra unica sull'intero patrimonio di dati aziendali. Mettiamo in luce il fatto che mentre i dipendenti cercano esperienze simili al web in azienda, i due domini differiscono notevolmente per quanto concerne la natura dei contenuti, il comportamento degli utenti, e le motivazioni economiche. Il nostro obiettivo principale è quello di delineare le richieste dell'Information Retrieval per l'infrastruttura dei contenuti aziendali.
Information Retrieval on the Web: A New Paradigm [PDF in Inglese: 3 pagine, 843 KB]
Jacques Savoy
Riassunto italiano: Information Retrieval sul Web: Un nuovo paradigma. Per la comunità dell' Information Retrieval (IR), il Web rappresenta ora un nuovo paradigma, che genera allo stesso tempo nuove sfide ed attrae un crescente interesse da tutto il mondo. Un importante esempio di queste sfide riguarda la gestione di enormi raccolte di testi e la valutazione dell'utilità dei collegamenti ipertestuali in essi contenuti.
An Analysis of Query Languages for XML [PDF in Inglese: 13 pagine, 902 KB]
Adelaida Delgado, Ricardo Baeza-Yates
Riassunto italiano: Un'analisi dei linguaggi di Query per XML. Un linguaggio di query per XML dovrebbe essere sufficientemente flessibile per coprire l'intero spettro delle fonti di informazione che possono essere etichettate con XML, inclusi le basi di dati ed i documenti web. In questo articolo presentiamo un'analisi comparativa di diversi linguaggi di query che sono stati creati per XML. Studiamo un insieme di caratteristiche desiderabili, sia dal punto di vista della comunità dei fornitori di dati semistrutturati - che pone l'enfasi su basi di dati di grandi dimensioni, l'integrazione di fonti eterogenee e la trasformazione di dati in formati comuni di interscambio -, che dal punto di vista della comunità dell'information retrieval community - che pone l'enfasi su ricerche a tutto testo, la manipolazione dei risultati, le relazioni di inclusione, distanza, e valutazione (ranking) dei documenti risultanti.
Errata: La breve biografia professionale di Ricardo Baeza-Yates è stata completata con la seguente informazione, che era stata omessa per errore nella sua versione originale: E' coautore del libro Modern Information Retrieval, Addison-Wesley, 1999.
Metodologies to develop Web Information Systems and Comparative Analysis [PDF in Inglese: 12 pagine, 887 KB]
María José Escalona, Manuel Mejías, e Jesús Torres
Riassunto italiano: Metodologie per lo sviluppo di Sistemi Informativi su Web ed una analisi comparativa. Nuovi sistemi sono in fase di sviluppo con differenti scopi rispetto ai sistemi sviluppati negli anni scorsi. I sistemi attuali tendono ad essere distribuiti, con enormi richieste in termini di capacità di immagazzinamento, e complessi requisiti funziionali. Inoltre questi sistemi sono distribuiti via Internet così che l'interfaccia, il recupero dell'informazione, la navigazione e la multimedialità sono tutti aspetti di importanza fondamentale. Questi nuovi sistemi sono noti come Sistemi Informativi su Web (WIS: Web Information Systems). La loro complessità ed il fatto che sono sistemi che richiedono una costante manutenzione per adattarsi di continuo alle nuove esigenze degli utenti fanno capire che non possono essere sviluppati con processi standardizzati. Non c'è una metodologia universalmente accettata dalla comunità dell'ingegneria del software. Questo articolo presenta il risultato di uno studio comparativo delle diverse metodologie che sono correntemente applicate allo sviluppo di Sistemi Informativi su Web.
Distributed Information Retrieval from Web-Accessible Digital Libraries using Mobile Agents [PDF in Inglese: 7 pagine, 1,023 KB]
J. Alfredo Sanchez, Sandra Nava, Lourdes Fernández, e Griselda Chevalier
Riassunto italiano: Recupero dell'informazione distribuita da librerie digitali attraverso Agenti Mobili. Il MAIDL (Mobile Agents in Digital Libraries) è una struttura progettata al fine di supportare il recupero di informazione distribuita da una federazione di librerie digitali eterogenee e accessibili attraverso il web. La federazione si realizza attraverso due meccanismi: un protocollo di raccolta di metadati ed agenti mobili che esplorano e filtrano le risorse informative da raccolte multiple e distribuite. La componenti principali dell'architettura delMAIDL sono nodi autonomi dove risiedono librerie digitali. Il protocollo della Open Archives Initiative (OAI) è la base per l'interoperabilità fra i nodi partecipanti. Ad ogni nodo, le richieste di informazioni che arrivano dagli utenti sono ricevute da agenti che viaggiano ai vari nodi della federazione alla ricerca di risorse appropriate. Ogni agente può utilizzare i differenti meccanismi di recupero dell'informazione disponibili presso ogni nodo per recuperare l'informazione rilevante per la richiesta dell'utente. Questo articolo describe l'architettura del MAIDL e i primi incoraggianti risultati ottenuti da una specifica federazione.
Automatic Extraction of Semantically-Meaningful Information from the Web [PDF in Inglese: 8 pagine, 1,012 KB]
Rafael Corchuelo, José Luis Arjona, and Miguel Toro
Riassunto italiano: Estrazione automatica di informazione semanticamente significativa dal Web. Il Web Semantico porterà alla rete Internet il significato, rendendo possibile per gli agenti web la comprensione dell'informazione contenuta nella rete. Tuttavia, le tendenze correnti non sembrano supportare l'ipotesi che il web semantico possa essere adottato in pochi anni a venire. In questo senso, l'estrazione di informazioni significative dal web diventa un handicap per gli agenti web. In questo articolo, presentiamo un ambiente per l'estrazione automatica di informazione semanticamente significativa dal web attuale. La separazione del processo di estrazione dalla logica operativa dell'agente assicura un incremento della modularità, dell'adattabilità, e manutenibilità del sistema. Il nostro approccio è nuovo in quanto combina differenti tecnologie per l'estrazione dell'informazione, per la navigazione del web e per l'adattamento automatico a cambiamenti del web.
Ontologies for Database Federation [PDF in Inglese: 10 pagine, 919 KB]
Nieves Brisaboa, Miguel Penabad, Angeles Places, and Francisco Rodríguez
Riassunto italiano: Ontologie per la federazione di basi di dati. Questo lavoro presenta un'architettura basata su ontologie per federare basi di dati sul web. L'uso delle ontologie per federare i database offre una maniera interessante ed utile per integrare differenti schemi di basi di dati. In questa architettura, le ontologie sono utilizzate non solo per rappresentare lo schema globale ma anche per guidare l'esecuzione di moduli software nel sistema. L'uso delle ontologie da al nostro sistema alcuni vantaggi: (1) Fornisce una indipendenza logica e fisica fra i diversi strati del sistema. (2) Aumenta la scalabilità del sistema. (3) Riduce i cambiamenti necessari quando viene aggiunto o rimosso un database dalla federazione. (4) Rende l'interfaccia utente amichevole e facile da usare, non solo per l'utente generico ma anche per l'utente esperto nell'utilizzo di un corpus di basi di dati federate. Gli utenti troveranno una interfaccia utente flessibile, potente ed altamente specializzata.
System for Compressing and Retrieving Structured Documents [PDF in Inglese: 8 pagine, 873 KB]
Joaquín Adiego, Pablo de la Fuente, Jesús Vegas, and Miguel Villarroel
Riassunto italiano: Sistemi per la compressione ed il recupero di documenti strutturati. I sistemi IR sono utilizzati per il recupero di documenti basato sui contenuti. Il numero di raccolte di documenti strutturati sta crescendo grazie alla diffusione degli standard XML, SGML e HTML. Per queste raccolte il contenuto e la struttura dei documenti devono essere indicizzati e recuperati secondo le esigenze degli utenti. Al fine di ridurre lo spazio di memorizzazione necessario, possiamo applicare delle tecniche di compressione. La ricerca ed il recupero possono essere supportati attraverso una opportuna strategia di indicizzazione. Questo articolo presenta una tecnica che codifica e comprime il testo considerando le caratteristiche della lingua spagnola ed altri elementi che sono indipendenti dalla lingua utilizzata. Abbiamo sviluppato uno strumento basato su un indice invertito in combinazione con una strategia di compressione che considera sia contenuti piani che strutturati. Lo strumento ottiene buoni rapporti di compressione e brevi tempi di ricerca, consentendo di recuperare il testo così come appariva nei documenti originali.
TEXRET: An Interactive TEXture RETrieval System [PDF in Inglese: 8 pagine, 1,477 KB]
Javier Ruiz del Solar, Pablo Navarrete, and Patricio Parada
Riassunto italiano: TEXRET: un sistema interattivo per il TEXture RETrieval. Sebbene la percezione delle tessiture (textures) giochi un ruolo importante nella visione umana - e le tessiture stiano diventando sempre più importanti nella comunicazione multimediale, nella progettazione e nel marketing - le persone non sono in grado di descrivere con precisione le tessiture stesse. Per affrontare il problema del recupero delle tessiture da un database di immagini è stato sviluppato il sistema TEXRET. Il TEXRET (TEXture RETrieval) utilizza tecnologie di soft-computing per consentire una comunicazione interattiva con l'utente. Le sue caratteristiche principali sono: (i) accesso diretto dalla rete Internet, (ii) elevata interattività , (iii) recupero delle tessiture utilizzando descrizioni sfumate (fuzzy) o simil-umane, (iv) recupero delle tessiture basato sul contesto utilizzando i feedback dell'utente, e (v) generazione delle tessiture richieste quando queste non siano già presenti nel database, il che consente una crescita del database stesso.
The CLEF Campaigns: Evaluation of Cross-Language Information Retrieval Systems [PDF in Inglese: 4 pagine, 866 KB]
Martin Braschler, Carol Peters
Riassunto italiano: Le campagne CLEF: Valutazione dei sistemi di Information Retrieval multilingue. I sistemi Cross-Language Information Retrieval (CLIR) sono in grado di trovare e recuperare documenti rilevanti per l'utente indipendentemente dalla lingua in cui sono scritti. Essi stanno assumendo una sempre maggiore importanza nella società globale dell'informazione. Le campagne di valutazione giocano un ruolo notevole nello sviluppo di questi sistemi, consentendo ai ricercatore di stimare e comparare approcci e prestazioni. Tracciamo qui un quadro dei successi ottenuti dal Cross-Language Evaluation Forum (CLEF) nei suoi primi due anni di attività.
The Web of Spain [PDF in Inglese: 3 pagine, 193 KB]
Ricardo Baeza-Yates
Riassunto italiano: Il Web spagnolo. Il Web spagnolo è un buon esempio di web europeo in cui il dominio Internet proprio (.es) è sottoutilizzato a causa delle strette regole della relativa registrazione, che peraltro sono simili in altri paesi. In questo articolo, parzialmente scritto nel corso di una visita presso il Dipartimento di Tecnologia dell'Università Pompeu Fabra (Barcellona, Catalogna, Spagna), includiamo informazioni relativi a tipi di dominio, strutture, e contenuti del Web spagnolo, definito come il sottinsieme del Web i cui siti hanno indirizzi IP assegnati alla Spagna.
Errata: La breve biografia professionale di Ricardo Baeza-Yates è stata completata con la seguente informazione, che era stata omessa per errore nella sua versione originale: E' coautore del libro Modern Information Retrieval, Addison-Wesley, 1999.
--------------------------------------------------------------------------------
I Guest Editor
Ricardo Baeza-Yates ha un Ph.D. in Computer Science (University of Waterloo, Canada). Magister in Ingegneria Elettrica all' Universidad de Chile, e Ingegneria Elettrica ed Informatica presso la stessa università.; Attualmente è Tenured Professor nel Computer Science Department dell'Universidad de Chile, e Direttore del Centro per la Ricerca sul Web <http://www.ciw.cl>. I suoi campi di ricerca sono l'information retrieval, il Web mining, la visualizzazione di algoritmi ed informazioni. E' coautore del libro Modern Information Retrieval, Addison-Wesley, 1999; coautore della 2. edizione dell' Handbook of Algorithms and Data Structures, Addison-Wesley, 1991; e coeditore di Information Retrieval: Algorithms and Data Structures, Prentice-Hall, 1992. Ha contribuito con numerosi articoli pubblicati da riviste di organizzazioni come ACM, ATI, IEEE, e SIAM. Attualmente è presidente del CLEI (Centro Latinoamericano de Estudios en Informática), membro dell' IEEE Computer Society Board of Governors e coordinatore internazionale di un progetto Iberoamericano sui modelli e le tecniche per la ricerca sul Web finanziato dall'agenzia spagnola CYTED (Programa de Cooperación Iberoamericano). Nel 2000 ha dato vita a una Internet company per la ricerca sul Web cileno <http://www.todocl.cl>. La sua homepage personale è <http://www.baeza.cl> e può essere raggiunto via email all'indirizzo <rbaeza@dcc.uchile.cl
Peter Schäuble è CEO della Eurospider Information Technology AG, i.e. il leader svizzero per l' Information Retrieval , il News Monitoring e il Corporate Retrieval <http://www.eurospider.com. In precedenza, era Professore Associato di Computer Science al Politecnico di Zurigo (ETH), alla guida del gruppo di ricerca sull' Information Retrieval. Peter Schäuble ha un M.S. (Dipl. Math. ETH) in matematica ed un PhD (Dr. sc. techn.) in computer science entrambi conseguiti presso l'ETH. E' stato membro dello staff tecnico della European Space Agency (ESA) e scienziato visitatore ai laboratori Hewlett-Packard a Palo Alto. Ha pubblicato diversi articoli di ricerca e libri sull'Information Retrieval. <Peter.Schauble@eurospider.com
CURATORE DELL'EDIZIONE ITALIANA
Roberto Carniel è ricercatore presso l'Università degli Studi di Udine. Laureato in Scienze dell'Informazione presso l'Università di Udine, e Dottore di Ricerca in Matematica Computazionale presso l'Università di Padova, è membro fondatore dell'ALSI, l'Associazione nazionale Laureati in Scienze dell'informazione ed Informatica, di cui è il rappresentante nel CEPIS. Collabora con il portale Tecnoteca dalla sua creazione. Nella sua ricerca predilige l'utilizzo di strumenti Free Software.
GLI EDITOR INGLESI
Mike Andersson, Richard Butchart, David Cash, Arthur Cook, Tracey Darch, Laura Davies, Nick Dunn, Rodney Fennemore, Hilary M. Green, Roger Harris, Michael Hird, Jim Holder, Alasdair MacLeod, Pat Moody, Adam David Moss, Phil Parkin, Brian Robson.
--------------------------------------------------------------------------------
Presentazione - Il recupero dell'informazione: una disciplina con una tradizione [PDF in Inglese: 1 pagina, 833 KB]
(IncludeReferenze utili sull' Information Retrieval)
Ricardo Baeza-Yates, Peter Schäuble, Guest Editors
L'Information Retrieval (IR) è spesso associato con i motori di ricerca e la rete Internet; tuttavia esso evolve da una disciplina accademica che ha le sue radici negli anni Cinquanta. Nel corso delle prime decadi la ricerca si è svolta principalmente nei dipartimenti di Informatica ed approcci semplici, basati sulla statistica delle occorrenze, davano già risultati di sorprendente efficacia nel recupero di documenti. Nonostante ciò, un piccolo gruppo di gruppi di ricerca sull'Information Retrieval ha raggiunto importanti risultati riguardanti tre aspetti:
1. Teoria: Sono stati sviluppati modelli di recupero probabilistico che implicano una efficienza di recupero ottimale (vedi le pubblicazioni di Cooper, Robertson, ed altri). Successivamente, il recupero è stato esteso ad altri media, non solo testi.
2. Sistemi: Vari algoritmi e strutture di dati sono stati concepiti ed integrati in sistemi pratici di recupero di testi (p.e. SMART, Topic, and Inquiry system) e, più recentemente, di dati multimediali.
3. Valutazione: Una raccolta di test è stata costruita, consistente in documenti, interrogazioni e - maggiormente importante - di valutazioni di rilevanza, per determinare quali documenti sono rilevanti per quali interrogazioni. Queste raccolte di test facilitano la comparazione di differenti metodi di recupero per quanto riguarda il richiamo e la precisione (e.g. Cranfield, SMART, TREC). Quando Internet ha cominciato a crescere, questi blocchi di recupero delle informazioni erano già pronti ad essere utilizzati. L'immensa quantità di dati fornita, assieme al concetto di federazione legato ad Internet ha condotto all'apertura di nuovi spazi e nuovi concetti, come il ranking dei collegamenti, il recupero di dati XML, l'integrazione di fonti eterogenee, etc. Alcuni di questi concetti sono affrontati dagli autori di questo numero speciale su ?Information Retrieval ed il Web?, autori provenienti da diversi paesi.
Referenze utili sull' Information Retrieval
Raccolte da Ricardo Baeza-Yates
In aggiunta alle referenze e fonti menzionate nei singoli articoli di questo numero, i lettori interessati possono dare un'occhiata ai seguenti libri, riviste ed atti di convegni, assieme ad alcuni dei molti siti Web rilevanti agli standard del Web stesso (<http://w3c.org>), motori di ricerca (<http://www.searchenginewatch.com>), etc.
Libri
- Abiteboul, S., Buneman, P. & Suciu, D. Data on the Web: from Relations to Semistructured Data and XML, Morgan Kauffman, 2000.
- Agosti, M. & Smeaton, A. (editors) Information Retrieval and Hypertext, Kluwer, 1996.
- Baeza-Yates, R. & Ribeiro-Neto, B. Modern Information Retrieval, Addison-Wesley 1999. Web site: <http://sunsite.dcc.uchile.cl/irbook/>
- Witten, I., Moffat, A. & Bell, T. Managing Gigabytes, Morgan Kauffman, 1999 (second edition).
Riviste
- Information Processing & Management
- Information Retrieval Journal
- ACM transactions in office information systems
Conferenze
- ACM SIGIR <http://www.acm.org/sigir/>
- JCDL <http://www.acm.org/jcdl/>
- CIKM <http://www.cs.umbc.edu/cikm/>
- TREC <http://trec.nist.gov/>
- CLEF <http://clef.iei.pi.cnr.it/>
- NTCIR <http://research.nii.ac.jp/~ntcadm/index-en.html>
--------------------------------------------------------------------------------
Copyright
- Copyright © CEPIS 2002. Versione Italiana: © ALSI e Tecnoteca 2002. Tutti i diritti riservati.
- Il riassunto e la citazione degli articoli inclusi in UPGRADE
sono permessi con i dovuti crediti alla fonte. Per copie, ristampe, o
ripubblicazioni, scrivete agli editor della rivista o a Tecnoteca per la versione italiana.
- L'utilizzo non autorizzato di pagine, o loro parti, da parte di
persone non autorizzate esplicitamente da UPGRADE è espressamente
proibito e potrà essere perseguito per legge.
-------------------------------------------------------------------------------
Ritorna all'elenco delle pubblicazioni