You are here: tecnoteca.it » Le nostre interviste » Massimo Martinelli: il web semantico

Massimo Martinelli: il web semantico

Tecnoteca.it intervista Massimo Martinelli, dipendente del Consiglio Nazionale delle Ricerche e membro del W3C Multimedia Semantics Incubator Group.

- Sig. Martinelli, ci può spiegare cos'è il web semantico – in particolare come nasce l’idea, quali problemi si vogliono risolvere con il web semantico, la sua struttura, i tempi di realizzazione?

L'idea del web semantico nasce dalla necessità di estendere l'attuale web in modo da favorire lo scambio di informazioni oltre che tra esseri umani anche tra programmi per computer tramite una rappresentazione che anche questi ultimi siano in grado di utilizzare e, in un certo modo, di comprendere.

Il web attuale è basato su un linguaggio che definisce come le informazioni pubblicate debbano essere rappresentate - visualizzate sullo schermo -, ovvero un linguaggio che permette al programma navigatore di rappresentare, per esempio, un testo allineato a sinistra e di colore rosso piuttosto che allineato al centro e di colore verde, o di riprodurre una immagine nella parte inferiore di una pagina piuttosto che nella parte superiore.
Il navigatore non è però in grado di comprendere l’argomento trattato nella pagina che sta rappresentando.
In sostanza il web è un sistema per rappresentare informazioni in un formato leggibile e comprensibile agli esseri umani - se ovviamente il contenuto è stato scritto in modo comprensibile - per favorire lo scambio di informazioni tra persone.
Un esempio di web semantico: una persona deve fissare un appuntamento dal dottore. Le agende del paziente e del dottore potrebbero trovare degli elementi comuni che consentano di concordare una possibile data utilizzando il web semantico, prevedendo anche la possibilità di spostare appuntamenti meno importanti e di proporre al paziente tale possibilità (tratto dall'esempio più esteso fornito da Tim Berners Lee, direttore del consorzio World Wide Web, in un famoso articolo pubblicato su Scientific American).
Il processo di scambio di informazioni tra programmi può essere concretizzato rappresentando il modello di uno specifico ambito di conoscenza codificando le informazioni tramite i concetti attinenti ovvero le classi, le relazioni e le regole tra questi, concettualizzazioni che vengono definite comunemente ontologie.
La possibilità di scambio di informazioni tra programmi aumenta indirettamente ed esponenzialmente la quantità di informazioni che possono utilizzare gli esseri umani.
L’architettura si basa su una pila di tecnologie, primo concetto delle quali è il fatto che, sul web semantico, è possibile assegnare un riferimento univoco – URI - a qualsiasi cosa, si pensi ad esempio che persino una persona può essere identificata o rappresentata tramite l’indirizzo della sua pagina web o quello della sua casella di posta elettronica (cosi come un quadro può essere rappresentato da un documento che contiene la foto e la documentazione pubblicato sul sito del museo che lo conserva).
Una volta definiti i riferimenti a delle entità possiamo associare ad esse delle proprietà definite esse stesse con altri riferimenti e associare alle proprietà dei valori definiti ancora una volta come riferimenti.

Supponiamo che un documento, pubblicato sul web semantico, descriva - riferisca - un libro e un altro documento – riferimento- uno scrittore.
Se con gli strumenti del web semantico posso definire i riferimenti alle classi “libro” e “scrittore” e a una proprietà “autore” e definire le istanze (tutti gli elementi che appartengono a quella classe) delle classi libro e scrittore, anche queste come riferimenti, posso costruire una asserzione costituita da riferimenti a classi e proprietà come la seguente:
il riferimento Camilleri (http://www.ontologie.org/scrittori.owl#Camilleri)
appartenente al tipo degli scrittori (http://www.ontologie.it/scrittori.owl#scrittori)
ha una proprietà autore (http://www.ontologie.it/proprietà.owl#autore)
che ha valore “La gita a Tindari” (http://www.libri.it/libri.owl#La_gita_a_Tindari)
appartenente al tipo dei libri (http://www.libri.it/libri.owl#libri)
(Si noti che gli indirizzi sono inventati e fanno riferimento a siti che possono essere ovunque sul web).

Ho così codificato l’informazione che lo scrittore Camilleri è autore del libro “La gita a Tindari” in un modo comprensibile sia ad un programma per computer che utilizza gli strumenti del web semantico sia ad un essere umano.
Per instaurare una conversazione senza creare incomprensioni due persone devono reciprocamente dichiararsi l'argomento di discussione – o riferimento. Una volta stabilito il riferimento è chiaro che le due persone inizieranno a scambiarsi informazioni su quello stesso argomento. Così come succede nella vita reale che due comunità usino due riferimenti differenti per identificare la stessa cosa (si pensi ad esempio alle lingue parlate), questo succede anche tra differenti comunità su internet. Gli strumenti del web semantico permettono di definire che due riferimenti si equivalgono e questo permette ad un programma definito da una comunità di utilizzare i riferimenti e quindi le informazioni dell’altra comunità e viceversa.
Una volta a disposizione i riferimenti a classi, istanze e proprietà e la possibilità di costruire asserzioni ho anche a disposizione gli strumenti della logica che mi consentono di ragionarci sopra.
Supponendo ad esempio di aver definito il riferimento alla classe “persona” quello alla proprietà “fratello di” e i riferimenti “Giovanni”, “Mario” e “Roberto” istanze di persona e di essere a conoscenza dei seguenti fatti:
“ Giovanni (è) fratello di Mario” e “Mario (è) fratello di Roberto”:
posso definire la proprietà “fratello di” transitiva e pertanto il programma che utilizza gli strumenti del web semantico sarà in grado di dedurre che “Giovanni (è) fratello di Roberto”. Definendo “fratello di” anche proprietà simmetrica il programma sarà in grado di dedurre anche che Roberto (è) fratello di Giovanni, e così via…

Gli strumenti del web semantico oltre a permettere di utilizzare le capacità espressive relative alla teoria degli insiemi consentono anche di definire regole basate su assiomi e conclusioni, ovvero regole in cui si stabilisce che se una condizione è vera si dichiara vera anche la conclusione. Supponendo di avere definito le proprietà “figlio di”, “nipote di” e la seguente regola:
se (è vero che) una certa persona è figlio di una seconda persona
e questa è figlio di una terza persona
allora (è vero anche che) la prima persona è nipote della terza
definiti i riferimenti Massimo, Giuseppe e Angiolo come istanze di persona e
stabilito che
(è vero che) Massimo è figlio di Giuseppe e Giuseppe è figlio di Angiolo
il nostro programma potrà concludere che Massimo è nipote di Angiolo.

Per quanto riguarda i tempi di realizzazione, una parte degli strumenti descritti sono già disponibili. Esiste, fra l'altro, un piccolo sistema, esso stesso realizzato con le tecnologie di base del web semantico, che colleziona un elenco di riferimenti a strumenti per la rappresentazione della conoscenza e di ragionamento.
E' ipotizzabile una fase di sviluppo consistente per alcuni anni ed una successiva di approfondimenti, affinamenti e integrazioni.

Il web di oggi è una collezione di migliaia di miliardi di documenti consultabili da persone. Perché il web semantico possa esprimere tutte le sue potenzialità deve essere popolato di informazioni. Spetta alle comunità e quindi alle persone codificare le conoscenze con questi strumenti e metterle a disposizione degli altri.
Mancano inoltre programmi - detti agenti intelligenti - in grado di scambiarsi informazioni autonomamente al posto nostro, al fine di collezionare le informazioni sul web, in modo da poter rispondere alle nostre richieste, programmi che gli sviluppatori dovranno realizzare per favorire la diffusione di informazione e di strumenti che portino a superare i limiti attuali.
Una parte di questi programmi saranno disponibili solo dopo che saranno stati stabiliti tutti gli standard per mediare e scambiare informazioni su vasta scala.

- In quali ambiti sono già state sviluppate - e vengono usate attualmente- applicazioni del web semantico?

Grandi e piccole industrie e comunità scientifiche hanno sempre più bisogno di integrare i propri dati con quelli raccolti da altri e hanno colto l’importanza di realizzare e utilizzare strumenti e informazioni del web semantico: produttori di energia, di aerei, di farmaci, di dispositivi fotografici, di telefoni cellulari oltre a istituzioni governative, biblioteche digitali e, ovviamente, produttori di programmi per computer stanno definendo, o lo hanno in parte già fatto, ontologie e regole degli specifici domini di competenza.
Siamo solo ai primordi e a volte non è semplice trovare dettagli relativi agli sviluppi attuali. Esistono portali che offrono la possibilità di fare ricerche più efficaci basate su ontologie costituite da una integrazione di dati di diversa codifica e provenienza - si vedano ad esempio Gopubmed, JeromeDL, NASA, Museo Suomi, Gene ontology, Elsevier.
I settori della medicina e della biologia sono molto attivi in questa fase. Uno dei progetti ai quali sto collaborando, Heartfaid, si propone di produrre, entro la prima metà del 2009, un sistema in grado di supportare il medico nelle decisioni in materia di diagnosi, prognosi e terapie su reali casi di patologie cardiache basato anche sulle tecnologie del web semantico - e su altre tecnologie di intelligenza artificiale. Una prima versione che mostrerà le potenzialità del sistema è programmata per l’aprile 2008.

- In che modo cambierebbe per l'utenza la ricerca di informazioni? I navigatori potrebbero incontrare difficoltà nell'uso del web semantico ed essere costretti a usare programmi particolari?

Il web semantico dovrebbe rendere ancora più semplice la ricerca e l’utilizzo delle informazioni da parte dei navigatori poiché permetterà un più facile interscambio tra programmi che quindi saranno in grado di prendersi in carico una parte del lavoro che prima ricadeva sulle persone.
Certamente questi programmi forniranno nuovi metodi che l’utente dovrà essere preparato ad utilizzare al fine di condividere e scambiare informazioni con quelle di altre persone (programmi di altre persone).
Al momento si può ipotizzare e ambire al riuso e alla condivisione di programmi scritti da persone o comunità diverse, a una modifica ai programmi che stiamo utilizzando adesso in modo tale che ognuno di questi sia in grado di ottenere e inviare informazioni sul web semantico.
E comunque una più definita prefigurazione procederà in connessione alla disponibilità delle tecnologie.

- Quali sono le risorse che richiede la realizzazione del web semantico e quali le difficoltà incontrate finora? Quali competenze o caratteristiche possiedono le persone e i gruppi che lavorano all'elaborazione del web semantico?

Per quanto riguarda le risorse umane queste devono essere sviluppate sia in estensione che in profondità, in quanto necessitano di combinare l’esattezza delle conoscenze con la necessità di attingere a molteplici campi.
Sono necessari esperti del dominio di applicazione, esperti nei vari rami della logica (formale, matematica, etc.), esperti di tecnologia dell’informazione e figure di collegamento tra i diversi esperti.
Sono necessarie risorse tecnologiche, che consentono di aumentare la possibilità di gestire (selezionare, scartare e individuare) sempre più informazioni e ad una velocità sempre maggiore.

Le difficoltà, o meglio i limiti, sono in particolare quelli di comunicazione uomo-macchina, macchina-macchina e talvolta anche ...uomo-uomo. Sono aperti vari ambiti di ricerca: interrogazione, allineamento – mapping - di moli di informazioni conservate in archivi eterogenei e decentralizzati.
Perché si realizzi il web semantico mancano inoltre strumenti che determinino la provenienza e la certezza delle informazioni, ovvero le condizioni relative a tempi, modi e luoghi di origine dell’informazione e prove e sicurezza che la conoscenza codificata sia effettivamente tale: se una persona afferma di chiamarsi Antonio ed un’altra dice che in realtà si chiama Giacomo possiamo chiedere la carta d’identità della persona e (se questa non è falsa) capire chi dei due ha ragione (se ve n’è uno).
Ci sono poi altre questioni: a volte ci sono casi in cui le informazioni non sono né pienamente vere né pienamente false, o sono vere per alcuni e false per altri, o anche probabilmente vere o probabilmente false, o ancora vere in un certo luogo e in un certo tempo ma false altrove.
E’ pertanto prevedibile una notevole possibilità di sviluppo che non si esaurirà in tempi brevi.

- C'è un coordinamento e una distribuzione del lavoro fra i soggetti coinvolti? Lei è membro del W3C Multimedia Semantics Incubator Group: qual è il ruolo il vostro gruppo di lavoro nel progetto del web semantico?

Il consorzio World Wide Web (W3C) svolge un ruolo di coordinamento tra i vari gruppi che si occupano di realizzare e proporre standard per il web semantico oltre che per il web in generale.
Un incubator è una forma di aggregazione che serve a far emergere le necessità tecnologiche di una comunità scientifica. Il risultato del lavoro di un gruppo incubatore tende a fornire esempi d’utilizzo delle tecnologie già a disposizione per risolvere le necessità della comunità ed inoltre ad evidenziare insufficienze o mancanze degli attuali strumenti tecnologici.
Il gruppo incubatore MultiMediaSEMantics (MMSEM) è costituito da 37 persone di diversi continenti collegate a 15 diverse organizzazioni: il suo ruolo è quello di cercare di rendere i sistemi informatici capaci di scambiarsi e usare mutuamente informazioni codificate utilizzando i differenti standard multimediali esistenti e di mostrare il valore aggiunto del web semantico attraverso esempi pratici utili al fine del trattamento di documenti multimediali.

Ad agosto 2007 il gruppo MMSEM ha prodotto alcuni documenti tra i quali:
- “Annotazione di immagini” fotografiche, televisive, satellitari, biologiche e mediche sul web semantico,
- “Ambiente di lavoro per l’interoperabilità di annotazioni multimediali” con casi d’uso di utilizzo di informazioni relative ad algoritmi per analisi di immagini, alla gestione di foto, musica e notizie, al recupero e alla marcatura di informazioni relative a scopo e modalità di combinazione oltre all’utilizzo di diversi formati di metadati multimediali.

Oltre a questo ha recensito un elenco di strumenti e risorse rilevanti per la semantica multimediale.

Segnala questa pagina a qualcuno

Stampa questa pagina