Massimo Martinelli: il web semantico
- Sig. Martinelli, ci può spiegare cos'è il web semantico – in particolare come nasce l’idea, quali problemi si vogliono risolvere con il web semantico, la sua struttura, i tempi di realizzazione?
L'idea del web semantico nasce dalla necessità di estendere l'attuale web in modo da favorire lo scambio di informazioni oltre che tra esseri umani anche tra programmi per computer tramite una rappresentazione che anche questi ultimi siano in grado di utilizzare e, in un certo modo, di comprendere.
Il web attuale è
basato su un linguaggio che definisce come le informazioni pubblicate
debbano essere rappresentate - visualizzate sullo schermo -, ovvero
un linguaggio che permette al programma navigatore di rappresentare,
per esempio, un testo allineato a sinistra e di colore rosso
piuttosto che allineato al centro e di colore verde, o di riprodurre
una immagine nella parte inferiore di una pagina piuttosto che nella
parte superiore.
Il navigatore non è
però in grado di comprendere l’argomento trattato nella
pagina che sta rappresentando.
In sostanza il web è
un sistema per rappresentare informazioni in un formato leggibile e
comprensibile agli esseri umani - se ovviamente il contenuto è
stato scritto in modo comprensibile - per favorire lo scambio di
informazioni tra persone.
Un esempio di web
semantico: una persona deve fissare un appuntamento dal dottore. Le
agende del paziente e del dottore potrebbero trovare degli elementi
comuni che consentano di concordare una possibile data utilizzando il
web semantico, prevedendo anche la possibilità di spostare
appuntamenti meno importanti e di proporre al paziente tale
possibilità (tratto dall'esempio più esteso fornito da
Tim Berners Lee, direttore del consorzio World Wide Web, in un famoso
articolo pubblicato su Scientific American).
Il processo di scambio di
informazioni tra programmi può essere concretizzato
rappresentando il modello di uno specifico ambito di conoscenza
codificando le informazioni tramite i concetti attinenti ovvero le
classi, le relazioni e le regole tra questi, concettualizzazioni che
vengono definite comunemente ontologie.
La possibilità
di scambio di informazioni tra programmi aumenta indirettamente ed
esponenzialmente la quantità di informazioni che possono
utilizzare gli esseri umani.
L’architettura si basa
su una pila di tecnologie, primo concetto delle quali è il
fatto che, sul web semantico, è possibile assegnare un
riferimento univoco – URI - a qualsiasi cosa, si pensi ad esempio
che persino una persona può essere identificata o
rappresentata tramite l’indirizzo della sua pagina web o quello
della sua casella di posta elettronica (cosi come un quadro può
essere rappresentato da un documento che contiene la foto e la
documentazione pubblicato sul sito del museo che lo conserva).
Una volta definiti i
riferimenti a delle entità possiamo associare ad esse delle
proprietà definite esse stesse con altri riferimenti e
associare alle proprietà dei valori definiti ancora una volta
come riferimenti.
Supponiamo che un
documento, pubblicato sul web semantico, descriva - riferisca - un
libro e un altro documento – riferimento- uno scrittore.
Se con gli strumenti del
web semantico posso definire i riferimenti alle classi “libro”
e “scrittore” e a una proprietà “autore”
e definire le istanze (tutti gli elementi che appartengono a quella
classe) delle classi libro e scrittore, anche queste
come riferimenti, posso costruire una asserzione costituita da
riferimenti a classi e proprietà come la seguente:
il riferimento Camilleri
(http://www.ontologie.org/scrittori.owl#Camilleri)
appartenente
al tipo degli scrittori
(http://www.ontologie.it/scrittori.owl#scrittori)
ha una
proprietà autore
(http://www.ontologie.it/proprietà.owl#autore)
che ha
valore “La gita a Tindari”
(http://www.libri.it/libri.owl#La_gita_a_Tindari)
appartenente al
tipo dei libri (http://www.libri.it/libri.owl#libri)
(Si
noti che gli indirizzi sono inventati e fanno riferimento a siti che
possono essere ovunque sul web).
Ho così
codificato l’informazione che lo scrittore Camilleri è
autore del libro “La gita a Tindari” in un modo comprensibile
sia ad un programma per computer che utilizza gli strumenti del web
semantico sia ad un essere umano.
Per instaurare una
conversazione senza creare incomprensioni due persone devono
reciprocamente dichiararsi l'argomento di discussione – o
riferimento. Una volta stabilito il riferimento è chiaro che
le due persone inizieranno a scambiarsi informazioni su quello stesso
argomento. Così come succede nella vita reale che due comunità
usino due riferimenti differenti per identificare la stessa cosa (si
pensi ad esempio alle lingue parlate), questo succede anche tra
differenti comunità su internet. Gli strumenti del web
semantico permettono di definire che due riferimenti si equivalgono e
questo permette ad un programma definito da una comunità di
utilizzare i riferimenti e quindi le informazioni dell’altra
comunità e viceversa.
Una volta a disposizione
i riferimenti a classi, istanze e proprietà e la possibilità
di costruire asserzioni ho anche a disposizione gli strumenti della
logica che mi consentono di ragionarci sopra.
Supponendo ad esempio di
aver definito il riferimento alla classe “persona” quello
alla proprietà “fratello di” e i riferimenti
“Giovanni”, “Mario” e “Roberto” istanze di persona e di
essere a conoscenza dei seguenti fatti:
“ Giovanni (è)
fratello di Mario” e “Mario (è) fratello di Roberto”:
posso definire la proprietà “fratello di”
transitiva e pertanto il programma che utilizza gli strumenti del web
semantico sarà in grado di dedurre che “Giovanni (è)
fratello di Roberto”. Definendo “fratello di” anche
proprietà simmetrica il programma sarà in grado di
dedurre anche che Roberto (è) fratello di Giovanni, e così
via…
Gli strumenti del web
semantico oltre a permettere di utilizzare le capacità
espressive relative alla teoria degli insiemi consentono anche di
definire regole basate su assiomi e conclusioni, ovvero regole
in cui si stabilisce che se una condizione è vera si dichiara
vera anche la conclusione. Supponendo di avere definito le proprietà
“figlio di”, “nipote di” e la seguente regola:
se (è vero che)
una certa persona è figlio di una seconda persona
e questa è figlio di una terza persona
allora (è vero
anche che) la prima persona è nipote della terza
definiti i riferimenti
Massimo, Giuseppe e Angiolo come istanze di persona e
stabilito
che
(è vero che) Massimo è
figlio di Giuseppe e Giuseppe è figlio di Angiolo
il nostro programma potrà
concludere che Massimo è nipote di Angiolo.
Per quanto riguarda i tempi di realizzazione, una parte degli strumenti descritti sono già disponibili. Esiste, fra l'altro, un piccolo sistema, esso stesso realizzato con le tecnologie di base del web semantico, che colleziona un elenco di riferimenti a strumenti per la rappresentazione della conoscenza e di ragionamento.
E' ipotizzabile una fase di sviluppo consistente per alcuni anni ed una successiva di approfondimenti, affinamenti e integrazioni.
Il web di oggi è
una collezione di migliaia di miliardi di documenti consultabili da
persone. Perché il web semantico possa esprimere tutte le sue
potenzialità deve essere popolato di informazioni. Spetta alle
comunità e quindi alle persone codificare le conoscenze con
questi strumenti e metterle a disposizione degli altri.
Mancano inoltre programmi
- detti agenti intelligenti - in grado di scambiarsi
informazioni autonomamente al posto nostro, al fine di collezionare
le informazioni sul web, in modo da poter rispondere alle nostre
richieste, programmi che gli sviluppatori dovranno realizzare per
favorire la diffusione di informazione e di strumenti che portino a
superare i limiti attuali.
Una parte di questi
programmi saranno disponibili solo dopo che saranno stati stabiliti
tutti gli standard per mediare e scambiare informazioni su vasta
scala.
- In quali ambiti sono già state sviluppate - e vengono usate attualmente- applicazioni del web semantico?
Grandi e piccole
industrie e comunità scientifiche hanno sempre più
bisogno di integrare i propri dati con quelli raccolti da altri e
hanno colto l’importanza di realizzare e utilizzare strumenti e
informazioni del web semantico: produttori di energia, di aerei, di
farmaci, di dispositivi fotografici, di telefoni cellulari oltre a
istituzioni governative, biblioteche digitali e, ovviamente,
produttori di programmi per computer stanno definendo, o lo hanno in
parte già fatto, ontologie e regole degli specifici domini di
competenza.
Siamo solo ai primordi e
a volte non è semplice trovare dettagli relativi agli sviluppi
attuali. Esistono portali che offrono la possibilità di fare
ricerche più efficaci basate su ontologie costituite da una
integrazione di dati di diversa codifica e provenienza - si vedano ad
esempio Gopubmed, JeromeDL, NASA, Museo Suomi, Gene ontology, Elsevier.
I settori della medicina e della biologia sono molto attivi in questa fase. Uno dei progetti ai quali sto collaborando, Heartfaid, si propone di produrre, entro la prima metà del 2009, un sistema in grado di supportare il medico nelle decisioni in materia di diagnosi, prognosi e terapie su reali casi di patologie cardiache basato anche sulle tecnologie del web semantico - e su altre tecnologie di intelligenza artificiale. Una prima versione che mostrerà le potenzialità del sistema è programmata per l’aprile 2008.
- In che modo cambierebbe per l'utenza la ricerca di informazioni? I navigatori potrebbero incontrare difficoltà nell'uso del web semantico ed essere costretti a usare programmi particolari?
Il web semantico dovrebbe
rendere ancora più semplice la ricerca e l’utilizzo delle
informazioni da parte dei navigatori poiché permetterà
un più facile interscambio tra programmi che quindi saranno in
grado di prendersi in carico una parte del lavoro che prima ricadeva
sulle persone.
Certamente questi
programmi forniranno nuovi metodi che l’utente dovrà essere
preparato ad utilizzare al fine di condividere e scambiare
informazioni con quelle di altre persone (programmi di altre persone).
Al momento si può
ipotizzare e ambire al riuso e alla condivisione di programmi scritti
da persone o comunità diverse, a una modifica ai programmi che
stiamo utilizzando adesso in modo tale che ognuno di questi sia in
grado di ottenere e inviare informazioni sul web semantico.
E comunque una più
definita prefigurazione procederà in connessione alla
disponibilità delle tecnologie.
- Quali sono le risorse che richiede la realizzazione del web semantico e quali le difficoltà incontrate finora? Quali competenze o caratteristiche possiedono le persone e i gruppi che lavorano all'elaborazione del web semantico?
Per quanto riguarda le
risorse umane queste devono essere sviluppate sia in estensione che
in profondità, in quanto necessitano di combinare l’esattezza
delle conoscenze con la necessità di attingere a molteplici
campi.
Sono necessari esperti
del dominio di applicazione, esperti nei vari rami della logica
(formale, matematica, etc.), esperti di tecnologia dell’informazione
e figure di collegamento tra i diversi esperti.
Sono necessarie risorse
tecnologiche, che consentono di aumentare la possibilità di
gestire (selezionare, scartare e individuare) sempre più
informazioni e ad una velocità sempre maggiore.
Le difficoltà, o
meglio i limiti, sono in particolare quelli di comunicazione
uomo-macchina, macchina-macchina e talvolta anche ...uomo-uomo. Sono
aperti vari ambiti di ricerca: interrogazione, allineamento –
mapping - di moli di informazioni conservate in archivi eterogenei e
decentralizzati.
Perché si realizzi
il web semantico mancano inoltre strumenti che determinino la
provenienza e la certezza delle informazioni, ovvero le
condizioni relative a tempi, modi e luoghi di origine
dell’informazione e prove e sicurezza che la conoscenza codificata
sia effettivamente tale: se una persona afferma di chiamarsi Antonio
ed un’altra dice che in realtà si chiama Giacomo possiamo
chiedere la carta d’identità della persona e (se questa non
è falsa) capire chi dei due ha ragione (se ve n’è
uno).
Ci sono poi altre
questioni: a volte ci sono casi in cui le informazioni non sono né
pienamente vere né pienamente false, o sono vere per alcuni e
false per altri, o anche probabilmente vere o probabilmente false, o
ancora vere in un certo luogo e in un certo tempo ma false altrove.
E’ pertanto prevedibile
una notevole possibilità di sviluppo che non si esaurirà
in tempi brevi.
- C'è un coordinamento e una distribuzione del lavoro fra i soggetti coinvolti? Lei è membro del W3C Multimedia Semantics Incubator Group: qual è il ruolo il vostro gruppo di lavoro nel progetto del web semantico?
Il consorzio World Wide
Web (W3C) svolge un ruolo di coordinamento tra i vari gruppi che si
occupano di realizzare e proporre standard per il web semantico oltre
che per il web in generale.
Un incubator è
una forma di aggregazione che serve a far emergere le necessità
tecnologiche di una comunità scientifica. Il risultato del
lavoro di un gruppo incubatore tende a fornire esempi
d’utilizzo delle tecnologie già a disposizione per risolvere
le necessità della comunità ed inoltre ad evidenziare
insufficienze o mancanze degli attuali strumenti tecnologici.
Il gruppo incubatore MultiMediaSEMantics (MMSEM) è costituito da 37 persone di diversi continenti
collegate a 15 diverse organizzazioni: il suo ruolo è quello
di cercare di rendere i sistemi informatici capaci di scambiarsi e
usare mutuamente informazioni codificate utilizzando i differenti
standard multimediali esistenti e di mostrare il valore aggiunto del
web semantico attraverso esempi pratici utili al fine del trattamento
di documenti multimediali.
Ad agosto 2007 il gruppo
MMSEM ha prodotto alcuni documenti tra i quali:
- “Annotazione di
immagini” fotografiche, televisive, satellitari, biologiche e
mediche sul web semantico,
- “Ambiente di lavoro
per l’interoperabilità di annotazioni multimediali”
con casi d’uso di utilizzo di informazioni relative ad algoritmi
per analisi di immagini, alla gestione di foto, musica e notizie, al
recupero e alla marcatura di informazioni relative a scopo e modalità
di combinazione oltre all’utilizzo di diversi formati di metadati
multimediali.
Oltre a questo ha recensito un elenco di strumenti e risorse rilevanti per la semantica multimediale.