Semanttinen web – paloja vanhasta symposiosta

Viime vuonna Teknillisellä korkeakoululla Espoossa järjestettiin symposio ”Kohti suomalaista semanttista webiä” (16.11.2005), jossa käsiteltiin Suomessa tehtyjä semanttisen webin sovelluksia ja niiden tulevaisuutta. Tässä arkistoistani muistiinpanoja joistakin kiinnostavista ja huomionarvoisista symposiossa käsitellyistä asioista. FinnONTO-projektin sivuilla on paljon lisätietoa aiheesta.

Mikä on semanttinen web?

Prof. Eero Hyvösen mukaan ”semanttinen web voidaan nähdä webin metadatakerroksena (RDF), jossa sen sisältö ja palvelut on kuvattu tietokoneiden ymmärtämällä tavalla”. Kuvaaminen tehdään ontologioilla, eli tarkoin määritellyillä asiasanoista rakennetuilla verkostoilla, joissa sanojen suhteet toisiinsa on määritelty tarkasti ja koneiden ymmärtämällä tavalla.

Kun tietokoneet voivat itsenäisesti ja monipuolisesti yhdistellä eri lähteistä saatavia tietoja, saavutetaan huomattavia etuja nykykäytäntöön verrattuna:

  1. Asioita voidaan esittää käyttäjien kannalta aiempaa mielekkäämmillä tavoilla. (Esimerkiksi MuseoSuomi-portaali esittää museoesineet moniulotteisesti suhteessa toisiinsa sekä historiaansa, tavanomaisen hakutuloslistauksen sijasta.)
  2. Kun eri lähteissä olevia tietoja voidaan yhdistellä helposti, ei samaa työtä tarvitse tehdä uuselleen. (Esimerkkinä valtion eri virastojen tuottamat tietopalvelut: jokaisen viraston ei tarvitse tuottaa samoja asioita uudelleen kun eri lähteistä saatavia tietoja voidaan joustavasti yhdistellä)
  3. Tietojen yhdistely on ajantasaista, toisin kuin ihmisten tekemät koosteet joita päivitetään yleensä harvoin.
  4. Tiedonhaku on tarkempaa, kun hakupalvelu ymmärtää sanojen erilaisen merkityksen (esim. Nokia: kaupunki vai yritys?) ja suhteet (esim. yritys-Nokia sijaitsi kaupunki-Nokiassa).

Asiasanoista ontologioiksi

Perinteisesti asioiden luokittelussa on käytetty hierarkkisia luokituksia ja/tai ennalta määriteltyjä asiasanoja (joista suurimpana YSA, yleinen suomalainen asiasanasto), jotka voivat olla löyhästi toisiinsa linkitettyjä. Semanttisessa webissä tämä ei kuitenkaan riitä. Tietokone ei ymmärrä sanojen merkityksiä (esim. em. Nokia-esimerkki) tai niiden suhteita toisiinsa.

Kehityksen alla onkin yleinen suomalainen ontologia, YSO, jota ollaan rakentamassa YSA:n pohjalta. (Myös suppeampia ontologioita on tekeillä, esim MAO) Tässä työssä sanojen merkitys määritetään yksiselitteisesti ja jokaiselle merkitykselle annetaan sen yksiselitteisesti identifioiva (?) URI.

Myös sanojen suhteet toisiinsa on esitettävä tarkasti. Erilaisia suhdemuotoja ovat:

  • laajempi termi (broader term)
  • suppeampi termi (narrower term)
  • läheinen termi (related term); viittaa vapaamuotoisesti samantyyppiseen termiin
  • osa jotakin (part of); esim ”maapallo”on osa ”aurinkokuntaa”
  • jonkin alaluokka (subclass of); esim ”jalohaukka”on ”petolinnun”alaluokka
  • jonkin esiintymä tai yksilö (instance of); esim. ”Halleyn komeetta”on ”komeetan”esiintymä

Ontologioiden käytön avuksi suunnitellaan kansallista ontologiapalvelinta ONKI:a.

Lisätietoa: Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita? (PDF)

Suomen ajallinen paikkaontologia, SAPO

Yksi ongelma on paikannimistön hallinta muuttuvassa maailmassa. Kun kuntien ja muiden maantieteellisten alueiden nimiä käytetään aineistojen kuvailussa ja niiden rajat muuttuvat tai ne katoavat kokonaan, katoaa myös tieto mistä paikasta onkaan kyse. Paikkatietoa voidaan kuvata relevanssimallinnuksella, joka antaa prosenttiluvun, joka kertoo kuinka suurella todennäköisyydellä paikkatieto pitää paikkaansa.

Esimerkki: Esineestä X tiedetään, että se on löytynyt ”Suonperän”kunnasta. Sittemmin Suonperä on jaettu kahtia ja yhdistetty naapureihinsa: ”Metsälään”70 % pinta-alasta ja ”Jokelaan”30 %. Tämän perusteella voidaan sanoa että esineeseen X liittyen paikkatieto ”Metsälä”on 70 % relevantti, eli esine on 70 % todennäköisyydellä peräisin nykyisen Metsälän alueelta.

[Tästä heräsi oma ajatus vastaavan menetelmän käyttämisestä myös biologisessa taksonomiassa (eliöiden luokittelussa), sillä myös siinä tapahtuu vastaavanlaisia muutoksia. Voidaan ajatella että alueiden rajat määräävät maantieteelliset ulottuvuudet korvataan lajien rajat määrittelevien ominaisuuksien ulottuvuuksilla (morfologinen lajikäsite). Vuonna 1990 havaittu harmaalokki kuuluu n. 99 % relevanssilla nykyiseen harmaalokkilajiin, sillä sittemmin harmaalokki on jaettu useampaan lajiin, joista ”perusharmaalokki”on yleisin n. 99 % osuudellaan.]

Kun muutoksia tapahtuu toiseen suuntaan (ts. alueita yhdistetään), kannattaa alkuperäinen tarkempi paikkatieto säilyttää.

Epätäsmällinen tieto

Ontologiat ovat täsmällisiä ja yksiselitteisiä, mutta moni tieto on todellisuudessa epätäsmällistä tai päällekkäistä. Esimerkiksi alue ”Lappi”ei kuulu pelkästään yhteen valtioon, vaan on jakautunut usean eri valtion alueelle.

Näiden välisen ristiriidan mallinnukseen on olemassa monia välineitä, joista symposiossa esiteltiin SAPO:n kanssa yhteneväinen relevanssimallinnus. Esimerkiksi kun aineistoja haetaan hakutermillä ”Suomi”, ovat tällöin Lappi-havainnot 45 % relevantteja (olettaen että Lapista 45 % on Suomessa).

Esimerkkisovelluksia

MuseoSuomi

Kulttuurihistoriallisten museoiden esinekokoelmia. Ensimmäinen suomalainen semanttinen web-sovellus.

Suomi.fi

Kokeilu Valtionhallinnon tietopalvelujen semanttisesta esittämisestä.

Orava

Semantinen näkymä YLE:n klaffi-videoleikearkistoon.

Veturi

Kokeilu keltaisten sivujen tyylisestä palveluhakemistosta.

KulttuuriSampo

MuseoSuomen pohjalta kehitettävä laajempi ja monipuolisempi kulttuuriportaali.