Älykkään taksonomisen tiedon välitys LSID:n ja RDF:n avulla

Tiivistelmä artikkelista Page, Roderic D. M. 2006: Taxonomic Names, Metadata, and the Semantic Web. Biodiversity Informatics, 3, 2006, pp. 1-15. [viitattu 2006-09-01]

Nykyään on olemassa runsaasti erilaisia taksonomista tietoa käyttäviä tietokantoja. Ongelmana on että niiden käyttämä nimistö eroaa toisistaan ja jopa saman tietokannan sisällä (samasta lajista voidaan käyttää eri nimiä). Lisäksi tietokannat eivät yleensä ole semanttisia, ts. niillä ei ole taksonomista älykkyyttä. Nimet ovat vain nimiä vailla kunnollista tietoa siitä miten ne liittyvät toisiinsa.

Eri tietokantojen taksonomisten tietojen yhdistely on myös hankalaa, koska yhteistä tiedonvälitysstandardia ei ole. Yhdistelystä olisi suurta hyötyä, koska minkä tietokannan näkökulmasta asiaa katsookin, on suurin osa tiedosta aina jossakin muussa tietokannassa.

LSID on standardiprotokolla (standardin laajassa merkityksessä), jonka avulla yksittäisiä tiedonmurusia voidaan merkitä ja tunnistaa. RDF taas on standardoitu XML-runko (framework), tiedonmurusten välisten merkityksien kuvailuun. Molempien etuna on että ne ovat helppokäyttöisiä ja siksi yleisessä käytössä. RDF:aa voidaan lisäksi täydentää lukuisilla säännellyillä sanastoilla, joita voi liittää mukaan RDF-tiedostoon. Tällainen on esim. Dublin Core.

Artikkelissa kirjoittaja ehdottaa että näiden kahden avulla voitaisiin tehokkaasti välittää taksonomista tietoa erilaisten verkkopalvelujen välillä. LSID toimisi käsiteltävän taksonin tunnisteena ja siihen liittyvä metadata (esim. auktori, taksonominen asema, tiedon lähde, erityyppiset synonyymit) välitettäisiin RDF:n ja säänneltyjen sanastojen avulla.

Taksonien välillä on monia erilaisia suhteita. Kirjoittaja ottaa erityisesti esille erilaiset synonyymit. RDF:n ja kirjoittajan esimerkiksi tekemän säännellyn sanaston (artikkelissa nimellä ”gla”) avulla erilaiset synonyymisuhteet voidaan kuvailla. Tämä mahdollistaa synonyymien etsimisen eri suunnista esim. RDQL-hakukielellä.

Artikkelissa esitellyt menetelmät helpottaisivat hajautettujen tiedonhakujen toimivuutta ja antaisivat taksonomisille nimille lisää sisältöä tuomalla niihin semantiikan mukaan.

Hajautettu tiedonhaku mahdollistaisi mm. sen että taksonomista tietoa käyttävän tietokannan (esim. lajihavaintotietokannan) ei tarvitsisi tallentaa taksonomista tietoa, vaan ainoastaan sopivan LSID:in*. Sen avulla kaikki tarvittava tieto voitaisiin noutaa sopivista taksonomisista tietokannoista RDF-muodossa.

*Tämä idea on esitelty kirjoittajan verkkosivuilla, http://darwin.zoology.gla.ac.uk/~rpage/portal/lsid.php

Tunturipöllön nykyinen tieteellinen nimi on Bubo scandiacus. Aiemmin laji tunnettiin nimellä Nyctea scandiaca, joka on nykyisen nimen kantamuoto eli basionyymi. Semanttinen tietokanta ymmärtäisi nimien suhteen toisiinsa.
Kuva: Jason Hightower, käyttö Creative Commons -lisenssillä.