Lajihavainnot tietojärjestelmiin: Pohdintaa

Pohdintaa lajihavaintotietokannoista perustuen seminaariesitelmiin ja loppukeskusteluun. Katso myös seminaariesitysten tiivistelmät.

Sisällys

  1. Havaintojen tarkistus
  2. Laji- ja nimilistat
  3. Yksi suuri vai monta pientä tietokantaa?
  4. Havaintojen omistus
  5. Havaintojen salaus suojelusyistä
  6. Paikkatiedon tarkkuus
  7. Tiedon tallennustapa
  8. Viitteet

Havaintojen tarkistus

Esitelmöitsijöistä monet pitivät tärkeänä että havainnot tarkistetaan ja “väärät” ja epäluotettavat havainnot poistetaan havaintomassasta heti alkuunsa. Yleinen pelko oli että muuten ne jäisivät elämään: ehkä vakiinnuttaisivat asemansa “oikeina” havaintoina. Yksi perustelu havaintojen tarkistamiseksi mahdollisimman pian ilmoittamisen jälkeen oli että pidemmän ajan kuluttua se on huomattavasti hankalampaa tai jopa mahdotonta.

Toinen näkökulma on että tietoja ei esitarkisteta ja vastuu tiedon käytöstä ja tarkistamisesta on aina niiden loppukäyttäjällä, käytännössä esimerkiksi tutkijalla joka käyttää ja tulkitsee aineistoa työssään. Mutta jos havaintoja ei tarkisteta heti, onko tutkijalla kykyjä tai aikaa tehdä sitä jälkeenpäin? Toisaalta, jos tarkistus on jo tehty, voiko tutkija luottaa siihen?

Jos havainnot tarkistetaan järjestelmässä, ratkaisuna voisi olla kaikkien tarkistusten tarkka dokumentointi, alkuperäisten tietojen säilyttäminen ja tarkistusoikeuden myöntäminen vain osaaville asiantuntijoille. Näin tarkistus on läpinäkyvää ja loppukäyttäjä voi halutessaan tutustua sen laatuun.

Laji- ja nimilistat

Tietoja Suomessa havaituista eliölajeista ja niiden nimistä ei ole koottu yhteen paikkaan, vaan ne ovat hajallaan erilaisissa tutkimuslaitoksissa ja harrastajien keskuudessa. Ruotsissa tietoja ollaan parhaillaan kokoamassa yhteen: tekeillä on kirja maan makroskooppisista lajeista.

Periaatteessa lajilistat kuuluvat Luonnontieteellisen keskusmuseon toimialaan, mutta monien ryhmien parhaat asiantuntijat löytyvät muualta. Resurssipulakin on ongelma. Kokoamistyön sijaan museo voisikin toimia tiedon keskuspaikkana vastuun silti säilyessä niillä, jotka kunkin eliöryhmän parhaiten tuntevat.

Yksi suuri vai monta pientä tietokantaa?

Nature-lehden pääkirjoituksessa joulukuussa 2005 [1] puhuttiin tiedon vapautumisesta ja hajautettavuudesta sekä uusien verkkopalvelujen synnystä. Tieteessäkin ollaan siirtymässä kohti pienempiä tietokantoja, jotka osaavat toimia yhdessä. Kukin asia (esim. havainnot eri lajiryhmistä, havainnot eri paikoilta) voidaan kerätä juuri sille suunniteltuun tietokantaan. Toimiva verkkopalvelu syntyy kun yksittäiset tietokannat jakavat tietojaan vapaasti muille tietokannoille, jotka ymmärtävät toisiaan. Esimerkkinä tällaisesta kokonaisuudesta on GBIF-palvelu, jonka kautta voi hakea tietoja sadoista tietokannoista ympäri maailmaa.

Halusta saada kullekin ryhmälle oma räätälöity järjestelmänsä kertoo esim. se, että monet keskustelijat yleisön joukosta kaipasivat Hatikka-järjestelmään lisää erilaisia tallennuskenttiä, joilla havainnoista voisi tallentaa eri lajiryhmille tärkeitä tarkempia tietoja (esim. määrittäjä tai onko kyse pyydystetystä yksilöstä). Yleinen lisätietokenttä ei tuntunut täyttävän näitä vaatimuksia.

Tiedonvaihdon toteuttaminen eri järjestelmien välille vaatii kuitenkin lisää työtä. Samoin sen toimiminen vaatii että kaikki luovuttavat omat tietonsa yhteiskäyttöön. Tähän ei aina olla valmiita; hajautettujen järjestelmien toimiminen vaatii tekniikan lisäksi kulttuurin muutosta, kuten Naturessa kirjoitetaan. “Kuka omistaa havainnot” on kysymys, josta puhutaan jatkuvasti. Tähtitiede on tässä asiassa edelläkävijä: siinä tutkimus perustuu keskittyy laajojen tietovarantojen ympärille, joita tuottaa ja käyttää koko tutkimusyhteisö.

Panelisteista kaikki olivat yhtä mieltä tiedon vapaan ei-kaupallisen jakamisen eduista (poislukien suojelusyistä tai havainnon tekijän toimesta salatut havainnot). Kuitenkin esimerkiksi BirdLifen havaintojärjestelmässä havaintojen jakamisesta päättävät viime kädessä paikallisyhdistykset, joilla voi olla asiasta hyvin erilaisia näkemyksiä.

Myös käyttäjän näkökulmasta erikoistuneiden tietokantojen kokonaisuus voi olla hankala. Täytyykö yhdellä luontoretkellä tai luontokartoituksen aikana syntyneet havainnot tallentaa moneen eri paikkaan: erillisiin lintu-, kasvi-, lepakko-, nisäkäs-, perhos-, kovakuoriais-, sudenkorento- ja sienihavaintojärjestelmiin? Ja mihin tallennetaan ne havainnot, joille ei ole omaa räätälöityä järjestelmäänsä (esim. kalat tai sammalet)? Hatikka yrittää ratkaista tätä ongelmaa.

Luonnosta yleisesti kiinnostuneen henkilön näkökulmasta yksi yleiskäyttöinen järjestelmä on todennäköisesti huomattavasti parempi. Se että eri lajiryhmien havainnot täytyisi tallentaa eri paikkoihin, todennäköisesti vähentäisi tallennettujen havaintojen määrää.

Jos kehitys kulkee kohti hajautettuja järjestelmiä, olisi keskitetyn tiedonhakuportaalin lisäksi kehitettävä keskitetty tiedontallennusportaali. Muuten suuri osa havainnoista jäisi edelleen kunkin omaan pöytälaatikkoon.

Havaintojen omistus

Havaintojen omistus (tai laajemmin tiedon omistus, intellectual property rights) puhututtaa useimpien havaintojärjestelmien yhteydessä. Kuka määrää mitä havainnoilla voi tehdä, kuka saa hyötyä niistä (rahallisesti tai muuten), kuka saa muokata tai arvottaa niitä?

Tuntuu että tässä asiassa mielipiteet ovat jakautuneet kahtia: osa kannattaa tiedon omistusoikeuden tiukempaa säätelyä ja valvontaa (vrt. tekijänoikeusasiat musiikkibisneksessä), osa taas on menossa vapaampaan suuntaan. Webin tuotua julkaisumahdollisuuden kaikille, ovat monet tietoa vapaa-ajallaan tuottavat henkilöt ryhtyneet antamaan sitä vapaasti muiden käyttöön. Tätä tiedon vapautumista edustaa mm. Creative Commons -hanke, joka tarjoaa tiedon vapaata levitystä tukevia lisenssejä Suomessakin (esim. tämä kirjoitus on julkaistu Creative Commons -lisenssillä). Myös Tietoyhteiskuntaneuvosto kannustaa julkista sektoria tiedon jakeluun CC-lisenssien avulla [2].

Joka tapauksessa havaintojen omistus ja käyttöoikeudet kannattaa tuoda esiin tiedon tallentajille jo tallennusvaiheessa.

Havaintojen salaus suojelusyistä

Myös havaintojen salaaminen niiden väärinkäytön ehkäisemiseksi puhuttaa paljon. Keskustelussa esitettiin tilanne, jossa julkisesti esillä oleva tieto harvinaisen orkidean kasvupaikasta aiheutti sen, että joku kävi keräämässä kaikki orkideat kyseiseltä paikalta. Lintuhavainnoista huolestuttavat etenkin tiedot petolintujen tarkoista pesäpaikoista. Eliöillä käytävä laiton kauppa on merkittävä rikollisuudenala.

Joitakin havaintoja täytyy salata tai niiden paikkatietoja muuttaa epämääräisemmiksi tällaisten tilanteiden ehkäisemiseksi. Näin on tehty aikaisemminkin, esimerkiksi lintuatlasten yhteydessä harvinaisten petolintujen pesimäpaikkatietoja on voitu siirrellä satunnaisiin suuntiin tai koota yhteen epätarkasti sijoitetuksi täpläksi.

Lajeja kuitenkin on paljon: kuka tekisi niille kaikille sopivat salausrajoitukset? Lisäksi etenkin laajalti liikkuvilla lajeilla kuten linnuilla salaustarve riippuu myös vuodenajasta, paikasta ja käyttäytymisestä (pesivä vai muuttava?). BirdLifen havaintojärjestelmässä tässäkin yhteydessä hyödynnetään paikallisyhdistysten asiantuntemusta.

Ainakin useimmissa suomalaisissa järjestelmissä myös havainnon tekijä voi oma-aloitteisesti salata havainnon. Kaikki eivät kuitenkaan tiedä mitkä havainnot kannattaa salata. Voinee myös syntyä tilanteita, joissa havaintoja käytetään väärin tavalla, jota asiantuntijatkaan eivät osaa ennakoida.

Ylittävätkö havaintojen julkisuuden edut sen haitat? Salaus voi helposti haitata myös havaintojen hyödyllistä ja toivottavaa käyttöä.

Paikkatiedon tarkkuus

Sami Karjalainen otti esille vanhojen havaintojen käytön yhteydessä että havainnon sanallisen paikkatiedon on oltava niin hyvää, että muutkin pystyvät sen perusteella löytämään havaintopaikan.

Tarkkuus riippuu mistä lajiryhmästä on kyse. Esim. paljon liikkuvista linnuista riittää summittaisempi tieto, kun taas pienemmistä lajeista voi tarvita hyvinkin tarkkaa tietoa (Pihlajiston pohjoisessa rinnemetsässä 100m Rapakiventieltä, kaatuneen kuusen alla.)

Nykyään havaintoihin toivotaan liitettävän koordinaatit, jotka ovat yksiselitteisempiä kuin paikannimet. Koordinaattitietoon pitäisi myös liittää tieto käytetystä koordinaattijärjestelmästä, jos tässä on olemassa sekaantumisen vaara.

Tiedon tallennustapa

Sampo Kunttu otti esityksessään esille havaintojärjestelmän suunnittelijan vastuun saatavan tiedon muodosta: tiedontallennusjärjestelmä ohjaa tapaa millä tiedot tallennetaan. Ensin täytyy saada asiasisältö kuntoon, sitten vasta tekniikka.

Ideaalitilanne olisi tietenkin että käytetty tekniikka ei vaikuttaisi tiedon laatuun ja määrään, mutta tähän tuskin koskaan päästään. Jos tallennustapa on yksinkertainen, se suosii suurta määrää yksinkertaista tietoa. Monipuolisempi ja -mutkaisempi tallennustapa kannustaa tallentamaan monipuolisempaa tietoa, mutta helposti hankaloittaa tallennusta niin että havaintoja tallennetaan vähemmän. Tällöin tallentaja toimii “suodattimena”, joka valitsee mikä tieto on mielenkiintoista ja tallentamisen arvoista. Tässä tilanteessa moni tulevaisuudessa arvokas havainto voi jäädä tallentamatta sen “tavanomaisuuden” vuoksi (esim. varpushavainnot 30 vuotta sitten).

Avaimena on löytää sopiva tasapainotila yksinkertaisuuden ja monipuolisuuden välistä, sekä kiinnittää käytettävyyteen paljon huomiota.

Viitteet

  1. Let data speak to data – Editorial, Nature 438, 531 (1 December 2005). http://www.nature.com/nature/journal/v438/n7068/full/438531a.html Tiivistelmä: http://www.biomi.org/internet/tiede/nature2005-12.html#2
  2. Tulevaisuuden elinvoimainen Suomi. Tietoyhteiskuntaneuvoston raportti, Valtioneuvoston kanslia, 7.2.2006. http://www.valtioneuvosto.fi/tiedostot/pdf/fi/100058.pdf (PDF)