Tieteellisen datan avoimuus: ongelmia ja ratkaisuja

Keskustelu tiedon ja datan avoimuudesta on nousussa (ks. esim. Julkinen data -kirja). Päätöksentekoon ja hallintoon liittyvästä datasta puhutaan paljon, mutta julkishallinnolla on hallussaan myös paljon tieteellistä tutkimusdataa. Biologina tiedän etenkin ympäristöhallinnon ja ympäristöön liittyviä viranomaistoimia harjoittavien organisaatioiden datasta. Tieteellisen ympäristödatan avoimuuteen liittyy omanlaisiaan ongelmia:

Rahoitus ja urakehitys kohdistuvat tutkimusartikkeleiden tekijöille. Datan kerääjää ja julkaisijaa ei palkita. Datan julkaisemisesta voi siten olla haittaa; jos joku muu ehtii tuottaa sen pohjalta artikkelin ensimmäisenä, ei muiden tutkimus enää saakaan huomiota tai edes pääse julkaistavaksi. (Tämän todellista vaaraa on tosin kritisoitu.)

Joskus kuulee puhuttavan päällekkäisen työn välttämisestä. Ilman perusteluja tämä kuitenkin kuulostaa edellisen kohdan peittelyltä; ei haluta että kukaan muu käyttää dataa samantyyppisessä tutkimuksessa kuin mitä itsellä on meneillään, jotta kilpailua olisi vähemmän.

Datan käyttäminen väärin nähdään usein uhkana. Datan kerääjä voi haluta varmistua että käyttäjä ymmärtää todella aihealuetta, tuntee datan ongelmakohdat ja puutteet, eikä vedä johtopäätöksiä ottamatta puutteita huomioon.

Toinen väärinkäytön pelko liittyy luontoselvityksiin. Tavallinen tapa tehdä luontoselvitys on mennä maastoon tekemään kartoitus sopivilla menetelmillä ja työvoimalla. Jos avointa dataa samalta alueelta on kuitenkin saatavilla, on houkutuksena jättää hintavat maastotyöt tekemättä ja käyttää vain olemassa olevaa dataa, riippumatta siitä kuinka puutteellista se on (esim. kerätty selvityksen kannalta väärään aikaan, epäsystemaattisesti ja epäkattavasti).

Suojelunäkökohdat. Etenkin tarkan sijainnin julkaiseminen uhanalaisista (esim. muuttohaukka) tai ristiriitoja herättävistä lajeista (esim. merimetso, maakotka) saattaa edistää häirintää, salametsästystä ja munien keräämistä myyntitarkoituksiin. Jotkin lajit saattavat pesiä samoilla paikoilla sukupolvesta toiseen jopa satoja vuosia, joten parinkymmenen vuoden suoja-aikakaan ei välttämättä estä väärinkäyttöä.

Periaatteellisella tasolla tutkimusdatan avoimuutta on edistetty (esim. keskusmuseon avoimuusperiaatteet), mutta käytännön tasolla askeleet ovat olleet pieniä. Avoimuus nähdään monesti vain sähköpostitse ammattilaisten välillä pyydettäessä tapahtuvana tiedonvaihtona: ”Jos pyydät dataa perustellen, niin harkitsemme asiaa ja ehkä lähetämme sen Excel-taulukkona”.

Parhaimmillaan avoimuus olisi kuitenkin oletusarvoista ja data olisi kaikkien saatavilla koneluettavassa muodossa. Miten tällaista avoimuutta voisi edistää?

Muuttamalla rahoitusmalleja. Organisaatioiden tuloksellisuutta voisi mitata paitsi julkaistujen tutkimusartikkelien myös avoimesti julkaistun datan määrällä ja laadulla.

Asettamalla avoimuusvaatimuksia rahoitukselle ja julkaisemiselle. Joillakin aloilla rahoittajat ja tieteellisten julkaisujen kustantajat vaativat jo datan saattamista avoimesti saataville. Tämän kuitenkin pitäisi levitä laajemmalle, etenkin kustantajien piirissä. Muuten julkaiseminen tahtoo suuntautua niihin lehtiin jotka eivät vaadi avoimuutta.

Muuttamalla kirjoittaja- ja siteerauskäytäntöjä tieteellisissä julkaisuissa. Voitaisiin esimerkiksi vaatia että datan kerääjät ovat mukana kirjoittajien nimiluettelossa, jolloin hekin saisivat uuden rivin julkaisuluetteloonsa ja lisäpisteitä rahanjakolaskelmiin.

Luomalla selkeät ja tieteellisesti perustellut salausperiaatteet sekä suoja-ajat suojelun kannalta oleelliselle datalle.

Asettamalla tiukemmat vaatimukset luontoselvitysten pohjana käytettävälle datalle.

Tarjoamalla hyödyllisiä esimerkkejä siitä mitä avoimella datalla voisi tehdä. Ajatus datan automaattisesta jatkojalostamisesta lienee monille vieras, varsinkin jos oletetaan että sitä tekisivät muut kuin alan ammattilaiset. Toteutetut esimerkit valaisisivat asiaa paremmin kuin pelkkä puhe.

8 kommenttia

1. Janne Sinkkonen

Minusta tuntuu että suomalaiset ovat keskimäärin turhan varovaisia tieteellisiä kommunikoijia, niin keskustelun, julkaisujen kuin datankin tasolla. Pelätään että ideat varastetaan ja data varastetaan, eikä nähdä kommunikaation ja yhteistyön tuottamia hyötyjä.

Suurin syy tähän on varmaan tieteellinen kulttuuri – perinteiden puute, yliopistojen nuoruus, ja oppi-isiltä omaksuttu kyräily. Suhteettomat kuvitelmat oman työn tärkeydestä tai muiden ylivertaisuudesta näyttävät olevan usein kyräilyn taustalla.

Olen nähnyt aika monessa huippuyksikössä vanhemman polven tutkijoita jotka eivät saavutuksistaan huolimatta vaikuta kovin onnellisilta. On ikäänkuin hyvään asemaan pääseminen olisi menneinä vuosikymmeninä vaatinut suhteettomia uhrauksia, ja jääräpäistä persoonallisuutta ja muita luonteenpiirteitä jotka eivät ole kovin adaptiivisia nykyisessä verkostoituneessa maailmassa. Tämä on sinänsä surullista, mutta lisäksi väärät toimintatavat vielä siirtyvät oppilaillekin.

Tieteellistä jakamista kannattaisi verrata IT-kulttuurissa vallitsevaan avoimuuteen. Ihmiset jakavat ilmaisia neuvoja keskustelufoorumeilla, ja koodi on usein avointa.

Miksi Google, jonka tarkoitus pörssiyrityksenä on luoda lisäarvoa osakkeenomistajilleen, jakaa avointa lähdekoodia, tarjoaa avoimia rajapintoja ja ilmaisia palveluja? Tieteellisten toimijoiden kannattaisi miettiä tätä, ja sitten suhteuttaa ko. pörssiyritys ja sen toiminta tieteeseen yhteiskunnallisena instituutiona ja toisaalta yksittäiseen tutkijaan.

Avoimuuden ilmeisiä etuja:

– ”Release early, release often”. Kuullaan yhteisöltä mikä on tärkeää, vältytään irrelevantin työn tekemiseltä. Yleensä toisilla on parempaakin tekemistä kuin varastaa ideoita, joka vaatisi ekspertiksi tulemista alalla jossa toinen jo on.

– Maine ja markkinointi. Löytyy tahoja joilla on joko resursseja tai synergiaa tutkijan työn kanssa. Pitää muistaa että vaikka puhuisi ja jakaisi kuinka avoimesti, oma asiantuntemus on kuitenkin suurilta osin implisiittistä, kommunikoimatonta. Ja myös jokaisen asema verkostossa on ainutlaatuinen.

– Synergia. Paljon on aineistoja analyyttisesti inkompetenttien applikaatioalan osaajien käsissä. Metoditutkijoiden kanssa ei uskalleta tehdä yhteistyötä, koska pelätään että aineisto varastetaan tai ainakin kunnia joudutaan jakamaan. Lopulta käy niin ettei aineistoa koskaan täysipainoisesti hyödynnetäkään ja keruutyö jää tavallaan turhaksi, tai ainakin melkein turhaksi.

2. Mikko Heikkinen

Tuo viimeinen kohta on hyvin todellinen ongelma. Aineistoa pantataan jotta siitä voitaisiin itse joskus tehdä jotain.

Kaipaisin kovasti hyvää esimerkkiä tilanteesta, jossa data on avattu ja sen ansiosta on saavutettu konkreettisia hyötyjä. Ja nimenomaan ympäristötietoon liittyen. Tuntuu että Suomesta ei vielä löydy esimerkkejä; pitäisiköhän sellainen tehdä itse?

3. Janne Sinkkonen

En tunne ympäristödatan hyödyntämistä Suomessa kovin hyvin. Ainakin eliötietokannoissa voisi olla potentiaalia (kasviatlas, yöperhosseuranta, Virtalan hyönteiskanta, Hatikka).

Muualta esimerkkejä:

– YTV:n Reittioppaan API:n julkisuus ja ReittiGPS-sovellus iPhonessa. ReittiGPS lienee käytetyimpiä suomalaisia iPhone-sovelluksia, ja se mahdollistaa aivan uudenlaisen julkisen liikenteen opportunistisen hyödyntämisen. Tästä lienee YTV:lle enemmän hyötyä kuin olisi aikataulutietojen panttaamisesta.

– Jenkkien GFS-säämalli on julkinen, ja suuri osa sikäläisestä ”sääteollisuudesta” perustuu käsittääkseni tälle mallille. Meilläkin on esim. http://www.puuppa.org/~pnuu/gfs/ joka tosin vaatii vähän meteorologista sisälukutaitoa – sen verran mitä myrskybongari helposti pystyy hankkimaan.

4. EW

On ehkä mainitsemisen arvoista, että uhanalaisten lajien esiintymiä, kuten kirjoituksessa mainittujen lintujen pesäpaikkoja, koskevat tiedot ovat suoraan lain nojalla salassapidettäviä (julkisuuslain 24 § 1 mom 14 kohta kuuluu: ”asiakirjat, jotka sisältävät tietoja uhanalaisista eläin- tai kasvilajeista tai arvokkaiden luonnonalueiden suojelusta, jos tiedon antaminen niistä vaarantaisi kysymyksessä olevan eläin- tai kasvilajin tai alueen suojelun”).

5. Mikko Heikkinen

Toisaalta julkisuuslain mukaan salassapitoaika on oletusarvoisesti 25 vuotta (31 §). Tämä ei välttämättä riitä kaikille lajeille.

6. Antti Poikola

Keinovalikoimaan voisi lisätä sen, että rahoittaja voisi rahoitta erikseen datan keruun joillain relevanteilla tutkimusaloilla (monikäyttöiset laajat aineistot) ja kilpailuttaa sen jälkeen erikseen aineiston hyödyntämisen tutkimusideat.

Näin vältyttäisiin datan julkaisun ja sen tutkimisen välisiltä vastakkaisilta intresseiltä.

Näen itse vähän epärealistisena sen, että datan keruusta saisi krediittiä tutkimuspapereissa.

7. Mikko Heikkinen

Minusta tuntuu että rahoittajat ovat kovin ihastuneet kaiken mittaamiseen julkaisujen määrällä. Tästä (ja vain tästä) puhutaan niin paljon biologian alalla.

Molekyylibiologiassa erilaiset yhteysyökumppanit (näytteiden/työtilojen tarjoajat) saavat helpommin nimensä mukaan artikkeliin. Olen kuullut artikkeleista joissa on yli sata nimeä kirjoittajina. Ehkä jonain päivänä näin ekologiassakin?

8. Leo Lahti

Esim. joillain molekyylibiologian aloilla on jo muodostunut käytännöksi, että tutkimuksessa käytetyn datan tallettaminen julkiseen tietokantaan on tieteellisen julkaisemisen edellytyksenä. Monilla aloilla tämä ei vielä ole käytäntönä, vaikka julkisin varoin rahoitetun tutkimuksen osalta näin voisi suoda olevan alasta riippumatta. Tutkimuksen rahoittajilla ja lehdillä on tässä paljon vaikutusvaltaa.

Esimerkiksi Euroopan Bioinformatiikan Instituutin (EBI) ArrayExpress-tietokantaan on tämän myötä kertynyt >100,000 geeniekpressiosirukoetta, joiden kokonaiskustannus pyörinee vähintään kymmenissä miljoonissa, ja nyt kyse on vain yhdestä aineistotyypistä ja tietokannasta.

Tämän jutun kommentointi on suljettu.