Uutta kybertaksonomiassa

”Kybertaksonomia” on taksonomisen tutkimuksen tekemistä käyttäen apuna uutta (verkko)tekniikkaa ja biodiversiteetti-informatiikka luonnon monimuotoisuuden tutkimista laskennallisin menetelmin. Kävin joulukuun alussa seminaarissa, jossa esiteltiin alan uusia tuulia ja työkaluja. Tässä minitiivistelmät osasta esityksiä. (Varsinaiset tiivistelmät seminaarin sivuilla.)

Why aren’t we there yet? The failures of biodiversity informatics, Roderic D. M. Page

Biodiversiteetti-informatiikka ei ole täyttänyt lupauksiaan. Datan automaattisessa yhdistelyssä tarvittaisiin avointa tietoa ja siihen liitettyjä yhteiskäyttöisiä globaaleja tunnisteita, jotka olisivat selvitettävissä (resolvable). Tunnisteita tarvitaan moniin asioihin: taksoninimet, julkaisut, henkilöt jne.

Nykyongelmia: tunnisteiden puute (esim. näytteillä) tai liikaa tunnisteita (esim. useita yhdellä lajinimellä), ei käytetä standardoituja tunnisteita (kuten doi), LSID-tunnisteet vaativat ohjelmistoja, joiden kehitys ei kunnolla edennyt, LSID-tunnisteita ei käytetä biodiv. alan ulkopuolella, hajautettujen palvelujen epävakaus. Julkaisualalla samankaltaiset ongelmat on ratkaistu keskitetyllä doi-tunnistejärjestelmällä (CrossRef).

Käytössä olevassa datassa on virheitä, mutta metodeja niiden korjaamiseen ei ole kehitetty. Yleisökysymys: millaisilla tunnisteilla näytteet pitäisi merkitä? Vastaus: Jollain systeemillä, johon liittyisi yhtä hyvät selvityspalvelut kuin doi:lla. Voisi olla doi tai url.

Päämääränä voisi olla Silobreakerin http://www.silobreaker.com tyyppinen palvelu, joka tarjoaisi erilaisia näkökulmia biodiversiteettidataan.

GBRDS, Global Biodiversity Resources Discovery System, David Remsen

GBRDS on uuden GBI:n sukupolven tietolähdetietokanta, joka kertoo mistä biodiversiteettitietoa on saatavilla ja toimii siten porttina tiedon julkaisijoiden ja tarvitsijoiden välillä. Järjestelmä on tulossa käyttöön työkaluineen 2009. Tavoitteena on hajauttaa nykyistä aineistojen keskitettyä indeksointia noodien vastuulle.

FishBasesta SpeciesBaseen, Rainer Froese

http://www.fishbase.org http://www.sealifebase.org http://www.speciesbase.org http://www.eol.org

FishBase on tietosivusto kaikista maailman kalalajeista. Kaikki sen sisältämät tiedot ovat jäljitettävissä lähteisiinsä ja tallennettu siten, että ne voidaan poimia analyysikäyttöön (esim. kaavioiksi). SeaLifeBase on samalla periaatteella toimiva sivusto kaikista merieliöistä. Tavoitteena on toteuttaa myös kaikki lajit kattava sivusto: tällaisia ovat eurooppalainen SpeciesBase (ei rahoitusta; demovaiheessa), australialainen Atlas of Living Australia ja yhdysvaltalainen Encyclopedia of Life (hyvä rahoitus). Vaikka lajitietosivustoja olisi useita, ne voisivat käyttää samaa dataa.

TDWG eli ”Tadwig”, Renato De Giovanni

TDWG on on järjestö, joka kehittää standardeja biodiversitetti-informattiikan käyttöön. TDWG:lle on kehitetty uusi arkkitehtuurimalli, joka perustuu yhteiseen ontologiaan jaettua semantiikkaa varten, tiedonvaihtoprotokolliin sekä GUID:eihin.

Lifewatch, Marie Gebhardt

http://www.lifewatch.eu

Lifewatch-hankkeen tarkoituksena on tarjota palveluja (tiloja, laitteistoja ja tietojärjestelmiä) biodiversiteetin suojelun ja käytön tutkimiseen suuressa mittakaavassa. Palvelujen avulla voidaan hallita suurta määrää tietoa erilaisista lähteistä. Hanke on käynnistymässä (kaksivuotinen suunnitteluvaihe) EU-rahoituksella.

GEO BON, Sébastien Miazza

http://www.earthobservations.org/

GEO (Group on Earth Observations) on uusi organisaatio, jonka tarkoituksena on tuoda yhteen luonnontieteiden alalta (perus- ja soveltava tutkimus), tietoa datasta, metodeista, projekteista ja tutkijoista, jotta tiedon yhteiskäyttö ja tutkimusyhteystyö paranisi (”we try to put people together”), ja jotta paikallisesti kerättyjä tietoja voitaisiin hyödyntää globaalilla tasolla. GEO BON on tämän biodiversiteettitietoon keskittyvä haara. GEOSS (Global Earth Observation System of Systems) on rakenteilla oleva järjestelmä, jonka tarkoituksena on toteuttaa GEO:n tavoite.

Catalogue of Life, Andrew Jones

Catalogue of Life (Sp2000:n ja ITIS:in yhteishanke) tarjoaa 1,1 Miljoonan lajin nimistön sekä LSID-tunnisteet taksonikonsepteille. Tavoitteena on kattaa kaikki maailman lajit ja niiden hierarkian, sekä tarjota tietoa erilaisina web-palveluina.

Long-term preservation of digital information, the challenges and solutions, Eva Müller

Digitaalisten aineistojen säilytyksen haasteet ja riskit. Teknologian vanhentuminen, digitaalisen tiedon haavoittuvuus ja kunnollisen dokumentaation puute muodostavat suurimmat riskit digitaalisten aineistojen pitkäaikaissäilytykselle. Tiedon pitkäaikainen säilyttäminen vaatii jatkuvaa kehittämistä ja ylläpitoa.

DiVA – Academic Archive On-line, Stefan Andersson

DiVA on alusta organisaatiokohtaiselle sähköiselle julkaisuarkistolle. Organisaation tuottaman tutkimuksen ”rinnakkaisjulkaisemiselle”.

Aquamaps, Kristin Kaschner ym.

www.aquamaps.org

Mallien pohjalta generoituja karttoja merieläinten (9000 lajia) levinneisyyksistä globaalilla tasolla ja eri näkökulmista (levinneisyys, potentiaalinen levinneisyys, levinneisyys 2050). Mallit perustuvat tietoihin lajien levinneisyyksistä ja elinympäristövaatimuksista (environmental preference enevelope), sekä tietoihin eli alueiden ympäristöolosuhteista. Asiantuntijat pääsevät säätämään malleja tarkemmiksi lajikohtaisesti. Hakee dataa mm. Fishbasesta ja GBIF:sta.

OBIS – Ocean Biogeographic Information System, Edward vanden Berge

www.iobis.org

Järjestelmä, joka yhdistää merien biodiversiteettidataa eri lähteistä (nyt 16 M tietuetta). Suuri määrä tietoa tuo turvaa virheitä ja epäyhtenäisyyttä vastaan suuria lijoja selvitettäessä (esim. biodiversiteetin jakautuminen alueittain). Tarkempaa käyttöä varten (esim. yksittäisten lajien tutkimus tai tarkkojen indeksien laskeminen) raakadataa täytyy puhdistaa, esim. taksoninimien erilaisia kirjoitusasuja yhtenäistää.

AlgaeBase, Michael D. Guiry

www.algaebase.org

Lajitietosivusto 25.000 levälajista. Sisältää nimistö-, taksonomista, julkaisu- ja muuta tietoa. Kaiken tiedon lähde merkitty muistiin ja jäljitettävissä. Käytetään paljon yliopistoissa.

Uniview Geoscope, Jan Warnstam

www.scalingtheuniverse.com www.sciss.se

UG on SCISS-rityksen Google Earth -tyyppinen mutta sulavaliikkeisempi maantieteellisen datan visualisointiohjelma, jota voidaan käyttää tietokoneella ja planetaarioissa. Lukee myös KML-tiedoista, joista on käytännössä muodostunut standardi maantieteellisen datan visualisoinnissa.

The Species Gateway = Artportalen, Johan Nilsson

http://www.artportalen.se

Ruotsalainen havaintojärjestelmä. Julkistettu 2000, sisältää 16 M havaintoa. Uuden version kehitystyö alkamassa norjalaisten kanssa, julkistetaan 2009. Perusperiaatteita: tallentaja päättää mitä tallentaa, havainnot julkaistaan heti ja validoidaan myöhemmin, nopea (sivulataus max 1 s), tallentajan täytyy antaa tiedot täsmällisesti, tallentaja omistaa havaintotiedot. Mahdollistaa muiden tekemien havaintojen tallentamisen, nollahavainnot ja epävarmat määritykset.

Hajahavaintojen käyttö kannankoon vaihtelun tutkimisessa, Tord Snäll

Tutkimuksessa vertailtiin harrastajien keräämien esiintymistietojen perusteella laskettuja vuosien välistä vaihtelua runsaudessa linnustonseurantaprojektien trendeihin. Tulokset olivat yhteneväisiä 92 % todennäköisyydellä. Eniten yhteneväisyyttä oli lajeissa, jotka elävät harrastajien suosimilla habitaateilla.

openModeller, Renato De Giovanni

http://openmodeller.sf.net

Vapaan lähdekoodin kehys (framework), jolla voi tuottaa karttoja lajien potentiaalisista levinneisyyksistä. Ottaa vastaan erilaisia datamuotoja ja käyttää erilaisia algoritmeja karttojen tuottamiseen.

GBIF/DIGIT activities 2009-2010, Vishwas Chavan

GBIF:n tavoitteena on saada datanjako tuotantokäyttöön ja 2 miljardia tietuetta jakoon vuoden 2010 loppuun mennessä, sekä siirtää fokus keskitetystä järjestelmästä enemmän noodeja palveleviin toimiin.

TAPIR software, Dag Terje Endresen

TapirLink on open source softapakkaus jolla voi jakaa dataa webservicenä TAPIR-protokollan kautta, ja korvaa aikaisemman DiGIRin. Tuottaa mm. ABCD, Darwin Core, RSS2 ja KML:aa. Tukee myös UDDIA, tyylitiedostoja (XSLT?) ja on LSID resolver.