Lisäoppia datapalveluiden kehittämiseen

Pohjoismaisen NeIC-e-infrastruktuurihankkeen yhteistyössä CSC:n kanssa järjestämällä Third Nordic Course on FAIR Data Stewardship -kurssilla on mukana yli 90 osallistujaa eri pohjoismaista, myös Tampereen yliopiston kirjaston asiantuntijoita. Kurssin tavoitteena on syventää osallistujien ymmärrystä tutkimusdatan hallinnan tekniikoista (data stewardship) ja datan tekemisestä näkyväksi ja uudelleenkäytettäväksi (FAIR).

FAIR-periaatteet ovat nousseet esille muutaman viime vuoden aikana, kun mm. tutkimusrahoittajat ovat ottaneet ne ohjenuoraksi tutkimusdataan kohdistamissaan vaatimuksissaan. FAIR-periaatteet saivat alkunsa Mark Wilkinsonin — joka itsekin toimii kurssilla kouluttajana — ja kumppaneiden artikkelista (2016). Sen kirjoittamista innoitti ajatus siitä, että yhä lisääntyvän digitaalisen tutkimusdatan tulisi olla paremmin löydettävää (findable), saavutettavaa (accessible), yhteentoimivaa (interoperable) ja uudelleenkäytettävää (re-usable). Pelkkä datojen tai yksittäisten dokumenttien asettaminen saataville erilaisiin arkistoihin ja tallennuspalveluihin ei kuitenkaan riitä, vaan niiden tietosisältöjen tulisi olla koneluettavassa muodossa ja yhteentoimivia keskenään.

Kaikkia datoja on kuitenkin mahdotonta saattaa koneluettavaan muotoon. FAIR-datassa onkin 90-prosenttisesti kyse metadatasta, joka on rakenteista ja koneluettavaa kuvailevaa tietoa itse datasta. Datat tulisi kuvailla avointen ontologioiden avulla. Näin datat ja niiden kuvailutiedot olisivat toisiinsa kytkettyinä linkitettynä datana (Linked Data). FAIR-periaatteet eivät suoraan vaadi datan avoimuutta, kunhan metadata on avointa ja koneluettavaa.

FAIR-dataa ei kuitenkaan synny ilman työtä ja yhteistyötä. Sen tuottamiseen tarvitaan vähintäänkin kolmen alan ammattilaisia: datan sisältöä ymmärtäviä substanssiosaajia, FAIR- periaatteet hallitsevia data-ammattilaisia ja koodaamisen hallitsevia tekniikkataitureita.