Hyvin toteutettu aineistonhallinta säästää aikaa ja vähentää esimerkiksi tietosuojaan tai projektin tavoitteiden saavuttamiseen liittyviä riskejä. Mitä dataintensiivisempi projekti, sitä todennäköisemmin projektin onnistuminen riippuu laadukkaasta aineistonhallinnasta.
Projektin toteutusvaiheessa kannattaa palata systemaattisesti ja usein projektin aineistonhallintasuunnitelmaan ja muokata sitä tarpeen mukaan. Suunnitelmien muuttuminen toteutusvaiheessa saattaa myös johtaa siihen, että aikaisemmin sovittuihin asioihin on tarvetta tehdä muutoksia. Myös nämä muutokset on hyvä pystyä ennakoimaan, jotta TKI-aineiston tuottaminen ja hyödyntäminen eivät turhaan kärsi ylimääräisistä aikatauluun liittyvistä tai teknisistä haasteista.
Varsinaisen TKI-aineiston lisäksi on hyvä pohtia, miten projektin kulku ja työmenetelmät dokumentoidaan ja miten ne voitaisiin mahdollisesti saattaa avoimiksi. Hyvällä dokumentoinnilla varmistetaan toistettavuus – sekä oman organisaation sisällä että sen ulkopuolella – ja tiedonvälitys esim. projektin uusille työntekijöille. Dokumentointia kannattaa tehdä muistiinpanojen, valokuvien yms. kautta vaikkapa seuraavista näkökulmista:
Dokumentoinnissa kannattaa seurata oman tieteenalan käytäntöjä. Joka tapauksessa TKI-aineiston yhteyteen voi yksinkertaisesti luoda readme-tiedoston, jossa kuvataan aineistokokonaisuus ja sen dokumentointi kokonaisuutena.
Avoimen tieteen kehittyminen on vahvistanut itsenäisten data-artikkelien asemaa. Data-artikkeli on tekstiltään tavallista journal-artikkelia lyhyempi kuvaus artikkelin yhteydessä avatusta aineistosta. Sellaisenaan data-artikkeli on hyvä tapa saavuttaa aineistolleen lisää näkyvyyttä perinteisen julkaisun muodossa. Julkaisemisen osalta kannattaa myös harkita metodiblogin kirjoittamista – se on näppärä vaihtoehto TKI-prosessin dokumentoinnille ja osaltaan lisää merkittävästi TKI-aineiston uudelleenkäytettävyyttä.
Projektin aikana on hyvä kiinnittää erityistä huomiota metatietojen tuottamiseen ja rikastamiseen, sillä projektin ja aineistonhallinnan lopussa tarvittavia metatietoja on hyvin vaikea tuottaa tyhjästä. Metatiedot tulee tuottaa huolimatta siitä, avataanko varsinaista TKI-aineistoa vai ei, sillä metatietoja tarvitaan myös oman organisaatiomme hyödyntäessä aineistoja. Hyödynnämme lähtökohtaisesti CSC:n Fairdata-palvelukokonaisuuteen kuuluvan Qvain-palvelun sisältämää metadataformaattia.
Toisaalta vaikka itse TKI-aineistoa ei avattaisikaan, pelkät metatiedot avaamalla viestimme kiinnostuksenkohteistamme sekä annamme mahdollisuuden ulkopuolisille tahoille pyytää meiltä lupaa hyödyntää aineistoamme tai ehdottaa uutta yhteistyötä. Lähtökohtaisesti kaikki metatiedot kannattaa avata, mutta esimerkiksi yritysrajapinnassa toimiessa on hyvä pitää mielessä, että yritykset eivät välttämättä halua julkistaa edes jonkin tietyn aiheen ympärillä tehtyä aineistotyötä, saati itse tuloksia.
TKI-aineiston yhteiskäytön aikana on syytä pitää hyvää huolta käyttöoikeuksista. Käyttöoikeuksia aineistoon kannattaa jakaa suunnitelmallisesti ja harkiten. Joidenkin yhteiskäyttötyökalujen mahdollistamat määräaikaiset linkit ovat kätevä tapa myöntää tarpeen mukaan pääsy aineistoon. Sensitiivisten aineistojen kohdalla käyttöoikeuksien rajaaminen on erityisen tärkeää.
Viimeistään kun TKI-aineistoja avataanepositoriossa (julkaisuarkistoissa, tietovarastoissa) tulee kiinnittää huomiota siihen, että aineistot saavat sitä kautta pysyvät tunnisteet. Pysyvä tunniste on julkaisujen ISBN-numeroon rinnastuva merkkisarja, joka toimii samalla linkkinä kulloinkin kyseessä olevaan TKI-aineistopakettiin. Näin pakettiin voidaan viitata yksiselitteisesti ja luotettavasti.
Datapohjaisen aineiston hyvät tallennus- ja dokumentointikäytännöt sisältävät tiedostojen nimeämisen ja tiedostojen järjestämisen kansioihin, jotta
Tietoturvan varmistaminen on oleellinen osa tallentamista. Tietoturvan varmistaminen edellyttää muun muassa organisaation tietoturvaohjeistuksen noudattamista ja erilaisia teknisiä toimenpiteitä, joilla varmistetaan tiedon luottamuksellisuus.
Tiedostojen organisointi ja nimeäminen |
|
Systemaattinen aineistojen organisointi ja dokumentointi helpottavat hankkeen aineistojen löytymistä ja käyttöä hankkeen aikana ja luovat edellytykset myös aineistojen mahdolliselle jatkohyödyntämiselle. |
Tiedostomuodon valinta |
|
Yleisiä tiedostoformaatteja, joita useimmat eri ohjelmistot tukevat: Teksti: txt, odt., rtf, csv, PDF/A, html, xml Kuva: jpeg, tiff, png, dng Video: MPEG-4 (.mp4), dpx Ääni: FLAC, aif, aac Lisätietoja |
Dokumentointi |
Aineiston hyvällä dokumentointilla varmistetaan aineiston ymmärrettävyys. Dokumentointavia asioita ovat mm.
|
Datan yhteyteen on hyvä tehdä erillinen readme.txt-tiedosto, jossa kokonaisuus ja dokumentointi on kuvailtu. Myös kuvat saattavat olla hyvä tapa dokumentoida tutkimusaineistoa.
|
Tiedostojen tallentamiseen, avaamiseen ja jakamiseen on tarjolla erilaisia vaihtoehtoja. Näistä osan on Turun ammattikorkeakoulun ylläpitämiä ja tukemia palveluita. Osa taas on Turun ammattikorkeakoulun suosittelemia palveluita, joiden ylläpidosta ja tuesta vastaa CSC.
Sopivan palvelun valintaan vaikuttavat esim. millaista dataa tallennetaan, paljonko sitä on sekä hankkeen toimijoiden yhteistyötarpeet.
Turun AMK:n tallennusratkaisut henkilökunnalle | Käyttötarkoitus | Jakaminen | Varmuuskopiointi | Versionhallinta |
Home (Z) | Henkilökohtainen tallennustila, joka on käytettävissä vain Turun AMK:n verkossa | Ei | Kyllä | Ei |
Group (R) | Tutkimusryhmille ja hankkeille tarkoitettu tallennustila, joka on käytettävissä vain Turun AMK:n verkossa | Rajoituksin | Kyllä | Ei |
B2DROP | Ensisijaisesti TKI-hankkeissa syntyvien ja käsiteltävien aineistojen säilyttämiseen tarkoitettu, pilvipalvelupohjainen tallennustila. Kirjautuminen Haka-tunnuksilla. Tallennustilaa haetaan hankkeen tarpeisiin ottamalla yhteyttä osoitteeseen datasupport (at) turkuamk.fi. | Kyllä (muille organisaation jäsenille) | Ei | Kyllä |
Teams | Ryhmille tarkoitettu pilvipohjainen tallennustila, joka on ensisijaisesti tarkoitettu ryhmän sisäiseen viestintään ja yhteisten dokumenttien työstämiseen. | Kyllä | Ei | Kyllä |
OneDrive | Henkilökohtainen tallennustila, joka on ensisijaisesti tarkoitettu dokumenttien tallentamiseen, työstämiseen ja jakamiseen. | Kyllä | Ei | Kyllä |
CSC tarjoaa kattavasti erilaisia digitaalisia ratkaisuja korkeakouluissa tehtävän tutkimus-, kehitys- ja opetustyön tueksi. Palveluiden käyttämiseksi on tarpeen rekisteröityä My CSC-palveluun, mikä onnistuu Haka-tunnuksilla. Kun on rekisteröitynyt palveluun, voi luoda projektin, jolle haetaan oikeutta sopivan palvelun käyttöön. Palvelun valintaan ja käyttöönottoon liittyvissä kysymyksissä voit olla yhteydessä Turun AMK:n datatukeen (datasupport (at) turkuamk.fi). Lisäksi CSC tarjoaa tukea palveluihin liittyvissä kysymyksissä (servicedesk (at) csc.fi).
CSC:n tarjolla ratkaisuja eri käyttötarkoituksiin eri tyyppisille aineistoille. Alla olevissa palveluissa esitellään näistä keskeisimmät. Palvelut on jaoteltu omiin taulukoihin sen mukaan, voiko niissä käsitellä arkaluonteisia henkilötietoja. Kaikki palvelut soveltuvat henkilötietojen käsittelyyn mutta arkaluonteisia henkilötietoja voi käsitellä vain sensitiivisen datan käsittelyyn tarkoitetuissa ratkaisuissa.
CSC:n tarjoamat ratkaisut sensitiivisen datan tallentamiseen ja jakamiseen |
Käyttötarkoitus | Lisätietoa palvelusta |
SD Services | Tietoturvallinen palvelukokonaisuus sensitiivisen datan tallentamiseen, jakamiseen ja analysointiin TKI-hankkeen jäsenten kesken. Soveltuu käytettäväksi tutkimuksen ollessa aktiivinen. | SD Services |
ePouta | Korkeakoulun sisäverkkoon kytkettävä ratkaisu, joka tarjoaa mahdollisuuden käyttää virtuaalikoneita ja tallennustilaa sensitiiviselle datalle. Infrastructure-as-a-service tyyppinen tallennus- ja laskentaympäristö. | ePouta |
CSC:n tarjoamat ratkaisut aineistojen avaamiseen, tallentamiseen ja jakamiseen |
Käyttötarkoitus | Lisätietoa palvelusta |
Fairdata IDA | Turvallinen tallennuspalvelu erilaisille tutkimusaineistoille, joka oveltuu käytettäväksi TKI-hankkeen ollessa aktiivinen. Palvelu tukee myös tutkimusaineiston avaamista, sillä avattavaksi tarkoitettu aineisto voidaan jäädyttää ja säilyttää palvelussa myös hankkeen päätyttyä. | Fairdata IDA |
Fairdata Qvain | Työkalu tutkimusaineistojen kuvailemiseen. Palvelussa on mahdollista kuvailla IDA-palveluun tallennettua aineistoa mutta sitä voidaan hyödyntää myös muualle tallennettujen aineistojen kuvailemiseen. Kuvaillun tutkimusaineiston metatiedot saadaan näkyviin Fairdata Etsin-palvelussa. | Qvain |
Fairdata PAS | Palvelu tutkimusaineistojen pitkäaikaissäilytykseen kymmenien ja jopa satojen vuosien ajan. Aineiston sopivuus palvelussa säilyttämiseen arvioidaan ennen päätöksen tekemistä pitkäaikaissäilytyksestä. | PAS |
cPouta | Tarjoaa mahdollisuuden käyttää virtuaalikoneita, tallennustilaa ja suurteholaskentaa erilaisiin tarpeisiin. Mahdollistaa esimerkiksi palveluiden ja alustojen kehittämisen osana TKI-hankkeita. Infrastructure-as-a-service tyyppinen tallennus- ja laskentaympäristö. | cPouta |
Funet Filesender | Selainpohjainen tiedonjakopalvelu, joka soveltuu jopa satojen gigatavujen suuruisten tiedostojen siirtämiseen. | Funet Filesender |
Tietoturva
Tietoturvasta huolehtiminen on tärkeää aina, mutta erityisen tärkeää se on silloin, kun on kyse arkaluontoisesta aineistosta.
Tietoturvan varmistamiseen kuuluu aineiston tuhoutumisen, vahingoittumisen ja muuttumisen tai varastamisen estäminen sekä pääsy- ja käyttöoikeuksien hallinta.
Myös varmuuskopiointi on osa tietoturvaa.
Kaikki merkittävät aineistonhallinnan toimet on syytä pyrkiä tekemään projektin toteutusvaiheen aikana. Käytännössä tämä voi kuitenkin olla hankalaa aikataulullisista tai tulosten julkaisemiseen liittyvistä syistä. TKI-aineiston omistajan tulee projektin päättymisenkin jälkeen viedä loppuun projektin aikana tehdyt päätökset TKI-aineiston mahdollisesta säilyttämisestä, tuhoamisesta, avaamisesta ja arkistoinnista.
Projektissa syntyneen TKI-aineiston on tärkeää tulla hyötykäyttöön projektin tavoitteiden saavuttamisen jälkeenkin. Tämä voi tapahtua oman organisaation sisällä esimerkiksi tutkimusryhmätoiminnan tai koulutuksen kautta, mutta se voi tapahtua myös avatun aineiston avulla oman organisaation ulkopuolella. Aineistojen käyttöastetta on hyvä seurata projektin päättymisenkin jälkeen.
TKI-aineiston suhde arkistointiin on tällä hetkellä tulkinnanvarainen. Kansallisarkisto näkee TKI-aineistot arkistoitavina tuloksina, mutta toisaalta kaikkea dataa ei ole tarkoituksenmukaista arkistoida (vrt. esim. sensoreiden raakadata).
Ota yhteyttä datanhallinnan asiantuntijoihin sähköpostilla openscience@turkuamk.fi.
Autamme mielellämme!
Kaikkea aineistoa ei välttämättä tarvitse kerätä itse. Sopivaa aineistoa voi olla jo tarjolla, esim. rekisteriaineistoja tai erilaisista data-arkistoista saatavilla olevaa avointa dataa, ks. esim.
Etsin - Tutkimusaineistojen hakupalvelu (CSC)
Aila - Tietoarkiston hakupalvelu
Kansainvälisiä tutkimusdata-arkistoja
Turun AMK:n datanhallinnan oppaan tekemisessä on hyödynnetty soveltuvin osin seuraavia oppaita:
Turun AMK:n datanhallinnan oppaan käyttöoikeudet:
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.