Hyvin toteutettu aineistonhallinta säästää aikaa ja vähentää esimerkiksi tietosuojaan tai projektin tavoitteiden saavuttamiseen liittyviä riskejä. Mitä dataintensiivisempi projekti, sitä todennäköisemmin projektin onnistuminen riippuu laadukkaasta aineistonhallinnasta.
Projektin toteutusvaiheessa kannattaa palata systemaattisesti ja usein projektin aineistonhallintasuunnitelmaan ja muokata sitä tarpeen mukaan. Suunnitelmien muuttuminen toteutusvaiheessa saattaa myös johtaa siihen, että aikaisemmin sovittuihin asioihin on tarvetta tehdä muutoksia. Myös nämä muutokset on hyvä pystyä ennakoimaan, jotta TKI-aineiston tuottaminen ja hyödyntäminen eivät turhaan kärsi ylimääräisistä aikatauluun liittyvistä tai teknisistä haasteista.
Varsinaisen TKI-aineiston lisäksi on hyvä pohtia, miten projektin kulku ja työmenetelmät dokumentoidaan ja miten ne voitaisiin mahdollisesti saattaa avoimiksi. Hyvällä dokumentoinnilla varmistetaan toistettavuus – sekä oman organisaation sisällä että sen ulkopuolella – ja tiedonvälitys esim. projektin uusille työntekijöille. Dokumentointia kannattaa tehdä muistiinpanojen, valokuvien yms. kautta vaikkapa seuraavista näkökulmista:
Dokumentoinnissa kannattaa seurata oman tieteenalan käytäntöjä. Joka tapauksessa TKI-aineiston yhteyteen voi yksinkertaisesti luoda readme-tiedoston, jossa kuvataan aineistokokonaisuus ja sen dokumentointi kokonaisuutena.
Avoimen tieteen kehittyminen on vahvistanut itsenäisten data-artikkelien asemaa. Data-artikkeli on tekstiltään tavallista journal-artikkelia lyhyempi kuvaus artikkelin yhteydessä avatusta aineistosta. Sellaisenaan data-artikkeli on hyvä tapa saavuttaa aineistolleen lisää näkyvyyttä perinteisen julkaisun muodossa. Julkaisemisen osalta kannattaa myös harkita metodiblogin kirjoittamista – se on näppärä vaihtoehto TKI-prosessin dokumentoinnille ja osaltaan lisää merkittävästi TKI-aineiston uudelleenkäytettävyyttä.
Projektin aikana on hyvä kiinnittää erityistä huomiota metatietojen tuottamiseen ja rikastamiseen, sillä projektin ja aineistonhallinnan lopussa tarvittavia metatietoja on hyvin vaikea tuottaa tyhjästä. Metatiedot tulee tuottaa huolimatta siitä, avataanko varsinaista TKI-aineistoa vai ei, sillä metatietoja tarvitaan myös oman organisaatiomme hyödyntäessä aineistoja. Hyödynnämme lähtökohtaisesti CSC:n Fairdata-palvelukokonaisuuteen kuuluvan Qvain-palvelun sisältämää metadataformaattia.
Toisaalta vaikka itse TKI-aineistoa ei avattaisikaan, pelkät metatiedot avaamalla viestimme kiinnostuksenkohteistamme sekä annamme mahdollisuuden ulkopuolisille tahoille pyytää meiltä lupaa hyödyntää aineistoamme tai ehdottaa uutta yhteistyötä. Lähtökohtaisesti kaikki metatiedot kannattaa avata, mutta esimerkiksi yritysrajapinnassa toimiessa on hyvä pitää mielessä, että yritykset eivät välttämättä halua julkistaa edes jonkin tietyn aiheen ympärillä tehtyä aineistotyötä, saati itse tuloksia.
TKI-aineiston yhteiskäytön aikana on syytä pitää hyvää huolta käyttöoikeuksista. Käyttöoikeuksia aineistoon kannattaa jakaa suunnitelmallisesti ja harkiten. Joidenkin yhteiskäyttötyökalujen mahdollistamat määräaikaiset linkit ovat kätevä tapa myöntää tarpeen mukaan pääsy aineistoon. Sensitiivisten aineistojen kohdalla käyttöoikeuksien rajaaminen on erityisen tärkeää.
Viimeistään kun TKI-aineistoja avataanepositoriossa (julkaisuarkistoissa, tietovarastoissa) tulee kiinnittää huomiota siihen, että aineistot saavat sitä kautta pysyvät tunnisteet. Pysyvä tunniste on julkaisujen ISBN-numeroon rinnastuva merkkisarja, joka toimii samalla linkkinä kulloinkin kyseessä olevaan TKI-aineistopakettiin. Näin pakettiin voidaan viitata yksiselitteisesti ja luotettavasti.
Datapohjaisen aineiston hyvät tallennus- ja dokumentointikäytännöt sisältävät tiedostojen nimeämisen ja tiedostojen järjestämisen kansioihin, jotta
Tietoturvan varmistaminen on oleellinen osa tallentamista. Tietoturvan varmistaminen edellyttää muun muassa organisaation tietoturvaohjeistuksen noudattamista ja erilaisia teknisiä toimenpiteitä, joilla varmistetaan tiedon luottamuksellisuus.
Turun ammattikorkeakoulun tallennusinfraa uudistetaan vuoden 2022 aikana. Opas päivittyy samassa yhteydessä.
Tiedostojen organisointi ja nimeäminen |
|
Systemaattinen aineistojen organisointi ja dokumentointi helpottavat hankkeen aineistojen löytymistä ja käyttöä hankkeen aikana ja luovat edellytykset myös aineistojen mahdolliselle jatkohyödyntämiselle. |
Tiedostomuodon valinta |
|
Yleisiä tiedostoformaatteja, joita useimmat eri ohjelmistot tukevat: Teksti: txt, odt., rtf, csv, PDF/A, html, xml Kuva: jpeg, tiff, png, dng Video: MPEG-4 (.mp4), dpx Ääni: FLAC, aif, aac Lisätietoja |
Dokumentointi |
Aineiston hyvällä dokumentointilla varmistetaan aineiston ymmärrettävyys. Dokumentointavia asioita ovat mm.
|
Datan yhteyteen on hyvä tehdä erillinen readme.txt-tiedosto, jossa kokonaisuus ja dokumentointi on kuvailtu. Myös kuvat saattavat olla hyvä tapa dokumentoida tutkimusaineistoa.
|
Tiedostojen tallennuspaikan valintaan vaikuttavat esim. millaista dataa tallennetaan, paljonko sitä on sekä hankkeen toimijoiden yhteistyötarpeet.
|
Z-asema tai projektin verkkolevytila R-asemalla |
|
|
Esim. Teams ja Google Drive |
Korkeakoulujen yhteinen arviointiryhmä on koonnut arviointisivuston, jossa on arvioitu eri pilvipalveluiden tietoturvan tasoa ja palvelun soveltuvuutta käytettäväksi organisaation toiminnassa. |
||
Kansalliset palvelut |
DA - tutkimusdatan säilytyspalvelu (CSC) Eduunin asiakkaita voivat olla koulutuksen, tieteen ja kulttuurin kohdealueella toimivat organisaatiot tai verkostot. CSC:n palvelut sensitiivisen datan käsittelyyn |
Sähköisen työskentelyn ja verkostoitumisen palveluympäristö, joka mahdollistaa joustavan ja turvallisen yhteistyön yli organisaatio- ja ekosysteemirajojen. Maksullinen. Palveluiden kehitystyö vielä meneillään, mutta käyttöönottomahdollisuus jo olemassa. |
Tietoturva
Kaikki merkittävät aineistonhallinnan toimet on syytä pyrkiä tekemään projektin toteutusvaiheen aikana. Käytännössä tämä voi kuitenkin olla hankalaa aikataulullisista tai tulosten julkaisemiseen liittyvistä syistä. TKI-aineiston omistajan tulee projektin päättymisenkin jälkeen viedä loppuun projektin aikana tehdyt päätökset TKI-aineiston mahdollisesta säilyttämisestä, tuhoamisesta, avaamisesta ja arkistoinnista.
Projektissa syntyneen TKI-aineiston on tärkeää tulla hyötykäyttöön projektin tavoitteiden saavuttamisen jälkeenkin. Tämä voi tapahtua oman organisaation sisällä esimerkiksi tutkimusryhmätoiminnan tai koulutuksen kautta, mutta se voi tapahtua myös avatun aineiston avulla oman organisaation ulkopuolella. Aineistojen käyttöastetta on hyvä seurata projektin päättymisenkin jälkeen.
TKI-aineiston suhde arkistointiin on tällä hetkellä tulkinnanvarainen. Kansallisarkisto näkee TKI-aineistot arkistoitavina tuloksina, mutta toisaalta kaikkea dataa ei ole tarkoituksenmukaista arkistoida (vrt. esim. sensoreiden raakadata).
Tämä on Turun ammattikorkeakoulun datanhallinnan opas. Datanhallinnan infraa uudistetaan vuoden 2022 aikana. Opasta päivitetään uusien tietojärjestelmien ja prosessien käyttöönoton yhteydessä.
Ota yhteyttä datanhallinnan asiantuntijoihin sähköpostilla openscience@turkuamk.fi.
Autamme mielellämme!
Kaikkea aineistoa ei välttämättä tarvitse kerätä itse. Sopivaa aineistoa voi olla jo tarjolla, esim. rekisteriaineistoja tai erilaisista data-arkistoista saatavilla olevaa avointa dataa, ks. esim.
Etsin - Tutkimusaineistojen hakupalvelu (CSC)
Aila - Tietoarkiston hakupalvelu
Kansainvälisiä tutkimusdata-arkistoja
Turun AMK:n datanhallinnan oppaan tekemisessä on hyödynnetty soveltuvin osin seuraavia oppaita:
Turun AMK:n datanhallinnan oppaan käyttöoikeudet:
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.