Siirry pääsisältöön
Näyttää siltä, että selaimesi on Internet Explorer 11 tai vanhempi. Selainta ei tueta, joten käytä muuta selainta.

Turun AMK:n datanhallinnan opas: Datapohjaisen aineiston tallentaminen, dokumentointi ja hyödyntäminen

Ohjeistus tutkimusmenetelmien ja -infrastruktuurien avoimuudesta

Datanhallinnan toteutusvaiheesta Turun ammattikorkeakoulussa

Hyvin toteutettu aineistonhallinta säästää aikaa ja vähentää esimerkiksi tietosuojaan tai projektin tavoitteiden saavuttamiseen liittyviä riskejä. Mitä dataintensiivisempi projekti, sitä todennäköisemmin projektin onnistuminen riippuu laadukkaasta aineistonhallinnasta.

Projektin toteutusvaiheessa kannattaa palata systemaattisesti ja usein projektin aineistonhallintasuunnitelmaan ja muokata sitä tarpeen mukaan. Suunnitelmien muuttuminen toteutusvaiheessa saattaa myös johtaa siihen, että aikaisemmin sovittuihin asioihin on tarvetta tehdä muutoksia. Myös nämä muutokset on hyvä pystyä ennakoimaan, jotta TKI-aineiston tuottaminen ja hyödyntäminen eivät turhaan kärsi ylimääräisistä aikatauluun liittyvistä tai teknisistä haasteista.

  • TKI-aineistojen systemaattisessa hallinnassa tulee projektin toteutuksen aikana ottaa huomioon ainakin seuraavat käytännön näkökulmat:
  • miten seurataan aineistonhallintasuunnitelman toteutusta
  • mihin aineistoa tallennetaan ja miten hoidetaan
  • käyttöoikeudet (projektin aikana ja sen jälkeen)
  • varmuuskopiointi
  • versiohallinta
  • miten kansiorakenne ja/tai tietokanta rakennetaan
  • mitä tallennusformaatteja käytetään
  • mitä aineistoa kannattaa tuhota jo projektin aikana.

Varsinaisen TKI-aineiston lisäksi on hyvä pohtia, miten projektin kulku ja työmenetelmät dokumentoidaan ja miten ne voitaisiin mahdollisesti saattaa avoimiksi. Hyvällä dokumentoinnilla varmistetaan toistettavuus – sekä oman organisaation sisällä että sen ulkopuolella – ja tiedonvälitys esim. projektin uusille työntekijöille. Dokumentointia kannattaa tehdä muistiinpanojen, valokuvien yms. kautta vaikkapa seuraavista näkökulmista:

  • käytetyt instrumentit ja laitteet
  • laitteiden kalibrointi ja eri muuttujien arvot
  • käytetyt koodit ja ohjelmistot
  • miten aineisto on kerätty
  • miten sitä on käsitelty, kuka ja milloin
  • eri versioiden hallinta
  • laadunvarmistusprosessit.

Dokumentoinnissa kannattaa seurata oman tieteenalan käytäntöjä. Joka tapauksessa TKI-aineiston yhteyteen voi yksinkertaisesti luoda readme-tiedoston, jossa kuvataan aineistokokonaisuus ja sen dokumentointi kokonaisuutena.

Avoimen tieteen kehittyminen on vahvistanut itsenäisten data-artikkelien asemaa. Data-artikkeli on tekstiltään tavallista journal-artikkelia lyhyempi kuvaus artikkelin yhteydessä avatusta aineistosta. Sellaisenaan data-artikkeli on hyvä tapa saavuttaa aineistolleen lisää näkyvyyttä perinteisen julkaisun muodossa. Julkaisemisen osalta kannattaa myös harkita metodiblogin kirjoittamista – se on näppärä vaihtoehto TKI-prosessin dokumentoinnille ja osaltaan lisää merkittävästi TKI-aineiston uudelleenkäytettävyyttä.

 

Metatiedoista

Projektin aikana on hyvä kiinnittää erityistä huomiota metatietojen tuottamiseen ja rikastamiseen, sillä projektin ja aineistonhallinnan lopussa tarvittavia metatietoja on hyvin vaikea tuottaa tyhjästä. Metatiedot tulee tuottaa huolimatta siitä, avataanko varsinaista TKI-aineistoa vai ei, sillä metatietoja tarvitaan myös oman organisaatiomme hyödyntäessä aineistoja. Hyödynnämme lähtökohtaisesti CSC:n Fairdata-palvelukokonaisuuteen kuuluvan Qvain-palvelun sisältämää metadataformaattia.

Toisaalta vaikka itse TKI-aineistoa ei avattaisikaan, pelkät metatiedot avaamalla viestimme kiinnostuksenkohteistamme sekä annamme mahdollisuuden ulkopuolisille tahoille pyytää meiltä lupaa hyödyntää aineistoamme tai ehdottaa uutta yhteistyötä. Lähtökohtaisesti kaikki metatiedot kannattaa avata, mutta esimerkiksi yritysrajapinnassa toimiessa on hyvä pitää mielessä, että yritykset eivät välttämättä halua julkistaa edes jonkin tietyn aiheen ympärillä tehtyä aineistotyötä, saati itse tuloksia.

TKI-aineiston yhteiskäytön aikana on syytä pitää hyvää huolta käyttöoikeuksista. Käyttöoikeuksia aineistoon kannattaa jakaa suunnitelmallisesti ja harkiten. Joidenkin yhteiskäyttötyökalujen mahdollistamat määräaikaiset linkit ovat kätevä tapa myöntää tarpeen mukaan pääsy aineistoon. Sensitiivisten aineistojen kohdalla käyttöoikeuksien rajaaminen on erityisen tärkeää.

Viimeistään kun TKI-aineistoja avataanepositoriossa (julkaisuarkistoissa, tietovarastoissa) tulee kiinnittää huomiota siihen, että aineistot saavat sitä kautta pysyvät tunnisteet. Pysyvä tunniste on julkaisujen ISBN-numeroon rinnastuva merkkisarja, joka toimii samalla linkkinä kulloinkin kyseessä olevaan TKI-aineistopakettiin. Näin pakettiin voidaan viitata yksiselitteisesti ja luotettavasti. 

Datapohjaisen aineiston tallentamisen hyvät käytännöt

Datapohjaisen aineiston hyvät tallennus- ja dokumentointikäytännöt sisältävät tiedostojen nimeämisen ja tiedostojen järjestämisen kansioihin, jotta 

  • vältetään virheitä ja sekaannuksia aineistojen tulkinnassa ja käytössä,
  • tutkimusaineiston jakaminen helpottuu eri toimijoiden kesken,
  • tutkimusaineistot ovat löydettävissä ja käytettävissä tarvittaessa vielä hankkeen jälkeenkin.

Tietoturvan varmistaminen on oleellinen osa tallentamista. Tietoturvan varmistaminen edellyttää muun muassa organisaation tietoturvaohjeistuksen noudattamista ja erilaisia teknisiä toimenpiteitä, joilla varmistetaan tiedon luottamuksellisuus.

Turun ammattikorkeakoulun tallennusinfraa uudistetaan vuoden 2022 aikana. Opas päivittyy samassa yhteydessä.

Tiedostojen organisointi ja dokumentointi

Tiedostojen organisointi ja nimeäminen
  • Nimeämiskäytännöt on hyvä suunnitella ja sopia jo tutkimusaineiston keruun alkuvaiheessa 
  • Nimeämisen tulee olla johdonmukaista ja selkeää
  • Nimien ei tulisi olla liian pitkiä kuin ei myöskään liian lyhyitä
  • Hyvä tiedostonimi on loogisesti jäsennetty ja se kertoo sisällöstä (esim. projektin/hankkeen nimi, aineiston nimi, tekijä, pvm vuosi-kk-pv versionumero)
  • Käytä tarvittaessa lyhenteitä. Lyhenteiden merkitys tulee dokumentoida, jotta lyhenteet ovat ymmärrettävissä. 
  • Vältä erikoismerkkejä

Systemaattinen aineistojen organisointi ja dokumentointi helpottavat hankkeen aineistojen löytymistä ja käyttöä hankkeen aikana ja luovat edellytykset myös aineistojen mahdolliselle jatkohyödyntämiselle.

Tiedostomuodon valinta
  • Tiedostomuodon valinta kannattaa tehdä varhaisessa vaiheessa, jotta vältytään esimerkiksi turhilta formaatinmuutoksilta.

    • Tiedon siirtäminen formaatista toiseen ei yleensä onnistu täydellisesti, jotain tietoa saattaa hävitä, esim. tekstin muotoilut, taulukoiden tietosisältö, kuvien resoluutio tai äänenlaatu.

  • Tiedostomuodon tulisi olla sellainen, joka on käytettävissä mahdollisimman pitkään. Kokonaan ohjelmistoriippumattomia tallennusformaatteja ei kuitenkaan ole tarjolla.

Yleisiä tiedostoformaatteja, joita useimmat eri ohjelmistot tukevat:

Teksti: txt, odt., rtf, csv, PDF/A, html, xml

Kuva: jpeg, tiff, png, dng

Video: MPEG-4 (.mp4), dpx

Ääni:  FLAC, aif, aac

Lisätietoja

Dokumentointi

Aineiston hyvällä dokumentointilla varmistetaan aineiston ymmärrettävyys. Dokumentointavia asioita ovat mm.

  • miten aineisto on kerätty
  • miten sitä on käsitelty, kuka ja milloin
  • käytetyt laitteet ja ohjelmistot
  • muuttujien arvot
  • käytetyt koodit ja lyhenteet
  • eri versioiden hallinta
  • laadunvarmistusprosessit
  • muu tieto, jolla varmistat aineiston ymmärrettävyyden.

Datan yhteyteen on hyvä tehdä erillinen readme.txt-tiedosto, jossa kokonaisuus ja dokumentointi on kuvailtu. Myös kuvat saattavat olla hyvä tapa dokumentoida tutkimusaineistoa.

 

 

 

Tiedostojen tallentaminen ja tietoturva

Tiedostojen tallennuspaikan valintaan vaikuttavat esim. millaista dataa tallennetaan, paljonko sitä on sekä hankkeen toimijoiden yhteistyötarpeet.

Turun AMK:n verkkolevyasemat

Z-asema tai projektin verkkolevytila R-asemalla

  • Turvallinen säilytyspaikka ja sisältö varmuuskopioidaan säännöllisesti.
  • Sopii myös sensitiiviselle datalle kuten henkilötiedoille
  • Ei mahdollisuutta jakaa dataa muillePilvipalvelut
  Esim. Teams ja Google Drive
  • Sopii aineistojen tallentamiseen yli organisaatiorajojen
  • Helposti käytettävissä yhteistyössä
  • Ei sovi sensitiiviselle datalle

Korkeakoulujen yhteinen arviointiryhmä on koonnut arviointisivuston, jossa on arvioitu eri pilvipalveluiden tietoturvan tasoa ja palvelun soveltuvuutta käytettäväksi organisaation toiminnassa.

Kansalliset palvelut

DA - tutkimusdatan säilytyspalvelu (CSC)
Fairdata-palvelukokonaisuuteen sisältyvä tutkimusdatan säilytyspalvelu.

eDuuni

Eduunin asiakkaita voivat olla koulutuksen, tieteen ja kulttuurin kohdealueella toimivat organisaatiot tai verkostot.

ePouta ja SD-palvelut

CSC:n palvelut sensitiivisen datan käsittelyyn

  • Turvallinen kotimainen säilytyspaikka (CSC)
  • Sopii yhteiskäyttöön ja linkkejä dataan voidaan jakaa
  • Ei sovi sensitiiviselle datalle
  • Sopii paremmin kohtuullisen staattiselle kuin jatkuvasti muuttuvalle datalle, koska dataa ei voida käsitellä suoraan palvelussa
  • Sopii myös datan säilyttämiseen hankkeen jälkeen sekä aineiston avaamiseen

Sähköisen työskentelyn ja verkostoitumisen palveluympäristö, joka mahdollistaa joustavan ja turvallisen yhteistyön yli organisaatio- ja ekosysteemirajojen. Maksullinen.

Palveluiden kehitystyö vielä meneillään, mutta käyttöönottomahdollisuus jo olemassa. 

Tietoturva

  • Tietoturvasta huolehtiminen on tärkeää aina, mutta erityisen tärkeää se on silloin, kun on kyse arkaluontoisesta aineistosta.
  • Tietoturvan varmistamiseen kuuluu aineiston tuhoutumisen, vahingoittumisen ja muuttumisen tai varastamisen estäminen sekä pääsy- ja käyttöoikeuksien hallinta.
  • Myös varmuuskopiointi on osa tietoturvaa.

Projektin jälkeen

Kaikki merkittävät aineistonhallinnan toimet on syytä pyrkiä tekemään projektin toteutusvaiheen aikana. Käytännössä tämä voi kuitenkin olla hankalaa aikataulullisista tai tulosten julkaisemiseen liittyvistä syistä. TKI-aineiston omistajan tulee projektin päättymisenkin jälkeen viedä loppuun projektin aikana tehdyt päätökset TKI-aineiston mahdollisesta säilyttämisestä, tuhoamisesta, avaamisesta ja arkistoinnista.

Projektissa syntyneen TKI-aineiston on tärkeää tulla hyötykäyttöön projektin tavoitteiden saavuttamisen jälkeenkin. Tämä voi tapahtua oman organisaation sisällä esimerkiksi tutkimusryhmätoiminnan tai koulutuksen kautta, mutta se voi tapahtua myös avatun aineiston avulla oman organisaation ulkopuolella. Aineistojen käyttöastetta on hyvä seurata projektin päättymisenkin jälkeen. 

TKI-aineiston suhde arkistointiin on tällä hetkellä tulkinnanvarainen. Kansallisarkisto näkee TKI-aineistot arkistoitavina tuloksina, mutta toisaalta kaikkea dataa ei ole tarkoituksenmukaista arkistoida (vrt. esim. sensoreiden raakadata). 

Oppaasta

Tämä on Turun ammattikorkeakoulun datanhallinnan opas. Datanhallinnan infraa uudistetaan vuoden 2022 aikana. Opasta päivitetään uusien tietojärjestelmien ja prosessien käyttöönoton yhteydessä.

Ota yhteyttä

Ota yhteyttä datanhallinnan asiantuntijoihin sähköpostilla openscience@turkuamk.fi.

Autamme mielellämme!

Hyödynnä valmiita tutkimusaineistoja

Kaikkea aineistoa ei välttämättä tarvitse kerätä itse. Sopivaa aineistoa voi olla jo tarjolla, esim. rekisteriaineistoja tai erilaisista data-arkistoista saatavilla olevaa avointa dataa, ks. esim. 

Etsin - Tutkimusaineistojen hakupalvelu (CSC)

https://etsin.fairdata.fi/

Aila - Tietoarkiston hakupalvelu

https://services.fsd.tuni.fi/catalogue/search

Kansainvälisiä tutkimusdata-arkistoja

Oppaan käyttöoikeudet

Turun AMK:n datanhallinnan oppaan tekemisessä on hyödynnetty soveltuvin osin seuraavia oppaita:

Turun AMK:n datanhallinnan oppaan käyttöoikeudet:

Creative Commons -lisenssi
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.