Siirry pääsisältöön

Turun AMK:n aineistonhallinnan opas: Aineiston tallentaminen, dokumentointi ja käyttö

Datanhallinnan toteutusvaiheesta Turun ammattikorkeakoulussa

Hyvin toteutettu aineistonhallinta säästää aikaa ja vähentää esimerkiksi tietosuojaan tai projektin tavoitteiden saavuttamiseen liittyviä riskejä. Mitä dataintensiivisempi projekti, sitä todennäköisemmin projektin onnistuminen riippuu laadukkaasta aineistonhallinnasta.

Projektin toteutusvaiheessa kannattaa palata systemaattisesti ja usein projektin aineistonhallintasuunnitelmaan ja muokata sitä tarpeen mukaan. Suunnitelmien muuttuminen toteutusvaiheessa saattaa myös johtaa siihen, että aikaisemmin sovittuihin asioihin on tarvetta tehdä muutoksia. Myös nämä muutokset on hyvä pystyä ennakoimaan, jotta TKI-aineiston tuottaminen ja hyödyntäminen eivät turhaan kärsi ylimääräisistä aikatauluun liittyvistä tai teknisistä haasteista.

Ota projektin toteutuksen aikana huomioon ainakin seuraavat käytännön näkökulmat:

  • Miten aineistonhallintasuunnitelman toteutusta seurataan
  • Mihin aineistoa tallennetaan ja miten sitä hoidetaan
  • Käyttöoikeudet (projektin aikana ja sen jälkeen)
  • Varmuuskopiointi
  • Versiohallinta
  • Nimeämiskäytännöt (datasetin nimi ei voi olla vain dataset)
  • Miten kansiorakenne ja/tai tietokanta rakennetaan
  • Mitä tallennusformaatteja käytetään
  • Mikä aineisto pitää tuhota jo projektin aikana

Varsinaisen TKI-aineiston lisäksi on hyvä pohtia, miten projektin kulku ja työmenetelmät dokumentoidaan ja miten ne voitaisiin mahdollisesti saattaa avoimiksi. Hyvällä dokumentoinnilla varmistetaan tutkimuksen/projektin toistettavuus – sekä oman organisaation sisällä että sen ulkopuolella – ja tiedonvälitys esim. projektin uusille työntekijöille. Dokumentointia kannattaa tehdä muistiinpanojen, valokuvien yms. avulla vaikkapa seuraavista näkökulmista:

  • Käytetyt instrumentit ja laitteet
  • Laitteiden kalibrointi ja eri muuttujien arvot
  • Käytetyt koodit ja ohjelmistot
  • Miten ja milloin aineisto on kerätty
  • Miten sitä on käsitelty, kuka ja milloin
  • Eri versioiden hallinta
  • Laadunvarmistusprosessit

Dokumentoinnissa kannattaa seurata oman tieteenalan käytäntöjä. Joka tapauksessa TKI-aineiston yhteyteen voi yksinkertaisesti luoda readme-tiedoston, jossa kuvataan aineistokokonaisuus ja sen dokumentointi kokonaisuutena.

Avoimen tieteen kehittyminen on vahvistanut itsenäisten data-artikkelien asemaa. Data-artikkeli on tekstiltään tavallista journal-artikkelia lyhyempi kuvaus artikkelin yhteydessä avatusta aineistosta. Sellaisenaan data-artikkeli on hyvä tapa saavuttaa aineistolleen lisää näkyvyyttä perinteisen julkaisun muodossa. Julkaisemisen osalta kannattaa myös harkita metodiblogin kirjoittamista – se on näppärä vaihtoehto TKI-prosessin dokumentoinnille ja osaltaan lisää merkittävästi TKI-aineiston uudelleenkäytettävyyttä.
 

Metatiedoista

Projektin aikana on hyvä kiinnittää erityistä huomiota metatietojen tuottamiseen ja rikastamiseen, sillä projektin ja aineistonhallinnan lopussa tarvittavia metatietoja on hyvin vaikea luoda tyhjästä. Metatiedot tulee luoda riippumatta siitä, avataanko varsinaista TKI-aineistoa vai ei, sillä metatietoja tarvitaan myös oman organisaatiomme käyttäessä aineistoja. Käytämme lähtökohtaisesti CSC:n Fairdata-palvelukokonaisuuteen kuuluvassa Qvain-palvelussa käytössä olevaa metadataformaattia.

Toisaalta vaikka itse TKI-aineistoa ei avattaisikaan, pelkät metatiedot avaamalla viestimme kiinnostuksenkohteistamme sekä annamme mahdollisuuden ulkopuolisille tahoille pyytää meiltä lupaa käyttää aineistoamme tai ehdottaa uutta yhteistyötä. Lähtökohtaisesti kaikki metatiedot kannattaa avata, mutta esimerkiksi yritysten kanssa toimiessa on hyvä pitää mielessä, että yritykset eivät välttämättä halua julkaista edes jonkin tietyn aiheen ympärillä tehtyä aineistotyötä, saati itse tuloksia.

TKI-aineiston yhteiskäytön aikana on syytä pitää hyvää huolta käyttöoikeuksista. Käyttöoikeuksia aineistoon kannattaa jakaa suunnitelmallisesti ja harkiten. Joidenkin yhteiskäyttötyökalujen mahdollistamat määräaikaiset linkit ovat kätevä tapa myöntää tarpeen mukaan pääsy aineistoon. Sensitiivisten aineistojen kohdalla käyttöoikeuksien rajaaminen on erityisen tärkeää.

Viimeistään kun TKI-aineistoja avataan repositoriossa (data-arkistoissa, tietovarastoissa) tulee kiinnittää huomiota siihen, että aineisto saa pysyvän tunnisteen. Pysyvä tunniste on julkaisujen ISBN-numeroon rinnastuva merkkisarja, joka toimii samalla linkkinä kulloinkin kyseessä olevaan TKI-aineistopakettiin. Näin pakettiin voidaan viitata yksiselitteisesti ja luotettavasti. 

Tallentamisen hyvät käytännöt

Tutkimusaineiston hyvät tallennus- ja dokumentointikäytännöt sisältävät tiedostojen nimeämisen ja tiedostojen järjestämisen kansioihin, jotta 

  • vältetään virheitä ja sekaannuksia aineistojen tulkinnassa ja käytössä,
  • tutkimusaineiston jakaminen helpottuu eri toimijoiden kesken,
  • tutkimusaineistot ovat löydettävissä ja käytettävissä tarvittaessa vielä hankkeen jälkeenkin.

Tietoturvan varmistaminen on oleellinen osa tallentamista. Tietoturvan varmistaminen edellyttää muun muassa organisaation tietoturvaohjeistuksen noudattamista ja erilaisia teknisiä toimenpiteitä, joilla varmistetaan tiedon luottamuksellisuus.

Tiedostojen organisointi ja dokumentointi

Tiedostojen organisointi ja nimeäminen
  • Nimeämiskäytännöt on hyvä suunnitella ja sopia jo tutkimusaineiston keruun alkuvaiheessa 
  • Nimeämisen tulee olla johdonmukaista ja selkeää
  • Nimien ei tule olla liian pitkiä kuin ei myöskään liian lyhyitä
  • Hyvä tiedostonimi on loogisesti jäsennetty ja se kertoo sisällöstä (esim. projektin/hankkeen nimi, aineiston nimi, tekijä, pvm vuosi-kk-pv, versionumero)
  • Käytä tarvittaessa lyhenteitä. Lyhenteiden merkitys tulee dokumentoida, jotta ne ymmärretään vielä pitkän ajan päästä. 
  • Vältä erikoismerkkejä

Systemaattinen aineistojen organisointi ja dokumentointi helpottavat hankkeen aineistojen löytymistä ja käyttöä hankkeen aikana ja luovat edellytykset aineistojen mahdolliselle jatkokäytölle.

Tiedostomuodon valinta
  • Tiedostomuoto/-formaatti kannattaa valita varhaisessa vaiheessa, jotta vältytään turhilta formaatinmuutoksilta

    • Tiedon siirtäminen formaatista toiseen ei yleensä onnistu täydellisesti, vaan tietoa saattaa hävitä, esim. tekstin muotoilut, taulukoiden tietosisältö, kuvien resoluutio tai äänenlaatu

  • Tiedostomuodon tulisi olla sellainen, jota voi käyttää mahdollisimman pitkään. Kokonaan ohjelmistoriippumattomia tallennusformaatteja ei kuitenkaan ole tarjolla.

Yleisiä tiedostoformaatteja, joita useimmat eri ohjelmistot tukevat:

Teksti: txt, odt, rtf, PDF/A, html, xml

Tilastot/taulukot: csv, dat, tab, ods

Kuva: jpeg, tiff, png, dng

Video: MPEG-4 (.mp4), dpx

Ääni: FLAC, aif, aac

Lisätietoa:

Tietoarkisto: AIneistonhallinnan käsikirja - Tiedostoformaatit ja ohjelmistot

Dokumentointi

Aineiston hyvällä dokumentoinnilla varmistetaan aineiston ymmärrettävyys. Dokumentoitavia asioita ovat mm.

  • Miten aineisto on kerätty
  • Miten sitä on käsitelty, kuka ja milloin
  • Käytetyt laitteet ja ohjelmistot
  • Muuttujat
  • Käytetyt koodit ja lyhenteet
  • Versiohallinta
  • Laadunvarmistusprosessit
  • Muu tieto, joka lisää aineiston ymmärrettävyyttä

Datan yhteyteen on hyvä tehdä erillinen readme.txt-tiedosto, jossa kokonaisuus ja dokumentointi on kuvailtu. Myös kuvat saattavat olla hyvä tapa dokumentoida tutkimusaineistoa.

Lisätietoa:

Tietoarkisto: Aineistonhallinnan käsikirja - Aineiston kuvailu ja metadata

 

 

Tiedostojen tietoturvallinen tallentaminen, avaaminen ja jakaminen

Tiedostojen tallentamiseen, avaamiseen ja jakamiseen on tarjolla erilaisia vaihtoehtoja. Näistä osa on Turun ammattikorkeakoulun ylläpitämiä ja tukemia palveluita, osa taas on Turun ammattikorkeakoulun suosittelemia palveluita, joiden ylläpidosta ja tuesta vastaa CSC.

Sopivan palvelun valintaan vaikuttavat esim. millaista dataa tallennetaan, paljonko sitä on sekä hankkeen toimijoiden yhteistyötarpeet.
 

Turun AMK:n tallennusratkaisut henkilökunnalle Käyttötarkoitus Jakaminen Varmuuskopiointi Versionhallinta
Home (Z) Henkilökohtainen tallennustila, joka on käytettävissä vain Turun AMK:n verkossa Ei Kyllä Ei
Group (R) Tutkimusryhmille ja hankkeille tarkoitettu tallennustila, joka on käytettävissä vain Turun AMK:n verkossa Rajoituksin Kyllä Ei
B2DROP Ensisijaisesti TKI-hankkeissa syntyvien ja käsiteltävien aineistojen säilyttämiseen tarkoitettu, pilvipalvelupohjainen tallennustila. Kirjautuminen Haka-tunnuksilla. Tallennustilaa haetaan hankkeen tarpeisiin ottamalla yhteyttä osoitteeseen datasupport (at) turkuamk.fi. Kyllä (muille organisaation jäsenille) Ei Kyllä
Teams Ryhmille tarkoitettu pilvipohjainen tallennustila, joka on ensisijaisesti tarkoitettu ryhmän sisäiseen viestintään ja yhteisten dokumenttien työstämiseen. Kyllä Ei Kyllä
OneDrive Henkilökohtainen tallennustila, joka on ensisijaisesti tarkoitettu dokumenttien tallentamiseen, työstämiseen ja jakamiseen. Kyllä Ei Kyllä

CSC tarjoaa kattavasti erilaisia digitaalisia ratkaisuja korkeakouluissa tehtävän tutkimus-, kehitys- ja opetustyön tueksi. Palveluiden käyttämiseksi pitää rekisteröityä My CSC -palveluun, mikä onnistuu Haka-tunnuksilla. Kun on rekisteröitynyt palveluun, voi luoda projektin, jolle haetaan oikeutta sopivan palvelun käyttöön. Palvelun valintaan ja käyttöönottoon liittyvissä kysymyksissä voit olla yhteydessä Turun AMK:n datatukeen (datasupport (at) turkuamk.fi). Lisäksi CSC tarjoaa tukea palveluihin liittyvissä kysymyksissä (servicedesk (at) csc.fi).

CSC tarjoaa ratkaisuja eri käyttötarkoituksiin eri tyyppisille aineistoille. Alla olevissa palveluissa esitellään näistä keskeisimmät. Palvelut on jaoteltu omiin taulukoihin sen mukaan, voiko niissä käsitellä arkaluonteisia henkilötietoja tai arkaluonteista/sensitiivistä dataa. Kaikki palvelut soveltuvat henkilötietojen käsittelyyn mutta arkaluonteisia henkilötietoja voi käsitellä vain arkaluonteisen datan käsittelyyn tarkoitetuissa ratkaisuissa.

 

CSC:n tarjoamat ratkaisut arkaluonteisen datan
tallentamiseen ja jakamiseen
Käyttötarkoitus Lisätietoa palvelusta
SD Services Tietoturvallinen palvelukokonaisuus arkaluonteisen datan tallentamiseen, jakamiseen ja analysointiin TKI-hankkeen jäsenten kesken. Soveltuu käytettäväksi tutkimuksen ollessa aktiivinen. SD Services
ePouta Korkeakoulun sisäverkkoon kytkettävä ratkaisu, joka tarjoaa mahdollisuuden käyttää virtuaalikoneita ja tallennustilaa arkaluonteiselle datalle. Infrastructure-as-a-service -tyyppinen tallennus- ja käsittely/laskentaympäristö. ePouta

 

CSC:n tarjoamat ratkaisut aineistojen
avaamiseen, tallentamiseen ja jakamiseen
Käyttötarkoitus Lisätietoa palvelusta
Fairdata IDA Turvallinen tallennuspalvelu erilaisille tutkimusaineistoille, joka soveltuu käytettäväksi TKI-hankkeen ollessa aktiivinen. Palvelu tukee tutkimusaineiston avaamista, sillä avattavaksi tarkoitettu aineisto voidaan jäädyttää ja säilyttää palvelussa hankkeen päätyttyä.  Fairdata IDA
Fairdata Qvain  Työkalu tutkimusaineistojen kuvailemiseen. Palvelussa voi kuvailla IDA-palveluun tallennettua aineistoa, mutta sitä voi käyttää myös muualle tallennettujen aineistojen kuvailemiseen. Kuvaillun tutkimusaineiston metatiedot saadaan näkyviin Fairdata Etsin-palvelussa. Qvain
Fairdata PAS Palvelu tutkimusaineistojen pitkäaikaissäilytykseen kymmenien ja jopa satojen vuosien ajan. Aineiston sopivuus palvelussa säilyttämiseen arvioidaan ennen päätöksen tekemistä pitkäaikaissäilytyksestä. PAS
cPouta Palvelu, jossa voi käyttää virtuaalikoneita, tallennustilaa ja suurteholaskentaa erilaisiin tarpeisiin. Mahdollistaa esimerkiksi palveluiden ja alustojen kehittämisen osana TKI-hankkeita. Infrastructure-as-a-service -tyyppinen tallennus- ja käsittely/laskentaympäristö. cPouta
Funet Filesender Selainpohjainen tiedonjakopalvelu, jota voi käyttää jopa satojen gigatavujen suuruisten tiedostojen siirtämiseen. Funet Filesender

Tietoturva

Tietoturvasta huolehtiminen on tärkeää aina, mutta erityisen tärkeää se on silloin, kun on kyse arkaluonteisesta aineistosta.
Tietoturvan varmistamiseen kuuluu aineiston tuhoutumisen, vahingoittumisen, muuttumisen tai varastamisen estäminen sekä pääsy- ja käyttöoikeuksien hallinta.

Myös varmuuskopiointi on osa tietoturvaa.

Projektin jälkeen

Kaikki merkittävät aineistonhallinnan toimet on syytä tehdä projektin toteutusvaiheen aikana. Käytännössä tämä voi kuitenkin olla hankalaa aikatauluun tai tulosten julkaisemiseen liittyvistä syistä. TKI-aineiston omistajan tulee projektin päättymisenkin jälkeen viedä loppuun projektin aikana tehdyt päätökset TKI-aineiston mahdollisesta säilyttämisestä, tuhoamisesta, avaamisesta ja arkistoinnista.

Projektissa syntynyt TKI-aineisto on tärkeää saada hyötykäyttöön projektin tavoitteiden saavuttamisen jälkeenkin. Tämä voi tapahtua oman organisaation sisällä esimerkiksi tutkimusryhmätoiminnan tai koulutuksen kautta, mutta se voi tapahtua myös avatun aineiston avulla oman organisaation ulkopuolella. Aineistojen käyttöastetta on hyvä seurata projektin päättymisenkin jälkeen. 

TKI-aineiston suhde arkistointiin on tällä hetkellä tulkinnanvarainen. Kansallisarkisto näkee TKI-aineistot arkistoitavina tuloksina, mutta toisaalta kaikkea dataa ei ole tarkoituksenmukaista arkistoida (vrt. esim. sensoreiden raakadata). 

Ota yhteyttä

Ota yhteyttä aineistonhallinnan asiantuntijoihin sähköpostilla datasupport@turkuamk.fi.

Autamme mielellämme!

Hyödynnä valmiita tutkimusaineistoja

Kaikkea aineistoa ei välttämättä tarvitse kerätä itse. Sopivaa aineistoa voi olla jo tarjolla, esim. rekisteriaineistoja tai erilaisista data-arkistoista saatavilla olevaa avointa dataa, ks. esim. 

Etsin - Tutkimusaineistojen hakupalvelu (CSC)

https://etsin.fairdata.fi/

Aila - Tietoarkiston hakupalvelu

https://services.fsd.tuni.fi/catalogue/search

Kansainvälisiä tutkimusdata-arkistoja

Oppaan käyttöoikeudet

Turun AMK:n aineistonhallinnan oppaan tekemisessä on hyödynnetty soveltuvin osin seuraavia oppaita:

Turun AMK:n aineistonhallinnan oppaan käyttöoikeudet:

Creative Commons -lisenssi
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä. Ei koske kuvia tai videoita, ellei erikseen mainittu.