I arbetet med forskningsdata har jag kämpat med en inte obekant utmaning, nämligen definitionen av vad forskningsdata är. I officiella sammanhang brukar man definiera dem som "data som underbygger forskning". Men i vilket skede blir till exempel vanliga öppna data "forskningsdata" och var ska de förvaras och katalogiseras i olika skeden?
Vi har flera olika datakataloger och dessutom kopierar man flitigt metadata till olika aggregerade kataloger. För alla vill förstås ha så omfattande kataloger som möjligt. Jag ser ändå en stor risk i att alla kopierar data och metadata kors och tvärs. Slutresultatet riskerar bli ett totalt virrvarr, där varken forskare vet var de ska publicera sina data och metadata eller söka efter material av olika typ. Ännu värre blir det om man börjar rådda in publikationer utan urskillning. Tyvärr har vi Finland både stora och små katalogtjänster och plattformar som gjort det misstaget. Det har saknats både styrning, strukturer och omdöme.
Vi börjar nu vara i ett läge då det är viktigt att ta i detta och profilera olika typer av både material och tjänster. I ett läge där man ha känslan att kvantitet är viktigare än kvalitet då det gäller finansiering (skuggan av kvantitativa mätare hänger tung över varenda projekt i vår tid), är det viktigt att ha klara uppdrag och avgränsningar, annars riskerar man göra informationsförvaltning och sökbarhet en björntjänst.
Orsaken att det inte funnits klara uppdrag är att det inte funnits entydiga definitioner på olika typer av data. Och det beror ju på att det inte finns några klara gränser och på att hela fältet varit nytt och extremt svårt att greppa. Har åtminstone jag tyckt. Men denna vecka nådde vi, tror jag, ett genombrott då jag med ett par naturvetarkolleger satt och diskuterade problematiken. Vi har nu skissat upp en tredelning. För lösningen var antagligen att det är just en tredelning och inte en tudelning (icke-forskningsdata och forskningsdata). Tanken är bara en idé ännu och vi ska jobba vidare på detta. Men jag vill gärna testa konceptet med att försöka förklara det på ett enkelt sätt. Om det går.
A. Öppna data
Dessa dataprodukter är till format och standarder mogna och stabila. De omfattas t ex av europeiska direktiv och kan vara ISO-standardiserade. Samtidigt kan de vara dynamiska dataset eller öppna gränssnitt. Detta är sådana data som borde finnas i
Avoindata.fi eller
Paikkatieto-katalogen (av vilka avoindata.fi är den heltäckande som innehåller alla typer, dvs den kan hösta metadata från paikkatietohakemisto). Det kan vara data från olika vädertjänster eller andra instrument. Här hittar företag data att använda då de vill bygga olika tjänster eller myndigheter varandras data. Forskare kan förstås också använda sig av dessa källor, men de är inte framtagna särskilt för forskning.
B. Allmänna forskningsdata
Det här är data som är framtagen av forskare. Det kan vara mycket rå data och den är inte alltid helt stabil, eftersom dessa produkter oftast är under utveckling. Det kan vara olika typer av vetenskapliga mätningar. De är väl dokumenterade så att de går att använda för olika ändamål. De alltså validerade och av bra kvalitet. Det innebär t ex mycket teknisk information och dokumentation av insamling och produktion. Som exempel kan jag nämna
SMEAR-data, som man kan studera i
AVAA-portalen där det också finns andra liknande exempel. Andra exempel är de flesta korpusar i
Språkbanken.
C. Specifika forskningsdata
Dessa dataset har uppstått i samband med en viss specifik forskningsfråga och återanvändbarheten är sällan hög, om det inte är en mycket mogen disciplin inom data och kvantitativa metoder. Data är ofta processade och analyserade data som publiceras i samband med forskningens resultat. Dessa dataset är absolut stabila, för ett av deras viktigaste syften är att fungera som stöd för specifik forskning så att den kan granskas och upprepas. En stor del av
Dataarkivets material är sådant material.
Som sagt, detta är en grov indelning och det finns data som befinner sig i gränsmarkerna. Men en dylik kategorisering och tankemodell kunde också hjälpa forskare att gestalta datas livscykel och hur man kan publicera och hänvisa då man arbetar med data. Dessutom skulle denna indelning hjälpa vid förvaltandet av både data och metadata. Vi kunde beskriva våra olika söktjänster dels genom att ange deras disciplinära profil, dels denna profilering. Då kan man också bättre berätta vad sammanställda datakataloger innehåller. Vi borde inte ha för många tjänster som innehåller allt, bara för att alla vill vara så stora som möjligt. Det gynnar ingen.