lördag 26 oktober 2019

Diskussioner om data: CODATA, FAIRsFAIR och RDA

fullpackad liten förelåsningssal


Den senaste veckan var en verklig turbovecka för forskningsdata i Esbo och Helsingfors. På söndagen och måndagen var det CODATA-konferens på Riksarkivet. CODATA är en kommittée inom International Science Council (ISC) en rätt färsk sammanslagning av International Council for Science (ICSU) och  International Social Science Council (ISSC). Kort sagt, en global takorganisation för forskning. CODATA är, som namnet låter förstå, det organ som främjar användning och kvalitet av forskningsdata. Temat var forskningsdatahantering i organisationer och vi hade gjort en liten poster om vår nya rekommendation för användning av beständiga identifierare, som vi gjort under vintern här i Finland.



På tisdagen ordnade vi en dubbelworkshop inom FAIRsFAIR. Dels diskuterades datarepositorier och vad det innebär för dem att främja hittbarhet, tillgänglighet, interoperabilitet och återanvändning av forskningsdata, dels hur samma krav tar sig i uttryck då det gäller semantiska artefakter (terminologier, taxonomier, koder, ontologier osv). Vi hade god uppslutning av experter och vi fick mycket material för vårt fortsatta arbete med dessa inte alldeles lätta frågor.


Onsdag, torsdag och fredag var det sedan stort RDA-möte på Aalto-Uni. Research Data Alliance är ett ännu större globalt expertsamarbete än CODATA. Inom organisationen arbetar man med att utveckla olika praktiska lösningar och generella rekommendationer.  Det finns flera grupper som jobbar med olika frågor kring t ex metadata, identifierare och interoperabilitet. Under mötet ordnades många olika typer av evenemang. Ett var en paneldiskussion, där jag snappade upp en bra jämförelse av Pilvi Torsti: "Data är inte som olja, utan som vatten". Så sant. Olja är en usel jämförelse. Data är ingen bristvara. Dessutom är kvaliteten A och O.

Det var en del saker som klarnade och framför allt kunde jag (åter)knyta många viktiga kontakter men olika nyckelpersoner på det internationella planet. Jag tror det var en viktig vecka för finsk forskningsdatahantering, eftersom det var många som nu hade möjlighet att delta första gången i evenemang på denna nivå. Själv ser jag allt klarare vad jag tycker att vi behöver utveckla och göra, både vad gäller nationella rekommendationer och utveckling av forskningsinfrastruktur.

En ypperlig avslutning på veckan blev att höra Magnus Lindbergs Kraft, just så kändes alltsammans. Nedan en tidig inspelning av ett framförande som video. För mig vad det första gången jag såg Lindberg live, vilket det tillförde en hel del måste jag säga.



söndag 13 oktober 2019

Samlingar som forskningskällor


Modell av Uppsala som vi kunde beundra då vi besökte Fyriskällan,
där stadsarkivet och folkrörelsearkivet härbärgerar vid sidan av biblioteket.

Digitaliseringen har inom kulturarvssektorn inte bara inneburit att man digitaliserar samlingarna, utan det har indirekt lett till mycket ny utveckling. Bland annat har en öppenhets- och konvergenstrend lett till att man nu når ut till allmänheten på nya, engagerande sätt och nya medier har också gjort erfarenhets- och narrationstänket starkare. Nästan alla traditionella kategoriseringar är utmanade. Samtidigt har forskarsamfundets behov och förväntningar ändrats. Förutom att forskare använder digitala material på kanske oväntade sätt, har intresset för föremålen i sig själva vuxit bland åtminstone historiker.

För forskare är det viktigt att kunna utnyttja alla material, också de digitala. Att kunna hänvisa till digitala källor blir allt viktigare, liksom att kunna dokumentera datas livscykel. De digitala material som produceras inom arkiv, bibliotek och museer borde också kunna fungera som forskningsdata. Att betjäna forskningen är ett av sektorns viktiga uppdrag. Men forskarnas sätt att använda data är mycket varierande. Om detta och en del annat talade jag i veckan på ett seminarium för akademiker inom området.

 

lördag 5 oktober 2019

Öppen forskning går vidare

I tisdags var det stormöte kring öppen forskning i Helsingfors i Vetenskapernas hus.  Expert- och arbetsgrupper samlades för att jobba tillsammans. Jag är själv ansvarig för arbetsgruppen för länkning av forskningsdata. I det ingår olika saker:


  • hänvisningar till data vid publicering av forskningsresultat (underbyggande evidens)
  • hanteringen av datas livscykel och dokumentation av datas struktur (interna länkningar i data)
  • synligheten av forskningsdata i tjänster för forskningsinformation (CRIS-grafer)

Jag nämnde områdena här i den ordning jag anser att vi bör prioritera dem. De två första punkterna är dessutom förutsättningar för att den sista ska kunna förverkligas. Den sista handlar om information som ofta intresserar framför allt finansiärer, tjänster som OpenAIRE eller den nya nationella tjänsten för forskningsinformation. Det handlar om att sammanställa information om allt från forskningsinfrastrukturer, forskningsprojekt och finansiering till forskare, organisationer och publikationer. Det är visserligen viktig information, som kan användas på många sätt, men för att forskningsdata, som ofta tar stora resurser och också produceras i stora mängder, ska kunna tas med fullt ut, behöver vi lösa många frågor kring hur vi behandlar data som resurs i forskningen.

Det absolut enklaste fallet att beskriva är det vad jag kallat publikation av dataset. Finansiärer förväntar sig idag allt oftare att man vid utgivningen av ett forskningsresultat (i praktiken ofta en artikel) också tillgängliggör underbyggande data och metoder (kod).  Detta argument är enkelt att omfatta också för forskare. Det är klart att man måste kunna belägga sina resultat och de måste kunna granskas. Referenser till data kräver ändå en hel del tekniska lösningar, så som förvaringsplats, tillräckliga metadata och en beständig identifierare. Vanliga webbsidor och webblänkar är inte alls nog i vetenskapliga sammanhang. Vi behöver tjänster som fairdata.fi eller Eudat. Men dessa tjänster passar inte alla. En del institutioner vill ha egna dataarkiv och många områden har internationella lösningar. I praktiken krävs också ofta omfattande planering och dokumentation för att komma så långt att de publicerade data faktiskt duger till något. 

Vår arbetsgrupp färdigställde i tisdags en första version av en rekommendation för hur man ska använda de beständiga identifierare som behövs för att referera till forskningsdataset. Det handlar alltså i detta skede mest om den första punkten: publicering av statiska dataset, som man sedan kan hänvisa till i sin forskning. Med detta skapar vi ändå förutsättningar för punkterna två och tre. Rekommendationen riktar sig alltså till dem som skapar och upprätthåller beständiga identifierare. Det är nämligen verkligen inte alltid lätt att veta när man ska använda hurdana identifierar och på vilket sätt. 

Rekommendationen är mycket koncis och avsikten är att fortsätta arbetet med att förklara och nyansera den i ett annat dokument. Nu har saker ännu reducerats till att man ska göra olika saker (skapa beständiga identifierare, använda semantik i dem osv) med försiktighet eller eftertanke. Vi vill gärna förklara lite mera om hurdana för- och nackdelar som finns med olika alternativ och i vilka olika situationer det är motiverat att avvika från rekommendationen. Dessutom vill vi lyfta fram olika exempel.

I de många diskussionerna under dagen kom jag personligen till en del nya insikter. En var hur otroligt viktigt det är att vi håller fokus på organisationerna och kvaliteten på deras tjänster då vi försöker mäta forskningsdata. Vi måste på alla tänkbara sätt undvika att fokus glider mot att kvantitativt eller schablonmässigt mäta själva data eller forskningens betydelse via data. Med erfarenheten hur åt skogen vi hamnat med missbruket av bibliometri, måste vi inse att vi löper ännu värre risker med datametrik. Data kan man nämligen producera hur mycket som helst om det blir ett mål. Det säger ju inget om dess värde. Och det man mäter får man som bekant.  Kvaliteten kan däremot endast bedömas kvalitativt, av sakkunniga.