onsdag 24 februari 2016

Data ska inte delas, data ska användas

Man kan lugnt säga att världen och Europa har ganska mycket glädje av det brittiska arbetet med digitala material och medier. Denna vecka pågår international Digital Curation Conference i Amsterdam främst ordnat med brittiska krafter men med deltagare från fem kontinenter. Den första keynoten gavs av professorn i biosemantik Barend Mons från Leiden. Hans kreativa tal var riktigt inspirerande, för mig snarast retoriskt, innehållsmässigt var budskapet klart och viktigt (och i sig bekant): vi behöver tänka om det vetenskapliga publicerandet ordentligt. Mons ansåg att sättet att publicera data som separata bilagor eller bakom diffusa länkar är katastrofalt, det funkar helt enkelt inte. Dessutom önskade han hela Open Access (den gyllene vägen, tänker jag då främst) så långt pepparn växer: är det bättre om forskare i fattiga länder inte kan publicera än om de inte kan läsa “topptidningar”? frågade han. 

Vad som behövs är nanopublikationer, helst öppna. Det är i praktiken frågan om länkad data, fast det begreppet tycks vara ur mode nu. Egentligen var det befriande, man var redan inne på följande, praktiska nivå: diskussionen på konferensen rörde sig om olika sätt att hantera identifikatorer och modellera relationer.  Det är ytterst synd att man i Finland inte tillnärmelsevis nått denna nivå, utan verkar ha fastnat i lite föråldrade tankesätt. Jag roades stort av en kille från ett forskningsbibliotek (må förbli osagt i vilket land i världen) som i all tysthet byggt ett system som sparade informationen som rdf-tripletter under en traditionell yta. Det kan ibland vara svårt att ändra på gamla sätt att fungera och resonera, men det kan nog stå oss dyrt i längden om vi inte följer med utvecklingen i omvärlden. Mons menade att om vi inte dokumenterar antaganden och relationer (assertions) ordentligt, missar vi 95% av dem. Informationen, för att inte tala om kunskapen, blir nog lite skakig med mindre. Från DataCite ville man rekommendera integrerad vettig infrastruktur, omfattande normaliserad metadata, och satsningar på användbarhet. Användning av APIer och fasta identifikatorer är redan utbrett och många exempel på dataströmmar och integrationer gavs under olika presentationer. 

Jag lärde mig en del nya begrepp av Mons. Ett av de bästa var ridiculogram, eller kanske man borde kalla det löjlogram? Det var en av många kommentarer  om visualiseringar under konferensen. Den andra keynote-talaren, Susan Halford från Web Science Institute i Southampton, ondgjorde sig också över hur naiv och okritisk t ex twitterforskningen kan vara gällande källmaterialet. Hon underströk att data från sociala medier skapas i tekniska infrastrukturer som påverkar hur de ser ut; retweets är inte ett “naturligt” fenomen, utan ett resultat av en teknisk funktionalitet. De reflekterar inte aktivitet som finns oberoende av teknologin/plattformen. Retweets, som från början gjordes manuellt av användare, blev senare en funktionalitet, något hon kallade iterativa sociala praktiker. Twitterexporter ger olika resultat jämt och ständigt påpekade hon också, och t ex är det inte alls så att en människa är det samma som en twitterprofil. Ansenliga mängder tweets genereras av bottar, människor har flera profiler osv. Det är alltså faktiskt inte så att sociala medier direkt speglar en verklighet, som vi kan förklara genom att studera dataset. Samma sak sade också Mons, som talade om vikten av närläsning, analys och kvalitativa metoder. Att trolla fram grafer är inte forskning. Men forskningen behöver inte heller publiceras som pdf-artiklar, utan borde publiceras strukturerat. 

Alla visualiseringar tillför inte så mycket. Simon Cockell, Flickr 



Mest fick jag alltså kanske ut av just att få ta del av hur diskursen ser ut idag. Det talades oändligt mycket om “data management plans” och publicering av forskningsdata. Samtidigt var Mons budskap viktigt: att vi nu väckt medvetenhet om hela problematiken med att börja bråka om data management plans och data policyer, men det räcker inte långt. Data ska inte delas, data ska återanvändas. Nu måste vi sluta tala om planerna tyckte han och i stället förändra praktikerna, både forskarnas och våra egna. Och “vi” är i detta fall bibliotekarier, it- och datakunniga i forskningsorganisationerna. Mons hänvisade till att det enligt någon bedömning behövs 500 000 till av dem i EU, sakkunniga som arbetar integrerat med forskarna. Det är lite bekymmersamt att universiteten i Finland sanerar bort upp till en fjärde- eller femtedel av dem. Men vilket val har de, då finansieringen hänger på hur många publikationer och examina man producerar oberoende av kvalitet och hur mycket extern finansiering man drar in. Och finansieringen dras ändå ner drastiskt. Men det kan betyda att vi slarvar bort värdefulla dataresurser om vi inte lyckas förändra sättet som vi arbetar på från början till slut. Och denna förlust är framför allt nationell, varför också tjänster borde erbjudas med allmänna medel. 


Ett exempel på hur man kan modellera forskning, RMap, presenterades av Karen Hanson, men 
här rör vi oss fortfarande på en traditionell, grovkornig nivå.

Inga kommentarer:

Skicka en kommentar