torsdag 6 juni 2013

Det regnar data

Det är drygt fyra år sedan Tim Berners-Lee gjorde sin redan legendariska vädjan för öppna data. Han har också definierat fem olika grader av öppna data:
  1. Vilka som helst data på internet som är licensierade som öppen data 
  2. Vilka som helst data som är licensierade som öppen data och är strukturerade i maskinläsbar form (som text och/eller siffror, inte bilder)
  3. Som föregående men i ett öppet format (exempelvis en csv-fil – bara kommaseparerad text eller siffror – istället för en Excelfil) 
  4. Som ovan, men med användande av webbstandarder (W3C) dvs SPARQL och RDF, så att folk kan hänvisa till dina URI 
  5. Som ovan, men så att datan också inkluderar externa URI
Liksom den semantiska webben lyft och blivit vardag under det senaste året, inte minst tack vare Google, har också öppnandet av data fått ett genomslag. Vad det hela egentligen kommer att resultera är minst lika svårt att förutspå som webben var, misstänker jag. Det är oerhört spännande. I dag har det varit en riktigt turbotorsdag i Finland. Det började för min del med att jag upptäckte att Helsinki Region Inforshare blev prisbelönt av EU-kommissionen. Jag känner inte datat så noga, men jag skulle vara färdig att kalla åtminstone en del av den för femstjärnig öppen data, efterson jag är benägen att anse geografiska koordinater vara likvärdiga med URI då det gäller möjligheter att länka (även om det tekniskt kan fungera annorlunda än med RDF och SPARQL).

Dagens andra goda nyhet var lanseringen av den första digitaliserade delen av Ordboken över finlandssvenska folkmål. Sökfunktionerna är fina, lämpliga för forskare, även om kartan inte är integrerad i databasen, vilket gör användningen minst sagt långsam och krånglig för den oinvidga användaren. Att berika varje ord med geodata skulle ge fantastiska möjligheter till sökning och visualiseringar. Om licens står det ingenting och inget tekniskt gränssnitt finns, så egentligen är det inte alls frågan om ens öppna data ännu. Men vi är förhoppningsvis på väg dit. Ett dylikt lexikon kunde falla under närliggande upphovsrätt (15 år), men frågan är om den digitala upplagan ska tolkas som ett nytt verk. I vart fall kunde en Creative Commons-licens göra susen och garanterat främja användningen. Om forskningscentralens och SLS resurser inte räcker till att berika datan, kunde nämligen någon annan lätt göra det för dem, bara möjlighet erbjuds.

Följande instans som utmärkt sig både i går och i dag gällande tillgängliggörande av data är Nationalbiblioteket. I går lanserades den nya tjänsten Juuli, en suberb grej dit man samlar data om forskarnas publikationer från olika universitet och högskolor. Det är tillsvidare i startgroparna (exvis är det endast material från 2011), men också här är man på en bra väg. Det skulle vara av vikt att få datan länkad med hjälp av exempelvis forskar-id, vilket vad jag förstått är under planering. Detta skulle i framtiden ge fina möjligheter att till exempel länka enskild information mellan högskolor, forskningsdata, publikationer och forskare. Data kan tydligen laddas ner från Vipunen, men där står inget om licens vad jag kan se. Dagens bidrag var en finsk-ugrisk textresurs som är producerad i samarbete med det ryska nationalbiblioteket. Om jag tolkar sidan rätt är materialet public domain. I vart fall borde materialet väl klassas som nivå 1 eller kanske 1,5? PDF som filformat är ett att hackarnas hatobjekt, men om man kunde ladda ner den OCR:ade texten, skulle läget vara redan ett helt annat.

I detta sammanhang måste jag göra en liten utvikning: gällande just denna typ av data har licensförhandlingarna inom EU nu kraschat, och forskarsamfundet hoppas istället på justeringar i upphovsrättslagstiftningen. Det skulle vara en fantastisk sak om man, typ första gången i världshistorien, kunde komma i ett läge då man reviderar denna i allmännyttans istället för den starka och penningstinna upphovsrättslobbyns intressen. Man kan bara hoppas att det finns nog civilkurage hos beslutsfattarna, så att vi ens lite kunde knappa in på det amerikanska astronomiskt stora försprånget var gäller data och informationsresurser och nyttjandet av dem.

Vidare, vidare, som Dumas skriver ... Också Yle gick i dag ut med att man släpper data. Man har redan tidigare delat med sig av denna, men nu skall arbetet bli satt i system som en riktig tjänst. Vi hoppas på fem stjärnor där; hur det nu kunde se ut.

Pricken på i:et för dagen var ändå att Meterologiska institutet släpper sin väderdata. Fem stjärnor här, med samma logik som för HRI. Fantastiskt! Klar och tydligt, fin licens och allt. Klockrent. Hurra!

Som avslutning kan den som inte hört Berners-Lees fina tal göra det och lyssna till historiens vingslag.

2 kommentarer:

  1. Hei Jessica,

    Itse asiassa Fenno-Ugrica -kokoelman OCR-tekstin voi jatkossa saada itselleen, mutta vasta sittebn kun se on ensi korjattu kielentutkimusta varten. Keskeneräistä aineistoa, eli korjaamatonta emme vielä luovuta muualle kuin FIN-Clarinille.

    Lisää aiheesta projektin blogissa: https://blogs.helsinki.fi/fennougrica/

    Terveisin,
    Jussi-Pekka Hakkarainen

    SvaraRadera
  2. Loistavaa! Man kommer alltså att kunna få den OCR:ade texten när den är korrigerad. Man kan läsa mer i projektets blogg. Kiitos paljon, Jussi-Pekka! :)

    SvaraRadera