torsdag 16 november 2017

LibrisXL är en stor nyhet




Har ni stiftat bekantskap med Boksampo någon gång? Det är en tjänst där man kan hitta väldigt mycket intressant information om litteratur och författare. Man kan göra egna boklistor som man kan publicera och dela om man vill. Tjänsten bygger på länkad data. För att komma till bibliotekskatalogerna måste man länka vidare. All information som inte kan presenteras i det traditionella biblioteksformatet måste sparas och publiceras någon annanstans. De system biblioteken använder i dag är mycket gammalmodiga och de bildar väldisciplinerade silon som diskuterar bara med varandra.


I Finland saknade vi länge en samkatalog, men nu finns lyckligtvis Melinda, där biblioteken kan ladda ner och upp katalogposter. Tidigare satt man på riktigt inom varje bibliotekssamarbete i kommunerna och katalogiserade samma bok helt och hållet från början. Ju längre tid man tar på sig desto bättre blir det gjort. Helst borde man ju läsa hela boken. Alternativet var att köpa färdiga poster utifrån. Då kunde i stället företag tjäna pengar på att göra arbetet en gång och sedan sälja samma katalogpost gång på gång på gång till olika bibliotekssystem. Den finska Melinda samkatalogen gör arbetet mycket effektivare, men den är fortfarande i grunden ett traditionellt system, som inte lätt avslöjar sina skatter för omvärlden.


I Sverige har man däremot valt en radikalt annan väg. Där har Libris redan länge fungerat om samkatalog och nu har man tagit det modiga steget ut till länkade data. Medan vi i Finland kämpar med att ens lyckas integrera våra strålande maskinläsbara ämnesord i katalogerna, har man i Sverige  bestämt sig för att det inte är ändamålsenligt att hälla fast vid en föråldrad teknologi utan hoppar direkt femtio år framåt i tiden, till en tid där världen är full av digital information. Det är en väg som i princip är utstakad av bl a Library of Congress men jag undrar om inte Kungliga Biblioteket är det första nationalbiblioteket som tar detta steg fullt ut.

Eftersom de andra systemen som det nya LibrisXL talar med fortfarande surrar på med sina gamla format måste man tills vidare konvertera informationen på väg in och ut i samkatalogen. Men den nya katalogen kan smidigt dela med sig av all information med vem som helst. Dess innehåll kan vid behov växa och kompletteras, det kan utan problem tala med också andra resurser än bibliotekskataloger. Till exempel Wikipedia eller Google. Och framför allt kommer man att kunna återanvända inte bara katalogposter, utan enskilda element med information.

Förändringen i tankesättet är ganska stor, eftersom man nu beaktar skillnaden mellan tecken och begrepp genomgående. Men jag tror det är mycket klokt att vänja sig vid den tanken. Vi kommer att få så mycket bättre reda på all information på det sättet, även om det i början kommer att kräva en hel del av både bibliotekarier och systemutvecklare. Men i längden betyder det att man får ut mycket större nytta av det viktiga katalogiseringsarbete som görs.

Också i Finland tas steg, som gör att vi snart kan återkomma till utvecklingen här. Och i början av januari 2018 smäller det, då KB byter system. Heja ni!

lördag 11 november 2017

Artificiell intuition

Tractographic reconstruction of neural connections
By Thomas Schultz (Own work) CC BY-SA 2.5-2.0-1.0 via Wikimedia Commons

Om en gitarr med strängar kostar 110 euro och gitarren kostar hundra euro mera än strängarna, vad kostar strängarna? 

Ditt spontana svar var troligen fel. Daniel Kahnemann fyller sin bok Thinking, fast and slow med massor av liknande exempel, experiment som han och hans kolleger (bland andra Thaler) har gjort i decennier. Han bevisar gång på gång hur lat vår hjärna är. Att tänka efter kräver en stor ansträngning, mycket energi, och därför skippar vi för det mesta att tänka analytiskt. I stället resonerar vi spontant, intuitivt, och drar massor av slutsatser hela tiden utan att vi ens märker det. Och inte sällan uppåt väggarna.

Vi påverkas av referensvärden, fördomar och kontextuella detaljer som ofta kan leda oss vilse. (Jag tar medium, den är så mycket billigare.) Vi är motvilliga att ta risker som kan leda till förluster, men ju sämre utsikter vi har att klara oss desto mer riskbenägna är vi. (Kanske klimatforskarna ändå har fel?) Varje investering är en emotionell satsning, som gör det svårare att bedöma risker och kostnader rationellt. (Jag har redan satsat så mycket på detta, bäst att satsa lite till även om utsikterna att lyckas är sämre än fifty-fifty.)  Vi övervärderar sannolikheter nära 0 och 1 alldeles på tok i jämförelse med andra odds. (Den som inte lottar kan ju inte vinna.) Ju mer komplexa eller extrema situationer är, desto svårare är det att vara rationell.  

Det var ju en och annan humanist som skrattade gott åt att man inom ekonomi ger stora pris åt folk som bevisar att folk inte är rationella. Samtidigt är det skrämmande att se att till och med enkla val lätt blir konstiga: Om du är på väg på teater och betalat 50 euro för biljetten, men vid ankomsten tappat biljetten köper du sannolikare inte en ny, än om du tappat 50 euro och tänkt köpa biljetten vid luckan. Förlusten svider mera för att du redan investerat. Kahnemann och beteendeekonomin förklarar varför metron och andra stora projekt oftast går över budget och varför försäkringar fungerar. Och varför mäklare och chefer ofta är lika bra eller till och med sämre än slumpen. Ibland, ibland, är det intuitiva, slappa tänkandet till och med till nytta. Men ofta är det en fälla. Att inse när man ska tänka efter är inte alltid lätt. Och också om man försöker är det svårt. För vi värdesätter ju verkligen inte bara pengar heller. Men också annan risktagning och ännu oftare riskaversion i livet kunde kanske vara bra ta fundera lite mera på. Alltför ofta gör man inget.

Det är förstås också därför människor är så förutsägbara och därför Google och andra vet vad folk kommer att göra, hurdana val och handlingar som följer på varandra. Det är vårt lata "system 1", som Kahnemann kallar det, som är i aktion. Facebooks och Googles datamassor speglar våra mest oreflekterade rutiner och handlingar. Är det också dem vi matar våra artificiella intelligenser med? Dem, som uppförstorar, förstärker och mångfaldigar våra mest inrotade fördomar och vanor?

Intuition handlar om sannolikheter. Det handlar om erfarenhetskunskap som leder oss och bär oss då, när vårt långsamma analytiska eftertänksamma system 2 slumrar. Vi känner igen tecken, subtila vinkar som vi sett många gånger förr och som kanske omedvetet leder oss på rätt spår. Men ofta hoppar vi över flera steg i resonemangen utan att inse det. Erfarenhet ger intuition. Som Siilasmaa förklarar på videon nedan handlar också (en form av) maskininlärning om att hantera sannolikheter genom att bygga upp erfarenheter. Men maskinen kan inte tänka efter. Och om alla dess erfarenheter baserar sig på data som inte är genomtänka kan den bara berätta om vanliga saker. Den kan berätta dem bra och känna igen viktiga mönster i stora mängder information. De artificiella neurala nätverken är otroligt spännande svarta lådor.

Men intelligens har de inte så tillvida att de skulle kunna använda något de lärt sig på något nytt och kreativt sätt. Egentligen är det mera som intuition. Maskinen behöver fortfarande människan som handleder och utvärderar resultaten. Som står för intelligensen.








söndag 5 november 2017

Gränslösa data

I arbetet med forskningsdata har jag kämpat med en inte obekant utmaning, nämligen definitionen av vad forskningsdata är. I officiella sammanhang brukar man definiera dem som "data som underbygger forskning". Men i vilket skede blir till exempel vanliga öppna data "forskningsdata" och var ska de förvaras och katalogiseras i olika skeden?

Vi har flera olika datakataloger och dessutom kopierar man flitigt metadata till olika aggregerade kataloger. För alla vill förstås ha så omfattande kataloger som möjligt. Jag ser ändå en stor risk i att alla kopierar data och metadata kors och tvärs. Slutresultatet riskerar bli ett totalt virrvarr, där varken forskare vet var de ska publicera sina data och metadata eller söka efter material av olika typ. Ännu värre blir det om man börjar rådda in publikationer utan urskillning. Tyvärr har vi Finland både stora och små katalogtjänster och plattformar som gjort det misstaget. Det har saknats både styrning, strukturer och omdöme.

Vi börjar nu vara i ett läge då det är viktigt att ta i detta och profilera olika typer av både material och tjänster. I ett läge där man ha känslan att kvantitet är viktigare än kvalitet då det gäller finansiering (skuggan av kvantitativa mätare hänger tung över varenda projekt i vår tid), är det viktigt att ha klara uppdrag och avgränsningar, annars riskerar man göra informationsförvaltning och sökbarhet en björntjänst.

Orsaken att det inte funnits klara uppdrag är att det inte funnits entydiga definitioner på olika typer av data. Och det beror ju på att det inte finns några klara gränser och på att hela fältet varit nytt och extremt svårt att greppa. Har åtminstone jag tyckt. Men denna vecka nådde vi, tror jag, ett genombrott då jag med ett par naturvetarkolleger satt och diskuterade problematiken. Vi har nu skissat upp en tredelning. För lösningen var antagligen att det är just en tredelning och inte en tudelning (icke-forskningsdata och forskningsdata). Tanken är bara en idé ännu och vi ska jobba vidare på detta. Men jag vill gärna testa konceptet med att försöka förklara det på ett enkelt sätt. Om det går.

A. Öppna data

Dessa dataprodukter är till format och standarder mogna och stabila. De omfattas t ex av europeiska direktiv och kan vara ISO-standardiserade. Samtidigt kan de vara dynamiska dataset eller öppna gränssnitt. Detta är sådana data som borde finnas i Avoindata.fi eller Paikkatieto-katalogen (av vilka avoindata.fi är den heltäckande som innehåller alla typer, dvs den kan hösta metadata från paikkatietohakemisto). Det kan vara data från olika vädertjänster eller andra instrument. Här hittar företag data att använda då de vill bygga olika tjänster eller myndigheter varandras data. Forskare kan förstås också använda sig av dessa källor, men de är inte framtagna särskilt för forskning.

B. Allmänna forskningsdata

Det här är data som är framtagen av forskare. Det kan vara mycket rå data och den är inte alltid helt stabil, eftersom dessa produkter oftast är under utveckling. Det kan vara olika typer av vetenskapliga mätningar. De är väl dokumenterade så att de går att använda för olika ändamål. De alltså validerade och av bra kvalitet. Det innebär t ex mycket teknisk information och dokumentation av insamling och produktion. Som exempel kan jag nämna SMEAR-data, som man kan studera i AVAA-portalen där det också finns andra liknande exempel. Andra exempel är de flesta korpusar i Språkbanken.

C. Specifika forskningsdata

Dessa dataset har uppstått i samband med en viss specifik forskningsfråga och återanvändbarheten är sällan hög, om det inte är en mycket mogen disciplin inom data och kvantitativa metoder. Data är ofta processade och analyserade data som publiceras i samband med forskningens resultat. Dessa dataset är absolut stabila, för ett av deras viktigaste syften är att fungera som stöd för specifik forskning så att den kan granskas och upprepas. En stor del av Dataarkivets material är sådant material.


Som sagt, detta är en grov indelning och det finns data som befinner sig i gränsmarkerna. Men en dylik kategorisering och tankemodell kunde också hjälpa forskare att gestalta datas livscykel och hur man kan publicera och hänvisa då man arbetar med data. Dessutom skulle denna indelning hjälpa vid förvaltandet av både data och metadata. Vi kunde beskriva våra olika söktjänster dels genom att ange deras disciplinära profil, dels denna profilering. Då kan man också bättre berätta vad sammanställda datakataloger innehåller. Vi borde inte ha för många tjänster som innehåller allt, bara för att alla vill vara så stora som möjligt. Det gynnar ingen.