söndag 26 september 2010

Vad är ett sökgränssnitt och vad är metadata?

Jag fick nyss den ovannämnda frågan mig tillställd och tänkte att svaret kanske kan gläjda någon annan också, än den vänliga person som frågade mig (efter att jag förfallit till dylikt fikonspråk).

Ett sökgränssnitt är helt enkelt det som en användare ser av ett datasystem, exempelvis en databas, på en datorskärm till exempel på webben. Om man söker något material i ett arkiv eller i en bibliotekskatalog, skriver man helt enkelt in i en ruta (eller flera små rutor om man använder s.k. avancerad sökning) sökord och skickar sedan sin sökfråga till systemet genom att klicka på en knapp - "sök" eller motsvarade - eller trycka på radbyte.

Sökfrågan (de ord man skrivit) skickas då från sökgränssnittet in i datasystemet, där det matchas mot informationen som finns lagrad i systemet. Förhoppningsvis får man också sedan tillbaka ett sökresultat som man kan läsa på sin skärm.

Den information som man söker i är ofta så kallad metadata, alltså uppgifter om de olika sakerna och inte inne i själva materialet. Till exempel om man söker i en bibliotekskatalog söker man ju bland uppgifter uttryckligen om böckerna, metadata som någon vänlig bibliotekarie skrivit in, såsom vad boken heter, vem som skrivit den eller ämnesord som berättar vad den handlar om. Om man kan söka i hela innehållet i en bok eller annan text kallas det fulltextsökning, men då måste man ju ha sparat varenda bokstav ur hela boken inne i datasystemet. Sådan sökning är ibland bra, men ofta är den onödigt besvärligt att bygga ett system som kan göra det och att sedan genomföra sökningen och att få ett resultat tillbaka till gränssnittet som duger till något alls.

Man kan söka i Borgå stadsbiblioteks samling genom deras webbgränssnitt som heter Porsse. Då söker man just i metadata om böckerna. Det blir lite svårare att skilja på fulltextsökning och sökning i metadata när det handlar om digitala material, men idén är den samma och söksystemen är olika för olika typer av sökningar.

Om att planera långsiktigt digitalt bevarande

Hur man kan bevara digitala material i ett längre perspektiv är en brännande aktuell fråga för många, bland dem också arkiv och bibliotek som ibland satsat mycket stora summor på att digitalisera material. Dessutom landar allt mer digitalbaserade material hos kulturarvsorganisationer. Situationen är utmanande, inte bara tekniskt, utan också administrativt. Det är svårt, om inte omöjligt, att beräkna kostnader, även om man klarar av att hantera den akuta situationen.

Det allra viktigaste är att komma ihåg två grundsaker: tillräckligt många kopior av materialet (helst också på LTO-band) och tillräcklig dokumentation. Förvaringsutrymme är förhållandevis förmånligt i dag, så det kostar inte så mycket mer att spara opackade format. Välj helst etablerade filformat. Det kan omöjligt finnas för mycket dokumentation: man måste dokumentera varenda teknisk åtgärd i detalj, teknisk metadata och hålla noggrant reda på alla filer och all information. Då har man redan kommit rätt långt. Ytterligare en god sak är om man kan åstadkomma och dokumentera kontollsummor efter varje åtgärd. Bra är också att spara olika versioner av varje fil, t ex den som inkommit, en för bevaring avsedd normaliserad version samt en mindre och mer lätthanterlig brukskopia.

Följande åtgärd är att skriva en utförlig bevaringsplan. (Det borde man förstås helst ha gjort innan, men få har hunnit med det, misstänker jag). Det innebär att man beskriver varje samling eller materialtyp, listar alla använda hård- och mjukvara och kartlägger läget, potentiella risker och möjliga bevaringsstrategier. Väljer man emulering krävs det nämligen ytterligare arbete gällande vilka program och system man eventuellt måste bevara. Dessutom är det viktigt, vilket ofta glöms bort, att definiera vilka egenskaper hos materialet bör bevaras. Till exempel då det gäller forskningsdata kan det vara av värde att också bevara sökfunktioner eller gränssnitt som forskare använt sig av - i annat fall är själva data värdelöst som belägg för forskningsresultaten.

Det är också mycket viktigt att man i bevaringsplanen planerar för hur och när den följs upp och uppdateras och hur ansvar och roller överlag är organiserade med tanke på alla tänkbara (och helst också otänkbara) omständigheter. De administrativa och organisatoriska bitarna är faktiskt mycket viktigare än man vid en första anblick kunde tycka. Att personalens kompetens plötsligt oväntat sjunker radikalt är en betydligt större risk än en eldsvåda i de flesta fall. Man måste också utreda hur man kan hantera och följa upp förändringar i ägo- och rättighetsförhållanden gällande materialet på längre sikt?

Arbetet med att författa en bevaringsplan kan bli mycket omfattande, men måste göras. Det är viktigt att involvera både it-kunnig personal, arkivpersonal och forskare i arbetet. Man kan inte heller komma undan arbetet helt och hållet, så länge man är ansvarig för ett digitalt material, trots att man låter någon annan sköta den praktiska bevaringen. Det är nämligen i vilket fall som helst så, att det är just och uttryckligen kulturarvsorganisationen själv som bär ansvaret för att materialet bevaras på ett adekvat sätt, dvs. att det kan användas i framtiden. Om inte annat, måste man kunna formulera kraven på den bevaringstjänst man köper av någon annan.

tisdag 14 september 2010

Projektanatomi och -patologi

Det hände sig att Svenska litteratursällskapet i Finland, där jag nu arbetar som ansvarig för utvecklingen av informationstjänster, fick en hel del sysselsättningsmedel för digitalisering, liksom många andra kulturarvsorganisationer. Idén var mycket god, eftersom det dels finns mycket material som hotas av sönderfallande medier, och dels behövs det gärna innehåll till det planerade Nationella digitala biblioteket. En viktig målsättning var också att höja kompetensen både innanför och utanför organisationerna.

Tidtabellen för användningen av pengarna var mycket stram. På SLS beslöt vi oss för att börja med sådana material som hotades av sönderfall (typ VHS-inspelningar) eller som var mycket svårtillgängliga (t ex olika smalfilmsformat). Dessa material digitaliserades inte av oss själva, utan av professionella företag efter att offentlig upphandling gjorts. Processen var arbetsdryg, men också mycket lärorik: kompetensen steg både hos oss själva och hos många av leverantörerna, när vi verkligen blev tvungna att sätta oss in i tekniska detaljer.

Sedan fick vi ännu en sats sysselsättningsmedel. Nu hoppades jag faktiskt att vi skulle kunna undvika upphandling så långt som möjligt. I stället beslöt vi oss för att gå in för två principer: för det första en så hög sysselsättningseffekt som möjligt (en mellanrapport visade att effekterna av den föregående satsningen lämnade en del att önska på den punkten, de professionella digitaliserarna var ”för” effektiva), för det andra att producera sådant material som är så användbart som möjligt. SLS är mitt i ett stort strategiarbete och det enda vi vet egentligen är att de digitala materialen kommer att vara av central betydelse i framtiden - men exakt hur de nya tjänsterna ska se ut är ännu inte beslutat.

Ett resultat blev att vi hastigt och lustigt plockade ut en del material ur arkiven, sådant material som är mycket använt och som finns löst nämnt i olika långsiktsplaner på olika håll inom SLS. Men vad göra med det? Svaret var rätt självklart, utgående från de förut nämnda principerna: materialet skall skannas in (bild), skrivas in (text) och sedan annoteras (TEI-kod). Då har vi en råvara som duger för många forskare, men också för att producera pedagogiska webbtjänster. För att ta ut så mycket som möjligt av detta, har vi dessutom tänkt att vi skulle skapa semantisk kod, för att kunna utnyttja materialet mer mångsidigt, efter de förväntningar vi tror användare kommer att ha om några år.

Nu har arbetet kommit igång. Vi har tre extremt duktiga kodare och vi har inlett ett internt samarbete med ZTS, där man har bra TEI-kunnande och framför allt den praktiska erfarenhet som ofta kan bli dyrköpt i dylika projekt. Först nu fanns det egentligen tid att sätta sig ner och skriva en plan för detta företag och beskriva. Omständigheterna orsakade att vi gjorde saker i en helt bakvänd ordning, men det blev inte sämre för det, faktiskt. Projektplanen var nästan enklare att skriva i efterskott, tror jag. Det åtog sig Johan Kylander, en av hjärnorna bakom projektet. Så föddes Semla, ”semantiskt litteraturarkiv”, från en idé, organiskt till ett projekt på några månader. Hittills ser det mycket bra ut, hur framtiden på längre sikt ser ut beror egentligen på hur väl SLS lyckas anpassa sig och sina strukturer, idka s k idea management. Det blir samtidigt ett test på hur väl man lyckas förverkliga den nya strategin. Jag ser rätt hoppfullt på det, eftersom jag ser att strategiarbetet på många sätt fungerat mycket bra inom SLS.

Men det är egentligen just detta som är en av svagheterna med projektekonomi, att fortsättningen ofta är osäker. Webben är full av olika pilotprojekt och andra projekt som ebbat ut, glömts bort och föråldrats. Samtidigt är beslutsfattarna ofta förtjusta projektformatet: projekthantering är ett sätt att planera och kontrollera arbete, det finns etablerade metoder för hur man går till väga med planering, uppföljning och rapportering. Se bara på forskningsvärlden, hur forskningsfinansiärerna strävar till mätbara resultat och att på andra sätt påverka utvecklingen genom att driva fram till exempel mångdisciplinär forskning genom att finansiera stora projekt, något som inom humaniora inte enkelt låter sig göras på ett naturligt och fruktbart sätt. Frustrationen bland forskare är ofta stor, eftersom snuttifieringen av arbetet gör att oproportionerligt stor tid går åt till att skriva ihop nya projektplaner och ansöka om fortsatt finansiering i form av nya projekt. Projektformatet passar också både politikers och det övriga samhällets periodtänkande. Vilken den långsiktiga effekten är av ett arbete är inte intressant. Därför har satsningar som ger långsamma resultat, som till exempel projekt inom hälsovård eller miljö, svårt att hävda sig. Om man inte kan uppvisa imponerande alternativkostnader förstås. Sådant är ändå näst intill omöjligt för konstnärer eller humanister.

Projekt kan användas antingen för att ta fram något nytt eller för att lägga om existerande strukturer. Problemet kan ändå ofta bli att projekten är för frikopplade från existerande strukturer eller dessa är för rigida, att det inte finns någonstans projektets resultat kan landa. Vare sig projektet är framkommenderat – vilket ibland kan krävas för att innovationer ska födas – eller spontant fött, krävs det mycket dynamik av de omgivande organisationerna.

söndag 5 september 2010

Om kvantitet och kvalitet

Läsningen av Clay Shirkys nya bok Cognitive Surplus. Creativity and Generosity in a Connected Age har hittills gett mig mer känsla av igenkännande än aha-upplevelser. Om man följt med fältet en aning är det hittills (efter drygt hundra sidor) inte några direkt revolutionerande tankar. Fast grundidén med frigörelsen från tv-opiet (mina tankar går osökt till Bill Wattersons fantastiska analyser i Calvin & Hobbes) är förstås trevlig.

En av hans utkristalliseringar gillar jag särskilt: The great tension in media has always been that freedom and quality are conflicting goals. För det är ju precis det det handlar om: friheten, dvs då möjligheten att publicera dramatsikt utvidgats innebär det mindre kontroll; färre spärrar vid publicering ger oundvikligen mängder av material av dåligt kvalitet sprids ut. Men att kvaliteten i genomsnitt sjunker drastiskt, innebär det att allt blir sämre?

Ta till exempel tv. Har vi bättre tv-program i dag än för trettio år sedan då vi hade två kanaler som sände några timmar i dygnet? Svaret är utan tvekan: ja! Visserligen sänds det numera absurda mängder total smörja, men guldkornen är å andra sidan så mycket bättre! På webben är det kanske ännu i dag lite svårare att se vad som är bra och vad som är dåligt, eller att definiera kvalitet, men jag tror man känner igen kvalitet när man ser det. Vi vet inte heller exakt vad man kan göra på webben, vilka alla former konst kan ta, till exempel. Då mycket görs, lär man sig att göra bättre om man har ambition, man lär av egna och andras misstag. I slutändan blir nog det bästa ännu bättre. I genomsnitt.