Visar inlägg med etikett ontologier. Visa alla inlägg
Visar inlägg med etikett ontologier. Visa alla inlägg

fredag 20 mars 2015

Stor förändring i Googles sökningar och datalänkningen

Jag hade helt missat nyheten som tydligen kom redan i december att Freebase blir read-only redan om några veckor. I stället övergår Google till att använda Wikidata. Det låter kanske fjärran från vår vardag men det är faktiskt en stor sak, tycker jag både principellt och praktiskt. Det påverkar åtminstone alla som använder Google ...

Vad handlar det då om? För några år sedan lanserade Google ett system med semantiskt bättre strukturerad data, Google Knowledge Graph. För användarna märktes detta främst som att Googles sökresultatsida fick en faktaruta till höger. Redan i detta skede var Wikipedia en viktig källa för den information som användes.  Då i form av DBpedia (se bilden nedan). En annan viktig källa var Freebase som Google köpt upp några år tidigare, när man insåg var sökteknikerna är på väg: det blir allt viktigare med semantiskt bättre strukturerad information. Inom Wikimedia hade man också insett detta och startat ett projekt, Wikidata, för att förbättra och berika den enorma mängd data som finns.  Nu har Wikidata blivit så bra att man lägger ner Freebase. I stället ska data föras in i Wikidata.

Både Freebase och Wikipedia har till stora delar gjorts genom crowdsourcing, dvs genom frivilligarbete. Bakom Freebase har det funnits ett företag, medan Wikimedia är en stiftelse. På sätt och vis har nu det "ideella" segrat - å andra sidan kommer Google att få ett större inflytande på innehållet i Wikidata. Det är ett tveeggat svärd. Det kommer säkert att innebära en ännu rikare informationsresurs, men det kommer också att föra oss mot en på sätt och vis mer "entydig" sanning. Trots att både Google och Wikipedia har varit noggranna med att bara koda in "enkla fakta" i sina databaser, har det ändå funnits rum för olika sanningar.

Därför blir det också ännu viktigare att vi vinner användare för andra liknande resurser, s k ontologier. För det finns många, många av dem. För den som vill friska upp sitt minne kring vad det handlar om rekommenderar jag Tim Berners-Lees TED-talk från 2009. Det var han som uppfann webben och i videon förklarar han varför det bara var början och hur man bör gå vidare. Och också gjort. Men den digitala revolutionen är faktiskt bara i startgroparna, trots att den redan skakat om våra liv och vårt samhälle ordentligt.


LOD Cloud 2014

På webben finns i dag mängder av liknande länkade resurser. Här läget 2014.
By Max Schmachtenberg, Christian Bizer, Anja Jentzsch
and Richard Cyganiak (http://lod-cloud.net/) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

torsdag 4 september 2014

Lilla jul för öppen länkad data

I Finland firar vi inte bara första advent utan vi kallar det också lilla jul, när december och julförberedelserna tar vid. Det var en lite liknande känsla av att det börjar hända jag hade i går på seminariet Linkity! Kohti yhteentoimivaa metatietoa (ungefär Länka dig! Mot gemensam/samspelt metadata) som ordnades för folk inom museer, arkiv och bibliotek. Vi står äntligen på tröskeln för genombrottet av öppen länkad data i Finland. Saker som jag otåligt väntat på i flera år håller äntligen på att realiseras. Det kommer att innebära fantastiska synergier och större effektivitet och rationalitet i hanteringen av landets informationsresurser, vilket leder till inte bara kännbart bättre tjänster för allmänheten, utan också bättre möjligheter för olika verksamheter att koordinera sig och få bättre kontroll över de egna resurserna. Och en effektivare, mer rationell helhet. I hjärtat av hela projektet finns användningen av gemensamma eller länkade ontologier. Ontologitjänsterna kommer att koordineras och upprätthållas av Finto.fi.


Under förmiddagen sammanställde jag en Storify (nedan), men på eftermiddagen var min ström slut och jag var själv på scenen, så jag hade inte möjlighet att fortsätta bevakningen på detta sätt. Jag rekommenderar faktiskt att intresserade och/eller berörda parter tar del av det material som kommer att publiceras på seminariets webbsida. Presentationerna var mycket intressanta. Det görs mycket spännande saker på olika håll just nu! När julafton infaller är ännu oklart men inom några år kommer vi antagligen att börja se fantastiska resultat. Det jag själv ännu vill dra en lans för är öppenheten: för att all potential ska kunna realiseras behöver vi många modiga beslut för att faktiskt bygga många öppna gränssnitt och släppa informationen fri för att användas av alla tänkbara och ännu opåtänkta instanser som kan producera tjänster och mervärde.



torsdag 15 maj 2014

Vitsen med ontologier

I går höll de vetenskapliga specialbiblioteken ett seminarium om ontologier i Helsingfors. Jag anade att det rör på sig i bibliotekssektorn gällande denna fråga, att publiken var positiv och engagerad. Det är kring tio år sedan arbetet började på Aalto universitet, och i många herrans år har vi fått vänta på att en bredare front i biblioteksvärlden skulle öppna sig för samarbete. Professor Hyvönens radikal-brutala ingenjörsansats och ingrepp i förhållande till bibliotekens mest omhuldade ägodel, deras kataloger och ämnesord, fick en del av biblioteksfolket på bakhasorna då utvecklingen av ontologier för ämnesord inleddes. Det krävdes en del sönderslagna ägg för den omeletten.

Många problem har det funnits med ontologierna, men nu har de äntligen landat på Nationalbiblioteket och i kompetenta och förtroendeingivande händer också ur bibliotekarieperspektiv, tror jag. Man kan äntligen i god sämja, it-folk och informationsspecialister tillsammans, nu utveckla en tjänst som faktiskt kan gå att använda och där man tydligt också ser fördelarna för både dem som indexerar material och dem som söker dem. Jag tror och hoppas att man på allt fler håll inser att det inte är ett stort hot mot någons databas eller metadata att man sparar lite extra data, som i framtiden kan bespara en från mycket arbete och göra ens arbete mer hållbart och värdefullt på sikt. Så har vi åtminstone resonerat på Brages Pressarkiv redan en längre tid.

Vitsen med att använda en ontologi är att man skiljer på termen (ordet, textsträngen) och begreppet (betydelsen). Dessutom kodar man in i ontologin hur varje begrepp förhåller sig till andra begrepp. Det gör att man kan bygga mycket användarvänliga system som är språkoberoende och som enkelt kan hantera synonymer, homonymer och olika typer av relationer och egenskaper hos de olika begreppen. I ontologin erbjuds dessutom en unik identifikator (som en webbadress) för varje begrepp som fungerar globalt. Ontologierna är alltså viktiga byggstenar i den semantiska webben eller det som också kallas öppen länkad data. När man sparar de unika identifikatorerna i sin egen databas, hänger den begreppsligt ihop med resten av världen.

Vanliga användare kommer sällan eller aldrig att behöva fundera på tekniken
bakom länkad data, men det är av stor vikt att alla som producerar material för webben
och som vill nå ut använder de URI som erbjuds av pålitliga aktörer.
Man kan titta på vad det handlar om på Finto.fi - testa!

Vi fick höra många fina presentationer, tyckte jag. Själv fick jag tillfälle att berätta om Brages Pressarkiv och vårt arbete med Presstanda.fi och Pondus.info. Helt vild blev jag av presentationen om den finska termbanken, som jag inte tidigare riktigt insett omfattningen av. Här har vi potential till vad som helst! Och de nya teknikerna erbjuder fina möjligheter för forskare, humanister och informationsvetare att agera som det klister och den kontext som behövs i dagens digitala kultur och samhälle.
 

måndag 4 november 2013

Public service

Ramlade i dag mer på grund av tur än skicklighet in på en del intressanta möten på Yle. Public service-bolaget har en storsatsning på gång gällande metadata och att få ordning på alla sina informationsresurser. Eller ordning finns väl, men det handlar om att bryta silon och kunna länka mellan dem och skapa tjänster och funktioner som tjänar kunderna. Arbetet är otroligt intressant och ambitionsnivån hög. Vad som gläder mig särskilt är att man förmår se utanför de egna väggarna och till exempel har ett gott samarbete med Nationalbiblioteket. Länkad data är framtidens melodi, helt klart.

Open Knowledge-folket fick också besöka Yle Plus, alltså den "datajournalistiska" enheten, som de facto arbetar med att producera innovativ webbjournalistik överlag. Intressant nog kom datas hållbarhet och arkiveringsfrågor spontant på tal. Det är relevanta frågor, som man kanske inte alltid hinner tänka på, men man borde ju i regel kunna länka och vara så transparent som möjligt inte bara gällande journalistiska material som berör samma ämne, utan också relationer i ett tidsperspektiv eller gällande källor. Man borde kunna följa texter och påståenden bakåt i tiden, genom olika versioner och till alla källor. "Context is king", skulle jag vilja säga.

En viktig poäng som jag tjatade om i alla sammanhang var att Yle inte bara borde fokusera på att betjäna medborgarna, utan också journalister vid andra medier. Det borde ske just genom att erbjuda också data och dokumentation kring it-projekt, men även gällande andra typer av informationsresurser. Vad jag närmast avser är infrastruktur för länkning av data. Vi skulle till exempel behöva en ontologi över mediaproducenter över tid. Också andra resurser som man kunde erbjuda bestående URI på kommer säkert att uppstå under arbetet. Yle som allmännyttig och förhållandevis resursstark aktör inom mediebranschen borde föresätta sig att stöda andra medier och journalistik överlag.





söndag 17 februari 2013

Ordning på saker och ting

Förr, när information faktiskt måste organiseras mer lineärt än nu, i listor, kataloger, kartotek och klasser hände det att man också använde sig av siffror. Då det normala var att trycka information på papper var olika typer av register och listor legio. Det betyder att man måste bestämma vad som ska komma först, och vad som kommer sist. Ibland ter sig alfabetisk ordning som neutral och framför allt enkel att använda för både producent och nyttjare. Men alltid är det inte ett alternativ. Ibland behöver man andra typer av ordningar, systematiska och kanske hierarkiskt strukturerade register.

Också i övrigt är klassifikationssystem under olika tider och i olika sammanhang oerhört intressanta speglingar av sin tid och sina upphovsmän. Själv satt jag nyligen och jobbade med klasser som härstammar ur den officiella finländska tesaurusen Allärs. Idén med en tesaurus är att människor som förtecknar och katalogiserar material på olika håll och förser det med ämnesord ska välja samma ord och samma form, så att man får ett enhetligt och normaliserat söksystem. Till exempel används i bibliotekskataloger ämnesordet "läroböcker" konsekvent, inte "skolböcker". Så det räcker att söka med det ena ordet (bara man vet vilket det är) för att få fram alla.

Jag försökte snabbt spåra Allärs historia. Den finländska tesaurusen har i tryckt form utkommit först på 1990-talet, vilket var en överraskning. Det har alltså skett ett tag efter att man övergått till biblioteksdatabaser.  Jag har ändå för mig att den tidigare funnits som någonsorts stencil eller kopierade papper åtminstone på större bibliotek.

I alla fall skvallrar klasserna om intressanta saker åtminstone i den version som implementerats på Brages Pressarkiv. Exempelvis är länder och världsdelar ordnade i följande ordning: Norden, Baltikum, Ryssland, Europa, Afrika, Asien, Australien, Syd- och Centralamerika, Nordamerika. Eller vad sägs om de politiska kategorierna i ordning: Politiska partier, Presidenten, Regeringen och Riksdagen.

Numera går man sakta, äntligen, över i mer komplexa modeller över världen och sakernas förhållanden i och med ontologierna. Databaserna ger ju oss möjligheten till mycket effektivare och mer mångdimensionella sätt att strukturera information. För övrigt har biblioteken haft lite svårt att släppa det mer endimensionella och kategoriska sättet att beskriva världen. Inte minst för att man i slutändan ändå varit tvungen att ställa varje bok i en viss, bestämd och specifik hylla. Det problemet kan vi trolla bort med e-böckerna.

Utbildning eller militära frågor ....?

söndag 13 januari 2013

Vem, vad -- var?

Det är beklagligt men sant, att man får fram olika sökresultat och olika material ur Riksarkivets VAKKA- och Astia-databaser beroende på om man söker med "Siuntio" eller "Sjundeå". Vill man ha material från Pörtom, gäller det att veta att den svenska orten heter "Pirttikylä" på finska och söka med det (också). Samma sak verkar gälla i åtminstone Nationalbibliotekets Helka-katalog. Det är alldeles klart att läget är oacceptabelt.

Den självklara lösningen, som man också är på väg mot, är att berika metadatan med hjälp av andra databaser, helst genom bruket av en ontologi med både hierarkisk struktur och tidsdimension. Ortnamn hör till den typ av information som är förhållandevis entydig och lätt att länka. (Om länkning av data är obekant, lönar det sig att kolla denna video 3:42 min) Med en allt mer utbredd användning av mobilteknologi kan efterfrågan knappast bli mindre på just länkning av geografisk data. Ortnamn och namn på platser finns dessutom i nästan all kulturarvsdata. Nästan varenda en uppgift om ett föremål eller ett dokument är knutet till minst en geografisk uppgift. Det är således ett naturligt ställe att börja länka data eller berika data exempelvis för Finna.

Lantmäteriverket är ålagt av INSPIRE-direktiven att inom några år erbjuda omfattande tjänster, som bland annat innefattar gränssnitt som innehåller information om förvaltningsgränser. Redan nu erbjuder man många utmärkta tjänster och mycket data alldeles gratis via Kartplatsen. Men Lantmäteriverket, som redan gjort mer än någon annan myndighet för att erbjuda dylika tjänster öppet och gratis, har inte ålagts att hålla reda på förvaltningsstrukturer i historiskt perspektiv. Så att finna en lösning på problemet faller naturligt antingen på statsförvaltningen som helhet eller på kulturarvssektorn.

Från årsskiftet har Nationalbiblioteket fått i uppdrag att överta och koordinera de nationella ontologitjänsterna som finns på ONKI-tjänsten där grunden till en dylik ontologi är lagd genom SAPO. Tyvärr innehåller den tillsvidare endast finska namn, medan uppgifterna om de svenska namnen finns hos Lantmäteriverket och hos Institutet för de inhemska språken (f d Focis). Det finns ett stort behov av att få dessa uppgifter samlade och länkade för att få arkivverkets och de andra minnesorganisationernas söktjänster att fungera. Till exempel Svenska litteratursällskapet har sin metadata mig veterligen endast på svenska, vilket gör att dess material inte kommer att kunna hittas via Finna om det inte berikas på något sätt. I Europeana ser det ut som att man länkat geografisk data. Möjligen har det gjorts via Geonames, som också valts av Svenska Yle.

En intressant fråga är tolkningsföreträdet gällande ortnamn och vad platser kallas. Vem bestämmer vad en viss plats heter och var dess gränser går? Är det enda viktiga var olika administrativa gränser går, eller är det kanske lika intressant eller relevant vad folk i sitt dagliga tal avser med "Sörnäs" eller "Hagalund" eller "Tammerfors"? Borde man sträva till att göra ortnamnen och deras ytor beskrivna med hjälp av koordinater och polygoner till användarproducerad information, till data som vem som helst kan bidra till? Behövs det nätverk och en gemenskap för att koordinera och sköta detta, eller är det den administrativa datan som är den viktiga?

I alla fall behövs ett brett samarbete och en öppen diskussion kring dessa frågor och hur SAPO ska utvecklas. Det är en diskussion där det är absolut nödvändigt att instanser som Riksarkivet, Finansministeriet, forskare, f d Focis, Lantmäteriverket och Nationalbiblioteket är med. En öppning på diskussionen fick vi denna vecka då intresserade samlades på (f d) Focis. Intresset var stort, men det var också åtminstone min förvirring. Man kan bara hoppas att allt intresse som fanns kan kanaliseras i flexibla och konstruktiva lösningar. Nu är till och med jag benägen att efterlysa "innovation", men mer än teknisk sådan uttryckligen gällande arbetsmodeller. Det handlar om att kunna vara dynamisk och gå till väga iterativt, trots att vi arbetar med så maktpåliggande saker som standarder och permanenta identifikatorer.

måndag 22 oktober 2012

Nya tankemodeller

Det pågår en rätt intensiv diskussion just nu på rätt hög expertnivå om länkning och öppnande av data i biblioteksvärlden och införandet av mer moderna informationsstrutkturer. Åratal av väntan på att den avancerade utveckling som gjorts vid Aalto-universitetet och den frustration som en (liten?) del människor länge känt inom kulturarvsektorn över de otroligt långsamma framsteg gällande ibruktagandet av den nya tekniken som gjorts, har klätts i ord av främst Eetu Mäkelä. Google kör om biblioteken både till höger och till vänster, eftersom man ansett att det inte funnits tekniska lösningar för att ta i bruk de nya biblioteksstandarderna, som författats redan för över tio år sedan. Ett iterativt tillvägagångssätt har inte just varit ett alternativ och delvis har kommersiella intressen satt käppar i hjulet. Det är lite intressant att varken Mäkelä själv, eller Juha Hakala från Nationalbiblioteket i sitt svar, tar upp Boksampo desto mer, som jag själv uppfattar som en bra start, som man väl kunde satsa på att ha som grund för den nya nationella metadataresursen.

Hakala bedyrar att Nationalbiblioteket är på väg mot öppen länkad data. Han har säkert rätt. Vägen är säkert inte enkel. Ändå delar jag mycket av Mäkeläs oro. Jag är övertygad att han har rätt gällande Europeana, att man kunde lära sig mycket av Europeanas misstag.  Och jag tror att han också har alldeles rätt i att man måste göra utvecklingen modigt och bitvis. Inte vänta tills allt är perfekt. Världen och webben blir aldrig färdiga. Idén om felfria data är en farlig illusion för alla inblandade. Släpp data bitvis.

Det andra verkligen stora problemet är ontologierna och den s.k. ONKI-tjänsten, som utgör en grund för att allt sammans ska lyckas. Och som vi så många år väntat på att ska finansiering, eftersom Nationalbiblioteket inte ansett sig ha resurser att överta den. Delvis beror det på att man tänkt sig att den ska vara en mycket omfattande ontologitjänst. Det ser ut som att man tänker sig att inkorporera exempelvis ontologier för geografisk information. Å andra sidan torde det vara lite oklart vem som ska ansvara för innehållet i dem. Och hur är det med alla de andra ontologierna på ONKI-servern? Ska de alla hänga ihop med FINNA (under utveckling)? Hur ska det gå med alla aktörer, när Nationalbiblioteket fokuserar på författare och har en viss förståelse för museer och arkiv (eftersom personer i deras databaser också kan förekomma i bibliotekskatalogerna)? Ska ONKI-tjänsten bara handla om kulturarv? Om svaret är ja, vem sköter då resten? Själv ser jag att det finns väldigt många viktiga ontologier, så som SAPO och JUHO, men även sådana som saknas exempelvis register över företag och stiftelser som ögona böj borde erbjudas som öppen data. Det kräver att alla instanser tar ansvar över sina data, öppnar dem och ser till att inte bryta länkar ... Jag inser att jag löper risk att bli lika frustrerad som Mäkelä.

ONKI-tjänsten och även ämnesordsontologierna Allso (och YSO) har en del brister som vi kommit underfund med på Brages Pressarkiv det senaste året. Men en lärdom är också att dessa brister inte kommer fram om man inte använder dem. Om man inte använder dem för att de inte är perfekta och färdiga, blir de aldrig det (fast det blir de förstås aldrig ändå, det är ju idén, världen förändras ständigt, då måste också modellen av den förändras). I ONKI behöver vi mer relationer och en tidsdimension, gamla namn på termer måste absolut sparas. Vi behöver en SAPO som uppdateras, också är på svenska och den bör föras ner på en lägre nivå. Vi behöver enskilda politiker och regeringar som aktörer, liksom andra offentliga personer (inte bara dem som publicerat sig på något sätt). Vi behöver filmer, tv-program och nyhetshändelser. En del av dessa är det lätt att hitta på vem som borde publicera ontologidatabaser om, må vara först enbart enkla URI:n. Andra är svårare, men man borde inte låta sig skrämmas av det. Egentligen kunde man be alla myndigheter publicera någon data inom ett år. Det vore kul att se vad som skulle hända. Värre kan det knappast bli.

Jag gillar den nuvarande öppna ansatsen inom FINNA-utvecklingen, och jag hoppas den kulturen kunde sprida sig snabbt över hela statens förvaltning. Jag hoppas också att man tar itu med ontologierna snarast. En central aktör är förutom Nationalbiblioteket absolut Riksarkivet. Också där skakar man nu om sina datamodeller på ett uppfriskande sätt, och man har inte åtminstone hittills låtit sig hindras av att det saknas färdiga tekniska lösningar. Snarare verkar man se det som en inspirerande utmaning. Gillar skarpt att få se den gamla, fattiga och stela arkivhierarkin få stryka på foten. Och jag uppskattar otroligt den dialog man öppnat för med forskarsamfundet gällande dessa frågor. Och jag önskar att man inte börjar med katedralbyggen som publiceras först när allt "är klart" - och slutresultatet föråldrat ...

torsdag 6 september 2012

Informatikerns överjag

Det verkar ofta vara en oerhört fantastiskt smärtsam, svår och invecklad process att öppna data inom kulturarvssektorn i detta land. Den som vågar föreslå att bygga allmänna öppna gränssnitt möts snabbt av de mest förstummande motargument. De flesta bottnar i informationsspecialisternas perfektionism, deras yrkesstolthet och sakkunskap, ger dem perfekta redskap att sabotera naiva idéer om att man kan öppna data så där bara.

Problemet är, som jag anser, att de på många sätt har fel. Det är klart att man bör tänka igenom frågor om upphovsrätter, licenser och individers rätts- och integritetsskydd noga.  Men resten, kom igen! Är det inte malplacerad perfektionism som ibland lurar proffsen att smita undan sitt ansvar och sitt viktigaste uppdrag: att bevara och förmedla information? Nedan mina kommentarer till de vanligaste slingerbultsvaren.


Nån kan missbruka den eller börja göra business på datan

Om man som auktoritet tillhandahåller korrekt data gratis är de svårt att se hur någon kunde missbruka den eller förtjäna pengar på den utan att vidareutveckla den. Om någon förbättrar och förädlar materialet och erbjuder tjänster som folk vill ha och betalar för, kan det knappast vara så farligt? Materialet är dessutom allas vår gemensamma egendom om den är producerad med allmännyttiga medel. Därför ska det ges största möjliga spridning och om man på samma gång främjar näringslivet och ekonomin på ett rättvist sätt är det väl bra?


Vi måste vänta på att ISNI/YSO/PID/URN/[valfri annan standard] - systemet blir klart

Nä. Man måste inte. Man kan komplettera sin data senare. Man kan själv ta ansvar för sin egen data - det måste man göra hur som helst. Om man har möjligheter att tilldela URI:n åt något som man anser att man har en bra koll på - exempelvis sina egna samlingar av unika föremål, eller upprätthåller en nationell katalog av något slag - är det närmast oansvarigt att inte omgående erbjuda URI. Vad man sedan kallar den och eventuellt kompletterar den med senare är en annan sak. Men man kan ge objekt ett id, som man kan ta ansvar för att inte slarva bort vid framtida systembyten. Man kan också länka mellan olika databaser i framtiden för att disambiguera information. Poängen är att internet aldrig kommer att bli färdigt, inte webben heller. Nya standarder växer fram hela tiden allt eftersom behoven förändras. Att vänta är inget bra alternativ, man ska utvecklas.



Vi har inte resurser (just nu)

Detta är svårare att bemöta. Sanningen är ändå den att det oftast tar en kodare typ en veckas arbete att bygga ett gränssnitt. Det rör sig inte om stora summor. Problemet är ofta att man "först" måste göra det och det och det, lite "putsa" och "fixa" datan.  Frågan är då närmast: Måste man? På riktigt?? Vad prioriterar man? Öppenhet, rationalitet och effektivitet ... eller något annat?



Vi måste värna om datans kvalitet

Detta är det mest absurda av alla argument. Kvaliteten på data kan fullständigt omöjligt försämras av att man öppnar den. Större och mångsidigare användning borde snarare göra det enklare att hitta och korrigera de fel som alltid finns. Att man släpper sin data betyder ju inte att någon annan kan gå in och ändra något, men att man kan länka, kopiera och bygga på den någon annanstans. Slutanvändarna är inte heller idioter.





lördag 9 juni 2012

Vad är en begreppsmodell?

Inför den CIDOC-konferens som börjar i dag i Helsingfors, möttes en del arkivfolk från framför allt Finland och Sverige i går på Designmuseet. Närvarande var också Martin Doerr och Mika Nyman som är centrala vid utvecklandet av den avancerade begreppsmodellen CIDOC CRM, som utvecklats inom museivärlden och redan importerats på teoretisk nivå till biblioteksvärlden. Inom arkivsektorn har arbetet framskridit långsammare. Varför det vore viktigt på ett allmänt plan har jag skrivit om tidigare.

Då man lagrar information i en databas, är denna information alltid i praktiken utsagor om olika förhållanden verkligheten. Då arbetar man på vad Doerr kallar på en epistemologisk nivå. Problemet är att språket och hur vi uttrycker saker ofta innehåller en hel del information som vi är omedvetna om och databasstrukterna blir ofta felaktiga om man inte riktigt på djupet analyserar vad det är man man vill säga.

Inom arkivverket i Finland planerar man just nu inför en nytt katalogiseringssystem varför detta möte och samarbete kommer synnerligen lägligt. En intressant fråga är nämligen enligt mig huruvida arkivdatabasers dåliga sökbarhet hänger samman med det process- och funktionstänkande och den syn på arkiv som ligger som grund. Jaana Kilkki berättade om hur man hittills inom AHAA-projektet modellerat arkivstrukturen. Man följer den traditionella synen på arkivet i den meningen, att arkivfunktionen står för den kontextuella informationen: ett dokument i arkivet får sin förklaring genom sitt sammanhang: vilken person det hör ihop med, vilka organisationer och vilken tidsperiod.  Själva innehållet är irrelevant för arkivet.

Problemet är, vilket Peder Andrén påpekade, att innehållet inte alls är irrelevant för användaren, utan tvärtom det som är av intresse. Man menade att man i själva verket borde se objektet som det som innehållet handlar om, och själva dokumentet som metadata eller information om objektet - som alltså är "verkliga saker ute i den verkliga världen". Detta accepterades ändå inte av Martin Doerr. Nu har vi i denna diskussion, som ni märker, kommit på en ganska abstrakt och filosofisk nivå, en ontologisk nivå. Det är bra, för då har vi förutsättningar att lämna de olika sektorernas epistem bakom oss. CIDOC CRM är just en modell för detta, ett sätt att byta kontext för modellerna och på detta sätt avslöja dolda antaganden i hur man beskriver världen i sina informationssystem.

CIDOC CRM är en ontologi, en begreppsmodell, med hjälp av vilken man kan beskriva olika förhållanden. Det är också det som skiljer den från ämnesordsontologier av typen Allso, som innehåller mycket begränsade beskrivningar av hur de olika begreppen förhåller sig till varandra: de kan vara över- eller underklasser eller relaterade i horisontell riktning, och that's it. Doerr är också helt ointresserad av "ämnesord", som förstås fungerar som etiketter och sökhjälp, men i praktiken är rätt slumpmässiga åsikter om vad förtecknaren anser ha något att göra med saken. I den meningen är alltså AHAA och CIDOC eniga.

Det fina med CIDOC CRM är att det är en mycket rik och samtidigt enkel och heltäckande modell för att beskriva relationer mellan olika saker. Man kan exempelvis beskriva att något faktiskt har sitt ursprung i något annat, att någon skapat, förändrat eller förstört det och inte helt irrelevant - vilken av de två entiteterna haft effekt på den andra. (Som exempel brukar jag ta satsen "Person 1 OCH  mord OCH Person 2" som inte är särdeles informativ gällande slutresultatet). Det hela gör att händelser blir centrala i modellen. Som museimodell beskriver den endast saker som hänt, som man har (mer eller mindre) bevis för. Problemet är att man inom arkiven ofta utgår från processer, som ohjälpligt innehåller intentioner och målsättningar som inte har hänt. Detta faller utanför hela ontologin. Det kan läggas till, kanske, men då ändras definitionen för själva ontologin.

Frågan är egentligen alltså vad det är man beskriver i en arkivförteckning? Är det ett dokument - eller eventuellt den händelse som lett fram till att dokumentet uppstått - och vad är då själva dokumentet? Och då det är en process som ligger bakom, hur beskriver man den?

Det är ytterst viktigt att man gör en grundlig och fördomsfri analys av den information man har om arkivdokument: vilken typ av information är det egentligen? För att man ska kunna åstadkomma ett system som kan frigöras från arkivens dolda kunskap och tankestrukturer och vara användbart och intelligent bör man våga tänka friskt och modigt. Själva informationssystemet, det verktyg som arkivpersonalen sedan arbetar med, kan förstås till det yttre likna de traditionella katalogerna, möjligen med några mindre tillägg. För egentligen handlar det bara om att faktiskt beskriva all den kunskap man har explicit in i själva systemet. En del av denna kunskap handlar om, som Martin Doerr sade, det faktum att det egentligen finns åtminstone fyra olika typer av arkiv. I dag har vi tekniskt möjlighet att enkelt beakta denna mångfald i stället för att av språket luras att tvinga in alla i samma modell.

Uppdatering: ett projekt att bekanta sig med för arkivfolk!

måndag 28 december 2009

Rädda ontologierna!

Det ser just nu lite smått oroväckande ut med tanke på vårt lands framstående utveckling av den semantiska webben. Trots att kunnande finns och arbetet på den svenska versionen av YSO, döpt till Allso, börjar komma i gång vid Åbo Akademis bibliotek, velas det med de stora besluten.

Den fortsatta finansieringen för Eero Hyvönens även i utlandet berömda FinnOnto-projekt är fortfarande öppen och vi väntar ännu med spänning på vad Nationalbibliotekets "övergång" till användning av YSO i praktiken kommer att innebära.

Att även en engelsk version av YSO börjar vara klar (vilket borde ge möjlighet till länkningar med te x Wordnet?) borde ju verkligen få beslutsfattarna att skärpa sig. Genom nästan hela det stora projektet kring det nationella digitala biblioteket har det talats om semantiska sökningar coh förhoppningarna har varit stora!

Nu gäller det att få de grundläggande besluten fattade och det kvickt.