lördag 9 juni 2012

Vad är en begreppsmodell?

Inför den CIDOC-konferens som börjar i dag i Helsingfors, möttes en del arkivfolk från framför allt Finland och Sverige i går på Designmuseet. Närvarande var också Martin Doerr och Mika Nyman som är centrala vid utvecklandet av den avancerade begreppsmodellen CIDOC CRM, som utvecklats inom museivärlden och redan importerats på teoretisk nivå till biblioteksvärlden. Inom arkivsektorn har arbetet framskridit långsammare. Varför det vore viktigt på ett allmänt plan har jag skrivit om tidigare.

Då man lagrar information i en databas, är denna information alltid i praktiken utsagor om olika förhållanden verkligheten. Då arbetar man på vad Doerr kallar på en epistemologisk nivå. Problemet är att språket och hur vi uttrycker saker ofta innehåller en hel del information som vi är omedvetna om och databasstrukterna blir ofta felaktiga om man inte riktigt på djupet analyserar vad det är man man vill säga.

Inom arkivverket i Finland planerar man just nu inför en nytt katalogiseringssystem varför detta möte och samarbete kommer synnerligen lägligt. En intressant fråga är nämligen enligt mig huruvida arkivdatabasers dåliga sökbarhet hänger samman med det process- och funktionstänkande och den syn på arkiv som ligger som grund. Jaana Kilkki berättade om hur man hittills inom AHAA-projektet modellerat arkivstrukturen. Man följer den traditionella synen på arkivet i den meningen, att arkivfunktionen står för den kontextuella informationen: ett dokument i arkivet får sin förklaring genom sitt sammanhang: vilken person det hör ihop med, vilka organisationer och vilken tidsperiod.  Själva innehållet är irrelevant för arkivet.

Problemet är, vilket Peder Andrén påpekade, att innehållet inte alls är irrelevant för användaren, utan tvärtom det som är av intresse. Man menade att man i själva verket borde se objektet som det som innehållet handlar om, och själva dokumentet som metadata eller information om objektet - som alltså är "verkliga saker ute i den verkliga världen". Detta accepterades ändå inte av Martin Doerr. Nu har vi i denna diskussion, som ni märker, kommit på en ganska abstrakt och filosofisk nivå, en ontologisk nivå. Det är bra, för då har vi förutsättningar att lämna de olika sektorernas epistem bakom oss. CIDOC CRM är just en modell för detta, ett sätt att byta kontext för modellerna och på detta sätt avslöja dolda antaganden i hur man beskriver världen i sina informationssystem.

CIDOC CRM är en ontologi, en begreppsmodell, med hjälp av vilken man kan beskriva olika förhållanden. Det är också det som skiljer den från ämnesordsontologier av typen Allso, som innehåller mycket begränsade beskrivningar av hur de olika begreppen förhåller sig till varandra: de kan vara över- eller underklasser eller relaterade i horisontell riktning, och that's it. Doerr är också helt ointresserad av "ämnesord", som förstås fungerar som etiketter och sökhjälp, men i praktiken är rätt slumpmässiga åsikter om vad förtecknaren anser ha något att göra med saken. I den meningen är alltså AHAA och CIDOC eniga.

Det fina med CIDOC CRM är att det är en mycket rik och samtidigt enkel och heltäckande modell för att beskriva relationer mellan olika saker. Man kan exempelvis beskriva att något faktiskt har sitt ursprung i något annat, att någon skapat, förändrat eller förstört det och inte helt irrelevant - vilken av de två entiteterna haft effekt på den andra. (Som exempel brukar jag ta satsen "Person 1 OCH  mord OCH Person 2" som inte är särdeles informativ gällande slutresultatet). Det hela gör att händelser blir centrala i modellen. Som museimodell beskriver den endast saker som hänt, som man har (mer eller mindre) bevis för. Problemet är att man inom arkiven ofta utgår från processer, som ohjälpligt innehåller intentioner och målsättningar som inte har hänt. Detta faller utanför hela ontologin. Det kan läggas till, kanske, men då ändras definitionen för själva ontologin.

Frågan är egentligen alltså vad det är man beskriver i en arkivförteckning? Är det ett dokument - eller eventuellt den händelse som lett fram till att dokumentet uppstått - och vad är då själva dokumentet? Och då det är en process som ligger bakom, hur beskriver man den?

Det är ytterst viktigt att man gör en grundlig och fördomsfri analys av den information man har om arkivdokument: vilken typ av information är det egentligen? För att man ska kunna åstadkomma ett system som kan frigöras från arkivens dolda kunskap och tankestrukturer och vara användbart och intelligent bör man våga tänka friskt och modigt. Själva informationssystemet, det verktyg som arkivpersonalen sedan arbetar med, kan förstås till det yttre likna de traditionella katalogerna, möjligen med några mindre tillägg. För egentligen handlar det bara om att faktiskt beskriva all den kunskap man har explicit in i själva systemet. En del av denna kunskap handlar om, som Martin Doerr sade, det faktum att det egentligen finns åtminstone fyra olika typer av arkiv. I dag har vi tekniskt möjlighet att enkelt beakta denna mångfald i stället för att av språket luras att tvinga in alla i samma modell.

Uppdatering: ett projekt att bekanta sig med för arkivfolk!

2 kommentarer:

  1. Intressant, är dock inte helt säker på om jag begriper det eller inte :)

    Om vi pratar om databasstrukturer tror jag framtiden ligger i strukturlösa lösningar (se t.ex. http://en.wikipedia.org/wiki/MongoDB) som gör att man från fall till fall kan välja hur man vill hantera sin data.

    Gällande ontologiers nyttighet så kan man med OWL2 även ge relationer som uncle/cousin. Och kombinerar man ämnes- och personsontologier med plats- och temporalontologier är det nog väldigt mycket man kan säga inom de relationsramar som RDF erbjuder.

    Det sagt är nog tanken med en relationsontologi frestande. Undrar bara ifall den i praktiken blir för komplicerad för många tillämpningar, då har jag givetvis semantisk annotering av ett journalistiskt flöe primärt i sinnet. Brittish Museum däremot med vidare forskning i hågen är givetvis en annan sak.

    SvaraRadera
  2. Strukturlös information är ingen information :) För att kunna använda datan behöver du dessutom väl bygga upp index? Också Google använder nu något slags noggrannare relationer, eftersom man opererar med egenskaper av typen "har längden" , "är född i" etc. Grejen är den att man inom CIDOC så länge jobbat med detta sätt att modellera information att man åtminstone påstår sig ha en mycket enkel uppsättning begrepp som man kan beskriva i stort sett vad som helst i hela världen på ett mycket enkelt sätt. Fast då är ju, som ovan framkom, inte arkivvärlden av samma åsikt ...

    SvaraRadera