Essetter: Att berika och reducera betydelse

söndag 12 juni 2016

Att berika och reducera betydelse

Jag blev väldigt glad då jag fick en personlig inbjudan till FIN-CLARINs jubileumsseminarium förra veckan. Vid sidan av våra arkiv, bibliotek och museer utgör den finska CLARIN-verksamheten vår viktigaste och mest internationella humanistiska forskningsinfrastruktur, lika viktig som Samhällsvetenskapliga dataarkivet. Verksamheten är kanske mest känd för gemene humanist genom den finländska Språkbanken, där man aktivt samlar in och tillgängliggör språkliga material för forskningsbehov.

Eftersom jag själv arbetar mycket kring digitala forskningsmaterial har jag under de senare åren haft en del att göra med Språkbanken och jag måste säga att jag varje gång blir imponerad över hur väldigt duktiga och ambitiösa de är. Precis som på Dataarkivet håller man en hög nivå och en internationell profil, som jag tycker verkligen håller måttet. Vi har guld värd expertis i samband med dessa instanser. Många komplexa saker kring digitalisering och digitala material kräver mycket stor sakkunskap för att allt inte ska sluta i kaos eller gå förlorat. Här finns så många nycklar till hur man faktiskt kan ta vara på de resurser digitaliseringen innebär. De är noder där humaniora och tekniskt kunnande möts.

För att komma framåt behöver vi också arbeta med informationen och dess strukturer och med semantik. Man måste fokusera på innehållet, datas kvalitet och former, men diskussionerna blir lätt ganska abstrakta och principiella, för att inte säga filosofiska. Samtidigt är det viktigt att inse att de måste föras, om vi ska ha någon fördel av "digitaliseringen" som politiker och andra gillar att tala om. Humaniora är därför viktigt, viktigare än någonsin. Också onsdagens keynote-föreläsning av professor Timo Honkela handlade om precis detta: om vikten av att jobba med semantiken, hur man kan arbeta med betydelser, att modellera dem, beskriva dem och hantera dem. Problemet är ju att betydelse alltid är beroende av kontext och tolkning. Hur maskiner ska hantera detta är inte så enkelt. Också här nämndes betydelsen av metadata. Ju fler lager av semantik vi har, desto rikare, desto bättre.

Alltid lika roligt att lyssna på Timo Honkela.
Denna gång i Forsthusets fina auditorium.

Ibland vill man ändå komma så långt som möjligt från betydelse. Om man lyckas reducera betydelsen till enklaste möjliga koppling, a=b, är länken möjligast enkel och hanterlig också för en maskin. Det är tanken bland annat med många system man byggt upp för att skapa beständiga identifierare för olika objekt. Grejen med dem är att de ska vara unika, som personnummer, men ju mer slumpmässiga de är och ju mindre semantik de innehåller, desto enklare att hantera dem. Ta till exempel mobilnummer: under stora delar av 1900-talet var telefonnummer rent mekaniskt knutna till vissa centraler. Man kunde utgående från de första siffrorna av ett telefonnummer sluta sig till var telefonen fanns. Länge var också mobilernas riktnummer knutna till en viss operatör. Men det ställde till med massor av oreda och besvär när folk bytte anslutning och eftersom det tekniskt inte behövdes, var det enklast och bäst för marknaden att man helt kopplade bort semantiken från telefonnumren.

Eftersom den digitala världen är extremt föränderlig tenderar semantik i identifierare ställa till det. Webbservers flyttar hit och dit och det är bra trevligt att vi har ett system där webbadresser kan länkas till rätt IP-nummer utan att vi behöver fundera på den saken varje gång vi vill besöka en webbsida. Det som är hemligheten till allt, som Ora Lassila en gång påpekade för mig, är vad som på engelska kallas resolving, vad som kunde kallas vidarelänkning/styrning eller "översättning" av dessa serier av siffror eller bokstavssträngar till faktiska servers, filsystem och platser i internet och enskilda datorer, nyckeln. Dessa följer oftast i praktiken en stig eller någon sorts logiskt, hierarkiskt system, som kan ledas i flera steg och som samtidigt gör att man kan garantera att varje värde är unikt för att undvika konflikter som tenderar slå knut på datorer. Allt handlar om kontext.

Allt detta är förstås jätteviktigt när det gäller saker som myndigheters verksamhet eller forskning, att vi på riktigt vet vad som avses, vad man talar om och att relevant information inte försvinner. Vi behöver länkar som inte går sönder och beständighet i innehåll. Trots att allt flyter i den digitala världen, måste vi sträva till att våra informationssystem ska vara så koherenta och hela som möjligt. Vi måste kunna identifiera och skilja på patienter, företag och dataset för att kunna ha ett förutsägbart och tryggt samhälle. Vi måste veta var vi hittar information, vi måste veta vilken information beslut och forskning baserar sig på.

Eftersom allt bygger på dessa stigar, som för datorernas skull och på deras "språk" är semantiska, är det svårt att helt komma ifrån semantiken. Till exempel det inom forskningsbranschen vanliga DOI-systemet vars mål är att ge material "dumma", dvs helt neutrala id:n, innehåller liksom ISBN-numren en hierarkisk stig, som innehåller information om varifrån numret kommer och om vem som gett det -- för den som kan tolka det. Detta sker av tekniska och administrativa skäl. Att man sedan kan länka om när resursen flyttar är viktigt, men det tar inte bort det faktum att man inte helt kan frigöra sig från semantik. Frågan är därför enligt mig snarast hur man hanterar semantiken, på vilket ställe det lönar sig att göra den läsbar och öppen för människor och när man ska försöka göra den obegriplig och "slumpmässig".

Det finns olika sätt att närma sig dessa frågor, men vad som gör mig glad är att man börjar fästa uppmärksamhet vid beständighet och datakvalitet, vilket är vad det ytterst handlar om. Informationsförvaltning, helt enkelt.