fredag 25 april 2014

Att bli digitalhumanist

I dag hade nätverket Digital Humanities Finland sin tredje träff. Intresset är fortfarande glädjande stort, över tjugo personer var på plats. Tyvärr misslyckades distansdeltagandet också denna gång pga tekniskt strul. Teman denna gång var historiker och digitala resurser samt informationssökning. Först presenterade Anu Lahtinen sitt mångåriga arbete med digitaliserade medeltidskällor  och den tekniskt progressiva tidskriften Ennen ja nyt där man testat bland annat användningen av Digitalarkivets bestående länkar. En av Anus poänger var den svåra roll själva tidens gång utgör för oss historiker, men också dem som bygger tjänster: otaliga är de resurser som förslösats då man gjort saker för tidigt (och gjort saker långsamt, dyrare eller sämre än vad man kunde ha gjort några år senare) eller för sent för att gynna forskningen. Också det faktum att saker görs som projekt bidrar till att tjänster blir övergivna och bortglömda silon som i värsta fall helt förfaller bidrar till detta slösande av resurser.

Min presentation handlade dels om den bokhistoriska databasen Henrik och den forskning som anknyter till den, samt mina projekt på Brages Pressarkiv, som handlat om utvecklingen av digital långtidsbevaring och öppen länkad data.

Efter kaffet ägnade vi oss åt informationssökning. Nicholas Rowe berättade om hur absurt omfattande en modern informationssökningsuppgift kan vara. Han betonade vikten av att vara öppen och inte förbise tjänster som Google Scholar, bloggar, podcaster eller videon. Att kunna plocka ut vad som är relevant är en krävande uppgift, och informationssökningen borde tillmätas ett mycket större värde än vad som i dag vanligen är fallet.

Sist berättade professor Eero Sormunen om hur man tekniskt försöker lösa utmaningarna med sökningar i historiska texter. Det är som bekant många problem som är förknippade med detta, så som homonymer och synonymer, förskjutningar i betydelser och stavning över tid eller de otaliga fel som uppstår i samband med maskininläsning (OCR) av text från bilder. Lösningen man använt sig av i t ex Det historiska tidningsbiblioteket är så kallad oskarp sökning. Sormunen har arbetat med så kallade skip gram-teknik, där man utvidgar sökningen med "liknande ord", dvs man söker i själva verket efter olika uppsättningar av tvåbokstavskombinationer, som kan bildas utgående från bokstäverna i ordet.

Denna teknik är mycket intressant och borde absolut ingå i utbildningen också för historiker. Den som söker borde förstå hur sökningen fungerar (eftersom den är en relevant del av själva metoden) och dessutom borde man ha möjlighet att redigera sökfrågan. Till exempel ger väldigt korta ord mycket brus i form av irrelevanta sökträffar och dessa borde man kunna pusta bort genom redigera sökfrågan manuellt. Sormunen refererade forskning, som konstaterat att sökresultaten verkligen blir avsevärt mycket bättre om man använder S-gram. Men överraskande nog är resultaten inte så mycket bättre då man använder flera söktermer, som då man använder enskilda ord.

Som helhet var det igen en mycket inspirerande och lärorik träff. Nästa blir om geodata och är i början av juni.

2 kommentarer: