måndag 6 februari 2012

Att digitalisera text


Dagens föreläsning handlade om digitalisering av text. Man kunde kanske tycka att det är en enkel sak att återge text i digital form: en bokstav är väl en bokstav? Men i verkligheten är man tvungen att ta ställning till många saker. Vägen från en bokstav på papper till en bokstav på en datorskärm är lång och invecklad.

En digital version av en text är alltid en ny utgåva, som kräver att man fattar beslut om vilka saker man ska ta med i det nya formatet: hur ingående beskrivande metadata behövs om själva källan och vad behöver man berätta om själva digitaliseringsprocessen? För vem görs digitaliseringen och hur ska det digitala materialet användas? Hur ska man strukturera själva texten? Behöver man återge grafiska element som layout och typsnitt? Hur gör man med sidnumrering? Vilket eller vilka exemplar av originalet väljer man att utgå från om det finns flera versioner? Vill man korrigera stav- och tryckfel?

En korrigering eller normalisering av texten ger en bättre sökbarhet men innebär också risk för feltolkning. Samtidigt kan man förlora information som i ett senare skede skulle ha varit relevant. Ju mer information man vill ta med, desto mer arbetsdryg och kostsam blir digitaliseringen. I utgångsläget bör man sträva till att bevara både en bild, alltså ett facsimil, av originalet och parallellt skapa en digital version av texten för att uppnå de fördelar en digital text har: tillgänglighet, sökbarhet och kopierbarhet.

Stora och välstrukturerade textkorpusar ger möjlighet att ställa nya typer av frågor till materialet. Genom digital gruvdrift kan man få syn på saker, mönster och regelbundenheter man annars inte noterat. Man kan söka igenom material som man inte under en livstid kunnat läsa igenom eller analysera på annat sätt. Samtidigt är de tekniska processerna i sig ogenomskinliga och svåra att utsätta för kritisk granskning. Ju mer strukturerad en text är, desto mer tolkning har gjorts vid framställningen, antingen av människor eller av datorprogram.

En viktig sak att minnas är dessutom att man vid gruvdrift av text egentligen alltid endast undersöker språket, inte en kultur, eftersom man maskinellt kan behandla endast tecknet, inte betydelsen. Om en betydelse har länkats till ett ord exempelvis genom hänvisning till en ontologi, har alltid en tolkning gjorts av någon utgående från den personens premisser och den information han just då haft till sitt förfogande.

Det finns ingen genväg då det gäller att förstå texter från en förgången tid och en annan kultur med en annorlunda världsbild. Man måste gå den långa vägen och lära sig språk och tankesätt från den tid man vill undersöka. Det kräver grundlig kring- och inläsning i textmaterial. Betydelserna och begreppen förändras kontinuerligt och varje text har uppkommit genom en skrivhandling i sin egen tid och kontext. Men den som har gjort det, och förstår och kan läsa en text på ett bra sätt besitter också viktig kontextuell information som han bör dela med sig. Genom metadata och annotering kan experter hjälpa oinsatta att inte missförstå eller misstolka texter. För digitala texter tenderar också att dyka upp lösryckta ur sitt sammanhang i den digitala världen. Historikerna och de som digitaliserar har här ett stort ansvar.

Vi kommer under senare föreläsningar att titta närmare på hur man källkritiskt måste gå till väga med digitala material.

Inga kommentarer:

Skicka en kommentar