lördag 27 februari 2016

Om digitaliseringens förödande effekter

Fortsätter härmed min ovana att inte skriva ordentliga recensioner, utan öppet diskutera med böcker under pågående läsning. Det riskerar förstås bli orättvist, men å andra sidan tycker jag att läs- och tankeprocesserna i sig är värdefulla och intressanta vid sidan av slutgiltiga omdömen om hela verk. Utsätts denna gång: internetkritikern Andrew Keens nyaste "The Internet is not the Answer" och med risk för att inte ge verket full rättvisa. Jag har den sista femtedelen oläst.

Det behövs utan vidare kritisk analys av digitaliseringens effekter. I den otroliga hypekultur vi hamnat i är det en nödvändighet. I en situation då många branscher råkar ut för stora omstörtande förändringar och nya explosionsartat växande, enorma företag skapar sig närmast monopolliknande ställning på marknaden och utgör globala de facto maktutövare är det viktigt att försöka förstå vad som är på gång. Att det sker samtidigt som den västerländska medelklassen förlorat både resurser och inflytande är ett faktum, men att det skulle finnas ett orsakssamband av avgörande slag har ingen mig veterligen påvisat. Att en förbittrad man spyr galla och förakt över naiva men absurt framgångsrika kloppar är ändå inte i mina ögon tillräcklig kritik. Jag saknar ett historiskt perspektiv, en genuin jämförelse med industrialismens första skeden, till exempel. En förståelse av vad den kulturella betydelsen av medier och kommunikation innebär för samhället.

Vad som stör mig mest är att jag tycker att Keen förfaller till det han mest skäller på, den ytlighet som Carr lyft fram. Hanteringen av källor och argumentation är varken noggrann eller genomarbetad. Han fyller sida efter sida med citat och lösryckta argument, som han anser stöder hans agenda. Googlamentering, helt enkelt. Men när man hittat ett grovt slarvfel på sidan 12 blir det liksom bara helt fel.

Bäst tycker jag han är när han faktiskt skriver om sig själv, sin barndom i Soho och sina äventyr i media/kultur-sektorn i USA under dess tidigaste digitalisering. Då talar han själv, det uppstår äntligen ett sammanhang och en mer koherent bild, där man kan skönja samband och förlopp. Boken har alltså sina poänger, men man skulle gärna ha tagit dem till sig i ett mer genomarbetat format. Att man har x-hundra citat för att styrka sin ståndpunkt (och radar upp dem alla) betyder bara ingenting i dagens informationsöverflöd. Det är argumentationen som måste hålla. Den kanske delvis finns i denna bok, men den går säkert att kommunicera på ett mer effektivt sätt.









onsdag 24 februari 2016

Data ska inte delas, data ska användas

Man kan lugnt säga att världen och Europa har ganska mycket glädje av det brittiska arbetet med digitala material och medier. Denna vecka pågår international Digital Curation Conference i Amsterdam främst ordnat med brittiska krafter men med deltagare från fem kontinenter. Den första keynoten gavs av professorn i biosemantik Barend Mons från Leiden. Hans kreativa tal var riktigt inspirerande, för mig snarast retoriskt, innehållsmässigt var budskapet klart och viktigt (och i sig bekant): vi behöver tänka om det vetenskapliga publicerandet ordentligt. Mons ansåg att sättet att publicera data som separata bilagor eller bakom diffusa länkar är katastrofalt, det funkar helt enkelt inte. Dessutom önskade han hela Open Access (den gyllene vägen, tänker jag då främst) så långt pepparn växer: är det bättre om forskare i fattiga länder inte kan publicera än om de inte kan läsa “topptidningar”? frågade han. 

Vad som behövs är nanopublikationer, helst öppna. Det är i praktiken frågan om länkad data, fast det begreppet tycks vara ur mode nu. Egentligen var det befriande, man var redan inne på följande, praktiska nivå: diskussionen på konferensen rörde sig om olika sätt att hantera identifikatorer och modellera relationer.  Det är ytterst synd att man i Finland inte tillnärmelsevis nått denna nivå, utan verkar ha fastnat i lite föråldrade tankesätt. Jag roades stort av en kille från ett forskningsbibliotek (må förbli osagt i vilket land i världen) som i all tysthet byggt ett system som sparade informationen som rdf-tripletter under en traditionell yta. Det kan ibland vara svårt att ändra på gamla sätt att fungera och resonera, men det kan nog stå oss dyrt i längden om vi inte följer med utvecklingen i omvärlden. Mons menade att om vi inte dokumenterar antaganden och relationer (assertions) ordentligt, missar vi 95% av dem. Informationen, för att inte tala om kunskapen, blir nog lite skakig med mindre. Från DataCite ville man rekommendera integrerad vettig infrastruktur, omfattande normaliserad metadata, och satsningar på användbarhet. Användning av APIer och fasta identifikatorer är redan utbrett och många exempel på dataströmmar och integrationer gavs under olika presentationer. 

Jag lärde mig en del nya begrepp av Mons. Ett av de bästa var ridiculogram, eller kanske man borde kalla det löjlogram? Det var en av många kommentarer  om visualiseringar under konferensen. Den andra keynote-talaren, Susan Halford från Web Science Institute i Southampton, ondgjorde sig också över hur naiv och okritisk t ex twitterforskningen kan vara gällande källmaterialet. Hon underströk att data från sociala medier skapas i tekniska infrastrukturer som påverkar hur de ser ut; retweets är inte ett “naturligt” fenomen, utan ett resultat av en teknisk funktionalitet. De reflekterar inte aktivitet som finns oberoende av teknologin/plattformen. Retweets, som från början gjordes manuellt av användare, blev senare en funktionalitet, något hon kallade iterativa sociala praktiker. Twitterexporter ger olika resultat jämt och ständigt påpekade hon också, och t ex är det inte alls så att en människa är det samma som en twitterprofil. Ansenliga mängder tweets genereras av bottar, människor har flera profiler osv. Det är alltså faktiskt inte så att sociala medier direkt speglar en verklighet, som vi kan förklara genom att studera dataset. Samma sak sade också Mons, som talade om vikten av närläsning, analys och kvalitativa metoder. Att trolla fram grafer är inte forskning. Men forskningen behöver inte heller publiceras som pdf-artiklar, utan borde publiceras strukturerat. 

Alla visualiseringar tillför inte så mycket. Simon Cockell, Flickr 



Mest fick jag alltså kanske ut av just att få ta del av hur diskursen ser ut idag. Det talades oändligt mycket om “data management plans” och publicering av forskningsdata. Samtidigt var Mons budskap viktigt: att vi nu väckt medvetenhet om hela problematiken med att börja bråka om data management plans och data policyer, men det räcker inte långt. Data ska inte delas, data ska återanvändas. Nu måste vi sluta tala om planerna tyckte han och i stället förändra praktikerna, både forskarnas och våra egna. Och “vi” är i detta fall bibliotekarier, it- och datakunniga i forskningsorganisationerna. Mons hänvisade till att det enligt någon bedömning behövs 500 000 till av dem i EU, sakkunniga som arbetar integrerat med forskarna. Det är lite bekymmersamt att universiteten i Finland sanerar bort upp till en fjärde- eller femtedel av dem. Men vilket val har de, då finansieringen hänger på hur många publikationer och examina man producerar oberoende av kvalitet och hur mycket extern finansiering man drar in. Och finansieringen dras ändå ner drastiskt. Men det kan betyda att vi slarvar bort värdefulla dataresurser om vi inte lyckas förändra sättet som vi arbetar på från början till slut. Och denna förlust är framför allt nationell, varför också tjänster borde erbjudas med allmänna medel. 


Ett exempel på hur man kan modellera forskning, RMap, presenterades av Karen Hanson, men 
här rör vi oss fortfarande på en traditionell, grovkornig nivå.

söndag 21 februari 2016

Medier och format - en illustration

Jag tänker spinna lite vidare på gårdagens reflektioner kring semantik och digital humaniora. Eller genom ett exempel visa hur informationsvetenskap och det digitala som medium tvingar en till reflektion, och vad den reflektionen går ut på.

Jag fick i veckan skäl att göra en snabb genomgång av "olika typer av innehåll". Det är ibland viktigt då man söker material i databaser och på webben att kunna sortera ut eller specificera vad man är ute efter: söker man bilder eller artiklar eller vill man kan kanske ha en 3D-modell av något? För att det hela ska fungera har man ganska länge i digitala sammanhang använt Dublin Core-standarden som erbjuder följande typer av innehåll:

  • samling
  • dataset
  • händelse (t ex en konferens eller utställning)
  • bild (även "fysiska" bilder såsom tavlor eller teckningar)
  • interaktiva resurser (t ex webbsajter eller spel)
  • rörlig bild (underkategori till bild, video, tv-program etc)
  • fysiskt objekt (observera inte deras digitala representationer, som ska sättas i andra kategorier)
  • tjänst (webbservers, fjärrlånstjänster osv)
  • programvara
  • ljud (material avsett att avlyssnas, t ex en cd-skiva)
  • stillbild (underkategori till bild, hit räknas inte bilder av text, som är text)
  • text (böcker, brev etc)

I biblioteken har man sedan urminnes tider ägnat sig åt att beskriva och katalogisera saker för att kunna hitta vad man behöver. Enligt min uppfattning råder här ändå en sammanblandning mellan olika typer av innehåll. I bakgrunden finns förvirringen som orsakas av frågan hur man borde klassificera eller förstå de digitala formaten. Att förteckningen har ett ursprung i biblioteksvärlden ser man ganska tydligt. Numera skiljer man i biblioteksstandarden tydligare på mediet och innehållstypen, men lösningen är fortfarande inte helt självklar eller intuitiv åtminstone för mig: talar man om fysiska format, tekniska format eller de sinnen eller referensramar (teckensystem eller språk) som används för att förmedla information eller en erfarenhet? Sedan några år tillbaka finns nu i bibliotekskatalogerna två olika typer av klassificeringar: typ av innehåll och typ av medium. Då avser man med innehåll det senare, alltså innehållets kodning (som typer finns bl a tal, framförd musik eller noter, data, rörelse t ex dans, föremål) och det senare beskriver närmast vilken typ av teknik man behöver för att kunna ta del av innehållet (projiceras, video (DVD, VHS etc), mikrofilm, audio etc). Personligen har jag mycket svårt att förstå denna kategorisering av "medietyper". Man har enligt mig blandat ihop teknik och innehållets kod/språk på ett olyckligt sätt.

Pudelns kärna är enligt mig att det förutom hårdvaran är mjukvaran som idag definierar mediet, det berättar för oss vilket språk meddelandet använder sig av. Man har också på sätt och vis varit på rätt spår då man i många fall hänvisar till användning av så kallade MIME-types, där man kopplat ihop rent tekniska filformat med medietyper. I praktiken innebär detta att man i många standarder kräver användning av ett traditionellt internetregister, där vem som helst kan registrera ett filformat. I praktiken är de relevanta medietyperna då programvara, ljud, bild, meddelande, modell, flerdelad, text och video. Till exempel anses pdf-filer vara programvara enligt detta och många databasdumpar är förstås bara text. Så ni förstår att ur användarperspektiv är inte dessa kategorier särdeles behjälpliga.

Under mina efterforskningar hittade jag ändå en ganska bra klassificering, tycker jag, i den klassificering av filformat som gjorts för långsiktigt bevarande, PRONOM:


  • Sammansatt
  • Ljud
  • Databas
  • Dataset
  • E-post
  • Geodata
  • Rasterbild
  • Vektorbild
  • Modell
  • Sidbeskrivning (pdf)
  • Presentation
  • Kalkylfil
  • Annoterad text
  • Strukturerad text
  • Ostrukturerad text
  • Video
  • Textbehandlingsprogam (fil ur/för)

Jag tycker denna lista ganska väl motsvarar olika typer av medier i dag och också korrelerar på ett förhållandevis vettigt sätt med innehållets "språk".

Med medium avses "det som förmedlar", som ligger emellan avsändare och mottagare. Man kan så se till det fysiska materialet, vilket man gör i it-branschen. Man talar om lagringsmedium; bevaras informationen på ett magnetband, en hårdskiva eller kanske på en CD-skiva. Då de fysiska medierna föråldras kan man migrera samma data till ett annan medium, ofta utan att man behöver ändra på innehållet alls. Men om man är tvungen att göra det eller konvertera data från ett filformat till ett annat talar man i stället om formatmigration. Filformaten är också avgörande då vi ska ta del av innehållet. Vi behöver en mjukvara som kan presentera filens innehåll för oss. Själva innehållet kan sedan beskrivas och kategoriseras på många olika sätt: vilka sinnen använder vi eller vilka språk och kodsystem används.


Audio, ljud, musik, framförd musik eller LP-skiva? Vad avser vi med typ av innehåll?
Av Lombana (Eget arbete) CC BY-SA 4.0  via Wikimedia Commons


Det digitala har helt enkelt ställt till det för oss. Om det vi söker finns i en tryckt bok eller i en e-bok är bara en liten del av det vi behöver veta, beskriva och koda. Och ofta är det inte så stor skillnad bara vi kan ta del av innehållet på ett smidigt sätt. Men för att kunna göra det, behöver man fundera på just semantiken. Och jag menar alltså, att om man inte kan analysera dessa saker tillräckligt kritiskt, gör man inte digital humaniora eller ens anpassad forskning. På så sätt går moderna informationsvetenskap och studier i nya medier eller digital kultur faktiskt in i varandra.

lördag 20 februari 2016

Digital humanist-syndromet

I går körde forskarseminariet i digital humaniora igång för vårterminen här i Helsingfors. Det började med en lämplig övergripande diskussion om vad digital humaniora är, ett ständigt återkommande ämne. Kvällens talare var Eetu Mäkelä från Aalto uni, en av våra mest erfarna och tekniskt kompetenta digitalhumanister utanför språkteknologin. Han hade tydligen blivit riktigt provocerad av de diffusa begreppen och nu bestämt sig för att ordentligt sätta sig in i hela fältet och diskussionen. Det var därför ett värdefullt och analytiskt inlägg han kom med. Hans poäng var att det är viktigt att de som ger sig ut för att vara digitalhumanister faktiskt reflekterar över vad de egentligen sysslar med. Digital humaniora är ju, som ofta konstaterats, egentligen ett begrepp som bygger på familjelikhet. Det handlar om flera olika innebörder, som kan finnas närvarande. Frågan är om det egentligen handlar om ett "syndrom", som kräver att flera än ett av kriterierna uppfylls?

Själv är jag nästan benägen att anse det det. För att vara en äkta digital humanist bör man, som Mäkelä uppmanar oss, nämligen reflektera över vad man arbetar med och hur man förhåller sig till "digital humaniora" - vilket jag tycker direkt för en till den metanivå, som digital humaniora innebär.

Eetu hade vaskat fram sju olika former av digital humaniora och han presenterade också en fin exposé över utvecklingen över tid, DH 1.0 och 2.0 vs metod eller objekt osv. Jag försöker nu citera ur minnet vilka definitionerna var mot slutet av diskussionen:


  1. Computational Sociology
  2. Computational Humanities
  3. Information Science as DH
  4. Multimodal (and disciplinary?) DH
  5. Digital Culture, New Media Studies, Internet Studies etc
  6. Open Humanities
  7. Postcolonial DH
De två sista är mer ideologiska ansatser eller rörelser, nummer sex handlar om Open Science inom humaniora och sjuan om normkritik i digitalkultur.  Det som får mig att luta mot att det faktiskt handlar om ett "syndrom" där flera delar alltid bör vara närvarande är att jag anser att det är ett absolut krav att det finns en analytisk och kritisk inställning till det digitala och man kan därför inte göra digital humaniora utan att informationsvetenskap och medieteori finns med åtminstone i bakgrunden. Men jag vill inte definiera trean utgående från forskningsobjektet/materialet/syftet kulturarvsmaterial eller -institutionen som kontext och objekt, vilket Eetu gjorde, delvis baserande sig på Patrik Svensson, delvis tänker jag, baserande sig på sitt eget värdefulla arbete med digitaliserade material och metadata, om jag vågar tolka hans tankegångar.

Själv tycker jag nämligen inte att digitalisering per se är digital humaniora, inte heller skapande av digitala resurser, om man gör det utan att reflektera över medieformat, informationsstrukturer och deras konsekvenser, vilket ofta är fallet i digitaliseringsprojekt. Det är först då man reflekterar över dem på ett kritiskt sätt som man kan tala om forskning i humaniora. Och då tycker jag man tagit steget in i studier av digital kultur, hur mening är uppstår och fungerar i digital miljö. Om man arbetar med digitala kulturarvsmaterial på det sätt det oftast sker vid minnesorganisationer handlar det i bästa fall om tillämpad forskning. Jag säger därmed inte att inte är mycket värdefullt och viktigt, men jag skulle inte sträcka mig till att kalla det forskning i digital humaniora om det handlar om rent teknisk utveckling av t ex en digitaliseringsprocess eller ett användargränssnitt. Om man arbetar medvetet med datamodellering och semantik är man väldigt nära studier i nya medier (jfr Manovich) och gör man forskning i digital humaniora. Att det sker i anslutning till en minnesorganisation ändrar inte på den saken och det tillför egentligen ingenting. Jag anser det därför vara ett överflödigt kriterium. Eller möjligen kunde kriteriet omformuleras på något sätt?

En fråga jag fortfarande tycker är mycket relevant är hur mycket man egentligen kan forska uteslutande i digitala material och med digitala metoder, utan att medvetet relatera det till omvärlden. Är det inte i själva verket ett kriterium, att man bör relatera till människan (samhället, kulturen) i DH-forskningen? Det är kanske det som skiljer en digitalhumanist från en idkare av ren datavetenskap. Är det kanske så att Information science as DH i själva verket handlar om semantik, datamodellering eller semiotik, snarare än att man arbetar med kulturarv? Och vad som slår mig är, att alla som arbetar med semantik kanske är digitalhumanister utan veta om det?

Jag rekommenderar varmt att ni tar del av Eetus utmärkta genomgång via hans presentation, där det finns mycket mera insiktsfulla funderingar än dessa mina småvirriga tankar. Jag hoppas kunna reda ut mina tankar senare i vår för bl a Historia i en digital värld.

PS. Upptäckte igen en ny etymologifunktion i googles sökfunktion. Testa "syndrome"

söndag 7 februari 2016

Olycksfall i docentarbetet

Foto: Väinö Vallinkoski. Nurmijärven museo. CC-BY-NC-ND 4.0


I den allt mer förvirrade debatten har ett verkligen underligt ord dykt upp: kantasuomalainen. Det kunde översättas ungefär med urfinne. Ett problem är att det också, eller egentligen framförallt, antyder ett geografiskt ursprung. Vilket ju till och med den mest töntiga sannfinne ändå måste inse inte riktigt fungerar. Urbefolkning är ju finnarna inte.


Det hindrar tydligen inte en sociolog från att okritiskt ta ordet i bruk då hon skriver till allmänheten. Ännu värre var ju att det översatts till stambefolkning. Någon borde kanske ha upplyst den stackars docenten om att det på svenska har samma klang som heimosuomalainen (klanfinnar) och bär på riktigt unkna ekon av romantisk nationalism.

Hjälp.