Visar inlägg med etikett långtidsförvaring. Visa alla inlägg
Visar inlägg med etikett långtidsförvaring. Visa alla inlägg

måndag 5 november 2018

#passemma - långsiktigt digitalt bevarande 3 år!

Frågade halvt på skämt deltagarna om man borde bevara så mycket som möjligt (grön)
ett urval i begripligt format (gul) eller bittar, AI fixar resten (blå).


I dag samlades över hundra personer på CSC för att diskutera långsiktigt bevarande. Vi hade gäster från både Nederländerna och Tyskland och kontentan blev nog att det överallt behövs lika stora nätverk och lika mycket samarbete för att få saker att rulla på allvar.

De finska tjänsterna håller hög nivå, det behöver man inte sticka under stol med. Poängen är att då man faktiskt på allvar ger sin in på att bevara digitalt räcker det inte att ha massor med backup-kopior, utan bevaringen handlar om att också hålla reda på den logiska nivån (t ex administrativa aspekter) och den semantiska nivån (det vill säga att man faktiskt ser till att informationen är begriplig också om hundra år). Ni förstår att det handlar om rätt annorlunda saker än att ha några extra kopior. När filformat, mjuk- och hårdvara föråldrats för länge sedan och man fortfarande vill kunna hitta och utnyttja gamla webbsidor, video osv. behövs mycket planering och information, metadata. Och det är verkligen så att det behövs både brett och djupgående samarbete mellan sakkunniga på olika håll och inom olika områden. Vilket också var dagens tema. Samarbete.

Samtidigt känns det som vi bara är i början av en lång väg. Vi har kommit långt, men fortfarande uppstår hela tiden nya frågor som måste lösas och som måste lösas tillsammans. Arbetet kräver mycket resurser också på arkiv, bibliotek och museer, som redan är sakkunniga och har lagstadgade uppdrag inom informationsförvaltning och bevarande. Att det kommer att kräva ännu mera arbete inom forskningssektorn blir allt mer uppenbart. Forskningsdata är mer varierande och administration och existerande system mindre täckande. Men det är viktigt att vi inte ger upp, utan jobbar på, steg för steg. Det enda sättet att gå tillväga är att göra som vi redan börjat göra: att lösa ett problem åt gången. Jobbet tar nämligen aldrig slut.



lördag 30 december 2017

Tankens teori och praktik






Läser som bäst med behållning Timo Honkelas bok Rauhankone (Fredsmaskinen). Den är en fin exposé i relationen mellan modeller och "verklighet", mellan teori och erfarenhet. Som Daniel Kahnemann påpekar i sin bok, handlar misslyckade teorier ofta inte om att de inte skulle vara internt koherenta och perfekta, utan om att man inte beaktat saker som finns utanför ens modell, men som påverkar helheten.

I en dator opererar man förstås alltid med modeller. Honkela skriver om det utmanande i att försöka modellera tänkandet, om hur svårt det är eftersom det är så präglat av känslor och erfarenheter och har komplexa språkliga och begreppsliga nivåer. Ändå upplever jag texten som allt annat än svår. Den känns helt oteknisk och väldigt konkret och personlig. Författaren blandar sorglöst sina mycket personliga och ibland smärtsamma och svåra upplevelser med filosofiska reflektioner om rättvisa eller artificiell intelligens. Och i grunden finns en djupt positiv, förtröstansfull övertygelse om att vi kan åstadkomma något världsomvälvande och gott med hjälp av artificiell intelligens.

Jag har själv den gångna veckan igen ägnat mig åt frågor om beständighet i det digitala. Problemet är att det är något av en grundläggande omöjlighet. Eftersom det digitala är ett språk som beskriver världen i en viss tolkning i ett visst ögonblick, är det bara en fråga om hur länge det tar, innan världen sprungit ifrån den modell vi gjort och representationen går sönder. Trasiga länkar på webben är bara ett exempel på detta, och ändå går en mycket stor del av alla länkar sönder på några år. Då har vi inte beaktat att innehållet också kan ha förändrats, så att en del av alla länkar pekar på något helt annat innehåll än vad som varit den ursprungliga avsikten. Förhållandet mellan tecken och innehåll är sällan en så ren och skär överenskommelse, som i digitala sammanhang.

Problemet blir allt mera akut då dessa betydelser blir till handlingar där en människa inte är inblandad, det vill säga t ex i vad man kallar länkar som är funktionella eller "machine actionable". Det betyder maskinella överenskommelser och regler som sprider sig som distribuerade system över hela internet. Något av maskinernas "talhandlingar", som möjliggörs av APIer, gränssnitt mellan system.

Vi kan inte klara oss utan dessa längre, men de behöver mycket mer aktivt förvaltande, omvårdnad och kuratering än vad man kanske inser. Det handlar om att det behövs planering och resurser för informationsförvaltning, att följa upp och sköta om semantik och datas kvalitet. Kanske kan artificiell intelligens hjälpa oss en bit på vägen, men datorernas modeller av vår värld är alltid begränsade, så de behöver ständigt utvärderas och förbättras av oss människor.

söndag 21 februari 2016

Medier och format - en illustration

Jag tänker spinna lite vidare på gårdagens reflektioner kring semantik och digital humaniora. Eller genom ett exempel visa hur informationsvetenskap och det digitala som medium tvingar en till reflektion, och vad den reflektionen går ut på.

Jag fick i veckan skäl att göra en snabb genomgång av "olika typer av innehåll". Det är ibland viktigt då man söker material i databaser och på webben att kunna sortera ut eller specificera vad man är ute efter: söker man bilder eller artiklar eller vill man kan kanske ha en 3D-modell av något? För att det hela ska fungera har man ganska länge i digitala sammanhang använt Dublin Core-standarden som erbjuder följande typer av innehåll:

  • samling
  • dataset
  • händelse (t ex en konferens eller utställning)
  • bild (även "fysiska" bilder såsom tavlor eller teckningar)
  • interaktiva resurser (t ex webbsajter eller spel)
  • rörlig bild (underkategori till bild, video, tv-program etc)
  • fysiskt objekt (observera inte deras digitala representationer, som ska sättas i andra kategorier)
  • tjänst (webbservers, fjärrlånstjänster osv)
  • programvara
  • ljud (material avsett att avlyssnas, t ex en cd-skiva)
  • stillbild (underkategori till bild, hit räknas inte bilder av text, som är text)
  • text (böcker, brev etc)

I biblioteken har man sedan urminnes tider ägnat sig åt att beskriva och katalogisera saker för att kunna hitta vad man behöver. Enligt min uppfattning råder här ändå en sammanblandning mellan olika typer av innehåll. I bakgrunden finns förvirringen som orsakas av frågan hur man borde klassificera eller förstå de digitala formaten. Att förteckningen har ett ursprung i biblioteksvärlden ser man ganska tydligt. Numera skiljer man i biblioteksstandarden tydligare på mediet och innehållstypen, men lösningen är fortfarande inte helt självklar eller intuitiv åtminstone för mig: talar man om fysiska format, tekniska format eller de sinnen eller referensramar (teckensystem eller språk) som används för att förmedla information eller en erfarenhet? Sedan några år tillbaka finns nu i bibliotekskatalogerna två olika typer av klassificeringar: typ av innehåll och typ av medium. Då avser man med innehåll det senare, alltså innehållets kodning (som typer finns bl a tal, framförd musik eller noter, data, rörelse t ex dans, föremål) och det senare beskriver närmast vilken typ av teknik man behöver för att kunna ta del av innehållet (projiceras, video (DVD, VHS etc), mikrofilm, audio etc). Personligen har jag mycket svårt att förstå denna kategorisering av "medietyper". Man har enligt mig blandat ihop teknik och innehållets kod/språk på ett olyckligt sätt.

Pudelns kärna är enligt mig att det förutom hårdvaran är mjukvaran som idag definierar mediet, det berättar för oss vilket språk meddelandet använder sig av. Man har också på sätt och vis varit på rätt spår då man i många fall hänvisar till användning av så kallade MIME-types, där man kopplat ihop rent tekniska filformat med medietyper. I praktiken innebär detta att man i många standarder kräver användning av ett traditionellt internetregister, där vem som helst kan registrera ett filformat. I praktiken är de relevanta medietyperna då programvara, ljud, bild, meddelande, modell, flerdelad, text och video. Till exempel anses pdf-filer vara programvara enligt detta och många databasdumpar är förstås bara text. Så ni förstår att ur användarperspektiv är inte dessa kategorier särdeles behjälpliga.

Under mina efterforskningar hittade jag ändå en ganska bra klassificering, tycker jag, i den klassificering av filformat som gjorts för långsiktigt bevarande, PRONOM:


  • Sammansatt
  • Ljud
  • Databas
  • Dataset
  • E-post
  • Geodata
  • Rasterbild
  • Vektorbild
  • Modell
  • Sidbeskrivning (pdf)
  • Presentation
  • Kalkylfil
  • Annoterad text
  • Strukturerad text
  • Ostrukturerad text
  • Video
  • Textbehandlingsprogam (fil ur/för)

Jag tycker denna lista ganska väl motsvarar olika typer av medier i dag och också korrelerar på ett förhållandevis vettigt sätt med innehållets "språk".

Med medium avses "det som förmedlar", som ligger emellan avsändare och mottagare. Man kan så se till det fysiska materialet, vilket man gör i it-branschen. Man talar om lagringsmedium; bevaras informationen på ett magnetband, en hårdskiva eller kanske på en CD-skiva. Då de fysiska medierna föråldras kan man migrera samma data till ett annan medium, ofta utan att man behöver ändra på innehållet alls. Men om man är tvungen att göra det eller konvertera data från ett filformat till ett annat talar man i stället om formatmigration. Filformaten är också avgörande då vi ska ta del av innehållet. Vi behöver en mjukvara som kan presentera filens innehåll för oss. Själva innehållet kan sedan beskrivas och kategoriseras på många olika sätt: vilka sinnen använder vi eller vilka språk och kodsystem används.


Audio, ljud, musik, framförd musik eller LP-skiva? Vad avser vi med typ av innehåll?
Av Lombana (Eget arbete) CC BY-SA 4.0  via Wikimedia Commons


Det digitala har helt enkelt ställt till det för oss. Om det vi söker finns i en tryckt bok eller i en e-bok är bara en liten del av det vi behöver veta, beskriva och koda. Och ofta är det inte så stor skillnad bara vi kan ta del av innehållet på ett smidigt sätt. Men för att kunna göra det, behöver man fundera på just semantiken. Och jag menar alltså, att om man inte kan analysera dessa saker tillräckligt kritiskt, gör man inte digital humaniora eller ens anpassad forskning. På så sätt går moderna informationsvetenskap och studier i nya medier eller digital kultur faktiskt in i varandra.

söndag 30 augusti 2015

Data, information och bevarande

I veckan meddelades det att Riksarkivet lägger ner sin e-arkivtjänst för myndigheter på grund av liten användning. Tanken har varit att myndigheter kunde leverera material som ska arkiveras digitalt direkt från sina egna dokumenthanteringssystem, vilket skulle vara effektivt på många sätt. 

Ett problem är att det finns skillnader mellan tänket inom arkivering och modern dokumenthantering, som inte fixas i en handvändning. Omvärlden har helt enkelt ställt användarvänlighet, ändamålsenlighet och funktionalitet främst vid sin informationsförvaltning. Ibland på bekostnad av trovärdighet och säkerhet på längre sikt. Arkivsektorn har å andra sidan inte gjort marknadsföringen av sina tjänster och vikten av bevaring och kuratering lättare genom att man utvecklat en tung obligatorisk standard, som lämpar sig för ärendehanteringsystem snarare än dokumenthanteringssystem.

Avsikten med Sähke2-standarden är rätt och bra,
men i praktiken kan den vara utmanande.
"Åtgärder" och "Dokumentstatus" är inte något man
styr sin verksamhet med på alla håll.

Länge har man försökt samordna offentlig informationsförvaltning genom sektorns sk JHS-rekommendationer där man tar ställning till bland annat standarder och best practice. Problemet är att dessa inte är bindande (vilket man med ovanstånde exempel å andra sidan kanske kan vara också tacksam för?). För närvarande råder dessutom en del förvirring kring rekommendationernas status och vart man egentligen är på väg. I Finland görs ju ett omfattande business architecture-arbete, som tillsvidare delvis är på ett rätt abstrakt plan. En sak som framstår väldigt tydlig är ändå att semantisk interoperabilitiet kommer att spela en viktig roll, en annan är att man från finansministeriet driver mycket hårt på att få till stånd resultat. 

Det som gör mig personligen lite tveksam är att man inom JHS ( t ex 191) verkar anpassa hela informationsförvaltningen enligt den krångliga arkivstandarden och ytterligare ökar mängden obligatoriska metadata, i stället för att fokusera på just semantisk interoperabilitet (som att sätta upp ordentliga ontologier och URI-tjänster å det snaraste och se till att de används dvs integreras i dokumenthanteringssystemen).  Riksarkivet har en viktig roll då det gäller långsiktigt bevarande i vårt land, men det ser ut som att omvärlden inte kommer att rätta sig efter traditionell arkivteori. Var går gränserna mellan dokumenthantering, informationsförvaltning och arkivering när allt i praktiken flyter ihop i den digitala världen?

På engelska talar man om data management, som jag skulle gärna översätta det med informationsförvaltning. Till det räknas saker som strategisk planering, livscykelhantering, teknik, arkitektur och dataadministration. Till dataadministrationen, å sin sida, hör saker som metadata och dess kvalitet, själva informationens/datas kvalitet, planering av livcykeln, administrativ hantering av rättigheter, ansvar för aktuell referens- och kontextinformation. 

Det här är saker som blir mycket aktuella då vi talar om långsiktigt digitalt bevarande. Kultur- och undervisningsministeriet har ju enligt sitt uppdrag och mycket klokt investerat i en lösning för ändamålet, som går under namnet PAS. PAS är en tjänst som kan åta sig att bevara digitala material "för evigt". PAS är inte en del av arkivverket, utan en tjänst för dem som ministeriet ger rätt att använda den. Arkivverket ansvarar ju bara för en del av de saker vi kanske vill bevara från vår tid. PAS är snarare ett magasin där olika typer av kulturarv och viktiga informationsresurser kan säkerställas för eftervärlden. 

Utmaningen är att tjänsten i sig på inget sätt kan ansvara för administrationen av innehållet. Varje samling eller dataset som landar i PAS-systemet måste ha en ansvarig instans utanför systemet, som beslutar och tar ansvar till exempel för datas kvalitet och den administrativa hanteringen av rättigheter: till vem och på vilka villkor kan materialet lämnas ut? Frågorna blir ännu mer utmanande då det gäller forskningsdata: vad ska sparas, vad ska kastas, vem tar ansvar för sensitiva data, vem betalar för bevaringen, vem tar ansvar för vad som sker i metadata om kontext eller villkor förändras? För vi diskuterar inte längre i ett perspektiv på några år utan på några hundra år ...

Ansvaret landar vad gäller offentlig förvaltning ändå enligt lagen på Riksarkivet. Arkivväsendet står inför verkligen stora utmaningar: Vad och hur ska man prioritera? Vilka är de kritiska framgångsfaktorerna och hur ska man kunna få det inflytande man behöver för att säkerställa digitala material? Vad gäller forskningsdata är diskussionen i startgroparna. 


Det är spännande och intressanta tider. Finland har inte råd att misslyckas i dessa saker, som kräver ett perspektiv längre än ett kvartal, längre än en valperiod och längre än ett människoliv. Det är samtidigt symtomatiskt och en ytterst försvårande omständighet att själva begreppsapparaten (åtminstone på finska, svenska och engelska) är så oklar och virrig. Ett system i form av en teknisk lösning är inte hela lösningen, det behövs väldigt mycket administrativt arbete och ansvar för innehållets kvalitet, utveckling och användning. På lång sikt. Då behöver alla inblandade faktiskt förstå hur komplexa saker det handlar om.

**

Tillägg:

I statsrevisorernas rapport om läget sägs uttryckligen att man bör värna om förtroendet för arkiven och inte lägga ner VAPA-systemet förrän ett ersättande system satts upp. På inrikesministeriet är man förbluffad: man har precis satsat mycket på att ta i bruk VAPA-systemet. Beslutet att VAPA ska läggas ner kommer från Undervisnings- och kulturministeriet (OKM/7/591/2015).

Tillägg två: Ny klarhet i vad som är på gång kom en dryg vecka senare?

tisdag 7 maj 2013

Vad jag lärde mig om digitala bilder och migrering


Under gårdagen jobbade vi vidare på CSC med migrering. Det hade sagts att bilder är enklare än MS Office-dokument och det stämmer alla gånger. Men jag lärde mig mycket om digitala bilder och till exempel olika färgrymder och vad det i praktiken innebär om det går fel där. Jag hade till exempel aldrig förr bekantat mig med YCbCr, men också skillnaderna mellan olika RGB-rymder var för mig nytt.  I vart fall förstår jag först nu varför Peter von Baghs kritik mot digitaliseringen av filmindustrin  är mer än berättigad.

Vi testade att migrera foton lite hit och dit och lärde oss att jämföra resultaten. Som sammanfattning kan jag säga att jag efter gårdagen gillar png-filer och tycker mer illa om jpeg-filer. Här måste jag understyrka, liksom som utmärkta lärare Juha Lehtonen, att Jepg2000 som format är en fullständigt annan sak än Jpeg. Den nya versionen verkar det finnas lite delade meningar om. Den är så pass komplicerad att man helt enkelt inte ännu vet, misstänker jag. 

Komplicerade format har det problemet att de kan innehålla så otroligt mycket olika typer av information, så de är svåra att dra över en kam eller enkelt specificera. (Ett utmärkt exempel tipsade Julia mig om: pdf) Således behöver dessa filtyper mycket noggrannare specifikationer för långsiktigt bevarande, som också Juha Hakala konstaterade, om man ska kunna bevara dem tryggt i längden. Potentiellt är det bra med filer som kan innehålla mycket information, såsom till exempel bokstavstyper eller färgpaletter. I Norge har man valt att migrera material från TIFF till Jpeg2000. Ett ganska modigt drag, trots att det rör sig om digitaliserade material. Christoffer Nilsson upplyste mig om att man 2009 räknade med att kunna reducera lagringskostnaden till hälften på så sätt.  Priserna har väl sjunkit sedan dess och framtiden får visa om det varit ett bra beslut. Juha Lehtonen å sin sida bedömde ett av de största problemen med Jpeg2000 vara att användningen är så liten, vilket gör att redskap, erfarenhet och kompetenser inte är så utvecklade.

Intressanta diskussioner fördes igen på lunchen. Denna gång gick diskussionen mellan personal från KAVA och Statens konstmuseum och handlade delvis om hur heltäckande tillvaratagandet egentligen är och om det är ändamålsenligt så som lagen är stiftad nu (dvs mycket vagt) för digitala material. Är det faktiskt vettigt att spara all (utländsk) smörja i alla dess repriser från TV - medan vi har mycket stora utmaningar i att samla in och bevara enskilda konstnärers videokonstverk, performance och installationer? Jag blev igen övertygad om att vårt land skulle må bra av en nationell digital bevaringsplan. Det finns mycket, inte minst av spel och sådant som finns på webben eller som appar, som nu kommer att gå förlorat, trots att det hör till det absolut intressantaste i vår samhälle och vår kultur just nu.

måndag 6 maj 2013

Vilken tänka-på!

I dag deltog jag i ett seminarium på CSC om digitalt långsiktigt bevarande. Under förmiddagen fick vi höra det senaste om de administrativa, politiska och juridiska utvecklingarna kring detta med långsiktigt bevarande. Det känns bra att forskningsdata och kulturarvsdata tydligtvis vallas fram som parallella projekt av Undervisnings- och kulturministeriet. Det finns många synergier att vinna. En liten aning fundersam blev jag över exakt hur man egentligen ser KDK-projektets funktion i ett nationellt infrastrukturperspektiv och hur exempelvis hela ONKI-projektet egentligen faller in i bilden. Det talades nämligen till exempel om semantisk kompatibilitet. Det är möjligt att jag lyssnade lite okoncentrerat där. I alla fall tänker jag att skulle det vara en mycket god sak om öppenheten ännu starkare fanns med som strategisk målsättning i alla projekt som bedrivs. För allt bedrivs som projekt för närvarande. I längden är det förstås inte hållbart att LDB är ett projekt, eller ontologier eller annan central nationell infrastruktur.

Under lunchen fördes en intressant diskussion om hur mycket användargenererad metadata ska pressas in i metadatascheman redan vid inmatningsskedet. Riksarkivet har valt en mycket ambitiös linje här. Det återstår att se hur väl det fungerar. Man kunde nämligen eventuellt också fundera på att behandla och putsa datan i efterskott - med nästan samma insats, slog det mig efteråt. Frestelsen att vända logiken helt tvärtom skulle nog vara stor för mig personligen. Med en målsättning att samla  så mycket data som möjligt (ni vet det där med öppenhet och ny kunskap) och sedan börja fundera på var man kan göra av den. Bättre att "tänka efter före" eller att "think smart, act fast"? Och hur mycket utesluter dessa varandra? I det digitala brukar det gå att göra både och, om man bara vill.

Men mitt verkliga "tänka-på" fick jag i workshopen om formatmigrering. Vi jobbade med JODconverter och konverterade Microsoft Office-dokument (både gamla binära och nyare x-dokument) till ODF och vidare till PDF och PDF/A. Och jag kan bara konstatera att jag blev kallsvettig. I stort sett allt som kunde gå fel, gick fel, utom helt enkel text. Powerpointarna blev förskräckliga, kalkylbladen tappade formatering, alla WordArt och SmartArt etc blev helt galna, texten bytte färg, fonter, bilder försvann eller hamnade rakt på texten i pdf-filen, tabeller gick sönder. Och så vidare och så vidare. Kan bara konstatera att jag hädanefter tänker efter minst två gånger innan jag skriver in migrering som primär bevaringsstrategi för dylika dokument. Som ett konkret råd:

Be användarna själva skapa och kontrollera pdf-filerna.

I morgon ska vi fortsätta med bildfiler. Det finns plats i gruppen. Rekommenderar varmt alla att delta som jobbar med bilder. Fast det lär inte vara riktigt lika illa.

Avundas ändå inte killarna på PAS. Deras uppdrag är minst sagt utmanande.






måndag 4 februari 2013

Spara webb

Kursen i digital humaniora jag håller har aktualiserat bevaringen av källmaterial som finns på webben. Ju mer man funderar på saken desto mer komplicerad blir den. Mina studenter har gjort jämförelser mellan olika arkiv och resurser. Till exempel visade det sig att det finns stora skillnader mellan det nationella webbarkivet och Internet Archive. Båda instanserna bevarar finska webbsidor, men det inhemska arkivet är inte tillgängligt på webben (vilket beror på att man i Finland tolkar  öppna arkivmaterial på webben som att "publicera" dem på nytt). Innehållet i de båda arkiven varierar vilket mina studenter också kom till (inlägg här och här).

Diskussionen blev också aktuell under dagens föreläsning, då vi talade om att hänvisa till webbsidor. Faktum är att webben förändras hela tiden. Dessa webbarkiv samlar inte heller upp de mer eller mindre samhällsviktiga debatter som förs till exempel på Facebook. Att hänvisa till webbsidor vissa datum är inte det samma som att hänvisa till specifika version, vilket gör att det normala sättet att hänvisa inte på något sätt garanterar att man någonsin kan bevisa vad man använt som källa, om man inte sparat en kopia ...

I dag hörde jag första gången en statlig arkivtjänsteman ta upp problematiken med sociala medier på allvar. Det verkar nämligen fortfarande annars vara helt utanför den riktiga, relevanta världen för de flesta arkiv. Jag har ingen aning om hur Riksarkivet hanterar sin egen Facebook-sida. Därmed inte sagt att Riksarkivet inte borde finnas på Facebook och att arkiverandet verkligen är en sekundär fråga. Tveksam är jag till att man kallar ett twitterkonto "inofficiellt" och undanber sig kontaktförsök. Bättre i och för sig än Statsrådet, som inte ens säger det, utan bara låter bli att svara (trots att man ringer upp och meddelat dem att man skickat en fråga per twitter). Man är alltså medveten om att det finns en värld där ute, men man försöker fortfarande ofta hålla sig till envägskommunikation. Ett lysande undantag är Helsingfors Byggnadskontor, som verkar vara den första offentliga instans i vårt land som fattar vad twitter handlar om. Om ni känner till andra exempel, berätta gärna!

Men visst blir det intressant, för borde inte exempelvis Riksarkivet och Nationalbiblioteket se till att både deras egna och andras texter på deras Facebooksida arkiveras? Kanske det gör det, har faktiskt inte kollat upp det. Men myndighetskommunikationen är inte ens det intressantaste, utan det är olika kommentarsfält, forum och diskussionsgrupper som "Väck SFP" där mycket samhällsrelevanta diskussioner faktiskt förs. Jag tänker mig att Brages Pressarkiv kunde vara åtminstone en instans som kunde försöka övervaka och samla in dylika material. Helst skulle detta kunna ske med ett lagstadgat mandat för att inte råka ut för onödiga juridiska bråk, om materialet inte ens återpubliceras.

tisdag 29 januari 2013

Digitala fotoarkiv

Knappt hade jag hunnit för mina studenter nämna det bland arkivproffs allt mer utbredda JPEG2000-fotofilformatet, innan jag nås av de första seriösa skruplerna. Det tolv år gamla formatet var tänkt att bli ett nytt arkivformat för foton i stället för de klumpiga tiff-filerna, som tar en hel del utrymme, men som länge ansågs vara det enda pålitliga formatet för långsiktigt digitalt bevarande av digitala bilder. Under senare år har i alla fall en del arkiv övergått till JPEG2000, som har många mycket goda egenskaper och borde vara mycket beständigt mot korruption. Filerna är packade på ett sådant sätt att de inte borde vara känsliga. Exempelvis borde man kunna rekonstruera en hel del information ur en söndrig fil, vilket är svårare eller omöjligt med en traditionell JPEG. Det nya formatet borde också gå att enkelt använda både som bevaringsfil och användarfil, eftersom man helt enkelt kan kapa av bitstreamen varsom helst, varvid bilden i praktiken endast förlorar i skärpa.

Nu har alltså Chris Adams från World Digital Library en del kritiska synpunkter. Det komplexa formatet medför också en del problem. Ett av de större är att det inte finns tillräckligt med olika och utspridda programvaror som kan hantera filerna. Så länge vanliga webbläsare till exempel inte stöder formatet uppnår det inte den kritiska spridningen, som till exempel har gjort att pdf-filformaten, trots att de är propretiär kod anses vara att rekommendera i många fall även som förvaringsformat.

Samtidigt känns det som att det redan är så pass många arkiv som övergått till det nya formatet att enkel återvändo kanske inte finns. Eller så står vi inför de första större migeringarna, vilket jag betvivlar att någon vill ge sig in på ännu. Även i det nationella långtidsförvaringsprojektet finns JPEG2000 med som accepterat bevaringsformat. Men själv kan jag alldeles för litet för att kunna ta ställning till vikten av Adams invändningar.

måndag 20 februari 2012

Digitalbaserade material och LDB

Dagens föreläsning handlade om digitalbaserade material och om långsiktigt digitalt bevarande. Jag har behandlat ämnet ett antal gånger i bloggen och man kan får fram texterna genom att söka med nyckelordet långtidsbevaring (taggmolnet finns längst nere på sidan). Den mest grundliga genomgången finns här.

Digitalbaserade material, på engelska born digital objects, är en växande grupp material. Dessa material är framtida forskares källor … men vad ska vi bevara och hur är inga lätta frågor att besvara. Trots att nästan alla material i dag uppstår i digital form, behöver inte alla material bevaras digitalt, till exempel text och stillbilder går förhållandevis enkelt att göra om till fysiska objekt, som kan läggas i arkivmagasin och bevaras på traditionellt sätt.

Men till exempel webben innehåller mycket material som inte kan återges på ett sätt som liknar den ursprungliga användarupplevelsen utan en dator. De tekniker som man i dag använder för att ta tillvara webb utelämnar ändå en stor del av materialen av tekniska orsaker, exempelvis diskussionsforum blir ofta oinsamlade. För att rädda dem för eftervärlden behövs andra åtgärder.

Digitalt bevarande kräver aktiva åtgärder eftersom material så lätt kommer bort eller blir obrukbart utan planering och dokumentation. Bevaring är därför dyrt, mycket dyrare än det kostar att köpa en hög hårddiskar. Men vilka är de alternativa kostnaderna, för återskapande av information (om det ens är möjligt), för männsikors rättskydd, för vårt kulturarv?

söndag 26 september 2010

Om att planera långsiktigt digitalt bevarande

Hur man kan bevara digitala material i ett längre perspektiv är en brännande aktuell fråga för många, bland dem också arkiv och bibliotek som ibland satsat mycket stora summor på att digitalisera material. Dessutom landar allt mer digitalbaserade material hos kulturarvsorganisationer. Situationen är utmanande, inte bara tekniskt, utan också administrativt. Det är svårt, om inte omöjligt, att beräkna kostnader, även om man klarar av att hantera den akuta situationen.

Det allra viktigaste är att komma ihåg två grundsaker: tillräckligt många kopior av materialet (helst också på LTO-band) och tillräcklig dokumentation. Förvaringsutrymme är förhållandevis förmånligt i dag, så det kostar inte så mycket mer att spara opackade format. Välj helst etablerade filformat. Det kan omöjligt finnas för mycket dokumentation: man måste dokumentera varenda teknisk åtgärd i detalj, teknisk metadata och hålla noggrant reda på alla filer och all information. Då har man redan kommit rätt långt. Ytterligare en god sak är om man kan åstadkomma och dokumentera kontollsummor efter varje åtgärd. Bra är också att spara olika versioner av varje fil, t ex den som inkommit, en för bevaring avsedd normaliserad version samt en mindre och mer lätthanterlig brukskopia.

Följande åtgärd är att skriva en utförlig bevaringsplan. (Det borde man förstås helst ha gjort innan, men få har hunnit med det, misstänker jag). Det innebär att man beskriver varje samling eller materialtyp, listar alla använda hård- och mjukvara och kartlägger läget, potentiella risker och möjliga bevaringsstrategier. Väljer man emulering krävs det nämligen ytterligare arbete gällande vilka program och system man eventuellt måste bevara. Dessutom är det viktigt, vilket ofta glöms bort, att definiera vilka egenskaper hos materialet bör bevaras. Till exempel då det gäller forskningsdata kan det vara av värde att också bevara sökfunktioner eller gränssnitt som forskare använt sig av - i annat fall är själva data värdelöst som belägg för forskningsresultaten.

Det är också mycket viktigt att man i bevaringsplanen planerar för hur och när den följs upp och uppdateras och hur ansvar och roller överlag är organiserade med tanke på alla tänkbara (och helst också otänkbara) omständigheter. De administrativa och organisatoriska bitarna är faktiskt mycket viktigare än man vid en första anblick kunde tycka. Att personalens kompetens plötsligt oväntat sjunker radikalt är en betydligt större risk än en eldsvåda i de flesta fall. Man måste också utreda hur man kan hantera och följa upp förändringar i ägo- och rättighetsförhållanden gällande materialet på längre sikt?

Arbetet med att författa en bevaringsplan kan bli mycket omfattande, men måste göras. Det är viktigt att involvera både it-kunnig personal, arkivpersonal och forskare i arbetet. Man kan inte heller komma undan arbetet helt och hållet, så länge man är ansvarig för ett digitalt material, trots att man låter någon annan sköta den praktiska bevaringen. Det är nämligen i vilket fall som helst så, att det är just och uttryckligen kulturarvsorganisationen själv som bär ansvaret för att materialet bevaras på ett adekvat sätt, dvs. att det kan användas i framtiden. Om inte annat, måste man kunna formulera kraven på den bevaringstjänst man köper av någon annan.

tisdag 13 april 2010

Digitalisering, webb och några trender

De nya medierna har definitivt nått sitt genombrott också i Finland, och uppmaningarna från högre ort har lett till att man till exempel vid Riksarkivet gått ut på Facebook och grundat en blogg. Fortfarande finns dock en markant skillnad i förhållande till t ex Sverige där många instanser (universitet, bibliotek, arkiv) twittrar, vilket knappast alls spritt sig till Finland.

Om ock webb 2.0 börjar få ett visst fotfäste, är målsättningen fortfarande helt tydligt ”att informera”, medan t ex att beakta eller inbjuda användarproducerat innehåll endast är retorik. De första vacklande och sannolikt oåterkalleliga stegen mot en genuin dialog är tagna med stor försiktigthet. Linked data och semantiska lösningar har däremot gått ett ryck framåt i och med att myndigheterna gett sig in i flera stora ontologiseringsprojekt.

På denna punkt är Finlands situation internationellt sett igen bättre än på ett tag: FinnOnto2.0-projektet driver fram ontologier bl a för försvaret och även Nationalbiblioteket har gett Fennica för ontologisering. Det innebär att man i teknisk utveckling delvis går om kommersiella CMS. Den nyaste given är automatisk extrahering av narrativa konstruktioner, dvs händelser, ur textmassor som sedan annoteras. Samtidigt som det nationella digitala biblioteket fått ökad politisk tyngd, har valet av tekniska lösningarna gjort att projektet åtminstone i första skedet kommer att förverkligas utgående från en mycket platt metadatastruktur, utan semantik eller genuin flerspråkighet. NDB kommer redan före det är klart att vara tekniskt föråldrat, i motsats till Europeana där man driver på semantiska och tvärspråkiga lösningar och teknisk utveckling. Det är givetvis inte minst en fråga om resurser.

Från statens håll finns alltså politiskt intresse att förverkliga idén om Finland som ett utvecklat informationssamhälle. Samtidigt bromsar gamla strukturer och tankemönster utvecklingen och på vilka områden satsningarna slutligen görs verkar något slumpmässigt. Viktiga områden såsom koordination i högskolevärldens digitalisering eller frigörandet av viktiga dataresurser (ss geografiska data) verkar vara blinda punkter. Hur långt den goda vilja sträcker sig när man börjar se vilka de egentliga kostnaderna är, återstår att se. Å andra sidan: vi har inget val! Vi måste lära oss hantera den digtal informationen på lång sikt.

Generellt kan man konstatera att digital långtidsförvaring tagit ett kliv uppåt på agendan också internationellt. Två större utredningar som har gjorts på området har publicerats nyligen. Det ena, ett anglosaxiskt projekt finansierat av bland andra U.S. National Science Foundation och JISC påtalar behovet av ledarskap i frågan på alla nivåer och anser att frågan är av stor samhällelig betydelse.

Den andra utredningen är gjord inom Europeiska kommissionens PARSE.Insight-projekt (FP7) och behandlar särskilt ett forskningsperspektiv. Utredningen var en enkät, vars främsta resultat var:

- 98 % av de tillfrågade dataexperterna anser att resultaten av offentligt finansierade forskningsprojket skall vara offentligt tillgängliga.
- 80 % av forskarna anser att de största hindren utgörs av brist på hållbar hårdvara och mjukvarustöd
- 71 % av dataexperterna tror att finansieringen utgör ett problem
- 96 % procent av små och stora utgivare anser att förvaring stimulerar vetenskapliga framsteg
- Stora utgivare har ofta ordnad förvaring medan 28 % av de små uppgav att de saknas strategi för ändamålet

Inom det nationella projektet NDB (KDK) har man också under hösten redogjort för olika utredningar. Bland annat konstaterades det att skillnaderna mellan olika organisationers hantering av digitala material och deras beredskap för långsiktigt bevarande av digitala material i synnerhet sammanhängde med organisationens storlek. De större kulturarvsorganisationerna har ofta hyfsad beredskap, medan de mindre skulle behöva mycket stöd.

Också i Sverige har KB nyligen publicerat en utredning över sina digitala material. Situationen liknar till stora delar den finska, även om t ex AV-materialet hanteras på ett annat sätt.

fredag 1 januari 2010

Webbarkiv

Det händer rätt ofta att webbsidor försvinner eller ändras. Ibland händer det till och med att en sökträff inte leder någon vart, utan man endast får ett meddelande om att sidan inte kan hittas. Ibland kan det bero på tillfälliga tekniska problem. Många söktjänster erbjuder då alternativet att kolla in den hos söktjänsten lagrade kopian som indexerats (cachad, cachelagrad sida). Det kan löna sig att spara den kopian om informationen är mycket viktig för en, eftersom söktjänsterna kontinuerligt uppdaterar sig och om det är så illa att sidan faktiskt plockats bort, kommer den mycket snart att försvinna helt. Att hänvisa till en sådan sida är förstås rätt problematiskt, men rådet att alltid datera webbhänvisningar ger ju en viss trovärdighet i alla fall.

Som väl är, har man också börjat arkivera webbsidor. Internet Archive erbjuder en tjänst där man kan hitta webbsidor från hela världen från så långt tillbaka som år 1996. Sidorna är verkligen inte fullständiga, men innehåller nog en hel del rolig och intressant information. Arkivet samlar kontinuerligt material från hela världen. Dessutom har man gjort tematiska insamlingar kring t. ex. tsunamin 2004 och presidentvalet i USA 2000.

Förutom s.k. "snapshots" som samlas några gånger årligen av många nationalbibliotek görs också tematiska insamlingar vid många av dem så som Library of Congress och Bibliothèque Nationale. I USA har en del offentliga institutioner arkiverat sina sidor i och med hjälp avARCHIVE-IT sedan 2005.

I Europa ingår utveckling av webbarkivering i EU:s sjunde ramprogram (FP7) där LiWa-projektet arbetar med frågan. Generellt har man, tyvärr, i Europa valt en rätt konstig linje beträffande materialets tillgänglighet. Men hänvisning till upphovsrätter har man gjort det material som numera samlas in ganska systematiskt av nationalbiblioteken extremt svårtillgängligt.

Finland utmärker sig förutom som tekniskt framstående som extremt trångsynt gällande tolkning av copyright. Det är strategiskt dumt och bidrar sannerligen inte till en positiv utveckling av informationssamhället. Det finska webbarkivet, som startat 2006 och öppnat 2009, är nämligen tillgängligt endast på ort och ställe på de stora forskningsbiblioteken - alltså det går inte ens för en forskare att per distans få tillgång till materialet. Dessutom är all kopiering väldigt förbjuden (det skulle inte förvåna mig om det gäller även material man själv producerat ...). Detta då att jämföra med ovannämnda Internet Archive eller den isländska synnerligen vettiga approachen att man gör sidor otillgängliga på upphovsrättsinnehavarens uttryckliga begäran.

Library of Congress uppger gällande sina temainsamlingar att webbsidorna i arkivet är upphovsrättsskyddade (på samma sätt som vanligt webbmaterial) och att det är på användarnas ansvar att respektera copyrightregler. Dessutom tar man gärna emot uppgifter om rättighetsinnehavarna. Detta verkar vara ett fullständigt sunt och logiskt sätt att hantera rättighetsfrågorna. I vårt land har man tyvärr stiftat väldigt explicit om att "framställa exemplar", vilket är förbjudet utan upphovsrättsinnehavarens tillstånd och om förhindrande av kopiering etc. Att utsträcka detta till att gälla digitala material som publicerats gratis på webben är närmast absurt. Ett av problemen är att Webbarkivet borde ses mer som ett arkiv än som ett bibliotek. Publicerande är inte vad det varit förut, inte heller tillvaratagande av kultuarv.

Då man en gång valt denna väg, att ta upphovsrätten som en större rättighet än t ex rätten till information, är det svårt att ändra sig utan att trassla in sig i oändliga förhandlingar med ett oräkneligt antal parter. Vad gäller webben och dagens digitala kultur borde principen utan vidare vara att man gör först och frågar sedan, alltså enligt den isländska modellen. Detta gäller i synnerhet då man har att göra med allmännyttig verksamhet och åtgärder som syftar till att rädda vårt kulturarv.

Nå väl, denna långa exkursion var alltså en förklaring till den absurda situationen att man måste använda sig av Internet Archive för att kunna gå in på försvunna inhemska sidor på webben. I stället för att hitta dem på Nationalbibliotekets nätsidor.

torsdag 10 december 2009

Eld och vatten

I gårdagens Kultakuume (som man kan lyssna på några dagar här) diskuterades säkerheten i Riksarkivets arkivgrottor. Som väntat bedömer man risken för vattenskador vara större än den för brand. Även om vårt kulturarv är rätt väl skyddat i dag, känns det lite oroande att både Nationalbibliotekets och Riksarkivets samlingar till så stora delar finns så nära havet. Vad händer om vattnet stiger en halv meter - eller två? Oron blev ju dessutom inte mindre med vattenläckaget i centrum som ställde till med stora skador för att antal veckor sedan.

I detta avsnitt berördes inte det digitala kulturarvet, men det har diskuterats tidigare i samma program, i samband med Petteri Järvinens nya bok. Järvinen tror på e-förvar som tjänst i framtiden, också för privatpersoner. Det kan ligga något i det. Men fortfarande måste folk lära sig att ordna sitt material, så att de går att hitta i det och använda det senare.

söndag 29 november 2009

Visa mig vad du är gjord av, så kan jag säga vem du är

Delegationen för informationsförvaltningen inom den offentliga förvaltningen (JUHTA) gick för snart ett år sedan ut med en rekommendation (varning för bristfällig svenska!) som ganska kraftigt talar för val av öppen källkod inom den offentliga sektorn. Man följer här europeiska rekommendationer och satsningar, med målsättning att stöda öppen källkod.

Orsakerna är många. I de finska rekommendationerna fäster man sig främst vid konkurrens- och säkerhetsaspekter. Genom att välja program med öppen källkod försäkrar man sig om att man i framtiden kan dela system och program inom förvaltningen och också med medborgarna. Myndigheterna har möjlighet att konkurrensutsätta och köpa in olika delar av it-utvecklingen när de ser det som lämpligt. Man minskar risken för sådana de facto-monopol som lätt kan uppstå, då man använder sig av ett kommersiellt, slutet program, där all utveckling måste ske på kundens bekostnad, men resultaten i praktiken blir hos programleverantören. Detta i kombination med att kostnaderna för att helt byta system kan bli höga. Den trygghet en kommersiell leverantör ger är dessutom ofta rätt skenbar, eftersom avtalen inte sällan ger ansvarsfrihet för skador eller indirekta kostnader.

Öppen källkod betyder ändå inte samma sak som att programvaran skulle vara gratis, även om det ofta är så. Gratis program har inte alltid öppen kod. Inom OAI har man avtalat om vilka kriterier som bör fyllas. Open Source-rörelsen är idag en faktor som storföretagen måste ta hänsyn till. Ett bra ställe att bilda sig en uppfattning om dess omfattning är att studera SourceForge. Man inser snabbt att det finns en hel del som kanske inte är så bra, men systemet har klar peer-review. Och här finns viktiga program som används av organisationer runt om i världen, så som DSpace.

Då man talar om riskerna med dylika program hänvisar man ibland till att deras framtid är osäker, eftersom ingen "tar ansvar" för dem. Av någon orsak verkar man i så fall tro att kommersiella företag skulle vara mer eviga än världsomspännande nätverk av universitet.

Ett drag som är mycket typiskt för populära fria program med öppen källkod är den enorma utvecklingshastigheten. Det kan till och med anses som en risk enligt finska myndigheter, men risken är överkomlig eftersom systemen är genomskinliga. Effektiviteten i fri utvecklingen i webbgemenskaper, s.k.crowd sourcing har visat sig så stor att också jättarna i dag tar hänsyn till open source-projekt och försöker utnyttja dem, både som givare och tagare. Det finska COSS har således både Nokia och IBM som medlemmar. Det är inte utan att Clay Shirky konsulterat Nokia.

Vad gäller långtidsförvaring av digitala material är genomskinligheten inte bara en del av säkerheten utan också trovärdigheten. (Det kan man läsa om t ex här). Om trovärdighet och annat kring digitalarkiv kan man förresten också läsa i Arkivas nya termlista, där vi försökt samla viktiga ord på svenska.

tisdag 21 april 2009

Är bloggar kulturarv?

Om man lite närmare begrundar t ex Tredinnicks tankar (se nedan --- öh, ovan?) så står det ju rätt klart att bloggsfären i dag innehåller en allt större kulturmassa, både "låg-" och "högkultur" vill jag påstå. Antalet professionella bloggar och till exempel författar- och journalistbloggar ökar hela tiden. Men även mera s a s triviala dagboksbloggar utgör ju ett rätt så fantastiskt material för både folkkultursforskning, språkvetenskaplig forskning och i framtiden säkert också historisk forskning. Anser jag personligen.

Eftersom jag själv arbetar med att planera långtidsförvaring av digitala material intresserar jag mig för denna eventuellt efemära del av vår kultur. Vem skall spara och bevara den för eftervärlden? Behöver vi spara den för att man i framtiden skall kunna förstå och beskriva vår tid? Kan vi lita på att diverse bloggtjänster faktiskt tryggar tillgängligheten till materialet för all framtid?

Vårt Nationalbibliotek har som uppgift att ta till vara allt som publiceras i vårt land. Detta direktiv, som är uppkommet under den tryckta bokstavens era, är givetvis problematiskt i dag. Man har också börjat spara webbsidor (som slutar på .fi eller .ax). Men, men. Man gör det sådär en gång om året, det som då råkar finnas på nätet. Ibland kan man också samla material tematiskt, en lösning som man kommit till också utomlands, i USA åtminstone. Mängderna material är så enorma, så att bevara alla material vore omöjligt.

Dessutom försöker NB bonga material på finska på servrar på annat håll i världen. Men här faller nog de finlandssvenska materialet helt utanför, om ingen påpekar för Nationalbiblioteket att den-och-den-bloggen (eller kommentaren) är skriven av en finlandssvensk. Men hur skall man veta? Vilka bloggar borde sparas, av vem, var och hur?