tisdag 29 januari 2013

Digitala fotoarkiv

Knappt hade jag hunnit för mina studenter nämna det bland arkivproffs allt mer utbredda JPEG2000-fotofilformatet, innan jag nås av de första seriösa skruplerna. Det tolv år gamla formatet var tänkt att bli ett nytt arkivformat för foton i stället för de klumpiga tiff-filerna, som tar en hel del utrymme, men som länge ansågs vara det enda pålitliga formatet för långsiktigt digitalt bevarande av digitala bilder. Under senare år har i alla fall en del arkiv övergått till JPEG2000, som har många mycket goda egenskaper och borde vara mycket beständigt mot korruption. Filerna är packade på ett sådant sätt att de inte borde vara känsliga. Exempelvis borde man kunna rekonstruera en hel del information ur en söndrig fil, vilket är svårare eller omöjligt med en traditionell JPEG. Det nya formatet borde också gå att enkelt använda både som bevaringsfil och användarfil, eftersom man helt enkelt kan kapa av bitstreamen varsom helst, varvid bilden i praktiken endast förlorar i skärpa.

Nu har alltså Chris Adams från World Digital Library en del kritiska synpunkter. Det komplexa formatet medför också en del problem. Ett av de större är att det inte finns tillräckligt med olika och utspridda programvaror som kan hantera filerna. Så länge vanliga webbläsare till exempel inte stöder formatet uppnår det inte den kritiska spridningen, som till exempel har gjort att pdf-filformaten, trots att de är propretiär kod anses vara att rekommendera i många fall även som förvaringsformat.

Samtidigt känns det som att det redan är så pass många arkiv som övergått till det nya formatet att enkel återvändo kanske inte finns. Eller så står vi inför de första större migeringarna, vilket jag betvivlar att någon vill ge sig in på ännu. Även i det nationella långtidsförvaringsprojektet finns JPEG2000 med som accepterat bevaringsformat. Men själv kan jag alldeles för litet för att kunna ta ställning till vikten av Adams invändningar.

8 kommentarer:

  1. Twittrade även detta: Filformat för arkivering borde innehålla inbäddade instruktioner för att kunna läsa filmformatet ifall framtida arkeologer om fem tusen år gräver fram en cd-skiva och lyckas läsa data av den. Varenda FLAC-fil borde innehålla källkoden el dyl för att spela upp ljudet etc.

    Har ni tittat på Jpeg XR och det alldeles nylanserade H.265 Main Still Image som även verkar slå jpeg2000 på fingrarna i lossless http://en.wikipedia.org/wiki/High_Efficiency_Video_Coding#Main_Still_Picture

    http://phenix.it-sudparis.eu/jct/doc_end_user/current_document.php?id=6825

    SvaraRadera
  2. Kanske en dum fråga från mig som inte förstår, men varför kan inte ett arkiv stöda mera än ett format?

    Den dagen kommer ändå någon gång när det finns ett nytt och bättre format. Varför inte med det samma räkna med att det finns mera än en sorts filer? Vad gör ni om källbilden är i ett format som innehåller något ni inte kan hantera med det format ni valt lagra i? T.ex. en animerad GIF, ett färgdjup större än vad ni använder eller sanslöst hög resolution.

    Att konvertera till ett nytt format med ett stort arkiv eller för lite resurser kan väl ta alldeles för länge för att man skall kunna ta ett nytt system i bruk?

    Nu kan man generera en PDF på många sätt, men om det är valt lagringsformat så tycker jag synd om arkivet.

    Tommix poäng om källkod är intressant. Fast det är algoritmen som är det viktiga. Men på vilket språk skall den skrivas? Det är ju inte sagt svenska/engelska/kinesiska talas om 5000 år. Fast kanske de har en "Google translate" till det?

    SvaraRadera
    Svar
    1. Algoritmen är ju nog det bästa. Då snackar man ju matematik, ett språk som med säkerhet kommer att finnas i framtiden. Vill man hjälpa framtidens folk på traven kan man dessutom ha piktogram som grovt beskriver vad algoritmen gör och annat matnyttigt.

      Radera
  3. Tack, underbara poänger! Visst kan man ju ha flera format i ett arkiv, men ju flera man har desto mer har man att hålla reda på gällande om man exvis måste migrera. Varje format måste ju kontinuerligt följas upp, att det finns programvara etc att öppna filerna osv. I synnerhet i arkiv kan man dessutom påverka vilka format man får in genom regler eller rekommendationer, och då är det ju bättre att man kan få det hela enhetligt. Själv tycker jag att man dessutom borde spara en originalfil i "fel" format exvis en RAW-fil och en TIFF eller en jpg om man haft en sån emellanåt. Jag tänker mig det lite som framtidens Rosetta-sten. Om man inte vet något om algoritmer etc, men man vet att innehållet ska vara det samma , kanske man kan knäcka koden? - Det där med pdf förbryllar mig ärligt sagt, eftersom en pdf kan innehålla små mycket inuti. Jag är lite fundersam över hur det ska gå vid eventuella framtida migreringar med sådana format. Misstänker nämligen att man kanske ändå inte har tillräckligt info om att delelement och format i slutändan ...

    SvaraRadera
    Svar
    1. RAW-filer innehåller ibland mer data än vad tex TIFF och Jp2 kan svälja. Därför anser jag att RAW-filen måste arkivers tillsammans med TIFF:en.

      Ett sidospår: TIFF stödjer ju också multipage (precis som PDF), vilket JPEG2000 inte gör.

      Radera
    2. Ja, jag förstår bra om man har ett huvudformat för att visa information, men det behöver inte vara samma som att lagra information. Då är det ju bra om arkivet klarar av konvertera till visualiseringsformatet, fast vid behov. Det var ungefär det som var min poäng.

      Eller för ett skannat brev kanske man vill ha det skannade originalet och texten som text. Och texten kanske i modern- och origianlversion.

      Att t.ex. lagra RAW + jpeg är ju bra. Då har man ursprungsdatan och ett vanligt format som man kan hoppas det finns någon som kan läsa det tillräckligt lätt sen (om 5000 år) om det behövs. Och säkert vill användare av arkivet redan nu kunna bläddra bekvämt i arkivet.

      Största problemet med PDF är att det går generera en fil som är fullt läsbar för en människa, men rena rama rappakaljan för en dator som försöker tolka den. Genererar man själv PDF:en med vettiga verktyg så är det ju bra, men tar man emot PDF:ar av tredje part så är man lätt ute på sju famnars vatten.

      Radera
  4. Hittade denna intressanta artikel just.
    http://www.dlib.org/dlib/july08/buonora/07buonora.html

    SvaraRadera