lördag 5 november 2016

Virtuell beständighet

Jag har det senaste året ägnat en hel del energi åt att försöka greppa och förstå så kallade beständiga identifierare, persistent identifiers (PID). Rent praktiskt handlar det om att kämpa mot döda länkar i sammanhang då det är verkligen viktigt att hänvisningar och länkar håller. Som i fall det är meningen att man ska kunna utnyttja dem maskinellt (t ex länkad data). Eller som när en forskare gör hänvisningar till sin forskningsdata, bevisen för sin argumentation. Då är det liksom inte helt okej om hänvisningen slutar mitt i ingenstans. Vilket man i praktiken ändå förstås måste beakta att kan ske och därför berätta så mycket man kan också i klartext om källan man hänvisar till.


I teorin är saken enkel: man ser till att man har ett globalt unikt signum och att det är länkat och omdirigeras till någon viss webbadress, som man vid behov kan ändra, om materialet måste flyttas. Det kallas att man har en resolver. I praktiken är det allt annat än enkelt, inte minst därför, att även om man kan vidta åtgärder för att undvika länkröta är frågan om vad man hänvisar till komplicerad i digitala sammanhang eftersom innehåll inte just kan vara evigt "oföränderligt" och till alla delar identiskt över tid. Tvärtom, gör man inget aktivt, är risken stor att innehållet försvinner eller blir oanvändbart förr eller senare. Man kan inte heller i förväg beakta alla faktorer gällande alla potentiella användares hård- och mjukvara i all framtid. När originalet i traditionell mening helt enkelt saknas, är man tvungen att göra så gott man kan. Och då är dokumentation en oerhört viktig sak, men också här måste man fundera vad som är rimligt och vettigt.


Forskare har i dag, hoppas jag, hört om URN och DOI, som är vanliga och betrodda beständiga identifikatorer för forskningsmaterial (data, kod och publikationer), men det finns också domänspecifika PID:s inom olika områden för till exempel dataset eller enskilda data. Det allra viktigaste är att man faktiskt administrerar dessa id på ett långsiktigt och hållbart sätt. Det kräver både kompetens och resurser.

Internationellt har de så kallade FAIR-rekommendationerna snabbt vunnit terräng. Drömmen om att alltid från en vetenskaplig text med ett klick kunna nå alla källor och referenser är nu ett snäpp närmare. Men det kräver väldigt mycket av forskningsinfrastrukturerna, inte bara vad gäller teknik, utan också insatser av informationsspecialister, forskare, bibliotekarier, förläggare och många andra parter som gör viktiga insatser för att stöda forskarna i deras arbete.

Man kan till exempel inte ordna en hänvisning så, att en länk leder rakt till en fil som laddas ner direkt. Dels är metadata och uppgifter om licenser och proveniens absoluta krav, dels vill man kanske inte alls ladda ner enorma dataset utan förvarning. Därför bör en PID leda till en målsida (landing page) med uppgifter om materialet. Denna sida ska dessutom finnas kvar oberoende av vad som händer med själva data. Om åtkomsten kräver tillstånd ska detta meddelas på sidan, liksom om materialet förstörts eller flyttat.


Jag talade om ämnet i fredags i Tammerfors på Informaatiotutkimuksen päivät.Inga kommentarer:

Skicka en kommentar