fredag 11 september 2020

Forskarna i digitala arkiv

 I går höll vi ett litet seminarium inom vårt nätverk för folk som arbetar med beständiga identifierare (persistent identifier, PID). Som tema hade vi valt digitala arkiv och det egentliga seminariet inleddes av Finska Litteratursällskapets arkivchef Outi Hupaniittu, som berättade om hur de digitala arkivens metadata och och struktur ter sig för en forskare som försöker hänvisa. Strukturen av materialen är komplicerad, eftersom metadata delvis följer de fysiska originalen och delvis hoppar rakt till enskilda digitaliserade filer utan beskrivande metadata. Vidare presenterade Juha Hakala från Nationalbiblioteket hur DOI och URN kan och bör användas inom olika kontexter. Sist hade vi en diskussion där vi kom in på frågor om långsiktigt bevarande, skillnader och likheter mellan digitala samlingar inom bibliotek och arkiv och när man borde använda beständiga identifierare på objektnivå (enskilda filer) och när det räcker med datasetnivå. Vi tangerade förstås också olika dynamiska modeller.

Jag tycker själv att det finns saker att lära av varandra då vi ser på forskningsdata vs kulturarvsdata. Saker att notera då det gäller forskningsdata är datas ofta dynamiska karaktär, versionering och behov av exakta hänvisningar. Då det gäller kulturarv finns det viktiga saker såsom processer för arkivbildning och gallring och den enormt fina förståelsen av produktion och hantering av metadata. Dessutom finns det system för hur man hanterar olika manifestationer och nivåer av data och metadata (särskilt tänker jag förstås på FRBR). Särskilt skillnaden mellan manifestation (BAM) och version (forskning) är intressant. De ter sig ontologiskt sätt väldigt olika, men varför ...?

Fördelen med seminarier på zoom är att man lätt kan föra parallella diskussioner i chatten. Nu gled diskussionen ofta in på definitioner: 

  • Vad avses med att man med hjälp av en PID ska nå ända fram till själva data?
  • Betyder det att en PID är funktionell i olika kontexter?
  • Behöver man PID på filnivå (enskilda objekt inom dataset) för Deep FAIR?
  • Ett dataobjekt (en fil) utan metadata blir väl inte FAIR fast den har en PID?
  • Vad är en manifestation i en digital kontext där t ex webbläsaren kan påverka hur data framstår?
  • Vad är en tillräcklig hänvisning?
  • Hur ska vi nu egentligen använda DOI? (Vad är DOI?)

Användarens behov (forskaren) är väldigt tydliga inom kulturarv och de är konkreta och möjliga att generalisera. Samtidigt är det så tydligt, att man kan visst ge PID åt både informationsinnehåll, metadata, enskilda manifestationer, delar (statiska eller ad hoc skapade) och versioner - med det löser inte ett enda problem om allt blir så råddigt att det är omöjligt för gemene nyttjare att använda och skapa vettiga och koherenta hänvisningar på ett enkelt sätt. Då är det hela lika långt som brett och vi har bara försatt oss ien situation med enorma mängder beständiga identifierare att sköta - för evigt.

Men det viktiga nu är, tycker jag, att vi diskuterar dessa frågor och försöker vidta åtgärder som går i rätt riktning. Vi behöver hitta lösningar tillsammans, vilket kräver att vi kommunicerar flitigt om dessa saker. Både informellt, som igår, och mera formellt, genom att dokumentera vad vi gör väldigt tydligt och transparent.

Inga kommentarer:

Skicka en kommentar