Essetter: informationsförvaltning

Visar inlägg med etikett informationsförvaltning. Visa alla inlägg

lördag 15 juni 2024

Tankar efter PIDfest

Gissa staden.

Det där med man ska dokumentera och publicera evidensen för sin forskning enligt FAIR-principerna (Findable, Accessible, Interoperable, Reusable) eller för att vi ska ha "spårbar och identifierbar information [som]... tillförlitligt [kan] länkas nu och i framtiden" överhuvudtaget, behövs det ännu rätt mycket målmedvetet arbete. Allra mest samarbete. Det var därför helt fantastiskt att igen träffa experter från hela världen efter några års avbrott på en gemensam konferens.

Det är alltid väldigt nyttigt med globala konferenser, för man blir snabbt påmind om hur lätt det är att bli insnöad i europeiska projekt och västerländska perspektiv. Och att glömma hur vi fortfarande har strukturer som är orättvisa mot kolonialiserade områden. Det vill säga väldigt stora delar av vår planet.

I mina egna presentationer lyfte jag fram nyttan av att fokusera på att metodiskt utveckla de sociala och administrativa strukturer som behövs för att bygga förtroende och beständighet. I Finland har vi gjort ett enormt arbete just kring detta.

Inom den standardisering av teknologi som är nödvändig för att nå våra mål, har vi nämligen ett inbyggt problem: en standard som funkar för alla är så generisk, att den knappt kan ge en fingervisning om hur man ska implementera den. Slutresultatet är att vi har liten nytta av standardiseringen, eftersom förmågan att samverka förblir minimal. Alla gör ändå på olika sätt och interoperabiliteten förblir liten. Om man å andra sidan utvecklar en konkret och detaljerad standard blir upptagandet lätt litet, då standarden i slutändan i praktiken passar få eller ingen. Dessutom är det dyrt att ändra existerande system och funktioner så att de är förenliga med nya standarder.

Då det gäller att flytta eller samordna information finns goda tankar kring att låta folk göra som de vill och behöver, och i stället bygga ett nytt lager av tjänster och tekniker som kan länka samman de olika "bubblorna". Som idé tror jag absolut på detta, men min analys är att vi ännu verkligen kämpar med att våra lösningar och standarder är alldeles för generiska och de implementeras (om alls) på vilt olika sätt. Och vad värre är, inom forskningsinfrastrukturerna sker detta ofta på projektbasis, vilket effektivt saboterar långsiktighet och övergripande teknisk planering. Dessutom behöver detta lager ansenliga mängder förvaltning och en fungerande affärsmodell. Det är något som är svårt att organisera. Vem har mandat och vem har resurser (utom de förbenade projekten)?

I varje fall tror jag benhårt på de metoder vi valt i Finland för att tackla problemen. De ger möjligheter att organisera arbetet utan att gå in på detaljnivå. Tillräckligt fokus sätts på samordning och strategi. Det betyder att t ex forskningsfältet har möjlighet att organisera sig själv, bara man säkrar tillräcklig kompetens. Och nu talar vi inte om kompetens hos forskarna, utan om hela systemets, inklusive beslutsfattarnas, förmåga att styra digital kunskapsutveckling.

EU har beskrivit samordningen med en ofta framställd graf, som jag ritade om
för att förtydliga betydelsen av just "governance", som ofta underskattas,
fast den i själva verket utgör grunden för allt.

torsdag 7 april 2022

Kulturarv, forskning och digitalisering

Henrik Summanen har i sin bok Kulturarvets digitalisering sammanfattat mycket av exakt det jag själv funderat kring digitalisering. Boken innehåller en mycket bra introduktion för inte minst chefs- och policynivå om hur digital information i praktiken fungerar, vad den essentiellt innebär. Vilket inte är att man skannar en massa papper.

En förtjänst är att Summanen också tar med forskarperspektivet och gör en grundlig genomgång av de trendiga med, ack så tröttsamma, FAIR-principerna. Det handlar om lite samma sak som vi i Finland nu försöker driva på, nämligen att det är inte så att vi har forskningsdata någonstans som en skild klar enhet och sedan finns alla andra offentliga data någon annanstans under helt andra premisser. Eller det borde inte vara så. Alla data är data och alla data är potentiella forskningsdata. Alla myndighetsdata borde fylla samma kvalitetskriterier som forskningsdata. Man måste kunna bedöma dess kvalitet och hänvisa entydigt till dess proveniens. Och eftersom det faktiskt handlar om digitalisering av samhället betyder proveniens inte bara en enkel "källa", utan en noggrann redogörelse för datas hela livscykel och hur den behandlats och hanterats i olika skeden.

Läsningen av Summanens bok var faktiskt för mig en välkommen påminnelse om vad allt egentligen handlar om, även på forskningssidan. Det handlar om just digitalisering av hela forskningsprocessen. Vi får inte låta oss luras av politiska och kommersiella intressen som fokuserar enögt på att mäta och utvärdera forskningens resultat eller påverkan, så som den dessutom uppfattas med dagen föråldrade mätare. Det finns en allvarlig risk att utveckligen förs i en ohållbar riktning, att man gör stora felinvesteringar om man endast lyssnar till små, aktiva klickar. Då det gäller att möjliggöra snabb teknologisk utveckling, måste man vara mycket, mycket noggrann att man inte blockar utveckling och mångfald. Vi kan omöjligt ännu veta vad forskarna själva kommer att hitta på och behöva om några år. De vet de knappast själva.

Det är viktigt att man håller utvecklingen divers och öppen och inte reglerar eller tvingar för mycket. Det gäller att satsa på rätt element som faktiskt underlättar till exempel dataintegration och länkning som skapar genuin semantisk interoperabilitet. Att ha fel mätare kan vara ödesdigert. Till exempel att mäta antal beständiga identifierare och belöna massproduktion kan leda till en situation då vi antingen har fullständigt ohållbara kostnader eller PID-system som förlorat sin idé eftersom ingen har råd att underhålla dem.

I stället bör vi fokusera på forskarnas hela arbetsprocesser, hur dessa kan dokumenteras så automatiskt som möjligt. Man talar och FAIR by design eller born FAIR data. Här har vi också en skillnad mellan forskningen och kulturarvet. Det senare kan regleras rätt långt utan att kärnverksamheten lider, medan forskningen har stora problem med datahanteringen, inklusive hantering av rättigheter och det är mycket svårt att åtgärda. Det är också inbyggt i forskningen att den går i bräschen, skapar nytt och är oberoende. Om vi reglerar datahanteringen för strikt kan vi omöjliggöra innovation, nya infallsvinklar och metoder.

Lösningen är ändå, enligt min bedömning, den samma inom båda sektorerna. För det första måste vi jobba med kvalitet (data, metadata samt forskningsprocessens dokumentation som helhet), för det andra måste vi fokusera på de enskilda forskarnas behov. Vi måste fördjupa vår användarförståelse ytterligare och arbeta med dem och stöda dem i hela forskningsprocessen utan att stirra för mycket på standarder mm. Det innebär att allt mera ta bruk service design som metod vid planeringen av datatjänster.

fredag 23 april 2021

Ständigt dessa identifierare

I dag avslutades Research Data Alliance halvårliga möte RDA17, denna gång igen helt virtuellt. Denna gång hade jag gett mig sjutton på att både få med kolleger och också själv delta. Så det kom synnerligen lämpligt att jag blev ombedd att delta i diskussionerna kring PID-strategier i olika länder. Jag hann också delta i ett antal andra sessioner, och vi gjorde rätt omfattande anteckningar som jag tror vi ännu kommer att ta till grundligare diskussion. På det hela taget kan man konstatera att RDA fortfarande är en livlig och extremt nyttig sillsallad av initiativ gällande forskningsdata. Viktiga saker är på gång till exempel vad gäller semantisk interoperabilitet samtidigt som jag fortfarande tycker mig ana att det finns subkulturer och nätverk som borde kommunicera ännu mera med varandra. Men till det erbjuder just dessa möten åtminstone möjlighet. Själv kollade jag förstås in dynamiska data. Ett annat hett tema just är reproducerbarhet som givetvis har en nära relation till det föregående.

Pid landscape in finland from Jessica Parland-von Essen

söndag 7 mars 2021

Humanister och data än en gång

Förra veckan ordnades ett för mig speciellt roligt och intressant evenemang, då proffs från arkiv, bibliotek och museer sammanstrålade med sakkunniga inom forskningsdata. Min arbetsgivare CSC arbetar ju med forskare och digitala forskningsinfrastrukturer inom alla domäner och producerar för undervisnings- och kulturministeriets räkning bland annat Fairdata-tjänsterna, som ger forskare möjlighet har utan kostnad publicera sina forskningsdata på ett tryggt sätt.

Som jag skrivit tidigare har humanister särskilda behov och utmaningar, men på många sätt är de ändå mycket mera liknande än man kunde tro med andra discipliner. Inom naturvetenskaper har man inte nödvändigtvis mindre komplicerad ontologi eller terminologi, och många gånger tampas man med liknande problem. En sak som ändå borde vara förhållandevis enkel att fixa inom humaniora är att dokumentera proveniens och säkra dokumentationen av de digitala metoderna. Att arkivera och dokumentera kod är inte oöverkomligt. Det finns lösningar för att hantera databaser och dynamiska data och beständiga identifierare. Det borde gå att göra interoperabel data och länka material och digitala objekt mellan organisationer. Det handlar bara om att implementera FAIR-principerna ens på basnivå.

Att dessa frågor inte är relevanta endast för humanister, utan för hela samhället, hänger ihop med de nya möjligheter som maskininlärning och artificiell intelligens erbjuder. Allt som har med språk och samhälle att göra har att göra med människor. För att vi ska kunna jobba bra med dessa nya verktyg i vårt samhälle behöver vi på riktigt bra data och datahantering av just den typ av data som människor åstadkommer. Vi behöver förstå den ordentligt. Därför är humanisternas data så viktig och kvaliteten av så stor betydelse. Så Nationalbibliotekets initiativ är välkommet och diskussionen och samarbetet fortsätter.

Fairdata-palvelut ja tutkimusaineistojen pitkäaikaissäilytys from Jessica Parland-von Essen

söndag 18 oktober 2020

Siffror med betydelse

Det finns sifferkombinationer som bär på betydelse. Och då avser jag inte numerologi, utan siffror som kan igenkännas som bärande en specifik innebörd i en viss kontext. Ibland är kontexten snävare, ibland kan den täcka en hel kultur. Ibland är det lättare att utläsa betydelse i sifferserier, ibland svårare. Får du ett hotellrum med nummer 516, styr du antagligen stegen mot hissen och trycker på femte våningen. Om du får framför dig en sifferserie tolv siffror som börjar med 0400 tar du fram telefonen. Ett socialskyddsnummer känner du också sannolikt igen, liksom ett datum.

Detta handlar om siffror som har en specifik kulturellt definierad betydelse i sin kontext; de bär på information som människor kan läsa. De har också använts för att strukturera information. Åtminstone tidigare hade till exempel busslinjerna i huvudstadsregionen nummer som tydligt indikerade längs vilken huvudled de lämnade centrum och hur långt de gick. De mekaniska telefoncentralerna avslöjade vart man ringde rent geografiskt. Det kunde kallas att siffrorna innehöll semantisk information.

Buss 270 på Morbyvägen i Esbo, 1978.
Bild: Jan Backström, Esbo stadsmuseums samlingar.
CC-BY-ND 4.0

Digitaliseringen har utmanat detta. Om vi tar telefonnumren som ett exempel: numera avslöjar inte telefonnumret i Finland längre vilken operatör som används. Det har stora fördelar förstås, för den som äger numret: man behöver inte byta nummer när man byter operatör. 040, 0400 och 050 är nu om inte helt renonsa på information, endast bärare av historisk information. De berättar om proveniens, var numret skapats. De kan också kallas prefix eller namnrymder: tack vare dessa kan vi försäkra oss om att varje telefonnummer är unikt, eftersom det finns en registrator som övervakar respektive namnrymd.

Med hjälp av digitala register kan man ändå rätt enkelt frikoppla dylika unika identifierare från all semantisk betydelse. Till exempel inom biblioteksvärlden eller många andra system ordnade man förut saker och ting enligt olika klassificeringssystem för att senare kunna lokalisera dem och organisera dem. Till exempel enligt proveniens, alfabetet eller något annat för kontexten logiskt system, som kunde kompletteras med olika index och register. Numera ordnas saker i stället enligt accessionsordning till exempel på det franska nationalbiblioteket. Huller om buller, skulle en traditionalist som jag säga. Tack vare datasystemen kan man ändå mycket enkelt lokalisera det man behöver. Ofta tilldelas digitala objekt eller representationer något som kallas UUID, eftersom de är "i praktiken" unika koder och ligger som grund för en hel del identifierande inom många datorsystem.

UUID är slumpmässiga hexadecimala sifferserier, ofta i formatet (8 siffror)-(4 siffror)-(4 siffror)-(4 siffror)-(12 siffror). Att de är hexadecimala betyder att de använder ett siffersystem baserat på 16 (man fortsätter alltså räkna från 9 med a, b, c, d, e och f). Det finns olika varianter av UUID, men i princip är poängen att man inte behöver ha något system för att kontrollera att de är unika, vilket givetvis har sina fördelar. Framför allt ekonomiskt sett, men även socialt.

Att avsäga sig all semantik i sifferserier har en del konsekvenser. Problemet med semantik är, att den obönhörligt föråldras förr eller senare. Den är avhängig av sin kontext och dessa är aldrig eviga. Liksom exemplet med telefonnummer visar, kan de ändå bära på proveniensinformation, som visserligen kan vara mycket relevant. Inte minst då vi talar om loggar, arkiv och andra funktioner där det kan vara viktigt att veta när och i vilket sammanhang en identifierare skapats. Accessionsnummer eller arkivsignum hanteras inom kontrollerade informationssystem och ger information som inte förändras, eftersom de innehåller historiska fakta.

Då systemplanerare ofta gärna utnyttjar de fördelar slumpmässiga och fristående sifferserier har, då de är unika oberoende av kontext, ser jag mig som humanist, semiotiker och historiker ofta som en besvärlig försvarare av människan som användare och av information som egenvärde. Även om kontexter, språk och kultur förändras, förändras teknologierna ofta minst lika snabbt. Jag tycker det är att undervärdera människors omdömesförmåga, att tro att de inte skulle kunna tolka historiska avlagringar (som kan vara relevant information!) i olika sifferserier eller identifierare. Tvärtom kan det vara viktigt för transparens och tolkning av information att inte alla betydelsefulla koder ersätts av randomiserade, stumma sifferserier.

Låt oss alltså försvara semantikens plats också inom informationsteknologin och åtminstone göra väl avvägda beslut om hur vi namnger saker och ting. Att vårda semantiken innebär förstås mera arbete, men vi behöver väl inte alltid gå där ribban är lägst. Också siffror kan vara talande namn på saker och ting, information för oss människor bortom tekniska informationssystem.

Ett område där man lagt till semantik under senare år
är adresser. Numera innehåller siffran information om avståndet
från vägens början, vilket kan vara nog så nyttigt.

lördag 21 september 2019

Open Science Fair i Porto

Mina flyg gick till och från Lissabon, så jag tog tåg till Porto.
Det var enkelt och intressant.

Denna vecka besökte jag Portugal första gången i mitt liv. En angenäm upplevelse, måste jag säga. Det var många workshoppar och sessioner och många intressanta samtal. Professionellt kan jag säga att särskilt Paola Masuzzos presentation keynote var inspirerande, medan sessionen om forskningsevaulering knäckande klar kring hur sega strukturer och korkade system vi har att kämpa emot. Rekommenderar att man kollar presentationerna om man är intresserad. Men det är beklämmande hur överens man är om att all världens index är värdelösa, men ingen vågar frångå missbruket. Kanske Dora ändå kan ha en effekt över tid, men forskarna har mycket på spel och förtroende är inte lätt att bygga upp för nya metoder av utvärdering.

Också mitt nuvarande projekt hade en session och deltog i att arrangera en om beständiga identifierare (PID). Vad som behövs är mera arbete med semantisk interoperabilitet, det stod klart. Och vettig och utbredd användning av identifierare.

lördag 25 maj 2019

På resande fot

Uleåborgs universitet är en dynamisk miljö.

De senaste veckorna har jag rest en hel del runt om i landet. Förutom Tammerfors har jag också besökt Åbo, Vasa och Uleåborg. Och det roliga är, att jag lyckats göra alla resor med tåg. Tyvärr får jag ge upp det, när jag om ett par veckor ska till Kuusamo, då bara gick det inte att fixa på vettigt sätt att resa utan flyg. Jag tycker egentligen inte särskilt mycket om att resa, särskilt inte långt, så det har aldrig varit särskilt svårt för mig att skippa långa flygresor till Asien eller USA. Att resa här hemma med tåg är ändå rätt vilsamt. Jag både jobbar och vilar effektivt. Gärna övernattar jag också, eftersom jag inte gillar stressen man har då man ger sig av samma morgon i ottan.

Jag har både undervisat forskare och diskuterat med experter på olika högskolor. Jag måste säga att i synnerhet vid Uleåborgs universitet är arbetet på väldigt god köl. Också flera forskningsinstitut är riktigt i farten nu gällande sina datatjänster. Det har varit uppmuntrande, för ibland känns det svårt att förmedla vikten av att satsa på informationsförvaltning och datahantering i forskning.

Det känns ansvarslöst att man ibland satsar stort på forskningen, men sedan riskerar att de källmaterial man samlat, producerat och preparerat med enorma ansträngningar och som ofta har bestående värde både som evidens och kanske för senare forskning, lämnas vind för våg. Det borde inte finnas en enda forskningsfinansiär eller ansvarig person inom en organisation där det bedrivs forskning, som kan låta sådant ske. Trots att det ibland kan vara riktigt utmanande. Framför allt krävs samarbete. Också forskarna själva måste inse vikten av att sköta datahanteringen som en integrerad del av forskningsprocessen. Det är inget man kan överlämna åt någon utomstående.

I Seinäjoki var det tågbyte och jag hann sitta och jobba
en stund i Alvar Aaltos charmiga lilla bibliotek.
Aalto som bäst.

onsdag 15 maj 2019

Järnvägar, infrastruktur!

Ett drygt dygn i Tammerfors ägnades åt samarbete kring öppen forskning. Nästan 200 personer hade samlat för att höra vad man sysslat med i de olika arbetsgrupperna sedan hösten. Min arbetsgrupp har kommit ganska långt med att skriva rekommendationer för beständiga identifierare för forskningsdata. Vi bestämde nu att vi bearbetar förslaget ännu en gång och skickar det sedan ut för kommentarer under september. Då kan vi få dem klara till höstens stormöte.

Andra grupper har arbetat t ex med rättighetsfrågor och rekommendationer för känsliga data. Vi diskuterade också det fortsatta arbetet. Mycket utmaningar fanns enligt många just gällande tjänster för forskningsdata. Att hitta, beskriva, välja både data och tjänster är inte det enklaste. Arbetet kommer därför att fortsätta intensivt.

En intressant paneldiskussion fördes också om utnyttjandet av data från sociala medier och hur denna typ av data kan hanteras lagligt och framför allt etiskt. Det är viktigt att skilja på behandlingsgrunden för personuppgifter (forskning) och hanteringen av medgivande av forskningssubjekt och informanter. Dessa är två olika saker, men de påverkar varandra. Och i slutändan handlar det alltid om etiska avvägnningar som forskaren själv är tvungen att ta: forskningen kan etiskt sett vara så viktig så att det är fullt rimligt att hantera personuppgifter utan att de berörda personerna tillfrågats personligen, bara man ser till att ingen harm tillkommer dem vars uppgifter man behandlar. Det handlar helt kort om att man måste hantera dem noga och väl överlagt. Inom EU-lagstiftningen talar man om proportionalitet. Man måste helt enkelt alltid göra etiska avvägningar när man gör forskning och kan inte stirra sig blind på någon enskild paragraf. Det finns många viktiga grundrättigheter som man måste betrakta tillsammans om de hotar att råka i konflikt med varandra.

Då man arbetar med data är en viktig förutsättning att man har lämpliga verktyg (infrastruktur) och att man har tillräcklig kompetens. Här kan forskarna inte lämnas ensamma. Jag hoppas innerligt, att den nya regeringen förutom att satsa på forskare också inkluderar det stöd och den infrastruktur som behövs för att göra effektiv och bra forskning. Vi behöver bland annat massor av experter.

tisdag 7 maj 2019

Bra data ger bra tjänster

Foto: Juha Kallamäki, Public Domain, Wikimedia.

Det var ovanligt fantastiska omständigheter då vårt nationella nätverk för arbete med beständiga identifierare samlades till träff efter en paus på ett år. Vi var nämligen inbjudna till Botaniska museet, vars huvudbyggnad inte är öppet för allmänheten, utan fungerar som en viktig arbetsplats för forskare i Botaniska trädgården i Kajsaniemiparken. Huset, som är som ett litet slott, är ritat Gustaf Nyström, samma på sin tid viktiga arkitekt som ritat både Ständerhuset och Riksarkivet. Det roliga med detta hus, som till och med var tilltänkt palats för Väinö I i något skede. är att den nyströmska utsidan döljer ett fint jugend innandöme. Som inte prålar, utan nästan har en hemlighetsfull stämning av Hogwarts ...

Museet har digitalt häpnadsväckande fina samlingar som länkad data. Och på dem har man kunnat bygga flera olika tjänster. Det visar sig, förstås, att bra data och struktur är mycket, mycket effektivt i slutändan.

Dessutom hörde vi många intressanta presentationer om olika aspekter på identifierare, allt från informationsarkitektur till lagstiftning. Presentationerna finns på webben.

lördag 2 mars 2019

Digihumanistens flöde

Digihumanister lider av glappet mellan den digitala arbetsprocessen och de analoga källorna. Resultatet är förlorade material och förlorad tid.* En stor del av forskningen på området handlar ändå fortfarande mer om informationssökning än om personlig informationshantering eller arbetsprocesserna. Informationsvetarna fokuserar inte sällan på att legitimera och förbättra existerande tjänster. Söka och hitta information är i fokus. År 1994 ställdes hypotesen att ju mindre kontroll forskaren har över källorna, desto svårare är det att använda informationsteknologi.** Då hade inte ens alla forskare dator eller e-post. I dag sysslar humanisten ofta i praktiken med digitalisering. Men verktygen för att stöda arbetsflödena verkar saknas. Det beror kanske också på att de är själva kärnan i det kunskapsbygge forskaren sysslar med och därför djupt personliga. De ser väldigt olika ut beroende på forskarens personlighet och vanor, forskningsfrågan, omständigheterna, källorna och tillgången på olika hjälpmedel.

En forskare gör anteckningar, fotar och OCR:ar dem, en annan fotar alla potentiella källor medan en tredje går igenom allt minutiöst från början. Vanligen samlar man material i stor omfattning, ofta i jpeg- och textformat. Om materialet är sökbart (i synnerhet gällande innehållet) kan det gynna arbetet många år framöver. Vad jag tänker att borde användas/finnas tillgängligt i verktygsväg är:

möjligheter att tagga filer med sökord från kontrollerade vokabulärer, enskilt eller i mängd
möjligheter att tagga filer med datum, geodata eller personnamn i standardformat
enkla verktyg att döpa om filer enligt något system
verktyg som föreslår ämnesord från kontrollerad vokabulär enligt textinnehåll
ljud-till-text-till-metadataförslag och inmatning

Alla dessa borde vara mycket intuitiva och lättanvända. Jag tänker mig att det för att organisera källmaterial räcker med unika filnamn, mappstruktur och taggar för att uppnå riktigt bra resultat. Är innehållet text, kan taggarna dessutom skippas.

En annan intressant sak verkar vara att uppdelningen mellan primärkällor och sekundärmaterial (litteratur, tidigare forskning) är kristallklar för forskaren när forskningen väl är igång. Denna indelning görs ändå utgående från forskningsfrågan.*** Den är därför relevant mest under forskningsprocessen. Samtidigt har det fortfarande bäring då forskningen avslutas: i dag skiljer man på artiklar och publikationer (dvs skriftliga redogörelser för forskningen och dess resultat) och på de data som produceras och som i värsta fall helt förbises, trots att de ofta krävt mycket stora resurser att producera. Trots att humanistens hela kunskapsbygge är intimt sammanvävt med hur man samlar och behandlar de stora mängderna av källmaterial, lämnas denna del av metoden i regel utan större uppmärksamhet.

Det är synd, både med tanke på transparens och fortsatt forskning. Det skulle vara fantastiskt om vi kunde se hela processen som intressant och relevant. I dag arbetar man, vet jag av egen erfarenhet, ofta med en känsla av otillräcklighet vad gäller informationshanteringen. Det gör att man kanske inte heller gärna öppnar upp arbetet hela vägen för kritiska blickar.

Om de som erbjuder tjänster och verktyg för forskare bättre kunde komma forskarna till mötes under hela forskningsprocessen, kunde vi bidra till effektivare informationshantering. Samtidigt behövs absolut utrymmet för forskaren att använda dem fritt och kreativt.

De senaste åren har resurserna för att göra dylikt arbete inom forskningssektorn varit mycket hårt ansträngda. Då nedskärningarna drabbade, ville man skona kärnverksamheterna. Jag hoppas innerligt att man, efter nästa val som jag verkligen tror och hoppas ger ökade resurser, också satsar riktigt ordentligt på tjänster för forskarna, så att de kan arbeta effektivare och ägna sig åt viktigare saker än att stressa över tusentals oordnade foton eller försvunna filer och istället stolta kan dela med sig av hela sitt kunnande och arbete. Det finns mycket man kunde göra för humanisterna också utanför informationsförvaltning. Vi borde inte ha råd att slösa med resurser.

* Smiljana Antonijevic & Ellysa Stern Cahoy. "Researcher as Bricoleur: Contextualizing humanists’ digital workflows." Digital Humanities Quarterly. 2018 Vol. 12:3.
** Stephen E. Wiberley Jr. & William G. Jones: "Humanists revisited: a longitudinal look at the adoption of information technology." College & Research Libraries 1994.
***Parland-von Essen, J., Fält, K., Maalick, Z., Alonen, M., & Gonzalez, E. . Supporting FAIR data: categorization of research data as a tool in data management. Informaatiotutkimus 2018, 37:4.

fredag 2 november 2018

Röda, gröna och blå data

Bilden här ovanför har jag vänt och vridit på av och till i ett antal månader och idag fick jag äntligen presentera den offentligt på Informaatiotutkimuksen päivät i Åbo. Tillsammans med ett antal kolleger har vi grubblat över hur vi ska få ordning på olika typer av forskningsdata och tjänster de hänger ihop med. Just nu råder nämligen något av en djungel där man del försöker bygga system för data som snabbt ackulmueras i stora mängder i samma andetag som man vill se till att forskare kan få merit och forskningen bli möjlig att validera genom publicering av små disparata och mycket varierande dataset som ligger som grund för enskilda undersökningar. Det vill inte riktigt lyckas helt enkelt.

Vi kom till att det finns massor av metadataformat och begreppsmodeller och dylikt, men det saknas en gemensam, allmän kategorisering som är överskådlig och stöder hantering av data i praktiken. Så vi gick igenom möjliga sätt att kategorisera data. De olika aspekterna går grovt taget ut på att dela upp data enligt i tekniska, kontextuella och inneboende dimensioner. De två första har vi system för att uttrycka maskinläsbart eller ens delvis strukturerat, men bland de sista finns i synnerhet en dimension som påverkar användningen mycket och som inte är standardiserad i generiska system och tjänster. Det handlar just om datas stabilitet. Det finns aktiva data, generiska forskningsdata och specifika datapublikationer.

Jag tror fast på att en dylik tredelning hjälper oss vidare då det gäller att utveckla tjänster och system för dokumentation, citat, beständiga identifierare och planering av datahantering. Så jag hoppas jag kan kavla upp ärmarna mycket snart.

Hela resonemanget presenteras i Informaatiotutkimus decembernummer.

lördag 22 september 2018

Information ska förvaltas, inte hanteras

U.S. Air Force photo/Senior Airman Mildred Guevara.

Vi har en enormt viktig ny lag ute för utlåtanden. Det är en lag, som ska ersätta den gällande arkivlagen och lagen om styrning av informationsförvaltningen. Lagen är ett svar på de utmaningar man haft att få ordning på all information, kommunikation och arkiv nu då dessa blivit allt mer digitala. Tidigare försök att samordna statsförvaltningens och den offentliga sektorns it genom samarbete och olika rekommendationer har inte haft det genomslag de borde. Också Riksarkivet har haft motgångar.

Det står helt klart att vi behöver nytänk och nya lösningar. Min personliga övertygelse är att det behövs mycket stora satsningar. Det nya lagförslaget är framtaget av finansministeriet, som bär huvudansvaret för informationsförvaltningen och där också mycket fina steg tagits i rätt riktning till exempel med de nya tjänsterna för att skapa semantisk interoperabilitet. Men tyvärr saknas enligt min tolkning de tillräckliga resurserna, insatserna och strukturerna för styrning helt i det nya lagförslaget.

Det är i grunden genom just denna lag man kunde ha möjlighet att faktiskt digitalisera hela förvaltningen. Men det är inget man gör utan en omfattande och målmedveten förändring av verksamhetskulturen inom hela sektorn. Samtidigt verkar man fortfarande tycka att informationspolitik mest har att göra med artificiell intelligens. Det är nästan beklämmande. Vad jag verkligen saknar är en djupare förståelse för betydelsen av olika typer av data och information, frågor om beständighet, trovärdighet, proveniens och livscykelhantering. Därmed inte sagt att inte etik är viktigt.

Lagen är inte lätt att förstå, jag har läst och läst om. Man måste dessutom känna till hur saker och ting har fungerat (mer eller mindre) hittills. Att både historiker och sakkunniga inom informationsförvaltning uttrycker mycket stor oro för hur det ska gå med trovärdig och tillräcklig dokumentation av vår tid och myndigheternas verksamhet är inte något man ska ta för lätt på. Litar vi på att Migri vill spara sina material från de senaste åren? Kommer sanningen att vara bortstädad för eftervärlden? Hur är det med alla register, databaser och digitala tjänster vi erbjuds av myndigheterna idag och imorgon? Jag tänker det är bra att skynda lite långsamt här. Vi står inför mycket stora utmaningar med alla digitala material och ny lagstiftning är absolut påkallad. Det är bra att det finns vilja och förståelse för att vi behöver förändring. Men om det nya systemet innebär att man tar bort nästan alla existerande strukturer och resurser för styrning och skapar ett system som på sin höjd cementerar existerande system inom de viktigaste enheterna är utsikterna att man ska kunna erbjuda smidiga och pålitliga tjänster till medborgarna i framtiden inte särdeles lysande. Farväl också till försökskultur och agil utveckling.

Det här är svårt. Till och med vansinnigt svårt. Min övertygelse är ändå att man borde stifta noggrannare om större resurser och bättre koordination. Interoperabilitet kräver väldigt mycket arbete och samordning. Inte bara av it-system, utan av verksamheter och människor. Det är långsamma, ibland smärtsamma processer, som kostar både tid och pengar. Och dessutom har vi hela problemet med den dynamiska karaktären av de digitala materialen. Rent begreppsligt måste lagen gå längre här. Låt oss ta detta lagutkast som en utgångspunkt för en mer djupgående analys och diskussion kring vad som borde göras.

lördag 2 juni 2018

Seminarievecka

Den gångna veckan hade verkligen samlat på sig seminarier av olika slag. Jag hann knappt med något rutin- eller utvecklingsarbete, men hade desto mer givande diskussioner på olika håll.

Unifi

På måndagen ägde ett för den finska forskningssektorn viktigt seminarium rum, då universitetsrektorerna och UNIFI publicerade sitt handlingsprogram för öppen forskning. Tyvärr hann jag inte närvara, men gläder mig åt den viktiga roll som tilldelas CSC och också att den syn på forskningsdatahantering vi presenterat kan återfinnas i programmet. På sätt och vis är det en ny domän som växer fram här och det är fint både att CSC axlar ett nationellt ansvar och att det förväntas av oss. Jag uppfattar att vi har mycket kunnande och internationella kontakter att bidra med.

ORCID i Finland

På tisdagen var det dags för ORCID Nordics 2018. Bara namnet på seminariet var så bra att det borde få pris. Där hade jag nöjet att kommentera keynoten om Freya, ett mycket intressant och viktigt projekt kring att länka data om forskning (forskare, dataset, forskningsprojekt, publikationer, finansieringinformation osv.). Jag kunde ju förstås inte hålla mig från att läsa lite ur Eddan för publiken.

På onsdagen hade vi nöjet att hålla det första större infotillfället om de förnyade tjänsterna som Undervisnings- och kulturministeriet har beställt för forskningsdatahantering. Själv är jag ju ansvarig för forskningsdatakatalogen och dess sökgränssnitt (en mycket opålitlig testversion finns redan). Jag är själv mycket ivrig på att få gå i produktion, trots att vi nog ännu har en del utmaningar på grund av att det vi gör är en helt ny och mycket komplex helhet. Men vi är på mycket god väg och det kommer att bli väldigt bra, tror jag.

YTI-projektet

På torsdagen var det äntligen dags för att fundera på hur man borde gå vidare gällande beständiga identifierare på nationell nivå. Vi gjorde ju i höstas en utredning om saken och nu satte vi oss ner på finansministeriet och diskuterade saken. Dels handlar det om att åstadkomma en integrering av identifierarna och policy kring dem som en del av den allmänna offentliga informationsförvaltningen, dels om att positionera sig i förhållande till internationella aktörer och organ. Diskussionen var mycket bra. Detta är ju en helt essentiell del av hela förvaltningens digitalisering. Både effektivitet och medborgarnas rättssäkerhet kräver att vi har ordning, att all information kan identifieras och spåras entydigt.

DHH18

På fredagen fick vi ta del av årets digihum-höjdpunkt Digital Humanities Hackathon (ja, även om konferenser etc är fina och intressanta går nog inget upp mot detta otroligt spännande koncept där ny kunskap och insikter föds så det bara gnistrar om det både på individuell och vetenskaplig nivå). Samtliga arbeten var intressanta och innebar alldeles riktiga resultat inom både teknologi och, vad som är viktigt, också inom själva forskningsdomänerna. Kanske allra roligast att se var Tuomas Heikkiläs entusiasm över de omvälvande resultaten i arbetet med legenden om mordet på biskop Henrik (bara projektets tweets var ju fina, men bloggar och artiklar är på kommande). Helt otroligt var också arbetet med förläggarna i London. Man hade ju banne mig gjort både extensiv forskning och direkt prisvärd visualisering på de åtta dagarna hacket varade. Jag hoppas verkligen teamet lägger ut sina resultat på webben! Alla grupper hade gjort ett bra arbete. Många allmänt intressanta frågor lyftes fram under slutdiskussionerna. Jag hade också många bra meningsutbyten med forskarna kring forskningsdata och infrastrukturer. Full av idéer och samtidigt uppmuntrad om att vi varit på rätt väg inom CSC kan jag nu fortsätta att försöka bena ut dessa frågor under sommaren.

fredag 18 maj 2018

Hänvisningar i Tammerfors

Denna soliga fredag tillbringade jag i Hervanta på seminarium om att hänvisa till forskningsdata. Programmet var, inte oväntat, mycket bra. Jag insåg också igen hur mycket jag har att berätta, hur spännande saker vi håller på med då vi förnyar Undervisnings- och kulturministeriets tjänster för öppen forskning. I sommar tar vi i bruk inte bara nya gränssnitt för söktjänsten Etsin och datalagringstjänsten IDA utan också en sofistikerad underliggande struktur med länkad data och långsiktigt bevarande för forskningsdata. Själv är jag involverad som ansvarig för den nya söktjänsten och för metadataresursen som fungerar som ett klister mellan alla de olika delarna av det som kommer att gå under den gemensamma etiketten Fairdata.

För att kunna hänvisa till de data som ligger som grund för forskning behövs information om datasetet och en beständig identifierare. Det kräver lite jobb och besvär. Men snart kommer man nog inte att ta forskning som inte kan visa sin data på allvar längre. Därför är det lite oroande att jag haft återkommande svårigheter att ens få se data vid peer review av artiklar. Både forskare och tidskrifter behöver lära sig det självklara med att hänvisa till källor ordentligt, trots att de är digitala. Alla förlorar ju på om man slarvar här, inte minst forskarna själva.

Creative Commons License
This work (part) by Heidi Laine is licensed under
a Creative Commons Attribution 4.0 International License.

Det var väldigt nyttig och intressant att få träffa och tala med det trettiotal sakkunniga från olika högskolor och universitet. Det framkom igen många viktiga saker. Vilket ju inte längre är en överraskning. Till väldigt stora delar handlar det om kommunikation. Som någon av de närvarande informatikerna sade: det hade tagit den två timmar att diskutera med en forskningsgrupp innan man ens var överens om vad man diskuterade. Så där är det. Tala, lyssna, tala, lyssna, tala och lite skriva. Och så måste man ofta rita en aning också.

Efter att ha flyttat hela förra veckoslutet börjar jag vara mogen för lite vila nu. Slutspurten med implementeringen av de nya tjänsterna fortsätter genast på måndagen. Men jag skattar mig lycklig, som får jobba med ett gäng som får mig att känna att jag är mugglare.

torsdag 26 april 2018

Materialisering av högre graden

Forststuderande lär tillbringa sin första sommar
i Hyytiälä som initiationsrit sedan typ ett sekel.

Jag hade ju egentligen inte insett att det faktiskt var precis här man för några år sedan gjorde upptäckten hur träden spelar en intrikat roll i hur regn blir till. Jag hade ju hört att det var ett hett forskningsämne, hur rena gaser i luften ett tu två förvandlas till större molekyler, som sedan blir små nanopartiklar som vattenmolekyler fäster sig vid då de kondenseras. Som materia i tomma luften. Men jag hade inte ens plussat ett plus ett, att det hade något med våra berömda samarbetsparter på uni att göra. Eller att det var precis här, på ort och ställe i Hyytiälä, jag skulle få höra forskarna själva visa sina mojänger och berätta hur allt går till. Jag kom ju bara hit för att prata lite om forskningsdatahantering.

Det har varit helt otroligt intressant, för på plats finns folk från många forskningsstationer på olika håll av landet. Visste ni att det finns en på Själö? Och det är bara universitetens stationer. Också forskningsinstituten har ju egna stationer där man gör mätningar och utför experiment.

Hela skogen här är full av de mest fantasifulla instrument och mätarragemang. Datamängderna är svindlande, men möjliga att kombinera och jobba vidare med i och med att de samlas in på ett och samma område. Tidsserierna börjar delvis vara ansenliga. Högt bland trädkronorna vajar många innovativa, till synes simpla, men mycket kluriga sensorer. Och en del data kan man titta på nästan i realtid på webben. Så otroligt tufft.

Lite skakigt var det på 18 m.

måndag 26 mars 2018

Megadata

Under de senaste tio dagarna har jag hört både att det är fullständigt omöjligt att forskare själva skulle klara av dokumentera sina data och att det är en usel idé att utbildad personal gör det för deras del. Båda var experter i världsklass. Ibland drabbas jag följaktligen av en viss förtvivlan inför uppdraget att bevara data, att skapa system och lättanvända tjänster som möjliggör att fungerande digitala resurser kan bli till och bevaras för eftervärlden.

Å andra sidan: vi har kommit alldeles otroligt långt på tio år och Finland ligger verkligen inte illa till internationellt sett. Medvetenheten är stor i forskningsorganisationerna och bland finansiärerna. Vår infrastruktur är mycket bra och vi har starka nätverk på alla sätt. Och jag får jobba tillsammans med experter av en helt superb klass för att ta fram lösningar.

Och varje år har jag dessutom nöjet att utbilda en handfull humanister i digitala frågor under en kort men intensiv kurs. Vi diskuterar hur man borde bevara material, vad man borde bevara, hur man kan använda det, hur man idkar källkritik. Det är alltid inspirerande och jag tror och hoppas att de bär med sig, vidare, åtminstone en del medvetenhet om den komplexa problematiken digitaliseringen också hämtar med sig.

Jag tror ju på att allt går att lösa, men det kräver tid och resurser. Och samarbete. Även om varken en forskare eller en databibliotekarie ensam kan skapa perfekt metadata, så kan de göra det tillsammans.

lördag 30 december 2017

Tankens teori och praktik

Läser som bäst med behållning Timo Honkelas bok Rauhankone (Fredsmaskinen). Den är en fin exposé i relationen mellan modeller och "verklighet", mellan teori och erfarenhet. Som Daniel Kahnemann påpekar i sin bok, handlar misslyckade teorier ofta inte om att de inte skulle vara internt koherenta och perfekta, utan om att man inte beaktat saker som finns utanför ens modell, men som påverkar helheten.

I en dator opererar man förstås alltid med modeller. Honkela skriver om det utmanande i att försöka modellera tänkandet, om hur svårt det är eftersom det är så präglat av känslor och erfarenheter och har komplexa språkliga och begreppsliga nivåer. Ändå upplever jag texten som allt annat än svår. Den känns helt oteknisk och väldigt konkret och personlig. Författaren blandar sorglöst sina mycket personliga och ibland smärtsamma och svåra upplevelser med filosofiska reflektioner om rättvisa eller artificiell intelligens. Och i grunden finns en djupt positiv, förtröstansfull övertygelse om att vi kan åstadkomma något världsomvälvande och gott med hjälp av artificiell intelligens.

Jag har själv den gångna veckan igen ägnat mig åt frågor om beständighet i det digitala. Problemet är att det är något av en grundläggande omöjlighet. Eftersom det digitala är ett språk som beskriver världen i en viss tolkning i ett visst ögonblick, är det bara en fråga om hur länge det tar, innan världen sprungit ifrån den modell vi gjort och representationen går sönder. Trasiga länkar på webben är bara ett exempel på detta, och ändå går en mycket stor del av alla länkar sönder på några år. Då har vi inte beaktat att innehållet också kan ha förändrats, så att en del av alla länkar pekar på något helt annat innehåll än vad som varit den ursprungliga avsikten. Förhållandet mellan tecken och innehåll är sällan en så ren och skär överenskommelse, som i digitala sammanhang.

Problemet blir allt mera akut då dessa betydelser blir till handlingar där en människa inte är inblandad, det vill säga t ex i vad man kallar länkar som är funktionella eller "machine actionable". Det betyder maskinella överenskommelser och regler som sprider sig som distribuerade system över hela internet. Något av maskinernas "talhandlingar", som möjliggörs av APIer, gränssnitt mellan system.

Vi kan inte klara oss utan dessa längre, men de behöver mycket mer aktivt förvaltande, omvårdnad och kuratering än vad man kanske inser. Det handlar om att det behövs planering och resurser för informationsförvaltning, att följa upp och sköta om semantik och datas kvalitet. Kanske kan artificiell intelligens hjälpa oss en bit på vägen, men datorernas modeller av vår värld är alltid begränsade, så de behöver ständigt utvärderas och förbättras av oss människor.

söndag 5 november 2017

Gränslösa data

I arbetet med forskningsdata har jag kämpat med en inte obekant utmaning, nämligen definitionen av vad forskningsdata är. I officiella sammanhang brukar man definiera dem som "data som underbygger forskning". Men i vilket skede blir till exempel vanliga öppna data "forskningsdata" och var ska de förvaras och katalogiseras i olika skeden?

Vi har flera olika datakataloger och dessutom kopierar man flitigt metadata till olika aggregerade kataloger. För alla vill förstås ha så omfattande kataloger som möjligt. Jag ser ändå en stor risk i att alla kopierar data och metadata kors och tvärs. Slutresultatet riskerar bli ett totalt virrvarr, där varken forskare vet var de ska publicera sina data och metadata eller söka efter material av olika typ. Ännu värre blir det om man börjar rådda in publikationer utan urskillning. Tyvärr har vi Finland både stora och små katalogtjänster och plattformar som gjort det misstaget. Det har saknats både styrning, strukturer och omdöme.

Vi börjar nu vara i ett läge då det är viktigt att ta i detta och profilera olika typer av både material och tjänster. I ett läge där man ha känslan att kvantitet är viktigare än kvalitet då det gäller finansiering (skuggan av kvantitativa mätare hänger tung över varenda projekt i vår tid), är det viktigt att ha klara uppdrag och avgränsningar, annars riskerar man göra informationsförvaltning och sökbarhet en björntjänst.

Orsaken att det inte funnits klara uppdrag är att det inte funnits entydiga definitioner på olika typer av data. Och det beror ju på att det inte finns några klara gränser och på att hela fältet varit nytt och extremt svårt att greppa. Har åtminstone jag tyckt. Men denna vecka nådde vi, tror jag, ett genombrott då jag med ett par naturvetarkolleger satt och diskuterade problematiken. Vi har nu skissat upp en tredelning. För lösningen var antagligen att det är just en tredelning och inte en tudelning (icke-forskningsdata och forskningsdata). Tanken är bara en idé ännu och vi ska jobba vidare på detta. Men jag vill gärna testa konceptet med att försöka förklara det på ett enkelt sätt. Om det går.

A. Öppna data

Dessa dataprodukter är till format och standarder mogna och stabila. De omfattas t ex av europeiska direktiv och kan vara ISO-standardiserade. Samtidigt kan de vara dynamiska dataset eller öppna gränssnitt. Detta är sådana data som borde finnas i Avoindata.fi eller Paikkatieto-katalogen (av vilka avoindata.fi är den heltäckande som innehåller alla typer, dvs den kan hösta metadata från paikkatietohakemisto). Det kan vara data från olika vädertjänster eller andra instrument. Här hittar företag data att använda då de vill bygga olika tjänster eller myndigheter varandras data. Forskare kan förstås också använda sig av dessa källor, men de är inte framtagna särskilt för forskning.

B. Allmänna forskningsdata

Det här är data som är framtagen av forskare. Det kan vara mycket rå data och den är inte alltid helt stabil, eftersom dessa produkter oftast är under utveckling. Det kan vara olika typer av vetenskapliga mätningar. De är väl dokumenterade så att de går att använda för olika ändamål. De alltså validerade och av bra kvalitet. Det innebär t ex mycket teknisk information och dokumentation av insamling och produktion. Som exempel kan jag nämna SMEAR-data, som man kan studera i AVAA-portalen där det också finns andra liknande exempel. Andra exempel är de flesta korpusar i Språkbanken.

C. Specifika forskningsdata

Dessa dataset har uppstått i samband med en viss specifik forskningsfråga och återanvändbarheten är sällan hög, om det inte är en mycket mogen disciplin inom data och kvantitativa metoder. Data är ofta processade och analyserade data som publiceras i samband med forskningens resultat. Dessa dataset är absolut stabila, för ett av deras viktigaste syften är att fungera som stöd för specifik forskning så att den kan granskas och upprepas. En stor del av Dataarkivets material är sådant material.

Som sagt, detta är en grov indelning och det finns data som befinner sig i gränsmarkerna. Men en dylik kategorisering och tankemodell kunde också hjälpa forskare att gestalta datas livscykel och hur man kan publicera och hänvisa då man arbetar med data. Dessutom skulle denna indelning hjälpa vid förvaltandet av både data och metadata. Vi kunde beskriva våra olika söktjänster dels genom att ange deras disciplinära profil, dels denna profilering. Då kan man också bättre berätta vad sammanställda datakataloger innehåller. Vi borde inte ha för många tjänster som innehåller allt, bara för att alla vill vara så stora som möjligt. Det gynnar ingen.

lördag 28 oktober 2017

Arkivens vara eller inte vara

By ALA TechSource
(Flickr: Material in the New Orleans city archives)
[CC BY-SA 2.0 ] via Wikimedia Commons

I Finland höll man på länge och väl med att förnya arkivlagen och det har man börjat med i Sverige också. Den digitala miljön ställer nya krav. Den finska nya lagen möjliggjorde att man kan göra sig av med moderna pappersarkiv, när det finns digitala varianter att tillgå. Vi måste ändå klara detta med långsiktigt digitalt bevarande och vi drunknar i papper. Men för övrigt har inte riktigt lagstiftningen klarat av transformationen. Vi har fortfarande en lagstiftning som är splittrad i åtminstone nio olika lagar. Ingenstans tar man riktigt ställning till helheten och hur den ska hänga ihop.

Vi har i vårt land emellertid i flera år tillbaka sysslat med ett omfattande arkitektur- och koordinationsarbete. Man har producerat mängder av rekommendationer som tyvärr efterlevs i varierande grad. Processerna är långsamma, men det handlar om stora system med en stor tröghet. Finansministeriet har också ett ytterst viktigt projekt för interoperabiblitet, där man arbetar på en tillräckligt hög semantisk abstraktionsnivå. Nu har man även satt igång ett lagberedningsarbete för att förnya hela lagstiftningen för offentlig informationsförvaltning. I det stora hela känns det ganska hoppfullt, saker går absolut i rätt riktning och det finns förutsättningar till vettiga helhetslösningar gällande informationsförvaltningen. Vi har i själva verket kommit mycket långt i Finland.

Det finns emellertid ett orosmoment och det är att man inte tillräckligt beaktar arkivbildningen och bevarandet av information på grund av den snäva arkivlagen. Även frågorna om hur man hanterar dynamiska material och resurser ur bevarandesynpunkt är en utmaning. Här kunde finnas en hel del att hämta från forskningsdatasidan, där frågor om identifierande, proveniens och möjligheten att återskapa eller ta fram specifik digital information länge har varit centrala frågor. Även om man inte är fullt på det torra (lindrigt sagt) har man ändå redan omfattade erfarenhet av hur man kan hänvisa till exempel till databaser och hur versionshantering kunde se ut.

Med tanke på medborgarnas rättskydd är det verkligen viktigt att man inte förstör information avsiktligt eller oavsiktligt. Myndigheternas verksamhet måste kunna granskas i efterhand. Man kan inte förstöra information av "integritetsskäl". Den bör arkiveras enligt ordentliga arkivbildningsplaner. Här har Riksarkivet en central roll som garant för att information bevaras för eftervärlden. Därför måste dess mandat vara starkt, samtidigt som arkivtänkandet måste kunna förnyas så att man kan styra arkivbildningen på ett vettigt sätt för dynamiska resurser. Allt kan inte bevaras.

måndag 20 mars 2017

Interoperabilitet

Dagens Vieraskynä handlade om en rätt viktig sak: att interoperabilitet är en förutsättning för att digitalisering ska leda till någon effektivering för förvaltningen eller kunden. Att skribenten, Janne Viskari, är färsk chef för Befolkningsregistercentralen är glädjande, eftersom den uppdaterade Suomi.fi-tjänstens nya utvidgade version just nu växer fram hos myndigheten, har en nyckelroll vid förverkligandet av samordningen av digitala tjänster, som är ett av regeringens viktiga mål. Man har lovat att medborgare inte ska behöva lämna samma uppgifter åt myndigheter mer en en gång. Och det, ska jag säga er, är ingen lätt sak.

Det kräver inte bara att man drar en massa kablar mellan olika datorer och bygger några snygga portaler - och vips är allting integrerat. Lådor med pilar kors och tvärs vimlar det av i powerpoint-presentationerna. Men det behövs mycket, mycket arbete med att analysera informationen i de olika systemen för att få dem att matcha ens behjälpligt. Och det lönar sig inte att ad hoc bygga nya nytt gränssnitt på traditionellt vis varje gång man kommer på att man behöver flytta information från system A till system B. För då har vi snart ett sådant trassel och datakaos, att inget fungerar.

Det som behövs är grundliga, systematiska semantiska analyser av all information på en hög abstraktionsnivå. Det blir mycket definierande av begrepp och beskrivande av informationsresurser. Filosoferande och tandagnisslan. Men när det sedan är gjort finns det förutsättningar att få informationen att löpa och skapa tjänster som faktiskt är smidiga och underlättar saker. Men det är verkligen viktigt att det inte fuskas nu, utan att arbetet görs ordentligt. Samtidigt finns här otrolig potential, massor av resurser som kan frigöras genom bättre system och integration.

Informationssystem skapar alltid begränsningar. Är de inte planerade för öppenhet och interoperabilitet (vilket t ex kommersiella system av naturliga skäl inte så ofta är) sitter man väldigt lätt fast med den verksamhetslogik man råkade ha då systemet sattes upp. Att beräkna vad det kostar att bygga nya system eller bygga om gamla är väldigt svårt. Ofta glömmer man, misstänker jag, helt bort att ens beakta sådana kostnader när man gör stora omorganiseringar.

Det lönar sig därför att arbeta med små steg, målmedvetet och omsorgsfullt. Och det som är viktigt, och impopulärt kanske, är det faktum att ska man göra bra, ska det göras med mycket långsiktig planering. I själva verket blir system aldrig "färdiga", de ska underhållas och de kan och ska kunna utvecklas kontinuerligt. För i takt med att världen ändras, förändras också behoven och kraven ständigt.