Stikkordarkiv: Informasjon

Noe med data

Ifølge termodynamikkens 2. hovedsetning så er det vanskeligere å lage ei ku av en hamburger enn omvendt. (Nicholad Georgescu-Roegen har sagt noe lignende)

Det har hendt, når noen spurte meg om hva jeg jobbet med, at jeg for spøk svarte «noe med data». Nå etter en mannsalder i biblioteket så skulle jeg vel heller si «noe med informasjon» – eller kanskje «noe med kunnskap». Men hvis noen ber meg om å forklare forskjellen mellom data og informasjon, er jeg ikke sikker på at jeg klarer det noe særlig.

pyraJeg kan jo prøve, med utgangspunkt i denne trekanten som vel de fleste har sett, å si at Informasjon er kodet i form av data, og kan brukes for å gi kunnskap – eller noe sånt. Og så har jeg hatt følelsen av at innen biblioteket så arbeider vi mest i midtsjiktet, dvs med informasjon. Det som er «varen» hos oss er bøker, artikler, rapporter, bilder, manuskripter, lyd, levende bilder, noter, kart &c &c. Vi er vant til å kalle alt dette for dokumenter (sjøl om vi for ca 15 år siden prøvde vi oss fram med mer moderne termer som dokumentlignende objekter (grøss) og informasjonsobjekter).

Etter hvert så har vi også blitt vant til at en stadig større del av dokumentene våre manifesterer seg som nettsider, i den forstand at de kan aksesseres vha en nettleser. Men vi betrakter gjerne alt sammen som informasjonsobjekter, og ser for oss at disse objektene er bearbeidet av noen, og så overlates det til oss å formidle dem til våre brukere.

Så det dreier seg altså om informasjon, og vi jobber også mye med informasjonssøking og informasjonsformidling (men pussig nok lite med informasjonsteori og informatikk). Når vi finner og formidler informasjon, er det nesten alltid i form av dokumenter, som på en måte er ferdig innpakket informasjon.

Taktskifte: Data

Vi (altså fremdeles i bibliotekene) har vel på en måte vært forskånet for – eller hevet oss over – det nederste datalaget. Men sannelig har det kommet sigende innover oss, i form av

Metadata, Rådata, Big data, Paradata (ja jøss), Linked data, Åpne data &c&c

Metadata var greit nok, det var jo bare et nytt navn på katalogkortet. Men det har skjedd mer, delvis på grunn av at nettet har gitt oss mulighet for å publisere halvfabrikata, rådata, fragmenter, dynamiske dokumenter og lignende. Nettet har vært den tekniske plattformen, og har også etter hvert gitt arena for en delingskultur. Det var kanskje ikke forskerne som var først ute med å gripe tak i nye teknologier og nye kulturer, men de er på full fart!

Forskningspublikasjonen blir noe mye mer enn et dokument, den kan være dynamisk, distribuert og fragmentert, og vi øyner en ny paradigme for bruk og gjenbruk av forskningsresultater, nemlig tilgang til disse fragmentene («assets»), blant annet selve datasettene (rådata).

Rådata er data som ikke er bearbeidet, dvs de kan bearbeides på forskjellige måter, i henhold til forskjellige problemstillinger, forskjellige metoder og forskjellige verktøy. Når rådata bearbeides så mister de som regel denne egenskapen: å kunne brukes til forskjellige ting. (Dette gjelder jo ikke bare data, men alle former for råvarer). Vi kan bruke en ny trekant for å illustrere dette:

Ett motiv for å ha bruk for rådata beskriver Pål Hermod Lykkja som «reproduksjonskrisa», nemlig mangelfull verifikasjon av forskningsresultater, et problem som kanskje er alvorligere enn vi aner. Reproduksjon vil ofte bety å gå løs på samme hypotese og samme datasett med andre metoder. Et annet bruksområde kan være å angripe nye problemstillinger og hypoteser ut fra et eksisterende datasett, kanskje innen et annet fagområde.

Har biblioteket en rolle?

Vi har til en viss grad fått verktøy (feks dataskyer og nettverk), kulturer (ref web 2.0) og lisenser (feks Open Data Commons) for å publisere data.

Men vi har kanskje ikke nødvendige forretningsmodeller og paradigmer på plass hos forskere og institusjoner, sjøl om det finnes entusiaster og foregangsinstitusjoner.

Og – det som er hovedpoenget med dette innlegget: Bibliotekene er bare så vidt i ferd med å oppdage hva som foregår. Hvis vi ikke er forutseende, kan det hende at vi blir mindre relevante for formidling av forskningsresultater.

For øvrig gjelder mesteparten av det som er sagt over for mye annen informasjonsformidling enn det som angår forskning. Ta for eksempel Wikipedia, som vi tradisjonelt var istand til å nyttiggjøre oss i form av tradisjonelle leksikonartikler, men hvor vi nå kan gripe tak i «råere assets» vha linked data, Wikimedia Commons, Wikidata etc. Men mer om det en annen gang kanskje.

Bibliotekene må finne ut hva dette datastyret egentlig dreier seg om. Vi må skifte fokus mer over på datalaget, vi må sette oss inn i datamodellering, og kanskje kommer vi i nærkontakt med informasjonsteorien også? Kanskje har vi en rolle når det gjelder forvaltning (f.eks. lagring og katalogisering) av data? Kanskje har vi en rolle innenfor formidling som ikke er isolert til midtsjiktet i pyramiden? Jeg tror ikke vi skal stole på at de andre vil tale vår sak når rollelista skal settes opp.

Kua og hamburgeren

Du har sikkert skjønt poenget med innledningen: At kua er rådata, og at når vi først har laget hamburgere av den, så kan den ikke brukes til andre ting.

Lenker

Abelard and Héloise: Why Data and Publications Belong Together.
Eefke Smit, D-Lib Magazine, January/February 2011, Volume 17, Number 1/2 http://dx.doi.org/10.1045/january2011-smit

The Entropy Law and the Economic Process in Retrospect.
Nicholas Georgescu-Roegen, Eastern Economic Journal, 1986, vol. 12, issue 1, pages 3-25

Termodynamikkens 2. hovedsetning. http://en.wikipedia.org/wiki/Second_law_of_thermodynamics

The Information.
James Gleick. 2011.
http://en.wikipedia.org/wiki/The_Information:_A_History,_a_Theory,_a_Flood

Open Data Commons
http://opendatacommons.org/

[Reproduksjonskrisa].
Pål Magnus Lykkja
http://www.nb.no/cgi-bin/wa?A2=ind1309&L=BIBLIOTEKNORGE&P=106765

Reklamer

Ord for dagen: Redundans

Før trodde jeg at redundans var et stygt ord. Men nå er jeg i ferd med å snu.

Wikipedia sier:

Redundans kalles informasjon som gjentar allerede etablert kunnskap uten å tilføre noe nytt. Redundant informasjon kan derfor også kalles overskuddsinformasjon. Slik informasjon kan ofte være med å tydeliggjøre en mening, men kan også sees på som noe som tar unødvendig plass og som bør fjernes.

Jeg har vel som et resultat av mitt yrke blitt opphengt i at redundans er en uting som må bekjempes, gjennom å tilstrebe normaliserte datamodeller og gjenbruk (referering) av data til det ytterste. Ikke fordi redundans tar ekstra lagringsplass (for det gjør det jo), men fordi det koster arbeid å vedlikeholde ekstra kopier av data som allerede finnes – og fordi det skaper muligheter for inkonsistens. Det er sjølsagt internettet som har gitt denne tenkinga et ekstra puff, fordi det nå i mange tilfeller er mulig å bruke andres data (fjernbruk).

Det er James Gleick (The Information) som har fått meg til å innse at jeg har vært svært urettferdig, ved at jeg ikke har vært klar over (eller ikke har forstått) de positive egenskapene ved redundans. Gleick nevner bl.a. tre forskjellige eksempler:

  • Redundans er et viktig virkemiddel når det gjelder å formidle informasjon, og brukes svært bevisst på et grunnleggende nivå i vår kommunikasjonsteknologi for å sikre feilfri (støyfri) dataoverføring
  • Det er redundansen som fikk afrikanernes trommespråk til å funke. Sjøl om språket egentlig ikke er entydig nok, så pøste de på med nok «unødvendige» ord slik at meningen kom fram
  • Det er redundansen som gjør at det trykte ordet er så stabilt og uforfalskelig som det er, nemlig at det trykkes og spres i mange identiske kopier. Du kan ikke miste dem alle eller ødelegge dem alle.

I en «ideell» verden uten redundans skjønner du alt eller ingenting, høyst sannsynligvis ingenting. I den virkelige verden skjønner du som oftest det meste godt nok.

Jeg ser for meg flere interessante aspekter ved redundansbegrepet når vi beveger oss inn på den semantiske webben, spesielt i forbindelse med linked data. På den ene sida er linked data en oppfordring til å normalisere data gjennom å lage datamodeller som utnytter (refererer) eksisterende data i stedet for å gjenta dem. Men på den andre sida innbyr linked data til nettopp redundans ved å tillate å bruke egenskaper som i det minste ligner på hverandre, og ikke minst ved en mangel på overordnet og sentralisert styring. Det siste kan sikkert betraktes som en svakhet, men jeg tror at det er denne mangelen på stivbeint global kontroll som kanskje er den største styrken til linked data. Slik at også her blir redundansen (rett brukt) snudd fra minus til pluss.

Synes du dette høres spekulativt ut?

Det er informasjon alt handler om

Det er bare å innrømme det: Etter et yrkesliv der jeg omtrent hver eneste dag har hatt informasjon som arbeidsområde, så har jeg ennå ikke fattet dette begrepet til bunns. Det har dreid seg om informasjonsformidling eller informasjonssøking eller informasjonsteknologi eller lignende. Fordi jeg er realist så kjenner jeg til informasjonsteori (Shannon). Men det har liksom ikke vært nødvendig å bry seg så mye om dette i det daglige. Om jeg har håndtert informasjon som en vare (i biblioteket) eller en teknologi (i BIBSYS) så har informasjonsteorien aldri vært et tema. Pussig nok.

Jeg har aldri før slått opp på «Informasjon» i norsk Wikipedia. Gjør det nå, og blir ikke noe klokere. Tvert imot står det at «Denne artikkelens faglige presisjon er omstridt, eller den kan inneholde faktafeil». Hvorfor det montro? Det tyder vel på at forfatterne ikke har blitt enige, fordi begrepet brukes med forskjellige betydninger.

Men nå vil jeg til bunns i dette. Ved hjelp av boka The Information av James Gleick, som jeg har nevnt i forbifarten i et tidligere innlegg her. Den kjøpte jeg med store forventninger, og er så langt helt oppslukt. Akkurat nå har jeg kommet til at Charles Babbage møter Ada Lovelace. (Nei, dette er ikke noen kjærlighetsroman :-)) Og jeg ser fram til å møte Kurt Gödel, Alan Turing og Claude Shannon med flere.

Sjøl om jeg bare har lest 14% av boka, så tar jeg herved sjansen på å anbefale den som innhold i påskeryggsekken. Du får den som tidligere nevnt billig fra amazon.com. (Også i papirutgave). Det er nok en forutsetning at du er litt interessert i realfag.

Det er tegn som tyder på at informasjonsteorien er i vinden, f.eks. som en modell for å forklare hvordan vår verden er skrudd sammen og hvorfor den virker som den gjør, blant annet gjennom en samkjøring med kvantefysikken. Nå når bibliotekene er kastet inn i den digitale verden, så har jeg en ide om at også vi bør orientere oss i informasjonens verden med nye øyne. Kanskje kan denne boka være et bidrag til det. Jeg mener, jeg leser den også som ei fagbok med forventet relevans til yrket mitt 😉

God påsketur! Pass deg for osonlaget, og husk at Nivea duger ikke lenger.