Stikkordarkiv: semantisk web

Viktig nyhet fra Google: GKG

Når vi søker i Google så er det ofte med forventning om å finne nettsider som kan hjelpe oss med å svare på noe. Nå kommer det nye, nemlig at Google prøver å svare direkte, altså ikke bare viser til andre. Slett ikke alltid, men i en del tilfeller der de har sett seg i stand til å trekke ut relevant informasjon for oss, f.eks. i det nærliggende eksemplet: Søk på NTNU:

Det nye er «infoboksen» øverst til høyre på svarsida, som kanskje kan minne om tilsvarende boks i Wikipedia.

Dette er helt nytt, og blir tilgjengelig for oss gradvis. Det er ikke sikkert det har kommet til deg ennå. Prøv for sikkerhets skyld å skifte til engelskspråklig Google hvis det ikke er det du bruker. Jeg vet ikke om ordet infoboks er det som vil bli brukt. Jeg vet egentlig ikke hva dette nye skal komme til å hete. På engelsk brukes nå Google Knowledge Graph (GKG). Det er kanskje et navn som passer bedre for teknonerdene enn for alle.

Dette er sannsynligvis bare starten på noe. Antall Google-søk som gir slik info er enda nokså begrenset, du er sikrest på å finne dem hvis du søker på (kjente) personer eller (kjente) steder. Det er forsåvidt ikke sant at dette (å svare på spørsmål i stedet for peke på nettsider) er nytt. Du har lenge fått konsise svar fra Google hvis du har søkt på f.eks. «2+3» eller «pi». Men utviklingen peker i retning av at Google i større grad kan sammenligne seg med f.eks. Wikipedia eller Wolfram Alpha.

Du synes kanskje at dette er noe stort tull og at Google nå må ta seg sammen og gjøre det de kan, nemlig å finne fram nettsider. Jeg er ikke så sikker på det, og ønsker dem lykke til med initiativet.

Er dette den semantiske weben?

Det store spørsmålet for noen av oss er ikke uventet: Hvordan gjør nå Google dette? Er dette semantisk søking? Linked data? Jeg vet ikke nok om virkemåten til å svare noe inngående på det. Men jeg mener at dette er et skritt i den retningen som den semantiske weben peker: At weben (dvs nettet) ikke bare er en web av nettsider, men av «ting» (beskrevet med navn, informasjon, rådata, attributter, relasjoner) som er lagret på en strukturert måte slik at tjenestene våre (f.eks. Google-søk) kan sette dem sammen og presentere dem for oss på forskjellige måter. Og teknologien som ligger under er ikke bare HTML og HTTP, men også andre standarder, protokoller og rammeverk for å strukturere data (linked data, RDF, ontologier, schema.org etc).

Vil du vite mer om dette, kan du lese på Googles egen blogg: Introducing the Knowledge Graph: things, not strings eller en tidlig og nokså teknisk kommentar av Mike Bergman: Deconstructing the Google Knowledge Graph

Nytt fra W3C om linked data i bibliotek

Det kan være grunn til å minne om at Linked data ikke er noe som er funnet opp i «bibliotekverdenen». (I motsetning til MARC, Z39.50, SFX og andre standarder og oppskrifter som vi omgir oss med). Begrepet har selveste Tim Berners-Lee som opphavsmann. Han er kjent som web’ens oppfinner, og er nå direktør for World Wide Web Consortium (W3C), som har mange koordinerende roller når det gjelder web’ens videre utvikling.

Hensikten med dette innlegget er å slå et slag for et nytt dokument fra W3C: Library Linked Data Incubator Group Final Report  som ble publisert 25. oktober. Dokumentet er et resultat fra W3C Incubator Activity, som har som formål å fremme

«rapid development, on a time scale of a year or less, of new Web-related concepts»

Linked data er et slikt begrep, og i det foreliggende tilfellet er det altså Linked data i bibliotek som er rammen.

Dokumentet er holdt i en typisk W3C-stil som for mange vil virke litt anstrengt. Men trenger du gjennom litt formalistisk overhead, finner du en oversiktlig framstilling av hva Linked data i bibliotek kan være.

Ordet incubator kan jeg gjerne oversette med rugekasse, og antyder at dette skal være til hjelp for utvikling av noe nytt. Dokumentet inneholder både begrepsgjennomgang, status for linked data i bibliotek, og anbefalinger til hjelp for videre framdrift. Jeg tillater meg å gjengi et sammendrag av anbefalingene her:

  • «That library leaders identify sets of data as possible candidates for early exposure as Linked Data and foster a discussion about Open Data and rights;
  • That library standards bodies increase library participation in Semantic Web standardization, develop library data standards that are compatible with Linked Data, and disseminate best-practice design patterns tailored to library Linked Data;
  • That data and systems designers design enhanced user services based on Linked Data capabilities, create URIs for the items in library datasets, develop policies for managing RDF vocabularies and their URIs, and express library data by re-using or mapping to existing Linked Data vocabularies;
  • That librarians and archivists preserve Linked Data element sets and value vocabularies and apply library experience in curation and long-term preservation to Linked Data datasets.»
Les gjerne dokumentet. Det er ikke så langt, men du kan sjølsagt gjøre det mye lenger ved å følge lenkene 🙂
PS: Jeg kan ikke se at det har dukket opp noe norsk betegnelse som kan brukes i stedet for Linked data, så jeg fortsetter å bruke denne engelske formen.

radatana

UB har sammen med BIBSYS gjennomført prosjektet Rådata nå. Det håndfaste resultatet finnes på http://data.bibsys.no/data, der f.eks. Henrik Ibsen brukes som eksempel. Her er han kodet vha RDF:

Og hva står det så her? Jo, at Henrik Ibsen også er kjent under navnene Henrikku Ipusen, Henrik Johan Ibsen og Yibusheng (ytterligere 15 varianter er utelatt av plasshensyn). Videre står det at han levde fra 1828 til 1906. Det står at i BIBSYS autoritetsregister har han ID nr x90061718, og at du kan finne han i DBpedia (og dermed videre i Wikipedia), VIAF og Deutsche Nationalbibliothek. Og det står at den naturlige navneformen er «Henrik Ibsen», mens i BIBSYS brukes formen «Ibsen, Henrik».

Alt dette og mere til finner du ved å slå opp identifikatoren
http://data.bibsys.no/data/notrbib/authorityentry/x90061718.

Det fine med Linked data (i kombinasjon med RDF, URI, foaf, owl, skos, dc og radatana) er at dette kan forstås ikke bare av deg, men langt på vei også av en datamaskin.

Rurik Greenall har vært prosjektleder for Rådata nå. Han fant ut at ordet radatana betyr «gråtende» eller noe lignende på marathi. Likevel tok vi det i bruk som navn på det spesielle vokabularet som brukes for Rådata nå.

Se også hva Rurik skriver i sin blogg: BIBSYS personal name linked open data published

Dataene er altså fritt og åpent tilgjengelig. Bare bruk dem!