SWIB 11. Semantic Web in Bibliotheken

Die AGMB hat die Teilnahme von Maurizio Grilli am SWIB 11-Kongress (http://swib.org/swib11/) unterstützt.

Hier sein aktueller Bericht:

SWIB 11. Semantic Web in Bibliotheken

Fokus: Wissenschaftskommunikation im Web of Data

29.-30. November 2011

Bericht von Maurizio Grilli

Stellen Sie sich vor, Sie sind in Hamburg und suchen im Internet nach einem Film. Die Suchmaschine bringt eine Information über den gewünschten Titel mit Angaben über Regisseur, Dauer, Darsteller usw. und soweit kennen wir Internet ja schon. Aber stellen Sie sich vor, Sie bekommen gleichzeitig und unaufgefordert auch Infos über die Kinos in Hamburg, in denen der Film läuft. Nützlich oder? Dasselbe denken Sie auch von Büchern. Die Suchmaschine liefert nicht nur Infos über die Medien, sondern auch zusätzlich Infos z.B. über die nächste Bibliothek die diese Medien zur Verfügung hat, mit gleich den Öffnungszeiten, den Ausleihbedingungen und Anfahrtsangaben. Das ist Semantic Web. Angereicherte Informationen im Internet. Ein Mehrwert, der dadurch entsteht, dass Informationen auf einer gewissen Art und Weise miteinander verknüpft werden. Die Datensätze in unseren Katalogen werden im Web zugänglich und mit Inhalten aus dem Web angereichert. Diese Datenvernetzung wird Linked Data genannt. Im SW sind die Dokumente nicht nur einfach miteinander verlinkt, sondern auch so erschlossen, dass Maschinen etwas damit anfangen können. Was heißt das?

Im herkömmlichen web sagen die URLs nichts über die Dokumente und Internetseiten, wozu sie führen. Im SW spricht man nicht von URLs, sondern von URIs (Uniform Resource Identifier). Die URIs haben die gleiche Funktion wie die URLs, aber zusätzlich beinhalten sie Kernangaben über die Inhalte der verbundenen Dokumente und Seiten. Die URIs sind konzipiert worden, um leicht miteinander verbunden zu werden und um andere URIs abzurufen, mit denen sie ursprünglich nicht verbunden waren, mit denen sie aber semantisch etwas zu tun haben.

Schauen wir uns das näher an. Die URIs sind in so genannten Trippeln aufgebaut. Sie bestehen aus dem Schema Subjekt-Prädikat-Obiekt. Ein Subjekt wird durch ein Prädikat bestimmt. Der Regen z.B. kann durch die Prädikate fällt/ist/erzeugt bestimmt werden. Die Prädikate brauchen dann Objekte, um näher ihrerseits bestimmt zu werden in diesem Beispiel könnten das bzw. sein: seit drei Tagen/kalt/einen Regenbogen. Die Trippel werden mit einer mit dem HTTP kompatiblen Syntax aufgebaut, die RDF (Resource Description Framework) genannt wurde.

Ein drittes grundsätzliches Element des SW sind die Ontologien. Diese braucht man als Richtlinie, damit Dinge nach gewissen Modellen mit dem RDF beschrieben werden. Ontologien bestimmen, welche Kategorien Dingen zugeschrieben werden müßten. Natürlich ist das kein Zwang. Es ist aber vorteilhaft, wenn so viele wie möglich nach dem gleichen Muster vorgehen.

Folgende Vorträge schienen mir für Bibliotheken besonders aussagekräftig.

Rurik Greenall aus der Norwegian University of Science and Technology in Trondhjem berichtet über sein Projekt, den Mitarbeitern der Universitätsbibliothek das Katalogisieren in RDF beizubringen. Erstaunlicherweise haben alle Bibliothekare mit Begeisterung dem Projekt teilgenommen. Es wurden Prototypen realisiert, mit deren Hilfe die Bibliothekare einfach die RDF-Syntax anwenden können. Zunächst werden die Katalogisate ins RDF verwandelt und dann mit anderen Daten aus dem Web angereichert.

Magnus Pfeffer aus der Hochschule der Medien in Stuttgart berichtet über ihr interessantes Projekt, um Daten aus dem Leihverkehr ins RDF zu verwandeln. Eines der Hauptprobleme dabei ist mit dem Datenschutz verbunden. Um Daten aus dem Leihverkehr zu benutzen, müssen diese zunächst anonymisiert werden. Bewegungsdaten sind sehr wichtige Qualitätsindikatoren bezüglich der Medien, die mit dem Leihverkehr involviert sind. Auf dieser Art und Weise werden beim Retrieval Medien zusammengesetzt, die von der Bibliographischen Beschreibung her sonst nichts miteinander zu tun hätten. Wenn z.B. ein Buch als Unterstützung zum Lernen mit einem anderen Buch nützlich ist und oft zusammen mit dem anderen Buch ausgeliehen wird, werden diese zwei Bücher immer in der Ergebnisliste aufeinander hingewiesen, so dass auch andere Benutzer erfahren, dass sich die Inhalte der zwei Werke integrieren. In so einem Fall, der nicht selten sein dürfte, integriert die Benutzung die semantische bibliothekarische Sacherschließung!

Pfeffer unterscheidet zwischen Stammdaten und anderen Daten. Die Ersten ändern sich nicht oder wenig und sind z.B. mit der Identität der Medien oder der Benutzer verbunden, die Zweiten ändern sich im Gegenteil und sind mit der Benutzung und mit den Transaktionsdetails verbunden. Auch wann und wie die Medien erworben werden, enthalten wichtige Informationen. Die Ausleihen müssten auch anders gewichtet werden z.B. je nachdem, ob es sich um eine Dauerausleihe oder eine normale Ausleihe handelt oder ob die ausgeliehenen Medien im Freihandbereich oder im Magazin aufgestellt sind.

Adrian Stevenson aus der Universität Bath berichtete über das vom JISC (Joint Information Systems Committee) finanzierte Projekt Linking Lives Project in Großbritannien. Ziel des Projekts ist, den britischen Verbundkatalog COPAC ins RDF zu verwandeln und mit anderen Datenbanken wie DBpedia zu verbinden. Wegen der sehr großen Datenmenge ist dieses Projekt sehr interessant und könnte federführend werden für ähnliche Projekte in anderen Ländern.

Christopher Gutteridge aus der Universität Southampton in seinem Vortrag über Pragmatic linked data macht u.a. darauf aufmerksam, dass es wichtig ist, beim Aufbau der Vernetzung zum linked data, nur die wichtigen Informationen zu selektieren, d.h. die Informationen die für die eigenen Kunden wichtig sind.

Markus Geipel (DNB) und Adrian Pohl (BSZ) in Ihrem Bericht über das Projekt culturegraph.org betonen die Wichtigkeit der Vorbereitung der Daten, bevor man mit der Modellierung zum linked data anfängt. Daten schlechter Qualität verbessern sich nämlich nicht durch ihre Vernetzung zu anderen Daten. Die fehlerhaften Daten müssen also vorher gebessert werden.

Fabio Ricci und René Schneider aus der HEG Genf berichten über das Projekt RODIN und das damit verbundene Thema Ontologiegesteuerte wissenschaftliche Recherche. Sie haben ein Prototyp für eine Metasuchmaschine, die parallel mehrere Datenbanken auch nach dem Prinzip des Semantic Web abfragt. Die Datenbanken müssen vorher dazu vorbereitet, d.h. mit benutzerrelevanten Daten angereichert werden. Man kann sich die Sache so vorstellen, dass die Dokumente nicht mehr nur mit dem evt. vorgesehenen Thesaurium verbunden sind, sondern auch mit anderen z.B. bezüglich Informationen im Internet.

Bibliografie

Tim Berners Lee: The next web of open linked data. In: http://pr-lead.com/tim-berners-lee-on-the-next-web-tim-berners-lee/

Post navigation

1 comment for “SWIB 11. Semantic Web in Bibliotheken”