Strukturanalyse von unbekannten RDF-Datensätzen über SPARQL-Endpoints
Kontext
Die Idee des Semantic Web beschreibt das Ziel einer teilweise evolutionären Weiterentwicklung des Internets. Während das Internet heutzutage ein Netzwerk verlinkter Dokumente darstellt, die auf die visuelle Präsentation für menschliche Betrachter ausgerichtet sind, sei für die Zukunft eine Entwicklung hin zu einem „web of data“ wünschenswert, welche auf die maschinelle Verarbeitbarkeit der Informationen abzielt.
Zu diesem Zweck wurden (und werden) eine Reihe von Technologien entwickelt. Allen voran RDF und SPARQL. Bei RDF handelt es sich um eine Datenstruktur, die mit Tripeln der Form (resource, property, value) eindeutig identifiziere Ressour- cen (resource) anhand von Eigenschaften aus eindeutig identifizierbaren Vokabularen (property) und Werten (value) beschreibt. Da die Werte mancher Eigenschaften selbst wieder Ressourcen sein können, lässt sich eine Menge von Triplen auch als gerichteter Graph interpretieren. SPARQL ist eine Anfragesprache für RDF-Daten, die mit Graphmustern arbeitet.

Problem
Um konkrete RDF-Datensätze verwenden zu können, muss ein Nutzer dessen Struktur kennen. Welche Arten von Ressourcen werden unter Verwendung welcher Eigenschaften beschrieben? Macht der Datensatz Aussagen über Mitarbeiter- und Umsatzzahlen von Automobilherstellern oder enthält er Informationen über Konzerttermine und -orte von Jazzmusikern? Diese Strukturinformationen sind häufig nur implizit im Datensatz enthalten.
Häufig werden RDF-Daten über sogenannte SPARQL-Endpoints zur Verfügung gestellt. Dabei handelt es sich um einen Server (mit oder ohne Webinterface) der SPARQL- Queries für einen gegebenen Datensatz beantwortet.
Will ein Nutzer die über einen SPARQL-Endpoint bereitgestellten RDF-Daten gezielt nutzen, so wird er in der Regel zunächst einige Zeit darauf verwenden müssen, die erwähnte Struktur der Daten herauszufinden. Er wird sich vielleicht einen Teil der Daten anschauen1 oder Listen der verwendeten Ressourcen- und Eigenschaftsarten analysieren. Heterogenität und Größe der Datensätze erschweren dabei die Analyse.
Ziel
Das Ziel dieser Arbeit ist es, zu untersuchen wie dem Nutzer diese manuelle Struktur- analyse abgenommen oder zumindest erleichtert werden kann. Dazu gehört auch die Implementierung eines Systems, das als Eingabe die URL eines SPARQL-Endpoints erhält und als Ausgabe eine „RDF-Summary“ des Datensatzes liefert.
Konkret sollen folgende Fragestellungen behandelt werden.
- Welche Maße/Informationen in der Summary eines RDF-Datensatzes sind sinnvoll und aus Nutzersicht wünschenswert?
- Wie können diese Informationen über SPARQL-Anfragen erhoben werden?
- Durch welche vorgeschalteten Maßnahmen (Parametrisierung durch Nutzer, Einbe-
zug von Zusatzwissen etc.) lässt sich die Qualität der Strukturanalyse verbessern?
- Welche Beschränkungen, Strategien gibt es und welche Infos sind noch sinnvoll, wenn Datensätze aufgrund ihrer Größe oder Dynamik nur teilweise durchsucht werden können?
Bearbeiter:
Thomas Holst
Betreuer:
Edzard Höfig