Erweiterung eines Log-Structured Merge-Baumes zur Unterstützung von Semantic-Web-Daten und -Anfragen

- Bachelorarbeit -


Beschreibung:

Für große Datensätze ist es günstig, Zeichenketten durch eine eindeutige numerische Repräsentation zu ersetzen. Dazu wird ein sogenanntes Dictionary verwendet, welches Zeichenketten auf einen numerischen Wert und umgekehrt abbildet. Im LUPOSDATE-Projekt haben wir eine hocheffiziente Semantic Web Datenbank entwickelt, die u.a. ein Dictionary auf Basis von B+-Bäumen verwendet. 

B+-Bäume sind jedoch langsam, wenn viele Einfügungen zu erwarten sind. Daher werden oft die sogenannten LSM-Bäume (bzw. deren Varianten) verwendet, die zunächst viele einzufügende Daten im Hauptspeicher aufsammeln, bevor sie blockweise die Daten in die festplattenbasierte Datenstruktur übernehmen. Eine vorherige Bachelorarbeit hat bereits einen grundlegenden LSM-Baum implementiert. 

In dieser Bachelorarbeit soll die bereits bestehende Implementation des LSM-Baumes erweitert werden, so dass dieser Tripel von Semantic Web-Daten komprimiert ablegen kann. Weiterhin soll noch eine Präfixsuche (optimiert durch einen Bloomfilter-Ansatz auf den Präfixanteilen der Tripel) sowie Sideways Information Passing (SIP)-Ansätze für diese LSM-Baum-Implementation angepasst werden. Anschließend soll in Meßreihen der alte für Semantic Web-Tripel unoptimierte LSM-Baum mit der neuen Variante verglichen werden. 

Anforderungen/Kenntnisse:
Java, Datenbank-Grundkenntnisse

Bearbeitung:
Jan-Eric Ulrich

Ergebnis:
Die Ausarbeitung kann im Institut für Informationssysteme angefordert werden.

Betreuung:
Privatdozent Dr. rer.nat. habil. Sven Groppe

Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 500 5706