Indexierungsansätze für Dictionaries

- Bachelorarbeit -


Beschreibung:
Für große Datensätze ist es günstig, Zeichenketten durch eine eindeutige numerische Repräsentation zu ersetzen. Dazu wird ein sogenanntes Dictionary verwendet, welches Zeichenketten auf einen numerischen Wert und umgekehrt abbildet. Im LUPOSDATE-Projekt haben wir eine hocheffiziente Semantic Web Datenbank entwickelt, die u.a. ein Dictionary auf Basis von B+-Bäumen verwendet. 

Für die Abbildung von dem numerischen Wert auf die Zeichenkette kann allerdings sehr effizient eine Art festplattenbasiertes Feld verwendet werden, deren Elemente auf die Position der Zeichenketten im Externspeicher (z.B. Festplatte) verweisen.

Für die Abbildung von der Zeichenkette auf den numerischen Wert eignet sich eine festplattenbasierte Version eines Patricia Tries.

Weiterhin, wenn viele Einfügungen zu erwarten sind, kann auch ein Fraktalbaumindex eine gute Wahl sein, welcher für das effiziente Einfügen entwickelt worden ist.

In dieser Bachelor-/Masterarbeit sollen daher die beschriebenen Indizierungsansätze ( a) Festplattenbasiertes Feld, b) Erweiterung einer bestehenden Patricia Trie-Implementierung um die Speicherung von Werten (und nicht nur von Schlüsseln), c) Fraktalbaumindex) implementiert werden. Anschließend soll durch Meßreihen evaluiert werden, welche Indexierungsansätze sich insbesondere für den Einsatz in Dictionaries eignen, in denen mit häufigen neuen Einträgen zu rechnen ist.

Anforderungen/Kenntnisse:
Java

Bearbeitung:
Denis Fäcke

Betreuung:
Privatdozent Dr. rer.nat. habil. Sven Groppe

Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 500 5706