Indexansätze für häufige Aktualisierungen für Semantic Web-Daten

- Masterarbeit -


Beschreibung:

Für große Datensätze ist es günstig, Zeichenketten durch eine eindeutige numerische Repräsentation zu ersetzen. Dazu wird ein sogenanntes Dictionary verwendet, welches Zeichenketten auf einen numerischen Wert und umgekehrt abbildet. Im LUPOSDATE-Projekt haben wir eine hocheffiziente Semantic Web Datenbank entwickelt, die u.a. ein Dictionary auf Basis von B+-Bäumen verwendet. 

B+-Bäume sind jedoch langsam, wenn viele Einfügungen zu erwarten sind. Daher werden oft die sogenannten LSM-Bäume (bzw. deren Varianten) verwendet, die zunächst viele einzufügende Daten im Hauptspeicher aufsammeln, bevor sie blockweise die Daten in den festplattenbasierte übernehmen.  

Wenn viele Einfügungen zu erwarten sind, kann auch ein Fraktalbaumindex eine gute Wahl für die Abbildung von der Zeichenkette auf den numerischen Wert sein, welcher für das effiziente Einfügen entwickelt worden ist. Wir haben bereits die vereinfachte Variante im Luposdate-Projekt implementiert. Eine Idee ist nun, den vereinfachten Fraktalbaumindex und B+-Bäume zu kombinieren, um eine neue Art Index mit den Vorteilen von beiden Ansätzen zu erreichen.

In dieser Bachelor-/Masterarbeit sollen daher die beschriebenen Indizierungsansätze a) LSM-Baum und b) die Kombination von Fraktalbaumindex und B+-Baum implementiert werden. Anschließend soll durch Meßreihen evaluiert werden, welche Indexierungsansätze sich insbesondere für den Einsatz in Dictionaries eignen, in denen mit häufigen neuen Einträgen zu rechnen ist. Bei einer Bachelorarbeit kann sich auf einen Ansatz konzentriert werden.

Anforderungen/Kenntnisse:
Java, Datenbank-Grundkenntnisse

Bearbeitung:
Aymen Aissaoui

Betreuung:

Privatdozent Dr. rer.nat. habil. Sven Groppe
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 500 5706