Diplomarbeit am Institut für Informationssysteme


Beantwortung kontinuierlicher Anfragen durch Lernen von Ranking-Verteilungen


Beschreibung:

Die Ergebnisse von Suchmaschinen wie Google oder Yahoo betreffen in der Regel eine 'Momentaufnahme' des World Wide Web. Diese Momentaufnahme beinhaltet mitunter viele Milliarden Web Seiten, die mithilfe von Crawlern gefunden und dann indexiert wurden. Solch eine Momentaufnahme des Webs ist mit sehr grossen Kosten verbunden und viele wissenschaftliche Arbeiten beschäftigen sich mit Methoden, den Index aktuell zu halten.
In dieser Arbeit steht gerade diese Änderung des Webs, bzw. des Index im Fokus. Es sollen dabei ein Konzept und ein System entwickelt werden, um die Änderung des Index einer Suchmaschine zu erfassen und abzufragen. Es soll dabei zunächst untersucht werden, wie aktuelle Crawler und Indizierungsprogramme arbeiten und inwieweit Open-Source-Projekte sich konkret für den Einsatz im Web eignen. Es soll dann mithilfe verschiedener Abtaststrategien, die aus der Literatur bekannt sind, eine Methode zur Verlaufserfassung des Index entwickelt werden (Verlaufsindex). Hierbei ist auch ein Konzept für die Qualitätsmessung des Verlaufsindex zu entwickeln. Der betrachtete Web-Ausschnitt sollte dabei eine realistische Grösse haben. Effiziente Speicherverfahren sind für die Optimierung zu entwickeln. Schliesslich soll ein Konzept für Anfragen an den 'Verlaufsindex' entwickelt werden. Dieser neue (textuelle) Anfragetypus soll Informationen darüber geben können, wie sich die Information im betrachteten Zeitabschnitt geändert hat.

Im Einzelnen sind in der Diplomarbeit folgende Teilaufgaben zu erfüllen:

  1. Untersuchung verfügbarer Crawler- und Indizierungs-Werkzeuge
  2. Entwicklung eines Konzeptes für eine Methode zur Eingrenzung des betrachteten Web-Bereiches
  3. Konzept und Implementierung für eine effiziente Speicherung einer Folge von Indexstrukturen
  4. Entwicklung und Umsetzung eines Konzeptes für Anfragen an den Verlaufsindex
  5. Test des Systems an verschiedenen Web-Bereichen

Vorkenntnisse:
Diese Aufgabenstellung ist anspruchsvoll und erfordert den Mut, neue Konzepte umzusetzen und eine Reihe wissenschaftlicher Artikel zu lesen
Vorlesung Datenbanksysteme
Grundkenntnisse Information Retrieval
Grundlagen JAVA, eventuell C++
Internet-Technologie

Bearbeiter:
Nils Höller

Ergebnis:
Die Ausarbeitung kann im Institut für Informationssysteme angefordert werden.

Betreuung:
Dirk Kukulenz
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23538 Lübeck
Telefon: 0451/500 5704

14.12.2006 webmaster