smartCQ: Ein Webservice zur effektiven Beantwortung kontinuierlicher Suchanfragen

- Studienarbeit -


Beschreibung: 

Bei der Informationssuche im World Wide Web müssen Anfragen oft periodisch vom Benutzer wiederholt werden. Man spricht in diesem Zusammenhang von kontinuierlichen Anfragen (Continuous Queries). Systeme zur Verarbeitung kontinuierlicher Anfragen benachrichtigen den Anfragesteller kontinuierlich über neue passende Dokumente. Um den Anfragesteller zu entlasten, kann die Anzahl der Benachrichtigungen limitiert werden. Man kann dabei von beschränkten kontinuierlichen Anfragen (Bounded Continuous Search Queries) sprechen. Die Schwierigkeit liegt bei der intelligenten Auswahl der beschränkten Menge relevanter Dokumente. Die Auswahl eines Dokumentes sollte dabei unmittelbar geschehen, wobei zum Auswahlzeitpunkt das vollständige Ranking aller Dokumente noch nicht bekannt ist.

Zur Beantwortung beschränkter kontinuierlicher Anfragen wurden am IFIS mehrere Verfahren erarbeitet. Im Rahmen einer Studien- /Bachelorarbeit soll nun ein Webdienst entwickelt werden, der jedem Internetnutzer das Formulieren und die Beantwortung kontinuierlicher Anfragen anbietet, wobei zunächst vorhandene Verfahren genutzt werden sollen. Der Aufbau eines solchen Systems liegt dabei vor. Im Einzelnen sind in der Arbeit folgende Teilaufgaben zu erfüllen:

  1. Einarbeitung in das Gebiet der beschränkten kontinuierlichen Anfragen und des Information Retrievals
  2. Java Implementierung einer Toolchain basierend aus: Crawler, Indexer, Logik zur Beantwortung kontinuierlicher Anfragen und einer Publizierungskomponente für Anfrageresultate.
  3. Implementierung einer Benutzer- und Anfrageverwaltung
  4. Implementierung einer Evaluationskomponente zur Evaluation der Anfrageresultate
  5. Optimierung vorhandener Methoden zur Beantwortung beschränkter kontinuierlicher Anfragen

Eine mögliche Diplom-/Masterarbeit soll vorhandene Methoden optimieren und weitere neue theoretische Ansätze beinhalten. Mögliche weitere Teilaufgaben sind hierbei:

  1. Erweiterung und Optimierung vorhandener Methoden durch Adaptivität
  2. Optimierung und Anwendung einer verteilungsbasierten Lösung des Sekretärinnen Problems für k gewünschte Dokumente
  3. Approximation von Verteilungen mittels einer Maximum-Likelihood-Schätzung
  4. Optimierung durch User Feedback
  5. Anwendbarkeit von Strategien aus dem TREC Filtering Track
  6. Optimierung der TF-IDF basierten Scorefunktion durch sinnvolle Berechnung des IDF Terms.
  7. Bestimmung eines Dokumenten Thresholds basierend auf der Maximierung von Wahrscheinlichkeiten, statt der Maximierung des Erwartungswertes.
  8. Möglichkeiten der Optimierung durch eine Regressionsanalyse der Dokumentenrelevanzwerte.

Vorkenntnisse/Anforderungen:
Vorlesung Datenbanksysteme
Grundlagen JAVA und Internet-Technologie
Grundlagen bis vertief. Kenntnisse im Bereich der Stochastik

Bearbeiter:
David Gregorczyk

Ergebnis:
Die Ausarbeitung kann im Institut für Informationssysteme angefordert werden.

Betreuung:
Nils Höller
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23538 Lübeck
Telefon: 0451 / 500 5707