Diplomarbeit am Institut für Informationssysteme


Optimierung von Reload-Strategien im Web durch Komponenten-Tracking


Beschreibung:

Nach unterschiedlichen Schätzungen verdoppelt sich die Informationsmenge im Internet (speziell: World Wide Web) alle 2 bis 4 Jahre, unterliegt also einem exponentiellen Wachstum. Nicht nur die Menge an Information wächst dabei sehr rasant an, die Information im WWW unterliegt zusätzlich einem ausgeprägten Wandel. Information, die heute aktuell ist, wie z.B. Nachrichten, Wetterkarten, Wertpapierkurse, Auktionsangebote, Ergebnisse von Suchanfragen o.ä. sind einen Tag später oft nicht mehr erreichbar. Es kann jedoch vielfältige Gründe geben, gerade solche Information systematisch zu erfassen und auszuwerten.
Thema der Studien-/Diplomarbeit ist die Entwicklung eines Werkzeuges, das einem Anwender die systematische Erfassung solcher 'temporärer' Information im World Wide Web ermöglicht. Ausgegangen werden soll dabei von vertrauten Techniken im Internet. Suchmaschinen wie Google erfassen in der Regel lediglich einen augenblicklichen Zustand des Internets. Durch regelmäßige Anfragen bei einer Suchmaschine kann eine zeitliche Änderung der Information im Web erfasst werden. Spider- oder Crawler-Systeme erfassen den augenblicklichen Vernetzungszustand der Information im WWW. Mittels einer Aktivierung dieser Tools in zeitlichen Abständen kann eine Entwicklung der Vernetzung von Information im WWW erfasst werden. Speziell beinhaltet das Thema der Arbeit das Verfolgen einzelner Informationsanteile im Web, z.B. Komponenten von Web-Seiten. Um Daten bzw. Informationsanteile zu extrahieren sind Verfahren bekannt, die die Struktur von Web-Seiten mithilfe von Grammatiken modellieren. Wenn man Seiten über die Zeit betrachtet kann es sein, dass sich die beschreibende Grammatik ändert.
In der Arbeit sind solche Änderungen zu erkennen und zu erfassen. Auf dieser Basis geht es um die Entwicklung von Verfahren, Segmente von Web-Seiten über längere Zeitperioden zu registrieren.

Im Einzelnen sind in der Diplomarbeit folgende Teilaufgaben zu erfüllen:

  1. Modellierung von Web-Seiten mithilfe von Grammatiken und auf dieser Basis die Entwicklung von Methoden zur Zerlegung von Web-Information in Segmente.
  2. Entwicklung von Lernverfahren für Grammatiken von Web-Inhalten und von Methoden zum automatischen Bestimmen von Strukturänderungen.
  3. Implementierung eines User-Interfaces zum Selektieren von Komponenten durch einen Nutzer und Entwicklung eines Systems zum automatischen Tracken von Dateninhalten.
  4. Entwicklung und Anwendung von Qualitätsfunktionen zum Evaluieren der Ergebnisse.

Vorkenntnisse:
Vorlesung Datenbanksysteme
Grundlagen JAVA

Bearbeiter:
Christoph Reinke

Ergebnis:
Die Ausarbeitung kann im Institut für Informationssysteme angefordert werden.

Betreuung:
Dirk Kukulenz
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23538 Lübeck
Telefon: 0451/500 5704
email: kukulenz at ifis.uni-luebeck.de

14.12.2006 webmaster