Nach unterschiedlichen Schätzungen verdoppelt sich die Informationsmenge im Internet
(speziell: World Wide Web) alle 2 bis 4 Jahre, unterliegt also einem exponentiellen Wachstum.
Nicht nur die Menge an Information wächst dabei sehr rasant an, die Information im WWW
unterliegt zusätzlich einem ausgeprägten Wandel. Information, die heute aktuell ist,
wie z.B. Nachrichten, Wetterkarten, Wertpapierkurse, Auktionsangebote, Ergebnisse von
Suchanfragen o.ä. sind einen Tag später oft nicht mehr erreichbar. Es kann jedoch
vielfältige Gründe geben, gerade solche Information systematisch zu erfassen und auszuwerten.
Thema der Studien-/Diplomarbeit ist die Entwicklung eines Werkzeuges, das einem Anwender die
systematische Erfassung solcher 'temporärer' Information im World Wide Web ermöglicht.
Ausgegangen werden soll dabei von vertrauten Techniken im Internet.
Suchmaschinen wie Google erfassen in der Regel lediglich einen augenblicklichen Zustand des Internets.
Durch regelmäßige Anfragen bei einer Suchmaschine kann eine zeitliche Änderung
der Information im Web erfasst werden. Spider- oder Crawler-Systeme erfassen den augenblicklichen
Vernetzungszustand der Information im WWW. Mittels einer Aktivierung dieser Tools in zeitlichen
Abständen kann eine Entwicklung der Vernetzung von Information im WWW erfasst werden.
Speziell beinhaltet das Thema der Arbeit das Verfolgen einzelner Informationsanteile im Web,
z.B. Komponenten von Web-Seiten. Um Daten bzw. Informationsanteile zu extrahieren sind Verfahren bekannt, die die
Struktur von Web-Seiten mithilfe von Grammatiken modellieren. Wenn man Seiten über die Zeit betrachtet
kann es sein, dass sich die beschreibende Grammatik ändert.
In der Arbeit sind solche Änderungen zu erkennen und zu erfassen. Auf dieser Basis geht es um die
Entwicklung von Verfahren, Segmente von Web-Seiten über längere Zeitperioden zu registrieren.
Im Einzelnen sind in der Diplomarbeit folgende Teilaufgaben zu erfüllen: