Institut für Informationssysteme



Capturing the dynamic Web

Beschreibung des Projektes:

Eine empirische Studie von Ntoulas, Cho und Olston (2004) zur zeitlichen Entwicklung des World Wide Web ergab folgendes Ergebnis: Jede Woche werden 8% neue Web-Seiten erzeugt. Nur 20% der Seiten, die heute im Web verfügbar sind werden noch in einem Jahr verfügbar sein. Nach einem Jahr ist 50% des 'Inhalts' im Web neu. Nach einem Jahr wurden 80% der Hyperlinks durch andere Links ersetzt. Diese Untersuchung gibt einen Hinweis auf die umfassende Dynamik des WWW.
Für einen einzelnen Nutzer ergibt sich das Problem, dass die Information, die er nicht rechtzeitig erfasst, nach einer gewissen Zeit für ihn nicht mehr zugänglich ist. Nach der Studie ist der überwiegende Anteil der Information nach kurzer Zeit komplett verschwunden. Es kann jedoch Anwendungsfälle geben, wo sich ein Nutzer nicht nur für den aktuellen Zustand des Web interessiert, wie er z.B. mit einer Suchmaschine wie Google oder Yahoo abgefragt werden kann, sondern wo er sich für historische Information oder für die zeitliche Entwicklung von Informationsquellen interessiert. Beispiel für solche Anfragen ist z.B. das Sammeln von Finanzdaten oder Preisverläufen, von Klimadaten und Nachrichten. Es kann z.B. für einen Wissenschaftler relevant sein zu erfahren, wie sich die Forschungsgebiete, die von bestimmten anderen Wissenschaftlern bearbeitet werden, in der Zeit entwickeln, um Entwicklungen und Trends in einem Wissenschaftsgebiet aufzudecken. Ferner kann es für einen Nutzer von Interesses sein, die Entwicklung des Preises eines Produktes im Verlauf der Zeit zu erfassen, um einen günstigen Kaufzeitpunkt rechtzeitig zu erfahren.

Um solche Anfragen zu realisieren, gibt es grundsätzlich zwei verschiedene Möglichkeiten. Sogenannte Push-Systemen sind auf der Server-Seite implementiert und schicken einem Client Nachrichten, wenn sich eine betreffende Informationsquelle ändert. Der Vorteil ist, dass diese Systeme, dadurch dass sie an der Informationsquelle arbeiten, darüber informiert sind, wann sich die Information auf dem Server ändert. Das Problem von Push-Systemen im Web ist, dass sie von dem Informationsanbieter bereitgestellt werden müssen. Nur eine Minderzahl von Anbietern stellt im Moment im Web einen solchen Dienst zur Verfügung. Im Gegensatz dazu werden Pull-Systeme auf der Client-Seite implementiert, also direkt dort, wo die Information letztlich auch nachgefragt wird und ein Interesse an der Information besteht. Der Nachteil hier ist jedoch, dass die Zeitpunkte von Informationsänderungen in der Regel nicht bekannt sind.

In dem Projekt ist es das Ziel, solche Pull-Systeme zu optimieren. Dadurch soll einem Nutzer das zeitlich veränderliche Web zugänglich gemacht werden. Die Hauptschwierigkeit besteht darin, die Änderungszeitpunkte von Informationen im Web vorherzusagen. Für dieses Problem kann grundsätzlich die Theorie stochastischer Prozesse Anwendung finden, die Lösungen für bestimmte Änderungsmuster anbietet. Das Problem ist hier, dass die Information und damit auch die Änderungsmuster sehr heterogen sind, wodurch völlig unterschiedliche Lösungen aus dem Bereich der stochastischen Prozesse für unterschiedliche Datenobjekte Anwendung finden können.
In dem Projekt wurden bisher näherungsweise regelmässige Änderungsmuster betrachtet, die mithilfe von regulären Grammatiken beschrieben werden können.
Eine weitere Problemstellung ist das Finden von Entitäten, die für eine Änderungsanalyse in der Zeit betrachtet werden. Der naheliegende Ansatz, ganze Web-Seiten zu betrachten, hat sich als unpraktikabel erwiesen, weil Web-Seiten in der Regel sehr komplex aufgebaut sind und unterschiedliche Segmente ein völlig unterschiedliches Zeitverhalten haben können. Es gilt also für eine Optimierung zeitbasierter Anfragen, Web-Seiten geeignet zu segmentieren. Eine solche Segmentierung ist ein aktuelles Forschungsgebiet im Bereich webbasierter Informationssysteme. In dem Projekt wurde eine Methode entwickelt, die Web-Seiten anhand einer Grammatik segmentiert, die die Seitenstruktur beschreibt. Solche Grammatiken können anhand sukzessiver Versionen einer Seite im Verlauf der Zeit gelernt werden. Dieser Lernalgorithmus eignet sich allerdings nur für einen Anteil von Web-Seiten. Viele Web-Seiten können noch nicht beschrieben werden, wodurch weitergehende Untersuchungen notwendig sind.
Die bisherigen Ergebnisse des Projektes ermöglichen bereits das Erfassen zeitlich veränderlicher Information für eine bestimmte Klasse von Web-Seiten, nämlich die, die durch vereinigungsfreie reguläre Grammatiken beschrieben werden können, und für eine bestimmte Klasse zeitlicher Änderungsmuster, nämlich die, die durch reguläre zeitliche Änderungen beschrieben werden können. Für diese Musterklassen wurde auch die Optimalität des neuen Verfahrens bereits nachgewiesen.

Publications

webmaster 25.06.2004