Topic Modellierung für die Zuordnung von Nachrichten zu Sachbearbeitern

- Bachelorarbeit -


Beschreibung:

Täglich werden gewaltige Mengen an Daten erzeugt, die organisiert, gespeichert und verstanden werden müssen. Im Bereich der Analyse von Textdaten, beispielsweise bei der automatischen Zuordnung von Kundenmails zu der jeweils relevanten Abteilung, bieten sich Methoden der Topic-Modellierung an. Dabei werden Wörter, die häufig zusammen vorkommen, zu einem Topic – also einem Thema – statistisch gruppiert. Die wohl bekannteste Methode ist die Latent Dirichlet Allocation (LDA), bei der die Dokumente als eine Mischung aus verschiedenen Topics und die Topics wiederum als Mischung aus verschiedenen Wörtern betrachtet werden. Ein dieser Arbeit zugrunde liegender und auf der LDA-Methode basierender Algorithmus soll anhand von Praxisdaten dahingehend überprüft werden, wie die Qualität der Eingangsdaten das Zuordnungsergebnis von Kundenmails zu der relevanten Abteilung beeinflusst. Dazu wurden im Rahmen dieser Arbeit mithilfe der LDA-Methode 18 Topics aus über 100.000 Kundenmails generiert und die Überschneidungen mit der jeweils manuell durchgeführten Zuordnung zur relevanten Abteilung verglichen und analysiert. In einem ersten Analyseschritt konnte erwartungsgemäß aufgezeigt werden, dass die Zuordnung schlechter war, wenn das Topic aus wenigen Dokumenten bestand und nur wenige Dokumente für eine Abteilung vorlagen. Die Menge der Eingangsdaten stellt somit einen relevanten Parameter dar. Zur weiteren Analyse wurden je Topic die 5 häufigsten ermittelten Wortnennungen – also die Wörter, die dem Algorithmus zufolge das Topic am stärksten beschreiben – miteinander verglichen. Die Analyse zeigt deutlich, dass diese häufig Wörter mit sehr niedriger semantischer Aussagekraft waren. Sie bestanden häufig aus irrelevanten Begriffen von wiederkehrenden Firmennamen, Begrüßungsformeln und allgemeinen Phrasen. In der Konsequenz lässt sich feststellen, dass der Bereinigung des Mailinhalts bzw. der Datensätze grundsätzlich eine besondere Bedeutung zukommt, da ansonsten keine eindeutige Mustererkennung und somit keine sinnvolle, automatisierte Zuordnung (Klassifizierung) möglich ist. Ein durchaus leistungsfähiger Algorithmus verliert durch eine schlechte Datenqualität an Wirkung – bis hin zur Fehlaussage.

Anforderungen/Kenntnisse:

- Grundlagen Python 

- Kenntnisse der grundlegenden Statistik

Bearbeitung:
Leonard Brenk

Ergebnis:
Die Ausarbeitung kann im Institut für Informationssysteme angefordert werden.

Betreuung:

Prof. Dr. rer. nat. Ralf Möller
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 3101 5700