Generating Subjective Content Descriptions using Transformer Language Models

- Masterarbeit -

Beschreibung:

Eine wichtige Aufgabe im Bereich der natürlichen Sprachverarbeitung ist es, natürlichsprachliche Texte zu verstehen und daraus Wissen abzuleiten. Beim Lesen eines Textes nutzt ein Mensch Wissen über die Welt, in der er lebt. Daher benötigt ein Agent, der einen Text verarbeitet, ähnliches Wissen, z. B. würde ein Mensch, bei dem Wort Bank in einem Text über Geld, davon ausgehen, dass es sich um ein Finanzinstitut handelt und nicht um etwas, auf dem man sitzen kann. Das Ziel von Subjective Content Descriptions (SCDs) ist es, solches kontextspezifisches Wissen zu natürlichsprachlichen Texten hinzuzufügen. In unserem Beispiel könnte die SCD ein weiterer Satz sein, der die Bank als Finanzinstitut definiert, oder ein Link zu einer Entität Finanzinstitut in einem Wissensgraphen.

In dieser Masterarbeit verwenden wir das bekannte Sprachmodell Bidirectional Encoder Representations from Transformers (BERT) und untersuchen, wie sich BERT zum Annotieren von Texten mit Subjective Content Descriptions (SCDs) einsetzen lässt.

Anforderungen/Kenntnisse:

Programmierung
- Python (Gensim, NumPy, Hugging Face Transformers)
- Docker
Theoretische Grundlagen
- Transformer (insbesondere BERT)
- Subjective Content Descriptions
- Natural Language Processing

Bearbeitung:
Magnus Bender

Ergebnis:
Die Ausarbeitung kann im Institut für Informationssysteme angefordert werden.

Betreuung:

Prof. Dr. rer. nat. Ralf Möller
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 3101 5700