Implementierung eines Automatic Speaker Recognition (ASR) Systems auf einem navel-Roboter zur Identifikation bekannter und Erweiterung um unbekannte Sprecher:innen
- Bachelorarbeit -
Description:
Ein Automatic Speaker Recognition (ASR) System erlaubt die Identifikation von Sprecher:innen durch die Analyse ihrer Sprachsignale. Hierbei können individuelle Sprechercharakteristika aus der Stimme der Sprecher:innen abgeleitet werden. Wird basierend auf diesen Daten ein neuronales Netz trainiert, kann ein bekannter Sprecher anhand kurzer Äußerungen identifiziert werden.
Die Fähigkeit, Interaktionspartner:innen identifizieren zu können, kann für einen Social Robot wie den navel Roboter wertvoll sein, um das Kommunikationsverhalten zu verbessern und individualisierte Antworten auf die Anfragen von Nutzenden zu geben.
So könnte bei einem Einsatz zu Unterstützung des Personals und der Patient:innen in einer Pflegeeinrichtung die Wiedererkennung von Sprecher:innen nützlich sein, um individualisierte Unterstützung anzubieten, z.B. durch Auskunft über den individuellen Tagesablaufplan.
Im hier vorliegenden Szenario liegt der Fokus also vor allem auf der Implementation einer Speaker- Identifikation, also der Bestimmung der Identität eines anonymen Speakers anhand von dessen Spracheingaben. Für das vorliegende Szenario wird eine modifizierte Version einer open-set Identifikation durchgeführt, bei der zunächst versucht wird, die Speaker-Identität aus einem Set bekannter Speaker zu identifizieren. Gelingt dies nicht, wird je nach Wunsch des Sprechers eine generische, nicht-personalisierte Auskunft gegeben oder eine kurze Trainingssequenz durchgeführt, durch die der Speaker zum Set bekannter Speaker hinzugefügt wird.
Um die Effektivität der ASR zu überprüfen, werden Probanden in einem Experiment gebeten, in einer initialen “Trainingsphase” ein kurzes Gespräch mit dem Social Robot navel zu führen, bei dem navel mehrere Fragen stellen wird. Die hierbei generierten Sprachdaten werden zum Training der ASR genutzt. In der direkt anschließenden “Testphase” nach Ende des ersten Gesprächs werden die Probanden zunächst einzeln, anschließend gemeinsam gebeten, erneut mit navel zu interagieren.
Hierbei sollen folgende Fragen untersucht werden:
- Wie viele Daten müssen in der “Trainingsphase” gesammelt werden, um einen Sprecher zuverlässig (in 90% der Fälle) zu erkennen?
- Haben individuelle Stimmcharakteristika einen Einfluss auf die Zuverlässigkeit der Sprechererkennung?
Anforderungen/Kenntnisse:
Programmierung der ASR in Python, Tests auf dem Roboter Navel, Durchführung einer Studie
Bearbeitung:
Lucie Klemusch
Betreuung:
Prof. Dr. rer.nat. Nele Rußwinkel
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 3101 5700