Objekterkennung und räumliche Orientierung für einen humanoiden Roboter zur Einbeziehung erkannter Objekte in Interaktionen mit Menschen
- Bachelorarbeit -
Description:
Eine Objekterkennung soll für den Roboter Pepper mit Hilfe eines LLM / VLM bzw. einem Computer Vision Modell getestet und umgesetzt werden. Die Grundidee ist, dass Pepper Objekte in seiner Umgebung erkennen, darauf zeigen und anschließend mithilfe eines LLM etwas darüber erzählen kann.
Dazu soll der Roboter über seine Kamera ein Bild von seiner Umgebung machen und dieses Bild sowie ein entsprechender Prompt (z.B. "Zeig mir bitte die Lampe!") werden an das LLM und das Computer Vision Modell weitergeleitet. Der generierte Antworttext soll von Pepper gesprochen werden, und zusätzlich soll der Roboter auf das erkannte Objekt zeigen.
Die Umsetzung erfolgt über Android Studios mit Java/Kotlin. Für die Objekterkennung ist eine Nutzung von OpenCV & Tensorflow geplant. Eine wesentliche Herausforderung ist die Datenübertragung und die Laufzeit vom Roboter zum LLM / VLM bzw. Computer Vision Model. Da Pepper nicht über ausreichende Rechenleistung verfügt, müssen die Verarbeitungsschritte für LLM sowie Computer Vision Modell über ein externe Schnittstelle online bzw. auf einem zusätzlichen Rechner oder Server ausgeführt werden.
Anforderungen/Kenntnisse:
Java / Kotlin, LLM / VLM, OpenCV / Tensorflow, Programmierung einer Applikation für den Roboter Pepper, Durchführung von Tests mit verschiedenen Personen
Bearbeitung:
Anh Quan Leon Dao
Betreuung:
Prof. Dr. rer.nat. Nele Rußwinkel
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 3101 5700

