Automatisierte Extraktion aus handschriftlichen Pflegenotizen zur Nutzung in einem Pflege-Roboter: OCR, VLM und Visual RAG im Vergleich
- Bachelorarbeit -
Description:
Die tägliche Dokumentation in Pflegeheimen, die häufig aus umfangreichen, handschriftlichen Notizen verschiedener Mitarbeitender besteht, stellt eine erhebliche Herausforderung dar. Die Schriftbilder und „Schriftarten“ sind sehr vielfältig und oftmals schwer zu entziffern; unterschiedliche Stiftarten, Mischungen aus Druck- und Schreibschrift sowie individuelle Abkürzungen und Ligaturen erhöhen die Fehleranfälligkeit klassischer OCR und erschweren die schnelle Auffindbarkeit kritischer Informationen, etwa zur Medikamentengabe oder zu Veränderungen im Zustandsbild von Bewohnerinnen und Bewohnern.
Diese Bachelorarbeit untersucht und vergleicht KI-basierte Ansätze zur automatisierten Extraktion und Zusammenfassung von Informationen aus solchen handschriftlichen Dokumenten, mit dem Ziel, eine effiziente und skalierbare Lösung zu identifizieren. Hierzu werden drei Architekturen steigender Komplexität implementiert und evaluiert: (1) ein klassischer Pipeline-Ansatz aus Optical Character Recognition (OCR) und nachgeschaltetem Large Language Model (LLM) für die Extraktion; (2) ein moderner End- to-End-Ansatz, der ein Visual Language Model (VLM) im Zero-Shot-Setting nutzt, um Text direkt aus dem Bild zu erkennen und zu verarbeiten; und (3) ein spezialisierter Ansatz, der ein feinabgestimmtes VLM mit einer Visual Retrieval-Augmented Generation (VRAG) kombiniert, um auch mehrseitige, komplexe Dokumente effizient zu analysieren.
Die Leistung der Ansätze wird auf einem synthetischen, aber realitätsnahen Datensatz handschriftlicher Pflege-Notizen bewertet, der ausdrücklich diverse, schwer lesbare Schriftbilder und Schriftvariationen abdeckt. Als Metriken dienen die Extraktionsgenauigkeit (F1-Score) und die Qualität der Zusammenfassung (ROUGE). Es wird hypothesiert, dass der direkte VLM-Ansatz die traditionelle OCR-Pipeline deutlich übertrifft, da er visuellen Kontext nutzt und implizite Fehlerkorrektur ermöglicht. Zudem wird erwartet, dass der durch Fine-Tuning und VRAG erweiterte Ansatz die robusteste und skalierbarste Lösung darstellt, indem er relevante Informationen selektiv aus dem Gesamtkontext des Dokuments abruft.
Getestet werden die Verfahren mit einem im Pflege-Kontext eingesetzten Roboter, der handschrifliche Notizen mit Hilfe seiner Kamera erkennen und in Dialoge und Aktionen einbeziehen können soll. Die Ergebnisse können eine quantitative Bewertung moderner KI-Verfahren für Pflegedokumentation bzw. eine Einbeziehung handschriftlicher Notizen in die Pflege-Robotik liefern und das Potenzial VLM-basierter Architekturen demonstrieren, die Arbeitslast des Pflegepersonals zu reduzieren und die Verfügbarkeit von Informationen zu verbessern.
Anforderungen/Kenntnisse:
Handschriftenerkennung mit OCR, Training von LLMs, Aufbereitung für LLM / VLM Prompts, Tests auf einem Roboter mit unterschiedlichen Personen / unterschiedlichen Handschriften
Bearbeitung:
Bashar Alsamar
Betreuung:
Prof. Dr. rer.nat. Nele Rußwinkel
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 3101 5700

