KI-gestützte Analyse und Klassifikation digitalisierter botanischer Sammlungen

- Masterarbeit -



Description:

Die Digitalisierung biologischer Sammlungen hat in den letzten Jahren eine immer größere Bedeutung gewonnen, insbesondere im Bereich der Zugänglichkeit wissenschaftlicher Daten und der Forschung an Zeitreihen, um die Entwicklung biologischer Trends zu analysieren. In vielen botanischen Gärten und Museen auf der ganzen Welt sind Millionen von Sammlungsobjekten digitalisiert worden. Es besteht jedoch weiterhin das Problem der Datenerfassung, denn die Daten sind häufig lediglich handschriftlich vorhanden. Die maschinelle Analyse von handschriftlichen Informationen ist nach wie vor schwierig und wird daher häufig entweder von Experten oder Citizen Scientists - Menschen mit keinen oder geringen Vorkenntnissen in dem speziellen Forschungsbereich - übernommen. Die Qualität der Daten ist bei dieser Praxis meist relativ hoch, der damit einhergehende Ressourcenaufwand jedoch auch. Optical-Character-Recognition (OCR) Ergebnisse sind meist weniger qualitativ hochwertig, aber der zeitliche und personelle Aufwand ist deutlich geringer. Im Bereich der wissenschaftlichen Forschung ist eine hohe Datenqualität von großer Relevanz, weswegen OCR-Algorithmen kaum ohne anschließende Kontrolle durch Experten oder Citizen-Scientists eingesetzt werden können.
Weiterhin ist die Verbindung kontextueller Informationen, wie die gleiche Handschrift oder eine zeitliche Nähe wissenschaftlicher Proben desselben Sammlers, zur Identifikation zusätzlicher Merkmale bisher nicht stark erforscht. Derartige Kontext-Analysen von vorhandenen Proben könnten weitere Informationen erschließen (wie etwa Höhenlage, Nähe zu Städten, etc.), die für die wissenschaftliche Forschung genutzt werden können. Künstliche Intelligenz (KI) bietet neue Möglichkeiten, um die Datenbestände systematisch zu analysieren, zu klassifizieren und zu nutzen. Ein besonderes Potenzial liegt in der Anpassung von KIs an konkrete Aufgaben. In diesem Szenario können sie trainiert werden, um schnell und mit möglichst hoher Zuverlässigkeit Verbindungen zwischen biologischen Proben zu erkennen und automatisch weitere für die Forschung relevante Informationen erschließen. Auf Grundlage dieser Funde können weitere Qualitätssicherungsaspekte, wie Expertenvalidierungen, angewendet werden, um die Qualität der Daten zu gewährleisten.
Diese Masterarbeit soll untersuchen, wie KI dazu genutzt werden kann, bestimmte Merkmale der Digitalisate zu extrahieren, mit deren Hilfe zusätzliche Kontextinformationen erschlossen werden können. Es soll auch erforscht werden, welche konkreten Kriterien genutzt werden sollten, um
möglichst akkurate und vollständige Zusatzinformationen zu sammeln. Insgesamt sollen durch die Masterarbeit die Möglichkeiten wissenschaftlicher Forschung verbessert und Ressourcen gespart werden.

Anforderungen/Kenntnisse:

Machine Learning

Bearbeitung:

A. Kessel

Betreuung:

Dr. Jinghua Groppe
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 3101 5711

Prof. Dr. rer. nat. habil. Sven Groppe
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 3101 5706