Was weiß schon GPT ...?

Unlängst konnte man in der Presse lesen, dass mit der jüngsten Entwicklung um sogenannte große Sprachmodelle (large language models), wie sie etwa in der GPT-Familie genutzt werden, ein historisches Ereignis ungeahnten Ausmaßes, eine von Geschichtsbüchern der Zukunft aufgegriffene Zeitenwende eingeleitet worden sei. An dem wahren Erfolg und den Konsequenzen dieser Entwicklung scheiden sich dennoch nach wie vor die Geister. Manche glauben, der lang ersehnte Traum der KI sei wahr geworden, andere wiederum haben Angst vor nicht abzusehenden Entwicklungen, an deren Ende nicht zwingend das Wohl des Menschen stehe. Die häufig angesprochene black-box der meisten Verfahren des maschinellen Lernens scheint sich als die Büchse der Pandora zu entpuppen, die alles Unheil entlässt. Was keiner anzweifeln kann ist, dass jetzige Modelle viele Dinge beherrschen, die vorher nicht möglich, wohl aber angestrebt waren. Der jüngste offene Brief u.a. von namhaften Wissenschaftlern (auch der KI), der eine 6-monatige Pause in der Entwicklung von GPT fordert, ist nur einer von vielen Reaktionen auf eine immense Entwicklung, die man nicht unter Kontrolle zu haben scheint.

In diesem kurzen Text möchte ich aus der Perspektive eines Informatik-Dozenten erörtern, welche Lehren wir aus der Gesamtsituation insbesondere bezogen auf die Ausbildung in der Informatik ziehen können. Dafür werde ich auf die Rolle des Wissensbegriffs und die Rolle der Erkenntnistheorie und Wissensrepräsentation für die Informatik zu sprechen kommen.

Der Wissensbegriff von Platon

Ausgangspunkt ist die Beobachtung, dass viele (ebenfalls namhafte) Wissenschaftler die Leistung der GPT-Familie herunterspielen, indem sie darauf verweisen, dass derartige Systeme nicht wirklich "verstünden", was Sie als Instruktion im Systemprompt als Aufforderung eingetippt bekämen. Ihre Fähigkeit, Instruktionen richtig auszuführen, Dialoge zu führen, komplexe technische Aufgaben auszuführen etc. sei kein Ausdruck von erworbenem "Verständnis" und "Wissen", sondern das Resultat eines Optimierungsprozesses, der auf einer großen Menge von Daten laufen gelassen wird.

Ist das so? Um diese Frage zu beantworten, ist es wichtig, sich mit solchen Fragen auseinander zu setzen, die im Schnittgebiet der Kognitionswissenschaft, Philosophie, Psychologie und Informatik und insbesondere der Wissensrepräsentation, Logik und Erkenntnistheorie behandelt werden. Schon oben klang bereits die grundlegende Diskussion an, ob Maschinen/Softwareartefakte in einem genuinen Sinne Wissen erwerben oder über Wissen verfügen können. Nun ist die Wissensthematik aber gerade das Kerngebiet der Erkenntnistheorie und Epistemologie, deren wesentliche Fragestellungen bereits mit den Ausführungen des antiken Philosophen Platon ihren Anfang genommen haben und nun in einer modernen, formalen Variante in der Wissensrepräsentation und allgemein der Logik und der Informatik fortgesetzt werden.

Wenn wir also erörtern möchte, inwiefern GPT um die Dinge (nicht) weiß, die es als Antworten im Systemprompt ausspuckt, müssen wir uns unweigerlich die Frage stellen, in welchem Sinne "wissen" zu lesen ist. Diese Fragestellung wird in der Erkenntnistheorie und in der Epistemologie mit Fokus auf die zweistellige Beziehung "X weiß, dass p" analysiert. X steht dabei für einen Agenten und p ist ein Platzhalter für einen Satz. Die noch bis vor wenigen Jahrzehnten akzeptierte Definition von Wissen geht auf Platon zurück und lautet:

X weiß, dass p genau dann, wenn p wahr ist und X glaubt, dass p und X in seinem Glauben in p gerechtfertigt ist.

Platon hatte mit dieser Definition bereits wesentliche Aspekte des natürlichen Wissensbegriffs eingefangen. Dass diese Definition letztendlich in dieser Form nicht zur Gänze richtig sein kann - wie in einem 2-Seiten-Aufsatz mit Gegenbeispielen von Gettier gezeigt wurde (hier ein Link auf einen Wikipedia-Artikel) - ist nur ein Ausdruck davon, dass der Wissensbegriff nicht trivial ist.

Aspekte des Platon'schen Wissensbegriffs, GPT und Glauben

Der erste wesentliche Aspekt von Wissen gemäß Platon ist, dass man nur wahre Aussagen wissen kann. Vielfach wurde insbesondere bei GPT-3 darauf verwiesen, dass die Dinge, die GPT "behauptet", nicht der Wahrheit entsprächen. Per Definition können Sätze p, die falsch sind, nicht von GPT gewusst werden. Der Punkt der Kritik kann aber nicht sein, dass man sagt, GPT würde nicht alles wissen, weil er auch falsche Dinge behauptet. Der Mangel an Allwissenheit, deren Existenz auch aus formalen Gründen angezweifelt werden kann, kann also nicht der eigentliche Punkt der Kritik an der GPT-Familie sein. Schon eher spielt dort der zweite Punkt der Wissensdefinition von Platon eine Rolle, nämlich die Zuschreibung einer mentalen Attitüde, die Menschen eher zugesprochen wird als jedem anderen Agenten, nämlich, dass der Agent auch an p glaubt. Dass in Platons Definition der Glaubensbegriff als primitiv angenommen wird, also nicht definiert wird, dürfte nicht ohne Grund sein: diesen genau zu verstehen, scheint nochmals schwieriger zu sein als ein Verständnis für den Wissensbegriff zu entwickeln (weshalb einige Philosophen sich dafür ausgesprochen haben, den Wissensbegriff als primitives Konzept für eine Definition des Glaubensbegriffs zu Grunde zu legen.)

Die Kritiker von GPT können sich aber nicht einfach darauf zurückziehen zu behaupten, dass GPT nichts glauben könne, da "X glaubt p" nur für menschliche X anwendbar sei, da nur Menschen mentale Zustände haben können. Dass die Maschine keinen Geist besitzt und daher nicht glauben könne, wäre ein zu kurz gegriffenes Argument, das ein Nachdenken über diese Frage im Keim erstickte.

In Form von Softwareartefakten wie GPT möchten wir ebenfalls Kriterien angeben, wann sie etwas glauben oder nicht. Dass die GPT-Ingenieure von OpenAI bei kritischen (toxischen) Punkten GPT häufig in den Mund lägen, es habe keine Meinung, es glaube nichts, entbindet uns nicht der Frage, inwiefern ein solches System an Dinge glaubt, wenn wir doch auf ein solches System Kriterien anwenden können, gemäß derer wir beurteilen, ob ein Mensch etwas glaubt oder nicht. Sicherlich können wir nicht erwarten, eine kurze explizite Definition mit hinreichenden und notwendigen Bedingungen zu konzipieren. Aber wir können unser Verständnis des Glaubensbegriffs auf die Probe stellen, indem wir gewisse naheliegende Eigenschaften auf ihre Validität testen. Zum Beispiel können wir uns die Frage stellen, ob jemand, der an p glaubt, auch glauben muss, dass er an p glaubt. Eine kurze Überlegung zeigt, dass das nicht der Fall ist. Zum Beispiel kann meine 2-jährige Tochter daran glauben, dass ihr Bärchen Wunder vollbringt, ohne dass sie glaubt, dass sie es glaubt. Denn schließlich verfügt sie noch nicht einmal über den Begriff des Glaubens.

Der dritte Punkt bei Platon ist, dass der Glaube in p erfordert, dass eine gewisse Rechtfertigung in den Glauben an p vorliegt. Derjenige, der einfach auf gut Glück vermutet, dass p gilt, das sich letztendlich als wahr erweist, weiß p nicht im genuinen Sinne. Denn schließlich sollte es Gründe geben, die dazu führen, dass er p glaubt, die direkt mit p zu tun haben: Entweder war die Person direkt Augenzeuge von der Situation, die in p thematisiert wird oder sie hat es von einer sehr vertrauenswürdigen Person erfahren oder sie hat sich p valide aus bekannten Fakten erschlossen. In diesem Punkt lässt sich auch nicht von Anfang abstreiten, dass GPT Dinge, die es im Systemprompt ausgibt, nicht wüsste: Seine Rechtfertigung basiert auf einem Erfahrungsschatz (von Trainingsdaten) und einem ausgeklügelten Optimierungsmechanismus, der auf diesen Erfahrungsschatz angewandt wird.

Der modallogische Ansatz zum Wissensbegriff

Versucht man, menschliches Wissen und Glauben zu beschreiben, kommt man unweigerlich auf den Begriff eines mentalen Zustands. Man mag GPT mentale Zustände absprechen, aber interessanterweise kann man in rein abstraktem Sinne ein System von Zuständen aufsetzen und beschreiben, wie diese miteinander zusammenhängen. Dass die Zustände beim Menschen anders gestaltet sein mögen, müsste sich ja auch an einer Situation, in einer Operation auf oder einer Eigenschaft in den Zuständen zeigen. Und genau hier setzt die modallogische Perspektive auf den Wissens- und Glaubensgriff an, den wir hier diskutieren wollen. Die Basisidee modallogischen Perspektive hat sich in vielen Bereichen der Informatik etabliert und wird nicht nur zur Analyse und Anwendung des Wissensbegriffs, sondern auch zur Verifikation von Systemen (via Temporallogik) oder zur Analyse von geometrischen Konfigurationen verwendet.

In der modallogischen Perspektive, genauer in der Perspektive der epistemischen Logik, würde der Agent als Index an einem Wissensmodaloperator K_a vermerkt werden, der als satzbildender Satzoperator verstanden werden kann: Er bekommt als Input einen Satz p und gibt als Output wieder einen Satz. Vom syntaktischen Blickwinkel aus betrachtet, also grob gesprochen: rein grammatisch, verhält sich der Wissensoperator nicht anders als der satzbildender Satzoperator "Es ist nicht der Fall, dass p". Der entscheidende Unterschied zeigt sich darin, dass sich die Bedeutung des (klassischen Booleschen) Nicht-Operators rein auf der Basis des Wahrheitswertes von p festlegen lässt. Für welchen Satz p auch stehen mag, um den Wahrheitswert von "Es ist nicht der Fall, dass p" zu bestimmen, reicht es aus, den Wahrheitswert von p zu kennen: Ist p wahr, dann ist "Es ist nicht der Fall, dass p" falsch. Und ist p falsch, so ist "Es ist nicht der Fall, dass p" wahr.

Der entscheidende Punkt des Wissensoperators ist, dass eine rein wahrheitswerttheoretische Analyse des Wissensoperators nicht ausreicht. Sprich, um den Wahrheitswert von K_a p zu kennen, reicht es nicht aus, den Wahrheitswert von p zu kennen: Zum Beispiel wusste Sokrates, dass seine Frau Xanthippe heißt: p ist in diesem Fall die wahre Aussage, dass Sokrates Frau Xanthippe heißt. K_a steht für "Sokrates weiß, dass" und K_a p ist also wahr. Andererseits ist es eher unwahrscheinlich, dass Sokrates wusste, dass Fermats Vermutung wahr ist. Steht p' für den wahren Satz "Fermats Vermutung ist wahr", dann gilt in diesem Falle, dass K_a p' falsch ist, obwohl p und p' denselben Wahrheitswert haben.

Die ingeniöse Einsicht von Logikern wie Saul Kripke war es, die Semantik von modallogischen Operatoren wie dem Wissensoperator (weitere sind: "Es ist notwendig dass,..", "Es ist möglich, dass...", "Agent X glaubt, dass...") die wahrheitstheoretische Semantik um sogenannte mögliche Welten bzw. im Fall der epistemologischen Logik um epistemische Zustände und einer Erreichbarkeitsrelation zwischen den Welten/Zuständen zu erweitern. Ein Satz ist damit nicht nur wahr oder falsch, sondern wahr oder falsch in einer möglichen Welt/in einem möglichen Zustand.

Auf der Basis dieser so genannten Kripkemodelle schließlich lässt sich eine eindeutige Semantik der Modaloperatoren definieren, die die oben genannten Probleme einer wahrheitstheoretischen Semantik vermeidet. Das soll im Folgenden kurz angedeutet werden. Im Falle des Sokrates-Beispiels würde man neben der aktuellen Welt, in der Sokrates gelebt hat, weitere Welten ansetzen, die Sokrates als die aktuelle Welt erachtet: Auch wenn er auf dem altgriechischen Marktplätzen besonders umtriebig war, kann er nicht die komplette Umgebung, so wie sie wirklich ist, wahrgenommen haben. Von der aktuellen Welt würden wir hier eine Erreichbarkeitsrelation zu all diesen Welten vermerken. Es kann aber durchaus auch Welten geben, die von der aktuellen Welt von Sokrates nicht als möglich erachtet werden. Zu denen gäbe es keine Kante zu der aktuellen Welt. Für die semantische Beschreibung des Wissens von Sokrates sind die erreichbaren Welten in folgendem Sinne relevant: Sokrates weiß p genau dann, wenn p in allen erreichbaren Welten wahr ist.

In diesem modallogischen Ansatz zum Wissen sind einige Aspekte der Definition von Platon reflektiert. Üblicherweise wird angenommen, dass die Erreichbarkeitsrelation eine Äquivalenzrelation ist, d.h. sie ist reflexiv, symmetrisch und transitiv. Reflexivität drückt aus, dass von jeder Welt eine Kante auf sich selbst zurückgeht. Das reflektiert just die Forderung von Platon, dass man nur (die in der Welt) wahren Sätze wissen kann. Der Aspekt des gerechtfertigten Wissens, also der Aspekt, dass das Wissen nicht einfach per Zufall entstanden ist, ist implizit in der Kripkeschen Semantik des Wissensoperators angelegt, dass in allen (!) erreichbaren Welten die Aussage wahr sein muss.

In ähnlicher Weise wie der Wissensoperator ließe sich auch der Glaubensoperator in einem Kripkemodell definieren. Hier würde man allerdings nicht mehr fordern, dass die Relation reflexiv ist, da man ja schließlich auch an falsche Sätze glauben kann.

Es hat sich herausgestellt, dass sich eine einfache formale Beziehung von Glauben und Wissen, wie sie in Platons Definition zum Ausdruck gebracht wird, nicht identifizieren lässt. Schon einfache Aussagen über deren Beziehungen, so lässt sich formal beweisen, führen zum Resultat, dass der Glaubensoperator und der Wissensoperator identisch sind. Solche formalen Beweise, auch wenn sie zunächst ernüchternd erscheinen, sollten als Chance verstanden werden, unser Verständnis von Glauben und Wissen noch besser zu schulen und geeignetere Formalismen zu entwickeln.

Fazit

Ein Urteil darüber, ob ein öffentlicher Brief, der dazu auffordert, die Entwicklung an GPT zunächst zu stoppen, richtig ist, vermag ich hier nicht zu geben. Fakt aber ist, dass wir momentan mit unseren Erkenntnissen zum Wissensbegriff und mit der Entwicklung aus den genannten Gebieten der Erkenntnistheorie, Wissensrepräsentation und formalen Logik so weit hinterherhinken, dass wir in der Debatte zu GPT noch nicht die gewünschte formale Basis haben, um die Wirkprinzipien von GPT richtig einzuordnen, ganz konkret, um ein Urteil darüber abzugeben, ob GPT in einem genuinen Sinnen etwas weiß oder glaubt. Um hier gleich klarzustellen: Das Hinterhinken ist nicht (nur) als selbstverschuldetes Versäumnis derjenigen zu verstehen, die als Forschende und Lehrende zur Informatik beitragen. Die mit der Entwicklung von GPT erreichte Situation wirft tatsächlich auch neue Fragen auf, die so vorher vielleicht nicht aufkommen konnten. Um das zu illustrieren, will ich an die grundlegende Darstellung erinnern, in der der Wissensbegriff behandelt wird: Agent X weiß, dass p. Im Falle von einem Mitglied der GPT-Familie, sagen wir GPT-4, ist noch nicht einmal klar, ob die übliche KI-Lehrbuch-Kategorisierung von Agenten anwendbar ist. Mehr noch: Was genau meint man, wenn man von GPT-4 spricht: Das Programm selbst oder eine konkrete Instanz, die auf einem Server aufgerufen wird und genau die Fragen eines Nutzers beantwortet. Zusammen mit der Tatsache, dass die Antworten nicht-deterministisch sein können, ergibt sich tatsächlich hier die Frage danach, wem Wissen zugeschrieben wird.

Es ist richtig, dass die KI mit den Ansätzen des maschinellen Lernens einen ewig währenden Sommer zu erleben scheint. Um ein böses Erwachen in einem frostigen Winter zu vermeiden, ist es wichtig, nun innezuhalten und sich verstärkt um grundlegende Fragestellungen, Konzepte und Ansätze der Wissensrepräsentation, Erkenntnistheorie und der Logik (oder weiter: Philosophie) zu kümmern. Das gilt insbesondere für die Informatik-Ausbildung an Schulen und Universitäten, die eben nicht noch weitere reine ML-Ingenieure ausbilden sollen, sondern mündige reflektierte Informatiker, die wissen, was sie tun und auch wissen, was sie nicht wissen. Das ist auch die Leitlinie, der ich gemeinsam mit den Kolleg:innen von IFIS in Forschung und auch der Lehre mit Kursen wie etwa zu „Informationssystemen“, „Intelligente Agenten“, „Logikprogrammierung“ etc. folge. Denn nur wenn wir uns auch in der Informatik-Ausbildung um Themen der oben genannten Art bemühen, werden wir in der Lage sein, Systeme wie GPT letztendlich richtig einzuornden und verantwortungsvoll mit ihnen umzugehen. Erst dann ist ein echter Mehrwert von GPT-ähnlichen Systemen für Gesellschaft, Wirtschaft und Wissenschaft zu erwarten.

Für eine weitergehende Rechtfertigung der Grundhaltung dieses Essays, die sich mit dem Begriff "Intellektik" beschreiben lässt, verweise ich gerne auf das Essay meines Kollegen Prof. Dr. Ralf Möller.