Sehr geehrte Damen und Herren,
ich freue mich, Sie heute zur achten Vorlesung unserer Reihe “Philosophie der AI” begrüßen zu dürfen. Heute möchte ich Ihnen das spannende Thema “AI-Akteure” vorstellen. Im Englischen wird der Begriff “Akteur” häufig mit “Agent” übersetzt. Da diese Übersetzung zumindest in Berlin eher Erinnerungen an den Kalten Krieg weckt als an künstliche Intelligenz, werde ich im Folgenden den Begriff “Akteur” verwenden. Ein AI-Akteur kann als eine Art handelnde künstliche Persönlichkeit verstanden werden, auch wenn es sich dabei natürlich nicht um eine menschliche Person, sondern um ein künstliches Intelligenzmodul handelt.
9.1 Was ist ein AI-Akteur und wie wird er gebaut?
In unserer heutigen Vorlesung werden wir ergründen, was genau ein AI-Akteur ist, wie er entwickelt wird und welche Kompetenzen er benötigt, um die vielfältigen Funktionen zu erfüllen, die wir gleich näher betrachten werden. Dazu möchte ich Ihnen zunächst unser Projekt “Magister Faustus” vorstellen. In diesem Projekt, dessen Details ich Ende nächster Woche online stellen werde, geht es darum, mit Hilfe von AI-Akteuren die Biografie von Johann Wolfgang von Goethe auf Basis der Goethe-Quellen der Stiftung Weimarer Klassik zu erforschen.
9.1.1 Sprach- und Bedeutungskompetenz als Basis
Wie gehen wir dabei vor? Die Basis bildet natürlich die beeindruckende Sprachkompetenz, die aktuelle AI-Modelle durch ihr Training bereits mitbringen. Sie sind in der Lage, Sprache nicht nur in Form von Symbolen zu verarbeiten, sondern tatsächlich die Bedeutungen der Ausdrücke zu erfassen. Das ist eine enorme Leistung und die Grundlage für die derzeitige Revolution im Bereich der künstlichen Intelligenz.
9.1.2 Wissen, Kompetenzen und Charakter
Doch Sprachkompetenz allein reicht bei weitem nicht aus. Wie wir bereits erforscht haben, fehlt es den aktuellen Modellen noch an Wissen und Kompetenzen in vielen anderen Bereichen sowie an spezifischen Charaktereigenschaften. Diese zusätzlichen Aspekte müssen wir definieren und den AI-Akteuren beibringen.
9.2 Apples Umsetzung von AI-Akteuren
Am Montag hat Apple auf seiner Entwicklerkonferenz seine eigene Umsetzung von AI-Akteuren vorgestellt. Was Sie hier auf meinem Rechner sehen, ist bereits die Developer-Version des neuen Apple-Betriebssystems. Die angekündigten Komponenten zur Sprachverarbeitung und -kompetenz sind darin allerdings noch nicht implementiert.
Dennoch möchte ich kurz skizzieren, warum ich glaube, dass wir uns mitten in einer technologischen Revolution befinden, die alle Bereiche des Lebens - Schule, Hochschule, Politik und Alltag - massiv verändern wird. Lassen Sie mich dazu einige Punkte aus der Apple-Präsentation herausgreifen:
Ende dieses Sommers sollen die KI-Modelle frei zugänglich sein - für jeden, der ein aktuelles Apple-Gerät mit dem neuen Betriebssystem nutzt, egal ob iPad, MacBook Air, MacBook Pro oder andere Geräte auf Basis des modernen “Apple Silicon” Prozessors. Ab Winter wird dies sogar für iPhones möglich sein.
Ein interessanter Aspekt ist die Ankündigung, dass ChatGPT 4.0 kostenlos sein wird. Jeder Nutzer eines entsprechenden Geräts wird die Funktionen, die wir hier studieren, kostenlos nutzen können. Ein kluger Schachzug, um die Verbreitung und Nutzung in allen Bereichen zu fördern.
Aktuell nutzen bereits 2,2 Milliarden Menschen weltweit Apples Geräte - eine enorme potenzielle Nutzerbasis für die neuen AI-Funktionen.
9.2.1 Multimediale Verarbeitung und tiefe Integration
Die Version, die man heute schon nutzen kann und die ich gleich für Demonstrationen verwenden werde, ist multimedial. Sie verarbeitet Text, Bilder, Audio und die gängigsten Videoformate mit Hilfe von künstlicher Intelligenz. All diese KI-Einheiten sind tief in die neuen Betriebssysteme integriert.
Wenn Sie beispielsweise E-Mails, PDFs oder Kalendereinträge auf Ihrem Gerät für den Zugriff durch die KI freigeben, kann der AI-Akteur direkt darauf zugreifen und die Informationen auswerten. Stellen Sie sich vor, Sie erhalten eine E-Mail, in der erwähnt wird, dass eine bestimmte Person in einem Monat Geburtstag hat. Sie könnten Ihr iPhone dann per Sprachbefehl anweisen: “Suche ein passendes Konzert als Geschenk für diese Person an ihrem Geburtstag.” Basierend auf den freigegebenen Informationen zu Ihrem Verhältnis zu dieser Person, ihren musikalischen Vorlieben usw. würde der AI-Akteur die Aufgabe analysieren und ein perfekt passendes Geschenk vorschlagen. Beeindruckend, finden Sie nicht?
9.2.2 Datenschutz und Privatsphäre
Natürlich geht damit auch die Sorge einher, ob und inwieweit die Privatsphäre dieser hochgradig persönlichen Informationen, die man dafür freigeben muss, geschützt ist. Apple hat in der Präsentation und in verschiedenen Workshops ausführlich dafür geworben, dass zwei technische Aspekte die Privatsphäre der Nutzerdaten sicherstellen:
Die weniger rechenintensiven KI-Anwendungen laufen direkt auf dem Gerät selbst, wofür die schnellen und leistungsfähigen “Apple Silicon” Prozessoren benötigt werden. Der Großteil der Informationsverarbeitung findet also lokal auf dem eigenen Gerät statt.
Für anspruchsvollere Berechnungen werden die Daten in einer speziellen, vollständig verschlüsselten Cloud verarbeitet. Diese Verschlüsselung soll so sicher sein, dass weder Apple selbst noch Sicherheitsbehörden darauf zugreifen können.
Ohne einen solchen Schutz der Privatsphäre wäre die Akzeptanz und Nutzung der neuen Möglichkeiten sicher deutlich eingeschränkt.
9.3 Philosophische Konzepte hinter AI-Akteuren
Lassen Sie uns nun zu den Funktionen selbst kommen. Die KI-Modelle basieren auf einem Konzept, das in der Philosophie als “Handlungsmodell” bezeichnet wird. Dabei geht es um den Zusammenhang zwischen zwei wesentlichen Komponenten: dem Ziel einer Handlung und dem “Belief”, also den Überzeugungen und dem Hintergrundwissen, auf deren Basis die Handlung ausgeführt wird, um dem Ziel näher zu kommen oder es zu erreichen.
9.3.1 Informationsquellen und Handlungsmodell
Zur Umsetzung dieses Handlungsmodells werden verschiedene Informationsquellen wie Texte, Bilder, Audio, Video und Nutzerdaten ausgewertet, die das Hintergrundwissen für den AI-Akteur bilden. Lassen Sie mich das anhand einer konkreten Anwendung demonstrieren.
Ich wechsle jetzt zu einer App, die im Wesentlichen ChatGPT ähnelt, aber nicht über die Webseite, sondern als eigenständige Anwendung läuft und sukzessive erweitert wird. Die von mir beschriebenen Konfigurationsmöglichkeiten und Erweiterungen sind hier noch nicht implementiert, aber das zugrundeliegende Konzept ist dasselbe.
Im Gegensatz zu unserem Vorgehen in der ersten Vorlesung müssen wir jetzt keine Texte mehr eingeben, hochladen oder tippen. Stattdessen können wir, wie im täglichen Umgang mit Computern üblich, einfach Informationen in einem Bild bereitstellen. Hier sehen Sie ein Beispiel dafür.
Die Aufgabenstellung habe ich der Einfachheit halber in Englisch formuliert, sie funktioniert aber genauso auf Deutsch. Es geht darum, die Instruktionen und das anzuwendende Verfahren so präzise und unmissverständlich zu formulieren, dass der AI-Akteur die Aufgabe exakt wie gewünscht ausführt.
Die meisten Modelle sind primär anhand englischer Texte trainiert, es gibt aber auch Modelle, die zusätzlich auf die acht wichtigsten europäischen Sprachen und insgesamt über 120 Sprachen und Varianten wie Katalanisch spezialisiert sind.
In meinem Beispiel habe ich die Anweisungen auf Englisch formuliert, was aber der einzige Grund für die Verwendung von Englisch ist. Lassen Sie mich die Struktur der Instruktionen für das Handlungsmodell auf Deutsch zusammenfassen:
- Zuerst wird das zu erreichende Ziel möglichst klar und präzise formuliert.
- Dann wird beschrieben, wie dieses Ziel erreicht werden soll, also die anzuwendende Methode.
- Schließlich werden die erforderlichen Hintergrundinformationen spezifiziert, die als Wissensgrundlage dienen.
Der Charme dieser KI-Modelle besteht darin, dass all dies in natürlicher Sprache geschieht - allerdings nicht umgangssprachlich, sondern möglichst präzise formuliert. Hier hat die Philosophie mit ihrer spezifischen Sprache und Methodik gewisse Vorteile.
Anders als in der letzten Woche erhält das Modell hier einen zusammenhängenden Textblock als Input. Ich gebe nicht an, wie dieser Text strukturiert ist. In der Instruktion sage ich lediglich, dass es sich um einen Text handelt, der aus mehreren Sätzen besteht.
Die eigentliche Aufgabe für das Modell besteht darin, zu bestimmen, ob dieser Text ein schlüssiges Argument enthält oder nicht. Dazu muss es zunächst die These identifizieren, für die in dem Text argumentiert wird. Anschließend muss es prüfen, ob die weiteren Sätze geeignet sind, die Wahrheit oder Falschheit dieser These zu begründen. Das ist eine anspruchsvolle inhaltliche Aufgabe.
Wie wir letzte Woche gesehen haben, liefern die standardmäßig trainierten Modelle einschließlich ChatGPT bei ungenauen Instruktionen oft keine zufriedenstellenden Ergebnisse. Ihnen fehlt noch die Anreicherung durch streng methodische, philosophische Verfahren. Deshalb habe ich das anzuwendende Verfahren hier in vier präzisen Schritten formuliert, die ich gegenüber der letzten Vorlesung noch weiter verfeinert habe.
Hier zeigt sich eine Besonderheit von AI-Akteuren: Genau wie bei menschlichen Akteuren ist eine Aufgabe meist nicht mit einem einzigen Schritt zu lösen, sondern erfordert eine Abfolge verschiedener Teilschritte. Denken Sie nur an die Lösung eines wissenschaftlichen Problems, für die Forscher oft ein ganzes Jahr im Labor arbeiten - von den Experimenten über die Auswertung bis hin zur Publikation der Ergebnisse in einem Journal. All diese Arbeitsschritte würden von einem AI-Akteur ausgeführt. Selbst wenn es sich dabei um Tausende einzelner Schritte handelt, stellt das für die KI kein Problem dar. Komplexität und Umfang sind für sie die geringsten Hürden.
Die von uns untersuchte Prüfung der Validität von Argumenten, also deren logische Schlüssigkeit, bildet den Kern jeder Bewertung von Hypothesen und Theorien. Sie ist essenziell für die Analyse der empirischen Basis, für die Prüfung von Kritik und Gegenargumenten und für die Falsifikation von Hypothesen. Die Grundlage dafür bilden die logischen Schlussverfahren, von denen wir hier die einfachste Variante, die Aussagenlogik, betrachten.
Interessanterweise lässt sich dieses Verfahren dem KI-Modell anhand von vier einfachen, umgangssprachlich formulierten Anweisungen beibringen. Das geht weit über die reine Sprachkompetenz hinaus. Lassen Sie mich die einzelnen Schritte kurz vorstellen, ohne jetzt auf jedes Detail einzugehen. Sie werden sehen, dass dahinter keine Magie, sondern durchsichtige Logik und elementare philosophische Methodik steckt.
- Unterteile den Text in nummerierte Sätze.
- Hier geht es darum, dem Modell zu vermitteln, was die Voraussetzungen für ein Argument sind: die Prämissen, die Konklusion, die These selbst. Das muss explizit gemacht werden. In der Philosophie ist der natürliche Ausgangspunkt dafür, mit Sätzen zu arbeiten, die wahr oder falsch sein können und Propositionen ausdrücken. Der erste Schritt besteht also darin, den Text in solche Sätze zu zerlegen.
Im Einzelfall kann das durchaus komplex sein, etwa wenn ganze Bücher oder Bibliotheken analysiert werden sollen. Stellen Sie sich vor, die Aufgabe lautet: Gibt es in der gesamten Bibliothek der Humboldt-Universität auch nur ein einziges Buch, das meiner These P widerspricht? Das ist manuell nicht zu bewältigen, für die KI aber durchaus lösbar. Um eine solche Aufgabe zu meistern, kann man das hier skizzierte Verfahren anwenden.
Beachten Sie, wie elegant und schlank dieses Verfahren ist. Mehr als die hier aufgeführten Schritte sind nicht erforderlich. Natürlich muss bei einem so umfangreichen Beispiel mit ganzen Bibliotheken noch etwas Infrastruktur bereitgestellt werden…## Einleitung in die Verarbeitung natürlicher Sprache mit AI-Modellen
In dieser Vorlesung möchte ich Ihnen zeigen, wie man mit modernen AI-Sprachmodellen natürliche Texte analysieren und logische Argumente auf ihre Schlüssigkeit überprüfen kann. Die Skalierung solcher Modelle stellt heutzutage kein Problem mehr dar. Lassen Sie mich Ihnen nun Schritt für Schritt erklären, wie man dabei vorgeht.
9.3.2 Zerlegung des Textes in Einzelsätze und Standardisierung
Zunächst werden alle zu analysierenden Texte segmentiert und in einzelne Sätze zerlegt. Im nächsten Schritt werden diese Sätze standardisiert, sodass die Verbindungen mit logischen Operatoren wie “und”, “oder”, “nicht”, “wenn…dann” einzelne Teilsätze miteinander verknüpfen. Hierbei bilden wir sogenannte propositionale Funktionen. Diese Begriffe sollten unbedingt verwendet werden, da die Modelle speziell dafür trainiert sind.
Es empfiehlt sich, verschiedene Formulierungen auszuprobieren - auch in Ihrer eigenen Sprache - um herauszufinden, ob das Programm die Instruktionen und das beschriebene Verfahren versteht. Falls nicht, müssen Sie Ihre Formulierungen so anpassen, dass das Sprachtraining die entsprechenden Begriffe erkennt.
9.3.3 Zuweisung von Buchstaben zu Aussagen gleicher Bedeutung
Ein wichtiger Schritt, den ich durch Ausprobieren herausgefunden habe und der nicht von vornherein vom Modell ausgeführt wurde, ist die Zuweisung des gleichen Buchstabens zu Aussagen mit derselben Bedeutung. Dies ist eine wunderbare Instruktion, die vor zwei Jahren noch nicht so einfach möglich war - egal wie leistungsfähig die Computer waren. Heute reicht es aus, einen Text als Methode zu formulieren, ohne auf technische Tricks zurückgreifen zu müssen.
9.3.4 Umsetzung des Arguments in eine kompakte Form
Im nächsten Schritt geht es darum, das Argument in eine kompakte Form zu überführen, an der man direkt ablesen kann, ob es schlüssig ist oder nicht. Dazu bilden wir einen neuen Ausdruck, in dem alle Voraussetzungen oder Prämissen durch eine “und”-Verknüpfung verbunden werden. Die Schlussfolgerung (Konklusion) aus diesen Prämissen wird dann über eine “wenn…dann”-Konstruktion dargestellt: Wenn die Voraussetzungen erfüllt sind, dann gilt die Konklusion. Ein einfaches Standardverfahren aus der Logik, das ich hier nochmals explizit als Regel formuliert habe.
9.3.5 Anwendung von Wahrheitstabellen zur Überprüfung der Schlüssigkeit
Der letzte Kniff, den ich in der vergangenen Stunde vorgestellt habe, ist ein alter Trick von Wittgenstein: ein Verfahren, das in diesem Fall mechanisch immer zu einer Lösung führt. Das Schöne daran ist, dass es nicht mit Wahrscheinlichkeiten arbeitet und nicht diskutiert werden kann. Das Verfahren ist eindeutig und liefert ein klares Ergebnis.
Bei endlichen Aussagen wenden wir Wahrheitstabellen an, in denen alle mit Buchstaben gekennzeichneten einfachen Aussagen mit Wahr- und Falsch-Werten kombiniert werden. Anschließend wird berechnet, ob der Gesamtausdruck des Arguments unabhängig von den Wahrheitswerten der einzelnen Aussagen wahr ist oder nicht. Ist dies der Fall, so ist das Argument schlüssig - ganz eindeutig und unmissverständlich. Das Programm muss dies nur entsprechend ausführen.
9.4 Demonstration des Verfahrens mit ChatGPT 4.0
Nun möchte ich Ihnen das beschriebene Verfahren anhand von ChatGPT 4.0 demonstrieren - jener Version, die Apple im Herbst kostenlos allen Nutzern zur Verfügung stellen wird. Jeder Besitzer eines Apple-Geräts wird darauf zugreifen können, wobei ich davon ausgehe, dass auch andere Anbieter wie Microsoft mit ihrem KI-Projekt OpenAI ähnliche Implementierungen für Windows-Systeme anbieten werden. Ob und inwieweit dies auch für Linux gelten wird, bleibt abzuwarten.
In der heutigen Zeit geht es nicht mehr darum, komplexe Programme zu schreiben. Stattdessen kommt es darauf an, präzise zu formulieren - eine spannende Herausforderung gerade für Philosophen.
9.4.1 Beispieltext und Fragestellung
Betrachten wir nun folgenden Beispieltext, den wir bereits in einer früheren Sitzung diskutiert haben und der einige von Ihnen möglicherweise etwas verwirrt hat:
- Wenn die Menschheit zu viel CO2 produziert, wird der Wasserspiegel der Ozeane ansteigen.
- Der Lebensstandard in Italien ist sehr hoch und die Menschheit produziert zu viel CO2.
- Der Lebensstandard in Indien ist nicht so hoch wie der in Italien.
- Heute finden Wahlen in Indien statt.
Die Schlussfolgerung lautet: “Deshalb wird der Wasserspiegel der Ozeane steigen.”
Die Frage, die sich uns stellt, ist: Handelt es sich hierbei um ein schlüssiges Argument? Manche lassen sich von den irrelevanten Zwischenannahmen irritieren und argumentieren, dass diese nichts mit der Konklusion zu tun haben. Das stimmt zwar, aber das Hinzufügen irrelevanter Informationen zu den Prämissen ändert nichts an der Schlüssigkeit der Schlussfolgerung.
Man könnte das Verfahren noch erweitern und zunächst alle irrelevanten Informationen aus dem zu untersuchenden Text entfernen. Der verbleibende Rest enthielte dann nur noch die für das Argument relevanten Aussagen. Für unsere Zwecke werden wir dies jedoch nicht tun, sondern prüfen, ob das Verfahren in seiner jetzigen Form wasserdicht ist.
9.4.2 Anforderungen an AI-Systeme
Von KI-Systemen und Machine-Learning-Implementierungen wird heutzutage nicht nur erwartet, dass sie ein Ergebnis liefern, sondern auch, dass sie nachvollziehbar erklären können, wie sie zu diesem Ergebnis gelangt sind. Jeder sollte in der Lage sein zu überprüfen, ob das Resultat korrekt ist. Die Akzeptanz des Ergebnisses darf nicht von der zugrundeliegenden Technik, dem Hersteller oder irgendeiner Autorität abhängen - insbesondere dann nicht, wenn die Befunde mit hoher Verantwortung weiterverwendet werden.
9.5 Interaktion mit dem AI-Agenten
Lassen Sie mich Ihnen nun zeigen, wie man mit dem AI-Agenten interagiert und welche Informationen diese App verarbeiten kann. Anstatt den Text wie in der letzten Stunde einfach zu kopieren, werde ich diesmal einen anderen Ansatz wählen.
9.5.1 Nutzung von ChatGPT und Antwortzeiten
Zunächst möchte ich anmerken, dass die Nutzung von ChatGPT derzeit in die Millionen geht. Obwohl massive Rechnerkapazitäten dahinterstehen, sind die Antwortzeiten aufgrund der enormen Nachfrage etwas langsamer geworden. Die derzeitige Infrastruktur schafft es nur knapp, die parallel eingehenden Anfragen zeitnah zu bearbeiten. Daher werde ich die Anfrage gleich starten.
9.5.2 Der AI-Agent als Diskussionspartner
Bevor ich dazu komme, möchte ich Ihnen noch verdeutlichen, wie der AI-Agent immer stärker zu einem echten Diskussions- und Austauschpartner wird. Wenn Sie das Kopfhörer-Symbol rechts unten anklicken, wird der Agent aktiv und meldet sich mit einer Frage wie “Kannst du mir mehr Details zu der Szene geben? Möchtest du, dass ich eine Geschichte daraus entwickle oder soll ich etwas Bestimmtes analysieren?”
Meine Antwort darauf könnte lauten: “Als Erstes rede nicht so viel, sondern mache das, was ich sage. Ein Agent wird wach und startet seine Mission.” Daraufhin antwortet der Agent sehr sachlich.
9.5.3 Verarbeitung von Bildern und Argumenten
Als Nächstes frage ich den Agenten: “Kannst du gleich ein Bild verarbeiten, mit dem ein Argument analysiert werden soll und dieses Ergebnis zurückgeben?” Der Agent bestätigt, dass er dazu in der Lage ist und bittet mich, das zu analysierende Bild hochzuladen.
Dieser Dialog mag in diesem Fall noch etwas unergiebig erscheinen, aber er verdeutlicht, wie man mit dem Agenten interagieren und interessante Gespräche führen kann - beispielsweise zur Lösung mathematischer Aufgaben.
Wie bereits erwähnt, sind diese Dialoge ein geschickter Kniff, um über die Interaktion den Nutzer mit seinem Weltwissen und seinen Begrifflichkeiten in die Antworten einzubeziehen. Die Leistung und das Ergebnis einer KI hängen somit nicht nur vom Modell selbst ab, sondern auch von der Interaktion. Daher kann man auch unvollständige Fragen stellen, wie ich es getan habe, als ich den Agenten fragte, ob er überhaupt Bilder verarbeiten kann.
9.5.4 Bilderkennung und Wissensgenerierung
Das Bild, das wir analysieren möchten, ist jenes, das ich in diesem Browserfenster angezeigt habe. Anstelle eines Arguments könnten Sie hier beispielsweise auch ein Foto des Eiffelturms einfügen und den Agenten fragen, um welches Gebäude es sich handelt und wann es erbaut wurde. Der Agent würde die Fragen in diesem Fall korrekt beantworten, wie ich bereits ausprobiert habe. Für unsere Zwecke bleiben wir jedoch bei unserem ursprünglichen Argument.
Um dem Agenten ein Bild zu übergeben, nutze ich die Funktion “Take a Screenshot”. Ich weise den Agenten an, dieses Fenster aufzunehmen, was gerade passiert ist. Das aufgenommene Bild sehen Sie nun in der unteren linken Ecke.
9.5.5 Extraktion und Verarbeitung von Textinformationen aus Bildern
Anstatt den Text aus dem Bild manuell zu extrahieren und in das Textfeld einzugeben, werde ich dem Agenten nun direkt die Anweisung erteilen: “Transkribiere den Text im Bild, interpretiere ihn und führe die darin enthaltene Instruktion aus.”
Wie Sie sehen, ist dies ein komplexer Prozess, der weit über das einfache Eingeben eines Befehls hinausgeht. Das Bild muss geladen, der Text extrahiert und korrigiert werden. Anschließend muss die Instruktion verstanden und ausgeführt werden. All dies erfordert eine enorme Informationsverarbeitungsleistung.
Nun übergebe ich die Aufgabe an den Agenten, indem ich auf den Pfeil klicke. Die Transkription des Bildtextes wird ausgegeben und der Agent wiederholt die verstandenen Inhalte, um die Instruktion zu präzisieren. Anschließend wird eine detaillierte Vorgehensweise ausgegeben.
9.5.6 Erläuterung der einzelnen Schritte
Wie von mir gefordert, protokolliert der Agent jeden einzelnen Schritt und gibt eine Erläuterung dazu aus. Leider kann ich die Ausgabe hier nicht vergrößern, aber ich werde versuchen, sie so gut wie möglich sichtbar zu machen.
Der erste Schritt bestand darin, den gesamten Text in einzelne Sätze zu zerlegen. Insgesamt wurden fünf Sätze erkannt und nummeriert. Im zweiten Schritt erfolgte die Standardisierung mit Buchstaben für die Teilsätze. Auch die logische Form wurde korrekt wiedergegeben.
In Schritt C wurden Aussagen mit gleicher Bedeutung demselben Buchstaben zugeordnet. Der Agent bestätigt, dass dieser Schritt erledigt ist und die Bedingung erfüllt wurde. Anschließend wurde in Schritt D eine propositionale Funktion des Arguments erzeugt.
9.5.7 Erstellung der Wahrheitstabelle
Nun folgt die Erstellung der Wahrheitstabelle, die ich zuvor erwähnt hatte. Hierbei handelt es sich um eine große Tabelle mit Wahr- und Falsch-Werten. Der eigentliche Rechenaufwand ist schnell erledigt, aber die Übertragung der Tabellen nimmt eine gewisse Zeit in Anspruch.
Abschließend wird geprüft, ob die jeweiligen Sätze, die in den Spalten die komplexen logischen Formen enthalten, so zusammenstehen, dass die Bedingung für schlüssige Argumente erfüllt ist oder nicht. Darauf warten wir jetzt gespannt.## Einleitung in die Nutzung von AI für die Prüfung logischer Argumente
Gestern habe ich einen ersten Versuch unternommen, ein Verfahren zur Prüfung logischer Argumente mit Hilfe eines AI-Akteurs zu entwickeln. Dabei habe ich zwar das Verfahren selbst angegeben, aber versäumt zu erklären, wozu es eigentlich dient. Die AI hat daraufhin pflichtgemäß eine Tabelle erstellt, dann aber ihre Arbeit beendet, ohne den eigentlichen Zweck - nämlich die Bewertung des Arguments als schlüssig oder nicht schlüssig - zu erfüllen.
Heute habe ich diese fehlende Angabe ergänzt und erwarte nun, dass die AI am Ende zu dem Befund kommt, dass das Argument tatsächlich schlüssig ist. Lassen Sie uns gemeinsam das Ergebnis betrachten.
9.6 Das Akteurmodell als Grundlage der Interaktion mit AI
Die AI führt nun für jede mögliche Kombination von Wahrheitswerten der Teilaussagen eine Beurteilung durch, ob der gegebene Text ein schlüssiges Argument enthält. Dieser Prozess basiert auf einem Akteurmodell, das vier wesentliche Informationen benötigt:
- Eine Zielvorgabe: Was soll erreicht oder erstellt werden?
- Die Informationen, auf deren Basis das Ziel verfolgt wird.
- Ein möglichst präzises Verfahren, das die einzelnen Schritte zur Zielerreichung beschreibt.
- Die Angabe, welches Ergebnis kommuniziert werden soll.
All diese Informationen können in Umgangssprache formuliert werden, ohne dass Programmierkenntnisse erforderlich sind. Das zugrundeliegende Schema einer solchen Instruktion ähnelt dem eines Rezepts, wie wir es aus Kochbüchern kennen: Es wird eine Handlungsanweisung gegeben, wie etwas zu tun ist, und am Ende steht bei korrekter Ausführung ein bestimmtes Ergebnis.
9.6.1 Die Bedeutung von Instruktionstexten in der Wissenschaft
Interessanterweise bestehen wissenschaftliche Texte zu einem großen Teil aus solchen rezeptartigen Handlungsanweisungen und nicht, wie man vielleicht vermuten würde, aus Aussagen über wahre und falsche Sachverhalte in der Welt. Man denke nur an pharmazeutische Texte, die beschreiben, wie bei einer bestimmten Krankheit welche Medikamente zubereitet, dosiert und verabreicht werden sollen.
Selbst in klassischen Werken wie Euklids “Elementen” besteht jeder geometrische Beweis aus zwei Teilen: Zunächst wird in einer Art Rezept erklärt, wie ein bestimmtes geometrisches Objekt, etwa ein Dreieck, zu konstruieren ist. Erst im Anschluss daran werden die Eigenschaften dieses Objekts bewiesen, was wir heute als den eigentlichen wissenschaftlichen Beweis ansehen würden.
Auch in modernen experimentellen Studien, seien es Laborexperimente oder Klimasimulationen, macht die Beschreibung des Versuchsaufbaus und der Durchführung einen Großteil des Textes aus. Erst auf dieser Basis werden dann die eigentlichen Ergebnisse präsentiert und diskutiert.
Insofern ist die Sprache der Instruktion keineswegs etwas Neues, sondern ein Kernbestandteil jeder Wissenschaft und auch des Alltagswissens. Das Schema ist immer das gleiche:
- Eine Handlungsinstruktion wird gegeben.
- Diese Instruktion wird ausgeführt.
- Ein Ergebnis wird erzielt und beurteilt, selbst wenn es sich um einen Fehlschlag handelt.
9.7 Die Anwendung des Instruktionsschemas auf AI-Akteure
Dieses Schema lässt sich nahtlos auf AI-Akteure übertragen, die im Prinzip das Gleiche tun wie menschliche Wissenschaftler. Da die Formulierung der Instruktionen weitgehend in Umgangssprache erfolgt, ist der Schritt hin zu einem von AI gesteuerten Wissenschafts- und Laborbetrieb gar nicht mehr so weit.
Wir haben gesehen, dass dieses Prinzip nicht nur für naturwissenschaftliche, sondern auch für geisteswissenschaftliche Forschungsaktivitäten gilt. Wir selbst können solche Instruktionen formulieren, da wir mit der Struktur und Handhabung vertraut sind.
9.7.1 Variationsmöglichkeiten der Instruktionen
Dabei lassen sich die Instruktionen durchaus variieren, etwa indem zusätzliche, für die Schlüssigkeit des Arguments irrelevante Informationen eingefügt werden. Die AI sollte dennoch in der Lage sein, die wesentlichen Schritte zu extrahieren und korrekt auszuführen.
9.7.2 Entwicklungspotenzial der Nutzungsschnittstellen
Momentan erfolgt die Interaktion mit den AI-Akteuren noch primär über Chat-Schnittstellen, doch ist absehbar, dass sich die Nutzungsweisen und Interfaces rasant weiterentwickeln werden. Neben ChatGPT gibt es bereits Konkurrenzprodukte wie Claude von Anthropic oder mein eigenes Startup Lettre AI, die zusätzliche Funktionen bieten. Bis zum zweiten Teil dieser Vorlesung im Wintersemester werden wir sicher schon ganz andere Schnittstellen sehen.
9.8 Ergebnisse und Perspektiven
Schauen wir uns nun an, ob die AI ihre Aufgabe zufriedenstellend gelöst hat. Die Tabelle wurde vollständig erstellt, und das System arbeitet noch immer daran, eine abschließende Beurteilung abzugeben. Tatsächlich hat es nun den Text korrekt als schlüssiges Argument eingestuft, ohne dass die Voraussetzungen explizit vorgegeben werden mussten.
Bemerkenswert ist nicht nur die Korrektheit des Ergebnisses, sondern auch die ausführliche Dokumentation der einzelnen Schritte, die praktisch publikationsreif ist. Die AI liefert eine vollständige, nachvollziehbare Erklärung, warum das Fazit gerechtfertigt ist.
9.8.1 Perspektiven für den Einsatz von AI
Dieses Vorgehen eröffnet weitreichende Perspektiven für den zukünftigen Einsatz von AI. Es genügt nicht, sich auf die Ergebnisse einfach zu verlassen - sie müssen überprüfbar sein, sei es durch unabhängige maschinelle Verfahren oder durch manuelle Kontrolle.
Man könnte etwa einen Meta-Agenten entwickeln, der die Korrektheit der angewandten Methodik und die Schlüssigkeit der Ergebnisse überprüft. Dieses Vorgehen wird in vielen Bereichen relevant werden, von der Erstellung von Steuerberichten über rechtliche Beurteilungen bis hin zu technischen Reparaturanleitungen.
Es ist absehbar, dass der Einsatz von AI das Arbeitsleben in Zukunft massiv verändern wird. Die Interaktionsmöglichkeiten werden sich rasant erweitern, etwa durch die Integration von Spracheingabe, das Hochladen von Dateien und Fotos oder die direkte Einbindung von Kamera-Inputs.
9.8.2 Ausblick auf die Entwicklung von Instruktionsbibliotheken
Ich erwarte, dass sich schon bald große öffentliche Bibliotheken mit Instruktionen für alle möglichen Verfahren entwickeln werden, sei es für etablierte Standardmethoden oder für individuelle Problemstellungen. Diese Instruktionen werden den Modellen nicht durch Sprachtrainingsdaten beigebracht, sondern als zusätzliche Komponenten oder “Engines” bereitgestellt.
Diese Entwicklung wird weitgehend unabhängig von den jeweiligen Chat-Firmen und ihren Sprachmodellen erfolgen. Die Ausführung der Instruktionen kann je nach Schwierigkeitsgrad auf unterschiedlich anspruchsvolle Modelle verteilt werden, von der lokalen Verarbeitung auf dem Endgerät bis hin zu Cloud-Servern für komplexere Aufgaben.
9.8.3 Perspektiven für kollaborative Forschung
Besonders spannend ist die Möglichkeit, die Ausführung der Instruktionen einer großen Community zu überlassen und so viele Akteure an einer gemeinsamen Problemstellung arbeiten zu lassen. Solche kollaborativen Ansätze hat es in der Wissenschaft zwar immer schon gegeben, sie wurden aber eher als Ausnahme wahrgenommen.
Aktuelle Großprojekte, etwa in der Astronomie, zeigen jedoch, dass tausende Akteure gemeinsam an Teilprojekten arbeiten können. Dieses Potenzial lässt sich durch den Einsatz von AI noch erheblich ausweiten und auf viele weitere Forschungsfelder übertragen.## Arbeitsteilige Prozesse in der Wissenschaft
In der heutigen Wissenschaftslandschaft sind arbeitsteilige Prozesse gang und gäbe. Man denke nur an das Paradebeispiel des Hochenergiebeschleunigers am CERN, wo jede einzelne Publikation derzeit noch mit Tausenden von Einzelwissenschaftlern als Autoren benannt wird, die alle ihren Beitrag zu einer Problemstellung leisten. Solche Vorgehensweisen sind sowohl in der Physik als auch in der Medizin Standard und üblich. In Zukunft könnten diese Aufgaben potenziell auch von AI-Akteuren übernommen werden, wobei nichts dagegen spricht, dass nur die Maschine in einer Universität all diese Arbeit leisten sollte.
9.9 Auswertung und Validitätsprüfung
Nach der Ausführung einer Handlung folgt die Auswertung. Hierbei geht es nicht nur darum, ein Protokoll der ausgeführten Handlungsinstruktion zu erstellen, sondern auch die Validität und Korrektheit des Ergebnisses zu prüfen. Dieser Schritt wird in den jetzigen AI-Modellen oft vernachlässigt oder gar nicht ausgeführt, was ein großer Fehler ist. Wenn wir manuell arbeiten, führen wir diese Prüfung auf die eine oder andere Weise durch. Nehmen wir das Beispiel einer Rechenaufgabe: Wenn wir eine Zahl als Ergebnis erhalten, lernen wir, dieses Ergebnis unabhängig vom Rechenverfahren auf Korrektheit zu prüfen - ein Standardverfahren, das schon die Babylonier vor 3000 Jahren anwendeten. Wir glauben nicht einfach einem Ergebnis, sondern überprüfen dessen Korrektheit.
9.9.1 Ablauf der Planausführung
Basierend auf dem Prüfungsergebnis wird oftmals ein Auswertungsschritt erforderlich, der festlegt, was als nächstes zu tun ist. Diese Abfolge bildet den Kern der Planausführung. Pläne sind hier als Sequenzen oder Abfolgen von Handlungen zu verstehen, die dazu führen, dass eine ursprünglich große und anspruchsvolle Aufgabe in Teilaufgaben zerlegt wird. Diese Teilaufgaben werden dann nacheinander ausgeführt, ihre Ergebnisse ausgewertet und geprüft. Je nach Prüfungsbefund verzweigt das Vorgehen auf den nächsten Schritt, beispielsweise die Bearbeitung des nächsten Teilschritts.
9.10 Standardisierung der Instruktion
Bevor eine Instruktion ausgeführt werden kann, muss sie zunächst standardisiert werden. Dies erfolgt auf der sprachphilosophischen Ebene, indem man versucht, umfangreiche Textinformationsquellen einschließlich Diktaten in Sätze zu übertragen. Die Bedeutung einzelner Ausdrücke hängt dabei vom Kontext des Satzes ab (Freges Kontextprinzip) oder präziser vom jeweiligen Sprachspiel, also dem Sprachkontext, in dem die Sprachverwendung erfolgt (Wittgensteins Spätphilosophie). Dieser Ansatz wird in den aktuellen Large Language Models implementiert und entsprechend analysiert.
9.10.1 Formanalyse und Inferenz
Nach der Standardisierung folgt die Formanalyse, bei der versucht wird, eine allgemeine Form der Problemstellung zu identifizieren. Dies kann dazu führen, dass komplizierte Texte in Aussagenmengen übertragen werden, auf die dann die Aussagenlogik angewendet werden kann. Darüber hinaus gibt es jedoch noch eine Vielzahl weiterer Module oder Engines, die über die reine Sprachkompetenz hinaus erforderlich sind, um spezifische Anforderungen zu erfüllen. Neben der Form spielt auch die Inferenz eine wichtige Rolle: Welche Schlüsse können aus dem Gegebenen gezogen werden? Hierfür hat die Philosophie seit 2000 Jahren verschiedene Instrumente entwickelt, die jetzt auf die Artificial Intelligence übertragen werden müssen.
9.10.2 Epistemische Inferenz
Besonders interessant für die Leistungsfähigkeit von AI-Modellen ist die epistemische Inferenz. “Epistemisch” leitet sich vom griechischen “episteme” ab, was Wissen im Sinne von mathematischem Wissen bezeichnet, in der modernen Sprache aber allgemein für Wissen und nicht Glauben steht. Die epistemische Inferenz umfasst Elemente der Rechtfertigung, Begründung, des Wissensanspruchs sowie der Beziehung zwischen Evidenz und daraus abgeleiteten Konsequenzen - Themen, mit denen sich die Philosophie schon lange beschäftigt. In der KI sind diese Aspekte derzeit noch nicht implementiert, aus meiner Perspektive jedoch von größter Bedeutung.
9.11 Logische Verfahren
Zur Formanalyse gehören verschiedene logische Verfahren wie die Satzlogik, die Prädikatenlogik, die Modallogik, das kausale Schließen und die temporale Logik.
- Die Satzlogik haben wir bereits kennengelernt.
- Die Prädikatenlogik zergliedert Sätze in Teilstrukturen und betrachtet deren Innenstruktur, bestehend aus Verben oder Prädikaten, die sich auf benannte Gegenstände beziehen und deren Eigenschaften beschreiben.
- Die Modallogik behandelt Operatoren wie Möglichkeit, Unmöglichkeit oder Notwendigkeit und wird beispielsweise bei der Formulierung von Normen verwendet.
- Das kausale Schließen befasst sich damit, wie Ursachen und Wirkungen miteinander in Bezug gesetzt werden können, um kausale Gesetzmäßigkeiten zu identifizieren und Aussagen über Ursachen-Wirkungszusammenhänge zu treffen. Dies ist von zentraler Bedeutung für das experimentelle Wissen aller empirischen Wissenschaften.
- Die temporale Logik macht Aussagen über die Zeitverhältnisse von Ereignissen, wobei es nicht nur um einzelne Zeitpunkte, sondern oft um Dauern geht.
9.11.1 Inferenzanalyse
Zur Inferenzanalyse verwenden wir derzeit hauptsächlich die Bool’sche Logik, die wir gerade kennengelernt haben. Daneben gibt es noch den Gänzenkalkül für Satzableitungen und kausale Regularitäten, die jedoch noch nicht wirklich funktionsfähig sind, aber in naher Zukunft entwickelt werden.
9.12 Epistemische Inferenz und Hermeneutik
Die epistemische Inferenz ist ein Bereich, der von der theoretischen Philosophie behandelt wird und für die Leistungsfähigkeit von AI-Modellen von besonderem Interesse ist. Hier geht es darum, Wahrheitsgründe aufgrund von Thesen anzugeben, wie wir es bei der Argumentanalyse zum Klimawandel gesehen haben. Es geht um Fragen wie:
- Welche Wahrheitsgründe liegen für bestimmte Ansprüche in der Wissenschaft vor?
- Welche Gründe sind umstritten oder werden bestritten?
- Warum sind Sachbefunde korrekt oder wahr?
- Was sind die rechtfertigenden Gründe?
All dies gehört zur epistemischen Evidenz und es gibt klare Verfahren, um diese zu identifizieren, wie wir bei der Argumentanalyse gesehen haben. Dazu gehören auch die Konsistenzprüfung auf interne Widersprüche und die Wissenskritik, bei der geprüft wird, ob beispielsweise die Rechtfertigungsgründe für eine These einer Kritik standhalten oder ob Lücken identifiziert werden können, die durch weitere Evidenz oder Studien geschlossen werden müssen.
Zur epistemischen Inferenz zähle ich aber auch die Hermeneutik, die sich damit befasst, unter welchen Bedingungen und mit welchen Gründen eine bestimmte Verständnisweise von vorliegenden Texten gerechtfertigt werden kann. Hier geht es um das Verstehen von Texten und Inhalten, also genau das, wozu KI in der Lage ist: Bedeutungen zu identifizieren. Dies geschieht nicht einfach so, sondern folgt bestimmten Regeln - den hermeneutischen Regeln des Bedeutungserschließens. Diese geben vor, wie man prüfen und dazu gelangen kann, die Inhalte von symbolischen Systemen zu erschließen.
9.12.1 Erschließung alter Sprachen
Ein faszinierendes Beispiel für die Anwendung hermeneutischer Regeln ist die Erschließung alter Sprachen wie der Hieroglyphen im alten Ägypten. Glücklicherweise fand man hier einen Übersetzungsstein mit einem hieroglyphischen Text, einer griechischen Übersetzung und einer koptischen Version, was ausreichte, um daraus ein System für diese Sprachen zu entwickeln. Es gibt jedoch immer noch Textzeugen, von denen man zwar annimmt, dass sie Sprachen enthalten, aber nicht weiß, um welche Sprache mit welchem Inhalt es sich handelt. Auch diese können mit hermeneutischen Verfahren bearbeitet und möglicherweise entschlüsselt werden.
9.13 Analyse der Wissenschaftsliteratur
Ein weiterer wichtiger Kompetenzbereich für zukünftige KI-Engines ist die Analyse der wissenschaftlichen Literatur. Wenn es stimmt, dass in der global zugänglichen Forschungsliteratur das gesamte Wissen der Menschheit enthalten ist, egal zu welcher Zeit und an welchem Ort auf unserem Globus, dann besteht die große Aufgabe der KI darin, die Inhalte dieser Literatur zu erschließen. Bisher gibt es dies noch nicht einmal im Ansatz. Digitalisierte Bibliotheken beschränken sich meist auf die Erschließung der Bibliothekskataloge, sodass man zwar feststellen kann, ob ein bestimmtes Werk in der Bibliothek vorhanden ist, und im besten Fall auf das PDF zugreifen kann, aber die eigentlichen Inhalte werden nicht erfasst. Der nächste Schritt wird also darin bestehen, die Inhalte des gesamten Wissens der Menschheit zu erfassen.
9.14 Das Handlungsmodell
Das Handlungsmodell, das wir heute kennengelernt haben, ist dasjenige, das alle KI-Modelle umsetzen, jedoch mit der Modifikation, dass sie eine Instruktion zur Kenntnis nehmen. In Zukunft werden wir wohl nicht nur Fotos von Instruktionen haben, sondern ganze Instruktionsbibliotheken, die für bestimmte Problemstellungen Verfahren angeben, wie damit umzugehen ist.
In einer Chatumgebung könnten die Instruktionen dann so reformuliert werden, dass man nachvollziehen kann, ob die Umsetzung durch die Maschine die Absichten der Anfrage erfüllt. Zudem sollte es eine Erklärung aller Ausführungsschritte geben, die zugleich auch eine Erklärung des Befundes und des Ergebnisses darstellt. Dies wäre die Normalform, in der jede Handlungsausführung eines solchen Modells gesammelt und ausgewertet werden sollte.