Blog
Das US-amerikanische KI-Unternehmen OpenAI – einst als Non-Profit-Organisation gestartet – hat in den vergangenen zwei Jahren mehrere sogenannte Generative Pretrained Transformer (GPT)-Systeme (GPT, GPT-2, GPT-3) veröffentlicht, die in den Medien große Beachtung fanden und oft als Natural Language Generation (NLG)-Systeme beschrieben werden. GPT-Systeme unterscheiden sich jedoch stark von dem NLG-Ansatz, den Retresco zur Entwicklung seiner Lösungen nutzt. Im Gespräch mit unserem Machine Learning Experten Tobias Günther soll versucht werden, das Geheimnis von GPT-3 zu entschlüsseln.
Frage: OpenAI bietet seit Juni 2020 mit GPT-3 einen KI-basierten Textgenerierungsservice als kommerzielles Produkt in der Cloud an. Die Leistungsfähigkeit des Systems soll beindruckend sein: Speist man ein kurzes Textbeispiel als Input ein, erweitert GPT-3 diesen Baustein inhaltlich und grammatikalisch passend. Wie schätzt du als Machine Learning Experte die Fähigkeiten des Systems ein?
Tobias Günther: GPT-3 hat ohne Frage Fähigkeiten, die andere Systeme bislang in der Form nicht hatten. Es gibt in der Tat viele Beispiele, die beeindruckend sind und mit deren Machbarkeit auch viele Experten vor kurzer Zeit noch nicht gerechnet hätten. Ich denke da beispielweise an die Fähigkeit, sinnvolle Antworten auf Fragen zu generieren, die ein gewisses Maß an Weltwissen erfordern oder ausformulierte E-Mail-Antworten aus Stichpunkten zu generieren. Spannend ist auch, dass das System neben natürlicher Sprache auch Website-Designs oder Gitarrentabulatur generieren kann. Das zeigt die Generalisierungsfähigkeiten des Systems.
Man darf allerdings nicht vergessen, dass viele Beispiele die herausgepickten Rosinen unter vielen generierten Texten sind oder aber vom Menschen unterstützt erzeugt wurden. Das System generiert den Text, aber der Mensch wählt die beste Variante unter mehreren – und teilweise sinnlosen – aus. Das soll nicht heißen, dass ein solches System nicht nützlich sein kann; aber für welche Anwendungsfälle GPT-3 in der Praxis tatsächlich zu gebrauchen ist, wird sich erst noch herausstellen müssen. Das Potential dazu ist aber auf jeden Fall vorhanden.
Frage: Kannst du – in sehr einfachen Worten – kurz beschreiben, wie ein solches System funktioniert?
Tobias Günther: GPT-3 ist ein Neuronales Netz, das als sogenanntes Sprachmodell trainiert wurde. Sprachmodelle sind Systeme, die darauf trainiert sind, eine gegebene Eingabe weiterzuführen. Das Praktische an Sprachmodellen ist, dass man nichts weiter als eine große Menge von Texten braucht, um diese zu trainieren. Man füttert z.B. den Anfang eines Satzes in das System, und je nachdem, ob das System das nächste Wort des Satzes richtig voraussagt oder nicht, werden die Parameter des Neuronalen Netzes durch ein positives oder negatives Signal angepasst. Das Ganze passiert beim Training dann ein paar hundert Milliarden Mal.
Das Neue an GPT-3 ist die mit 175 Milliarden Parametern vorher nicht dagewesene Größe des Neuronalen Netzes, welches auf riesigen Textmengen bestehend aus Wikipedia, Büchern und Internetcrawls trainiert wurde. Auch wenn die Fähigkeiten eines Systems dieses Ausmaßes beeindruckend sind, sollte man nicht vergessen, dass es sich unter der Haube “nur” um aus den Trainingsdaten abgeleitete Statistiken handelt, die ein tatsächliches Verständnis der Sachverhalte lediglich simulieren.
Frage: In welcher Hinsicht unterscheidet sich die NLG-Technologie von Retresco – und vermutlich auch von allen anderen NLG-Anbietern – von dem technologischen Ansatz, den OpenAI bei GPT-3 verfolgt?
Tobias Günther: Bei Retresco arbeiten wir im Bereich NLG zurzeit mit einen Template-basierten Ansatz, der auf von Menschen geschriebenen Textbausteinen basiert. Unsere linguistischen KI-Komponenten kümmern sich dabei um Problemstellungen wie die richtige Flexion der Wörter, so dass beim Zusammensetzen der Bausteine grammatikalisch korrekte Sätze entstehen.
GPT-3 hingegen ist ein End-to-End System, das Texte komplett selbstständig generiert. Es gibt hier keine Zwischenschritte und keine Komponenten für Teilaufgaben mehr, sondern einzig und allein das Neuronale Netz, welches für eine gegebene Eingabe eine Ausgabe erzeugt.
Frage: Im Vergleich zu GPT-3: Was sind die Vorteile und Nachteile der NLG-Ansätze, die Retresco verfolgt? Kann man das überhaupt so einfach definieren? Oder gibt es für jedes System jeweils individuell vorteilhaftere Einsatzgebiete?
Tobias Günther: Der große Vorteil von Template-basierter Textgenerierung im Geschäftskontext ist die Kontrollierbarkeit des Ansatzes. Es kann garantiert werden, dass das System keine abstrusen oder unerwünschten Sätze generiert. Wenn es Probleme gibt, bestehen Eingriffsmöglichkeiten. GPT-3 hingegen ist eine Black Box, deren Generierungslogik nicht erklärbar ist. Im Geschäftseinsatz sind diese Eigenschaften sehr wichtig, insbesondere wenn es um die Generierung von großen Mengen an korrekten Texten geht, die ohne manuelle Kontrolle verwendet werden sollen.
Die Einsatzgebiete von GPT-3 sehe ich eher bei Human-in-the-Loop Systemen, also Anwendungsfälle, in denen die generierten Texte noch einmal von einem Menschen gelesen, eventuell korrigiert und dann freigegeben werden. Ein großer Vorteil ist natürlich, dass bei GPT-3 dafür keine initiale manuelle Arbeit, wie das Schreiben von Templates, anfällt. Auch zur Unterstützung von kreativen Aufgaben sind viele interessante Einsatzmöglichkeiten denkbar.
Welche Kosten für die Benutzung von GPT-3 anfallen werden, wissen wir zu diesem Zeitpunkt noch nicht. Genauso ist unklar, ob es On-Premise Lösungen für datenschutzsensitive Anwendungsbereiche geben wird. Die Hardwareanforderungen, um ein Neuronales Netz mit der Größe von GPT-3 zu betreiben, sind in jedem Fall um ein Vielfaches höher als die eines Template-basierten Ansatzes. Alleine die Kosten für das einmalige Training des Modells lagen bei vier bis fünf Millionen Dollar.
Frage: Im Februar 2019 hatte sich OpenAI dazu entschlossen, seine neue Softwareversion GPT-2 nicht frei zugänglich zu veröffentlichen – die Begründung: Zu leistungsstark und zu gefährlich sei das System, da es beispielweise zur massenhaften Erstellung von Fake News missbraucht werden könne. Wie schätzt du als Experte dieses Risiko ein?
Tobias Günther: Das Risiko, dass Technologie – wie mächtige Sprachmodelle – für schädliche Zwecke missbraucht werden kann, sehe ich gegeben. Daher finde ich es richtig und wichtig, Diskussionen über solche ethischen Gesichtspunkte zu führen. Dazu gehört zum Beispiel auch der Umgang mit Bias in den Trainingsdaten, der zur Produktion von rassistischen Stereotypen führen kann.Wenn es um die Veröffentlichung der Modelle geht, kann man sicherlich gute Gründe dafür als auch dagegen finden. Hinsichtlich der Kommunikation hätte ich mir allerdings eine etwas besonnenere Wortwahl gewünscht.
Frage: Die Süddeutsche Zeitung schreibt: “Die Software hat potenziell Zugriff auf große Teile des Weltwissens, hat aber gleichzeitig große Probleme damit, zu erkennen, wann sie mit Unsinn gefüttert wird.” Ist der NLG-Ansatz von Retresco davor geschützt?
Tobias Günther: Ich glaube, dass kein existierendes System vor der alten Informatikerweisheit “Garbage In, Garbage Out” gefeit ist. Ein Unterschied besteht aber bestimmt in der Erwartungshaltung. Während unsere Systeme für einen ganz speziellen Anwendungsfall geschaffen werden, ist der Anspruch von GPT-3 ja universell einsetzbar zu sein. Das bedeutet natürlich auch, dass Eingaben für GPT-3 wesentlich diverser sein werden als für unsere Systeme. Wie man Neuronalen Netzen antrainieren kann zu erkennen, wann sie etwas nicht wissen, ist sicherlich eine der spannenden Forschungsfragen in der Zukunft. Mit dem richtigen Priming zeigt GPT-3 allerdings auch heute schon Ansätze, unsinnige Eingaben zu erkennen.
Frage: Zum Schluss noch ein Blick in die berühmte Glaskugel: Wo wird NLG 2030 stehen?
Tobias Günther: Ich denke, dass die Anwendung von NLG in den nächsten Jahren mehr und mehr zunehmen wird. Dabei werden Template-basierte und End-to-End Ansätze ergänzend zueinander eingesetzt werden. Die rasante Entwicklung, die generell im Bereich Künstliche Intelligenz in den letzten Jahren stattgefunden hat, wird hier nicht aufhören, sondern durch bessere Hardware, klügere Architekturen, eine stetig wachsende Forschungsgemeinde und immer größere Investitionen in den Bereich weitergehen. Gerade für End-to-End Systeme wie GPT-3 und dessen Nachfolger gibt es aber auch noch gewaltige Hürden zu meistern, bei denen die Forschung noch ganz am Anfang steht, wie z.B. den Umgang mit Bias in den Trainingsdaten. Wie wird es mit der Generierung von Sprachen aussehen, für die es nicht so viele Trainingsdaten gibt, wie für das Englische? Und es stellt sich die Frage, wann bzw. ob unser Vertrauen in die Fähigkeiten von End–to-End-Systemen irgendwann so groß sein wird, dass wir ihnen kritische Aufgaben ohne menschliche Kontrolle anvertrauen werden, obwohl die Entscheidungsprozesse nicht erklär- und garantierbar sind. Bei einem bin ich mir allerdings sicher: Durch das große Potential werden wir 2030 NLG in Anwendungsfeldern sehen, die wir uns heute noch nicht vorstellen können.
Über Retresco
Retresco unterstützt Unternehmen bei der Automatisierung textbasierter Geschäftsprozesse durch Künstliche Intelligenz und steigert maßgeblich deren operative Effizienz. Als Pionier im Bereich KI-basierter Sprachtechnologien setzt das Berliner Tech-Unternehmen seit 2008 Maßstäbe in der automatisierten Erstellung von hochwertigen Texten sowie der Analyse von Sprache.