MAGAZINE

Sprachmodelle mithilfe von Reinforcement Learning zur Selbstkorrektur trainieren: Ein neuer Ansatz

An image depicting a brain intertwined with a circuit board, reflecting AI's progress and its transformative role in the workforce as AI progresses with a self-correcting score system. The image looks at the future of human work with AI and the lengths it already achieved.

Das wird nun etwas technischer und es wird auch etwas länger. Wie viele andere auch, konnte ich mich früh mit dem neuen Modell von OpenAI o1-preview beschäftigen. Das Versprechen, dass Halluzination weitgehend Geschichte ist, kann das Modell nicht einhalten. Es erfindet noch immer Antworten auf Fragen, die man nicht beantworten kann – aber es ist eine wesentliche Verbesserung. In diesem Text möchte ich beleuchten, wie diese Verbesserung erreicht wurde. 

Mein Lieblingsbeispiel:

"Wann hat die New York Times das erste Mal über künstliche Intelligenz berichtet?"

“Die New York Times berichtete erstmals über künstliche Intelligenz (KI) am 8. Juli 1956. Der Artikel trug den Titel “A Conference at Dartmouth, Organized by John McCarthy, Will Explore the Idea of a ‘Thinking Machine’” und bezog sich auf die Dartmouth Conference, die oft als Geburtsstunde der künstlichen Intelligenz betrachtet wird. Die Konferenz wurde von John McCarthy, Marvin Minsky, Nathaniel Rochester und Claude Shannon organisiert und legte den Grundstein für die KI-Forschung, wie wir sie heute kennen.”

– ChatGPT, Modell 4o, 2024

Das Modell 4o hat auf diese Anfrage (bewusst ohne Kontext und Target) noch über einen wunderbaren Artikel berichtet, der im Archiv der NYT aufzufinden sei. Auf Nachfrage erkennt das Modell, dass es darauf keinen Link findet und gesteht später im Modell ein, dass es frei erfunden ist und dieser Artikel nie erschienen ist. Das Modell o1, das wir nun vor uns haben, erfindet zumindest keinen Artikel mehr dazu, aber auch dieses Modell ist um eine Antwort nicht verlegen – und diese Antwort ist noch immer falsch.

Anmerkung:

Das Beispiel mit dieser Frage ist aus mehreren Gründen interessant: Der Hype um diese Konferenz, “Dartmouth Summer of Artificial Intelligence” 1956 als Geburtsstunde der KI-Forschung, entstand erst in den späten 1960er Jahren. Also zumindest 10 Jahre später. Die hochkarätige Konferenz selbst hatte keinerlei Ergebnisse, die in wissenschaftlichen Papers festgehalten worden wären. Der stochastische Papagei LLM erfindet diese Ergebnisse anhand von Wahrscheinlichkeiten. Es muss dazu einfach Material geben - gibt es aber nicht. Sie datieren die Veröffentlichungen auf das Jahr der Konferenz 1956. All das ist frei erfunden.

An image depicting a brain overlaid on a circuit board, illustrating the fusion of cognitive science and technological innovation.

Bei aller Halluzination aber haben große Sprachmodelle (Large Language Modells – LLMs) die Art und Weise, wie Maschinen mit Sprache interagieren können, revolutioniert. Eine ihrer größten Herausforderungen bleibt jedoch die Unfähigkeit, ihre eigenen Fehler (siehe unser Beispiel oben) ohne externe Hilfe zuverlässig zu korrigieren.

Dieses Thema beschäftigt die Fachwelt und Forschende weltweit und gilt als mitunter größtes Problem künstlicher Intelligenz. Wie auch in unserer realen Welt ist Selbstkorrektur eine der wichtigsten Maßnahmen. Sie ist eine Grundlage jeglicher Wissenschaft und fehlt hingegen in jeglicher Religion. Das definiert auch den wesentlichen Unterschied zwischen Wissen und Glaube. Was definiert das Problem der fehlenden Selbstkorrektur? Wenn künstliche Intelligenz von sich selbst lernen soll, dann sind die generierten Daten wesentlich für künftige Evolutionen der Modelle. Wenn diese Daten jedoch voll von Halluzinationen sind, dann ist das weitere Lernen schwierig bzw. eigentlich unmöglich. Die Ergebnisse müssen anhand dieser Logik schlechter werden.

Die heutige Google-Tochter DeepMind hat dazu am 20. September 2024 eine Forschungsarbeit veröffentlicht, die wirklich einen erstaunlich spannenden Ansatz verfolgt. Bei OpenAI gibt es ähnliche Entwicklungen, die in der Preview des Modells o1 bereits enthalten sein dürften. Worum geht es? Self-Correction via Reinforcement Learning (SCoRe) bei deepMind oder Learning to Reason with LLMs bei openAI. Die Ansätze haben viele Ähnlichkeiten und stützen sich letztlich auf die bereits 2018 von Judea Pearl in seinem “Book of Why” angedachten Methoden um eine künstliche Intelligenz, die ihre Aussagen begründen kann. (Das ist etwas vereinfacht, aber das ist auch der Sinn dieses Artikels). Daten und Fakten die ich im weiteren auflisten werde, entstammen der Forschungsarbeit von deepMind und den Veröffentlichungen von openAI (beides unten verlinkt), sowie der Lektüre von Judea Pearls Book-Of-Why.

Visual representation of the training and scoring process, detailing the stages involved in machine learning development.

STRG ist in der Software-Entwicklung tätig. Es ist daher naheliegend, dass ich mich in erster Linie mit dem Einsatz von KI in diesem Bereich beschäftige. Also:

Stellen Sie sich vor, Sie lösen eine komplexe mathematische Aufgabe oder schreiben einen Code-Block. Oft bemerken wir nach einem ersten Versuch einen Fehler und korrigieren ihn ohne externe Hilfe. Wir erhalten also externes Feedback, z.B. von einem Code–Compiler oder einem Syntax-Fehlers in der IDE (Integrated Development Environment). Dieser Prozess, der als Selbstkorrektur bezeichnet wird, ist für das menschliche Lernen von grundlegender Bedeutung. Trotz ihrer beeindruckenden Fähigkeiten haben LLM mit dieser Aufgabe zu kämpfen. Sie verfügen zwar über das notwendige Wissen, um eine Antwort zu korrigieren, aber sie wenden es oft nicht an, wenn sie aufgefordert werden, ihre eigene Leistung zu überprüfen. Bestehende Methoden stützten sich bei der Selbstkorrektur weitgehend auf externe Hilfsmittel wie menschliche Aufsicht oder ein sekundäres Verifizierungsmodell, was die Unabhängigkeit des Sprachmodells einschränkt.

Hier kommt SCoRe ins Spiel: Eine Lösung zur Selbstkorrektur

SCoRe zielt darauf ab, diese Einschränkung zu beheben. Im Gegensatz zu früheren Methoden stützt sich SCoRe vollständig auf Daten, die vom Sprachmodell selbst generiert werden, und bietet somit eine skalierbarere und effizientere Möglichkeit, LLMs zu trainieren. Die Kernidee besteht darin, Reinforcement Learning (RL) zu verwenden – eine Technik, bei der Modelle durch Versuch und Irrtum lernen und Feedback erhalten, das auf der Qualität ihrer Handlungen basiert.

Der typische Trainingsprozess für Sprachmodelle umfasst die überwachte Feinabstimmung (Supervised-Fine-Tuning, kurz SFT), bei der das Modell anhand bereits vorhandener Daten trainiert wird. SFT hat jedoch seine Nachteile, wenn es auf die Selbstkorrektur angewendet wird. Wenn das Modell beispielsweise anhand von Korrekturen trainiert wird, die sich nur geringfügig von den ursprünglichen Antworten unterscheiden, neigt es dazu, sich auf geringfügige Änderungen zu konzentrieren, anstatt echte Verbesserungen vorzunehmen. Dieser Ansatz führt bei Tests in der Praxis häufig zu Leistungsproblemen.

SCoRe überwindet diese Hürden durch die Anwendung eines mehrstufigen verstärkenden Lernansatzes. Das Modell durchläuft zwei wichtige Lernphasen. Zunächst generiert es eine Korrektur auf der Grundlage seiner eigenen Ausgabe und erhält dann eine Belohnung oder Strafe, je nachdem, wie gut diese Korrektur die ursprüngliche Antwort verbessert. Mit der Zeit lernt das Modell, signifikantere und genauere Änderungen vorzunehmen, sodass es nicht nur eine Antwort, sondern auch zukünftige Antworten verbessern kann.

Wie funktioniert SCoRe?

SCoRe arbeitet in zwei Phasen:

Phase I: Initialisierung für Selbstkorrektur
In der ersten Phase lernt das Modell, sich selbst zu korrigieren, ohne minimale Änderungen vorzunehmen, die zu kleinen, ineffektiven Änderungen führen könnten. Das Modell generiert Antworten, die seiner ursprünglichen Ausgabe ähneln, wird jedoch angeleitet, um zu vermeiden, dass es in das Verhalten verfällt, nur geringfügige Korrekturen vorzunehmen. Diese Phase bereitet das Modell auf ein effektiveres Lernen in der nächsten Phase vor.

Phase II: Multi-Turn-Reinforcement mit gewerteten Belohnungen
In dieser Phase werden die Korrekturen des Modells weiter verfeinert. Es erhält eine gewertete Belohnung – einen Bonus für signifikante Verbesserungen statt einfacher oder minimaler Änderungen. Wenn beispielsweise die erste Antwort des Modells falsch war, der Fehler aber beim zweiten Versuch behoben wird, erhält das Modell eine höhere Belohnung. Die Idee ist, einen Anreiz zu schaffen, nicht nur den ersten Versuch richtig zu machen, sondern auch Fehler sinnvoll zu korrigieren.

Warum Reinforcement Learning?

Traditionelles überwachtes Lernen (supervised learning) funktioniert gut, wenn es eine feste Anzahl von Problemen und Antworten gibt. Die Selbstkorrektur stellt jedoch eine dynamische Herausforderung dar: Das Modell muss nicht nur eine Antwort generieren, sondern diese auch so verbessern, dass sie das Lernen widerspiegelt. Hier kommt das verstärkendes Lernen (also Reinforcement Learning) ins Spiel. Indem SCoRe dem Modell eine Reihe von Aufforderungen gibt und es belohnt, wenn es sich verbessert, ermutigt SCoRe das Modell, kritisch über seine eigene Leistung nachzudenken, und ermöglicht so eine echte Selbstkorrektur.

Die Auswirkungen von SCoRe auf Sprachmodelle

Die Ergebnisse der Implementierung von SCoRe waren beeindruckend. Bei den Modellen Gemini 1.5 Flash und Pro verbesserte SCoRe die Genauigkeit der Selbstkorrektur bei mathematischen Problemen um 15,6 % und bei Programmieraufgaben um 9,1 %. Diese Gewinne stellen eine deutliche Verbesserung gegenüber früheren Methoden dar, bei denen es oft schwierig war, eine zuverlässige Selbstkorrektur ohne externe Eingaben zu erreichen. So konnten Modelle, die mit SCoRe trainiert wurden, bei der Lösung komplexer mathematischer Probleme falsche Antworten viel effektiver korrigieren als Modelle, die mit herkömmlichen Methoden trainiert wurden. Ebenso konnten diese Modelle bei der Generierung von Code anfängliche Fehler konsistenter korrigieren, was zu einer höheren Erfolgsquote bei Programmieraufgaben führte.

Ausblick: Breite Anwendung in allen Feldern von Generativer KI

Obwohl das Potenzial von SCoRe klar ist, befindet sich der Ansatz noch in einem frühen Stadium. Bisher wurde er an einer begrenzten Anzahl von Argumentationsaufgaben wie Mathematik und Programmierung getestet. Die Prinzipien hinter SCoRe könnten jedoch auf viele andere Bereiche angewendet werden, von medizinischen Diagnosen bis hin zur Erstellung juristischer Dokumente, bei denen die Fähigkeit zur Selbstkorrektur die Leistung und Zuverlässigkeit von LLMs erheblich verbessern könnte.

Allerdings hat SCoRe auch einige Einschränkungen. Derzeit konzentriert es sich auf die Verbesserung von Antworten über zwei Runden hinweg, d. h. das Modell kann seine Antwort nur einmal überarbeiten. Zukünftige Iterationen könnten dies erweitern, um mehrere Korrekturrunden zu ermöglichen, und so das Lernen von Menschen aus wiederholten Fehlern besser nachahmen.

Ein Schritt in Richtung unabhängiger KI

Zwischenfazit:

SCoRe stellt einen aufregenden Schritt nach vorne in der Entwicklung autonomer, sich selbst verbessernder Sprachmodelle dar. Durch den Einsatz von bestärkendem Lernen, um LLMs darin zu trainieren, ihre eigenen Fehler zu korrigieren, hat DeepMind ein System geschaffen, das aus sich selbst lernen kann und den Bedarf an externen Eingaben oder Überwachung reduziert. Mit der Weiterentwicklung der Technologie können wir erwarten, dass wir vielseitigere und zuverlässigere KI-Systeme sehen werden, die immer komplexere Aufgaben bewältigen können – wodurch LLMs nicht nur schneller oder größer, sondern wirklich intelligenter werden. Mit Fortschritten wie SCoRe kommen wir dem Tag näher, an dem KI autonom lernen, sich anpassen und ihre eigenen Fähigkeiten ohne menschliches Eingreifen perfektionieren kann. Für Forscher, Entwickler und neugierige Köpfe könnte dies eine neue Ära der KI-gestützten Innovation bedeuten.

OpenAI vs. OpenMind

Über den Ansatz von OpenAI ist nicht so viel bekannt. Es gibt lediglich einen kurzen Blogpost auf der Website der Firma. Von DeepMind wissen wir mehr, da sie ihren Forschungsansatz (wie sich das ja auch gehört) veröffentlicht haben. Ich habe hier versucht, die Ähnlichkeiten der beiden Modelle herauszuarbeiten. 

1. Fokus auf iteratives Denken: Beide Modelle zielen darauf ab, das mehrstufige Denken zu verbessern. Das o1-Modell von OpenAI beschäftigt sich mit tieferem Denken und der Überarbeitung von Gedanken, bevor eine Antwort gegeben wird, ähnlich wie SCoRe Modellen beibringt, ihre Antworten selbst zu korrigieren, indem sie ihre eigenen Fehler über mehrere Runden hinweg berücksichtigen.

2. Verstärkungslernen (Reinforcement Learning, RL): SCoRe nutzt Reinforcement Learning, um die Selbstkorrektur ohne externe Überwachung zu verbessern, sodass das Modell seine Ergebnisse autonom verbessern kann. In ähnlicher Weise scheint das Argumentationsmodell von OpenAI einen iterativen Prozess zu beinhalten, bei dem es seinen Denkprozess verfeinert, bevor es eine endgültige Lösung liefert.

3. Anwendungen in komplexen Bereichen: Beide Modelle zeigen eine hohe Effektivität in technischen Bereichen wie Mathematik und Programmierung. Die überlegene Leistung des o1-Modells bei Programmierherausforderungen entspricht den Leistungen von SCoRe bei der Lösung mathematischer Probleme.

 
Two individuals share a bond, with a cloud symbolizing the intersection of AI advancements and human connection in the background, symbolizing the intersection of two different AI development companies.

The Book of Why

Weil ich noch immer sehr neugierig war, habe ich diese Ansätze nochmals mit der Lektüre des “Books Of Why” verglichen. Causal AI als Ansatz hat Pearl bereits 2018 verarbeitet und uns viele wertvolle Einblicke in zukünftige Entwicklungen gegeben. (Übrigens ist das ein großer Lesetipp. Wer in der Tiefe verstehen möchte, wie diese Entwicklungen funktionieren und dabei noch Spaß haben will, ist bei diesem Buch gut aufgehoben.)

Kausales Denken vs. Korrelation: In „The Book of Why“ betont Pearl, dass man über die Korrelation hinausgehen muss, um die Kausalität zu verstehen. Diese Art der kausalen Argumentation beantwortet „Warum“-Fragen, z. B. warum bestimmte Effekte auf bestimmte Handlungen folgen. In ähnlicher Weise sind moderne KI-Modelle wie OpenAI’s o1 und SCoRe darauf ausgelegt, komplexe, mehrstufige Probleme durch die Simulation menschenähnlicher Argumentation zu lösen, was oft das Verständnis von Ursache-Wirkung-Beziehungen erfordert, insbesondere in Bereichen wie der Mathematik und in den Naturwissenschaften.

Iterative Verfeinerung: Sowohl das SCoRe- als auch das o1-Modell versuchen, ihre Argumentation zu verbessern, indem sie frühere Antworten erneut betrachten und verfeinern. Dies spiegelt Pearls Kausalmodelle wider, die es ermöglichen, Annahmen zu revidieren und kausale Schlussfolgerungen auf der Grundlage neuer Daten zu aktualisieren. Diese iterativen Prozesse spiegeln ein tieferes Verständnis dafür wider, wie die Argumentation voranschreitet, ähnlich wie (schlaue) Menschen ihre Überzeugungen oder Hypothesen anpassen, wenn sie mit neuen Erkenntnissen konfrontiert werden.

Interventionen und Entscheidungsfindung: Einer der wichtigsten Beiträge von „The Book of Why“ ist das Konzept der Interventionen, bei dem man sich fragt, was passiert, wenn eine bestimmte Maßnahme ergriffen wird. Dies entspricht der Art und Weise, wie KI-Modelle wie SCoRe Reinforcement Learning (also verstärkende Lernen) nutzen, um Reaktionen zu optimieren, indem sie in ihre Ergebnisse „eingreifen“, ihre eigenen Fehler analysieren und sich im Laufe der Zeit ohne externe Überwachung verbessern. Diese Idee, verschiedene Ansätze zu testen und daraus zu lernen, ist sowohl für Pearls Arbeit zur Kausalität als auch für den Fokus moderner KI auf Selbstkorrektur und mehrstufige Problemlösung von zentraler Bedeutung. 

Wie geil ist das denn?

Der letzte große Schritt, den ich beobachten und testen durfte, war die unglaubliche Performance eines Efficient Language Modells (ELMs). Unglaublich klein und unglaublich stark. Ich war davon tief beeindruckt und wir konnten in unseren Arbeiten damit wesentliche Fortschritte erzielen. Jetzt geht es mir ähnlich. Selbstkorrektur-Maßnahmen in einem Sprachmodell bringen uns der gesamten Idee einer sich selbst verbessernden KI um Welten näher. Ein kleiner Schritt für Tensor-Prozessoren – ein großer Schritt für die Entwicklung von KI.

Es gibt noch viel mehr Quellen dazu, aber diese beiden habe ich für diesen Text im Wesentlichen verwendet und sie seien allen ans Herz gelegt, die sich noch tiefer mit der Materie beschäftigen wollen:

  1. Training Language Models to Self-Correct via RL
  2. Learning to Reason with LLMs
Showcasing STRG mascot Yuri, holding a laptop and searching through the web. Decorative image as part of the CTA

KOSTENLOSES BERATUNGSGESPRÄCH

Nutzen Sie die Gelegenheit, um individuelle Fragen zu stellen und eine maßgeschneiderte Strategie zu entwickeln.

KONTAKT AUFNEHMEN

You may also like

Abonnieren Sie unseren Newsletter

Stets informiert bleiben mit Tech-Themen, News und topaktuellen Veranstaltungen!