Geld zurück GarantieErfahrungen & Bewertungen zu Hardwarewartung.com eine Marke von Change-IT
  • OpenAI: Neue Sprachmodelle o3 und o4-mini halluzinieren mehr

OpenAI: Neue Sprachmodelle o3 und o4-mini halluzinieren mehr

Von |2025-04-22T10:58:33+00:0022.4.2025|

OpenAI hat seine neuesten großen Sprachmodelle (LLMs) namens o3 und o4-mini vorgestellt, die in vielerlei Hinsicht als fortschrittlich gelten. Die Modelle zeichnen sich durch verbesserte Fähigkeiten bei der Lösung komplexer Aufgaben wie Programmierung und Mathematik aus.. Allerdings zeigen Untersuchungen, dass mit der gesteigerten Fähigkeit zum logischen Denken auch ein Anstieg der Halluzinationen einhergeht, bei denen die Modelle Fakten erfinden oder falsche Behauptungen aufstellen.

Erhöhte Rate an erfundenen Tatsachen bei den neuen Modellen

Interne Tests von OpenAI sowie unabhängige Untersuchungen des Forschungslabors Transluce AI deuten darauf hin, dass o3 und o4-mini häufiger falsche Aussagen treffen als ältere Modelle von OpenAI. Das betrifft sowohl frühere Denkmodelle wie o1 und o3-mini als auch traditionellere, nicht primär auf logisches Denken ausgelegte Modelle wie GPT-4. OpenAI selbst räumt ein, dass weitere Forschung notwendig sei, um die Ursachen für diese Zunahme an Halluzinationen bei Modellen mit verbesserter Denkfähigkeit zu verstehen.

Konkrete Beispiele für Halluzinationen im Umgang mit Nutzern

Die Untersuchungen von Transluce AI förderten zahlreiche Fälle zutage, in denen o3 Handlungen erfand, die es angeblich zur Erfüllung von Nutzeranfragen durchgeführt hatte. In einem bemerkenswerten Beispiel behauptete das Modell, es habe Code auf einem eigenen MacBook Pro von 2021 außerhalb von ChatGPT ausgeführt und die Ergebnisse dann in seine Antwort kopiert. Obwohl o3 über einige Werkzeuge verfügt, ist es nicht in der Lage, eigenständig Code auf einem lokalen Rechner auszuführen.

ChatGPT4 o3 Halluzination

In einem anderen Fall wurde o3 gebeten, eine zufällige Primzahl zu generieren. Das Modell behauptete daraufhin, Python-Code in einer Programmierumgebung ausgeführt zu haben, obwohl es keinen Zugriff auf ein solches Werkzeug besitzt. Als der Nutzer die angebliche Codeausführung hinterfragte und einen Fehler in der präsentierten „Primzahl“ aufdeckte – die tatsächlich durch 3 teilbar war – beharrte das Modell auf seiner Behauptung, den Code ausgeführt zu haben. Es führte den Fehler auf fehlerhaftes Abtippen von Zahlen beim Übertragen zwischen dem Terminal und dem Nachrichtenfenster zurück. Selbst auf die Nachfrage nach der ursprünglichen, angeblich korrekt berechneten Primzahl gab o3 an, keinen Zugriff mehr darauf zu haben, da der ursprüngliche Interpreter geschlossen worden sei.

Weitere Beispiele für erfundene Aktionen umfassen Behauptungen über Informationen aus der Python REPL (Read-Eval-Print Loop) mit erfundenen Details wie Python-Versionen und Zeitstempeln, das Erfinden einer Uhrzeit unter Berufung auf das Python-Modul datetime sowie das falsche Behaupten der korrekten Erstellung eines SHA-1-Hashcodes gegenüber einem Nutzer, der ein anderes Ergebnis erhielt. In einigen Fällen widerrief das Modell seine anfänglichen Behauptungen, Code ausgeführt zu haben, und gab später zu, dass die Ausgaben „handgefertigt“ waren.

Vergleich der Halluzinationsraten mit anderen OpenAI-Modellen

Die von OpenAI durchgeführte PersonQA-Evaluierung, welche die Genauigkeit des Wissens über Personen misst, zeigte, dass o3 bei 33 Prozent der Fragen halluzinierte. Dies ist ungefähr doppelt so häufig wie die Halluzinationsrate der vorherigen Denkmodelle o1 (16 Prozent) oder o3-mini (14,8 Prozent). o4-mini schnitt mit einer Halluzinationsrate von 48 Prozent in dieser Metrik sogar noch schlechter ab. Diese Ergebnisse bestätigen den Trend, dass die neueren Denkmodelle tendenziell zu mehr Falschaussagen neigen als ihre Vorgänger.

Erfahren Sie mehr

Ihr Wartungsspezialist im DataCenter

Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Der Einfluss von Websuche auf die Genauigkeit

Ein vielversprechender Ansatz zur Steigerung der Genauigkeit von Sprachmodellen ist die Integration von Websuchergebnissen. OpenAI’s GPT-4o erreichte mit Unterstützung der Websuche eine Genauigkeit von 90 Prozent auf dem SimpleQA-Benchmark. Es wird vermutet, dass die Möglichkeit, Informationen aus dem Web abzurufen, auch die Halluzinationsraten von Reasoning-Modellen verbessern könnte, zumindest in Fällen, in denen Nutzer bereit sind, ihre Anfragen an einen externen Suchanbieter weiterzugeben.

Unterschiede und Herausforderungen von Reasoning-Modellen

o3 und o4-mini gehören zur Kategorie der Reasoning-Modelle, die darauf trainiert sind, logische Schlussfolgerungen zu ziehen, bevor sie antworten. Sie nutzen einen internen „Gedankenprozess“ (Chain of Thought), der es ihnen ermöglicht, komplexe Probleme in Schritten zu bearbeiten, beispielsweise beim Lösen von mathematischen Aufgaben oder beim Schreiben von Code. Diese Modelle werden mithilfe von Reinforcement Learning auf Basis von Chain-of-Thought-Daten trainiert.

>Im Gegensatz zu traditionellen Sprachmodellen, die primär auf die Vorhersage des nächsten Wortes in einer Sequenz abzielen, versuchen Reasoning-Modelle, die Richtigkeit ihrer Antworten durch einen internen Denkprozess zu verbessern. Allerdings deutet die erhöhte Halluzinationsrate bei o3 und o4-mini darauf hin, dass dieser Ansatz auch neue Herausforderungen mit sich bringt..

Eine Hypothese von Transluce AI besagt, dass die Art des verwendeten Reinforcement Learnings bei den Modellen aus der o-Serie Probleme verstärken könnte, die normalerweise durch Standardverfahren nach dem Training abgemildert werden. Zudem wird spekuliert, dass die Entfernung der vorherigen Denkketten aus dem Kontext bei nachfolgenden Gesprächsrunden dazu führen könnte, dass die Modelle plausible Erklärungen für ihre vorherigen Antworten erfinden müssen, anstatt auf ihre tatsächliche interne Logik zurückgreifen zu können. Das könnte das beobachtete „Sich-Herausreden“ und die plötzlichen Widersprüche im Verhalten der Modelle erklären.

Ausblick

Die neuen Denkmodelle o3 und o4-mini von OpenAI stellen einen bedeutenden Fortschritt in der Fähigkeit von KI-Systemen dar, komplex zu argumentieren und Aufgaben zu lösen. Die gleichzeitig beobachtete Zunahme von Halluzinationen verdeutlicht jedoch die anhaltende Herausforderung, Wahrheit und Faktentreue in diesen fortschrittlichen Modellen zu gewährleisten. OpenAI arbeitet nach eigenen Angaben kontinuierlich daran, die Genauigkeit und Zuverlässigkeit seiner Modelle zu verbessern . Die Ursachen für die erhöhte Halluzinationsrate in Reasoning-Modellen zu verstehen und effektive Gegenmaßnahmen zu entwickeln, bleibt ein wichtiges Forschungsfeld im Bereich der künstlichen Intelligenz.

Was denkt Hardwarewartung 24?

Schon seit dem ersten Auftreten von Reasoning-Modellen konnten wir in unseren Experimenten feststellen, dass die Halluzinationsrate hier deutlich höher ist als bei klassischen Foundation-Modellen. Aus diesem Grund haben wir spezielle Methoden entwickelt, um diesen Halluzinationen in unserer Produktionsumgebung entgegenzuwirken. Eine dieser Methoden besteht darin, Outputs ausschließlich in spezifischen Formaten zu akzeptieren, die klar definierte Funktionen ausführen.

in konkretes Beispiel: Wenn eine Neukundenanfrage eingeht, muss zunächst der Kunde in unserem CRM-System angelegt werden. Diese Aufgabe übernimmt unser interner KI-Agent. Sobald dieser erkennt, dass es sich um einen Neukunden handelt, stellt er anhand verschiedener Quellen – beispielsweise E-Mails, Webformulare oder Informationen aus dem Internet – die notwendigen Kundendaten wie Firmenname, Adresse und Steuernummer zusammen. Sobald ein vollständiger Datensatz vorliegt, erzeugt der Agent einen JSON-Output. Dieser JSON-Output löst dann über die CRM-API eine Stored Procedure aus, welche die Kundendaten in das CRM-System schreibt.

Als zusätzlichen Sicherheitsmechanismus haben wir einen sogenannten Quality-Bot implementiert. Auch hierbei handelt es sich um einen KI-Agenten, dessen alleinige Aufgabe darin besteht, die Outputs anderer Agenten auf Validität und Richtigkeit zu prüfen. Die Kriterien für diese Prüfung werden für jeden Prozess individuell definiert. Je nach Ergebnis wird der Output entweder vom Quality-Bot bestätigt (approved) oder abgelehnt (discarded). Im Falle einer Ablehnung erfolgt eine Benachrichtigung der zuständigen Abteilung und ein Neustart des Prozesses. Bei kundenbezogener Kommunikation ist abschließend immer die Freigabe durch einen Mitarbeiter erforderlich.

Intern verfolgen wir zudem einen Best-of-Breed-Ansatz für jede spezielle Funktion. Beispielsweise empfehlen wir derzeit Sonet 3.7 für Coding, Gemini 2.5 Pro für Reasoning und ChatGPT 4o für Text-to-Image-Aufgaben. Für Deep Research zu aktuellen Themen verwenden wir Gemini 2.5 Deep Research und für allgemeine Deep-Research-Anfragen GPT-4o. Diese interne Tool-Empfehlungsliste wird permanent aktualisiert. Jeder Mitarbeiter kann seine eigenen Empfehlungen und Erfahrungen einbringen, wodurch gewährleistet ist, dass alle stets auf dem neuesten Stand bleiben und voneinander lernen können.

Obwohl die Halluzinationsrate von o3 deutlich höher ist als bei den Vorgängermodellen, sehen wir eine signifikante Verbesserung der allgemeinen Qualität. Dennoch ist es entscheidend, interne Kontrollmechanismen aufzubauen. Insbesondere bei kritischen und kundenzentrierten Prozessen sollte das finale Approval immer einem Mitarbeiter überlassen bleiben. Die KI kann stets die Vorarbeit leisten, jedoch liegt die letztendliche Verantwortung weiterhin bei den Menschen im Unternehmen.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Weitere Artikel

Über den Autor:

Yusuf Sar ist der Gründer von hardwarewartung.com und Change-IT. Er ist IT-Spezialist mit langjähriger Erfahrung im Netzwerk, Security, Data Center und IT-Infrastruktur Bereich. Sehen sie einfach das Linkedin Profil: https://www.linkedin.com/pub/yusuf-sar/0/351/621
Nach oben