GPT 5.5 ist da – und es ist mehr Agent als Chatbot
Am 23. April 2026 hat OpenAI GPT 5.5 in ChatGPT und Codex ausgerollt – für Plus, Pro, Business und Enterprise zum Launch, die API-Freigabe wurde für "very soon" angekündigt. Zwei Tage später steht die entscheidende Frage im Raum: echter Sprung oder neue Nummer auf dem alten Modell?
Der Zeitpunkt ist interessant, weil er GPT 5.5 direkt gegen zwei frische Konkurrenten stellt. Claude Opus 4.7 liegt wenige Wochen zurück, Gemini 3.1 Pro befindet sich im Preview-Status. OpenAI verkauft GPT 5.5 mit einem knappen Satz – mehr Agent, weniger Chatbot. Übersetzt: stärker bei agentischer Arbeit, bei Tool-Nutzung und bei Office-Dokumenten. Die ersten Benchmark-Tabellen geben diesem Marketing-Claim in wichtigen Bereichen recht, in anderen aber nicht. Und weil die drei Modelle preislich eng beieinander liegen – 5 Dollar Input pro Million Tokens bei GPT 5.5 und Opus 4.7, 2 bis 4 Dollar bei Gemini 3.1 Pro – hängt die Modellwahl heute mehr am Nutzungsprofil als am Budget. Wo der Umstieg sofort Geld und Zeit spart und wo er keine Welt rettet, entscheidet sich daran, was du im Alltag mit einem KI-Modell anstellst.
Was GPT 5.5 neu macht
Mehr Agent, weniger Chatbot – so verkauft OpenAI den Schritt von GPT 5.4 auf GPT 5.5. Gemeint ist Agentik: Das Modell erkennt Aufgaben früher, nutzt Tools selbstständig und arbeitet längere Ketten ab, ohne dass du ihm jeden Schritt einzeln vorkaust. Tool-Use heißt in diesem Zusammenhang, dass GPT 5.5 Browser, Code-Interpreter, Dateien und Computer-Use nicht nur theoretisch ansprechen kann, sondern zur richtigen Zeit von allein dazu greift. Die Unterschiede zum Vorgänger sind teils sichtbar in der Geschwindigkeit, teils unter der Haube – und sie entscheiden, ob sich der Umstieg für deinen Workflow lohnt.
Agentik und Tool-Use
Der spürbarste Sprung liegt darin, wie viel Anleitung das Modell noch braucht. GPT 5.4 wollte oft Zwischenfragen, wollte bestätigt bekommen, ob es jetzt suchen, ausführen oder nachfragen soll. GPT 5.5 trifft diese Entscheidungen früher – OpenAI schreibt von "improved task recognition", die Praxis-Beschreibungen aus der Preview-Phase lesen sich ähnlich. Codex ist das Testfeld, auf dem das am deutlichsten zu sehen ist: Du beschreibst ein Ziel, und das Modell hangelt sich durch Terminal, Dateien und Browser, statt jeden Schritt einzeln abzufragen. Computer-Use, File-Use und Web-Browsing laufen in einer Session zusammen – bei GPT 5.4 war das fragmentierter.
Kontextfenster und Fast Mode
Das Kontextfenster wächst deutlich: 400.000 Tokens in Codex, 1 Million in der API. Das reicht für ganze Repositories auf einmal, statt sie in Chunks füttern zu müssen. Dazu kommt ein neuer Codex Fast Mode – 1,5× schneller, dafür 2,5× teurer. Die Rechnung musst du selbst aufmachen. Wer Agenten-Sessions betreibt, in denen das Modell dreißig Minuten lang Tools durchlaufen lässt, für den ist der Aufpreis nebensächlich. Wer einzelne Prompts für klar umrissene Aufgaben schickt, verbrennt mit dem Fast Mode Geld, ohne den Zeitgewinn wirklich zu nutzen.
Inferenz-Effizienz
Die eigentlich überraschende Zahl steht nicht in der Marketing-Grafik: Die Per-Token-Latenz von GPT 5.5 liegt auf GPT-5.4-Niveau – trotz höherer Leistung. OpenAI gibt zusätzlich an, dass Codex mit GPT 5.5 im Schnitt signifikant weniger Tokens pro Aufgabe produziert. Das ist der Hebel, der den Pro-Aufgabe-Preis nach unten drückt, auch wenn die Token-Preise gleich bleiben. Eine Rolle spielt dabei Test-Time-Compute – zusätzliche Rechenleistung, die erst während der Antwort aktiv wird, oft parallel verteilt. GPT 5.5 Pro nutzt dasselbe Basismodell, aber mit höherer Test-Time-Compute-Stufe: mehr Rechenbudget pro Anfrage, dafür bei sehr harten Aufgaben bessere Ergebnisse.
Die Benchmarks im Vergleich mit Opus 4.7 und Gemini 3.1 Pro
Die OpenAI-Benchmarks zum Launch von GPT 5.5 liefern die einzige Möglichkeit, drei Modelle auf einer Tabelle nebeneinanderzustellen. Sie kommen, wie immer in dieser Branche, mit einem dicken Asterisk. Benchmarks, also standardisierte Tests für Modellleistung in einer Aufgabenklasse, geben immer nur die Wahrheit der Methode wieder – nicht die Wahrheit des Alltags. OpenAI hat zum Launch eine Tabelle mit fünfzehn Tests gezeigt, in der GPT 5.5, Claude Opus 4.7 und Gemini 3.1 Pro direkt verglichen werden. Alle Zahlen sind vendor self-reported, das heißt jeder Anbieter hat die Konkurrenz-Modelle selbst vermessen. Google räumt in den eigenen Release-Notes für Gemini 3.1 Pro ein, dass Nicht-Gemini-Werte teils aus den Angaben der anderen Hersteller übernommen wurden. Die Tabellen sind formatgleich – sie sind nicht dieselbe Wahrheit.
|
Benchmark |
GPT 5.5 |
Opus 4.7 |
Gemini 3.1 Pro |
|---|---|---|---|
|
Terminal-Bench 2.0 (agentisches Coding) |
82,7 % |
69,4 % |
68,5 % |
|
GDPval (Wissensarbeit) |
84,9 % |
80,3 % |
67,3 % |
|
OfficeQA Pro (Office-Dokumente) |
54,1 % |
43,6 % |
18,1 % |
|
FrontierMath Tier 1–3 |
51,7 % |
43,8 % |
36,9 % |
|
FrontierMath Tier 4 |
35,4 % |
22,9 % |
16,7 % |
|
SWE-Bench Pro (Repository-Issues) |
58,6 % |
64,3 % |
54,2 % |
|
GPQA Diamond (Naturwissenschaften) |
93,6 % |
94,2 % |
94,3 % |
|
BrowseComp (Web-Recherche) |
84,4 % |
79,3 % |
85,9 % |
|
CyberGym (Cyber-Szenarien) |
81,8 % |
73,1 % |
– |
Die Lesart ist klar: GPT 5.5 liegt dort vorn, wo Agentik und Dokumentenarbeit gefragt sind. Terminal-Bench 2.0 misst, ob das Modell ein Problem durch Terminal-Befehle tatsächlich durchdrückt, statt nur Code-Schnipsel zu generieren – dort sind fast 14 Prozentpunkte zwischen GPT 5.5 und Opus 4.7 eine kleine Welt. Bei GDPval, OpenAIs eigenem Benchmark für Wissensarbeit (Präsentationen, Reports, tabellarische Auswertung), ist der Abstand kleiner, aber stabil.
Wo keines der drei Modelle klar dominiert: GPQA Diamond, ein Naturwissenschafts-Test auf Promotions-Niveau, ist praktisch Gleichstand. BrowseComp – Recherche über mehrere Websites hinweg – geht knapp an Gemini 3.1 Pro. Das passt zu Googles Heimspiel bei web-gestützten Aufgaben.
Was in fast allen Release-Tabellen 2026 fehlt, sind die Klassiker: MMLU, HumanEval, LAMBADA. Die Begründung steht im Humanity's-Last-Exam-Paper. Die Frontier-Modelle liegen auf MMLU längst über 90 Prozent, ein weiterer Prozentpunkt sagt nichts mehr über Fähigkeiten aus. Deshalb verschieben sich die Vergleiche auf härtere, agentische und fachspezifische Tests. Wer eine Kaufentscheidung an MMLU festmachen will, bekommt keine Antwort mehr – weder aus OpenAI- noch aus Anthropic- oder Google-Tabellen.
Praktisch heißt das: Such dir aus der Tabelle die zwei oder drei Zeilen heraus, die deinen Alltag am ehesten abbilden. Alles andere ist Marketing-Folklore. Wenn du im Terminal codest und mit Dokumenten arbeitest, ist GPT 5.5 in den Zahlen das stärkste Modell. Wenn du Repository-Issues durcharbeitest, sieht Opus 4.7 besser aus. Wenn du viel im Web recherchieren lässt, kommt Gemini 3.1 Pro ins Spiel.
Wo GPT 5.5 wirklich glänzt
Drei Anwendungsprofile ziehen die größten Vorsprünge aus GPT 5.5 – und sie sind nicht zufällig dieselben, mit denen OpenAI den Launch verkauft.
Agentisches Coding im Terminal steht ganz oben. 82,7 Prozent auf Terminal-Bench 2.0 sind nicht nur besser als Opus 4.7 und Gemini 3.1 Pro – sie sind der größte Einzelsprung, den OpenAI in dieser Kategorie jemals gezeigt hat. Wenn du in Codex sitzt und einen Ticket-Flow im Terminal durchlaufen lässt, merkst du das früh: weniger Rückfragen, mehr durchgezogene Ausführung, kürzere Sessions pro Aufgabe.
Wissensarbeit mit Office-Dokumenten ist die zweite Zone. OfficeQA Pro testet, ob das Modell in Excel-Tabellen sauber rechnet, PowerPoint-Strukturen erfasst und Word-Dokumente inhaltlich zusammenfasst. GPT 5.5 landet bei 54,1 Prozent, Opus 4.7 bei 43,6, Gemini 3.1 Pro bei 18,1. Das ist ein Faktor drei gegenüber Google. Wer beruflich mit .xlsx, .pptx und .docx hantiert und ein Modell als Assistenten einbindet, bekommt mit GPT 5.5 die deutlich schärfere Antwort. Das hat OpenAI bewusst priorisiert – und es zeigt sich in den Zahlen.
Mathematik auf Forschungsniveau ist die dritte Zone, und zugleich die mit der kleinsten Alltagsrelevanz für die meisten Leser. FrontierMath Tier 4 enthält Aufgaben, an denen Mathematik-Olympiade-Medaillisten sitzen. GPT 5.5 löst 35,4 Prozent, Opus 4.7 kommt auf 22,9, Gemini 3.1 Pro auf 16,7. Wer in theoretischer Mathematik, Kryptographie oder formaler Verifikation arbeitet, bekommt hier das aktuell stärkste Werkzeug.
Ein weiterer Bereich, bei dem GPT 5.5 vorn liegt, ist weniger eindeutig: Cyber-Evaluationen wie CyberGym mit 81,8 Prozent gegen 73,1 Prozent bei Opus 4.7. Das misst, ob das Modell Capture-The-Flag-Aufgaben löst – also eingeschränkte Hacking-Szenarien in kontrollierter Umgebung. Für reale Security-Arbeit ist der Übertrag überschaubar, für Pen-Testing-Assistenten kann er einiges ausmachen.
Praktisch heißt das: Wenn dein Tag aus Coding, Dokumentenarbeit oder harter Mathematik besteht, ist GPT 5.5 den Umstieg wert. Wenn du bei den anderen Aufgaben nur gelegentlich vorbeischaust, merkst du den Unterschied vielleicht erst beim zweiten oder dritten Mal. Dann aber deutlich.
Wo Opus 4.7 und Gemini 3.1 Pro vorne liegen
Zwei Bereiche hält OpenAI nicht – und das ist wichtig, bevor du eine pauschale Umstieg-Entscheidung triffst.
Anthropic liegt bei Repository-Issue-Resolution vorn. SWE-Bench Pro zeigt 64,3 Prozent für Opus 4.7 gegen 58,6 Prozent für GPT 5.5. OpenAI kommentiert die SWE-Bench-Zahlen in einer Fußnote selbst als "mit Memorization-Hinweisen" – also dem Risiko, dass Modelle Aufgaben aus dem Training wiedererkennen. Trotzdem: Der Abstand von fast sechs Prozentpunkten ist für jemanden, der den ganzen Tag GitHub-Tickets durchgeht, spürbar. Dazu kommt Humanity's Last Exam, ein Test über akademische Breite – Opus 4.7 erreicht 46,9 Prozent ohne Tools. Wer klassische wissenschaftliche Breite braucht und keine Tool-Integration hat, greift zu Opus.
Gemini 3.1 Pro spielt seine Stärke im Web aus. BrowseComp, der Test für mehrstufige Web-Recherche, geht mit 85,9 Prozent an Google – knapp vor GPT 5.5 (84,4) und deutlich vor Opus 4.7 (79,3). Wer regelmäßig Rechercheaufträge vergibt, bei denen das Modell mehrere Websites parallel liest und quervergleicht, bekommt bei Gemini 3.1 Pro den sauberer zusammengeführten Output.
Bei GPQA Diamond trennt die drei Modelle fast nichts: 93,6 / 94,2 / 94,3 Prozent. Auf diesem Niveau ist die Einzelwahl eine Stilfrage, keine Fähigkeitsfrage.
Und dann ist da der Elefant im Raum: Halluzinationen. Artificial Analysis misst für Opus 4.7 eine Halluzinationsrate von 36 Prozent, für Gemini 3.1 Pro von 50 Prozent. Für GPT 5.5 liegt in den bislang veröffentlichten Snippets kein direkter Prozentsatz vor. Das ist weniger eine Empfehlung, mehr ein Warnhinweis: Je höher das Modell in Halluzinationsmessungen liegt, desto wichtiger sind RAG (die Anbindung an echte Dokumente) oder Citations zur Absicherung. Besonders Gemini 3.1 Pro braucht diesen Rahmen – sonst landen Fakten im Output, die es nie gab.
Für Repository-Issue-Arbeit bleibt damit: Opus 4.7 ist die Erstwahl, solange OpenAI nicht in den nächsten SWE-Bench-Runden nach vorn zieht.
Was GPT 5.5 in der API kostet – und wie das gegen Opus und Gemini steht
Bei der Kostenrechnung reicht der Blick auf die Preisliste nicht – und genau deshalb sind die Gespräche in Tech-Teams gerade so verwirrend. Tokens sind die Texteinheiten, in denen KI-Modelle rechnen, grob 1 Token ≈ 0,75 Wörter. Was ein Token kostet, steht in der Preistabelle. Wie viele Tokens ein Modell für dieselbe Aufgabe braucht, steht nirgends – und genau das entscheidet die Monatsrechnung.
|
Modell |
Input (pro 1M Tokens) |
Output (pro 1M Tokens) |
Cached Input |
|---|---|---|---|
|
GPT 5.5 |
5 $ |
30 $ |
0,50 $ |
|
GPT 5.5 Pro |
30 $ |
180 $ |
– |
|
Claude Opus 4.7 |
5 $ |
25 $ |
– |
|
Gemini 3.1 Pro (< 200k Input) |
2 $ |
12 $ |
– |
|
Gemini 3.1 Pro (≥ 200k Input) |
4 $ |
18 $ |
– |
Auf den ersten Blick wirkt Gemini 3.1 Pro deutlich günstiger, Opus 4.7 und GPT 5.5 liegen eng beieinander, und GPT 5.5 Pro ist eine eigene Liga. Das ist die Rechnung aus der reinen Preisliste – und sie hat zwei Haken.
Haken eins: Opus 4.7 hat einen neuen Tokenizer. Anthropic hat mit der 4.7-Generation die Tokenisierung umgestellt, und derselbe technische Text erzeugt jetzt bis zu 35 Prozent mehr Tokens als mit dem alten Tokenizer. Der Nominalpreis liegt bei 5 $ Input und 25 $ Output – effektiv zahlst du aber für 1,35× so viele Tokens. Das sollte im Hinterkopf bleiben, bevor man "Opus ist günstiger als GPT 5.5" sagt.
Haken zwei: GPT 5.5 braucht laut OpenAI weniger Tokens pro Aufgabe. In Codex-Sessions ist der Rückgang "signifikant", ohne dass OpenAI eine Zahl daneben setzt. Artificial Analysis formuliert es in der Tech-Auswertung so: state-of-the-art Intelligenz zu in etwa der Hälfte der Coding-Kosten der vorherigen Spitzenmodelle. Das ist ein Dienstleister-Urteil, kein OpenAI-Marketing.
Gemini 3.1 Pro ist zum Artikel-Zeitpunkt noch im Preview-Status. Der günstige Preis ist attraktiv, aber die Preview-Kennzeichnung heißt: SLA-Zusagen sind weich, das Modellverhalten kann sich ändern. Für Produktions-Workloads ist das ein eigenes Risiko.
Die Rechnung, die sich wirklich lohnt: Nimm eine typische Aufgabe aus deinem Alltag – einen Ticket-Flow, eine Dokumentenzusammenfassung, einen Refactor – und lass sie von allen drei Modellen laufen. Zähle die Tokens. Multipliziere mit dem Preis. Erst dann weißt du, was du im Monat tatsächlich zahlst.
Die Sicherheitslage bei GPT 5.5
OpenAI stuft GPT 5.5 im eigenen Preparedness Framework bei Biologie/Chemie als "High" ein, bei Cyber ebenfalls als "High" – aber unter der "Critical"-Schwelle. Das ist die nüchterne Interpretation: deutliche Fähigkeiten in sensiblen Gebieten, laut OpenAI aber unterhalb der Marke, ab der neue Abwehrmechanismen zwingend wären.
Praktisch hat OpenAI für GPT 5.5 ein zweistufiges Cyber-Monitoring eingebaut: Ein schneller Klassifikator sortiert verdächtige Anfragen aus, ein nachgeschalteter "Safety Reasoner" prüft die Grauzonen. Dazu kommt Actor-Level Enforcement: Accounts, bei denen erhöhtes Cyber-Risiko vermutet wird, laufen in einem strengeren Filter. Für verifizierte Sicherheitsforscher gibt es umgekehrt ein Trusted Access for Cyber-Programm – damit legitime Defender-Arbeit nicht an den Filtern scheitert.
Die brisanteste Zeile in der System Card steht weiter hinten: Das UK AI Security Institute (UK AISI) fand vor dem Launch einen universellen Cyber-Jailbreak – eine Prompt-Technik, die die Safety-Schranken aushebelte. OpenAI hat daraufhin Patches eingespielt. Die finale Startkonfiguration konnte UK AISI wegen eines Konfigurationsproblems nicht mehr nachvalidieren. OpenAI schreibt das offen in die System Card. Ein Transparenz-Plus, weil solche Details sonst selten öffentlich stehen. Zugleich ein Risikosignal: Die finalen Mauern hat die unabhängige Prüfstelle nie getestet.
Der Vergleich mit der Konkurrenz: Anthropic blockt bei Opus 4.7 Hochrisiko-Cyber-Requests per Default automatisch und hat ein Cyber Verification Program für legitime Zugriffe – ähnlicher Ansatz wie OpenAI, aber anders gewichtet. Google berichtet für Gemini 3.1 Pro kleine interne Safety-Deltas gegenüber der Vorgängerversion, bei Image-to-Text teils leicht negative Werte, aber kein externes Red-Team-Finding in der Größenordnung des AISI-Jailbreaks.
Was für dich zählt: Safety ist 2026 ein Produktmerkmal, kein Anhang. Wenn du GPT 5.5 in sensiblen Kontexten einsetzt – Kundendaten, Finanzlogik, Sicherheitstools – ist die System Card Pflichtlektüre, nicht Marketing-Material. Und du solltest wissen, dass der letzte unabhängige Belastungstest auf einer Konfiguration lief, die nicht mehr deine ist.
Was Experten und Nutzer über GPT 5.5 sagen
Zwei Tage nach dem Launch lesen sich die unabhängigen Einschätzungen so: begeistert bei klar umrissenen Aufgabenprofilen, skeptisch bei den großen Claims.
The Verge fasst GPT 5.5 als Modell zusammen, das bei Coding, Recherche, Tabellen und Dokumentenarbeit heraussticht – und ordnet den Release nicht als Wunderpunkt ein, sondern als nächsten Schritt im Enterprise-Wettlauf zwischen OpenAI, Anthropic und Google. Diese Lesart zieht sich durch die meisten englischen Fachberichte.
heise online titelt beim deutschen Launch-Artikel "Mehr Agent, weniger Chatbot" – ein Satz, der das Marketing-Framing trifft und zugleich bewertet. Gleichzeitig weist heise darauf hin, dass die Benchmark-Tabellen nur begrenzt reproduzierbar sind, weil die Konkurrenzwerte aus Vendor-Self-Reports stammen. Lob bekommt GPT 5.5 für den technischen Trick, bei gleicher Per-Token-Geschwindigkeit höhere Leistung zu liefern.
Die interessanteste Praxis-Einschätzung kommt von Simon Willison, Entwickler und Autor des Blogs simonwillison.net, der GPT 5.5 in einer Preview-Phase vor dem Release testen durfte. Sein Urteil: "fast, effective and highly capable". Wichtiger noch der zweite Halbsatz: "builds exactly what I ask for" – das Modell baut genau das, was er anweist, ohne eigene Interpretationen einzuweben. Für einen erfahrenen Entwickler ist das ein praktisches Qualitätsmerkmal, kein Marketing-Satz. Willisons Einschränkung: Ohne API-Release ist ernstes Nachtesten für Community und Entwickler noch nicht möglich.
Artificial Analysis ordnet GPT 5.5 mit 60 Punkten im Intelligence Index (xhigh-Setting) auf Platz eins ein, Opus 4.7 und Gemini 3.1 Pro liegen beide bei 57. Im Changelog steht der Satz: "the new leading AI model". Das ist deutliche Sprache von einem Analysten-Dienst, der sonst vorsichtig formuliert.
Die Gesamtlesart nach 48 Stunden: technisch das aktuell stärkste Modell, aber nicht in jeder Einzeldisziplin vorn. Und die Transparenz bleibt eine Baustelle – unabhängige, reproduzierbare Benchmarks fehlen weiter.
Für wen sich der Wechsel auf GPT 5.5 lohnt
Unsere Einschätzung nach zwei Tagen: GPT 5.5 ist ein klarer Sprung für agentische Arbeit – und ein moderater bis kaum spürbarer Sprung für alles andere. Wer den Umstieg allein aus Neuheits-Reflex macht, verbrennt Zeit. Wer ihn gezielt macht, bekommt echten Mehrwert.
Die einfache Matrix:
- Codex-Power-User mit Terminal-Aufgaben: Umstieg lohnt sofort. Fast Mode testen – aber die Token-Kosten gegen die Sitzungsdauer rechnen, sonst wird die Rechnung am Monatsende eklig.
- Automatisierung von Office-Dokumenten (Excel, PowerPoint, Word in Pipelines): klarer Umstieg auf GPT 5.5. Der OfficeQA-Pro-Abstand zu Gemini 3.1 Pro beträgt praktisch Faktor drei.
- Mathematisch-formale Reasoning-Aufgaben: GPT 5.5 Pro anschauen. Der Aufpreis (30 $ / 180 $ API) rechnet sich erst, wenn FrontierMath-Niveau wirklich dein Arbeitsalltag ist.
- Lange Repository-Issue-Arbeit: Opus 4.7 parallel testen. SWE-Bench Pro liegt klar zugunsten Anthropic, der Tokenizer-Haken gehört in dieselbe Excel-Datei wie die API-Preise.
- Multimodale Web-Recherche: Gemini 3.1 Pro im Vergleich laufen lassen. BrowseComp passt, und der Preis ist konkurrenzfähig, solange du mit dem Preview-Status leben kannst.
- Reine Chat- und Schreibnutzung: Der Unterschied zwischen GPT 5.4 und 5.5 ist im Alltag kaum spürbar. Kein Grund für Hektik.
Ein Preis-Hinweis bleibt: Wer rein nach Nominalpreis Opus 4.7 mit GPT 5.5 vergleicht, kommt zu falschen Schlüssen. Der neue Anthropic-Tokenizer erzeugt bis zu 35 Prozent mehr Tokens pro Text – die tatsächliche Rechnung verschiebt sich damit spürbar.