Zum Inhalt springen
PHM.de
KI-News · · von Dennis

Gemini 3.1 Pro – Benchmarks, Preise & Vergleich

Gemini 3.1 Pro

Am 19. Februar 2026 hat Google DeepMind Gemini 3.1 Pro vorgestellt – und die Benchmark-Ergebnisse haben es in sich. Beim ARC-AGI-2-Test, der abstrakte Logikfähigkeiten misst, erreicht das Modell 77,1 %. Zum Vergleich: Der direkte Vorgänger Gemini 3 Pro kam auf 31,1 %. Das ist mehr als eine Verdopplung der Reasoning-Leistung innerhalb einer einzigen Modellgeneration. Ähnliche Sprünge sieht man bei Coding-Benchmarks und beim autonomen Arbeiten.

Trotz des kleinen Versionssprungs von 3.0 auf 3.1 steckt also ein ordentlicher Leistungszuwachs dahinter. Google hat nach eigener Aussage architektonische Durchbrüche aus dem Forschungsmodell Gemini 3 Deep Think in ein alltagstaugliches Modell überführt. Gleichzeitig bleibt der API-Preis bei $2 pro Million Input-Tokens und $12 pro Million Output-Tokens – identisch mit dem Vorgänger. Mehr Leistung zum gleichen Preis, das kommt im KI-Markt selten vor.

Neben dem Reasoning-Sprung bringt Gemini 3.1 Pro auch Verbesserungen beim Coding, bei der multimodalen Verarbeitung und bei autonomen Aufgaben mit. Neue Features wie die SVG-Animation aus Textbeschreibungen und ein flexibleres Thinking-Level-System machen das Modell für Entwickler und kreative Anwendungen gleichermaßen interessant. Aber wo genau liegen die Stärken, und wo hat die Konkurrenz von Anthropic und OpenAI noch die Nase vorn?

Die Gemini App zählt laut Google mittlerweile über 750 Millionen monatlich aktive Nutzer. Mit Version 3.1 Pro bedient Google also nicht nur Entwickler über die API, sondern auch eine riesige Consumer-Basis. Wer bisher mit Gemini 3 Pro gearbeitet hat, bekommt das Upgrade automatisch – ohne Aufpreis und ohne Konfigurationsaufwand. Ein Blick auf die Details zeigt, was sich konkret verbessert hat und wo Gemini 3.1 Pro an seine Grenzen stößt.

Technische Daten: Was Gemini 3.1 Pro unter der Haube hat

Gemini 3.1 Pro verarbeitet bis zu 1 Million Tokens Kontext in einem einzigen Durchlauf. Um das greifbar zu machen: Das entspricht etwa 700.000 Wörtern oder einer kompletten Codebase mit tausenden Dateien. Auch mehrstündige Videos oder umfangreiche Dokumentensammlungen passen in dieses Kontextfenster. Die maximale Ausgabelänge liegt bei 64.000 Tokens, was selbst für sehr lange Antworten oder generierte Code-Dateien reicht.

Das Modell ist nativ multimodal aufgebaut. Text, Bilder, Audio, Video und ganze Code-Repositories werden direkt verarbeitet – ohne separate Pipelines für verschiedene Eingabearten. Für Entwickler besonders relevant: Das Upload-Limit wurde von 20 MB auf 100 MB angehoben. Wer regelmäßig größere Dateien analysieren lässt, profitiert direkt davon.

Neu ist der thinking_level-Parameter in der API. Der lässt sich auf vier Stufen einstellen: low, medium, high und max. Die Stufe „medium" ist komplett neu in Version 3.1 und schließt eine Lücke, die Entwickler beim Vorgänger bemängelt hatten. Kurze Anfragen erledigt das Modell mit niedrigem Thinking-Level schnell und günstig. Für komplexe Aufgaben wie mathematische Beweise oder verschachtelte Code-Probleme schaltest du auf „high" oder „max". Laut einem Bericht des JetBrains AI Directors arbeitet Gemini 3.1 Pro dabei rund 15 % effizienter als der Vorgänger – es braucht also weniger Tokens für gleichwertige Ergebnisse.

Reasoning: Der größte Sprung von Gemini 3.1 Pro

Der ARC-AGI-2-Benchmark gilt als einer der härtesten Tests für abstrakte Intelligenz. Er präsentiert dem Modell Logikrätsel, die es vorher nie gesehen hat – auswendig lernen bringt hier nichts. Gemini 3.1 Pro erreicht 77,1 %, während der Vorgänger bei 31,1 % lag und das spezialisierte Forschungsmodell Gemini 3 Deep Think auf 45,1 % kam. Google hat die Architektur-Verbesserungen aus Deep Think offenbar erfolgreich in ein Modell übertragen, das sich für den Produktiveinsatz eignet.

Auch bei wissenschaftlichen Fragen überzeugt das Modell. Beim GPQA Diamond, einem Benchmark mit Doktoranden-Level-Fragen aus Physik, Biologie und Chemie, erreicht Gemini 3.1 Pro 94,3 %. Für die Praxis heißt das: Bei Recherche- und Analyse-Aufgaben in naturwissenschaftlichen Bereichen liefert das Modell sehr zuverlässige Antworten.

Beim Humanity's Last Exam – einem Benchmark, der die härtesten Fragen aus verschiedenen Fachgebieten bündelt – kommt Gemini 3.1 Pro ohne externe Werkzeuge auf 44,4 %. Mit Tool-Zugang steigt der Wert auf 51,4 %. Zum Vergleich: Claude Opus 4.6 von Anthropic erreicht ohne Tools 40,0 %, zieht aber mit Tools auf 53,1 % an Gemini vorbei. Die Unterschiede sind also je nach Einsatzszenario mal zugunsten des einen, mal zugunsten des anderen Modells.

Coding mit Gemini 3.1 Pro

Coding-Leistung ist für viele Entwickler der entscheidende Faktor bei der Modellwahl. Gemini 3.1 Pro schneidet hier durchgehend stark ab, muss sich aber in spezialisierten Bereichen geschlagen geben. Ein genauer Blick auf die einzelnen Benchmarks lohnt sich, weil die Unterschiede zwischen den Modellen je nach Aufgabentyp sehr verschieden ausfallen. Was auf dem Papier wie ein klarer Sieg aussieht, relativiert sich manchmal, wenn du den konkreten Einsatzzweck betrachtest. Deshalb lohnt sich ein genauer Blick auf die einzelnen Disziplinen.

Vom klassischen Software-Engineering über algorithmische Aufgaben bis hin zu wissenschaftlichem Programmieren deckt Gemini 3.1 Pro das gesamte Spektrum ab. Im Vergleich zum Vorgänger fallen besonders die Verbesserungen bei komplexen, mehrstufigen Coding-Aufgaben auf – also genau dort, wo Entwickler am meisten Unterstützung brauchen. Der SWE-Bench-Pro-Score liegt bei 54,2 %, was zeigt, dass das Modell auch über Python hinaus bei diversen Programmiersprachen und Aufgabentypen gut abschneidet. Zwei Bereiche stechen dabei besonders hervor.

Software-Engineering und Wettbewerbs-Coding

Beim SWE-Bench Verified löst Gemini 3.1 Pro 80,6 % der realen Software-Issues aus Open-Source-Python-Repositories. Claude Opus 4.6 liegt mit 80,8 % hauchdünn darüber – ein Unterschied, der in der Praxis kaum spürbar sein dürfte. Beide Modelle liegen deutlich vor GPT-5.2 von OpenAI. Beim LiveCodeBench Pro, einem Wettbewerbs-Coding-Benchmark, erreicht Gemini 3.1 Pro ein Elo-Rating von 2.887. Der Vorgänger kam auf 2.439, GPT-5.2 auf 2.393. Ein Elo-Unterschied von über 400 Punkten bedeutet in der Praxis, dass das Modell deutlich häufiger die korrekte und effiziente Lösung findet. Auch beim SciCode-Benchmark für wissenschaftliches Programmieren führt Gemini 3.1 Pro mit einer Completion-Rate von 59,0 %.

Agentic Coding und Terminal-Arbeit

Terminal-Bench 2.0 testet, wie gut ein Modell eigenständig in Terminal-Umgebungen arbeiten kann – also Dateisysteme navigieren, Dependencies verwalten und Build-Prozesse ausführen. Gemini 3.1 Pro kommt hier auf 68,5 %. OpenAIs spezialisiertes GPT-5.3-Codex erreicht 77,3 % und hat damit einen deutlichen Vorsprung. Codex wurde gezielt für solche Aufgaben optimiert und nutzt einen eigenen Evaluation-Harness.

Trotzdem ist Gemini 3.1 Pro in vielen Szenarien die bessere Wahl: Es beherrscht neben Terminal-Aufgaben eben auch multimodale Eingaben, lange Kontexte und kreative Aufgaben. Wer nicht ausschließlich Terminal-basiert arbeitet, bekommt mit Gemini 3.1 Pro das breitere Gesamtpaket. Ein Full-Stack-Entwickler, der zwischen Code-Reviews, API-Design und Dokumentation wechselt, profitiert von der Vielseitigkeit mehr als von der Terminal-Spezialisierung.

SVG-Animation und kreatives Coding

Ein Feature, das bei der Vorstellung viel Aufmerksamkeit bekommen hat: Gemini 3.1 Pro generiert animierte SVGs direkt aus Textbeschreibungen. SVGs bestehen aus reinem Code statt Pixeln. Sie skalieren verlustfrei auf jede Größe und haben minimale Dateigrößen im Vergleich zu Videos oder animierten GIFs. Für Webentwicklung und Motion-Design ein echter Gewinn.

Google demonstrierte das anhand eines Beispiels: Ein Pelikan, der Fahrrad fährt. Gemini 3 Pro erzeugte daraus eine grobe Skizze mit rudimentären Formen. Gemini 3.1 Pro liefert dagegen detaillierte Körperstrukturen, korrekt dargestellte Fahrradkomponenten wie Kette, Pedale und Sattel – plus flüssige Animation. Der Qualitätssprung ist bei solchen visuellen Aufgaben enorm.

Noch spannender für Designer: Das Modell überträgt literarische Stimmungen in funktionalen Code. In einer Demo wurde „Wuthering Heights" als Referenz für ein Portfolio-Design genutzt. Gemini 3.1 Pro erkannte die atmosphärische Tonalität des Romans und setzte sie in dunkle Farbpaletten, windbewegte Elemente und typografische Entscheidungen um. Für Prototyping und schnelle Designentwürfe spart das erheblich Zeit – ohne dass du externe Grafik-Tools brauchst.

Multimodale Verarbeitung und Kontextfenster

Multimodale Benchmarks messen, wie gut ein Modell verschiedene Eingabeformate gleichzeitig versteht und daraus Schlüsse zieht. Der MMMLU-Score von Gemini 3.1 Pro liegt bei 92,6 % – das zeigt starkes Verständnis von kombinierten Text-Bild-Eingaben. Beim MMMU-Pro, der über reines Verständnis hinausgeht und logische Schlussfolgerungen aus gemischten Eingaben verlangt, erreicht das Modell 80,5 %. Der Unterschied zwischen den beiden Tests: MMMLU misst Erkennen, MMMU-Pro misst Denken.

Das 1-Million-Token-Kontextfenster macht Gemini 3.1 Pro besonders stark bei Aufgaben, die große Datenmengen auf einmal verarbeiten müssen. Ganze Code-Repositories analysieren, mehrstündige Meeting-Aufzeichnungen zusammenfassen oder hunderte Seiten Vertragsdokumente durchsuchen – all das passiert in einem Durchlauf ohne Kontext-Verlust.

Wie zuverlässig das bei langen Eingaben funktioniert, misst der MRCR v2 Benchmark bei 128K Token Kontext. Gemini 3.1 Pro erreicht hier 84,9 %. Für die Praxis bedeutet das: Auch bei langen Dokumenten oder umfangreichen Code-Reviews behält das Modell den Überblick und produziert konsistente Ausgaben – ein Punkt, bei dem viele Modelle Schwächen zeigen.

Autonomes Arbeiten: Agentic Capabilities

Gemini 3.1 Pro wurde gezielt für autonome Aufgaben verbessert. Beim BrowseComp-Benchmark, der die Fähigkeit zur eigenständigen Web-Recherche und Informationsanalyse misst, springt der Wert von 59,2 % (Gemini 3 Pro) auf 85,9 %. Das Modell findet und verknüpft Informationen aus verschiedenen Webquellen also erheblich besser als sein Vorgänger.

Beim MCP Atlas, der Multi-Step-Tool-Koordination testet, erreicht Gemini 3.1 Pro 69,2 %. Dabei muss das Modell mehrere externe Werkzeuge nacheinander korrekt einsetzen – etwa eine Datenbank abfragen, das Ergebnis verarbeiten und dann eine API aufrufen. Beim Tao-2-Benchmark für dynamische Anpassungsfähigkeit liegt der Wert bei 99,3 %. Ändert sich die Aufgabenstellung während der Bearbeitung, reagiert das Modell nahezu perfekt darauf.

Google stellt Gemini 3.1 Pro auf seiner neuen agentenbasierten Entwicklungsplattform Antigravity bereit. Auch die Integration in GitHub Copilot, Visual Studio und Android Studio ist verfügbar. Wer KI-gestützte Agenten bauen möchte, die eigenständig Aufgaben erledigen, hat damit deutlich mehr Möglichkeiten als noch mit dem Vorgänger.

Gemini 3.1 Pro vs. Claude Opus 4.6 vs. GPT-5

Die Benchmark-Landschaft im Februar 2026 ist eng. Gemini 3.1 Pro führt in den meisten Kategorien, aber Claude Opus 4.6 und GPT-5.3-Codex haben jeweils ihre Stärken. Ein direkter Vergleich der wichtigsten Werte:

Benchmark

Gemini 3.1 Pro

Claude Opus 4.6

GPT-5.2 / 5.3-Codex

ARC-AGI-2

77,1 %

68,8 %

GPQA Diamond

94,3 %

Humanity's Last Exam (ohne Tools)

44,4 %

40,0 %

Humanity's Last Exam (mit Tools)

51,4 %

53,1 %

SWE-Bench Verified

80,6 %

80,8 %

LiveCodeBench Pro (Elo)

2.887

2.393

Terminal-Bench 2.0

68,5 %

77,3 % (Codex)

BrowseComp

85,9 %

GDPval-AA (Elo)

1.317

1.606

MMMU-Pro

80,5 %

Gemini 3.1 Pro dominiert bei abstraktem Reasoning (ARC-AGI-2) und bei agentenbasierten Aufgaben (BrowseComp). Claude Opus 4.6 hat dafür einen klaren Vorsprung bei Wissensarbeit und Expertenaufgaben: Beim GDPval-AA, der simulierte Büro- und Analyseaufgaben bewertet, liegt Anthropics Modell mit einem Elo von 1.606 gegenüber 1.317 deutlich vorn. Auch beim SWE-Bench Verified bleibt Claude minimal besser. GPT-5.3-Codex von OpenAI ist wiederum der Spezialist für Terminal-basiertes Coding.

Beim Preis fällt die Rechnung eindeutig aus: Gemini 3.1 Pro kostet $2/$12 pro Million Tokens, Claude Opus 4.6 liegt bei $5/$25. Wer viel API-Volumen hat und nicht speziell auf die Wissensarbeit-Stärken von Claude angewiesen ist, spart mit Gemini erheblich.

Preis und Verfügbarkeit von Gemini 3.1 Pro

Google hält den API-Preis bei $2 pro Million Input-Tokens und $12 pro Million Output-Tokens – exakt das gleiche Preisniveau wie beim Vorgänger Gemini 3 Pro. Angesichts der Leistungssteigerung in fast allen Benchmarks ist das ein sehr gutes Kosten-Leistungs-Verhältnis.

Entwickler erreichen Gemini 3.1 Pro über die Gemini API in Google AI Studio, über Gemini CLI, die agentenbasierte Plattform Google Antigravity und Android Studio. Unternehmen nutzen das Modell über Vertex AI und Gemini Enterprise. In der Gemini App wird 3.1 Pro für Nutzer mit Google AI Pro- oder Ultra-Abo ausgerollt – mit höheren Nutzungslimits als beim kostenlosen Zugang. Auch NotebookLM greift jetzt exklusiv für Pro- und Ultra-Abonnenten auf das neue Modell zu.

Aktuell ist Gemini 3.1 Pro als Preview verfügbar. Google kündigt die allgemeine Verfügbarkeit für die kommenden Wochen an. Wer das Modell über Google AI Studio testen möchte, bekommt auch ohne Abo Zugang – allerdings mit Ratenlimits. Für erste Tests reicht das aus, für produktive Nutzung mit hohem Volumen lohnt sich dagegen ein Blick auf die Vertex-AI-Tarife.

Häufige Fragen zu Gemini 3.1 Pro

Seit der Veröffentlichung tauchen einige Fragen immer wieder auf – vor allem zum Vergleich mit der Konkurrenz, zu den Kosten und dazu, was sich gegenüber dem Vorgänger tatsächlich geändert hat. Benchmark-Zahlen allein beantworten diese Fragen nicht immer befriedigend, weil die Praxis oft anders aussieht als die Testergebnisse.

Ein Modell, das in einem synthetischen Test 5 Prozentpunkte vorne liegt, fühlt sich im Alltag nicht unbedingt besser an. Umgekehrt können kleine Unterschiede in bestimmten Bereichen – etwa bei der Code-Qualität oder der Zuverlässigkeit bei langen Kontexten – den Arbeitsfluss stark beeinflussen. Hier die drei häufigsten Fragen mit ehrlichen, differenzierten Antworten.

Ist Gemini 3.1 Pro besser als ChatGPT?

In den meisten Benchmarks liegt Gemini 3.1 Pro vor GPT-5.2. Googles Modell punktet besonders beim Reasoning (ARC-AGI-2: 77,1 %) und beim Wettbewerbs-Coding (LiveCodeBench Pro: Elo 2.887). GPT-5.3-Codex bleibt allerdings bei spezialisierten Terminal-Aufgaben stärker – dort erreicht OpenAIs Modell 77,3 % gegenüber 68,5 %. Wer allgemeine Anfragen und Reasoning-Aufgaben hat, bekommt mit Gemini 3.1 Pro aktuell mehr Leistung. Bei rein terminalbasiertem Coding und bei Aufgaben, die stark auf OpenAIs Ökosystem zugeschnitten sind, hat Codex weiterhin Vorteile. Die beste Strategie bleibt, beide Modelle mit deinen eigenen typischen Prompts zu testen und die Ergebnisse direkt zu vergleichen. Was bei Benchmark-Aufgaben gilt, muss sich im eigenen Workflow nicht zwingend bestätigen.

Was kostet Gemini 3.1 Pro?

Über die API zahlst du $2 pro Million Input-Tokens und $12 pro Million Output-Tokens. In der Gemini App ist das Modell mit dem Pro-Abo ($19,99/Monat) oder dem Ultra-Abo nutzbar. Über Google AI Studio kannst du Gemini 3.1 Pro auch kostenlos testen – mit eingeschränkten Ratenlimits. Im Vergleich zu Claude Opus 4.6, das $5/$25 pro Million Tokens kostet, sparst du mit Gemini bei hohem API-Volumen deutlich Geld. Besonders bei Batch-Verarbeitung oder Anwendungen mit vielen parallelen Anfragen macht sich der Preisunterschied schnell bemerkbar. Für kleine Projekte und erste Tests reicht der kostenlose AI-Studio-Zugang oft vollkommen aus. Erst bei regelmäßiger, professioneller Nutzung lohnt sich ein kostenpflichtiger Plan.

Was ist der Unterschied zwischen Gemini 3 Pro und 3.1 Pro?

Am Preis hat sich nichts geändert, aber die Leistung springt deutlich nach oben. Reasoning hat sich mehr als verdoppelt (ARC-AGI-2: 77,1 % vs. 31,1 %). Dazu kommt das neue Thinking-Level-System mit vier Stufen, das Entwicklern mehr Kontrolle über die Balance zwischen Geschwindigkeit und Reasoning-Tiefe gibt. Die SVG-Generierung ist drastisch verbessert und liefert jetzt detaillierte, animierte Grafiken statt grober Skizzen. Bei agentenbasierten Aufgaben (BrowseComp: 85,9 % vs. 59,2 %) liegt 3.1 Pro ebenfalls weit vorn, und das Upload-Limit wurde von 20 MB auf 100 MB verfünffacht. Wer den Vorgänger schon nutzt, bekommt das Upgrade ohne Mehrkosten. In Summe ist es kein neues Modell, aber ein massiver Leistungssprung, der sich in der Praxis schnell bemerkbar macht.

Ähnliche Artikel