TOBG - IT, AI & Digital Transformation

August 2025 – 10 Min. Lesezeit

Vor drei Tagen hat OpenAI GPT-5 veröffentlicht. Nach intensiven Tests mit dem neuen Modell möchte ich meine Eindrücke teilen - als jemand, der täglich mit KI-Tools entwickelt. Seit April 2025 nutze ich Claude als primären Co-Developer, nachdem ich zuvor mit OpenAI o3, GPT-4 und GPT-4.1 gearbeitet habe.

Die technischen Daten

OpenAI präsentiert beeindruckende Spezifikationen:

**500'000 Token Kontext**

**74.9% auf SWE-bench** (gegenüber Claude 4.1's 74.5%)

**45% weniger Fehler als GPT-4o**

**3 Modellgrössen** (gpt-5, gpt-5-mini, gpt-5-nano)

Die Community-Reaktionen auf X sind gemischt. Viele Nutzer berichten von Einschränkungen bei den Rate Limits, vermissen die Persönlichkeit früherer Modelle und merken an, dass die Benchmark-Ergebnisse nicht unbedingt die Praxis widerspiegeln. Einige bevorzugen weiterhin GPT-4o, während andere das neue Modell für alltägliche Aufgaben als sehr gut bewerten.

Mein Test mit AIpuna Code

Ich habe GPT-5 mit denselben Aufgaben getestet, die ich auch bei anderen Modellen verwende:

Die Aufgabe:

Refactoring eines komplexen Flutter-Widgets mit Dart, State Management und Stripe Payment Integration.

GPT-5 liefert funktionierenden Code, das ist unbestritten. Die Qualität ist gut für Coding-Aufgaben. Aber im direkten Vergleich fehlt mir das, was Claude auszeichnet: Claude fühlt sich wie ein echter Senior Co-Developer an, der die praktischen Anforderungen in Production-Umgebungen versteht.

Der grosse Kontext: Theorie vs. Praxis

500k Token Kontext - Eigentlich genau was wir brauchen

Grosser Kontext ist für Entwicklungsaufgaben tatsächlich sehr wichtig. Das Problem ist nicht die Grösse, sondern die Umsetzung:

GPT-5 verliert trotz 500k Token den Kontext - besonders in der Mitte

Man muss mit sequenziellen Tasks arbeiten, Memories anlegen, Chats komprimieren

Ohne präzise Instructions und Regeln geht der Fokus verloren

Die Antwortzeiten variieren stark - vermutlich wegen Überlastung

Das eigentliche Problem:

Die hohe Nachfrage übersteigt wahrscheinlich OpenAIs Computing-Kapazität. Die Benchmark-Performance ist nur bei optimalen Bedingungen erreichbar - in der Realität kämpft das System mit der Last.

Google Gemini 2.5 Pro als Alternative:

Interessanterweise bietet Google Gemini 2.5 Pro eines der grössten Kontextfenster auf dem Markt und ist ebenfalls sehr gut für Entwicklungsaufgaben geeignet. In manchen Situationen liefert es stabilere Ergebnisse als GPT-5.

Benchmarks und Realität

GPT-5 zeigt starke Benchmark-Ergebnisse:

SWE-bench: 74.9%

HumanEval: 95.2%

MMLU: 91.8%

In der praktischen Anwendung beobachte ich:

Der generierte Code ist meist korrekt

Tendenz zu komplexeren Lösungsansätzen

Gelegentlich werden veraltete oder nicht-existente Framework-Features vorgeschlagen

Die Konsistenz über längere Sessions variiert

Community-Feedback auf X

Die Diskussionen auf X zeigen ein differenziertes Bild:

Häufig genannte Kritikpunkte:

Rate Limits und Verfügbarkeit

Fehlende "Persönlichkeit" im Vergleich zu früheren Modellen

Diskrepanz zwischen Benchmarks und praktischer Erfahrung

Viele wünschen sich GPT-4o zurück

Positive Stimmen:

Gut für alltägliche Programmieraufgaben

Starke Performance bei strukturierten Aufgaben

Gute Integration in bestehende Workflows

Zuverlässige Ergebnisse bei Standard-Tasks

Der Vergleich: GPT-5 vs Claude 4.1 vs Gemini 2.5 Pro

Nach drei Tagen intensiver Nutzung:

GPT-5 - Beobachtungen:

Sehr grosser Kontext verfügbar (aber verliert ihn trotzdem)

Gut für Standard-Coding-Aufgaben

Breites Wissensspektrum

Kämpft mit der Last der hohen Nachfrage

Claude 4.1 - Meine Erfahrung:

Fühlt sich wie ein echter Senior Co-Developer an

Versteht Entwickler-Intentionen besser

Pragmatischere Lösungsansätze

Konsistentere Qualität über Sessions

Gemini 2.5 Pro - Die Überraschung:

Eines der grössten verfügbaren Kontextfenster

Sehr gut für Entwicklungsaufgaben

Oft stabilere Performance als GPT-5

Interessante Alternative für grosse Projekte

Payment Integration und Spezifika

Bei Payment-spezifischen Anforderungen zeigen sich Unterschiede:

Stripe Integration:

GPT-5 kennt Stripe gut und kann solide Implementierungen liefern. Claude versteht jedoch besser die Nuancen von Webhook-Handling, Idempotenz und Edge-Cases bei Payment-Flows.

Flutter-spezifische Patterns:

Alle drei Modelle beherrschen Flutter, aber Claude zeigt oft pragmatischere Ansätze bei State Management und Widget-Architektur. Gemini 2.5 Pro überrascht mit detailliertem Flutter-Wissen.

Workarounds für GPT-5

Um mit GPT-5 effektiv zu arbeiten, habe ich folgende Strategien entwickelt:

Sequential Tasks:

Aufgaben in kleine, sequenzielle Schritte aufteilen

Klare Checkpoints zwischen Tasks setzen

Regelmässig den Kontext zusammenfassen

Memory Management:

Eigene Memories für wichtige Projektdetails anlegen

Chat-Verläufe regelmässig komprimieren

Wichtige Informationen in Instructions festhalten

Präzise Regeln:

Sehr spezifische Instructions verwenden

Klare Constraints definieren

Output-Format genau vorgeben

Mein persönliches Fazit

GPT-5 ist ein gutes Modell für Coding - das möchte ich klar festhalten. Es leistet solide Arbeit und wird von vielen Entwicklern geschätzt. Die technischen Verbesserungen sind real.

Aber für meine spezifischen Anforderungen bei der AIpuna-Entwicklung bleibe ich bei Claude 4.1. Nicht weil GPT-5 schlecht ist, sondern weil Claude sich für mich wie ein echter Senior Co-Developer anfühlt. Nach vier Monaten intensiver Zusammenarbeit versteht Claude meine Arbeitsweise und liefert pragmatische, produktionsreife Lösungen.

Meine Toolchain:

**Claude 4.1**: Primärer Co-Developer für komplexe Aufgaben

**GPT-5**: Für spezifische Tasks wenn Claude überlastet ist

**Gemini 2.5 Pro**: Für Projekte die sehr grossen Kontext benötigen

Empfehlungen

Für wen GPT-5 interessant sein könnte:

Teams die bereits in OpenAI-Ecosystem investiert sind

Projekte mit Standard-Entwicklungsaufgaben

Wenn breite Tool-Integration wichtig ist

Wann Claude 4.1 die bessere Wahl ist:

Wenn Sie einen echten Co-Developer Feeling wollen

Komplexe Architektur-Entscheidungen

Agenten-basierte Entwicklung

Konsistenz über lange Sessions wichtig

Wann Gemini 2.5 Pro überraschen könnte:

Sehr grosse Codebases

Wenn stabiler grosser Kontext wichtig ist

Als Backup wenn andere Modelle überlastet sind

Ausblick

Die Entwicklung geht weiter. GPT-5 wird sich verbessern, sobald OpenAI die Infrastruktur ausbaut. Gemini 2.5 Pro zeigt, dass Google ernsthaft mitspielt. Und Claude bleibt mein verlässlicher Partner.

Für mich persönlich ist die aktuelle Situation ideal: Wir haben mehrere sehr fähige KI-Assistenten zur Verfügung. Je nach Aufgabe kann ich das passende Tool wählen. Das ist ein Luxus, den wir vor einem Jahr noch nicht hatten.

Die wichtigste Erkenntnis: Es geht nicht um das "beste" Modell, sondern um das richtige Tool für die jeweilige Aufgabe. Und für meine tägliche Arbeit ist das Claude - aber es ist gut zu wissen, dass es Alternativen gibt.

Patrik Germann

30 Jahre IT-Erfahrung

Pragmatischer Multi-Model Nutzer

GPT-5 ist da: Beeindruckende Zahlen, aber Claude bleibt mein Co-Dev