GPT-5 ist da: Beeindruckende Zahlen, aber Claude bleibt mein Co-Dev

AI10 Min. Lesezeit
  • August 2025 – 10 Min. Lesezeit

  • Vor drei Tagen hat OpenAI GPT-5 veröffentlicht. Nach intensiven Tests mit dem neuen Modell möchte ich meine EindrĂĽcke teilen - als jemand, der täglich mit KI-Tools entwickelt. Seit April 2025 nutze ich Claude als primären Co-Developer, nachdem ich zuvor mit OpenAI o3, GPT-4 und GPT-4.1 gearbeitet habe.




    Die technischen Daten


    OpenAI präsentiert beeindruckende Spezifikationen:

  • **500'000 Token Kontext**
  • **74.9% auf SWE-bench** (gegenĂĽber Claude 4.1's 74.5%)
  • **45% weniger Fehler als GPT-4o**
  • **3 Modellgrössen** (gpt-5, gpt-5-mini, gpt-5-nano)

  • Die Community-Reaktionen auf X sind gemischt. Viele Nutzer berichten von Einschränkungen bei den Rate Limits, vermissen die Persönlichkeit frĂĽherer Modelle und merken an, dass die Benchmark-Ergebnisse nicht unbedingt die Praxis widerspiegeln. Einige bevorzugen weiterhin GPT-4o, während andere das neue Modell fĂĽr alltägliche Aufgaben als sehr gut bewerten.




    Mein Test mit AIpuna Code


    Ich habe GPT-5 mit denselben Aufgaben getestet, die ich auch bei anderen Modellen verwende:


    Die Aufgabe:

    Refactoring eines komplexen Flutter-Widgets mit Dart, State Management und Stripe Payment Integration.


    GPT-5 liefert funktionierenden Code, das ist unbestritten. Die Qualität ist gut für Coding-Aufgaben. Aber im direkten Vergleich fehlt mir das, was Claude auszeichnet: Claude fühlt sich wie ein echter Senior Co-Developer an, der die praktischen Anforderungen in Production-Umgebungen versteht.




    Der grosse Kontext: Theorie vs. Praxis


    500k Token Kontext - Eigentlich genau was wir brauchen


    Grosser Kontext ist für Entwicklungsaufgaben tatsächlich sehr wichtig. Das Problem ist nicht die Grösse, sondern die Umsetzung:


  • GPT-5 verliert trotz 500k Token den Kontext - besonders in der Mitte
  • Man muss mit sequenziellen Tasks arbeiten, Memories anlegen, Chats komprimieren
  • Ohne präzise Instructions und Regeln geht der Fokus verloren
  • Die Antwortzeiten variieren stark - vermutlich wegen Ăśberlastung

  • Das eigentliche Problem:

    Die hohe Nachfrage übersteigt wahrscheinlich OpenAIs Computing-Kapazität. Die Benchmark-Performance ist nur bei optimalen Bedingungen erreichbar - in der Realität kämpft das System mit der Last.


    Google Gemini 2.5 Pro als Alternative:

    Interessanterweise bietet Google Gemini 2.5 Pro eines der grössten Kontextfenster auf dem Markt und ist ebenfalls sehr gut für Entwicklungsaufgaben geeignet. In manchen Situationen liefert es stabilere Ergebnisse als GPT-5.




    Benchmarks und Realität


    GPT-5 zeigt starke Benchmark-Ergebnisse:

  • SWE-bench: 74.9%
  • HumanEval: 95.2%
  • MMLU: 91.8%

  • In der praktischen Anwendung beobachte ich:

  • Der generierte Code ist meist korrekt
  • Tendenz zu komplexeren Lösungsansätzen
  • Gelegentlich werden veraltete oder nicht-existente Framework-Features vorgeschlagen
  • Die Konsistenz ĂĽber längere Sessions variiert



  • Community-Feedback auf X


    Die Diskussionen auf X zeigen ein differenziertes Bild:


    Häufig genannte Kritikpunkte:

  • Rate Limits und VerfĂĽgbarkeit
  • Fehlende "Persönlichkeit" im Vergleich zu frĂĽheren Modellen
  • Diskrepanz zwischen Benchmarks und praktischer Erfahrung
  • Viele wĂĽnschen sich GPT-4o zurĂĽck

  • Positive Stimmen:

  • Gut fĂĽr alltägliche Programmieraufgaben
  • Starke Performance bei strukturierten Aufgaben
  • Gute Integration in bestehende Workflows
  • Zuverlässige Ergebnisse bei Standard-Tasks



  • Der Vergleich: GPT-5 vs Claude 4.1 vs Gemini 2.5 Pro


    Nach drei Tagen intensiver Nutzung:


    GPT-5 - Beobachtungen:

  • Sehr grosser Kontext verfĂĽgbar (aber verliert ihn trotzdem)
  • Gut fĂĽr Standard-Coding-Aufgaben
  • Breites Wissensspektrum
  • Kämpft mit der Last der hohen Nachfrage

  • Claude 4.1 - Meine Erfahrung:

  • FĂĽhlt sich wie ein echter Senior Co-Developer an
  • Versteht Entwickler-Intentionen besser
  • Pragmatischere Lösungsansätze
  • Konsistentere Qualität ĂĽber Sessions

  • Gemini 2.5 Pro - Die Ăśberraschung:

  • Eines der grössten verfĂĽgbaren Kontextfenster
  • Sehr gut fĂĽr Entwicklungsaufgaben
  • Oft stabilere Performance als GPT-5
  • Interessante Alternative fĂĽr grosse Projekte



  • Payment Integration und Spezifika


    Bei Payment-spezifischen Anforderungen zeigen sich Unterschiede:


    Stripe Integration:

    GPT-5 kennt Stripe gut und kann solide Implementierungen liefern. Claude versteht jedoch besser die Nuancen von Webhook-Handling, Idempotenz und Edge-Cases bei Payment-Flows.


    Flutter-spezifische Patterns:

    Alle drei Modelle beherrschen Flutter, aber Claude zeigt oft pragmatischere Ansätze bei State Management und Widget-Architektur. Gemini 2.5 Pro überrascht mit detailliertem Flutter-Wissen.




    Workarounds fĂĽr GPT-5


    Um mit GPT-5 effektiv zu arbeiten, habe ich folgende Strategien entwickelt:


    Sequential Tasks:

  • Aufgaben in kleine, sequenzielle Schritte aufteilen
  • Klare Checkpoints zwischen Tasks setzen
  • Regelmässig den Kontext zusammenfassen

  • Memory Management:

  • Eigene Memories fĂĽr wichtige Projektdetails anlegen
  • Chat-Verläufe regelmässig komprimieren
  • Wichtige Informationen in Instructions festhalten

  • Präzise Regeln:

  • Sehr spezifische Instructions verwenden
  • Klare Constraints definieren
  • Output-Format genau vorgeben



  • Mein persönliches Fazit


    GPT-5 ist ein gutes Modell für Coding - das möchte ich klar festhalten. Es leistet solide Arbeit und wird von vielen Entwicklern geschätzt. Die technischen Verbesserungen sind real.


    Aber für meine spezifischen Anforderungen bei der AIpuna-Entwicklung bleibe ich bei Claude 4.1. Nicht weil GPT-5 schlecht ist, sondern weil Claude sich für mich wie ein echter Senior Co-Developer anfühlt. Nach vier Monaten intensiver Zusammenarbeit versteht Claude meine Arbeitsweise und liefert pragmatische, produktionsreife Lösungen.


    Meine Toolchain:

  • **Claude 4.1**: Primärer Co-Developer fĂĽr komplexe Aufgaben
  • **GPT-5**: FĂĽr spezifische Tasks wenn Claude ĂĽberlastet ist
  • **Gemini 2.5 Pro**: FĂĽr Projekte die sehr grossen Kontext benötigen



  • Empfehlungen


    Für wen GPT-5 interessant sein könnte:

  • Teams die bereits in OpenAI-Ecosystem investiert sind
  • Projekte mit Standard-Entwicklungsaufgaben
  • Wenn breite Tool-Integration wichtig ist

  • Wann Claude 4.1 die bessere Wahl ist:

  • Wenn Sie einen echten Co-Developer Feeling wollen
  • Komplexe Architektur-Entscheidungen
  • Agenten-basierte Entwicklung
  • Konsistenz ĂĽber lange Sessions wichtig

  • Wann Gemini 2.5 Pro ĂĽberraschen könnte:

  • Sehr grosse Codebases
  • Wenn stabiler grosser Kontext wichtig ist
  • Als Backup wenn andere Modelle ĂĽberlastet sind



  • Ausblick


    Die Entwicklung geht weiter. GPT-5 wird sich verbessern, sobald OpenAI die Infrastruktur ausbaut. Gemini 2.5 Pro zeigt, dass Google ernsthaft mitspielt. Und Claude bleibt mein verlässlicher Partner.


    Für mich persönlich ist die aktuelle Situation ideal: Wir haben mehrere sehr fähige KI-Assistenten zur Verfügung. Je nach Aufgabe kann ich das passende Tool wählen. Das ist ein Luxus, den wir vor einem Jahr noch nicht hatten.


    Die wichtigste Erkenntnis: Es geht nicht um das "beste" Modell, sondern um das richtige Tool für die jeweilige Aufgabe. Und für meine tägliche Arbeit ist das Claude - aber es ist gut zu wissen, dass es Alternativen gibt.


    Patrik Germann

    30 Jahre IT-Erfahrung

    Pragmatischer Multi-Model Nutzer

    Kommentare

    Bereit fĂĽr die KI-Transformation?

    Lassen Sie uns gemeinsam die Möglichkeiten von KI für Ihr Unternehmen erkunden.

    Beratung vereinbaren
    Beratung buchen
    TOBG - DLT, Crypto, Mindset, Community