#106 – Anthropic schlägt OpenAI: KI-Wettrennen, neue Coding-Benchmarks und Super-App-Kampf der Tech-Giganten

Die Zahl der Woche setzt den Ton: 965 Milliarden Dollar – so hoch liegt die aktuelle Bewertung von Anthropic und damit „auf dem Papier“ vor OpenAI. Michael Witzenleiter und Jean-Luc Winkler ordnen ein, warum diese Bewertung nicht mehr nach klassischem Startup-Multiple aussieht, sondern nach einer Wette auf Infrastruktur, Marktbeherrschung und regulatorische Positionierung. Gleichzeitig wird der Kontrast schärfer: Anthropic warnt öffentlich vor Kontrollverlust durch zu mächtige Modelle, während der Markt mit voller Geschwindigkeit weiter eskaliert.

FrontierCode: „Mergeability“ als neues Qualitäts-Lineal für KI-Code

Cognition setzt mit FrontierCode einen neuen Maßstab, weil hier nicht mehr nur „funktioniert“ zählt, sondern ob Code realistisch in ein Open-Source-Projekt gemerged würde – also Maintainability, Tests, Stil, Scope und Projektstandards. Über 20 Open-Source-Maintainer haben Aufgaben mit hohem Praxisbezug gebaut und dafür jeweils 40+ Stunden investiert; der Benchmark versucht damit gezielt, synthetische „Gaming“-Aufgaben hinter sich zu lassen. Besonders hart ist die Logik: Ein einziger Blocker (z. B. Korrektheit, Scope-Verletzung) bedeutet null Punkte, wie im echten Code-Review. Auch die Messmethodik wird auf Realismus getrimmt: Unit-Tests, LLM-Bewertungen und Verfahren wie „Reverse-Classical“, bei denen die Testumgebung per LLM so angepasst wird, dass valide Alternativlösungen nicht an Formalien scheitern. Sogar KI-generierte Tests werden „gegen den fehlerhaften Originalcode“ geprüft – sie müssen dort zuverlässig fehlschlagen, sonst gilt das Verständnis als nicht belegt. Das Ergebnis ist ein deutlich robusteres Signal: laut Cognition 81 % niedrigere False-Positive-Rate als bisherige Standards. Ernüchternd fällt dennoch die Leistung aus: Claude Opus 4.8 erreicht im schwierigsten „Diamond“-Set 13,4 %, GPT-5.5 6,3 %, Gemini 3.1 Pro 4,7 %, bestes Open-Source (Kimi K2.6) 3,8 %. Damit wirkt der Benchmark bewusst „unsaturiert“ – und macht sichtbar, dass Coding-KI bei produktionsreifer Qualität noch weit von Autopilot-Niveau entfernt ist, inklusive klarer Kosten-/Effizienz-Trade-offs (z. B. GPT-5.5 bis zu 4× weniger Tokenverbrauch als Claude Opus 4.8).

Super-App, Enterprise-Distribution und Sicherheitspositionierung: der neue Plattformkampf

OpenAI treibt die Super-App-Strategie voran: ChatGPT soll Coding, Agenten, Bildgenerierung und externe Services bündeln – mit klarer Ausrichtung auf Enterprise als zahlungskräftigsten Markt. Zentral dafür sind Distribution und Vertrauen: Die Kooperation mit Oracle Cloud erleichtert die Integration von Modellen und Codex in Unternehmensumgebungen, während eine überprüfbare Memory-Übersicht Transparenz als Business-Feature nachschiebt. Gleichzeitig schiebt OpenAI vertikale Anwendungen an, etwa über neue Codex-Plugins für Sales, Analytics und Investment Banking – ein Signal, dass generische Chatbots allein nicht mehr als Differenzierung reichen. Parallel positioniert sich Anthropic doppelt: technologisch mit Claude Fable 5 (Leistungssteigerungen in Coding, Forschung, Wissensarbeit) und regulatorisch mit Mythos 5, einem stärker regulierten High-End-Modell mit eingeschränktem Zugang für Regierung und kritische Infrastruktur. Dazu kommen Sicherheitsmechanismen, die sensible Anfragen automatisch auf schwächere Modelle umleiten – plus die provokante Debatte um Entwicklungspausen wegen möglicher selbstverbessernder Systeme. Im Hintergrund verschärfen die Plattformriesen den Druck: Google bringt Gemini 3.5 Flash in die Produktion (App und Search), kündigt Gemini 3.5 Pro an, updated NotebookLM in Richtung agentischer Workflows und finanziert Infrastruktur mit $85 Mrd.; Apple öffnet iOS mit einer Multi-Modell-Strategie (ChatGPT, Gemini, Claude), relauncht Siri mit Gemini und führt ein Extensions-System ein. Meta zieht die Organisationsschraube radikal an (~8.000 Stellen weg, 7.000 Mitarbeitende in AI-Teams), während im Infrastruktur-Kapitel vertikale Integration auftaucht: SpaceX plant eine $55-Mrd.-Chipfabrik mit staatlicher Unterstützung, um Abhängigkeiten (auch von Nvidia) langfristig zu reduzieren.

Quick News 1: Speicherchips werden zur neuen Macht im KI-Markt

Der Engpass im KI-Boom verschiebt sich: Nicht Rechenleistung, sondern Speicher limitiert die Skalierung von Rechenzentren. SK Hynix, Samsung und Micron dominieren – und gewinnen dadurch Preissetzungsmacht gegenüber Big Tech. SK Hynix will die Kapazität in fünf Jahren verdoppeln, doch der Zeithorizont bleibt eng, weil eine neue Fabrik über fünf Jahre bis zur Produktion braucht. Entscheidungen von heute prägen damit den Markt bis 2030 – und drehen Speicher vom Zyklusgeschäft in eine strukturelle KI-Infrastrukturwette.

Quick News 2: Frankreichs 110-Milliarden-Wette auf KI

Frankreich plant 110 Milliarden Euro für KI-Infrastruktur und Rechenzentren, davon 75 Milliarden durch SoftBank. Die anvisierte Kapazität entspricht grob zehn Atomkraftwerken – ein Marker für den Energiehunger der KI-Ökonomie. Der Flaschenhals liegt in der Umsetzung: Netzanschlüsse dauern teils bis zu acht Jahre. Macron setzt auf die „Notre-Dame-Methode“ – zentralisierte Entscheidungen, weniger Bürokratie –, allerdings mit politischem Risiko, weil die Amtszeit nur bis 2027 läuft.

🎙️ Folge in kompletter Länge anhören auf Spotify, Apple Podcasts und weiteren Plattformen.

Das Gelbe vom AI Podcast

#106 – Anthropic schlägt OpenAI: KI-Wettrennen, neue Coding-Benchmarks und Super-App-Kampf der Tech-Giganten

Search

Archive

Pages

Tags

Categories

Recent Posts

Social Media