Grok 4 hat gerade die KI-Grenze gesprengt - warum das alles ändert
Wir stellen Grok 4 vor, das leistungsstärkste KI-Modell der Welt. Sehen Sie sich jetzt den Livestream an: https://t.co/59iDX5s2ck
- xAI (@xai) Juli 10, 2025
Nun, das ist schnell eskaliert. Vor drei Wochen haben Elon Musk und xAI Grok 4 auf die ahnungslose Welt losgelassen, und die Benchmarks lassen erfahrene KI-Forscher weiterhin zweifeln. Stellen Sie sich eine KI vor, die Probleme löst wie ein koffeinhaltiges Team von Doktoranden, die um 3 Uhr morgens ein Brainstorming durchführen. Nun, da sich der anfängliche Hype gelegt hat und die Entwickler Grok 4 auf Herz und Nieren geprüft haben, möchte ich Ihnen erläutern, warum dieses Modell mehr als nur eine weitere Version darstellt - es ist ein Blick in eine Zukunft, in der KI zu einem echten intellektuellen Partner wird.
https://x.com/xai/status/1943158495588815072
Der Start, der das Internet (und einige Rekorde) brach
xAI stellte Grok 4 am 9. Juli 2025 über einen Livestream vor, der 1,5 Millionen Zuschauer anlockte - nicht schlecht für eine technische Präsentation in der Nacht.¹ Das Timing war... interessant, denn es kam nur einen Tag, nachdem Grok 3 aus den falschen Gründen mit einigen kontroversen Ergebnissen Schlagzeilen gemacht hatte.² Aber xAI entschied, dass die beste Verteidigung eine überwältigende Offensive ist.
Musk stellte zwei Varianten vor: Standard-Grok 4 und Grok 4 Heavy, wobei letzteres mehrere KI-Agenten einsetzt, die die Arbeit der anderen wie eine Lerngruppe, in der alle gelesen haben, gegenprüfen.³ Der Zugang erfolgt über die Grok-App, die Website oder die API, wobei Heavy exklusiv für SuperGrok Heavy-Abonnenten zu einem Preis von 300 Dollar/Monat erhältlich ist - ein Preis, der zeigt, dass wir es ernst meinen."⁴ Für Neugierige: https://x.ai/grok für den allgemeinen Zugang, https://x.ai/api für Entwickler.
Funktionen, die andere KIs wie Taschenrechner aussehen lassen
Grok 4 verfügt über ein Kontextfenster mit 256.000 Token (das ist ungefähr der Text eines Romans, den es auf einmal verarbeiten kann), Bildanalyse, Funktionsaufrufe und Sprachmodi, die so natürlich sind, dass man vergessen könnte, dass man mit Silizium spricht.⁵ Aber hier wird es pikant: die Verwendung nativer Tools. xAI hat dieses Biest mit Reinforcement Learning darauf trainiert, einen Code-Interpreter und webbrowserähnliche Erweiterungen seines Verstandes zu bedienen.
Die Echtzeitsuche in X, im Web und in Nachrichten sorgt für aktuelle Antworten - keine Ausreden mehr für "mein Wissen ist begrenzt". Die multimodalen Funktionen ermöglichen eine nahtlose Verbindung von Text- und Bildanalyse, während der Sprachmodus eine Szenenanalyse über die Kamera ermöglicht.⁶ Für Unternehmen, die sich um die Einhaltung von Vorschriften sorgen: SOC 2 Typ 2, GDPR und CCPA sind alle abgehakt. Es ist, als hätte man einen witzigen Forschungsassistenten, der nie schläft, sich nie über Überstunden beschwert und Ihre schreckliche Handschrift versteht.
Die geheime Sauce: Wenn rohe Gewalt auf Finesse trifft
Hinter der Magie von Grok 4 verbirgt sich der Supercomputer Colossus von xAI - ein 200.000-GPU-Monster, das die meisten Rechenzentren wie Taschenrechner aussehen lässt.⁷ Aber rohe Leistung sagt nicht alles. xAI revolutionierte ihren Ansatz, indem sie das Reinforcement Learning so skalierten, dass es mit dem Pre-Training-Rechenaufwand übereinstimmt, und sich auf überprüfbare Daten aus den Bereichen Mathematik, Programmierung und Wissenschaft konzentrierten, was die Effizienz um das 6-fache steigerte und Rechenkraft in raffinierte Intelligenz verwandelte.⁸
Die wirkliche Innovation? Sie haben genauso viel für das Verstärkungslernen nach dem Training ausgegeben wie für das Training vor dem Training.⁹ Grok 4 Heavy geht noch einen Schritt weiter, indem es parallele Testzeitberechnungen durchführt - mehrere KI-Agenten, die gleichzeitig Probleme angehen, bevor sie ihre Ergebnisse vergleichen. Stellen Sie sich vor, Sie würden von einem einzelnen Garagenerfinder zu einem synchronisierten Orchester von Nobelpreisträgern aufsteigen, von denen jeder die Arbeit der anderen überprüft.
Der Infrastruktur-Realitätscheck
Der Supercomputer Colossus hat 200.000 GPUs, das ist einfach... Ich kann diese Zahl nicht einmal im Ansatz fassen. Die meisten Unternehmen sind begeistert, wenn ein Cluster mit ein paar hundert GPUs reibungslos funktioniert. Aber 200.000? Allein die Wärmeabgabe wäre wie der Betrieb eines kleinen Kraftwerks.
Und das, bevor Sie überhaupt darüber nachdenken, wie Sie sie alle richtig anschließen, sie mit Daten versorgen und sicherstellen, dass Ihr Stromnetz nicht einfach zusammenbricht.... Jedes Detail ist wichtig: wie Sie die Racks anordnen, welche Art von Kühlung Sie verwenden (und ja, Sie brauchen eine gute Kühlung, denn diese Dinger werden HEISS), sowie alle damit verbundenen Netzwerk- und Stromverteilungsalpträume. Wenn Sie bei einem Teil dieses Puzzles Fehler machen, verbrennt Ihr Unternehmen Geld für leistungsschwache Hardware. Unternehmen, die ihre eigene KI-Infrastruktur aufbauen wollen, egal ob es sich um 10 GPUs oder 10.000.000 handelt, benötigen Fachwissen in allen Bereichen, von der Stromverteilung bis hin zu den komplizierten Glasfaserverbindungen, die den Datenfluss mit Lichtgeschwindigkeit gewährleisten. Dies ist der Punkt, an dem die professionelle Bereitstellung der Infrastruktur den Unterschied zwischen theoretischen Spezifikationen und der realen Leistung ausmacht. Das Team von Introl weiß aus der Erfahrung mit unzähligen KI-Clustern, dass der Teufel wirklich im Detail steckt. Die richtige Infrastruktur kann den Unterschied zwischen GPUs, die mit 95 % Effizienz laufen, und solchen, die 30 % ihrer Leistung auf dem Tisch liegen lassen, ausmachen.
Zahlen, die Statistiker vor Freude weinen lassen
Werfen wir einen Blick auf die Benchmarks, die die KI-Gemeinschaft in Aufruhr versetzen. Beim berüchtigt brutalen ARC-AGI-2-Test, bei dem Modelle abstraktes Denken mit minimalen Beispielen demonstrieren müssen, beansprucht Grok 4 (Denkmodus) den Thron mit 15,9 % bei etwa 4 $ pro Aufgabe.¹⁰ Das ist fast doppelt so viel wie die 8,6 % von Claude Opus 4. Und bevor Sie sich über "nur 15,9 %" lustig machen, denken Sie daran, dass die meisten Modelle bei diesem Test Mühe haben, die 5 %-Marke zu knacken.¹¹ Das ist so, als würde man jemandem dabei zusehen, wie er Rubiks Würfel mit verbundenen Augen löst, während alle anderen noch herausfinden, welche Seite rot ist.
Die Skalierungsexperimente offenbaren etwas Faszinierendes. Allein mit Trainingscomputern erreicht Grok 4 etwa 50 % bei der letzten Prüfung der Menschheit (reine Textmenge). Wenn man Tools hinzufügt, steigt die Leistung auf 50,7 %.¹² Die Skalierung bei der Testzeit pendelt sich bei 50 % ein, was beweist, dass innovativere Inferenzstrategien - und nicht nur mehr Rechenleistung für Probleme - zu Durchbrüchen führen.
Bei der AIME25 (American Invitational Mathematics Examination) erreicht Grok 4 Heavy perfekte 100 % und lässt Claude 4 Opus (75,5 %) und Gemini 2.5 Pro (88,0 %) hinter sich.¹³ Selbst ohne Hilfsmittel erreicht Grok 4 standardmäßig 91,7 % - das ist besser als die meisten menschlichen Teilnehmer an Mathematikwettbewerben.
Aber hier kommt der Clou: Humanity's Last Exam (vollständiger Satz). Der Spießrutenlauf mit mehr als 2.500 Fragen aus den Bereichen MINT und Geisteswissenschaften trennt Auswendiglernen von echtem logischen Denken.¹⁴ Grok 4 Heavy erzielt 44,4 %, fast doppelt so viel wie Gemini 2.5 Pro mit 25,4 % und mehr als doppelt so viel wie o3 mit 21,0 %.¹⁵ Wenn Ihre KI andere KI mit solchen Abständen übertrifft, dann ist das keine Iteration, sondern eine Revolution.
Echte Leistung, auf die es ankommt
Neben den akademischen Benchmarks dominiert Grok 4 auch die praktischen Tests. Bei Vending-Bench (ja, das ist ein echter Benchmark zur Optimierung von Verkaufsautomaten) erreicht es mit 4.569 verkauften Einheiten einen Nettowert von 4.694 $ - mehr als das Doppelte von Claude Opus 4 mit 2.077 $ und das Fünffache der menschlichen Leistung mit 844 $.¹⁶
Weitere Siege: USAMO'25 (61,9 %), GPQA Diamond (88 %), LiveCodeBench (79,4 %) und MMLU-Pro (87 %).¹⁷ Unabhängige Bewerter von Artificial Analysis krönen Grok 4 mit einer 73 auf ihrem Intelligenz-Index und lassen damit OpenAI's o3 und Google's Gemini 2.5 Pro (beide 70) hinter sich.¹⁸ Nicht schlecht für ein Modell, das erst vor drei Wochen erschien.
Das Urteil der Community: Aufgeregt, skeptisch und alles dazwischen
Seit dem Start ist X (früher Twitter) zu einem Testfeld für die Fähigkeiten von Grok 4 geworden. Entwickler berichten, dass sie ganze Codebasen zur Fehlersuche einfügen, mit Ergebnissen, die spezialisierte Tools wie Cursor übertreffen.¹⁹ Ein Nutzer bezeichnete es als "das, was AGI bisher am nächsten kommt", während Wissenschaftler ungelöste Materialprobleme abfragen und neue Erkenntnisse erhalten, die sich überprüfen lassen.²⁰ Nach drei Wochen realer Nutzung haben sich Muster herauskristallisiert: Das Modell zeichnet sich durch komplexe Denkaufgaben aus, zeigt aber bei kreativen Anwendungen interessante Eigenheiten.
Aber es gibt nicht nur stehende Ovationen. Die Nutzer stellen fest, dass die Geschwindigkeit mit 75 Token/Sekunde begrenzt ist (respektabel, aber nicht überragend), und die Moderation der Inhalte bleibt minimal - Grok 4 wird weniger gefiltert als die Konkurrenz, was Debatten über KI-Neutralität und Sicherheit auslöst.²¹ Einige schätzen die unverfälschten, ungeschminkten Antworten, andere machen sich Sorgen über möglichen Missbrauch. Demokratie in Aktion, Leute.
Was das für morgen bedeutet (Spoiler: Alles ändert sich)
An dieser Stelle geht mein Optimismus in die Vollen. Grok 4 geht über die Kategorie Chatbot hinaus - es ist eine Vorschau auf KI als intellektuellen Partner. Wenn eine KI bei Mathematikwettbewerben auf Promotionsniveau abschneidet und Wissenschaftlern bei der Erforschung ungelöster Probleme hilft, erleben wir den Beginn der erweiterten Entdeckung.
Für die Wissenschaft: Stellen Sie sich vor, Forscher auf der ganzen Welt hätten Zugang zu einer KI, die komplexe mathematische Zusammenhänge wirklich versteht und neue Hypothesen aufstellen kann. Medikamentenentwicklung, Klimamodellierung und Materialwissenschaft - alles wird beschleunigt.
Für die Technik: Über die Fehlersuche hinaus geht es um KI, die Systemarchitekturen versteht und Optimierungen vorschlagen kann, die Menschen niemals in Betracht ziehen würden. Es ist, als hätte man Dijkstra und Turing auf Kurzwahl.
Für die Bildung: Personalisierte Nachhilfe, die sich nicht nur darauf einstellt, was Schüler falsch machen, sondern auch darauf, wie sie denken. Jeder Lernende erhält einen geduldigen, brillanten Mentor, der auf seinen kognitiven Stil zugeschnitten ist.
Für Unternehmen: Von der strategischen Planung bis zur Marktanalyse können die Argumentationsfähigkeiten von Grok 4 die Entscheidungsfindung von Bauchgefühlen in datengestützte Erkenntnisse mit einem differenzierten Verständnis verwandeln.
Die Vorbehalte (denn Ehrlichkeit ist besser als Hype)
Bleiben wir realistisch - keine KI ist perfekt, und Grok 4 hat noch Raum für Wachstum. Die Geschwindigkeit von 75 Token/Sekunde wird keine Rennen gegen spezialisierte Inferenzserver gewinnen. Halluzinationen wurden zwar reduziert, sind aber nicht völlig verschwunden (eine branchenweite Herausforderung). Die minimale Inhaltsfilterung gibt Anlass zu berechtigten Bedenken hinsichtlich des Missbrauchspotenzials.
Sehen Sie, xAI hat uns nichts über ihre Trainingsdaten erzählt, und das ist... nicht gut. Wir alle wissen, wie das abläuft - die Verzerrungen der Daten werden verstärkt, wenn man so groß skaliert. Die gesamte KI-Branche beobachtet xAI im Moment wie ein Falke. Wie gehen sie mit dem ethischen Aspekt um, wenn sich Grok 4 ausbreitet? Das wird wichtig sein - sehr wichtig.
Der Weg in die Zukunft: Es wird unheimlich werden
xAI zeigte also während der Präsentation einige ihrer Pläne, und eine Sache hat mich völlig umgehauen. Sie erwähnten, dass sie Grok mit Teslas Software für numerische Strömungsmechanik verbinden - dieselbe CFD, die Tesla-Ingenieure für die Aerodynamik und das Wärmemanagement in aktuellen Fahrzeugen verwenden.²²
Darüber musste ich eine Minute lang nachdenken. Wir haben uns an eine KI gewöhnt, die Fakten kennt, Fragen beantwortet und Code schreibt. Aber die CFD-Integration ist etwas ganz anderes. Es ist eine Sache, eine KI zu haben, die erklären kann, wie die Strömungsmechanik funktioniert. Etwas ganz anderes ist es, wenn diese KI CFD-Software verwenden kann, um Dinge zu entwerfen, die sich durch Luft bewegen und Wärme ableiten. Das ist kein inkrementeller Fortschritt - das ist eine völlig neue Fähigkeit.
OpenAI, Anthropic und Google werden nicht tatenlos zusehen. Aber Grok 4 hat das Spiel verändert - wir sind vom "hilfreichen Assistenten" direkt zum "denkenden Partner" geworden. Der Wandel erinnert mich an das, was Ray Kurzweil mit der Intelligenzexplosion meint - jeder Durchbruch lässt den nächsten immer schneller geschehen. Wir beobachten dies in Echtzeit.
Sie sind dran: Was werden Sie bauen?
Ich habe also nachgedacht: Was passiert, wenn KI in der Lage ist, auf dem Niveau eines Doktors zu denken? Welche Probleme, die unmöglich schienen, brechen plötzlich auf? Was werden wir entdecken, wenn unsere Werkzeuge mit uns denken können? Und ehrlich gesagt, welche Art von Leitplanken müssen wir aufstellen, wenn KI so intelligent wird?
Wenn Sie ein Entwickler sind, planen Sie bereits, was Sie mit diesen APIs bauen wollen. Forscher haben wahrscheinlich einen großen Spaß daran, darüber nachzudenken, was plötzlich alles möglich ist. Und wenn Sie hier sitzen und sich fragen: "Was bedeutet die Fähigkeit von Grok 4 überhaupt?" - ja, das verstehe ich. Das Konzept braucht Zeit, um verarbeitet zu werden.
Aber die Sache ist die: Grok 4 ist in unserem Schoß gelandet, ob wir nun bereit sind oder nicht. Die KI hat einfach gesagt: "Hier ist, was jetzt möglich ist, überlegt euch, was ihr damit machen wollt."
Also... was werden Sie damit machen? Die Grok-API finden Sie unter https://x.ai/apiund es gibt eine ganze Community auf X, in der Entwickler und Forscher bereits an die Grenzen gehen. Nach drei Wochen sehen wir bereits Anwendungen, die niemand bei der Einführung vorausgesagt hat. Die Chance ist riesig - wir sollten sie nicht verpassen.
Referenzen
Scott Rosenberg, "Elon Musks xAI stellt Grok 4 vor, die 'intelligenteste KI der Welt'", Axios, 10. Juli 2025, https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"Musk stellt Grok 4-Update vor, einen Tag nachdem der xAI-Chatbot antisemitische Äußerungen gemacht hat", CBS News, 10. Juli 2025, https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"Elon Musk's xAI launcht Grok 4 zusammen mit einem 300-Dollar-Monatsabo", TechCrunch, 9. Juli 2025, https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/ ..
"Elon Musk's xAI launcht Grok 4 zusammen mit einem 300-Dollar-Monatsabo", TechCrunch.
xAI, "Grok 4 Release-Ankündigung", Livestream-Präsentation, 9. Juli 2025.
xAI, "Grok 4 Release-Ankündigung".
"Grok 4 Release: xAI beansprucht die #1 AI Model Crown in unabhängigen Tests," Gear Musk, 10. Juli 2025, https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI, "Grok 4 Release-Ankündigung".
"Musk's Grok-4 Crushes Benchmarks, Beats OpenAI & Google in RL", Analytics India Magazine, 10. Juli 2025, https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"ARC-Preis", X (ehemals Twitter), 10. Juli 2025, https://twitter.com/arcprize/status/[spezifische-id].
François Chollet, "ARC-AGI: A New Frontier in AI Reasoning", ARC Prize Organization, 2025.
xAI, "Grok 4 Release-Ankündigung".
"Elon Musk's Grok 4 AI Models Set New Benchmark Records," Beebom, 10. Juli 2025, https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/ ..
"xAI setzt KI-Benchmark-Rekorde mit neuem schlussfolgernden optimierten Grok 4-Modell," SiliconANGLE, 10. Juli 2025, https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI, "Grok 4 Release-Ankündigung".
xAI, "Grok 4 Release-Ankündigung".
xAI, "Grok 4 Release-Ankündigung".
"Vergleich von KI-Modellen hinsichtlich Intelligenz, Leistung und Preis", Artificial Analysis, abgerufen am 11. Juli 2025, https://artificialanalysis.ai/models ..
Erfahrungsberichte von Nutzern, X (ehemals Twitter), 10. und 11. Juli 2025.
Erfahrungsberichte von Nutzern, X (ehemals Twitter), 10. und 11. Juli 2025.
"Was ist neu in Grok 4? Release Facts, Benchmarks und Wert," SmythOS, 10. Juli 2025, https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI, "Grok 4 Release-Ankündigung".