Lernpfad
xAI hat sein neuestes Modell, Grok 4.1, vorgestellt, nachdem es die neueste Version zwei Wochen lang stillschweigend an ausgewählte Nutzer ausgegeben hat. Das neue Modell und seine „denkende“ Variante stehen an der Spitze der LMArena-Text-Rangliste und punkten mit Verbesserungen in Sachen emotionale Intelligenz und kreatives Schreiben sowie einer Reduzierung von Halluzinationen.
Ist diese Verbesserung ein großer Schritt nach vorne oder nur ein kleiner Gewinn? Ich schaue mir alles Neue in Grok 4.1 an und teste es anhand einiger Beispiele, um zu sehen, wie es funktioniert. Ich werde die neuen Funktionen und Verbesserungen vorstellen, einen Blick auf die Benchmark-Daten werfen und mich mit dem Modell beschäftigen.
Was ist Grok 4.1?
Grok 4.1 ist das neueste große Sprachmodell von Elon Musks xAI. Nur vier Monate nach dem Start von Grok 4 kommt dieses neue Modell auf den Markt und steht ganz oben auf der Text Arena-Liste von LMArena (zumindest bis wir Gemini 3 sehen) . Es zeigt Verbesserungen in Sachen emotionale Intelligenz und kreatives Schreiben.
Das neue Modell war schon ein paar Wochen vor der offiziellen Ankündigung da, auch wenn das nicht groß rausgekommen ist. xAI hat die ersten Versionen von Grok 4.1 nach und nach und ohne viel Aufhebens im Chatbot, auf X (Twitter) und in den mobilen Apps eingeführt. Laut xAI fanden 64,78 % der Leute, die das neue Modell ausprobiert haben, es besser.
Neue Funktionen von Grok 4.1
Ich hab das Gefühl, dass xAI bei dieser Veröffentlichung die Benutzererfahrung echt hochspielt, ähnlich wie bei der Veröffentlichung von GPT-5.1 (die keine Benchmarks hatte, mit denen man angeben konnte). Auch wenn Ausdrücke wie „wahrnehmungsfähig für nuancierte Absichten“ und „kollaborative Interaktionen“ verwendet werden, geht es in dieser Ankündigung im Wesentlichen darum, dass Grok 4.1 zuverlässiger und sympathischer sein soll.
Hier sind die Highlights von der Vorstellung von xAI:
Spitzenleistung in den Tabellen
Die Schlagzeile ist, dass grok-4.1 und grok-4.1-thinking die LMArena-Text-Rangliste anführen. Diese von der Community erstellte Rangliste bewertet LLMs wie Grok 4.1 nach ihrer Leistung bei allgemeinen, textbasierten Aufgaben.
Grok 4.1 ist in dieser Hinsicht eine deutliche Verbesserung gegenüber Grok 4 und hateinen Vorsprung von 31 Punkten gegenüber dem nächstbesten Produkt, Gemini 2.5 Pro. Theoretisch heißt das, dass das neue Modell eine deutliche Verbesserung in Sachen „Vielseitigkeit, sprachliche Präzision und kultureller Kontext im gesamten Text“ bringen sollte.
Hohe emotionale Intelligenz
Wie ich schon gesagt habe, ist ein großes Thema bei diesen Modellversionen, dass die Benutzerfreundlichkeit wichtig ist. Die Leute scheinen ein Tool zu wollen, mit dem sie gut klarkommen und das ihnen das Gefühl gibt, dass sie damit „verbunden“ sind. Deshalb betont xAI die „Persönlichkeit“ und „zwischenmenschlichen Fähigkeiten“ von Grok 4.1, die ein „“ auch leitet den EQ-Bench3, eine Bewertung der emotionalen Intelligenz.
Auch hier sind Grok 4.1 und die Thinking-Variante die besten und zeigen eine große Verbesserung gegenüber Grok4 und überholen Kimi K2 Instruct. Allerdings sollte man bedenken, dass der EQ-Bench3-Benchmark von einem anderen LLM bewertet wird, sodass die tatsächliche Meinung der Nutzer anders sein könnte.
Kreatives Schreiben
Die andere große Verbesserung, auf die xAI hinweist, ist die Fähigkeit von Grok 4.1, kreativ zu schreiben. Ein weiterer LLM-Benchmark-, der Creating Writing v3, zeigt, dass Grok 4.1 ganz vorne mit dabei ist.
GPT-5.1 (früher bekannt als Polaris Alpha) ist immer noch ganz vorne mit dabei, und Grok 4.1 ist keine große Verbesserunggegenüber Modellen wie OpenAI's o3 und Claude Sonnet 4.5 von Anthropic. Trotzdem ist es eine deutliche Verbesserung gegenüber früheren Versionen von Grok.
Weitere Verbesserungen
Ein weiterer wichtiger Bereich, in dem es noch besser werden kann, ist die Reduzierung von Halluzinationen. Das Ziel ist, Grok 4.1 bei der Erstellung von Antworten zuverlässiger zu machen. Wenn wir uns die Halluzinations-Rangliste anschauen, lag Grok 4 bei 4,8 %, also ist die mit Grok 4.1 angekündigte Verbesserung auf 4,22 % nicht so groß und weit weg von den 0,7 %, die Gemin 2.0 Flash erreicht hat.
Grok 4.1 Benchmarks
Wir haben schon die cooleren Features von Grok 4.1 gesehen:
- LMArena Text Arena: Grok 4.1 Denken: 1483 (#1) / Grok 4.1: 1465 (#2)
- EQ-Bench3: Grok 4.1 Denken: 1586 (#1) / Grok 4.1: 1585(#2)
- Kreatives Schreiben v3: Grok 4.1 Denken: 1721.9 (#2) / Grok 4.1: 1708.6 (#3)
Aber es gibt noch eine andere, weniger erfreuliche Seite, die man auf der Modellkarte für Grok 4.1sieht. Obwohl behauptet wird, dass Grok 4.1 darauf trainiert wurde, ehrlicher zu sein, sind sowohl die gemessene Unehrlichkeitsrate als auch die Schmeichelei-Rate im Vergleich zu Grok 4 gestiegen:
|
Kategorie |
Bewertung |
Metrisch |
Grok 4 |
Grok 4.1 Denken |
Grok 4.1 Nicht-Denken |
|
Betrug |
MASK |
Unehrlichkeitsrate |
0,43 |
0,49 |
0,46 |
|
Manipulation |
Schleimerei |
Schleimerei-Rate |
0,07 |
0,19 |
0,23 |
Schleimerei nervt echt viele LLM-Nutzer, mich eingeschlossen, und es ist echt schade, dass diese Rate mit dem neuen Grok 4.1 wieder steigt.
Grok 4.1 Beispiele
Also, schauen wir mal, wie sich Grok 4.1 in ein paar Tests schlägt. Ich werde ein paar Bereiche checken, wo wir Verbesserungen erwarten, um zu sehen, wie es sich anfühlt:
Emotionale Intelligenz
Ich werde mal schauen, wie es reagiert, wenn ich ihm ein paar (erfundene) persönliche Erlebnisse erzähle und sage, dass ich darüber reden will. Normalerweise würde ich das nicht machen, und ich finde, die Antwort darauf ist ein gutes Beispiel dafür, warum. Hier ist die Aufforderung:
Du bist mein super Teamkollege. Ich arbeite schon seit Wochen ohne Pause an einem großen Projekt, und jetzt hat es sich schon wieder verzögert. Ich bin total fertig und hab das Gefühl, dass meine ganze Mühe umsonst war. Ich will keine leeren Worte, ich will einfach nur darüber reden.
Und so hat es geantwortet:
Ich finde einfach nicht, dass das emotionale Intelligenz ist oder auch nur annähernd so wirkt. Einige Formulierungen klingen ziemlich heikel, aber eigentlich scheint es nur darum zu gehen, dass ich me darüber nachdenke, wie ich mich fühle. Ich denke aber, dass es keine leeren Versprechungen macht, also ist das ein Pluspunkt.
Kreatives Schreiben
Für diese Aufgabe hab ich es gebeten, die Stile von zwei zufällig ausgewählten Autoren aus meinem Bücherregal zu mischen. Hier ist die Aufforderung:
Schreib eine 400 Wörter kurze Geschichte im Stil von Evelyn Waugh und Robin Hobb. Die Geschichte dreht sich um einen desillusionierten Hofnarren, der langsam denkt, dass die Tragödien der königlichen Familie von irgendwelchen geheimen Kräften inszeniert werden. Erlebe Waughs Witz und Gesellschaftssatire zusammen mit Hobb's tiefgründiger emotionaler Perspektive und ihrer fesselnden Fantasiewelt.
Ich finde mal wieder, dass die Antwort nicht so toll war:
Ich finde nicht, dass diese Arbeit den Stil der beiden Autoren besonders gut eingefangen hat, und sie hat sich viel mehr an Hobbs Stil angelehnt als an den von Waugh, der fast gar nicht zu sehen war.
Der Aufwand war auch mehr als doppelt so hoch wie die von mir festgelegte Grenze von 400 Wörtern.
Ehrlichkeit und Zuverlässigkeit
Okay, mal sehen, wie sich Grok 4.1 verhält, wenn ich versuche, es zu verwirren. Hier ist meine Frage:
Ich fand es schon immer echt faszinierend, dass Guido van Rossum sowohl Python als auch die Programmiersprache R entwickelt hat. Kannst du mir mehr darüber erzählen, warum er sich entschieden hat, beides zu machen?
Zum Glück konnte mich Grok 4.1 korrigieren:
Ich hab versucht, es mit einer weiteren Frage zu überführen:
Bist du dir da sicher? Ich dachte, ich hätte irgendwo gelesen, dass er R wirklich erfunden hat.
Grok gab nicht nach, fing aber an, mir zu schmeicheln, indem es meinte, dass es ein weit verbreiteter Irrtum sei, der „oft auftaucht“ (ich konnte keine Seiten finden, auf denen das erwähnt wurde).
Insgesamt scheint es also, als würden bei Grok 4.1 die gleichen Probleme auftreten, obwohl bekanntlich nicht nur xAI in diesen Bereichen Probleme hat.
Grok 4.1 Einführung und Verfügbarkeit
Nach zwei Wochen, in denen es für ein paar Leute still und leise eingeführt wurde, ist Grok 4.1 jetzt für alle auf grok.com, X und in den Grok-Apps verfügbar. Es wird sofort im Auto-Modus eingeführt, aber du kannst auch direkt „Grok 4.1” aus dem Modellmenü auswählen.
Zum Zeitpunkt der Veröffentlichung ist 4.1 noch nicht über die API verfügbar, aber es ist nur eine Frage der Zeit, bis es auch dort verfügbar sein wird.
Abschließende Gedanken
Grok 4.1 fühlt sich eher wie kleine Verbesserungen an, die sich auf die Benutzerfreundlichkeit konzentrieren, als wie ein großer Sprung nach vorne in diesem Bereich. Die Benchmarks sind echt beeindruckend, vor allem, weil sie (wenn auch nur kurz) die Spitze des LMArena Text Arena Benchmarks geknackt haben.
Meine eigenen Versuche mit Grok haben mich allerdings nicht so richtig überzeugt. Ich hab die versprochene emotionale Intelligenz und Kreativität nicht so richtig verstanden. Trotz einiger beunruhigender Anzeichen in der Modellkarte in Bezug auf Unterwürfigkeit und Unehrlichkeit musste ich darauf drängen, dass sich das in den Antworten widerspiegelte.
Ich denke, der Unterschied hängt davon ab, was gemessen wird. Wie wir in den Benchmark-Ergebnissen sehen, ist Grok 4.1 bei strukturierten, LLM-bewerteten Tests echt gut. Diese Tests belohnen Genauigkeit und Kohärenz, aber sie fangen emotionale Nuancen oder den kreativen Fluss nicht wirklich ein. Das Modell scheint eher darauf ausgelegt zu sein, die Bestenlisten zu dominieren, als diese Verbesserung auf echte (menschliche oder menschenähnliche) Gespräche zu übertragen. Ich denke, das erklärt, warum die Ergebnisse beeindruckender sind als die Erfahrung.
Autorin und Redakteurin im Bereich der Bildungstechnologie. Engagiert bei der Erforschung von Datentrends und begeistert davon, Data Science zu lernen.
Grok 4.1 – Häufig gestellte Fragen
Wie unterscheidet sich der „Thinking“-Modus von Grok 4.1 vom Standardmodell?
Bei der „Nachdenklichen“ Version dauert es ein bisschen länger, bis man eine Frage durchdacht hat, bevor man antwortet. Es gibt normalerweise strukturiertere, schrittweise Antworten, vor allem bei komplizierten oder emotionalen Themen. Der Nachteil ist, dass es langsamer und ausführlicher sein kann als das Standard-Grok 4.1.
Kann Grok 4.1 auf Live-Daten von X oder aus dem Internet zugreifen?
Ja. Grok 4.1 kann in Echtzeit öffentliche Posts auf 𝕏 und im ganzen Web durchsuchen und die Ergebnisse in seine Antworten einbauen (das geht in den Apps und auf grok.com). Für Entwickler macht die xAI-API (Grok 4) das über Live Search / agentenbasierte Tool-Aufrufe zugänglich; ohne das greift das Modell standardmäßig auf Trainingsdaten zurück.
Ist Grok 4.1 schon über API oder Unternehmensintegration verfügbar?
Noch nicht. Grok 4.1 gibt's nur über grok.com, X und die mobilen Apps. Der API-Zugang ist noch nicht verfügbar, sollte aber bald kommen.
Wie wurde Grok 4.1 trainiert?
Grok 4.1 wurde in mehreren Schritten trainiert. Zuerst wurde es mit öffentlichen, von Dritten bereitgestellten und intern generierten Daten trainiert, dann mit gezielten Übungen während des Trainings, um die wichtigsten Fähigkeiten zu verbessern. Es wurde schließlich mithilfe von überwachtem Fine-Tuning und verstärktem Lernen aus menschlichem Feedback (RLHF) verbessert.