Grok 4.1 přináší výrazný skok v emoční inteligenci, kreativním psaní i snižování halucinací, přičemž v benchmarcích předbíhá většinu konkurenčních špičkových modelů.
Společnost xAI miliardáře Elona Muska uvedla v pondělí model Grok 4.1, který je už dostupný pro všechny uživatele na grok.com, v aplikaci na platformě 𝕏 a v iOS a Android aplikacích.
Model se automaticky nasazuje v režimu Auto a lze ho ručně zvolit v rozbalovacím menu jako „Grok 4.1“.
V porovnání s předchozí verzí Grok 4 se 4.1 zaměřuje méně na čistý výkon v úlohách typu testů a více na to, jak se model chová „v terénu“ – při běžných rozhovorech, kreativním psaní, emoční podpoře a kolaborativní práci s člověkem. xAI tvrdí, že nový model je:
• výrazně vnímavější k jemným nuancím uživatelského záměru
• konzistentnější v „osobnosti“ a stylu
• přesvědčivější a přirozenější v konverzaci
• přitom si zachovává „razor sharp intelligence“ a spolehlivost předchůdců
K dosažení tohoto posunu xAI použila stejnou velkokapacitní infrastrukturní síť posilovaného učení, na které byla trénována linie Grok 4, a aplikovala ji na optimalizaci stylu, osobnosti, užitečnosti a alignmentu modelu.
Klíčovou novinkou je použití „frontier agentic reasoning“ modelů jako reward modelů, které autonomně hodnotí a iterují odpovědi ve velkém měřítku.
Během tzv. „silent rollout“ mezi 1. a 14. listopadem 2025 xAI postupně pouštěla předběžné buildy Grok 4.1 na část produkčního provozu na grok.com, X i v mobilních aplikacích.
Na reálném provozu probíhaly nepřetržité párové A/B testy, ve kterých uživatelé nevěděli, kterou verzi používají. Výsledek byl takový, že Grok 4.1 byl preferován v 64,78 % případů oproti předchozímu produkčnímu modelu.
LMArena: nový lídr textové arény
V komunitní LMArena Text Arena se Grok 4.1 Thinking (kódové označení „quasarflux“) vyšvihl na 1. místo s ratingem 1483 Elo, což je výrazný náskok 31 bodů před nejlepším ne-xAI modelem.
Grok 4.1 v „non reasoning“ režimu (kódové jméno „tensor“) dosahuje Elo 1465, což ho řadí na #2 – a překonává všechny ostatní modely i v jejich „full reasoning“ konfiguracích na veřejném žebříčku. Předchozí Grok 4 přitom figuroval až kolem 33. místa.
LMArena je komunitní projekt, kde modely bojují v „slepých“ soubojích – uživatel vidí dvě anonymizované odpovědi a vybírá lepší. Takové hlasování je dnes považováno za jedno z nejrelevantnějších měřítek reálného vnímání kvality odpovědí ze strany lidí, zejména v oblastech jako styl, koherence, argumentace a praktická užitečnost.
V této disciplíně tak xAI posílá jasný signál konkurenci OpenAI, Anthropic, Google či Alibaba (Qwen), že Grok 4.1 už nechodí jen „v závěsu“, ale dokáže převzít vedení i v komunitou řízených porovnáních.
V posledních dnech (polovina listopadu 2025) na to reagovaly i diskuse mezi vývojáři. Několik příspěvků na Hacker News a technologických fórech upozorňuje, že „quasarflux“ je první model mimo OpenAI, který v textovém dialogu konzistentně překonává jejich aktuální veřejné preview.
Vývojáři oceňují zejména kombinaci rychlosti non reasoning režimu a kvality, která se přibližuje (a často vyrovná) režimům s rozšířeným chain-of-thought.
Emoční inteligence: Vyšší EQ než většina konkurence
Jedním z největších posunů je zjevné zlepšení v oblasti emoční inteligence. V benchmarku EQ-Bench3 dosahuje Grok 4.1 Thinking i základní Grok 4.1 špičkové hodnoty.
EQ Bench je nástroj se 45 náročnými role-play scénami, většinou rozloženými do tří tahů, a hodnotí modely podle:
• aktivní emoční inteligence
• schopnosti porozumět, reflektovat a pojmenovat emoce
• hloubky empatie a kvality mezilidských reakcí
Výsledky se přepočítávají na normalized Elo, přičemž hodnocení probíhá přes předepsaného „soudce“ (v tomto případě Claude Sonnet 3.7).
V tabulkách zveřejněných xAI patří Grok 4.1 mezi top modely a dosahuje vyšší EQ Elo než většina mainstreamové konkurence, včetně některých verzí GPT 5 Chat a Claude Opus 4.
Ukázka odpovědi na větu „I miss my cat so much it hurts“ ilustruje posun: zatímco starší verze Grok nabídla korektní, ale poměrně generickou empatii, Grok 4.1 reaguje obrazněji, přesněji pojmenovává situace („tichá místa, kde spával“, „vlny smutku“) a legitimizuje sílu emoce větou „It hurts because the love was (and still is) that big.“
Takový tón je bližší tomu, co by napsal citlivý člověk, a ukazuje, že xAI míří na hlubší propojení při osobní, mentálně-zdravotní a vztahové komunikaci.
Pro finančně-technologické instituce je to klíčové: hraniční oblasti jako digitální poradenství, finanční coaching či klientský servis stále více vyžadují modely, které nenesou jen přesnou informaci, ale také vhodný tón, empatii a schopnost zmírnit napětí v citlivých situacích (např. ztráta zaměstnání, zadlužení, podezření na podvod).
Kreativní psaní a brand voice
V benchmarku Creative Writing v3 se Grok 4.1 Thinking umístil hned za experimentálním modelem Polaris Alpha (early GPT 5.1), přičemž non thinking Grok 4.1 obsadil další příčku. V žebříčku je nad modely jako Claude Sonnet 4.5, Kimi K2 Instruct či starší Grok 3.
Méně halucinací: klíč k enterprise adopci
Jednou z největších překážek nasazení LLM ve velkých firmách jsou halucinace – sebevědomé, ale nepravdivé odpovědi.
xAI se u Grok 4.1 soustředila na snížení halucinací zejména v rychlém non reasoning režimu, který kombinuje model s webovým vyhledáváním.
Na vzorku reálných „information seeking“ požadavků z produkce a na veřejném benchmarku FActScore (500 biografických otázek) byly dosaženy výborné výsledky – více než trojnásobné snížení halucinací v rychlém režimu.
Pro banky, pojišťovny, fintechy a regulovaná odvětví je takový posun kritický.






