就在OpenAI高调发布GPT-5.1并强调其“情商”优势之际,科技界另一位重量级选手——埃隆·马斯克(Elon Musk)携其旗下xAI团队,以Grok 4.1的惊艳亮相,迅速搅动了AI领域的竞争格局。

近日,xAI正式宣布推出Grok 4.1,这一对现有Grok 4模型的重大升级版本,已全面登陆grok.com、X平台及iOS与Android应用,向所有用户开放。官方介绍称,新版本在创意表达、情感互动及协同交流能力上实现了质的飞跃,同时,信息准确性显著提升,幻觉现象的发生率较前代模型降低了三分之二。
尤为引人注目的是,在备受瞩目的公开“盲测”竞技场LMArena上,Grok 4.1的“思考模式”版本凭借卓越表现,一举夺得总榜冠军,甚至其“非推理”的快速响应模式,也力压群雄,击败了所有对手的“完整推理”模式,展现了其强大的综合实力。
这一突如其来的“榜首易主”,无疑为当前已趋白热化的AI竞赛,增添了更多不确定性与看点。
Grok 4.1:升级亮点何在?
xAI此次发布的Grok 4.1系列包含两大模型:Grok 4.1(非推理模式)与Grok 4.1 Thinking(思考模式)。两者均提供免费使用服务,而付费用户则能享受更少的使用限制。
官方强调,新版本模型能够更精准地捕捉用户隐含意图,对话体验更加引人入胜,且能更好地维持角色设定的一致性。为实现这一目标,xAI采用了前沿的代理型推理模型作为“奖励模型”,在大规模环境中自主评估并迭代优化模型回答,确保每一次交互都能达到最佳效果。
在11月1日至14日的“静默上线”期间,xAI通过真实流量下的盲测式成对比较评估发现,64.78%的用户更倾向于选择Grok 4.1,这一数据直观反映了新版本的受欢迎程度。

“盲测”登顶,Grok 4.1实力几何?
Grok 4.1在盲测的人类偏好评估中,树立了新的行业标准。LMArena,这一开源工具,允许用户通过并排、盲测的方式,直观比较不同大语言模型的表现。在这个竞争激烈的“斗兽场”中,Grok 4.1取得了令人瞩目的成绩:

与之形成鲜明对比的是,Grok 4此前在该榜单上的综合排名仅为第33位,这一跃升无疑彰显了xAI团队的卓越技术实力。
“情商”与“文采”,双管齐下
除了通用能力的提升,xAI还特别强调了新模型在“软实力”方面的进步。
情绪智能(Emotional Intelligence)
为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,旨在全面评估模型在主动情绪智能、理解力、洞察力、共情能力及人际技能等方面的表现。

创意写作能力(Creative Writing)
xAI同样对Grok 4.1在Creative Writing v3基准测试中的表现进行了测量。在该测试中,模型需根据32个不同的写作提示,在3次迭代中生成回答,以展现其创意写作能力。

减少“幻觉”,提升信息准确性
快速响应模型在配备搜索工具后,虽能迅速给出答案,但往往更容易出现事实性错误。为解决这一问题,xAI在Grok 4.1的后训练阶段,重点降低了模型在信息查询类提示中的事实性“幻觉”现象。
据xAI介绍,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止最准确、最可靠的版本之一。

为验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试,以确保评估结果的客观性与准确性。
挑战与未来:真正的较量才刚刚开始
尽管Grok 4.1在“盲测”中取得了令人瞩目的成绩,但AI领域的王座之争远未结束。
目前,我们尚无法直接比较其与GPT-5.1的真实表现。更重要的是,谷歌(Google)正在紧锣密鼓地准备发布Gemini 3.0,这有望成为迄今为止最强大的AI模型。
Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能最终笑到最后,仍是一个未知数。(易句)
(本文由AI翻译,网易编辑负责校对)