扫描打开手机站
随时逛,更方便!
当前位置:首页 > 智创未来

AI格局重塑!马斯克Grok 4.1盲测登顶,AI竞赛再掀高潮

时间:2025-11-18 11:07:14 来源:网易科技报道 作者:网易科技报道

就在OpenAI高调发布GPT-5.1并强调其“情商”优势之际,科技界另一位重量级选手——埃隆·马斯克(Elon Musk)携其旗下xAI团队,以Grok 4.1的惊艳亮相,迅速搅动了AI领域的竞争格局。


近日,xAI正式宣布推出Grok 4.1,这一对现有Grok 4模型的重大升级版本,已全面登陆grok.com、X平台及iOS与Android应用,向所有用户开放。官方介绍称,新版本在创意表达、情感互动及协同交流能力上实现了质的飞跃,同时,信息准确性显著提升,幻觉现象的发生率较前代模型降低了三分之二

尤为引人注目的是,在备受瞩目的公开“盲测”竞技场LMArena上,Grok 4.1的“思考模式”版本凭借卓越表现,一举夺得总榜冠军,甚至其“非推理”的快速响应模式,也力压群雄,击败了所有对手的“完整推理”模式,展现了其强大的综合实力。

这一突如其来的“榜首易主”,无疑为当前已趋白热化的AI竞赛,增添了更多不确定性与看点。

Grok 4.1:升级亮点何在?

xAI此次发布的Grok 4.1系列包含两大模型:Grok 4.1(非推理模式)Grok 4.1 Thinking(思考模式)。两者均提供免费使用服务,而付费用户则能享受更少的使用限制。

官方强调,新版本模型能够更精准地捕捉用户隐含意图,对话体验更加引人入胜,且能更好地维持角色设定的一致性。为实现这一目标,xAI采用了前沿的代理型推理模型作为“奖励模型”,在大规模环境中自主评估并迭代优化模型回答,确保每一次交互都能达到最佳效果。

在11月1日至14日的“静默上线”期间,xAI通过真实流量下的盲测式成对比较评估发现,64.78%的用户更倾向于选择Grok 4.1,这一数据直观反映了新版本的受欢迎程度。


“盲测”登顶,Grok 4.1实力几何?

Grok 4.1在盲测的人类偏好评估中,树立了新的行业标准。LMArena,这一开源工具,允许用户通过并排、盲测的方式,直观比较不同大语言模型的表现。在这个竞争激烈的“斗兽场”中,Grok 4.1取得了令人瞩目的成绩:

  • Grok 4.1的“思考模式”(代号:quasarflux)1483 Elo的高分,稳居总榜榜首,领先所有非xAI模型31分。
  • Grok 4.1的“非推理模式”(代号:tensor)无需依赖“思考词元”,即可迅速生成回答,且以1465 Elo的成绩紧随其后,排名第二。
  • 更为惊人的是,Grok 4.1的“非推理”模式表现,甚至超越了所有其他模型在“完整推理模式”下的公开排行榜成绩


与之形成鲜明对比的是,Grok 4此前在该榜单上的综合排名仅为第33位,这一跃升无疑彰显了xAI团队的卓越技术实力。

“情商”与“文采”,双管齐下

除了通用能力的提升,xAI还特别强调了新模型在“软实力”方面的进步。

情绪智能(Emotional Intelligence)
为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,旨在全面评估模型在主动情绪智能、理解力、洞察力、共情能力及人际技能等方面的表现。

创意写作能力(Creative Writing)
xAI同样对Grok 4.1在Creative Writing v3基准测试中的表现进行了测量。在该测试中,模型需根据32个不同的写作提示,在3次迭代中生成回答,以展现其创意写作能力。

减少“幻觉”,提升信息准确性

快速响应模型在配备搜索工具后,虽能迅速给出答案,但往往更容易出现事实性错误。为解决这一问题,xAI在Grok 4.1的后训练阶段,重点降低了模型在信息查询类提示中的事实性“幻觉”现象

据xAI介绍,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止最准确、最可靠的版本之一

为验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试,以确保评估结果的客观性与准确性。

挑战与未来:真正的较量才刚刚开始

尽管Grok 4.1在“盲测”中取得了令人瞩目的成绩,但AI领域的王座之争远未结束。

目前,我们尚无法直接比较其与GPT-5.1的真实表现。更重要的是,谷歌(Google)正在紧锣密鼓地准备发布Gemini 3.0,这有望成为迄今为止最强大的AI模型

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能最终笑到最后,仍是一个未知数。(易句)

(本文由AI翻译,网易编辑负责校对)

猜你喜欢