热门搜索：

中国科技馆‘广场大舞台’9月启幕科学秀与科普剧轮番登场

扫描打开手机站: 随时逛，更方便！

首页热点速览赛场风云娱乐星闻财经纵横智创未来游戏阵地生活百科视觉天下 IT

当前位置：首页 > 智创未来

AI格局重塑！马斯克Grok 4.1盲测登顶，AI竞赛再掀高潮

时间：2025-11-18 11:07:14　来源：网易科技报道　作者：网易科技报道

就在OpenAI高调发布GPT-5.1并强调其“情商”优势之际，科技界另一位重量级选手——埃隆·马斯克（Elon Musk）携其旗下xAI团队，以Grok 4.1的惊艳亮相，迅速搅动了AI领域的竞争格局。

近日，xAI正式宣布推出Grok 4.1，这一对现有Grok 4模型的重大升级版本，已全面登陆grok.com、X平台及iOS与Android应用，向所有用户开放。官方介绍称，新版本在创意表达、情感互动及协同交流能力上实现了质的飞跃，同时，信息准确性显著提升，幻觉现象的发生率较前代模型降低了三分之二。

尤为引人注目的是，在备受瞩目的公开“盲测”竞技场LMArena上，Grok 4.1的“思考模式”版本凭借卓越表现，一举夺得总榜冠军，甚至其“非推理”的快速响应模式，也力压群雄，击败了所有对手的“完整推理”模式，展现了其强大的综合实力。

这一突如其来的“榜首易主”，无疑为当前已趋白热化的AI竞赛，增添了更多不确定性与看点。

Grok 4.1：升级亮点何在？

xAI此次发布的Grok 4.1系列包含两大模型：Grok 4.1（非推理模式）与Grok 4.1 Thinking（思考模式）。两者均提供免费使用服务，而付费用户则能享受更少的使用限制。

官方强调，新版本模型能够更精准地捕捉用户隐含意图，对话体验更加引人入胜，且能更好地维持角色设定的一致性。为实现这一目标，xAI采用了前沿的代理型推理模型作为“奖励模型”，在大规模环境中自主评估并迭代优化模型回答，确保每一次交互都能达到最佳效果。

在11月1日至14日的“静默上线”期间，xAI通过真实流量下的盲测式成对比较评估发现，64.78%的用户更倾向于选择Grok 4.1，这一数据直观反映了新版本的受欢迎程度。

“盲测”登顶，Grok 4.1实力几何？

Grok 4.1在盲测的人类偏好评估中，树立了新的行业标准。LMArena，这一开源工具，允许用户通过并排、盲测的方式，直观比较不同大语言模型的表现。在这个竞争激烈的“斗兽场”中，Grok 4.1取得了令人瞩目的成绩：

Grok 4.1的“思考模式”（代号：quasarflux）以1483 Elo的高分，稳居总榜榜首，领先所有非xAI模型31分。
Grok 4.1的“非推理模式”（代号：tensor）无需依赖“思考词元”，即可迅速生成回答，且以1465 Elo的成绩紧随其后，排名第二。
更为惊人的是，Grok 4.1的“非推理”模式表现，甚至超越了所有其他模型在“完整推理模式”下的公开排行榜成绩。

与之形成鲜明对比的是，Grok 4此前在该榜单上的综合排名仅为第33位，这一跃升无疑彰显了xAI团队的卓越技术实力。

“情商”与“文采”，双管齐下

除了通用能力的提升，xAI还特别强调了新模型在“软实力”方面的进步。

情绪智能（Emotional Intelligence）
为评估模型在个性与人际互动方面的进展，xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试，旨在全面评估模型在主动情绪智能、理解力、洞察力、共情能力及人际技能等方面的表现。

创意写作能力（Creative Writing）
xAI同样对Grok 4.1在Creative Writing v3基准测试中的表现进行了测量。在该测试中，模型需根据32个不同的写作提示，在3次迭代中生成回答，以展现其创意写作能力。

减少“幻觉”，提升信息准确性

快速响应模型在配备搜索工具后，虽能迅速给出答案，但往往更容易出现事实性错误。为解决这一问题，xAI在Grok 4.1的后训练阶段，重点降低了模型在信息查询类提示中的事实性“幻觉”现象。

据xAI介绍，Grok 4.1出现幻觉的概率是此前模型的三分之一，这使其成为xAI迄今为止最准确、最可靠的版本之一。

为验证这一点，xAI不仅在真实的生产流量中进行了评估，还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试，以确保评估结果的客观性与准确性。

挑战与未来：真正的较量才刚刚开始

尽管Grok 4.1在“盲测”中取得了令人瞩目的成绩，但AI领域的王座之争远未结束。

目前，我们尚无法直接比较其与GPT-5.1的真实表现。更重要的是，谷歌（Google）正在紧锣密鼓地准备发布Gemini 3.0，这有望成为迄今为止最强大的AI模型。

Grok 4.1的发布，无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中，谁能最终笑到最后，仍是一个未知数。（易句）

（本文由AI翻译，网易编辑负责校对）

上一篇：蚂蚁集团发布全模态AI助手“灵光”，加速AGI战略布局
下一篇：返回列表

猜你喜欢

相关文章

AI格局重塑！马斯克Grok 4.1盲测登顶，AI竞赛再掀高潮

AI格局重塑！马斯克Grok 4.1盲测登顶，AI竞赛再掀高潮

时间：2025-11-18

蚂蚁集团发布全模态AI助手“灵光”，加速AGI战略布局

蚂蚁集团发布全模态AI助手“灵光”，加速AGI战略布局

时间：2025-11-18

优必选回应Figure创始人质疑：发布一镜到底视频力证Walker S2量产

优必选回应Figure创始人质疑：发布一镜到底视频力证Walker S2量产

时间：2025-11-18

瑞泰新材自贡华荣：30万吨电解液项目及2000吨溶剂回收项目二季度试产

瑞泰新材自贡华荣：30万吨电解液项目及2000吨溶剂回收项目二季度试产

时间：2025-11-18

贝索斯重返科技圈：创立AI公司普鲁米修斯，担任联席CEO引关注

贝索斯重返科技圈：创立AI公司普鲁米修斯，担任联席CEO引关注

时间：2025-11-18

本类推荐

汇天飞行汽车量产工厂首台‘陆地航母’飞行器成功下线

汇天飞行汽车量产工厂首台‘陆地航母’飞行器成功下线

美国发射三枚空间探测器聚焦太阳风与空间天气研究

美国发射三枚空间探测器聚焦太阳风与空间天气研究

中国信通院最新数据：8月国内手机出货量2260.3万部，同比下滑6%

中国信通院最新数据：8月国内手机出货量2260.3万部，同比下滑6%

9月乘用车零售223.9万辆，小米蔚来发布假期出行数据 | 汽车行业动态

9月乘用车零售223.9万辆，小米蔚来发布假期出行数据 | 汽车行业动态

新能源乘用车价格创新低！9月均价跌破16万，纯电车型降幅领先

新能源乘用车价格创新低！9月均价跌破16万，纯电车型降幅领先

比特币强势反弹：价格突破102000美元，日内涨幅达0.52%

比特币强势反弹：价格突破102000美元，日内涨幅达0.52%

本类排行

查看更多

理想i6纯电五座SUV 9月26日正式发布，创新设计引关注

理想i6纯电五座SUV 9月26日正式发布，创新设计引关注

阅读人数：0

一次能独立编程7小时！OpenAI发布GPT-5-Codex

一次能独立编程7小时！OpenAI发布GPT-5-Codex

阅读人数：0

马斯克10亿美元增持特斯拉，股价大涨背后的深层信号

马斯克10亿美元增持特斯拉，股价大涨背后的深层信号

阅读人数：0

英伟达涉嫌违反反垄断法，市场监管总局启动深度调查

英伟达涉嫌违反反垄断法，市场监管总局启动深度调查

阅读人数：0

小米17系列跳过16直接发布，雷军宣布全面对标iPhone

小米17系列跳过16直接发布，雷军宣布全面对标iPhone

阅读人数：0

扬杰科技携手星宇股份签署战略合作，共拓车规半导体新蓝海

扬杰科技携手星宇股份签署战略合作，共拓车规半导体新蓝海

阅读人数：0

天永智能携手柏奥尼克机器人加速人形机器人中国规模化落地

天永智能携手柏奥尼克机器人加速人形机器人中国规模化落地

阅读人数：0

扬杰科技与星宇股份签订战略合作协议双方将围绕车规半导体全产业链发展深化合作

扬杰科技与星宇股份签订战略合作协议双方将围绕车规半导体全产业链发展深化合作

阅读人数：0