谷歌Gemini 3正式发布：推理能力突破，多模态与编程能力全面升级

时间：2025-11-19 12:05:07　来源：每日经济新闻　作者：每日经济新闻

当地时间11月18日，Alphabet旗下谷歌正式发布其迄今最强大的人工智能（AI）模型——Gemini 3。该模型在发布首日即同步上线谷歌搜索、Gemini应用程序及多个开发者平台，并直接应用于核心盈利产品。这一举措标志着谷歌首次在新模型发布当天便将其整合至搜索服务，展现了其加速AI技术商业化的战略决心。

Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）在发布会上表示，Gemini 3能够针对复杂问题提供更精准的答案，用户仅需更少的提示即可获得所需结果。此外，新模型在编程、应用开发与图像生成领域的能力实现显著提升，进一步巩固了谷歌在AI领域的领先地位。

图片来源：每经记者郑雨航摄

Gemini 3：技术突破与产品整合

Gemini 3将被集成至Gemini应用、谷歌AI搜索产品（AI Mode和AI Overviews）及企业级服务中。自发布周二起，部分订阅用户可率先体验，未来几周将扩大至更广泛用户群体。此次发布距Gemini 2.5仅八个月，距Gemini 2.0上线仅11个月，而竞争对手OpenAI已于今年8月推出GPT-5。

皮查伊在博客中写道：“短短两年间，AI已从文本和图像处理进化至场景理解。从今天起，Gemini将全面赋能谷歌全系产品。”据谷歌披露，Gemini应用月活跃用户达6.5亿，AI Overviews拥有20亿月活用户，而OpenAI的ChatGPT周活跃用户为7亿。

性能登顶：全球AI模型排行榜刷新纪录

谷歌高管在发布会上强调，Gemini 3在多个行业基准测试中表现卓越：

全球AI模型LMArena排行榜：以1501分登顶，创历史新高；
通用推理能力Humanity's Last Exam测试：得分37.5%，超越GPT-5 Pro的31.64%；
数学、多模态理解及事实准确性等多维度刷新行业标准。

谷歌AI研究实验室DeepMind CEO Demis Hassabis称，Gemini 3是“全球最佳多模态理解模型”，也是公司迄今最强大的智能体和代码生成模型。皮查伊则将其誉为“最智能的模型”，能够“将任何想法变为现实”。

推理能力：博士级表现与多模态突破

Gemini 3在推理能力上取得显著进展，多项学术测试成绩达博士水平：

GPQA Diamond测试：91.9%高分；
数学领域MathArena Apex基准测试：23.4%新纪录；
事实准确性SimpleQA Verified测试：72.1%得分。

在多模态推理方面，Gemini 3同样表现优异：

MMMU-Pro测试：81%分数；
Video-MMMU测试：87.6%得分。

这意味着该模型可高度可靠地处理科学、数学等领域的复杂问题。谷歌产品负责人Tulsee Doshi表示：“Gemini 3的推理能力实现了巨大飞跃，其响应深度和细微程度前所未见。”

Deep Think模式：增强推理与安全评估

除标准版本外，谷歌推出Gemini 3 Deep Think增强推理模式，其测试成绩进一步突破：

Humanity's Last Exam测试：41.0%成绩；
GPQA Diamond测试：93.8%分数；
ARC-AGI-2测试：45.1%创纪录成绩。

该模式正在接受额外安全评估，未来几周将向Google AI Ultra订阅用户开放。

开发者工具：代码生成与智能体平台升级

在代码生成领域，Gemini 3被誉为“谷歌迄今最佳编码模型”，其测试成绩如下：

WebDev Arena排行榜：1487分登顶；
Terminal-Bench 2.0测试：54.2%分数；
SWE-bench Verified基准测试：76.2%得分，远超Gemini 2.5 Pro。

开发者可通过Google AI Studio、Vertex AI、Gemini CLI及Cursor、GitHub、JetBrains等第三方平台访问Gemini 3。此外，谷歌推出全新开发平台Google Antigravity，利用Gemini 3的高级推理能力，将AI从工具升级为主动合作伙伴。DeepMind首席技术官Koray Kavukcuoglu表示：“智能体可在编辑器、终端和浏览器间协同工作，优化应用构建流程。”

多模态理解：跨场景应用与智能体能力

Gemini 3延续了跨模态信息处理能力，可无缝整合文本、图像、视频、音频和代码，并配备100万token的上下文窗口。例如：

用户可上传手写食谱，Gemini 3能破译并翻译成多语言家庭食谱书；
输入学术论文或长视频讲座，模型可生成交互式闪卡或可视化内容辅助学习；
分析匹克球比赛视频，识别技术短板并生成训练计划。

在智能体能力方面，Gemini 3在长期规划测试Vending-Bench 2中位居榜首，能够在模拟运营中保持一致的工具使用和决策能力，实现更高回报。这意味着其可代表用户完成复杂任务，如预订服务或整理收件箱。

发布即上线：搜索与安全全面升级

谷歌此次采取积极策略，发布首日即将Gemini 3整合至核心产品：

搜索领域：AI Mode引入生成式界面，提供沉浸式视觉布局、交互式工具和实时模拟；
Gemini App：所有用户均可使用Gemini 3，Pro和Ultra订阅用户可在AI Mode搜索中体验；
安全性：Gemini 3通过谷歌史上最全面安全评估，降低谄媚性，增强提示注入抵抗力，并提升网络攻击防护能力。谷歌还与英国AISI等机构合作，获得Apollo、Vaultis等专家独立评估。

每日经济新闻综合公开资料