扫描打开手机站
随时逛,更方便!
当前位置:首页 > 智创未来

谷歌Gemini 3正式发布:推理能力突破,多模态与编程能力全面升级

时间:2025-11-19 12:05:07 来源:每日经济新闻 作者:每日经济新闻

当地时间11月18日,Alphabet旗下谷歌正式发布其迄今最强大的人工智能(AI)模型——Gemini 3。该模型在发布首日即同步上线谷歌搜索、Gemini应用程序及多个开发者平台,并直接应用于核心盈利产品。这一举措标志着谷歌首次在新模型发布当天便将其整合至搜索服务,展现了其加速AI技术商业化的战略决心。

Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)在发布会上表示,Gemini 3能够针对复杂问题提供更精准的答案,用户仅需更少的提示即可获得所需结果。此外,新模型在编程、应用开发与图像生成领域的能力实现显著提升,进一步巩固了谷歌在AI领域的领先地位。


图片来源:每经记者 郑雨航 摄

Gemini 3:技术突破与产品整合

Gemini 3将被集成至Gemini应用、谷歌AI搜索产品(AI Mode和AI Overviews)及企业级服务中。自发布周二起,部分订阅用户可率先体验,未来几周将扩大至更广泛用户群体。此次发布距Gemini 2.5仅八个月,距Gemini 2.0上线仅11个月,而竞争对手OpenAI已于今年8月推出GPT-5。

皮查伊在博客中写道:“短短两年间,AI已从文本和图像处理进化至场景理解。从今天起,Gemini将全面赋能谷歌全系产品。”据谷歌披露,Gemini应用月活跃用户达6.5亿,AI Overviews拥有20亿月活用户,而OpenAI的ChatGPT周活跃用户为7亿。

性能登顶:全球AI模型排行榜刷新纪录

谷歌高管在发布会上强调,Gemini 3在多个行业基准测试中表现卓越:

  • 全球AI模型LMArena排行榜:以1501分登顶,创历史新高;
  • 通用推理能力Humanity's Last Exam测试:得分37.5%,超越GPT-5 Pro的31.64%;
  • 数学、多模态理解及事实准确性等多维度刷新行业标准。

谷歌AI研究实验室DeepMind CEO Demis Hassabis称,Gemini 3是“全球最佳多模态理解模型”,也是公司迄今最强大的智能体和代码生成模型。皮查伊则将其誉为“最智能的模型”,能够“将任何想法变为现实”。

推理能力:博士级表现与多模态突破

Gemini 3在推理能力上取得显著进展,多项学术测试成绩达博士水平:

  • GPQA Diamond测试:91.9%高分;
  • 数学领域MathArena Apex基准测试:23.4%新纪录;
  • 事实准确性SimpleQA Verified测试:72.1%得分。

在多模态推理方面,Gemini 3同样表现优异:

  • MMMU-Pro测试:81%分数;
  • Video-MMMU测试:87.6%得分。

这意味着该模型可高度可靠地处理科学、数学等领域的复杂问题。谷歌产品负责人Tulsee Doshi表示:“Gemini 3的推理能力实现了巨大飞跃,其响应深度和细微程度前所未见。”


Deep Think模式:增强推理与安全评估

除标准版本外,谷歌推出Gemini 3 Deep Think增强推理模式,其测试成绩进一步突破:

  • Humanity's Last Exam测试:41.0%成绩;
  • GPQA Diamond测试:93.8%分数;
  • ARC-AGI-2测试:45.1%创纪录成绩。

该模式正在接受额外安全评估,未来几周将向Google AI Ultra订阅用户开放。

开发者工具:代码生成与智能体平台升级

在代码生成领域,Gemini 3被誉为“谷歌迄今最佳编码模型”,其测试成绩如下:

  • WebDev Arena排行榜:1487分登顶;
  • Terminal-Bench 2.0测试:54.2%分数;
  • SWE-bench Verified基准测试:76.2%得分,远超Gemini 2.5 Pro。

开发者可通过Google AI Studio、Vertex AI、Gemini CLI及Cursor、GitHub、JetBrains等第三方平台访问Gemini 3。此外,谷歌推出全新开发平台Google Antigravity,利用Gemini 3的高级推理能力,将AI从工具升级为主动合作伙伴。DeepMind首席技术官Koray Kavukcuoglu表示:“智能体可在编辑器、终端和浏览器间协同工作,优化应用构建流程。”


多模态理解:跨场景应用与智能体能力

Gemini 3延续了跨模态信息处理能力,可无缝整合文本、图像、视频、音频和代码,并配备100万token的上下文窗口。例如:

  • 用户可上传手写食谱,Gemini 3能破译并翻译成多语言家庭食谱书;
  • 输入学术论文或长视频讲座,模型可生成交互式闪卡或可视化内容辅助学习;
  • 分析匹克球比赛视频,识别技术短板并生成训练计划。

在智能体能力方面,Gemini 3在长期规划测试Vending-Bench 2中位居榜首,能够在模拟运营中保持一致的工具使用和决策能力,实现更高回报。这意味着其可代表用户完成复杂任务,如预订服务或整理收件箱。

发布即上线:搜索与安全全面升级

谷歌此次采取积极策略,发布首日即将Gemini 3整合至核心产品:

  • 搜索领域:AI Mode引入生成式界面,提供沉浸式视觉布局、交互式工具和实时模拟;
  • Gemini App:所有用户均可使用Gemini 3,Pro和Ultra订阅用户可在AI Mode搜索中体验;
  • 安全性:Gemini 3通过谷歌史上最全面安全评估,降低谄媚性,增强提示注入抵抗力,并提升网络攻击防护能力。谷歌还与英国AISI等机构合作,获得Apollo、Vaultis等专家独立评估。

每日经济新闻综合公开资料

猜你喜欢