谷歌Gemini 3正式发布：月活突破6.5亿，多模态能力再升级

时间：2025-11-19 11:11:07　来源：界面新闻　作者：界面新闻

当地时间11月18日，Alphabet旗下谷歌（Google）正式推出新一代大型语言模型Gemini 3，并宣布即日起将其部署至谷歌搜索的AI模式、Gemini应用、API接口及Vertex AI等核心产品。这一动作被谷歌官方定义为“通往AGI（通用人工智能）的重要一步”，并强调其是目前全球多模态理解能力最强、交互深度最深的智能体。Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）在公司官方博客中称其为“最先进、最智能的推理模型”。

多模态整合能力：打破信息交互边界

从现场演示来看，Gemini 3的核心优势在于其无缝整合多模态信息的能力。无论是文本、图像、视频、音频还是代码，模型均可通过先进的推理、视觉和空间理解能力，结合领先的多语言性能与百万级token上下文窗口，拓展多模态推理的边界。例如，用户学习新主题时，Gemini 3可提供学术论文、长视频讲座或教程，并生成交互式记忆卡片、可视化代码等格式的内容，帮助用户高效掌握知识。

为优化信息呈现方式，Gemini 3摒弃了传统链接列表，转而采用沉浸式视觉布局、交互式工具和模拟场景，根据用户查询即时生成动态内容。这一创新显著提升了信息获取的直观性与效率。

技术突破：推理、多模态与Agent能力全面升级

在推理能力方面，第三方开放评测平台数据显示，Gemini 3稳居通用模型第一梯队前列。其多模态表现尤为突出：演示中，模型可精准解析手写符号混杂、排版混乱的笔记，自动消解歧义，最终输出堪比专业学生的答案，并在跨图像、跨学科、跨语境任务中保持连贯推理链条。

更进一步，Gemini 3不仅能理解视觉结构，还能读懂界面变化、预测用户操作，甚至推断环境动态。例如，当用户浏览网页时，模型可实时分析页面元素变化，提供操作建议或环境风险预警，推动推理能力从“答题”向“理解世界运作机制”进化。

在Agent能力方面，Gemini 3展现了强大的自动化执行潜力。演示中，Gemini Agent可自动整理Gmail邮箱、提取关键信息；规划包含日程、交通与预算的完整旅行行程；执行多步骤复杂任务；并在不同应用场景中作为可调用助手运行，显著提升用户效率。

开放接入与灵活定价：覆盖全用户群体

Gemini 3现已全面开放使用。普通用户可通过Gemini App及搜索AI模式体验新模型，订阅用户则可享受更高级功能；开发者与企业客户可通过AI Studio、Vertex AI等渠道接入。定价方面，Gemini 3.0 Pro采用基于上下文长度的分级机制：200k tokens以下任务输入/输出价格为2.00美元/12.00美元（每百万token），超过200k tokens则分别为4.00美元和18.00美元，兼顾灵活性与成本效益。

用户规模与生态进展：月活突破6.5亿

桑达尔·皮查伊在博客中回顾了Gemini系列的进展：AI Overviews月活跃用户已达20亿，Gemini应用月活突破6.5亿，超70%的云客户及1300万开发者正在使用其生成式模型。此次Gemini 3的发布，进一步巩固了谷歌在AI领域的领先地位，也为全球用户与开发者提供了更强大的工具。