谷歌Gemini 3震撼发布：月活突破6.5亿，多模态能力再升级

时间：2025-11-19 12:06:37　来源：界面新闻　作者：界面新闻

当地时间11月18日，Alphabet旗下科技巨头谷歌（Google）正式发布新一代大型语言模型——Gemini 3。作为谷歌AI生态的核心升级，该模型自发布当日起便被部署至谷歌搜索的AI模式、Gemini应用、API接口及VertexAI等核心产品，标志着全球AI技术竞争进入新阶段。

谷歌官方将Gemini 3定义为“通往通用人工智能（AGI）的重要一步”，并强调其是目前全球多模态理解能力最强、交互深度最深的智能体。Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）在公司官方博客中进一步描述其为“最先进、最智能的推理模型”，凸显其在AI技术领域的领先地位。

多模态能力全面突破：文本、图像、视频、音频无缝整合

从现场演示来看，Gemini 3的核心优势在于其跨模态信息整合能力。该模型可无缝处理文本、图像、视频、音频及代码等多种形式的信息，结合先进的推理、视觉和空间理解能力，以及领先的多语言性能和百万级token上下文窗口，重新定义了多模态推理的边界。

例如，当用户希望学习新主题时，Gemini 3不仅能提供学术论文、长篇视频讲座或教程，还能生成交互式记忆卡片、可视化代码或其他格式内容，帮助用户以最适合自身的方式掌握知识。此外，为提升信息获取效率，模型摒弃了传统链接列表的呈现方式，转而采用沉浸式视觉布局、交互式工具和动态模拟，根据用户查询即时生成个性化内容。

推理能力登顶第一梯队：跨学科任务表现堪比专业学生

第三方开放评测平台数据显示，Gemini 3在推理能力上以高分稳居通用模型第一梯队前列。其多模态理解能力在复杂场景中表现尤为突出：例如，面对手写符号混杂、排版混乱的笔记本内容，模型不仅能精准识别文字，还能自动消解符号歧义，最终给出的答案准确度堪比受过训练的学生。在跨图像、跨学科、跨语境的混合任务中，Gemini 3可保持连贯的推理链条，展现出对世界运作逻辑的深度理解。

更进一步，该模型不仅能解析视觉结构，还能读懂界面变化、预测用户操作，甚至推断环境动态。这种能力使推理不再局限于答题，而是向“理解世界如何运作”的更高维度迈进。

Agent能力全面开放：从邮箱管理到旅行规划一应俱全

在实用场景中，Gemini 3的Agent能力同样令人瞩目。现场演示显示，其可自动执行以下任务：

整理Gmail用户邮箱并提取关键信息；
规划完整旅行行程，涵盖日程、交通及预算要素；
执行多步骤复杂任务链条；
在不同应用场景中作为可调用助手运行。

这些功能标志着AI从单一工具向全能型助手的转型，为用户提供更高效的数字化支持。

全面开放与分级定价：满足开发者与企业需求

Gemini 3现已全面开放使用。普通用户和订阅用户可通过Gemini App及搜索AI模式直接体验新模型；开发者与企业客户则可通过AI Studio、Vertex AI等渠道接入。定价方面，Gemini 3.0 Pro引入基于上下文长度的分级机制：200k tokens以下任务输入/输出价格为2.00美元/12.00美元（每百万token），超过200k tokens则分别为4.00美元和18.00美元，兼顾灵活性与成本效益。

用户规模持续扩张：AI生态覆盖超70%云客户

桑达尔·皮查伊在官方博客中回顾了Gemini系列的进展：AI Overviews月活跃用户已达20亿，Gemini应用月活突破6.5亿。此外，超过70%的云客户及1300万开发者正在使用其生成式模型，形成庞大的AI生态网络。此次Gemini 3的发布，无疑将进一步巩固谷歌在全球AI领域的领导地位，并推动技术向更广泛的应用场景渗透。