谷歌Gemini 3正式发布：月活突破6.5亿，多模态推理能力再升级

时间：2025-11-19 10:10:43　来源：界面新闻　作者：界面新闻

当地时间11月18日，Alphabet旗下谷歌（Google）正式推出新一代大型语言模型Gemini 3，并宣布即日起将其部署至谷歌搜索的AI模式、Gemini应用、API接口及VertexAI等核心产品。这一动作被谷歌官方定义为“通往AGI（通用人工智能）的重要一步”，同时强调其是目前全球多模态理解能力最强、交互深度最深的智能体。Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）在公司官方博客中将其描述为“最先进、最智能的推理模型”。

多模态整合能力：突破传统交互边界

从现场演示来看，Gemini 3的核心优势在于其无缝整合多模态信息的能力。无论是文本、图像、视频、音频还是代码，该模型均可通过先进的推理、视觉和空间理解技术，结合领先的多语言性能与百万级token上下文窗口，进一步拓展多模态推理的边界。例如，当用户学习新主题时，Gemini 3可提供学术论文、长视频讲座或教程，并生成交互式记忆卡片、可视化代码或结构化内容，帮助用户以最适合自己的方式掌握知识。

为优化信息呈现方式，Gemini 3摒弃了传统的链接列表模式，转而采用沉浸式视觉布局、交互式工具和动态模拟，根据用户查询即时生成个性化内容。这一创新不仅提升了信息获取效率，还为用户提供了更直观的学习体验。

三大核心能力：推理、多模态与Agent智能

1. 推理能力：稳居通用模型第一梯队
第三方开放评测平台数据显示，Gemini 3在推理能力上以高分领跑通用模型第一梯队。其强大的逻辑分析能力可应对复杂问题，为用户提供精准、高效的解决方案。

2. 多模态理解：跨学科、跨语境的深度推理
谷歌展示了一个典型场景：一个手写符号混杂、排版混乱的本子，Gemini 3不仅能精准理解内容，还能自动消解符号歧义，最终输出堪比专业学生的答案。在跨图像、跨学科、跨语境的混合任务中，该模型可保持连贯的推理链条，甚至能理解视觉结构、预测用户操作并推断环境动态，向“理解世界运作机制”迈出关键一步。

3. Agent能力：从工具到智能助手的进化
Gemini Agent的现场演示展示了其强大的执行能力：自动整理Gmail邮箱并提取关键信息、规划包含日程、交通与预算的完整旅行行程、执行多步骤复杂任务，以及在不同应用场景中作为可调用助手运行。这些功能使其成为个人与企业的全能智能伙伴。

全面开放与分级定价：满足多元需求

Gemini 3现已全面开放使用。普通用户可通过Gemini App及搜索AI模式体验新模型，订阅用户和企业客户则可通过AI Studio、Vertex AI等渠道接入。定价方面，Gemini 3.0 Pro引入基于上下文长度的分级机制：200k tokens以下任务的输入/输出价格为2.00美元/12.00美元（每百万token），超过200k tokens则分别为4.00美元和18.00美元。