当地时间11月18日,Alphabet旗下科技巨头谷歌(Google)正式发布新一代大型语言模型——Gemini 3。作为谷歌AI生态的核心升级,该模型自发布当日起便被部署至谷歌搜索的AI模式、Gemini应用、API接口及VertexAI等核心产品,标志着全球AI技术竞争进入新阶段。
谷歌官方将Gemini 3定义为“通往通用人工智能(AGI)的重要一步”,并强调其是目前全球多模态理解能力最强、交互深度最深的智能体。Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)在公司官方博客中进一步描述其为“最先进、最智能的推理模型”,凸显其在AI技术领域的领先地位。
从现场演示来看,Gemini 3的核心优势在于其跨模态信息整合能力。该模型可无缝处理文本、图像、视频、音频及代码等多种形式的信息,结合先进的推理、视觉和空间理解能力,以及领先的多语言性能和百万级token上下文窗口,重新定义了多模态推理的边界。
例如,当用户希望学习新主题时,Gemini 3不仅能提供学术论文、长篇视频讲座或教程,还能生成交互式记忆卡片、可视化代码或其他格式内容,帮助用户以最适合自身的方式掌握知识。此外,为提升信息获取效率,模型摒弃了传统链接列表的呈现方式,转而采用沉浸式视觉布局、交互式工具和动态模拟,根据用户查询即时生成个性化内容。
第三方开放评测平台数据显示,Gemini 3在推理能力上以高分稳居通用模型第一梯队前列。其多模态理解能力在复杂场景中表现尤为突出:例如,面对手写符号混杂、排版混乱的笔记本内容,模型不仅能精准识别文字,还能自动消解符号歧义,最终给出的答案准确度堪比受过训练的学生。在跨图像、跨学科、跨语境的混合任务中,Gemini 3可保持连贯的推理链条,展现出对世界运作逻辑的深度理解。
更进一步,该模型不仅能解析视觉结构,还能读懂界面变化、预测用户操作,甚至推断环境动态。这种能力使推理不再局限于答题,而是向“理解世界如何运作”的更高维度迈进。
在实用场景中,Gemini 3的Agent能力同样令人瞩目。现场演示显示,其可自动执行以下任务:
这些功能标志着AI从单一工具向全能型助手的转型,为用户提供更高效的数字化支持。
Gemini 3现已全面开放使用。普通用户和订阅用户可通过Gemini App及搜索AI模式直接体验新模型;开发者与企业客户则可通过AI Studio、Vertex AI等渠道接入。定价方面,Gemini 3.0 Pro引入基于上下文长度的分级机制:200k tokens以下任务输入/输出价格为2.00美元/12.00美元(每百万token),超过200k tokens则分别为4.00美元和18.00美元,兼顾灵活性与成本效益。
桑达尔·皮查伊在官方博客中回顾了Gemini系列的进展:AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿。此外,超过70%的云客户及1300万开发者正在使用其生成式模型,形成庞大的AI生态网络。此次Gemini 3的发布,无疑将进一步巩固谷歌在全球AI领域的领导地位,并推动技术向更广泛的应用场景渗透。