扫描打开手机站
随时逛,更方便!
当前位置:首页 > 智创未来

谷歌Gemini 3正式发布:月活突破6.5亿,多模态能力再升级

时间:2025-11-19 11:11:07 来源:界面新闻 作者:界面新闻

当地时间11月18日,Alphabet旗下谷歌(Google)正式推出新一代大型语言模型Gemini 3,并宣布即日起将其部署至谷歌搜索的AI模式、Gemini应用、API接口及Vertex AI等核心产品。这一动作被谷歌官方定义为“通往AGI(通用人工智能)的重要一步”,并强调其是目前全球多模态理解能力最强、交互深度最深的智能体。Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)在公司官方博客中称其为“最先进、最智能的推理模型”。

多模态整合能力:打破信息交互边界

从现场演示来看,Gemini 3的核心优势在于其无缝整合多模态信息的能力。无论是文本、图像、视频、音频还是代码,模型均可通过先进的推理、视觉和空间理解能力,结合领先的多语言性能与百万级token上下文窗口,拓展多模态推理的边界。例如,用户学习新主题时,Gemini 3可提供学术论文、长视频讲座或教程,并生成交互式记忆卡片、可视化代码等格式的内容,帮助用户高效掌握知识。

为优化信息呈现方式,Gemini 3摒弃了传统链接列表,转而采用沉浸式视觉布局、交互式工具和模拟场景,根据用户查询即时生成动态内容。这一创新显著提升了信息获取的直观性与效率。

技术突破:推理、多模态与Agent能力全面升级

在推理能力方面,第三方开放评测平台数据显示,Gemini 3稳居通用模型第一梯队前列。其多模态表现尤为突出:演示中,模型可精准解析手写符号混杂、排版混乱的笔记,自动消解歧义,最终输出堪比专业学生的答案,并在跨图像、跨学科、跨语境任务中保持连贯推理链条。

更进一步,Gemini 3不仅能理解视觉结构,还能读懂界面变化、预测用户操作,甚至推断环境动态。例如,当用户浏览网页时,模型可实时分析页面元素变化,提供操作建议或环境风险预警,推动推理能力从“答题”向“理解世界运作机制”进化。

在Agent能力方面,Gemini 3展现了强大的自动化执行潜力。演示中,Gemini Agent可自动整理Gmail邮箱、提取关键信息;规划包含日程、交通与预算的完整旅行行程;执行多步骤复杂任务;并在不同应用场景中作为可调用助手运行,显著提升用户效率。

开放接入与灵活定价:覆盖全用户群体

Gemini 3现已全面开放使用。普通用户可通过Gemini App及搜索AI模式体验新模型,订阅用户则可享受更高级功能;开发者与企业客户可通过AI Studio、Vertex AI等渠道接入。定价方面,Gemini 3.0 Pro采用基于上下文长度的分级机制:200k tokens以下任务输入/输出价格为2.00美元/12.00美元(每百万token),超过200k tokens则分别为4.00美元和18.00美元,兼顾灵活性与成本效益。

用户规模与生态进展:月活突破6.5亿

桑达尔·皮查伊在博客中回顾了Gemini系列的进展:AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,超70%的云客户及1300万开发者正在使用其生成式模型。此次Gemini 3的发布,进一步巩固了谷歌在AI领域的领先地位,也为全球用户与开发者提供了更强大的工具。