扫描打开手机站
随时逛,更方便!
当前位置:首页 > 智创未来

谷歌Gemini 3正式发布:月活突破6.5亿,多模态推理能力再升级

时间:2025-11-19 10:10:43 来源:界面新闻 作者:界面新闻

当地时间11月18日,Alphabet旗下谷歌(Google)正式推出新一代大型语言模型Gemini 3,并宣布即日起将其部署至谷歌搜索的AI模式、Gemini应用、API接口及VertexAI等核心产品。这一动作被谷歌官方定义为“通往AGI(通用人工智能)的重要一步”,同时强调其是目前全球多模态理解能力最强、交互深度最深的智能体。Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)在公司官方博客中将其描述为“最先进、最智能的推理模型”。

多模态整合能力:突破传统交互边界

从现场演示来看,Gemini 3的核心优势在于其无缝整合多模态信息的能力。无论是文本、图像、视频、音频还是代码,该模型均可通过先进的推理、视觉和空间理解技术,结合领先的多语言性能与百万级token上下文窗口,进一步拓展多模态推理的边界。例如,当用户学习新主题时,Gemini 3可提供学术论文、长视频讲座或教程,并生成交互式记忆卡片、可视化代码或结构化内容,帮助用户以最适合自己的方式掌握知识。

为优化信息呈现方式,Gemini 3摒弃了传统的链接列表模式,转而采用沉浸式视觉布局、交互式工具和动态模拟,根据用户查询即时生成个性化内容。这一创新不仅提升了信息获取效率,还为用户提供了更直观的学习体验。

三大核心能力:推理、多模态与Agent智能

1. 推理能力:稳居通用模型第一梯队
第三方开放评测平台数据显示,Gemini 3在推理能力上以高分领跑通用模型第一梯队。其强大的逻辑分析能力可应对复杂问题,为用户提供精准、高效的解决方案。

2. 多模态理解:跨学科、跨语境的深度推理
谷歌展示了一个典型场景:一个手写符号混杂、排版混乱的本子,Gemini 3不仅能精准理解内容,还能自动消解符号歧义,最终输出堪比专业学生的答案。在跨图像、跨学科、跨语境的混合任务中,该模型可保持连贯的推理链条,甚至能理解视觉结构、预测用户操作并推断环境动态,向“理解世界运作机制”迈出关键一步。

3. Agent能力:从工具到智能助手的进化
Gemini Agent的现场演示展示了其强大的执行能力:自动整理Gmail邮箱并提取关键信息、规划包含日程、交通与预算的完整旅行行程、执行多步骤复杂任务,以及在不同应用场景中作为可调用助手运行。这些功能使其成为个人与企业的全能智能伙伴。

全面开放与分级定价:满足多元需求

Gemini 3现已全面开放使用。普通用户可通过Gemini App及搜索AI模式体验新模型,订阅用户和企业客户则可通过AI Studio、Vertex AI等渠道接入。定价方面,Gemini 3.0 Pro引入基于上下文长度的分级机制:200k tokens以下任务的输入/输出价格为2.00美元/12.00美元(每百万token),超过200k tokens则分别为4.00美元和18.00美元。

用户规模与生态扩展:AI应用再创新高

桑达尔·皮查伊在官方博客中回顾了Gemini系列过去两年的进展:AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,此外超过70%的云客户及1300万开发者正在使用其生成式模型。这一数据不仅印证了谷歌在AI领域的领导地位,也为Gemini 3的未来应用奠定了坚实基础。

猜你喜欢