一周AI大事：阿里AI军火库全开，英伟达千亿美元投向OpenAI

时间：2025-09-29 09:03:04　来源：网易科技报道　作者：网易科技报道

一、重磅工具：Qwen系列模型集中发布，阿里摆出AI模型的满汉全席

新闻：本周阿里巴巴云栖大会期间，公司旗下通义千问团队推出多款重磅AI新模型。知名AI博主Alex Volkov将此盛况戏称为又一场“千问盛宴”。这场技术盛宴的背后，是阿里巴巴集团CEO吴泳铭首次系统阐述的宏大AI战略。吴泳铭认为，通用人工智能（AGI）只是起点，终极目标是发展出能自我迭代、全面超越人类的超级人工智能（ASI）。为实现这一目标，阿里云将坚定走通义千问开源开放路线，致力于打造“AI时代的Android”，并构建作为“下一代计算机”的超级AI云。为支撑这一愿景，阿里巴巴正推进一项为期三年、总额达3800亿人民币的AI基础设施建设计划。

Qwen3-Max：通义千问团队推出最新旗舰AI模型，参数规模超万亿，提供指令微调版（Instruct）和思维（Thinking）版两种版本，多项基准测试均接近业界顶尖水平，尤其在代码生成和智能体调用方面表现突出。据悉，Qwen3-Max预训练数据量高达36万亿token，现已登陆阿里云大模型服务平台百炼（Model Studio）。

Qwen3-VL：通义千问推出的全新多模态模型套件，包含指令微调版和思维版，其中以Qwen3-VL-235B-A22B-Thinking模型尤为亮眼。该系列模型专注于图文任务和视觉推理，Qwen3-VL-235B-A22B-Thinking更是在视觉推理任务上达到业界顶尖水平，表现甚至超越GPT-5。

Qwen-Image-Edit-2509：通义千问发布的AI图像编辑模型升级版，为创作者提供“像素级精准多图编辑能力”。例如可实现“人物+产品”或“人物+场景”的智能融合，消除合成痕迹。该模型已在HuggingFace、ModelScope和Qwen Chat上线。

Qwen3-Omni-30B-A3B：通义千问开源的原生全模态（Omni-modal）AI模型，支持文本、图像、音频和视频输入，并能输出文本和流式音频。模型分为指令微调版、思维版和字幕生成版三个版本。技术报告详见GitHub仓库，体验版已经上线Hugging Face。

Qwen3-TTS-Flash：通义千问团队发布的语音合成模型，支持多音色、多语种，多语言语音质量和准确性均达到业界顶尖水平，能输出表现力极强的语音。目前可以在HuggingFace Spaces上试用。

Wan-Animate：阿里开源了Wan2.2的组成部分Wan-Animate，该模型支持通过动作迁移和口型同步技术轻松实现角色动画制作。通义实验室发布了技术论文以及演示视频，展示如何将表演者的视频动作迁移到目标角色上。目前，Wan 2.2 Animate 14B模型已经上线HuggingFace。

Wan 2.5预览版：阿里发布的Wan 2.5预览版支持生成1080p 60帧的电影级视频，音画完全同步。单次可生成长达10秒的视频片段，并能根据文本或配对音频实现精准口型同步。Wan 2.5预览版还内置“商品转视频”、“绘画转视频”和“口型同步工作室”等功能，现已登陆Higgsfield、Fal和通义万相官网等平台。这标志着视频生成质量和音效水平迈上新台台阶。

锐评：阿里不发则已，一发就把整个AI军火库搬出来了。

二、AI技术与产品发布动态：百花齐放百家争鸣，AI产品进入内卷新时代

1. 新闻：谷歌发布Gemini 2.5 Flash/Flash-Lite更新版：新版模型的智能性、成本效益和速度显著提升，思维版与非思维版在综合智能基准测试中得分均有大幅提高。其中Gemini 2.5 Flash的智能体工具使用和编程能力也有所增强，SWE-Bench Verified测试得分从49%跃升至54%。此次更新的2509版本提升了token效率，质量和速度均有所提高，也更具成本效益。其中Flash-Lite在Artificial Analysis基准测试中的token使用量减少了50%。Gemini 2.5 Flash Lite现已成为速度最快的闭源模型。两款模型的定价保持不变。

锐评：谷歌又是“加量不加价”，就想让开发者“用了就不撒手”。

2. 新闻：DeepSeek发布DeepSeek-V3.1-Terminus。作为DeepSeek-V3.1的升级版，DeepSeek-V3.1-Terminus重点优化了输出稳定性、语言一致性（减少中英混杂现象）以及智能体性能。在智能体工具使用基准测试中，BrowseComp得分从30%提升至38.5%，TerminalBench得分从31.3%提升至36.7%。模型详情已在Hugging Face上公布。

锐评：DeepSeek终于下决心给自家模型报了个中文班，专治“中英夹杂”的尴尬。

3. 新闻：Kling推出视频AI模型Kling 2.5 Turbo。这款升级版视频AI模型不仅提升了视频质量，价格较之前的2.1版本还降低了30%。Kling 2.5 Turbo的提示词遵循度、动态场景流畅度和稳定性以及视频一致性均有所增强，在竞争激烈的视频生成领域性价比优势凸显。

锐评：Kling上来就摆出一副掀桌子的架势。

4. 新闻：Suno推出AI音乐生成模型Suno v5。这是Suno迄今最先进的AI音乐生成模型，音质保真度更高，人声更自然，编曲也更出色。早期评测肯定了v5的技术突破，认为其人声效果非常好，但也被指“过于完美缺乏灵魂”。目前仅限付费用户使用。就在Suno v5发布前几天，多家唱片公司提起诉讼，指控Suno在训练模型时非法“扒取流媒体”内容。

锐评：AI版‘K歌之王’证明：完美有时也是原罪。

5. 新闻：Liquid AI推出Liquid Nanos系列小型任务专用前沿模型。该系列参数规模从3.5亿到25亿不等，适用于边缘设备上的智能体任务。其中包括用于从非结构化文本中提取数据的LFM2-Extract；用于英日双向翻译的LFM2350MENJPMT；用于RAG流程中问答的LFM21.2BRAG；用于智能体工具调用的LFM21.2BTool；以及用于解决数学问题的LFM2350MMath。这些模型可在Liquid Edge AI Platform边缘平台运行，已经上线Hugging Face。

锐评：Liquid AI选择专攻“小而美”，誓要在边缘设备上打下一片天。

6. 新闻：腾讯混元发布并开源原生多模态生图模型HunyuanImage 3.0，参数规模达800亿。据官方介绍，这是首个开源的工业级原生多模态生图模型，是目前参数量最大的开源生图模型，可对标业界头部闭源模型。

锐评：腾讯祭出了800亿参数的“工业级”大家伙。

7. 新闻：小米发布开源音频输出模型MiMo-Audio-7B，模型参数70亿，支持在音频任务中进行思维推理和小样本泛化。其技术报告《MiMo Audio：音频语言模型也是小样本学习者》阐述了MiMo如何通过超1亿小时的音频预训练，从而可以用小样本学习方式执行多种音频任务。目前该模型已上线HuggingFace。

锐评：开“杂货铺”的小米也来卷音频模型。

8. 新闻：Moondream发布Moondream 3预览版。这是一款拥有90亿参数的MoE架构视觉语言（VLM）模型，活跃参数20亿，致力于实现前沿水平的视觉推理。

锐评：视觉推理这块算是被Moondream玩得明明白白。

9. 新闻：IBM发布Granite Docling-258M。这是一款轻量级多模态OCR模型，专为高效文档转换设计。作为SmolDocling的后继产品，Granite Docling-258M兼容Docling工具链和典型文档转换工作流。

锐评：大家都在谈星辰大海，IBM还在默默耕耘“文档扫描电子化”这片自留地。

10. 新闻：谷歌DeepMind推出Gemini Robotics 1.5系列模型。这些升级版的机器人思维模型将AI智能体带入现实世界。其中包括视觉-语言-行动（VLA）模型Gemini Robotics 1.5，以及基于VLM的Gemini Robotics-ER 1.5。这些模型支持机器人规划多步骤任务，并能利用联网和推理信息调整行动。用户可通过Gemini API和Google AI Studio进行调用。

锐评：谷歌终于让Gemini从屏幕里走出来，现实版瓦力还远吗？

11. 新闻：OpenAI推出ChatGPT Pulse。这是ChatGPT新上线的主动式每日更新体验，它通过异步研究生成个性化晨间简报，支持链接Gmail等数据源以分析上下文，并根据用户反馈策划内容。这一功能现向移动端Pro用户开放预览。

锐评：你的专属晨报来了。

12. 新闻：Meta AI引入Vibes信息流。这是一个便于二次创作的AI短视频信息流，汇集了来自创作者和社区的作品。用户可以发布AI短片或对现有内容进行二次创作，并直接分享到Vibes、私信、Instagram和Facebook Reels等各种平台。此举旨在将AI创作模式融入Meta生态体系。

锐评：扎克伯格把短视频和AI搅成一锅大杂烩。

13. 新闻：谷歌升级Gemini Live API。新版API让对话更自然，增强了智能体对外部数据和服务的调用能力。

锐评：Gemini升级后更像万能外援。

14. 新闻：YouTube Music测试AI电台“主播”。这些AI解说评论员会在歌单和电台节目中穿插出现，分享歌曲趣闻和背景故事，目前仅限部分美国用户测试。此外，YouTube还将AI“跳转”功能扩展至电视和游戏主机端。

锐评：“主播”们的饭碗又被AI盯上了。

15. 新闻：微软Copilot Studio新增Anthropic模型选项。除默认的OpenAI模型外，用户现在也可选择Anthropic的Claude Sonnet 4和Claude Opus 4.1模型来构建Copilot AI智能体。

锐评：Copilot自助餐菜单扩容，品种越来越丰盛。

16. 新闻：苹果公司已开发一款类ChatGPT的iPhone应用，代号为Veritas（拉丁语意为“真理”），正为备受期待的Siri重大升级进行内部测试。报道援引知情人士称，测试内容包括搜索歌曲、邮件等个人数据，以及编辑照片等应用内操作的能力。据悉Veritas目前仅供内部使用，苹果并无计划向消费者发布。

锐评：苹果的AI大招永远在“内部测试”。

三、AI研究新动向：世界模型赋能，代码世界迎来新玩家

新闻：Meta发布Code World Model (CWM) 32B。这是一款利用世界模型（World Model）训练信号实现代码生成的开源权重LLM。此番研究旨在探索世界模型如何赋能智能体编程。Meta发表的研究论文详细介绍了如何利用Python解释器的智能体轨迹开展中间训练，并结合强化学习进行多任务推理。CWM的研究为开发基于世界模型的编程和软件工程智能体开辟了新的可能性。

锐评：Meta开始教AI理解代码世界的“物理规律”。

四、AI商业与政策：巨头“抱团”筹备万亿算力

1. 新闻：AI基础设施投资持续火热。OpenAI、甲骨文和软银宣布新增五座在美“星际之门”（Stargate）数据中心，分别位于得克萨斯州、新墨西哥州和中西部地区。至此，该项目的规划容量已接近7GW，累计投资额达4000亿美元。

锐评：计划很亮眼，不知道当地电网撑不撑得住。

2. 新闻：OpenAI与英伟达宣布建立战略合作伙伴关系。英伟达承诺向OpenAI投资1000亿美元，供应数据中心芯片和GPU系统。OpenAI将采购英伟达AI系统，后者则获得OpenAI的非控股股权。双方的目标是在未来几年内部署至少10GW算力，其中签约首付款100亿美元，2026年底开始交付产品。

锐评：一个拼命造GPU，一个拼命烧GPU。

3. 新闻：GPU云服务商CoreWeave扩大与OpenAI的合作：双方签订了价值65亿美元的新合同，使年初至今的合同总额达到224亿美元，以协同推进“星际之门”基础设施建设计划。

锐评：云厂商跟OpenAI的合同签得比GPU还密集。

4. 新闻：微软推广微流控芯片冷却技术，构建更高密度的AI数据中心。实验室结果表明，新技术可将散热效率提升3倍，GPU最高温升降低65%，有望实现3D芯片堆叠和更高超频。

锐评：三倍散热效率让数据中心彻底告别‘蒸桑拿’。

5. 新闻：Llama入选美国政府AI工具清单。Llama正式成为继亚马逊、微软、谷歌、Anthropic和OpenAI之后获批的开源模型，可用于政府合同审查等任务。

锐评：开源模型终于混进了“体制内”，Meta算是拿到了官方认证的“铁饭碗”。

6. 新闻：联邦法官初步批准Anthropic与作家的15亿美元版权和解协议。法院认为该协议“公平合理”，但保留最终批准权。这份和解协议涉及美国主要作家群体。

锐评：知识付费从不是一句空话。

7. 新闻：Spotify出台新规整治AI生成音乐乱象。新规的目的是清除欺骗性或垃圾性AI音乐，例如未经授权的人声模仿。Spotify希望能平衡创作者实验与听众权益，推动行业AI信息披露标准。

锐评：假唱AI要凉凉。

8. 新闻：马斯克麾下xAI与美国政府达成合作协议。该公司将以0.42美元的超低年费向联邦政府出售AI聊天机器人Grok，含工程师支持服务，远低于OpenAI和Anthropic提供的1美元报价方案。