阿里发布Qwen3-Omni全模态大模型：具备人类级听说写能力

时间：2025-09-24 17:02:44　来源：财联社　作者：财联社

财联社9月24日消息，阿里巴巴正式推出通义全模态预训练大模型Qwen3-Omni系列，该模型凭借其多模态交互能力引发行业关注。据官方披露，在涵盖语音、文本、图像、视频等36个权威基准测试中，Qwen3-Omni系列有22项指标达到国际领先水平（SOTA），其中32项测试结果超越现有开源模型，尤其在语音识别、音频语义理解及实时语音对话场景中，其性能表现已可与谷歌Gemini2.5-Pro等头部商业模型媲美。

Qwen3-Omni模型架构示意图

作为全球首个实现全模态输入输出的预训练模型，Qwen3-Omni突破了传统单模态训练框架的限制。其研发团队创新性地将'听觉感知'、'语言生成'与'视觉理解'能力进行原生融合，在模型初始化阶段即构建多模态协同训练机制。这种设计理念类似于人类婴儿通过多感官同步学习认知世界，使得模型能够同时处理语音指令、文本输入及图像信息，并生成包含语音播报、文字回复及动态图像的复合输出。

技术实现层面，研究团队采用混合单模态与跨模态数据的渐进式训练策略。在预训练阶段，模型同时接收纯文本、语音片段、图像序列及音视频混合数据，通过动态权重分配机制确保各模态特征的有效融合。实验数据显示，该方案在提升音视频处理性能的同时，保持了文本生成（BLEU-4得分42.3）和图像识别（Top-1准确率89.7%）等单模态任务的稳定性，这在业内尚属首次。

值得关注的是，Qwen3-Omni的跨模态交互能力已支持复杂场景应用。例如在医疗问诊场景中，模型可同步分析患者语音描述、病历文本及检测报告图像，生成包含语音反馈、文字建议和可视化数据图表的诊断方案。这种多模态协同处理能力，为智能客服、教育辅导、工业检测等领域提供了新的技术范式。

目前，Qwen3-Omni系列已开放学术研究许可，开发者可通过阿里云模型社区获取基础版本。随着多模态大模型技术的成熟，这类具备人类级感知交互能力的AI系统，或将重新定义人机协作的边界。

上一篇：2025第二届百模论剑·AIGC数字创意赛道“城市记忆”大赛报名开启
下一篇：返回列表

猜你喜欢