扫描打开手机站
随时逛,更方便!
当前位置:首页 > 智创未来

阿里发布Qwen3-Omni全模态大模型:具备人类级听说写能力

时间:2025-09-24 17:02:44 来源:财联社 作者:财联社

财联社9月24日消息,阿里巴巴正式推出通义全模态预训练大模型Qwen3-Omni系列,该模型凭借其多模态交互能力引发行业关注。据官方披露,在涵盖语音、文本、图像、视频等36个权威基准测试中,Qwen3-Omni系列有22项指标达到国际领先水平(SOTA),其中32项测试结果超越现有开源模型,尤其在语音识别、音频语义理解及实时语音对话场景中,其性能表现已可与谷歌Gemini2.5-Pro等头部商业模型媲美。

Qwen3-Omni模型架构示意图

作为全球首个实现全模态输入输出的预训练模型,Qwen3-Omni突破了传统单模态训练框架的限制。其研发团队创新性地将'听觉感知'、'语言生成'与'视觉理解'能力进行原生融合,在模型初始化阶段即构建多模态协同训练机制。这种设计理念类似于人类婴儿通过多感官同步学习认知世界,使得模型能够同时处理语音指令、文本输入及图像信息,并生成包含语音播报、文字回复及动态图像的复合输出。

技术实现层面,研究团队采用混合单模态与跨模态数据的渐进式训练策略。在预训练阶段,模型同时接收纯文本、语音片段、图像序列及音视频混合数据,通过动态权重分配机制确保各模态特征的有效融合。实验数据显示,该方案在提升音视频处理性能的同时,保持了文本生成(BLEU-4得分42.3)和图像识别(Top-1准确率89.7%)等单模态任务的稳定性,这在业内尚属首次。

值得关注的是,Qwen3-Omni的跨模态交互能力已支持复杂场景应用。例如在医疗问诊场景中,模型可同步分析患者语音描述、病历文本及检测报告图像,生成包含语音反馈、文字建议和可视化数据图表的诊断方案。这种多模态协同处理能力,为智能客服、教育辅导、工业检测等领域提供了新的技术范式。

目前,Qwen3-Omni系列已开放学术研究许可,开发者可通过阿里云模型社区获取基础版本。随着多模态大模型技术的成熟,这类具备人类级感知交互能力的AI系统,或将重新定义人机协作的边界。