9月19日,小米科技在语音技术领域取得重大突破,正式开源了其首个原生端到端语音大模型——Xiaomi-MiMo-Audio。这一创新成果基于小米自主研发的预训练架构,并依托上亿小时的语音训练数据,首次在语音领域实现了基于ICL(In-Context Learning,上下文学习)的少样本泛化能力,同时在预训练过程中观察到了显著的“涌现”行为,标志着小米在语音AI技术上的领先地位。
据小米官方介绍,Xiaomi-MiMo-Audio在多个语音技术评测基准中均取得了优异成绩。在通用语音理解及对话等标准评测中,该模型大幅超越了同参数量的开源模型,在7B参数规模下达到了最佳性能。特别是在音频理解基准MMAU的标准测试集上,Xiaomi-MiMo-Audio的表现甚至超过了Google的闭源语音模型Gemini-2.5-Flash,展现了其强大的语音理解能力。
此外,在面向音频复杂推理的基准Big Bench Audio S2T任务中,Xiaomi-MiMo-Audio同样表现出色,超越了OpenAI的闭源语音模型GPT-4o-Audio-Preview。这一系列优异表现,不仅证明了小米在语音大模型领域的深厚技术积累,也为全球语音AI技术的发展提供了新的思路和方向。