2025年9月29日,人工智能领域迎来重要突破——DeepSeek-V3.2-Exp模型正式发布并同步开源。该模型通过引入创新的稀疏Attention架构,在显著降低计算资源消耗的同时,实现了推理效率的全面提升,为大规模语言模型的应用开辟了新路径。
DeepSeek-V3.2-Exp的核心创新在于其采用的稀疏Attention机制。传统Attention架构在处理长序列数据时面临计算复杂度指数级增长的问题,而稀疏Attention通过动态选择关键信息点进行注意力计算,将计算量从O(n²)降至接近线性增长,从而在保持模型性能的同时大幅减少内存占用和能耗。
目前,DeepSeek-V3.2-Exp模型已正式上架华为云大模型即服务平台(MaaS)。华为云针对该模型特性,延续了其标志性的大EP并行方案,并基于稀疏Attention结构进一步优化:
此次开源的DeepSeek-V3.2-Exp模型包含完整训练代码、预训练权重及部署工具链,开发者可通过华为云MaaS平台一键获取资源。此举不仅降低了技术门槛,更为学术界和产业界提供了研究稀疏架构与大规模并行训练的宝贵实践样本。
行业分析师指出,DeepSeek-V3.2-Exp的发布标志着AI模型正式进入「高效计算」时代,其架构设计对未来多模态大模型、边缘计算等场景具有重要借鉴意义。