9月18日,一则重磅消息在AI领域引起广泛关注:由DeepSeek团队共同完成,梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,成功登上了国际顶级学术期刊《自然》(Nature)杂志的封面。
论文研究人员透露,DeepSeek-R1之所以能在AI领域大放异彩,关键在于其并未依赖竞争对手的输出内容进行训练。这一声明,出自今天正式发表于《自然》杂志的一篇经过严格同行评议的R1模型论文的附带文件中。值得一提的是,今年一月R1的发布,还曾一度引发美国股市的剧烈波动。
R1模型专注于数学、编程等“推理”任务,旨在成为美国科技公司所开发工具的一个更经济、高效的竞争对手。作为一个“开放权重”(open weight)模型,R1允许任何人下载使用,且在AI社区平台Hugging Face上备受青睐,下载量已突破1090万次大关。
此次发表的论文是对今年一月发布的预印本的全面更新,详细阐述了DeepSeek如何通过增强标准大语言模型(LLM)来处理复杂的推理任务。论文补充材料首次披露,R1的增量训练成本仅为29.4万美元,这一数字是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型花费约600万美元之外的额外支出。即便如此,其总成本仍远低于竞争对手模型据信高达数千万美元的费用。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2023年起已被禁止向中国销售,这一事实更凸显了DeepSeek在资源受限情况下的创新能力和技术实力。
严格的同行评审,确保模型有效性
R1被认为是首个经历严格同行评议过程的主流大语言模型,这一创举得到了业界广泛认可。Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)表示:“这是一个非常值得欢迎的先例。如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”他也是这篇《自然》论文的审稿人之一。
为回应同行评议的意见,DeepSeek团队对论文描述进行了优化,减少了拟人化用语,并补充了技术细节说明,包括模型训练所用的数据类型及其安全性。位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)评价道:“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性。其他公司也应该效仿这一做法。”
创新训练方式,引领AI新潮流
DeepSeek的主要创新在于采用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1模型。这一过程通过奖励模型得出正确答案的方式进行,而非教它遵循人类挑选的推理范例。DeepSeek表示,其模型正是通过这种方式学会了自身的类推理策略,例如如何在不遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还采用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估算值为自身的尝试打分,而非另外采用一个独立的算法。
孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。”
关于训练方式的争议与澄清
今年一月,有媒体报道曾暗示,OpenAI研究人员认为DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。然而,DeepSeek并未在其论文中公布其训练数据的具体构成。
但在与审稿人的交流中,DeepSeek的研究人员明确声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们也承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。
孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。
R1模型:性价比与竞争力的完美结合
对于研究人员而言,R1模型仍然具有极高的竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战——ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。
坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)
(本文由AI翻译,网易编辑负责校对)