您当前浏览器版本过低,为了不影响您的使用,建议您使用最新的谷歌浏览器、火狐浏览器、 360浏览器,更换浏览器后使用更流畅!(注意!双核浏览器请切换为极速模式)
400-607-9388

刚刚,DeepSeek登上Nature封面!梁文锋为通讯作者,R1训练真29.4万美金

2025-09-23
3815

艾思科蓝官网-版头.gif


刚刚,DeepSeek-R1登上了Nature封面!


640 (8).jpg


今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 论文发布,如今成功登上全球顶刊封面。


通讯作者梁文锋带队,用RL为大模型推理能力开辟了全新路径。


640 (35).png

论文地址:https://www.nature.com/articles/s41586-025-09422-z


在封面推荐中,Nature毫不吝啬地赞扬了DeepSeek-R1的成就。


开源之后,R1在Hugging Face成为最受欢迎的模型,下载量破1090万次。关键是,它是全球首个经过同行评审的主流大模型。


640 (9).jpg


值得一的是,补充材料首次公开了R1训练成本——294000美元,数字低到惊人。


即便是加上约600万美元的基础模型成本,也远低于OpenAI、谷歌训练AI的成本。


640 (36).png


从一篇arXiv论文到Nature封面,DeepSeek团队再次用实力为AI推理的未来铺路。


640 (37).png


R1被认为是首个经历同行评审过程的主流LLM。


审稿人Lewis Tunstall表示:

这是一个非常值得欢迎的先例。若不公开分享大部分研发过程,我们将难以评估这些系统是否存在风险。针对同行评审意见,DeepSeek减少了拟人化描述,并增加了技术细节说明,包括模型训练数据类型和安全性能。


审稿人Huan Sun表示:

通过严格同行评审过程,有助于验证模型的有效性和实用性,其他公司也应效仿。


DeepSeek-R1-Zero诞生

研究团队的出发点大胆而纯粹:彻底抛开对人类推理轨迹的依赖。人类定义的推理模式,可能反而是一种束缚。


640 (38).png


他们选择了一个强大的基础模型DeepSeek-V3 Base,跳过了传统的SFT阶段。

取而代之的,是一个极其简洁的强化学习框架,只告诉模型两件事:


1. 任务格式:回答必须包含两部分,一个是被<think>标签包裹的「思考过程」,另一个是被<answer>标签包裹的「最终答案」。


2. 奖励信号:根据最终答案是否正确来给予奖励,不管采用什么样的思考方法。

在没有解题步骤的对错评判,没有思维方式的引导下,DeepSeek-R1-Zero开始了它的「野蛮生长」。


在整个训练过程中,R1-Zero的推理能力发生了质的飞跃。


以AIME 2024为例,它的平均解题准确率(pass@1)从最初的15.6%,一路狂飙至77.9%。


如果再配合「自洽解码」技术,准确率更是高达86.7%——这一成绩远超AIME竞赛中所有人类选手的平均水平。


640 (39).png


AI「顿悟时刻」


更令人着迷的,是它在能力提升过程中展现出的自我进化行为。


  • 「思考时间」自主增加

    随着训练的进行,模型在<think>标签内生成的文本长度稳步增加。它自发地学会了用更长的「思维链」来探索和优化解题策略,有时甚至会生成成百上千个token来反复推敲一个问题。


  • 高级推理策略的涌现

    模型不再是线性地一步步解题,而是开始展现出「自我反思」和「系统性探索替代解法」等高级策略。它会验证自己的中间步骤,甚至会主动探索「如果我用另一种方法会怎么样?」


  • 一个有趣「顿悟时刻」

    在训练的某个阶段,研究人员观察到了一个清晰的「顿悟时刻」(Aha Moment)。也就是,模型在反思过程中,使用「wait」(等等)这个词的频率突然急剧增加。这一时刻,标志着DeepSeek-R1-Zero在推理模式上发生了明显转变,清晰地揭示了它的自我进化过程。


640 (40).png


而这种进化,也完美诠释了强化学习的魅力:不必教它如何解题,只需提供正确的激励,它就能自主地发展出比人类教的更高级的策略。


揭秘DeepSeek-R1「炼丹炉」


接下来,就让我们深入这个「炼丹炉」的内部,一探究竟。


GRPO算法

在AI训练的赛道上,强化学习算法PPO(近端策略优化)长期以来都是大语言模型训练的「标配赛车」。它虽然强大,但也以资源消耗巨大和实现复杂而著称。

DeepSeek团队选择了一条更聪明的路,他们采用了GRPO(组相对策略优化)算法作为核心驱动引擎。


640 (41).png


PPO就像一位极其谨慎的教练,它在每次训练更新时,都会严格限制新策略与旧策略的偏离程度,以防模型「跑偏」导致训练崩溃。


这种谨慎是有代价的,它需要大量的计算来维持稳定。


而GRPO则像一位更高效、更相信「集体智慧」的教练。它的核心思想是:

在每次训练时,让模型针对同一个问题,生成一组(比如16个)不同的答案。 


然后,它不只是简单地奖励最好的那个,而是根据这一组答案的「相对好坏」,来整体优化模型。


具体来说,它会计算出每个答案相对于这一组答案平均水平的「优势」(Advantage),优势大的(即表现更好的)答案会得到更大的激励权重,而表现差的则会被抑制。


这种「组内竞争、择优而学」的机制,简化了PPO复杂的约束过程,不仅显著降低了资源消耗,还被证明在实践中同样稳定高效。


奖励设计

强化学习的本质,就是通过奖励(Reward)来塑造模型的行为。它决定了模型将朝着哪个方向进化。


为此,DeepSeek团队设计了一套双轨制的奖励系统。


1. 基于规则的奖励


对于推理任务(数学、编程、逻辑),团队采用了一套极其严格的基于规则的奖励系统。

  • 准确率奖励:最终答案对不对?对于数学题,答案必须和标准答案完全一致;对于编程题,代码必须通过所有预设的测试用例。

  • 格式奖励:思考过程是否符合规范?所有的思考过程都必须封装在<think>和</think>标签内。


640 (42).png


这里,有一个关键的决定:在推理任务上,完全不使用基于神经网络的奖励模型。

因为团队发现,AI在长时间、大规模的强化学习中,会找到奖励模型本身的漏洞并加以利用,即所谓的「奖励投机(Reward Hacking)」。


2. 基于模型的奖励


然而,世界并非非黑即白。对于通用任务比如写作、对话,大多只有好坏之分。

于是,DeepSeek团队引入了基于模型的奖励,从而让模型更符合人类的偏好。

  • 有用性奖励模型:专门负责评判模型的回答对用户是否有用、切题。它通过比较大量的「好答案」与「坏答案」对(由DeepSeek-V3生成并筛选)来学习人类的偏好。有趣的是,它只评估最终的摘要部分,而不去干涉底层的推理过程,给予模型在思考上的充分自由。


640 (43).png

  • 安全奖励模型:负责检查模型的全部输出,包括思考过程,以识别和惩罚任何潜在的有害、偏见或危险内容。


640 (44).png

如此一来,模型在保持强大推理能力的同时,也学会了如何生成更有用、更安全、更符合人类习惯的内容。


640 (45).png


挑战与未来


DeepSeek-R1的诞生,为AI发展带来了深刻的启示,也伴随着新的挑战。


  • 能力局限

    在结构化输出和工具使用(如调用计算器、搜索引擎)方面,目前的DeepSeek-R1尚有欠缺。它对提示词非常敏感,不适合复杂的少样本提示,在零样本直接提问时效果最佳。此外,由于强化学习在耗时长的软件工程任务上效率不高,R1在该领域的提升有限。


  • 奖励投机

    纯强化学习的成功,完全依赖于可靠的奖励信号。在数学、编程这类有明确对错答案的领域,这很容易实现。但对于像「写一首优美的诗」这样主观的任务,则很难设计完美的奖励模型。如果奖励信号本身有漏洞,策略模型就会像一个聪明的学生钻考试规则的空子一样,「投机取巧」、骗取高分,而不是真正提升能力。


年初,DeepSeek-R1发布后,OpenAI感觉不可思议,指责DeepSeek「可能使用了ChatGPT的输出来训练R1」。


640 (46).png


在与审稿人的交流中,DeepSeek表示,R1并非通过复制OpenAI模型生成的推理示例来学习。


不过,与大多数其他大语言模型一样,R1的基础模型是在网络上训练的,因此它会吸收互联网上已有的AI生成的内容。


俄亥俄州立大学AI研究员Huan Sun表示,这一解释「与我们在任何出版物中看到的一样令人信服」。


640 (47).png


Nature审稿人、Hugging Face机器学习工程师Lewis Tunstall补充说,其他实验室的复制尝试表明,DeepSeek推理方法已经足够好,不需要这样做。


他说:「我认为现在的证据相当明确,仅使用强化学习就可以获得非常高的性能。」


640 (48).png


Lewis Tunstall说,其他研究人员现在正试图应用创建R1的方法来改进现有大语言模型的类似推理能力,并将其扩展到数学和编码以外的领域。他补充说,通过这种方式,R1「开启了一场革命」。


参考资料:HYJ
https://www.nature.com/articles/s41586-025-09422
https://www.nature.com/articles/d41586-025-03015-6


艾思科蓝官网-版尾.jpg

已收藏 0
点赞 5

学术会议

【ACM 独立出版∣往届已EI、Scopus检索∣合作SSCI】第二届数字经济与计算机科学国际学术会议(DECS 2025)
第二届数字经济与计算机科学国际学术会议(DECS 2025)将于10月17日-10月19日在武汉召开,本次会议主要围绕计算机技术数字经济等相关主题展开广泛深入的研讨与交流。
2025-10-17
【IEEE出版|已连续5届稳定快速Ei检索】第六届计算机工程与智能控制国际学术会议(ICCEIC 2025)
第六届计算机工程与智能控制学术会议(ICCEIC 2025)将于2024年10月17日至19日在广州举办,聚焦计算机工程与智能控制前沿,涵盖网络安全、硬件系统、软件工程、嵌入式创新等多个核心议题及交叉
2025-10-17
【SPIE出版丨连续多年EI稳定检索!】第七届地球科学与遥感测绘国际学术会议(GRSM 2025)
为交流近年来国内外在地球、地理科学和遥感测绘领域的理论、技术和应用的最新进展,展示最新成果,第七届地球科学与遥感测绘国际学术会议将于2025年10月17-19日在中国-新疆-乌鲁木齐召开。
2025-10-17
【院士报告|EI检索稳定|大连理工大学主办】第四届能源与动力工程国际学术会议(EPE 2025)
第四届能源与动力工程国际学术会议(EPE 2025),将于2025年10月10日至12日在西安举行。能源工程/热能动力及控制/ 热力发动机及应用/制冷与低温/水利水电动力工程/水轮机安装检修与运行
2025-10-10
【IEEE出版,五邑大学主办,设评优】第五届电子信息工程与计算机技术国际学术会议(EIECT 2025)
聚焦“电子信息工程与计算机技术”的最新研究,第五届电子信息工程与计算机技术国际学术会议(EIECT 2025)将于 2025年10月24-26日在中国江门举行。延续EIECT的“分享·交流”精神,我们
2025-10-24
【稳定检索|线上线下参会|马理工主办】第十一届建筑、土木与水利工程国际学术会议(ICACHE 2025)
第十一届建筑、土木与水利工程国际学术会议(ICACHE 2025)将于2025年10月17-19日在马来西亚新山市隆重举行。大会诚邀国内外高校、科研机构专家、学者、及其他相关人员投稿与参会交流。
2025-10-17
相关资讯

中国第一位唢呐博士,惊艳出圈!

近日,一位“90后”女博士惊艳出圈,她的“tittle”也令众多网友表示惊讶。

43780

25

2023-05-16

武汉一大学硕导招生咨询帖走红!本人回应

武汉一大学硕导招生咨询帖走红!本人回应

5820

3

2025-09-17

985大学党委书记(副部长级)入驻小红书!

985大学党委书记(副部长级)入驻小红书!

5769

3

2025-09-09

他,28岁评教授,38岁当院士,今日再发Nature!

他,28岁评教授,38岁当院士,今日再发Nature!

6132

4

2025-09-01

96年女生当上浙大博导!回应来了

96年女生当上浙大博导!回应来了

6986

4

2025-08-18