DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI
吃瓜电子官网最新热点:DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI
更新时间: 浏览次数:8306
雷峰网讯 DeepSeek-R1 又开先例,成为首个登上《N😁ature》封面的中国大模型。 2025 年春节,De🚀epSeek-R1 横空出世,因其极低的训练成本引发病毒式传😂播。八个月过去,这一成果带着 Nature 的金字招牌再次回⭐到公众视野中央,只为一件事:技术透明。 这篇名为 De🙌epSeek-R1 incentivizes reasoni❤️ng in LLMs through reinforceme🔥nt learning 的《Nature》 封面论文由创始人🤯梁文锋担任通讯作者。文中首次确认了此前流传的DeepSeek👏 R1 训练成本,约 29.4 万美元,折合人民币约 208👍 万,并进一步披露了模型训练中采用的数据类型、强化学习方案等🤗技术细节。 在揭开这一里程碑式大模型的面纱之外,这篇论🤯文更大的意义,是 DeepSeek-R1 作为全球首个经历了🤔同行评审的大语言模型,将大模型研究推向了更透明、可重复的方向🤩。 此前业内通行的做法,是科技公司在自家官网、论文预印😴本网站 arXiv或知名技术论坛上发布突破性成果及基准测试分😂数,大部分模型 API 随后即向公众开放。这一过程绕开了传统❤️学术评价体系中的同行评审环节,而 DeepSeek 团队则主😀动接受了这一来自学术界的审视。 根据 《Nature》😅公布的补充信息显示,评审意见主要集中在实验评估、模型安全性和😘伦理风险等方面,要求补充 OOD(分布外)测试、中间阶段性能🎉分析、误用讨论等工作。正是针对上述同行评审意见,DeepSe😆ek 团队才增加了对数据类型等训练细节的披露,并进一步证明了🤩成果的安全性。 “这是一个非常值得欢迎的先例,“论文评💯审之一,Hugging Face 机器学习工程师 Lewis🌟 Tunstall 表示,”如果我们没有公开分享这一过程大部😴分内容的规范,那么将很难评估这些系统是否构成风险。“ 😘公开训练细节,回应“蒸馏”质疑 那么在最新版本的论文中😆, DeepSeek 团队都补充了 R1 的哪些训练细节呢?😀 首先是训练成本,此前曾震动华尔街的 29.4 万美元❤️数据终于得到证实。 据补充材料介绍, DeepSeek😍-R1 的研究工作分为三个阶段。 第一阶段使用 A10😡0 GPU 对 30B 参数的小模型进行实验预研,因结果表现💯良好,使团队有信心将规模扩大至 660B 参数的 R1-Ze👍ro 和 R1。 第二阶段的成果是 DeepSeek-😊R1-Zero,研究团队动用了 512 块 H800 GPU🎉,耗时约 198 小时。 最后是 DeepSeek-R🙄1,仍然采用 512 块 H800 GPU 的配置,但仅用时😂 80 小时便宣告完成。 在训练数据构成方面, Dee🙄pSeek-R1 采用了数学、编程、STEM、逻辑四大类题目🙌。 展开全文 其中数学数据集由 2.6 万道定量😢推理题构成,涵盖数学考试和竞赛题目,模型需逐步推理并给出最终🤯正确答案。 编程数据集由 1.7 万道算法竞赛题与 8👏 千道 Bug修复题构成,其中后者全部来自真实的GitHub🔥 issue,数据集提供问题描述、含缺陷源码与部分失败的单元😉测试,要求模型定位并修复缺陷,使代码通过全部测试。 S😊TEM 数据集由 2.2 万道选择题构成,覆盖物理、化学、生🚀物等学科,模型需选出最科学准确的答案。 逻辑数据集由真❤️实问题和合成问题共 1.5 万题构成。 此外 Deep🙄Seek 团队还引入了通用 RL 数据以提升 DeepSee🙌k-R1 的有用性与无害性。在训练过程中,研究人员采用了两个🚀独立训练的奖励模型,一个针对“有用”排序数据训练,涵盖创意写❤️作、编辑、事实问答等领域的 6.6万题,一个针对“无害”排序🔥数据训练,由1.2 万题构成。 特别值得一提的是,在最⭐新版论文中,DeepSeek 团队正面回应了此前关于 R1 😅蒸馏 OpenAI 模型的质疑。 研究团队专门为此设计💯了一项试验,使用 Qwen2-7B 作为基础模型时,通过大规👏模强化学习进行训练,该模型同样可以自主发展出各种先进推理策略😊。而 Qwen2-7B 的发布时间为 2024 年 6 月,😀显然早于所有公开的推理模型。蒸无可蒸,推理能力的优化自然源于🌟 DeepSeek-R1 开创的强化学习方法。 Dee🤗pSeek-R1 的另一大特征是在推理过程中更频繁地使用“我❤️”和“我们”等第一人称代词。值得一提的是,这种效果是通过精心🤯设计的冷启动数据所实现。 论文中介绍,研究团队发现当推😀理过程符合第一人称视角的思维模式时,用户会认为其回应更直观且😢具有吸引力。为此,研究团队要求标注人员将推理轨迹转换为更自然😆、更贴近人类对话风格的表达,并以此作为示例提示大语言模型以类🚀似风格重写更多。 在如此收集到的数千条 CoT 数据中🤩进一步筛选出最终答案正确且格式清晰的,就得到了简洁、可读性强😘,既包含推理步骤,也涵盖最终结果的高质量冷启动数据。 ❤️双重里程碑 时隔八个月再次回顾,DeepSeek-R1😘 因何成为大模型史上里程碑式的论文? 有一部分答案藏在😊训练成本里。DeepSeek-R1 29.4 万美元的训练成🚀本不仅只有当时同等规模模型的十分之一,而且其中仅有 1 万美😍元被用于构建 SFT 数据集。这意味和同行相比,它背后砍掉了❤️大规模的监督微调。 属于人类的能力,也向人类学习,监督🎉微调曾经是提升模型推理能力的共识。但它的局限性也很明显,对人😂类标注推理轨迹的依赖显著增加了模型训练成本,限制了可扩展性,🤔人类的认知偏见也在向模型渗透。 更引人深思的问题是,复🙌制人类思维过程真的是硅基推理的最优解吗?是否存在一种更优越的🙌、非人类思维的推理方式?如果答案是肯定的,那一定在人类示例之🚀外。 正是在这样的背景下,DeepSeek-R1 提出👏了一种通过纯粹强化学习实现推理能力自我进化发展的路径,以摆脱😉对人工标注推理轨迹的依赖。 具体而言,研究团队基于 D😘eepSeek-V3 base,并使用组相对策略优化(GRP😉O)作为强化学习框架。在全新的训练范式下,仅对最终答案的正确😉性进行奖励,而不对推理过程本身施加约束。简单来说,就是推理方😅式不限,能抓到耗子就是好猫。 这种训练方案设计和研究团🎉队的假设一脉相承:人类定义的推理模式可能会限制模型探索,而不❤️受限制的强化学习训练能更好地激励 LLMs 中新型推理能力的😆出现。 实验结果表明,DeepSeek-R1-Zero👍 的确自然地发展出了多样化和复杂的推理行为。为解决推理问题,🙌它表现出了生成更长响应的倾向,并且存在在每个响应中包含验证、👍反思和探索替代方法的趋势。 “尽管我们没有明确地教模型🙄如何推理,但它通过强化学习成功学习了改进的推理策略。”论文指🔥出。 展现出强大推理能力的同时,DeepSeek-R1😡-Zero 在可读性差和语言混杂等方面仍存在挑战。这一问题的🚀根源在于 DeepSeek-V3 base 是在多种语言上完😘成训练,为此 DeepSeek-R1 的开发被提上日程。 😡 这一次,研究团队不仅通过多阶段强化学习训练改进模型在对话🤗式推理过程、语言一致性以及人类偏好对齐方面的表现,而且在拒绝👍采样和监督微调环节将推理和非推理数据集都纳入 SFT 过程,😘这一设计使 DeepSeek-R1 不仅能在推理任务中表现出😡色,还展示出了高级的写作能力。 基准测试结果显示,脱胎🤩于全新训练范式下的 DeepSeek-R1 在 MMLU、C😍-eval、GPQA Diamond、Arena-Hard、😜SWE-bench Verified、AIME 2024 上🚀均表现出色。而更直接的例子,则是在 2025 年春节之后的一😢段时间里,DeepSeek-R1 几乎成为了国产大模型的代名😍词。 LLMs 的推理能力可以通过纯 RL 进行激励,😁无需人工标注推理轨迹的参与。这一今天已成为共识的创想,最初就🎉是经由 DeepSeek-R1 所实现。DeepSeek 团😴队在此基础上构建的 RL 框架,也促进了自我反思、验证和动态😁策略适应等高级推理模式的涌现。 而今天,这一突破性成果😴经受住了学术出版审查。主动接受专家评审的拷问,补充材料说明技😢术细节,并最终作为顶刊封面论文刊发……如果说 DeepSee🤗k-R1 的初次发布是一个关于前沿技术突破的故事,那么时隔八😊个月之后,这个故事的关键词变成了学术透明和技术开放。 😡补充各种技术细节之后,《Nature》最新这篇封面论文堪称“🥳手把手教你训 R1”。它让我们看到头部科技企业的核心成果不是😅只能封装成语焉不详的黑盒提供给用户,而是也可以拿到同行评审面🚀前接受审视,以及更重要的,给出符合学术规范的解释和回应。 🙌 商业化考量让 OpenAI、Google 等科技巨头纷纷🤯和传统的学术审查保持距离,这本无可非议,但是当 DeepSe😂ek-R1 真的成为了可复现、可验证的学术成果,这种对技术开🤗放性的追求无疑也让研究团队的选择更加可敬。 在双重意义😀上,DeepSeek-R1 都堪称里程碑。 参考资料:😂 https://www.nature.com/art😊icles/s41586-025-09422-z#ethic😆s https://www.nature.com/ar👏ticles/d41586-025-03015-6 雷🥳峰网文章返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
文 | 财能圈 文 | 财能圈 10月10日晚,娃哈哈集团确认了宗馥莉辞去法人代表、董事及董事长职务的消息,距其2024年8月正式接任董事长职务仅过去14个月。这并不是这位“饮料公主”第一次辞职,这已是宗馥莉一年内第二次提出辞职。 据界面新闻报道显示,宗馥莉的辞职申请已于9月12日提交,并通过了集团股东会和董事会的相关程序。 与2024年7月那次“以退为进”的辞职不同,此次她退得彻底,办公室的灯真的灭了,没有反击宣言,更没有股东挽留。 告别娃哈哈:一场早已注定的离别 宗馥莉首次辞职发生在2024年7月,距离宗庆后2月25日逝世不足150天。当时,宗馥莉在《致娃哈哈集团全体员工的函》中直言,杭州市上城区政府及部分股东对其经营管理的质疑,致其无法继续履职。 这场辞职风波在当年8月迎来反转,宗馥莉非但没有离开,反而接替宗庆后出任娃哈哈法定代表人、董事长兼总经理,完成名义上的权力交接。 相较首次“被迫离场”的离任,此次辞职则更为彻底。从“暂时离任”到“彻底退出”,一年间的两次辞职,折射出娃哈哈复杂股权格局下宗馥莉已无力掌控大局。 宗馥莉的辞职实为多重矛盾长期积累的必然结果,其内部困局主要源于三方面。 最直接的导火索是遗产诉讼困局。2025年7月,宗庆后三名非婚生子女以存在家族信托承诺为由,在香港与杭州同步提起诉讼,要求分割价值21亿美元的信托资产及娃哈哈29.4%股权。 尽管娃哈哈官方声称此为家族内部事务,但香港高院于9月26日驳回宗馥莉上诉请求,维持资产冻结禁令。18亿美元资金流动性受限直接冲击企业战略布局。 更棘手的是,这场纠纷暴露了宗庆后生前未厘清的股权传承漏洞,其预留的股权安排既未公证也未完成法律确权,为继任者埋下致命隐患。 股权结构的先天缺陷使宗馥莉陷入“有名无实”的困境。国资持股比例远超宗馥莉个人,而职工持股会背后则是追随宗庆后数十年的老臣群体。这种“混合控股+国资参与”的股权架构,令宗馥莉的每项改革都遭遇双重掣肘。 2025年初,她拟将估值911亿元的387件核心商标转至自有控股公司,因国资方质疑“涉嫌国有资产流失”被迫终止。推进生产线自动化升级时,又因职工持股会担忧影响就业而受阻。控制权与决策权的根本错位,注定其改革举步维艰。 内部改革引发的利益版图重构加速了离职进程。接任后,宗馥莉的系列举措直指娃哈哈沉疴,关停数十家弱关联分公司及低效生产线,清退年销售额过低的中小经销商。 这些本意为优化结构的举措,却撼动了盘根错节的利益网络,被关停企业多与家族关联方有染,清退经销商瓦解了宗庆后时代的“人情利益体”,管理层换血更令元老寝食难安。 展开全文 另立门户:宗馥莉的“战略性退却” 娃哈哈的股权结构自校企改制以来便十分复杂。公司的股权由三方持有:杭州上城区持股46%,宗庆后生前持股29.4%,公司基层工会持股24.6%。 这种“三国鼎立”的格局,使得任何重大决策都需多方博弈。国资代表往往更关注政策合规与稳定,职工持股会则倾向于维护既得利益与就业保障,宗馥莉所代表的创新与变革诉求在缺乏绝对话语权的情况下,极易陷入僵局。 宗馥莉的彻底退出,与其说是失败,不如解读为在既定框架内无法破局后的主动切割。 事实上,宗馥莉辞职前已修好“后路”,早已开始布局自己的“体外版图”,其控股的宏胜集团,在2025年年初就注册了“娃小宗”等46枚全品类商标,宗馥莉的“后娃哈哈”布局早已悄然展开。该公司旗下已陆续整合了她在饮料、包装、营销等领域的多个关联项目。 值得注意的是,宏胜优品旗下的饮料品牌“KellyOne”在高端水及定制化饮品市场表现亮眼,与娃哈哈的传统产品线形成了差异化竞争。 宗馥莉的宏胜系公司9月披露的文件显示,其已启动品牌切换预案,2026年起将全面启用“娃小宗”品牌替代原有商标。这种“体外孵化新品牌”的操作,既是对商标使用权受限的被动应对,也暗含着脱离旧体系束缚的战略考量。 宗馥莉的“战略性退却”或许不是败局,而是另一种开始。她手中握有的宏胜饮料集团已成为宗馥莉的新阵地,这里没有国资股东的掣肘,没有商标使用权的争议,也没有老臣的牵制。宏胜集团这一“体外帝国”,年营收超100亿的体量足以支撑“娃小宗”的培育。 此次辞职后,宗馥莉将全身心投入新平台的运营,其目标显然是打造一个完全由自己掌控、符合其商业理念的“新王国”。 未来走向:娃哈哈与宗馥莉的双重变局 宗馥莉的困境是中国家族企业传承困境的缩影。第一代企业家多靠“强人治理”和模糊的人情关系维系企业运转,这种模式在草莽创业期成效显著,但却给第二代留下了“接力”难题。即股权架构缺乏法律保障、职业经理人体系未建立、新旧战略难以衔接。 对比方太茅氏父子的“三三制”传承,通过“带三年、帮三年、看三年”的渐进式放权实现平稳过渡,美的何享健引入职业经理人方洪波的“控股不控权”模式,娃哈哈的传承显然缺乏提前规划。 宗庆后生前坚持的“三不原则”(不上市、不融资、不贷款)虽造就了企业早期的稳健,但也使其错失了建立现代企业制度的最佳时机。 对于娃哈哈而言,宗馥莉的离去留下了三大亟待解决的悬念。 其一,接班人选择直接决定企业走向,是从内部老臣中提拔,延续传统经营模式,还是引入外部职业经理人,推动市场化改革,亦或是等待家族矛盾平息后宗馥莉回归,都将影响这家民族企业的命运。 其二,品牌战略面临抉择。继续依赖“娃哈哈”这一国民IP,需平衡各方股东利益以解决商标使用权问题,若重新选择其他品牌,则要突破消费者情感壁垒和农夫山泉等巨头的围剿。 其三,经销商与员工信心的重建迫在眉睫,2025年销量已降至去年同期的80%,如何修复渠道关系、化解老员工不满,是维持企业基本盘的关键。 宗馥莉的辞职,标志着娃哈哈正式步入“后宗时代”,这也将同时重塑娃哈哈的发展轨迹与行业格局。对宗馥莉而言,这或许是卸下重担的开始,离开娃哈哈的围城,或许才能找到真正的自己。返回搜狐,查看更多
推荐阅读
成都蜀蓉意食品有限公司成立 注册资本1000万人民币
9580
成都市龙泉驿区宣奂秋烘焙店(个体工商户)成立 注册资本0.5万人民币
3249
四川蔡奋斗食品有限公司成立 注册资本50万人民币
2082
成都食源匠心食品科技有限公司成立 注册资本50万人民币
1167
成都加恒睿科技有限公司成立 注册资本1万人民币
4920
成都市时代速信半导体有限公司成立 注册资本1000万人民币
5039
蓬安县长歌科技通讯设备经营部(个体工商户)成立 注册资本50万人民币
4310
原力芯半导体(成都)有限责任公司成立 注册资本100万人民币
4438
河池市金城江区国城建筑材料经营部(个体工商户)成立 注册资本5万人民币
8828
FreeBSD 15.0首个测试版发布,带来 ZFS 更新与 TCP LRO 性能改进
1354
苹果 2025 款 M5 iPad Pro 现身 AT&T 官网,即将开启预购
3488
澳航承认570万客户隐私数据遭泄露,美国公司 Salesforce“背锅”
5323
北京网信办处置5.7万余个发布不实信息自媒体账号,典型案例公布
7340
深圳:无人机日均运输快件达 2 万票,无人车日均快件处理 7 万票
6770
《时代》年度最佳发明公布:追觅 X50 Ultra 成全球唯一上榜扫地机
4482
鸿蒙5连续9天送10元优惠券,右滑桌面领福利吃喝玩乐都能用
2880
黄金周来了,为什么10亿人出门导航不再仅是“认路”?
3407
波点艺术邂逅强劲性能,WIKO Hi MateBook 14 酷睿版开售,国补到手4799元起!
3886
特别策划 | 中国卓越管理企业的案例:海信视像的科技深耕与坚守
4826
深圳湾又多了一个新地标:荣耀阿尔法全球旗舰店
2338
Claude断供风波后,是什么让中国企业躲过一劫?
1892