DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI
吃瓜电子官网最新热点:DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI
更新时间: 浏览次数:5070
雷峰网讯 DeepSeek-R1 又开先例,成为首个登上《N🔥ature》封面的中国大模型。 2025 年春节,De😆epSeek-R1 横空出世,因其极低的训练成本引发病毒式传👏播。八个月过去,这一成果带着 Nature 的金字招牌再次回😡到公众视野中央,只为一件事:技术透明。 这篇名为 De👏epSeek-R1 incentivizes reasoni😢ng in LLMs through reinforceme🤯nt learning 的《Nature》 封面论文由创始人🔥梁文锋担任通讯作者。文中首次确认了此前流传的DeepSeek🌟 R1 训练成本,约 29.4 万美元,折合人民币约 208🔥 万,并进一步披露了模型训练中采用的数据类型、强化学习方案等🌟技术细节。 在揭开这一里程碑式大模型的面纱之外,这篇论🤯文更大的意义,是 DeepSeek-R1 作为全球首个经历了🤩同行评审的大语言模型,将大模型研究推向了更透明、可重复的方向😍。 此前业内通行的做法,是科技公司在自家官网、论文预印😜本网站 arXiv或知名技术论坛上发布突破性成果及基准测试分😀数,大部分模型 API 随后即向公众开放。这一过程绕开了传统👏学术评价体系中的同行评审环节,而 DeepSeek 团队则主🎉动接受了这一来自学术界的审视。 根据 《Nature》🎉公布的补充信息显示,评审意见主要集中在实验评估、模型安全性和😅伦理风险等方面,要求补充 OOD(分布外)测试、中间阶段性能🙌分析、误用讨论等工作。正是针对上述同行评审意见,DeepSe😉ek 团队才增加了对数据类型等训练细节的披露,并进一步证明了🤩成果的安全性。 “这是一个非常值得欢迎的先例,“论文评😎审之一,Hugging Face 机器学习工程师 Lewis❤️ Tunstall 表示,”如果我们没有公开分享这一过程大部👏分内容的规范,那么将很难评估这些系统是否构成风险。“ 😘公开训练细节,回应“蒸馏”质疑 那么在最新版本的论文中😎, DeepSeek 团队都补充了 R1 的哪些训练细节呢?😁 首先是训练成本,此前曾震动华尔街的 29.4 万美元🙄数据终于得到证实。 据补充材料介绍, DeepSeek🥳-R1 的研究工作分为三个阶段。 第一阶段使用 A10⭐0 GPU 对 30B 参数的小模型进行实验预研,因结果表现😍良好,使团队有信心将规模扩大至 660B 参数的 R1-Ze😆ro 和 R1。 第二阶段的成果是 DeepSeek-😢R1-Zero,研究团队动用了 512 块 H800 GPU😆,耗时约 198 小时。 最后是 DeepSeek-R😡1,仍然采用 512 块 H800 GPU 的配置,但仅用时💯 80 小时便宣告完成。 在训练数据构成方面, Dee❤️pSeek-R1 采用了数学、编程、STEM、逻辑四大类题目😉。 展开全文 其中数学数据集由 2.6 万道定量😍推理题构成,涵盖数学考试和竞赛题目,模型需逐步推理并给出最终🥳正确答案。 编程数据集由 1.7 万道算法竞赛题与 8😁 千道 Bug修复题构成,其中后者全部来自真实的GitHub❤️ issue,数据集提供问题描述、含缺陷源码与部分失败的单元💯测试,要求模型定位并修复缺陷,使代码通过全部测试。 S🚀TEM 数据集由 2.2 万道选择题构成,覆盖物理、化学、生⭐物等学科,模型需选出最科学准确的答案。 逻辑数据集由真🎉实问题和合成问题共 1.5 万题构成。 此外 Deep😘Seek 团队还引入了通用 RL 数据以提升 DeepSee😎k-R1 的有用性与无害性。在训练过程中,研究人员采用了两个⭐独立训练的奖励模型,一个针对“有用”排序数据训练,涵盖创意写😊作、编辑、事实问答等领域的 6.6万题,一个针对“无害”排序😘数据训练,由1.2 万题构成。 特别值得一提的是,在最⭐新版论文中,DeepSeek 团队正面回应了此前关于 R1 😉蒸馏 OpenAI 模型的质疑。 研究团队专门为此设计🤯了一项试验,使用 Qwen2-7B 作为基础模型时,通过大规🚀模强化学习进行训练,该模型同样可以自主发展出各种先进推理策略😀。而 Qwen2-7B 的发布时间为 2024 年 6 月,😍显然早于所有公开的推理模型。蒸无可蒸,推理能力的优化自然源于💯 DeepSeek-R1 开创的强化学习方法。 Dee😅pSeek-R1 的另一大特征是在推理过程中更频繁地使用“我😘”和“我们”等第一人称代词。值得一提的是,这种效果是通过精心😘设计的冷启动数据所实现。 论文中介绍,研究团队发现当推😁理过程符合第一人称视角的思维模式时,用户会认为其回应更直观且😁具有吸引力。为此,研究团队要求标注人员将推理轨迹转换为更自然😡、更贴近人类对话风格的表达,并以此作为示例提示大语言模型以类💯似风格重写更多。 在如此收集到的数千条 CoT 数据中👏进一步筛选出最终答案正确且格式清晰的,就得到了简洁、可读性强🔥,既包含推理步骤,也涵盖最终结果的高质量冷启动数据。 😡双重里程碑 时隔八个月再次回顾,DeepSeek-R1🙄 因何成为大模型史上里程碑式的论文? 有一部分答案藏在⭐训练成本里。DeepSeek-R1 29.4 万美元的训练成🌟本不仅只有当时同等规模模型的十分之一,而且其中仅有 1 万美😢元被用于构建 SFT 数据集。这意味和同行相比,它背后砍掉了❤️大规模的监督微调。 属于人类的能力,也向人类学习,监督🎉微调曾经是提升模型推理能力的共识。但它的局限性也很明显,对人😍类标注推理轨迹的依赖显著增加了模型训练成本,限制了可扩展性,😴人类的认知偏见也在向模型渗透。 更引人深思的问题是,复😊制人类思维过程真的是硅基推理的最优解吗?是否存在一种更优越的😅、非人类思维的推理方式?如果答案是肯定的,那一定在人类示例之😆外。 正是在这样的背景下,DeepSeek-R1 提出😊了一种通过纯粹强化学习实现推理能力自我进化发展的路径,以摆脱😆对人工标注推理轨迹的依赖。 具体而言,研究团队基于 D😂eepSeek-V3 base,并使用组相对策略优化(GRP💯O)作为强化学习框架。在全新的训练范式下,仅对最终答案的正确😡性进行奖励,而不对推理过程本身施加约束。简单来说,就是推理方🎉式不限,能抓到耗子就是好猫。 这种训练方案设计和研究团🥳队的假设一脉相承:人类定义的推理模式可能会限制模型探索,而不🙌受限制的强化学习训练能更好地激励 LLMs 中新型推理能力的👍出现。 实验结果表明,DeepSeek-R1-Zero😘 的确自然地发展出了多样化和复杂的推理行为。为解决推理问题,❤️它表现出了生成更长响应的倾向,并且存在在每个响应中包含验证、😘反思和探索替代方法的趋势。 “尽管我们没有明确地教模型🙌如何推理,但它通过强化学习成功学习了改进的推理策略。”论文指😘出。 展现出强大推理能力的同时,DeepSeek-R1😴-Zero 在可读性差和语言混杂等方面仍存在挑战。这一问题的💯根源在于 DeepSeek-V3 base 是在多种语言上完🎉成训练,为此 DeepSeek-R1 的开发被提上日程。 😂 这一次,研究团队不仅通过多阶段强化学习训练改进模型在对话🙄式推理过程、语言一致性以及人类偏好对齐方面的表现,而且在拒绝🔥采样和监督微调环节将推理和非推理数据集都纳入 SFT 过程,😉这一设计使 DeepSeek-R1 不仅能在推理任务中表现出🤯色,还展示出了高级的写作能力。 基准测试结果显示,脱胎😎于全新训练范式下的 DeepSeek-R1 在 MMLU、C🚀-eval、GPQA Diamond、Arena-Hard、💯SWE-bench Verified、AIME 2024 上⭐均表现出色。而更直接的例子,则是在 2025 年春节之后的一🚀段时间里,DeepSeek-R1 几乎成为了国产大模型的代名😍词。 LLMs 的推理能力可以通过纯 RL 进行激励,🥳无需人工标注推理轨迹的参与。这一今天已成为共识的创想,最初就😢是经由 DeepSeek-R1 所实现。DeepSeek 团😴队在此基础上构建的 RL 框架,也促进了自我反思、验证和动态😂策略适应等高级推理模式的涌现。 而今天,这一突破性成果😴经受住了学术出版审查。主动接受专家评审的拷问,补充材料说明技😁术细节,并最终作为顶刊封面论文刊发……如果说 DeepSee😴k-R1 的初次发布是一个关于前沿技术突破的故事,那么时隔八😆个月之后,这个故事的关键词变成了学术透明和技术开放。 🎉补充各种技术细节之后,《Nature》最新这篇封面论文堪称“👏手把手教你训 R1”。它让我们看到头部科技企业的核心成果不是🌟只能封装成语焉不详的黑盒提供给用户,而是也可以拿到同行评审面😀前接受审视,以及更重要的,给出符合学术规范的解释和回应。 😉 商业化考量让 OpenAI、Google 等科技巨头纷纷😎和传统的学术审查保持距离,这本无可非议,但是当 DeepSe😆ek-R1 真的成为了可复现、可验证的学术成果,这种对技术开😎放性的追求无疑也让研究团队的选择更加可敬。 在双重意义🤩上,DeepSeek-R1 都堪称里程碑。 参考资料:💯 https://www.nature.com/art😢icles/s41586-025-09422-z#ethic👍s https://www.nature.com/ar😊ticles/d41586-025-03015-6 雷😘峰网文章返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
文 | 晓枫说 文 | 晓枫说 在全球气候治理与😴能源革命的双重浪潮下,海运业这条全球贸易的“动脉”——正经历🌟一场静默却深刻的革命。 IMO数据显示,航运业约占全球🙌温室气体排放量的2.89%,其脱碳进程直接关乎《巴黎协定》目⭐标的实现。随着碳强度指标(CII)、欧盟排放交易体系(ETS😀)从政策蓝图转化为实际成本,一场围绕技术路线、运营模式与商业🤯逻辑的全面竞赛已然拉开帷幕。在这场全球性的转型中,以ABB、😀瓦锡兰为代表的国际技术提供商,以中国船舶集团、中远海运等中国💯领军企业及众多中小创新型科技企业,共同勾勒着“全船电气化”为❤️血脉、“系统智能化”为神经的未来船舶蓝图。这幅跨国产学研协同🙌绘制的蓝图描绘了清晰的愿景,但其落地之路却布满需要全球行业共😉同应对的复杂挑战。 一、系统重构:电气化是底层逻辑变革🤗,而非简单动力替换 事实上,行业认知正经历一个深化的过🙌程——船舶电气化的核心,并非仅是安装一套电池组那么简单,其本🙄质是从“机械驱动”向“电力驱动”的范式转移,是对船舶能源分配🚀与推进系统的彻底重构。 在这一领域,东西方的技术路径呈🤯现出有趣的对比与融合。ABB力推的车载直流电网(DC Gri😢d)概念,与西门子能源的直流港口方案、瓦锡兰的混合动力解决方💯案等代表了欧洲的技术思路,其核心优势在于构建了一个高度集成化🤗的“能源平台”。相较于传统交流电系统,直流电网能减少高达10😉-20%的能源转换损耗,并显著节省设备空间与重量。更重要的是🤯,它作为一个开放的架构,能够灵活兼容当前的锂离子电池、正在兴🙌起的甲醇/氨燃料电池以及未来的新型储能技术。这种设计哲学,为😅船东提供了至关重要的“技术中立性”和“面向未来”的弹性,有效😂规避了因过早押注单一绿色燃料技术而导致的资产搁浅风险。 😉 视线回到国内,中国船舶集团在高端邮轮、大型液化天然气(LN👏G)船等领域展现的系统集成能力,以及宁德时代在船舶用锂离子电😉池、钠离子电池方面的技术创新,则体现了中国在产业链中后端的快😊速追赶。特别是宁德时代针对内河航运推出的“船舶动力电池系统”😁,已应用于长江流域等多艘电动船舶,展示了中国在特定应用场景下😘的市场化突破。 市场的选择清晰地揭示了现实的转型路径。😡根据挪威船级社(DNV)的统计,混合动力方案在新造船与改装船🎉市场中占据重要地位。这反映了行业在理想与现实间的权衡:混合动👍力作为关键的过渡技术,允许船舶在排放控制区(ECAs)和港口👍内实现“零排放”静音航行,以满足局部最严苛的法规并提升企业C😢SR形象,同时在开阔水域依靠主发电机保障续航与经济性。中远海😎运集团在旗下多艘大型集装箱船上实施的混合动力系统改造项目,正🥳是这种务实路径的体现——通过在现有船队上进行技术升级,而非全👍部新建,以更具经济性的方式推进减排。 然而,技术的先进😂性无法自动跨越经济的鸿沟。核心挑战在于,这套系统重构所带来的🤩高昂初始资本支出。一艘采用先进直流电网和电池系统的新造船,其🙄建造成本可能比传统船舶高出20%-40%,绿色溢价最终需要在😆整个价值链中被消化。这催生了新的商业合作模式,例如一些航运公🤔司开始与货主签订包含“绿色溢价”的长期运输合同,或寻求绿色金🙌融的支持。技术的普及速度,将不取决于其技术指标的巅峰,而取决😘于其全生命周期成本的竞争力。在这方面,中国银行、进出口银行等😆金融机构对绿色船舶提供的优惠利率贷款,以及一些中国船厂推出的😢“能源管理合同”模式,正在尝试通过金融创新来降低技术应用的门🥳槛。这种技术+金融的整体解决方案,可能成为推动技术普及的重要😀助力。 展开全文 二、从自动化到自主化:数据驱动🥳运营模式的范式转移 智能化是脱碳的另一大支柱,其价值远🔥超节省人力,其终极目标是通过数据驱动,实现全局能效最优和运营😡模式的重塑。 趋势正从“单船自动化”迈向“船岸一体化智🎉能运营”。ABB Ability™、瓦锡兰的船舶效能管理系统😁(EMS)等代表了西方公司在软件平台和系统集成方面的传统优势🚀。这意味着,传统的船长和轮机长角色正在演变,他们与岸上的专家😍团队共同构成一个“数字船队”的运营中枢。这种模式不仅能优化单😂船航速、航线以减少燃油消耗(据估计可带来5-10%的能效提升🙄),更能实现预测性维护,大幅降低故障停航风险。而中国公司则从🙌不同维度切入:华为的5G技术、船载通信模块和云服务正在为智能😡航运提供数字基础设施;上海国际港务集团打造的“智慧港口”系统😴,通过优化船舶在港口的作业效率,间接减少了船舶的等待时间和排⭐放;而国内诸如百舸新能这样的众多中小创新型企业,也在围绕船岸😁一体模式、新能源动力系统等加快研发和产业化进程。 在自❤️主航行这一前沿领域,西方公司如康士伯与Yara合作的“Yar😍a Birkeland”项目引人注目,而中国的进展同样值得关💯注。交通运输部水运科学研究院牵头制定的智能船舶技术标准,青岛🙄无人船基地的测试验证平台,以及系统科技有限公司等企业在自主避😍碰、智能靠离泊等关键技术上的突破,显示中国正在构建自主可控的🔥技术体系。特别是中船重工第716研究所开发的“船海智云”工业👏互联网平台,已应用于数百艘船舶,实现了设备健康管理、能效优化😂等功能的国产化替代。 然而,这片“新蓝海”也充满了“暗👏礁”。 一是法规与责任的空白。当智能系统做出决策导致事😅故时,法律责任的界定是全球监管机构面临的崭新课题。IMO正在🤔制定的《海上自主水面船舶(MASS)规则》进展谨慎,便反映了😡这一复杂性。而中国机构和企业也正积极参与相关国际标准的制定,🤩这种技术标准话语权的竞争,其重要性不亚于技术本身的竞争。 🤩 二是网络安全的致命脆弱性。高度互联的船舶使其成为网络攻击⭐的高价值目标,2020年某大型集装箱航运公司遭遇的网络攻击导🤔致全球业务中断,已为全行业敲响警钟。 三是人机协作的挑😢战。船员角色将从操作者转变为系统管理者和监督者,这一转型需要❤️体系化的培训和文化适应,对航海教育体系提出了全新要求。 🙌 三、脱碳的终极拷问:绿色燃料的抉择与全球基础设施的协同 🤗 领先的电气化平台解决了绿色能源的输送和分配问题,但最根本🔥的挑战在于——绿色能源本身从何而来?这引出了脱碳征程中最具争😊议和不确定性的领域。 目前,液化天然气(LNG)、甲醇🤔、氨、氢等选项构成了一个充满竞争的“燃料罗生门”。马士基巨资😁投入绿色甲醇船舶,中远海运集团积极探索氨燃料动力技术,而一些😜欧洲船东则看好LNG的过渡作用,每一种选择都面临“Well-👏to-Wake”(从油井到螺旋桨)全生命周期碳排放的严格审视😆。因此,船舶电气化系统的真正绿色成色,最终取决于为其供电的能🙄源来源是否在全生命周期内真正清洁。 更深层次的矛盾是“🌟鸡与蛋”的全球基础设施困局。船东不愿投资某类绿色燃料动力船,🙌因为全球加注网络几乎为空白;能源公司不愿投资数百亿美元建设全🤯球加注站,因为市场上对应的船舶数量不足。破解这一死结,单靠市😍场力量远远不够。 在这方面,中国依托其强大的基建能力,😊在国内长江流域、珠江三角洲等内河航道沿线加快建设船舶充电、加🤗注设施,这种“先内河、后沿海、再远洋”的渐进式基础设施布局策😆略,为技术验证和商业模式探索提供了宝贵的试验场。然而,要将这⭐种国内经验复制到全球航线网络,仍面临巨大的投融资和国际协作挑🙄战,亟需强有力的国际政策协调(如全球性碳税机制)、巨额的基础❤️设施投资以及形成行业共识的标准体系。这已超越技术范畴,成为对🔥全球治理智慧的考验。 然而,我们必须清醒地认识到,技术😡方案的成熟只是漫长征程的起点。未来的成功将不取决于任何单一国⭐家或公司的技术突破,而取决于整个全球生态系统的协同进化,比如🚀技术路径的多元化与融合,能否形成尊重不同国家、不同航线条件下😀的技术选择,促进东西方技术方案的交流互鉴,而非形成新的技术壁🙌垒;比如商业模式的创新与共赢,能否建立合理分摊绿色溢价、覆盖😀全生命周期成本的商业模式,确保发达国家和发展中国家的船东都能😊"用得起"绿色技术;再比如治理体系的包容性与有效性,在IMO😴等多边框架下,能否构建平衡环保雄心、技术可行性和经济承受力的🎉国际规则,等等。 可以说,未来十年,海运业这艘巨轮将航😂行在技术的“星辰大海”与现实的“惊涛骇浪”之间。这场转型,既💯是对人类工程智慧的考验,更是对全球合作精神与商业创新能力的终🚀极测验。唯有产业链上下同舟共济,方能在可持续发展的航道上行稳⭐致远。返回搜狐,查看更多
推荐阅读
银行免费短信正在消失 业内:成本控制与数字服务升级的必然选择
7416
“证券教父”管金生去世:曾折戟“327国债” 69岁再创业
8871
从路灯到芯片!时空科技拟收购存储大厂嘉合劲威控股权,四年累亏7亿元谋转型
6869
刚遭法院强平,科恒股份股东万国江拟再减持不超276万股,或套现近4000万元
1582
晨会观点速递:10月成长占优有望延续,关注景气行业
1454
违反预付卡业务管理规定,南京市市民卡支付被罚8.5万元
3729
深圳机场今年通关突破500万
3937
东海基金副总离任
9825
果麦文化应声跌停
5592
上证指数时隔10年再上3900点
8898
9月份私募调研 青睐电子和机械
9356
保利发展卖房居首
7857
深圳市龙岗区城市更新和土地整备局关于平湖街道鹅公岭社区居住片区等5个城市更新单元计划调整的补充公告
9276
十五运1522米深海采“源火”
3011
光明双节接待游客逾70万
5129
“Amazing龙华”火出圈
7250
深图成为文化打卡热门地
4587
东鹏饮料赴港IPO
7879
深圳假日经济为何“旺丁更旺财”
2840
深圳消费活力领跑粤港澳大湾区
7868
中海地产拿地第一
1195