DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI
吃瓜电子官网最新热点:DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI
更新时间: 浏览次数:6055
雷峰网讯 DeepSeek-R1 又开先例,成为首个登上《N⭐ature》封面的中国大模型。 2025 年春节,De😆epSeek-R1 横空出世,因其极低的训练成本引发病毒式传🤩播。八个月过去,这一成果带着 Nature 的金字招牌再次回❤️到公众视野中央,只为一件事:技术透明。 这篇名为 De🤗epSeek-R1 incentivizes reasoni😁ng in LLMs through reinforceme🤔nt learning 的《Nature》 封面论文由创始人😘梁文锋担任通讯作者。文中首次确认了此前流传的DeepSeek🤯 R1 训练成本,约 29.4 万美元,折合人民币约 208😂 万,并进一步披露了模型训练中采用的数据类型、强化学习方案等😎技术细节。 在揭开这一里程碑式大模型的面纱之外,这篇论🤩文更大的意义,是 DeepSeek-R1 作为全球首个经历了🔥同行评审的大语言模型,将大模型研究推向了更透明、可重复的方向😉。 此前业内通行的做法,是科技公司在自家官网、论文预印👍本网站 arXiv或知名技术论坛上发布突破性成果及基准测试分👍数,大部分模型 API 随后即向公众开放。这一过程绕开了传统🤗学术评价体系中的同行评审环节,而 DeepSeek 团队则主😂动接受了这一来自学术界的审视。 根据 《Nature》🤔公布的补充信息显示,评审意见主要集中在实验评估、模型安全性和🙄伦理风险等方面,要求补充 OOD(分布外)测试、中间阶段性能😘分析、误用讨论等工作。正是针对上述同行评审意见,DeepSe😢ek 团队才增加了对数据类型等训练细节的披露,并进一步证明了🙄成果的安全性。 “这是一个非常值得欢迎的先例,“论文评⭐审之一,Hugging Face 机器学习工程师 Lewis😁 Tunstall 表示,”如果我们没有公开分享这一过程大部🙄分内容的规范,那么将很难评估这些系统是否构成风险。“ 🔥公开训练细节,回应“蒸馏”质疑 那么在最新版本的论文中🥳, DeepSeek 团队都补充了 R1 的哪些训练细节呢?😎 首先是训练成本,此前曾震动华尔街的 29.4 万美元🤔数据终于得到证实。 据补充材料介绍, DeepSeek😉-R1 的研究工作分为三个阶段。 第一阶段使用 A10🤗0 GPU 对 30B 参数的小模型进行实验预研,因结果表现🤗良好,使团队有信心将规模扩大至 660B 参数的 R1-Ze💯ro 和 R1。 第二阶段的成果是 DeepSeek-😡R1-Zero,研究团队动用了 512 块 H800 GPU😂,耗时约 198 小时。 最后是 DeepSeek-R😍1,仍然采用 512 块 H800 GPU 的配置,但仅用时😀 80 小时便宣告完成。 在训练数据构成方面, Dee🤔pSeek-R1 采用了数学、编程、STEM、逻辑四大类题目😊。 展开全文 其中数学数据集由 2.6 万道定量🤗推理题构成,涵盖数学考试和竞赛题目,模型需逐步推理并给出最终😅正确答案。 编程数据集由 1.7 万道算法竞赛题与 8😊 千道 Bug修复题构成,其中后者全部来自真实的GitHub😘 issue,数据集提供问题描述、含缺陷源码与部分失败的单元😉测试,要求模型定位并修复缺陷,使代码通过全部测试。 S😊TEM 数据集由 2.2 万道选择题构成,覆盖物理、化学、生👍物等学科,模型需选出最科学准确的答案。 逻辑数据集由真👏实问题和合成问题共 1.5 万题构成。 此外 Deep😀Seek 团队还引入了通用 RL 数据以提升 DeepSee😀k-R1 的有用性与无害性。在训练过程中,研究人员采用了两个🤩独立训练的奖励模型,一个针对“有用”排序数据训练,涵盖创意写🤔作、编辑、事实问答等领域的 6.6万题,一个针对“无害”排序🤯数据训练,由1.2 万题构成。 特别值得一提的是,在最😴新版论文中,DeepSeek 团队正面回应了此前关于 R1 😂蒸馏 OpenAI 模型的质疑。 研究团队专门为此设计👍了一项试验,使用 Qwen2-7B 作为基础模型时,通过大规🌟模强化学习进行训练,该模型同样可以自主发展出各种先进推理策略😴。而 Qwen2-7B 的发布时间为 2024 年 6 月,🤩显然早于所有公开的推理模型。蒸无可蒸,推理能力的优化自然源于😴 DeepSeek-R1 开创的强化学习方法。 Dee😢pSeek-R1 的另一大特征是在推理过程中更频繁地使用“我😎”和“我们”等第一人称代词。值得一提的是,这种效果是通过精心😘设计的冷启动数据所实现。 论文中介绍,研究团队发现当推😢理过程符合第一人称视角的思维模式时,用户会认为其回应更直观且😍具有吸引力。为此,研究团队要求标注人员将推理轨迹转换为更自然❤️、更贴近人类对话风格的表达,并以此作为示例提示大语言模型以类😘似风格重写更多。 在如此收集到的数千条 CoT 数据中😂进一步筛选出最终答案正确且格式清晰的,就得到了简洁、可读性强🙄,既包含推理步骤,也涵盖最终结果的高质量冷启动数据。 😎双重里程碑 时隔八个月再次回顾,DeepSeek-R1⭐ 因何成为大模型史上里程碑式的论文? 有一部分答案藏在😜训练成本里。DeepSeek-R1 29.4 万美元的训练成😘本不仅只有当时同等规模模型的十分之一,而且其中仅有 1 万美😘元被用于构建 SFT 数据集。这意味和同行相比,它背后砍掉了🙄大规模的监督微调。 属于人类的能力,也向人类学习,监督🔥微调曾经是提升模型推理能力的共识。但它的局限性也很明显,对人😂类标注推理轨迹的依赖显著增加了模型训练成本,限制了可扩展性,😉人类的认知偏见也在向模型渗透。 更引人深思的问题是,复🙄制人类思维过程真的是硅基推理的最优解吗?是否存在一种更优越的🥳、非人类思维的推理方式?如果答案是肯定的,那一定在人类示例之🤗外。 正是在这样的背景下,DeepSeek-R1 提出⭐了一种通过纯粹强化学习实现推理能力自我进化发展的路径,以摆脱🤔对人工标注推理轨迹的依赖。 具体而言,研究团队基于 D😜eepSeek-V3 base,并使用组相对策略优化(GRP😉O)作为强化学习框架。在全新的训练范式下,仅对最终答案的正确🤔性进行奖励,而不对推理过程本身施加约束。简单来说,就是推理方😴式不限,能抓到耗子就是好猫。 这种训练方案设计和研究团🤩队的假设一脉相承:人类定义的推理模式可能会限制模型探索,而不🌟受限制的强化学习训练能更好地激励 LLMs 中新型推理能力的😡出现。 实验结果表明,DeepSeek-R1-Zero👍 的确自然地发展出了多样化和复杂的推理行为。为解决推理问题,😎它表现出了生成更长响应的倾向,并且存在在每个响应中包含验证、🎉反思和探索替代方法的趋势。 “尽管我们没有明确地教模型🌟如何推理,但它通过强化学习成功学习了改进的推理策略。”论文指🤩出。 展现出强大推理能力的同时,DeepSeek-R1😉-Zero 在可读性差和语言混杂等方面仍存在挑战。这一问题的😁根源在于 DeepSeek-V3 base 是在多种语言上完😜成训练,为此 DeepSeek-R1 的开发被提上日程。 😂 这一次,研究团队不仅通过多阶段强化学习训练改进模型在对话😀式推理过程、语言一致性以及人类偏好对齐方面的表现,而且在拒绝🙌采样和监督微调环节将推理和非推理数据集都纳入 SFT 过程,😜这一设计使 DeepSeek-R1 不仅能在推理任务中表现出😜色,还展示出了高级的写作能力。 基准测试结果显示,脱胎⭐于全新训练范式下的 DeepSeek-R1 在 MMLU、C😍-eval、GPQA Diamond、Arena-Hard、⭐SWE-bench Verified、AIME 2024 上👏均表现出色。而更直接的例子,则是在 2025 年春节之后的一😀段时间里,DeepSeek-R1 几乎成为了国产大模型的代名👍词。 LLMs 的推理能力可以通过纯 RL 进行激励,🥳无需人工标注推理轨迹的参与。这一今天已成为共识的创想,最初就😎是经由 DeepSeek-R1 所实现。DeepSeek 团⭐队在此基础上构建的 RL 框架,也促进了自我反思、验证和动态😜策略适应等高级推理模式的涌现。 而今天,这一突破性成果🤩经受住了学术出版审查。主动接受专家评审的拷问,补充材料说明技🎉术细节,并最终作为顶刊封面论文刊发……如果说 DeepSee🔥k-R1 的初次发布是一个关于前沿技术突破的故事,那么时隔八😁个月之后,这个故事的关键词变成了学术透明和技术开放。 😎补充各种技术细节之后,《Nature》最新这篇封面论文堪称“🙌手把手教你训 R1”。它让我们看到头部科技企业的核心成果不是🚀只能封装成语焉不详的黑盒提供给用户,而是也可以拿到同行评审面😡前接受审视,以及更重要的,给出符合学术规范的解释和回应。 👍 商业化考量让 OpenAI、Google 等科技巨头纷纷❤️和传统的学术审查保持距离,这本无可非议,但是当 DeepSe🤔ek-R1 真的成为了可复现、可验证的学术成果,这种对技术开😡放性的追求无疑也让研究团队的选择更加可敬。 在双重意义🎉上,DeepSeek-R1 都堪称里程碑。 参考资料:😴 https://www.nature.com/art😅icles/s41586-025-09422-z#ethic⭐s https://www.nature.com/ar😍ticles/d41586-025-03015-6 雷⭐峰网文章返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
文 | 李倩说品牌 文 | 李倩说品牌 “做品牌😘”是一个人人都能说、快被说烂的事。这件事太容易被误解了,现实💯语境中,说起“做品牌”,常常是鸡同鸭讲,说的压根不是一回事儿🎉。 举个例子:我在一次CEO闭门讨论会上遇到一个高管,🔥当大家在讨论如何抓住新的内容平台做品牌时,他说:我觉得没有做😜品牌这回事,我们做企业本身就是在做品牌。你看,这就是典型的混😍淆概念了。 “做品牌”,很容易被误读,有两个比较常见的🙌说法: 一、“做品牌”= 好好“做企业”。 品牌🥳=企业,这种理解是把品牌这个词泛化和放大了,认为只要企业做得❤️好就等于品牌做得好。在这种理解视角下,品牌部门、品牌专业,甚🌟至品牌工作本身的存在,价值不大,甚至会觉得品牌部门“可有可无🥳”,品牌专业“没啥大用”,品牌工作就是“敲锣打鼓”。 💯我亲耳听过一家上市公司最大的事业部总经理说:做什么品牌,我们⭐业务部门做好了就有品牌,要什么品牌部门?! 二、“做品😴牌” = 做具体的“营销动作”。 品牌=营销动作,这种💯理解是把品牌这个词功能化了,认为品牌就是一种非常具体的动作,🙌比如做PR(公共关系)、做产品推广、做文案和设计等。这种理解🌟就像是你说“做人力资源”,别人理解成“招人”;你说“做行政”😅,别人理解成“前台接待”。 一旦这样理解“做品牌”,最😴大的后果就是:CEO立刻觉得这事太小了。你们品牌部门自己做做😍就行了,这点事不需要太耽误我的时间。 先明确一下,我今😅天说的"做品牌"不是说做企业,也不是做某个具体的营销动作。这🚀里的“做品牌”= 做企业关键信息的梳理和表达。 这种理🤔解下,品牌要先萃取总结,再营销表达,是一个信息梳理、内容生产😴、营销传递的过程。 如果一个企业,不能意识到做品牌究竟🤩意味着什么,它就无法真正进入到做品牌的过程中,也就无法拿到做🤩品牌带来的成果。要么陷入到“品牌无所谓”的轻视,要么进入到对😎一个具体的“活儿”的考核,漏掉了全局梳理管理的关键工作。 😜 咱们既不要蓄意放大它,也不要刻意缩小它。正常理解它,才能🤩做对做好它。 02 “做品牌”的四大核心议题 如🤩果你认可“做品牌”是值得投入的事,也认可上面所说,“做品牌”😆就是做信息的表达和内容的体验。好,我帮你说清楚“做品牌”都有🌟哪几大板块的工作。 实际上所有“做品牌”的工作,不外乎🚀这四大核心议题。你可以一边思考一边做个归类: 第一大品😢牌工作议题:【我是谁】 展开全文 众所周知的那些😀关于品牌定位、品牌战略、品牌特色、品牌名称、品类和产品、商业😀模式、定价策略、品牌渠道、品牌故事、品牌口号、品牌哲学、品牌😎VI、品牌理念、品牌安全、品牌管理规范、品牌CIS……这些满😎坑满谷的概念、工具,只要是关于说明品牌方自己信息的,都可以归😀到这一类【我是谁】的议题下。 很多时候你可能会被这些概🤔念搞得头昏脑涨,我想说:其实你不必理会这些故弄玄虚的概念,喜😎欢卖弄这些概念也不是什么有益的事情。 你可以把每一个概😴念都当做一个向你发起提问的记者,借助于它的提问,从不同角度,🎉帮你想清楚说清楚【我是谁】。 当然,如果觉得需要专业的🔥外部咨询顾问辅助你来想清楚、表达出来,也是很好的办法。 😘 但不管用什么办法,想清楚说清楚【我是谁】,都是第一重要的品🤔牌工作。这一点如果糊弄过去了,后面三件事绝不可能做好。 😢 我们遇到一些品牌,请我们帮忙直接做“品牌物料”,说已经把品🙌牌是谁的事都想清楚了,就差输出内容了。结果品牌中心轴十要素逐💯一细问下去,能回答上来的,不到三分之一。 【我是谁】要😀经得起方方面面角角落落的追问,才叫真正“说清楚”了。 😡看起来简单,但真正要做到“说清楚”并不容易,要花很多时间很大❤️力气,而只有那些真正有恒心塑造品牌的企业,才会在这件事上不惜🚀投入(主要是时间投入)。 后面我会持续分享这些年遇到的🌟那些在【我是谁】上真花过心思、获得市场奖励的好品牌。 👏第二大品牌工作议题【你是谁】 如果说【我是谁】是品牌对🌟自身的认清和表达,那么,【你是谁】,就是品牌对顾客的洞察和探🙄索。 这个大议题下包含的工作量也很大。既有时髦的所谓市🎉场调研、顾客画像、用户研究、痛点挖掘、顾客旅程、品牌触点等工🔥作,也有基于这些工作产生的内容形式、内容渠道、内容手法、内容😉调性等内容体验的整体策略。 说白了,【你是谁】是研究透😆顾客/受众,并基于这些研究去匹配内容策略的过程。 这个🚀议题处理得好,品牌营销的效率才能真的提上去,也许你会发现,看🔥清楚了【你是谁】之后,好多品牌动作压根就没必要做。 【👏你是谁】决定了一个品牌输出内容的策略,满世界越来越多的内容形👍式(图文、视频、音频、虚拟……)、内容渠道(媒体、门店、经销🤔、私域……),我们到底以什么内容渠道为主,以什么内容形式为主😀呢? 你看,如果人群、旅程和内容策略足够精准,是不是就😴能省掉很多事儿? 第三大品牌工作议题【我们的成果】 😁 光知道【我是谁】【你是谁】只是品牌展示的工作,最好的“做🤔品牌”一定要讲究“品效合一”,因此第三大品牌工作议题就是双方😡碰撞之后产生的【成果】。 没有【成果】的品牌工作,就是😜唱高调,耍流氓。 可能你要问:【成果】是不是就是说购买😡产生销量啊? 不全是。 品牌工作毕竟不只是销售工😊作。品牌工作不单单以“购买”作为评估成果的一个标志,除了购买⭐,还有其他三件事,也可以表示品牌的工作有了“成果”。 😂这三件事分别是:复购、连接、分享,再加上“购买”,一共四大成🤔果。 如果企业高质量完成了【我是谁】、【你是谁】,那么😎围绕着四大成果去反向设计品牌内容和运营动作,好的品牌工作,将🙄会不断提高这四方面的成果表现。 要么能让人直接拿钱投票😡(直接下单),要么能让人产生复购或转介绍(买了又买,劝别人买⭐),要么能让人产生和你主动连接的动作(点赞、投票、留言、UG😉C、参加活动、扣1、说话、到店……),要么能让人分享你的产品🙄和内容(转发、传播、拍照、举例、转告……)。 你看,如🥳果【我是谁】说得够清楚,【你是谁】做的够清楚,四大【成果】运🎉营得够极致,说得绝对一点,一个品牌的所有顾客/潜在顾客都至少👏可以满足购买、复购、连接、分享四大效果中的一项。 这,🎉才是最精准的品效合一。 第四大品牌工作议题【内容的效率🤗】 做到了成果,不意味着“做品牌”的工作就结束了。 😘 好的“做品牌”不仅要看“成果”,还要看“效率”。我们究竟🤩用了多长时间、多少投入、多大精力做到了这样的一个“成果”,这😉个过程是否可以不断优化?不断提高上述所有内容的生产效率? 🔥 这个过程中包括但不限于:在梳理品牌过程中对管理的效率、在😴企业内部跨部门品牌沟通的协作效率、内容团队生产内容的效率、内😂容团队的管理效率、内容团队的协作效率、AI辅助内容生成等新趋😴势的试用效率…… 你看,这些问题几乎都聚焦在做品牌这件😎事的“内部摩擦力”上。 事实上,这些看起来很抽象的问题😂,都是有方法、工具、流程可以解决掉的。 毕竟,德鲁克老🤯先生说过:凡是不能被测量的事,都无法被管理。既然我们想要“管😉理品牌”工作,那么就需要想到办法“测量”这些事,不断用工具、😆数据加速,让做品牌的正向飞轮转动起来。 这是很容易被企🚀业忽略掉的一块“做品牌”的工作板块,不管是大企业小企业,在品💯牌内容工作过程中,都会产生大量的沟通和管理成本,而这部分成本🎉,是完全可以压缩提效的。 结语 以上,我试图用最🤔简朴的语言把“做品牌”这件事说清楚,希望能在你的脑海里建立起🌟清晰的一张地图,让做品牌这件复杂的事从此明了起来。返回搜狐,😍查看更多
推荐阅读
国际油价26日上涨
4450
纽约股市三大股指26日上涨
3300
伦敦股市26日上涨
3985
美元指数26日下跌
3524
我国成功发射风云三号08星
4449
品质之城 智慧河西 河西区推动经济社会高质量发展
5804
北方年度最大车展月底在津启幕
3395
宝坻区牛道口镇第三届农民丰收节启幕
1637
市纪委监委发出通知强调 锲而不舍落实中央八项规定精神 做好中秋、国庆期间正风肃纪工作
9805
天津通报5起违反中央八项规定精神典型问题
9934
市领导深入东丽区走访调研
1325
天津发布国庆中秋假期交通预测 “两节”期间跨区域人员总流动量预计达5200余万人次
9204
“游园会”里话合作 —— “外资商会走进河西活动”侧记
7303
京唐城际铁路北京城市副中心段联调联试
9438
创新“源”动力 天大“硬”担当 ——一所百卅高等学府与一座历史文化名城的同频共进
3528
“汉语桥”系列活动圆满落幕 搭建语言之桥 共创友谊未来
2117
民企“拳头产品”名录发布
4408
京津冀制造业数字营销产教融合共同体成立
7380
今日有小雨!周日起晴天回归 适宜出行及户外活动
7500
科技成果转化再添“天津方案” “先使用后付费”机制激发创新活力
6994
智“付”连接全球 智慧畅享未来
5826