DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI
吃瓜电子官网最新热点:DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI
更新时间: 浏览次数:9821
雷峰网讯 DeepSeek-R1 又开先例,成为首个登上《N🤯ature》封面的中国大模型。 2025 年春节,De🙄epSeek-R1 横空出世,因其极低的训练成本引发病毒式传💯播。八个月过去,这一成果带着 Nature 的金字招牌再次回❤️到公众视野中央,只为一件事:技术透明。 这篇名为 De🌟epSeek-R1 incentivizes reasoni😊ng in LLMs through reinforceme🔥nt learning 的《Nature》 封面论文由创始人🎉梁文锋担任通讯作者。文中首次确认了此前流传的DeepSeek🙄 R1 训练成本,约 29.4 万美元,折合人民币约 208🌟 万,并进一步披露了模型训练中采用的数据类型、强化学习方案等😊技术细节。 在揭开这一里程碑式大模型的面纱之外,这篇论😍文更大的意义,是 DeepSeek-R1 作为全球首个经历了😍同行评审的大语言模型,将大模型研究推向了更透明、可重复的方向💯。 此前业内通行的做法,是科技公司在自家官网、论文预印🤔本网站 arXiv或知名技术论坛上发布突破性成果及基准测试分😎数,大部分模型 API 随后即向公众开放。这一过程绕开了传统🚀学术评价体系中的同行评审环节,而 DeepSeek 团队则主🌟动接受了这一来自学术界的审视。 根据 《Nature》🚀公布的补充信息显示,评审意见主要集中在实验评估、模型安全性和😡伦理风险等方面,要求补充 OOD(分布外)测试、中间阶段性能🎉分析、误用讨论等工作。正是针对上述同行评审意见,DeepSe😢ek 团队才增加了对数据类型等训练细节的披露,并进一步证明了😢成果的安全性。 “这是一个非常值得欢迎的先例,“论文评😀审之一,Hugging Face 机器学习工程师 Lewis🙄 Tunstall 表示,”如果我们没有公开分享这一过程大部🤯分内容的规范,那么将很难评估这些系统是否构成风险。“ 😀公开训练细节,回应“蒸馏”质疑 那么在最新版本的论文中😍, DeepSeek 团队都补充了 R1 的哪些训练细节呢?👏 首先是训练成本,此前曾震动华尔街的 29.4 万美元🚀数据终于得到证实。 据补充材料介绍, DeepSeek😘-R1 的研究工作分为三个阶段。 第一阶段使用 A10😍0 GPU 对 30B 参数的小模型进行实验预研,因结果表现😁良好,使团队有信心将规模扩大至 660B 参数的 R1-Ze😅ro 和 R1。 第二阶段的成果是 DeepSeek-😘R1-Zero,研究团队动用了 512 块 H800 GPU😂,耗时约 198 小时。 最后是 DeepSeek-R😘1,仍然采用 512 块 H800 GPU 的配置,但仅用时🤗 80 小时便宣告完成。 在训练数据构成方面, Dee🙌pSeek-R1 采用了数学、编程、STEM、逻辑四大类题目⭐。 展开全文 其中数学数据集由 2.6 万道定量😅推理题构成,涵盖数学考试和竞赛题目,模型需逐步推理并给出最终😴正确答案。 编程数据集由 1.7 万道算法竞赛题与 8😁 千道 Bug修复题构成,其中后者全部来自真实的GitHub👏 issue,数据集提供问题描述、含缺陷源码与部分失败的单元😊测试,要求模型定位并修复缺陷,使代码通过全部测试。 S🙌TEM 数据集由 2.2 万道选择题构成,覆盖物理、化学、生🙄物等学科,模型需选出最科学准确的答案。 逻辑数据集由真😉实问题和合成问题共 1.5 万题构成。 此外 Deep😉Seek 团队还引入了通用 RL 数据以提升 DeepSee😊k-R1 的有用性与无害性。在训练过程中,研究人员采用了两个😂独立训练的奖励模型,一个针对“有用”排序数据训练,涵盖创意写😆作、编辑、事实问答等领域的 6.6万题,一个针对“无害”排序😉数据训练,由1.2 万题构成。 特别值得一提的是,在最😂新版论文中,DeepSeek 团队正面回应了此前关于 R1 🙌蒸馏 OpenAI 模型的质疑。 研究团队专门为此设计🙄了一项试验,使用 Qwen2-7B 作为基础模型时,通过大规😅模强化学习进行训练,该模型同样可以自主发展出各种先进推理策略⭐。而 Qwen2-7B 的发布时间为 2024 年 6 月,😆显然早于所有公开的推理模型。蒸无可蒸,推理能力的优化自然源于⭐ DeepSeek-R1 开创的强化学习方法。 Dee🤯pSeek-R1 的另一大特征是在推理过程中更频繁地使用“我😀”和“我们”等第一人称代词。值得一提的是,这种效果是通过精心🤯设计的冷启动数据所实现。 论文中介绍,研究团队发现当推😍理过程符合第一人称视角的思维模式时,用户会认为其回应更直观且😎具有吸引力。为此,研究团队要求标注人员将推理轨迹转换为更自然🔥、更贴近人类对话风格的表达,并以此作为示例提示大语言模型以类❤️似风格重写更多。 在如此收集到的数千条 CoT 数据中😂进一步筛选出最终答案正确且格式清晰的,就得到了简洁、可读性强🤔,既包含推理步骤,也涵盖最终结果的高质量冷启动数据。 🙄双重里程碑 时隔八个月再次回顾,DeepSeek-R1🔥 因何成为大模型史上里程碑式的论文? 有一部分答案藏在👏训练成本里。DeepSeek-R1 29.4 万美元的训练成😆本不仅只有当时同等规模模型的十分之一,而且其中仅有 1 万美😴元被用于构建 SFT 数据集。这意味和同行相比,它背后砍掉了🤯大规模的监督微调。 属于人类的能力,也向人类学习,监督❤️微调曾经是提升模型推理能力的共识。但它的局限性也很明显,对人😂类标注推理轨迹的依赖显著增加了模型训练成本,限制了可扩展性,🙄人类的认知偏见也在向模型渗透。 更引人深思的问题是,复🤯制人类思维过程真的是硅基推理的最优解吗?是否存在一种更优越的🤗、非人类思维的推理方式?如果答案是肯定的,那一定在人类示例之😢外。 正是在这样的背景下,DeepSeek-R1 提出⭐了一种通过纯粹强化学习实现推理能力自我进化发展的路径,以摆脱😅对人工标注推理轨迹的依赖。 具体而言,研究团队基于 D🙌eepSeek-V3 base,并使用组相对策略优化(GRP🤩O)作为强化学习框架。在全新的训练范式下,仅对最终答案的正确🔥性进行奖励,而不对推理过程本身施加约束。简单来说,就是推理方🤗式不限,能抓到耗子就是好猫。 这种训练方案设计和研究团😍队的假设一脉相承:人类定义的推理模式可能会限制模型探索,而不❤️受限制的强化学习训练能更好地激励 LLMs 中新型推理能力的😢出现。 实验结果表明,DeepSeek-R1-Zero😜 的确自然地发展出了多样化和复杂的推理行为。为解决推理问题,🌟它表现出了生成更长响应的倾向,并且存在在每个响应中包含验证、🤔反思和探索替代方法的趋势。 “尽管我们没有明确地教模型🤗如何推理,但它通过强化学习成功学习了改进的推理策略。”论文指🤔出。 展现出强大推理能力的同时,DeepSeek-R1🚀-Zero 在可读性差和语言混杂等方面仍存在挑战。这一问题的😁根源在于 DeepSeek-V3 base 是在多种语言上完🤩成训练,为此 DeepSeek-R1 的开发被提上日程。 🌟 这一次,研究团队不仅通过多阶段强化学习训练改进模型在对话⭐式推理过程、语言一致性以及人类偏好对齐方面的表现,而且在拒绝👏采样和监督微调环节将推理和非推理数据集都纳入 SFT 过程,😎这一设计使 DeepSeek-R1 不仅能在推理任务中表现出🚀色,还展示出了高级的写作能力。 基准测试结果显示,脱胎😍于全新训练范式下的 DeepSeek-R1 在 MMLU、C😊-eval、GPQA Diamond、Arena-Hard、🌟SWE-bench Verified、AIME 2024 上🥳均表现出色。而更直接的例子,则是在 2025 年春节之后的一😡段时间里,DeepSeek-R1 几乎成为了国产大模型的代名😍词。 LLMs 的推理能力可以通过纯 RL 进行激励,👏无需人工标注推理轨迹的参与。这一今天已成为共识的创想,最初就🌟是经由 DeepSeek-R1 所实现。DeepSeek 团👏队在此基础上构建的 RL 框架,也促进了自我反思、验证和动态🥳策略适应等高级推理模式的涌现。 而今天,这一突破性成果🙄经受住了学术出版审查。主动接受专家评审的拷问,补充材料说明技👏术细节,并最终作为顶刊封面论文刊发……如果说 DeepSee😢k-R1 的初次发布是一个关于前沿技术突破的故事,那么时隔八😁个月之后,这个故事的关键词变成了学术透明和技术开放。 😆补充各种技术细节之后,《Nature》最新这篇封面论文堪称“👍手把手教你训 R1”。它让我们看到头部科技企业的核心成果不是⭐只能封装成语焉不详的黑盒提供给用户,而是也可以拿到同行评审面😢前接受审视,以及更重要的,给出符合学术规范的解释和回应。 🔥 商业化考量让 OpenAI、Google 等科技巨头纷纷😂和传统的学术审查保持距离,这本无可非议,但是当 DeepSe🤔ek-R1 真的成为了可复现、可验证的学术成果,这种对技术开😂放性的追求无疑也让研究团队的选择更加可敬。 在双重意义🙌上,DeepSeek-R1 都堪称里程碑。 参考资料:😎 https://www.nature.com/art😁icles/s41586-025-09422-z#ethic😴s https://www.nature.com/ar🤔ticles/d41586-025-03015-6 雷😅峰网文章返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
文 | 陆玖商业评论 文 | 陆玖商业评论 从市⭐场端来看,全球L2级以上新车智能驾驶渗透率已接近45%,随着😎未来两年具备L2-L3组合驾驶辅助功能的产品的快速落地,这一🚀数字还有望进一步增长至60%。 巨额融资与巨额亏损并存😍,地平线在资本市场的强势募资与财务表现的强烈反差,勾勒出中国🤗智能驾驶芯片行业的狂飙与隐忧。 9月26日,地平线在港😅交所发布公告,宣布以每股9.99港元的价格配售约6.39亿股👍股份,估计所得款项净额约63.39亿港元(约合人民币58.1😜4亿元)。不出意外,该配售消息一出,地平线当日股价跌超8%。🤔 这已是这家智能驾驶芯片公司一年内第三次大规模融资,总👍募资金额也高达近155亿元人民币。特别是,此次配售距离上一次😢不过3个月的时间。 在资本市场长袖善舞的同时,地平线的😎亏损也在扩大。2025年上半年,地平线收入约为15.67亿元🙄,同比增长67.6%;但亏损反而从上年同期的50.98亿元增👏至52.33亿元。 这家被业内称为“中国智驾芯片第一股😘”的企业,一边是业务高速增长、出货量屡创新高,另一边是亏损持👍续扩大,以及现有客户纷纷下场自研芯片。资本市场依然相信未来吗😅? 01 一年内募资155亿 作为赛道中入局较早🤔且已打开一定市场的明星企业,地平线的融资能力无疑是令人瞩目的🚀。 自2024年10月在港交所上市以来,地平线通过IP🤯O募资58.73亿港元,今年6月配售募资46.74亿港元,加🤯上此次募资63.4亿港元,一年内合计募资168.87亿港元(😉约合人民币154.8亿元)。 而此次公告中披露的配售价👏格,是以前一日即9月25日的收盘价折让约5.75%的价格得来🤯的。对比三个月的那次配售,此次募资更多,但给出的“折扣”反而🥳更小,不少股民则在各大社区中表示出了质疑。 对于本次募💯资的用途,地平线公告称将用于扩大海外市场业务,加速国内市场业😴务扩张;投资研发以进一步提升技术能力;投资新兴领域,例如与R💯obotaxi相关的计划;对上游及下游业务合作伙伴进行策略性🤩投资。 有分析认为,地平线的融资紧迫感,藏着其创始人余👏凯对行业窗口期的判断。尽管今年初,余凯便喊出“3年脱手开,5😴年闭眼开,10年随心开”的设想,但想要将这个战略规划落地,就🥳必须要加速技术商业化。 加之,特斯拉、国内大厂、传统车😎企都在加码,地平线需要通过融资保持技术领先,才可能在规模化效🤯应到来前保持身位。 02 中高阶产品占比提升,前五大客😢户依赖度高 尽管地平线一直在扩亏,但不能否认的是,其业😢务增长速度还是可圈可点的。8月29日,地平线宣布其征程系列车👏载智能芯片,累计量产出货突破1000万套,成为国内首家跨过该😘门槛的智能驾驶计算方案企业。 展开全文 2025😆年上半年,公司实现营业收入15.67亿元,同比增长67.6%😢,主要得益于产品及解决方案业务收入大幅增长。而该板块营收也达❤️到了7.78亿元,为去年同期3.5倍,出货量198万套,同比😘增长约100%。 更值得关注的是,中高阶辅助驾驶方案正🔥在成为业绩核心驱动力。支持高速NOA和城区NOA的征程6系列😁芯片出货约98万套,同比增长6倍,占上半年总出货量近50%,😴贡献超80%相关业务收入。 出货量的攀升,也带动平均单🤩车价值量同比提升70%。这一变化源于智驾辅助功能从基础L2向👏城区NOA等高阶应用的升级。而余凯也预计,搭载城区辅助驾驶方😍案的车型价格带有望下探至15万元区间,进一步推动智能驾驶向大⭐众市场普及。 据地平线官网上的数据,公司目前已与27家😴车厂合作,定点车型超300款,大众、比亚迪这些头部车企都在其😆客户名单里。 另据高工智能汽车的监测数据,在中国自主品🙌牌乘用车智驾计算方案市场中,地平线以33.97%的市场份额稳🥳居第一,每3辆汽车中,就有1辆采用了地平线的智驾方案。 🌟 然而,亮眼的市场份额背后,地平线也面临着客户集中度较高的风🥳险。 根据招股书,2021年至2024年上半年,来自前🤯五大客户的收入分别占地平线当期总收入的60.7%、53.2%👍、68.8%和77.9%。 到了2025年上半年,地平😢线前五大客户收入在期内总收入的占比高达52.48%,其中第一🎉大客户占比达到19.7%。尽管前五大客户收入占比有所回落,但🔥从数值上看依然相对较高。 这种依赖性的衍生风险在于,当👏主流车企纷纷启动自研芯片计划之后,诸如蔚来、小鹏、比亚迪等车🙌企都已陆续下场真金白银砸入于此,这或将诱发地平线面对“备胎危🙌机”。 03 从“卖硬件”到“软硬一体化”,押注Rob🙄otaxi 中信证券曾在一份研报中指出,到2025年,👏国内中高阶智能驾驶的渗透率有望翻倍,带来约350亿元的增量市😊场。 群智咨询调研数据显示,2024年全球智能驾驶So😉C市场规模约50亿美元,同比增长高达62%。而据其预测数据,😀2025年全球智能驾驶SoC市场规模还有望进一步扩大至76亿👏美元。 不过,从市场端来看,全球L2级以上新车智能驾驶🌟渗透率已接近45%,随着未来两年具备L2-L3组合驾驶辅助功💯能的产品的快速落地,这一数字还有望进一步增长至60%。 🚀 政策层面也为行业提供了支持。工信部提出2025年汽车芯片国😴产化率提升至20% 的发展目标,此举受到了一众车企的积极响应🙄。比如东风汽车集团,计划于2025年将车规级芯片国产化率提升😡到60%。 国内外玩家齐聚,算力军备竞赛加剧,智能驾驶👍芯片领域的竞争也变得愈发激烈。2025年,随着政策法规陆续落🤔地、技术迭代逐步成熟、用户智能化需求增加,国内外汽车芯片厂商😀也悄然间展开了一场算力军备赛。 国际巨头英伟达在202🤯5年8月宣布Thor芯片量产,但这款原计划2024年落地的“😎下一代自动驾驶神芯”不仅延期了近一年,实际交付的“Thor 😂U”版本算力也从宣传时的2000 TOPS缩水到1600 T😂OPS。 与此同时,国产芯片品牌正在奋力追赶。在202🙄4年的市场格局竞争中,智能驾驶辅助芯片市场依旧呈现国外厂商主😘导的态势。 其中,英伟达以38.63%的市场份额稳居国😊内首位,特斯拉以23.43%的份额位居第二。华为、地平线分别😉以17.21%和10.68%的市场份额分别排列第三、第四。 🔥 更值得注意的是,蔚来神玑NX9031芯片随ET9量产上😴车后迅速覆盖5款车型;小鹏P7搭载三颗自研图灵芯片,算力达2👏250 TOPS,比Thor U还高;芯擎科技推出“星辰一号🙄+龍鹰一号”组合方案,直接叫板“Orin X+高通8295”🥳的多芯片架构。 地平线在中报中提到,向中高阶辅助驾驶解😘决方案的转型将成为行业下一阶段的主导趋势,其先进算法和软件对😊云服务相关的需求日益增长。公司预计,搭载城市辅助驾驶解决方案😁的车型价格区间将进一步下降至15万元区间。 与此同时,🙄面对激烈的市场竞争,地平线正在积极朝着“软硬件一体化供应商”💯的方向,进行战略转型。 通过对比地平线2021年和20😢24年的收入结构变化就能看出,“卖硬件”的收入占比已从202😜1年的44.6%下降到2024年的27.9%,同一报告期内,😊其“软件服务”的收入从43.3%一路上升到69.1%。 👍 其实这种转型也并不难理解。近几年整个汽车行业价格战一轮接着🥳一轮,各家车企都在不断向上游压缩成本,这直接影响了地平线产品😆解决方案的平均售价。 Robotaxi同样是地平线押注🤗的新兴领域。根据瑞银报告预测,到本世纪30年代后期,中国Ro😉botaxi服务市场的潜在规模将达到1830亿美元,届时全国🌟将有约400万辆Robotaxi投入运营。 在这种背景🙌下,9月11日,地平线宣布与哈啰正式签署战略合作协议。双方将😆基于Robotaxi运营场景和需求,发挥各自技术优势,共同打😴造极致低成本、高安全、高可靠、高可用的智能驾驶技术。 🚀在行业尚未盈利的背景下,边扩亏边谋求新机的地平线,还能让资本😜市场保持多久的耐心,我们不得而知,但资本的态度可能也将决定智🤗能驾驶芯片之争的最终赢家。希望,这位百度出身的创业者余凯,可❤️以顶住压力。返回搜狐,查看更多
推荐阅读
成都蜀蓉意食品有限公司成立 注册资本1000万人民币
2999
成都市龙泉驿区宣奂秋烘焙店(个体工商户)成立 注册资本0.5万人民币
1833
四川蔡奋斗食品有限公司成立 注册资本50万人民币
6512
成都食源匠心食品科技有限公司成立 注册资本50万人民币
5188
成都加恒睿科技有限公司成立 注册资本1万人民币
7560
成都市时代速信半导体有限公司成立 注册资本1000万人民币
5788
蓬安县长歌科技通讯设备经营部(个体工商户)成立 注册资本50万人民币
2064
原力芯半导体(成都)有限责任公司成立 注册资本100万人民币
4238
河池市金城江区国城建筑材料经营部(个体工商户)成立 注册资本5万人民币
9299
FreeBSD 15.0首个测试版发布,带来 ZFS 更新与 TCP LRO 性能改进
5089
苹果 2025 款 M5 iPad Pro 现身 AT&T 官网,即将开启预购
1667
澳航承认570万客户隐私数据遭泄露,美国公司 Salesforce“背锅”
4985
北京网信办处置5.7万余个发布不实信息自媒体账号,典型案例公布
2832
深圳:无人机日均运输快件达 2 万票,无人车日均快件处理 7 万票
3282
《时代》年度最佳发明公布:追觅 X50 Ultra 成全球唯一上榜扫地机
1014
鸿蒙5连续9天送10元优惠券,右滑桌面领福利吃喝玩乐都能用
5949
黄金周来了,为什么10亿人出门导航不再仅是“认路”?
8568
波点艺术邂逅强劲性能,WIKO Hi MateBook 14 酷睿版开售,国补到手4799元起!
1668
特别策划 | 中国卓越管理企业的案例:海信视像的科技深耕与坚守
7875
深圳湾又多了一个新地标:荣耀阿尔法全球旗舰店
7257
Claude断供风波后,是什么让中国企业躲过一劫?
7846