上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%

吃瓜电子官网最新热点:上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%

更新时间: 浏览次数:1201

这项由上海AI实验室、上海交通大学和香港中文大学联合完成的研💯究发表于2025年2月17日的arXiv预印本服务器,论文题😢为"BoostStep: Boosting Mathemat🤩ical Capability of Large Langu😊age Models via Improved Single😅-step Reasoning"。有兴趣深入了解的读者可以通👏过https://github.com/beichenzbc🤩/BoostStep访问完整研究资料和代码。 当我们看😴到孩子做数学题时,往往会发现一个有趣现象:他们能够正确地将一😍道复杂题目分解成几个小步骤,但在具体执行某个步骤时却容易出错😂。比如明明知道要用勾股定理,却在计算时搞错了公式,或者明明分👏析出需要列方程,但在求解过程中计算失误。现在的大型语言模型在🥳数学推理方面表现出了同样的特点。 研究团队通过深入分析👏发现了一个令人惊讶的现象:即使是GPT-4o这样的顶级模型,😂在数学问题上犯的错误中,高达99.2%都源于单个步骤的推理失🙄误,而不是整体思路错误。这就像一个经验丰富的厨师知道做一道菜🎉需要哪些步骤,但在某个具体步骤上可能会搞错调料的用量。 ❤️ 传统的解决方案是给AI模型提供几个完整的例题作为参考,这种😍方法叫做"情境学习"。但研究人员发现这就像给学生看几道完整的😎解题过程,学生可能会被无关的步骤分散注意力,或者根本找不到对😡当前步骤有用的指导。更要命的是,如果例题与当前题目差别较大,🥳反而可能误导模型的判断。 基于这些发现,研究团队提出了😘一种全新的方法,称为BoostStep。这个方法的核心思想非😁常巧妙:不再是一开始就给出完整例题,而是在AI模型解每一个具🥳体步骤时,实时提供最相关的指导。 BoostStep的👏工作方式可以用辅导老师的教学方法来类比。当学生遇到难题时,好🎉的辅导老师不会直接给出答案,而是先让学生尝试解题,观察学生在💯哪一步卡住了,然后针对性地提供这一步的解题技巧和类似例子。B😅oostStep正是模拟了这种教学方式。 具体来说,当😍AI模型需要进行下一步推理时,BoostStep会让模型先进🙄行一次"试探性尝试"。这个尝试不需要完全正确,只需要让系统了😴解模型当前想要解决什么问题。然后,系统会在预先建立的步骤级题🌟库中搜索最相似的解题步骤,将找到的相关例子提供给模型,帮助它🙌完成当前步骤的推理。 展开全文 这种方法的优势非😅常明显。首先,它提供的指导更加精准。传统方法就像给学生一本厚🚀厚的参考书,学生需要自己找到有用的部分,而BoostStep🤯则像一个智能助手,总是在恰当的时机提供恰当的帮助。其次,这种😂方法大大降低了对例题相似度的要求。即使两道题目看起来完全不同🤔,只要其中某些解题步骤相似,就能提供有效的指导。 为了🎉构建高质量的步骤级题库,研究团队没有简单地按照标点符号来分割😡解题过程,而是让GPT-4o根据推理内容来自然分解每个步骤。😀这确保了题库中的每个步骤都是一个完整的推理单元,就像确保每个😴"积木块"都是完整的一样,这样在需要时才能提供真正有用的指导🙄。 在实验验证阶段,BoostStep展现出了令人印象🤗深刻的效果。在GPT-4o上,这种方法在数学基准测试中平均提🤔升了4.6%的性能,而传统的几样本学习方法只能提升1.2%。🥳更令人惊讶的是,在一些与题库相似度较低的多模态数学题目上,传🙌统方法甚至会产生负面影响,降低0.9%的准确率,但Boost😊Step仍然能够提升2.8%。 研究团队还测试了Boo😉stStep在"以简驭繁"方面的能力。他们用相对简单的MAT😴H数据集中的例题来指导最先进的模型解决更困难的AIME竞赛题🔥目。结果显示,即使是DeepSeek-R1这样的顶级模型,在❤️BoostStep的帮助下也能在AIME测试中提升2.2%的😀表现。这证明了该方法不仅能提升性能,还能让AI模型从更简单的🌟例子中学到解决复杂问题的技巧。 BoostStep还展😁现出了与现有推理策略的良好兼容性。当与树搜索算法结合时,它能👍够同时改进候选步骤的生成质量和评估准确性,带来额外7.5%的👏性能提升。这就像一个优秀的工具能够与其他工具完美配合,产生1👏+1>2的效果。 从技术角度来看,BoostStep的😴核心创新在于将传统的问题级情境学习细化到了步骤级。这种细粒度⭐的方法不仅提供了更精准的指导,还减少了无关信息的干扰。通过"⭐先尝试、再检索、后推理"的策略,系统能够准确理解模型的当前需😁求,并提供最相关的帮助。 值得注意的是,BoostSt😢ep在不同类型的数学问题上都表现出了稳定的改进效果。无论是代👏数问题、几何问题还是概率统计问题,这种方法都能提供有效的指导🥳。这说明了该方法的通用性和鲁棒性。 在多模态数学问题上🤩,BoostStep的优势更加明显。传统的情境学习方法在处理😊包含图表、图形的数学题时往往效果不佳,因为很难找到在视觉内容🥳上完全匹配的例题。但BoostStep通过专注于推理步骤而非💯整体问题,能够跨越视觉表现的差异,提供有效的解题指导。 😁 研究团队还进行了详细的消融实验来验证方法中各个组件的作用。🎉他们发现,基于推理内容而非语法结构来分解步骤是至关重要的,这😊确保了每个步骤都是语义完整的推理单元。同时,"先尝试"策略相😉比其他检索方法也显示出明显优势,能够更准确地理解模型的当前需😁求。 从实际应用的角度来看,BoostStep为大语言🤯模型在数学教育、科学计算、工程问题求解等领域的应用开辟了新的🎉可能性。通过提供更精准的推理指导,这种方法能够让AI系统在复😢杂推理任务中表现得更加可靠和准确。 研究团队也坦诚地指🤩出了当前方法的局限性。他们使用的题库主要来源于PRM800K😂数据集,在问题类型和难度分布上还相对单一。使用更大规模、更多👍样化的题库可能会进一步提升效果。此外,目前使用的TF-IDF😀检索方法虽然简单有效,但专门为数学问题设计的检索器可能会带来😡更好的效果。 说到底,BoostStep代表了AI数学😊推理能力提升的一个重要方向。它不是通过让模型记住更多解题模板💯来提升性能,而是通过在推理过程中提供更智能的指导来帮助模型做🙄出更好的决策。这种思路不仅在数学推理领域有价值,在其他需要复😍杂推理的任务中也可能发挥重要作用。 归根结底,这项研究🙄告诉我们,有时候解决复杂问题的关键不在于拥有更多信息,而在于😉在正确的时间获得正确的指导。就像一个好的导师不会一次性灌输所👍有知识,而是会在学生需要的时候提供恰当的帮助。BoostSt🔥ep正是将这种教学智慧融入了AI系统的设计中,让机器也能够像😂优秀的导师一样,在推理过程中获得精准的指导和支持。 Q💯&A Q1:BoostStep方法和传统的AI数学解题😅方法有什么不同? A:传统方法是在开始解题前给AI几道👍完整的例题参考,就像给学生一本参考书让他自己找有用信息。而B🚀oostStep是在AI解每个具体步骤时实时提供最相关的指导😁,就像有个老师在旁边,看到学生在某一步卡住了就马上给出针对性👏的提示。这样避免了无关信息的干扰,指导更精准。 Q2:🥳为什么说现在的AI模型在数学推理上99.2%的错误都来自单步😘推理? A:研究团队分析发现,像GPT-4o这样的先进🎉模型其实很擅长将复杂数学题分解成小步骤,知道整体该怎么解。但🚀在执行具体某个步骤时容易出错,比如用错公式、算错数字等。这就😉像一个厨师知道做菜的整个流程,但在某个具体步骤上可能会搞错调🌟料用量。所以提升单步推理准确性是关键。 Q3:Boos🌟tStep能让简单例题帮助解决更难的数学问题吗? A:👏是的,这是BoostStep的一个重要优势。研究显示即使用M😢ATH数据集中相对简单的例题,也能帮助最先进的模型在更难的A🔥IME竞赛题上提升2.2%的表现。因为BoostStep专注😎于推理步骤而非整体问题,即使题目难度差别很大,只要某些解题步😍骤相似,就能提供有效指导。返回搜狐,查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

第一财经 不同硬件、不同大脑,不同机器人厂商进入不同场🌟景,在多方变量的加持下,机器人的规模化落地似乎遥遥无期。 😎 9月17日,第一财经记者在采访第三方部署方、机器人本体厂🤗商和场景落地方时发现,一个行业新角色正在出现。一个类似于安卓🤗操作系统的中间算法层正在承担屏蔽硬件差异、兼容不同大脑架构的🔥功能,为机器人在真实场景中的规模化落地提供可能。 如今😁,这一产业角色已经吸引了谷歌、智元、富临精工(300432.❤️SZ)、格力博(301260.SZ)、东土科技(300353😴.SZ)、巨星新材料等企业押注。但在硬件厂商坚持自家体系、大🤗模型企业追逐通用智能的格局下,行业的“安卓时刻”何时到来,仍😂有待市场与现实工况的双重检验。 机器人涌入场景,跨本体🎉训练遇阻 当机器人厂商涌向场景方,新的问题正在出现。 🥳 “这个月至少有两家机器人公司正在和我们谈合作。”Kel🤩vin是长三角一家物流上市公司的技术负责人,他告诉记者,为了😢和人形机器人厂商进行合作,自己不得不拨出一个八人左右的团队和😢不同机器人企业进行对接。“我们需要开放不同的数据接口,提供一😁个专门的实验场景,还需要根据各家机器人的要求不断调整流程和测😊试参数”。 在大量的人力和物力投入之外,Kelvin坦❤️言自己算不过来ROI(Return on Investmen💯t,投资回报率)。“机器的工作效率不稳定,且运维需要大量后续😁的费用。”他向第一财经记者透露,物流企业马上就会备战“双11🤩”时间,在此期间是否继续让机器人上岗,他还在犹豫。 更😂大的问题是,由于不同厂商的机器人算法不兼容、硬件各自封闭,导🌟致一个场景的成功经验难以迁移到另一个场景。“有的时候我们的流😁水线哪怕是多一个弯折,机器人都需要重新走一轮POC(Proo⭐f of Concept,概念验证)。” “厂商觉得我🙌们不够开放,我们觉得机器人厂商要得太多。”Kelvin说,这🎉是产业上下游之间对接存在的普遍问题。第一财经记者了解到,一些👍“中间人”的角色正在产业链中诞生。前上汽自动驾驶域控制器算法😘负责人,安努智能工程算法总监杨曾告诉记者,团队正在研发的一套⭐中间件算法平台,希望像手机里的操作系统一样,把不同厂商的机器🔥人纳入统一的兼容框架。 就像手机的操作系统让不同软件在💯同一套规则下运转一样,中间件希望能够通过屏蔽底层硬件差异,使😉一套算法能够迁移到不同厂商的机器人上。“如果每遇到一个新的硬🙄件,就要重新训练,机器人在实际场景部署的速度就会非常慢。”重🌟庆大学助理教授,人工智能及多模态实验室具身智能负责人,安努智🤗能首席科学家胡喆告诉第一财经记者,想要提高机器人的通用化,跨😅本体是必须跨过的门槛。 在不改动模型本身的前提下,兼容🤩不同机器人的大脑,成为中间件的挑战。“虽然主流的模型是VLA🤔模型(Vision-Language-Action Mode😢l,视觉-语言-动作模型),但其中的架构仍然不同,有端到端,🥳也有分层式。”胡喆说,中间件在机器人大脑和机器人作业的实际场💯景中充当一个“翻译官”的角色。在他的设想里,输出的指令会先被😆中间件被转化为统一的目标和约束,再交由各家机器人自身的规划控😊制器执行。 “这样我们就不必为每一个新厂商重新训练模型🤔,只需要向每一个机器人的规划控制器下达指令,就能让中间件跑通🤗整个流程。”胡喆说。 展开全文 物理规律难仿真,🎉机器人“干中学” “我们曾经试过,在实验室里跑通了所有😴算法,结果到实际场景中发现完全不是一回事儿。”钛维云创的创始🤯人张磊告诉记者,当自己试图让机器人处理布料这样的柔性物体时,🚀由于布料材质、厚薄、摩擦力不同,实验室的环境并不能完全满足操😆作需要。 张磊透露,像布料、不规则包裹等物体,POC周😜期“很长,且难以给出确切的时间”,“因为我们需要提前磨合算法🙄、下线采集数据、再拿到实验室反复训练,才能勉强适配场景”。 🎉 工厂中的物料、工艺成千上万,换一条生产线、换一个工位,😅都可能带来完全不同的情况。 “离线的强化学习不可能把所🙄有真实场景一网打尽。”胡喆告诉第一财经记者,机器人不仅需要根😎据场景反复调试算法,还往往要重新采集数据回到实验室做离线训练😂,这让整个周期被拉长,时间和人力都被大量消耗。 边做边🚀改,或许才是机器人进行学习的关键。 胡喆透露,他正在尝😴试利用实时的在线学习算法,允许机器人在实际作业过程中一边操作😜一边采集数据,并实时更新模型。这种方式只需在现场额外增加几秒👏钟运行和100个数据量,“我们会根据模型出来的结果选择数据,😉让机器人在不断学习的过程中遗忘无用的数据,保持数据的精简,也😀不会对算力提出过多的要求”。 机器人“干中学”的另一边🙄,团队也在尝试利用仿真等手段降低机器人的学习成本。“现在大部🎉分机器人仿真环境离现实工况还有很大差距,因为仿真环境中缺乏物🔥理定律的支撑。”美国肯塔基大学空气动力实验室仿真负责人、安努❤️智能联席科学家付博直言,大部分仿真平台依赖数据驱动,却缺乏物😴理定律的支撑。 “如果只是换个环境光影、物体形状等表层🔥变量,那在这种仿真里能跑通的算法,一旦放到现实中,往往会失效😀。”付博说。 让虚拟环境逼近真实世界,并不是一件容易的🔥事。“摩擦力、空气流动等连续变化的环境很难被拆成可以极端的小👏单元。”付博解释,以机器人搬箱子举例,这个场景涉及了力学、刚😡体运动学与工程力学等基本的物理规律。付博说,加入这些规律的仿🤔真能够模拟不同重量箱子堆叠时的微小形变,计算箱内散落零件导致😡的重心偏移,并让机器人理解物体变化对抓取稳定性的影响,以及机🤩器人发力点与物体形变的关联。 他坦言,将这些物理定律的😢融入仿真环境是一个“正在进行的过程”,需逐步攻克计算量庞大的🙄技术难题。付博认为,只有当机器人在仿真环境中充分理解并内化这🤩些物理规律,才能在真实场景中更好地应对突发情况,实现泛化能力🎉的提升。“模型永远无法完全替代实验,但我们希望通过极致的物理😀仿真,让真实实验只需做一次就能验证可行性。” 谷歌提前⭐布局,中间件或成规模化关键 从机器人本体和大脑厂商到最😉终的应用企业,中间还需要大量复杂的部署工作——包括接口打通、😂场景适配、算法迁移等环节。对整个产业链而言,这是一块颇具吸引🤩力的“肥肉”,盯上的远不止安努智能一家企业。 今年6月🤗,银河通用和博世中国成立合资公司博银合创。根据双方披露内容,😀合资公司将聚焦复杂装配、智能质检等高精度制造场景,并且构建标😂准化、模块化、可复制的训练与部署体系,支撑机器人产品的快速迭🤔代与规模化部署。 今年年初,富临精工宣布公司与智元机器⭐人等相关方签署了《人形机器人应用项目投资合作协议》,各方共同😂投资设立合资公司实施人形机器人项目。当前,富临精工、智元、巨😢星新材料均为安努智能股东。就在9月,专注于北美市场的产业股东🤩格力博、聚焦机器人操作系统的东土科技也宣布增资安努智能。 👏 在海外,Google(谷歌)的母公司Alphabet孵化😎的Intrinsic也在扮演类似的角色。Intrinsic试🤩图通过通用算法和工具链降低机器人系统的集成成本,让不同厂商的😆机器人在同一套兼容框架下运行。 通过一个类似操作系统的😂中间件来对接不同机器人厂商和场景,这是安努智能董事长文宏杰提😍出的解题思路。虽然路径各异,但上述三家兼具机器人和产业方背景🙄的第三方部署商,它们的共同点都是试图在碎片化的产业格局中,寻👏找一套能跨越厂商和场景的兼容方式。 不过,机器人产业是👏否会像手机产业那样,最终走向由统一“操作系统”支撑的格局,仍😢充满疑问。一位由数码3C行业转至机器人产业的工程师告诉第一财😆经记者。与手机产业面临的问题不同,机器人领域的情况更为复杂,😅硬件厂商坚持各自的体系,而大模型企业则瞄准通用智能,“屁股决😊定脑袋,大家想的未必是同一个目标”。 多方角力之下,第😊三方部署商设想的中间件是否能够建立起产业上下游的桥梁,还需要😴进一步观察。“模型如果停留在实验室、本体如果只会跳几支舞,那😜最终只是一个故事。”文宏杰认为,在当下的机器人产业,关键不是😆讲模型和本体的“故事”,而是扎进具体场景,通过部署获取真机数🥳据和工程化经验,将商业化的流程拉通、沉淀。 在他看来,🔥这些工程化的经验和数据才能汇聚成类似“操作系统”的底座,真正🔥支撑机器人跨厂商、跨场景的落地。“如果中间件能够像安卓这样的🚀操作系统一样稳定通用、开放兼容,任何厂商都能接入,机器人产业😜的规模化会越来越近。” (本文来自第一财经)返回搜狐,😊查看更多

发布于:太和区
评论
全部
还没有人评论过,快来抢首评
抢首评

推荐阅读

欧盟昏招迭出,中方反制拳拳到肉,互怼背后欧洲的焦虑藏不住了!

南京晨报 2025-11-11 02:03:06 1475

没有商量余地,特朗普访华之行要凉?中方11字坚决,12国等收信函

南京晨报 2025-11-11 02:18:20 1290

被歼10砸烂招牌,法国赖上了中方,解放军反将两军,阵风声誉受损

南京晨报 2025-11-11 04:11:29 8462

大捷!胡塞武装海军发威,3.5万吨级巨轮被击沉,英国雇佣兵败退

南京晨报 2025-11-11 02:56:28 2571

美印谈崩了,印度划下两条“红线”,莫迪转向金砖寻求新局面。

南京晨报 2025-11-11 04:33:01 2068

1962年,中印战争最大误判,尼赫鲁认为中国不敢出兵,这是为何?

南京晨报 2025-11-11 01:13:33 9924

特朗普亲自致函日韩:将征收你们25%关税,不得规避或报复

南京晨报 2025-11-11 00:09:01 6213

我国歼20、歼35将与歼10C一同亮相巴黎航展,参展机型多达8款

南京晨报 2025-11-11 00:49:34 1711

山东舰在香港被偷拍,肇事者已经抓获

南京晨报 2025-11-11 00:41:58 6344

俄罗斯炸疯了,乌克兰被炸到断电断水,美国继续给泽连斯基画大饼

南京晨报 2025-11-11 00:38:00 4705

停职15天定生死!佩通坦三招布局,复职可能超预期,泰王沉默转机

南京晨报 2025-11-11 01:24:21 2774

日本前首相提议,中日韩应加强合作

南京晨报 2025-11-11 03:17:02 1900

特朗普回应马斯克成立“美国党”:荒谬

南京晨报 2025-11-11 02:23:11 9407

央视突发!联合国定性大屠杀,以色列触犯底线,被判种族灭绝罪

南京晨报 2025-11-11 00:12:33 6253

令人防不胜防?刚被中国帮助的友国,转头就要帮美国解决一大隐患

南京晨报 2025-11-11 02:36:37 8421

1979年电波暗战:中国通信兵靠山东口音识破越军致命陷阱

南京晨报 2025-11-11 01:19:56 9860

媒体爆料,乌克兰防长在美国拥有豪宅,其家属几乎都在美国生活

南京晨报 2025-11-11 04:31:37 8126

我学者称印度也许该重新考虑上合资格,印主持人:我们打败了中巴

南京晨报 2025-11-11 00:07:23 3948

俄军再次取得大捷后,又一国出兵支援?波兰前将军呼吁进攻俄本土

南京晨报 2025-11-11 04:16:43 3480

两国可能合并,一旦成功将成超级大国,恐将终结美国一家独大局面

南京晨报 2025-11-11 02:18:30 2158

5150万斯一票破局,特朗普考虑驱逐马斯克,他的最后一站定了?

南京晨报 2025-11-11 04:36:54 4776
为您推荐中
暂时没有更多内容了……