上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%
吃瓜电子官网最新热点:上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%
更新时间: 浏览次数:4062
这项由上海AI实验室、上海交通大学和香港中文大学联合完成的研😁究发表于2025年2月17日的arXiv预印本服务器,论文题⭐为"BoostStep: Boosting Mathemat🔥ical Capability of Large Langu👍age Models via Improved Single😍-step Reasoning"。有兴趣深入了解的读者可以通😀过https://github.com/beichenzbc🤗/BoostStep访问完整研究资料和代码。 当我们看😡到孩子做数学题时,往往会发现一个有趣现象:他们能够正确地将一😡道复杂题目分解成几个小步骤,但在具体执行某个步骤时却容易出错💯。比如明明知道要用勾股定理,却在计算时搞错了公式,或者明明分🥳析出需要列方程,但在求解过程中计算失误。现在的大型语言模型在😢数学推理方面表现出了同样的特点。 研究团队通过深入分析🤔发现了一个令人惊讶的现象:即使是GPT-4o这样的顶级模型,🤔在数学问题上犯的错误中,高达99.2%都源于单个步骤的推理失🌟误,而不是整体思路错误。这就像一个经验丰富的厨师知道做一道菜👍需要哪些步骤,但在某个具体步骤上可能会搞错调料的用量。 😜 传统的解决方案是给AI模型提供几个完整的例题作为参考,这种😊方法叫做"情境学习"。但研究人员发现这就像给学生看几道完整的😢解题过程,学生可能会被无关的步骤分散注意力,或者根本找不到对❤️当前步骤有用的指导。更要命的是,如果例题与当前题目差别较大,😆反而可能误导模型的判断。 基于这些发现,研究团队提出了😜一种全新的方法,称为BoostStep。这个方法的核心思想非🙌常巧妙:不再是一开始就给出完整例题,而是在AI模型解每一个具😊体步骤时,实时提供最相关的指导。 BoostStep的😎工作方式可以用辅导老师的教学方法来类比。当学生遇到难题时,好🙌的辅导老师不会直接给出答案,而是先让学生尝试解题,观察学生在😡哪一步卡住了,然后针对性地提供这一步的解题技巧和类似例子。B🥳oostStep正是模拟了这种教学方式。 具体来说,当😆AI模型需要进行下一步推理时,BoostStep会让模型先进🤗行一次"试探性尝试"。这个尝试不需要完全正确,只需要让系统了🎉解模型当前想要解决什么问题。然后,系统会在预先建立的步骤级题🥳库中搜索最相似的解题步骤,将找到的相关例子提供给模型,帮助它💯完成当前步骤的推理。 展开全文 这种方法的优势非😆常明显。首先,它提供的指导更加精准。传统方法就像给学生一本厚😁厚的参考书,学生需要自己找到有用的部分,而BoostStep😉则像一个智能助手,总是在恰当的时机提供恰当的帮助。其次,这种🙌方法大大降低了对例题相似度的要求。即使两道题目看起来完全不同🎉,只要其中某些解题步骤相似,就能提供有效的指导。 为了😘构建高质量的步骤级题库,研究团队没有简单地按照标点符号来分割⭐解题过程,而是让GPT-4o根据推理内容来自然分解每个步骤。👏这确保了题库中的每个步骤都是一个完整的推理单元,就像确保每个💯"积木块"都是完整的一样,这样在需要时才能提供真正有用的指导🤩。 在实验验证阶段,BoostStep展现出了令人印象😢深刻的效果。在GPT-4o上,这种方法在数学基准测试中平均提🥳升了4.6%的性能,而传统的几样本学习方法只能提升1.2%。🤗更令人惊讶的是,在一些与题库相似度较低的多模态数学题目上,传😂统方法甚至会产生负面影响,降低0.9%的准确率,但Boost😂Step仍然能够提升2.8%。 研究团队还测试了Boo😘stStep在"以简驭繁"方面的能力。他们用相对简单的MAT🤩H数据集中的例题来指导最先进的模型解决更困难的AIME竞赛题😢目。结果显示,即使是DeepSeek-R1这样的顶级模型,在🌟BoostStep的帮助下也能在AIME测试中提升2.2%的🎉表现。这证明了该方法不仅能提升性能,还能让AI模型从更简单的👍例子中学到解决复杂问题的技巧。 BoostStep还展❤️现出了与现有推理策略的良好兼容性。当与树搜索算法结合时,它能😅够同时改进候选步骤的生成质量和评估准确性,带来额外7.5%的😀性能提升。这就像一个优秀的工具能够与其他工具完美配合,产生1🤗+1>2的效果。 从技术角度来看,BoostStep的💯核心创新在于将传统的问题级情境学习细化到了步骤级。这种细粒度😜的方法不仅提供了更精准的指导,还减少了无关信息的干扰。通过"😆先尝试、再检索、后推理"的策略,系统能够准确理解模型的当前需😂求,并提供最相关的帮助。 值得注意的是,BoostSt⭐ep在不同类型的数学问题上都表现出了稳定的改进效果。无论是代🤯数问题、几何问题还是概率统计问题,这种方法都能提供有效的指导🎉。这说明了该方法的通用性和鲁棒性。 在多模态数学问题上😢,BoostStep的优势更加明显。传统的情境学习方法在处理🤗包含图表、图形的数学题时往往效果不佳,因为很难找到在视觉内容😂上完全匹配的例题。但BoostStep通过专注于推理步骤而非❤️整体问题,能够跨越视觉表现的差异,提供有效的解题指导。 😂 研究团队还进行了详细的消融实验来验证方法中各个组件的作用。😜他们发现,基于推理内容而非语法结构来分解步骤是至关重要的,这🙄确保了每个步骤都是语义完整的推理单元。同时,"先尝试"策略相😊比其他检索方法也显示出明显优势,能够更准确地理解模型的当前需❤️求。 从实际应用的角度来看,BoostStep为大语言😜模型在数学教育、科学计算、工程问题求解等领域的应用开辟了新的🤔可能性。通过提供更精准的推理指导,这种方法能够让AI系统在复🙌杂推理任务中表现得更加可靠和准确。 研究团队也坦诚地指🙄出了当前方法的局限性。他们使用的题库主要来源于PRM800K😜数据集,在问题类型和难度分布上还相对单一。使用更大规模、更多😂样化的题库可能会进一步提升效果。此外,目前使用的TF-IDF😘检索方法虽然简单有效,但专门为数学问题设计的检索器可能会带来😘更好的效果。 说到底,BoostStep代表了AI数学😎推理能力提升的一个重要方向。它不是通过让模型记住更多解题模板😁来提升性能,而是通过在推理过程中提供更智能的指导来帮助模型做🙌出更好的决策。这种思路不仅在数学推理领域有价值,在其他需要复💯杂推理的任务中也可能发挥重要作用。 归根结底,这项研究🤯告诉我们,有时候解决复杂问题的关键不在于拥有更多信息,而在于🙌在正确的时间获得正确的指导。就像一个好的导师不会一次性灌输所👍有知识,而是会在学生需要的时候提供恰当的帮助。BoostSt❤️ep正是将这种教学智慧融入了AI系统的设计中,让机器也能够像🙌优秀的导师一样,在推理过程中获得精准的指导和支持。 Q😉&A Q1:BoostStep方法和传统的AI数学解题😉方法有什么不同? A:传统方法是在开始解题前给AI几道😂完整的例题参考,就像给学生一本参考书让他自己找有用信息。而B🚀oostStep是在AI解每个具体步骤时实时提供最相关的指导💯,就像有个老师在旁边,看到学生在某一步卡住了就马上给出针对性💯的提示。这样避免了无关信息的干扰,指导更精准。 Q2:😴为什么说现在的AI模型在数学推理上99.2%的错误都来自单步😆推理? A:研究团队分析发现,像GPT-4o这样的先进🚀模型其实很擅长将复杂数学题分解成小步骤,知道整体该怎么解。但🎉在执行具体某个步骤时容易出错,比如用错公式、算错数字等。这就😊像一个厨师知道做菜的整个流程,但在某个具体步骤上可能会搞错调😉料用量。所以提升单步推理准确性是关键。 Q3:Boos❤️tStep能让简单例题帮助解决更难的数学问题吗? A:👍是的,这是BoostStep的一个重要优势。研究显示即使用M🚀ATH数据集中相对简单的例题,也能帮助最先进的模型在更难的A😴IME竞赛题上提升2.2%的表现。因为BoostStep专注😢于推理步骤而非整体问题,即使题目难度差别很大,只要某些解题步🙌骤相似,就能提供有效指导。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
中国的这次反击,不仅将美国的火力全部吸引过来,还让日本、欧洲⭐和东盟都纷纷躲到了我们背后。这就让人忍不住心生怒意,难道我们🤔过去为你们提供市场让你们获利,现在自己站起来了,却被你们关上😅了大门?今天我就把话撂在这里…
推荐阅读
享界S9T旅行车上市,首小时订单破5000台
6010
鸿蒙智行多车型销售数据亮眼,享界S9T新品发布会揭晓93万辆交付量
9592
市场监管总局启动对英伟达涉嫌垄断调查
5399
印度Q2电脑出货量增长6.5%,惠普领跑苹果暂退前五
1789
美团携手肯德基推出骑手专属9.9元套餐,日供千万份
6458
阿里巴巴与腾讯洽谈合作,淘宝拟在微信开小程序实现免密支付
5973
中国首进全球创新前十,研发投入增速放缓引关注
7612
微软Edge浏览器测试视觉搜索新功能
3347
第三方平台话费最低充值金额上调至50元起步
2168
苹果银座三丁目新店即将重启,临时门店将关闭
8286
我国成功发射卫星互联网试验卫星,长征系列火箭完成第595次飞行
3282
微软修复 Dirac 音频驱动兼容问题,Windows 11 24H2 升级限制解除
5103
高铁上坡是否需加速引热议,官方详解牵引模式与乘坐舒适度
4151
谷歌市值突破3万亿美元,美股四巨头诞生
9964
滴滴顺风车严惩中途甩客行为,一年封禁万人
1067
湖南某小区SUV自燃起火,物业居民8分钟合力扑灭避免60万损失
3917
市场监管部门依法对英伟达涉嫌违反反垄断法启动调查
7618
威刚XPG推出MAESTRO PLUS系列ARGB风冷散热器,配备数字显示顶盖
5713
享界汽车携手华为深化战略,三年投入200亿打造智能豪华新标杆
7648
罗永浩提议与西贝贾国龙直播对话回应预制菜争议
9132
高速提速试点拟放宽限速至140公里/小时,超速10%内免罚引热议
1586