上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%

吃瓜电子官网最新热点:上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%

更新时间: 浏览次数:7643

这项由上海AI实验室、上海交通大学和香港中文大学联合完成的研😊究发表于2025年2月17日的arXiv预印本服务器,论文题😊为"BoostStep: Boosting Mathemat👏ical Capability of Large Langu😉age Models via Improved Single😘-step Reasoning"。有兴趣深入了解的读者可以通😴过https://github.com/beichenzbc😂/BoostStep访问完整研究资料和代码。 当我们看🔥到孩子做数学题时,往往会发现一个有趣现象:他们能够正确地将一😁道复杂题目分解成几个小步骤,但在具体执行某个步骤时却容易出错🤯。比如明明知道要用勾股定理,却在计算时搞错了公式,或者明明分😎析出需要列方程,但在求解过程中计算失误。现在的大型语言模型在👏数学推理方面表现出了同样的特点。 研究团队通过深入分析😘发现了一个令人惊讶的现象:即使是GPT-4o这样的顶级模型,🥳在数学问题上犯的错误中,高达99.2%都源于单个步骤的推理失🤗误,而不是整体思路错误。这就像一个经验丰富的厨师知道做一道菜😀需要哪些步骤,但在某个具体步骤上可能会搞错调料的用量。 🙄 传统的解决方案是给AI模型提供几个完整的例题作为参考,这种😢方法叫做"情境学习"。但研究人员发现这就像给学生看几道完整的😆解题过程,学生可能会被无关的步骤分散注意力,或者根本找不到对😢当前步骤有用的指导。更要命的是,如果例题与当前题目差别较大,😅反而可能误导模型的判断。 基于这些发现,研究团队提出了😎一种全新的方法,称为BoostStep。这个方法的核心思想非😢常巧妙:不再是一开始就给出完整例题,而是在AI模型解每一个具😅体步骤时,实时提供最相关的指导。 BoostStep的😴工作方式可以用辅导老师的教学方法来类比。当学生遇到难题时,好🔥的辅导老师不会直接给出答案,而是先让学生尝试解题,观察学生在🤩哪一步卡住了,然后针对性地提供这一步的解题技巧和类似例子。B🤗oostStep正是模拟了这种教学方式。 具体来说,当😂AI模型需要进行下一步推理时,BoostStep会让模型先进🥳行一次"试探性尝试"。这个尝试不需要完全正确,只需要让系统了😴解模型当前想要解决什么问题。然后,系统会在预先建立的步骤级题😂库中搜索最相似的解题步骤,将找到的相关例子提供给模型,帮助它🙄完成当前步骤的推理。 展开全文 这种方法的优势非😎常明显。首先,它提供的指导更加精准。传统方法就像给学生一本厚😎厚的参考书,学生需要自己找到有用的部分,而BoostStep🤗则像一个智能助手,总是在恰当的时机提供恰当的帮助。其次,这种👍方法大大降低了对例题相似度的要求。即使两道题目看起来完全不同🔥,只要其中某些解题步骤相似,就能提供有效的指导。 为了👏构建高质量的步骤级题库,研究团队没有简单地按照标点符号来分割🚀解题过程,而是让GPT-4o根据推理内容来自然分解每个步骤。😍这确保了题库中的每个步骤都是一个完整的推理单元,就像确保每个😴"积木块"都是完整的一样,这样在需要时才能提供真正有用的指导👍。 在实验验证阶段,BoostStep展现出了令人印象😘深刻的效果。在GPT-4o上,这种方法在数学基准测试中平均提👍升了4.6%的性能,而传统的几样本学习方法只能提升1.2%。🙌更令人惊讶的是,在一些与题库相似度较低的多模态数学题目上,传⭐统方法甚至会产生负面影响,降低0.9%的准确率,但Boost🚀Step仍然能够提升2.8%。 研究团队还测试了Boo😀stStep在"以简驭繁"方面的能力。他们用相对简单的MAT😆H数据集中的例题来指导最先进的模型解决更困难的AIME竞赛题🌟目。结果显示,即使是DeepSeek-R1这样的顶级模型,在😂BoostStep的帮助下也能在AIME测试中提升2.2%的🌟表现。这证明了该方法不仅能提升性能,还能让AI模型从更简单的😀例子中学到解决复杂问题的技巧。 BoostStep还展😎现出了与现有推理策略的良好兼容性。当与树搜索算法结合时,它能🚀够同时改进候选步骤的生成质量和评估准确性,带来额外7.5%的😜性能提升。这就像一个优秀的工具能够与其他工具完美配合,产生1❤️+1>2的效果。 从技术角度来看,BoostStep的👍核心创新在于将传统的问题级情境学习细化到了步骤级。这种细粒度😴的方法不仅提供了更精准的指导,还减少了无关信息的干扰。通过"😀先尝试、再检索、后推理"的策略,系统能够准确理解模型的当前需🚀求,并提供最相关的帮助。 值得注意的是,BoostSt🌟ep在不同类型的数学问题上都表现出了稳定的改进效果。无论是代😜数问题、几何问题还是概率统计问题,这种方法都能提供有效的指导🙄。这说明了该方法的通用性和鲁棒性。 在多模态数学问题上😜,BoostStep的优势更加明显。传统的情境学习方法在处理🙌包含图表、图形的数学题时往往效果不佳,因为很难找到在视觉内容💯上完全匹配的例题。但BoostStep通过专注于推理步骤而非🤩整体问题,能够跨越视觉表现的差异,提供有效的解题指导。 😘 研究团队还进行了详细的消融实验来验证方法中各个组件的作用。😜他们发现,基于推理内容而非语法结构来分解步骤是至关重要的,这⭐确保了每个步骤都是语义完整的推理单元。同时,"先尝试"策略相😎比其他检索方法也显示出明显优势,能够更准确地理解模型的当前需🤩求。 从实际应用的角度来看,BoostStep为大语言🤩模型在数学教育、科学计算、工程问题求解等领域的应用开辟了新的🚀可能性。通过提供更精准的推理指导,这种方法能够让AI系统在复😘杂推理任务中表现得更加可靠和准确。 研究团队也坦诚地指😴出了当前方法的局限性。他们使用的题库主要来源于PRM800K👍数据集,在问题类型和难度分布上还相对单一。使用更大规模、更多⭐样化的题库可能会进一步提升效果。此外,目前使用的TF-IDF😢检索方法虽然简单有效,但专门为数学问题设计的检索器可能会带来😘更好的效果。 说到底,BoostStep代表了AI数学💯推理能力提升的一个重要方向。它不是通过让模型记住更多解题模板🌟来提升性能,而是通过在推理过程中提供更智能的指导来帮助模型做🤔出更好的决策。这种思路不仅在数学推理领域有价值,在其他需要复🙌杂推理的任务中也可能发挥重要作用。 归根结底,这项研究🙌告诉我们,有时候解决复杂问题的关键不在于拥有更多信息,而在于😊在正确的时间获得正确的指导。就像一个好的导师不会一次性灌输所😆有知识,而是会在学生需要的时候提供恰当的帮助。BoostSt🙌ep正是将这种教学智慧融入了AI系统的设计中,让机器也能够像🤔优秀的导师一样,在推理过程中获得精准的指导和支持。 Q😴&A Q1:BoostStep方法和传统的AI数学解题😢方法有什么不同? A:传统方法是在开始解题前给AI几道😢完整的例题参考,就像给学生一本参考书让他自己找有用信息。而B🚀oostStep是在AI解每个具体步骤时实时提供最相关的指导😡,就像有个老师在旁边,看到学生在某一步卡住了就马上给出针对性🙌的提示。这样避免了无关信息的干扰,指导更精准。 Q2:🤯为什么说现在的AI模型在数学推理上99.2%的错误都来自单步🙄推理? A:研究团队分析发现,像GPT-4o这样的先进😢模型其实很擅长将复杂数学题分解成小步骤,知道整体该怎么解。但😉在执行具体某个步骤时容易出错,比如用错公式、算错数字等。这就😜像一个厨师知道做菜的整个流程,但在某个具体步骤上可能会搞错调😎料用量。所以提升单步推理准确性是关键。 Q3:Boos💯tStep能让简单例题帮助解决更难的数学问题吗? A:😁是的,这是BoostStep的一个重要优势。研究显示即使用M😂ATH数据集中相对简单的例题,也能帮助最先进的模型在更难的A😡IME竞赛题上提升2.2%的表现。因为BoostStep专注🌟于推理步骤而非整体问题,即使题目难度差别很大,只要某些解题步😂骤相似,就能提供有效指导。返回搜狐,查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

智通财经APP获悉,摩根士丹利表示,iPhone 17系列的😴早期交货时间与去年同期相比持平或略有延长,该行维持对苹果(A💯APL.US)“增持”评级,目标价240美元。 大摩指🥳出,iPhone 17系列初期供应状况优于去年,同时早期交货😘时间与去年同期相比持平或略有延长,表明iPhone 17的早🚀期需求可能同比增长。这一积极信号与市场对2026财年iPho🤯ne出货量持平的预期形成对比,为苹果公司带来了乐观前景。 😀 该行的数据显示,iPhone 17系列在开始预订后的4天🤯内(截至9月16日),其交货时间在全球多数主要市场均呈现同比😢持平或上升的趋势。具体来看: iPhone 17 Pr🙄o Max:在美国的交货时间为22.5天,国际平均为24天,😴较预订开始时的19.4天显著延长。与国际市场相比,其交货时间👏同比增加1.2天。 iPhone 17 Pro:在美国👏为14.2天,国际平均为18.1天,同比缩短2天,但国际市场👏仍增长2天。 iPhone Air:在美国为6.7天,🥳国际平均为7.9天,同比缩短3天(与iPhone 16 Pl😅us相比),且在中国市场尚未上市。 iPhone 17🤔标准版:表现最为突出,在美国交货时间为15.5天,国际平均为😂19天,同比延长6.5天和9天。中国市场的交货时间达到30.🤗5天,创下两年来的最高记录。 这些数据表明,iPhon😂e 17的需求整体强劲,尤其是基础型号和Pro Max型号。😀报告强调,早期供应状况优于去年,主要得益于生产良率的提升和印😊度工厂产能的扩大——苹果首次在印度同时生产和发货所有新机型。👍 大摩报告通过实地调研发现,当前用户的升级动机主要源于👏替换老旧设备。iPhone的平均更换周期约为5年,这意味着i😂Phone 12用户(上一次“超级周期”的群体)成为今年的自😀然升级者。 大摩预计,苹果2026财年收入将增长6.5🌟%,其中iPhone收入增长5.5%,服务收入增长12%。毛😅利率稳定在46.9%左右,每股收益达8.00美元。看涨情景下😂,iPhone更换周期加速可能推动收入和每股收益更高增长;看🙄跌情景则假设需求疲软和关税压力导致增长放缓。返回搜狐,查看更😎多

发布于:邹平市
评论
全部
还没有人评论过,快来抢首评
抢首评

推荐阅读

日俄关系持续紧张,安倍妻子却私赴莫斯科与普京会面,有何目的?

钛媒体APP 2025-11-12 05:44:44 6684

未能与特朗普见上一面,马斯克火速离职,对特朗普已彻底失望

钛媒体APP 2025-11-12 03:36:43 6724

马科斯处境越来越危险,菲律宾军队被曝内部动荡,恐将发生政变

钛媒体APP 2025-11-12 00:36:39 1159

F35不买了?印度突然要研制隐身战机,声称就是为了对付中巴

钛媒体APP 2025-11-12 08:46:32 8838

美媒发现不对劲,虽然中美已经和解,但中国不再回头购买美国商品

钛媒体APP 2025-11-12 06:23:43 5101

马科斯连续迈出两步后,杜家族还是不信,中间人公开给小马背书

钛媒体APP 2025-11-12 03:09:34 4341

对美日贴脸开大,辽宁舰举行大规模演练,敢保“台独”死路一条

钛媒体APP 2025-11-12 02:51:05 9091

空战败给巴基斯坦后,印度宣布建造国产隐身战机,直接对标中国

钛媒体APP 2025-11-12 07:58:22 8513

效仿中国,英媒怂恿欧洲与美国对着干,称一旦让步将付出更大代价

钛媒体APP 2025-11-12 07:17:50 4360

联俄反华彻底落空,特朗普指责普京给脸不要脸,把自己当傻子

钛媒体APP 2025-11-12 06:30:12 2608

泽连斯基彻底豁出去了,斩首普京失败后,再次饱和攻击莫斯科

钛媒体APP 2025-11-12 01:25:11 8689

莎拉不一定能当总统,杜特尔特还有干儿子,立场更加倾向中国

钛媒体APP 2025-11-12 09:21:25 2630

终于不再沉默,默克尔公开警告:欧盟继续这样做将带来灾难性后果

钛媒体APP 2025-11-12 03:35:40 4202

不再索要稀土,对付中国管控,特朗普又想到了一个新办法

钛媒体APP 2025-11-12 05:55:09 8785

马科斯认栽了,莎拉逃过一劫,弹劾案将迎来戏剧性结尾

钛媒体APP 2025-11-12 01:33:15 5790

还嫌不够丢人,阵风被歼10击落3架后,印度又要求法国交出源码

钛媒体APP 2025-11-12 03:57:27 3074

普京坐标被内鬼出卖?专机遭46架无人机攻击,泽连斯基麻烦大了

钛媒体APP 2025-11-12 03:00:48 1378

集中力量对付中国,万斯承认美国霸权已结束:必须回到现实

钛媒体APP 2025-11-12 03:00:35 4713

讨好特朗普,马科斯再次搬出南海仲裁案,继续铁了心挑衅中国

钛媒体APP 2025-11-12 00:35:40 1853

拿中国没办法,特朗普已经失去耐心,要把印度树立成投降的典范

钛媒体APP 2025-11-12 00:14:29 9120

要当第二个印度?菲律宾执意对抗中国,一口气购买法国40艘巡逻艇

钛媒体APP 2025-11-12 02:46:04 6255
为您推荐中
暂时没有更多内容了……