上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%

吃瓜电子官网最新热点:上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%

更新时间: 浏览次数:9712

这项由上海AI实验室、上海交通大学和香港中文大学联合完成的研👍究发表于2025年2月17日的arXiv预印本服务器,论文题😀为"BoostStep: Boosting Mathemat😘ical Capability of Large Langu😍age Models via Improved Single⭐-step Reasoning"。有兴趣深入了解的读者可以通⭐过https://github.com/beichenzbc🤩/BoostStep访问完整研究资料和代码。 当我们看🙄到孩子做数学题时,往往会发现一个有趣现象:他们能够正确地将一🥳道复杂题目分解成几个小步骤,但在具体执行某个步骤时却容易出错😆。比如明明知道要用勾股定理,却在计算时搞错了公式,或者明明分🥳析出需要列方程,但在求解过程中计算失误。现在的大型语言模型在🤯数学推理方面表现出了同样的特点。 研究团队通过深入分析🌟发现了一个令人惊讶的现象:即使是GPT-4o这样的顶级模型,😅在数学问题上犯的错误中,高达99.2%都源于单个步骤的推理失🤔误,而不是整体思路错误。这就像一个经验丰富的厨师知道做一道菜🤯需要哪些步骤,但在某个具体步骤上可能会搞错调料的用量。 🥳 传统的解决方案是给AI模型提供几个完整的例题作为参考,这种🤯方法叫做"情境学习"。但研究人员发现这就像给学生看几道完整的🥳解题过程,学生可能会被无关的步骤分散注意力,或者根本找不到对🌟当前步骤有用的指导。更要命的是,如果例题与当前题目差别较大,😢反而可能误导模型的判断。 基于这些发现,研究团队提出了😍一种全新的方法,称为BoostStep。这个方法的核心思想非🤔常巧妙:不再是一开始就给出完整例题,而是在AI模型解每一个具👏体步骤时,实时提供最相关的指导。 BoostStep的😡工作方式可以用辅导老师的教学方法来类比。当学生遇到难题时,好😊的辅导老师不会直接给出答案,而是先让学生尝试解题,观察学生在🙄哪一步卡住了,然后针对性地提供这一步的解题技巧和类似例子。B😉oostStep正是模拟了这种教学方式。 具体来说,当🤯AI模型需要进行下一步推理时,BoostStep会让模型先进😂行一次"试探性尝试"。这个尝试不需要完全正确,只需要让系统了👍解模型当前想要解决什么问题。然后,系统会在预先建立的步骤级题❤️库中搜索最相似的解题步骤,将找到的相关例子提供给模型,帮助它🌟完成当前步骤的推理。 展开全文 这种方法的优势非👍常明显。首先,它提供的指导更加精准。传统方法就像给学生一本厚👍厚的参考书,学生需要自己找到有用的部分,而BoostStep😍则像一个智能助手,总是在恰当的时机提供恰当的帮助。其次,这种🌟方法大大降低了对例题相似度的要求。即使两道题目看起来完全不同😜,只要其中某些解题步骤相似,就能提供有效的指导。 为了🔥构建高质量的步骤级题库,研究团队没有简单地按照标点符号来分割😢解题过程,而是让GPT-4o根据推理内容来自然分解每个步骤。⭐这确保了题库中的每个步骤都是一个完整的推理单元,就像确保每个🚀"积木块"都是完整的一样,这样在需要时才能提供真正有用的指导💯。 在实验验证阶段,BoostStep展现出了令人印象🎉深刻的效果。在GPT-4o上,这种方法在数学基准测试中平均提👍升了4.6%的性能,而传统的几样本学习方法只能提升1.2%。😡更令人惊讶的是,在一些与题库相似度较低的多模态数学题目上,传😀统方法甚至会产生负面影响,降低0.9%的准确率,但Boost😊Step仍然能够提升2.8%。 研究团队还测试了Boo🌟stStep在"以简驭繁"方面的能力。他们用相对简单的MAT🔥H数据集中的例题来指导最先进的模型解决更困难的AIME竞赛题😆目。结果显示,即使是DeepSeek-R1这样的顶级模型,在😉BoostStep的帮助下也能在AIME测试中提升2.2%的😢表现。这证明了该方法不仅能提升性能,还能让AI模型从更简单的😆例子中学到解决复杂问题的技巧。 BoostStep还展😴现出了与现有推理策略的良好兼容性。当与树搜索算法结合时,它能🔥够同时改进候选步骤的生成质量和评估准确性,带来额外7.5%的🚀性能提升。这就像一个优秀的工具能够与其他工具完美配合,产生1🚀+1>2的效果。 从技术角度来看,BoostStep的😘核心创新在于将传统的问题级情境学习细化到了步骤级。这种细粒度😴的方法不仅提供了更精准的指导,还减少了无关信息的干扰。通过"😅先尝试、再检索、后推理"的策略,系统能够准确理解模型的当前需😆求,并提供最相关的帮助。 值得注意的是,BoostSt😴ep在不同类型的数学问题上都表现出了稳定的改进效果。无论是代🤔数问题、几何问题还是概率统计问题,这种方法都能提供有效的指导🙌。这说明了该方法的通用性和鲁棒性。 在多模态数学问题上🚀,BoostStep的优势更加明显。传统的情境学习方法在处理👏包含图表、图形的数学题时往往效果不佳,因为很难找到在视觉内容😴上完全匹配的例题。但BoostStep通过专注于推理步骤而非🤔整体问题,能够跨越视觉表现的差异,提供有效的解题指导。 😘 研究团队还进行了详细的消融实验来验证方法中各个组件的作用。😀他们发现,基于推理内容而非语法结构来分解步骤是至关重要的,这🙌确保了每个步骤都是语义完整的推理单元。同时,"先尝试"策略相😴比其他检索方法也显示出明显优势,能够更准确地理解模型的当前需🔥求。 从实际应用的角度来看,BoostStep为大语言😂模型在数学教育、科学计算、工程问题求解等领域的应用开辟了新的😎可能性。通过提供更精准的推理指导,这种方法能够让AI系统在复😢杂推理任务中表现得更加可靠和准确。 研究团队也坦诚地指❤️出了当前方法的局限性。他们使用的题库主要来源于PRM800K🤩数据集,在问题类型和难度分布上还相对单一。使用更大规模、更多🔥样化的题库可能会进一步提升效果。此外,目前使用的TF-IDF😆检索方法虽然简单有效,但专门为数学问题设计的检索器可能会带来😅更好的效果。 说到底,BoostStep代表了AI数学👏推理能力提升的一个重要方向。它不是通过让模型记住更多解题模板😉来提升性能,而是通过在推理过程中提供更智能的指导来帮助模型做😉出更好的决策。这种思路不仅在数学推理领域有价值,在其他需要复👍杂推理的任务中也可能发挥重要作用。 归根结底,这项研究😁告诉我们,有时候解决复杂问题的关键不在于拥有更多信息,而在于🤗在正确的时间获得正确的指导。就像一个好的导师不会一次性灌输所💯有知识,而是会在学生需要的时候提供恰当的帮助。BoostSt😆ep正是将这种教学智慧融入了AI系统的设计中,让机器也能够像🔥优秀的导师一样,在推理过程中获得精准的指导和支持。 Q😂&A Q1:BoostStep方法和传统的AI数学解题❤️方法有什么不同? A:传统方法是在开始解题前给AI几道😀完整的例题参考,就像给学生一本参考书让他自己找有用信息。而B🔥oostStep是在AI解每个具体步骤时实时提供最相关的指导🔥,就像有个老师在旁边,看到学生在某一步卡住了就马上给出针对性🤯的提示。这样避免了无关信息的干扰,指导更精准。 Q2:🔥为什么说现在的AI模型在数学推理上99.2%的错误都来自单步🤗推理? A:研究团队分析发现,像GPT-4o这样的先进🤯模型其实很擅长将复杂数学题分解成小步骤,知道整体该怎么解。但🤗在执行具体某个步骤时容易出错,比如用错公式、算错数字等。这就😢像一个厨师知道做菜的整个流程,但在某个具体步骤上可能会搞错调😁料用量。所以提升单步推理准确性是关键。 Q3:Boos🙌tStep能让简单例题帮助解决更难的数学问题吗? A:🔥是的,这是BoostStep的一个重要优势。研究显示即使用M🙄ATH数据集中相对简单的例题,也能帮助最先进的模型在更难的A❤️IME竞赛题上提升2.2%的表现。因为BoostStep专注😅于推理步骤而非整体问题,即使题目难度差别很大,只要某些解题步😊骤相似,就能提供有效指导。返回搜狐,查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

近日,多位浦发银行信用卡用户反映,其名下万事达“无价世界卡”🔥在境外遭遇盗刷。记者获悉,浦发银行已向部分用户提供补偿措施,👏包括积分补偿、消费返还及费用减免等。同时,浦发银行信用卡中心😜也迅速回应称,近期已监测到部分客户存在未经本人授权的异常交易🤯,并已启动风险防控机制。 然而,这一事件仍引起高度关注🥳:在移动支付盛行、跨境消费日益频繁的背景下,“隔空”盗刷是如😡何发生的?一旦损失产生,责任应如何划分?而在磁条卡仍在海外大😎量使用的现实下,支付安全风险该如何防范? 隔空盗刷如何😂发生? 与国内“刷卡必须输入密码”的普遍习惯不同,海外🙌信用卡交易中,持卡人多数场景只需提供卡号、有效期与CVV码(❤️Card Verification Value)即可完成支付😉。缺乏密码验证的流程,令信用卡信息一旦泄露,极易被复制利用。😜 CVV码由发卡行通过算法生成,并印制在卡背签名栏附近💯。它与卡号、有效期共同构成离线交易的核心验证要素,主要用于酒😊店预订、电话订票、网络购物等无需实体卡的支付。 “盗刷😉的关键往往在于CVV码。”浙江杭州一位支付行业技术专家对记者😘解释称,“卡号和有效期在很多支付环节可能被记录,若再加上CV🚀V码,几乎等同于拿到一张可交易的信用卡。” 记者了解到🙌,CVV码被盗取存在多种途径。最常见的是数据泄露,黑客通过攻😊击电商网站、支付平台甚至银行数据库,批量窃取卡片信息。暗网交😂易是另一途径,一整套包括卡号、有效期、CVV、姓名及地址的信⭐息,售价仅数美元至十几美元不等。 此外,钓鱼诈骗也较为😢普遍,犯罪分子伪造银行或支付平台网站,通过短信或邮件诱导用户😍输入信用卡信息。物理偷盗同样存在风险,一些ATM或POS机被😍安装盗录设备,同时配合针孔摄像头偷窥CVV码。 业内人🚀士分析,此次浦发“无价世界卡”事件,部分用户近期并未使用过卡😉片或访问可疑网站,大概率涉及某电商或支付平台数据泄露,被黑产😘批量盗取。 值得注意的是,犯罪团伙通常不会立即动用盗取😀的信息,而是将其绑定到具备NFC功能的手机电子钱包中,等待数🔥月后集中进行“爆发式”盗刷,以规避风控系统监测。“这就是典型😆的‘无卡支付’盗刷。”一位银行风控人士指出。 600元⭐如何刷出2万元额度? 除了盗刷行为本身,此次事件还引发😴了一个令人费解的现象:部分用户的信用卡额度仅为数百元,但盗刷🤔金额却高达数万元。 “这与海外信用卡的离线交易机制密切😊相关。”上述支付行业人士对记者说,在该模式下,商户无需实时与😡发卡行交互即可完成交易,先行放行后,再在数天或最长30天内提🤗交清算。这意味着,犯罪分子可以在短时间内集中完成多笔交易,而😁银行的实时额度系统尚未更新冻结金额,从而形成“账面可用余额虚😘高”。 一位从事支付清算的技术专家向记者解释:“离线交👏易模式下,商户先消费、后入账,结算通常可延迟数天。而国内银行😜多采用‘T+1’更新额度逻辑,两者之间存在错配,为盗刷提供了😜可乘之机。” 展开全文 更复杂的是,一些银行在境🎉外场景下会自动上调临时额度至原授信的3至5倍,以提升用户体验😡。这一机制在正常情况下便利了大额消费,但在盗刷场景下却被犯罪😁分子利用,相当于提供了额外的“杠杆空间”。业内人士分析,这也💯是为何原本额度不高的卡片,在短时间内出现数万元盗刷的原因之一😂。 责任如何划分? 在信用卡盗刷案件中,责任归属🙄长期是争议焦点。根据最高法2021年出台的司法解释,信用卡盗🥳刷案件中举证责任主要在银行。北京大成(长春)律师事务所律师葛💯仲彰认为,如果银行未能识别伪卡交易或未及时拦截异常消费,即未👏能尽到安全保障义务,应承担主要赔偿责任;而持卡人若存在信息泄😘露、延迟挂失等过错,则需自行承担部分损失。 记者了解到🤔,司法实践中,多数案件银行需承担七成以上责任。例如,华北某地🙌法院近期审理的一起案件中,持卡人王某的信用卡境外被盗刷200🎉0元。他在第一时间冻结账户并报警,法院最终判定银行未尽风控义🚀务,应承担全部赔偿责任。 但跨境交易中的维权远不如国内😉顺畅。“国际卡组织通常要求持卡人在规定时间内提交包括交易凭证👏、沟通记录在内的支持文件,否则银行无法代表客户申请拒付或退款🥳。”一位金融律师提醒,“时间优先、证据为王,这是跨境维权的基🥳本原则。” 通常来说,信用卡交易链条涉及发卡行、国际卡🙄组织、收单行、商户等多方主体。上述律师称,法院在审理时通常认🎉定消费者作为弱势一方,银行及相关机构应对外承担赔偿责任,至于🚀各方之间的责任再通过内部追偿解决。 不过,也存在法院酌😅定责任的情况。若原告在卡片保管上存在明显疏忽,法院可能判定持💯卡人与银行各自承担一定比例责任。 支付安全:磁条卡换芯😆片卡 从介质层面看,磁条卡仍是盗刷高发的重要原因。业内🤔普遍共识是,磁条卡被盗刷的概率是芯片卡的数倍。老版万事达卡多🔥数仅具备磁条功能,安全性远逊于支持EMV芯片标准的卡片。 🤯 中国市场近年来已逐步完成芯片卡替换,但在海外,磁条卡仍然🚀被大量使用。一旦持卡人持有的仍是磁条卡,境外交易的安全隐患就👏不可避免。 “从安全角度看,磁条卡确实是软肋。”前述支😘付行业人士表示,“更换芯片卡既是资金安全的需要,也能提升支付😉体验。” 据悉,万事达已在中国市场推出兼容EMV和银联😀PBOC3.0标准的新型芯片卡,实现“一芯双应用”,可同时支👏持境内外使用。与此同时,卡组织的活动与权益也已明确限定在新发😘芯片卡用户范围内,以进一步推动存量磁条卡的更新换代。 🎉前述人士称,对于普通持卡人而言,主动更换芯片卡不仅能降低盗刷😜风险,还能参与更多权益活动;而对于银行和卡组织,全面淘汰磁条🎉卡则是提升支付体系安全性的必由之路。返回搜狐,查看更多

发布于:道县
评论
全部
还没有人评论过,快来抢首评
抢首评

推荐阅读

关晓彤李昀锐海边吻戏CP感足,疑与鹿晗真分手,孟子义粉丝也破防

和讯网 2025-11-11 08:33:17 2098

15岁女孩因像张柏芝走红,于正都想蹭,上一个撞脸的贡米已被遗忘

和讯网 2025-11-11 09:06:00 3084

15岁女孩因像张柏芝走红,于正都想蹭,上一个撞脸的贡米已被遗忘

和讯网 2025-11-11 01:26:53 3067

综艺创新乏力纷纷炒剩饭?传《向往的生活》《王牌对王牌》将重启

和讯网 2025-11-11 02:13:39 7400

孙俪还在演戏,同龄人争当戏骨,邓超当导演失败荒废主业迷失综艺

和讯网 2025-11-11 09:15:32 8187

孙俪还在演戏,同龄人争当戏骨,邓超当导演失败荒废主业迷失综艺

和讯网 2025-11-11 01:58:03 8177

暑期档破三十亿略显低迷:《酱园弄》《恶意》哑炮,《荔枝》提档

和讯网 2025-11-11 08:13:23 8636

暑期档破三十亿略显低迷:《酱园弄》《恶意》哑炮,《荔枝》提档

和讯网 2025-11-11 04:32:08 3891

《聊斋:兰若寺》:创意十足,诚意满满

和讯网 2025-11-11 05:15:44 6194

《聊斋:兰若寺》:创意十足,诚意满满

和讯网 2025-11-11 03:07:52 7407

《歌手》为陈楚生单依纯争夺冠军铺垫,拉GAI垫底,强行淘汰Grace

和讯网 2025-11-11 02:05:23 3965

《歌手》为陈楚生单依纯争夺冠军铺垫,拉GAI垫底,强行淘汰Grace

和讯网 2025-11-11 05:17:54 1003

陈楚生单依纯不输原唱吴青峰蔡依林却遭吐槽难听,不排除粉丝互掐

和讯网 2025-11-11 03:56:33 3412

《生万物》暑期央视开播,看好欧豪,但杨幂才决定整部剧成败

和讯网 2025-11-11 01:45:35 9717

《生万物》暑期央视开播,看好欧豪,但杨幂才决定整部剧成败

和讯网 2025-11-11 09:31:33 6122

杨颖去巴黎时装周疯狂营销,从跌倒的地方爬起,张嘉倪已放弃扑腾

和讯网 2025-11-11 01:35:45 8470

杨颖去巴黎时装周疯狂营销,从跌倒的地方爬起,张嘉倪已放弃扑腾

和讯网 2025-11-11 03:56:47 8963

《以法之名》烂尾,导演甩锅不敢开评论,蒋欣才拿白玉兰奖就翻车

和讯网 2025-11-11 07:12:50 4040

《以法之名》烂尾,导演甩锅不敢开评论,蒋欣才拿白玉兰奖就翻车

和讯网 2025-11-11 01:01:52 7582

刘宇宁资源好!古装扮相被吐槽,却搭档刘诗诗宋祖儿李一桐演主角

和讯网 2025-11-11 06:52:00 1145

刘宇宁资源好!古装扮相被吐槽,却搭档刘诗诗宋祖儿李一桐演主角

和讯网 2025-11-11 09:55:48 5089
为您推荐中
暂时没有更多内容了……