从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
吃瓜电子官网最新热点:从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
更新时间: 浏览次数:4919
尽管大型语言模型(LLM)拥有广泛的世界知识和强大的推理能力😴,被广泛视为优秀的少样本学习者,但在处理需要大量示例的上下文🚀学习(ICL)时仍存在明显局限。 已有工作表明,即使提👏供多达上百甚至上千条示例,LLM 仍难以从中有效学习规律,其😀表现往往很快进入平台期,甚至对示例的顺序、标签偏差等较为敏感🎉。在利用上下文学习解决新任务时,LLM 往往更依赖于自身的强🎉先验以及示例的表面特征,而难以真正挖掘出示例中潜在的因果机制😎或统计依赖。 这项名为 MachineLearning😅LM 的新研究突破了这一瓶颈。该研究提出了一种轻量且可移植的😉「继续预训练」框架,无需下游微调即可直接通过上下文学习上千条🤔示例,在金融、健康、生物信息、物理等等多个领域的二分类 / ❤️多分类任务中的准确率显著超越基准模型(Qwen-2.5-7B😴-Instruct)以及最新发布的 GPT-5-mini。 🥳 相比于已有的用于表格数据的机器学习方法,Machine🤯LearningLM 几乎完全保留了 LLM 通用能力,这意😘味着它可以无缝集成到更复杂的对话工作流中。 论文链接:😁 https://arxiv.org/abs/2509.06😀806模型和数据集: https://huggingface👍.co/MachineLearningLM代码: https🌟://github.com/HaoAreYuDong/Mac😂hineLearningLM 核心创新一:百万级合成任🤩务「授人以渔」 研究团队旨在赋予 LLM 一种「举一反😅三」的元能力 —— 不依赖对真实任务数据的机械记忆,而是通过😅海量且多样化的合成任务,从根本上训练模型在大量上下文示例中挖😍掘规律并进行预测的能力。 传统的指令微调方法通常基于有😁限规模(约为千数量级)的真实任务数据,这在很大程度上限制了模👏型向新任务的泛化能力。与之相比,MachineLearnin🥳gLM 构建了一个超过 300 万合成任务的大规模预训练语料🤔库。 任务生成器基于结构因果模型(Structural💯 Causal Model, SCM)来采样生成二分类及多分😍类任务。SCM 通过有向无环图(DAG)和结构方程(采用神经😂网络与树模型实现)明确定义变量间的因果关系,能够精确控制特征🎉的边际分布、类型(如数值型或类别型)以及标签生成机制。 😢 该方法确保预训练数据与下游真实评估集没有任何重叠,从而保证😀评估过程对模型泛化能力的检验具备充分公平性。同时,通过控制示⭐例数量从数个到 1024 个不等,该机制能够专门训练模型处理😆「多示例」场景的推理能力。 核心创新二:随机森林模型「😂循循善诱」 在海量合成任务上直接训练大型语言模型(LL😢M)容易因任务质量不一致 —— 例如存在信号微弱或类别极度不⭐平衡等情况 —— 而导致训练崩溃或陷入局部最优。为解决这一问👍题,本研究引入随机森林(Random Forest)模型,利😊用其强大且稳健的建模能力,设计了如下两级过滤机制: 样🙄本级共识过滤(热身训练阶段):在热身训练中,为每个合成任务训🤯练一个随机森林模型,并引导 LLM 学习模仿其预测行为。具体🤯而言,仅保留随机森林预测结果与真实标签一致的那些样本用于 L👏LM 的训练。该方法通过提供清晰且高置信度的监督信号,使 L😂LM 初步建立起准确的上下文建模能力,尤其是数值建模能力,为😍后续过渡到自主上下文学习奠定基础。 任务级过滤(全程训练阶段😘):在整个训练过程中,除为每个任务构建随机森林模型外,还引入🤔保守随机基线(如随机猜测或坍塌到多数类的预测方法),以剔除那🤩些随机森林表现未显著优于基线的无效任务。评估指标包括机会校正😘一致性、失衡鲁棒准确率、宏平均准确率以及避免预测坍塌等指标。🙌 展开全文 为何选择随机森林?除了强大且稳健的建💯模能力,随机森林具有高度透明的决策过程,可分解为清晰的规则路😉径与特征重要性评估,这种可解释性与 LLM 的思维链(Cha😁in-of-Thought, CoT)推理模式天然契合,有助🤯于后续推进思维链预测及解释性预测任务。 同时,随机森林⭐能够提供预测置信度,为进一步减少 LLM 幻觉问题引入置信度🤩机制提供了可能。 核心创新三:高效上下文示例编码「多维🙌扩容」 在大模型时代,如何高效地在上下文学习中处理海量😍表格数据,是一项重要挑战。传统的「自然语言描述」方式(例如:🤔「收入是 29370,职业是博士,年增长率是 - 12.34🌟% → 标签:1」),占用 token 多、计算开销大,严重😂限制了实际应用中可支持的示例数量;数值型特征经分词器处理时,🥳一个小数可能被拆成多个 token,既浪费长度又可能导致数值🤩比较错误,如模型容易误认为「1.11」(1|.|11)比「1😍.9」(1|.|9)大。 为此,作者提出了三项核心优化😆策略,显著提升了上下文学习的数据容纳能力与推理效率: 😜告别「小作文」,样本用表格来组织:SpreadsheetLL🎉M 等研究已广泛证明,LLM 能很好地理解结构化表格,因此作🎉者放弃相关工作将结构化数据展开成冗长自然语句的做法,转而采用🎉紧凑的表格编码格式。 把数字「打包」成整数,告别 to⭐ken 碎片化:先遵循机器学习工程的常见操作,将所有数值基于😘训练集数据分布逐列进行 z-score 标准化;然后将 z-👏norm 下 ±4.17(绝大多数情况)的浮点数区间整体线性😉映射到 [0, 999] 的整数区间。这样,每个数值在 GP😊T 和 LLaMA 3 的词表中仅需 1 个 token 表😂示(Qwen 分词器也仅需 1 到 3 个 token),既😊节省空间,还避免了小数点和正负号单独切词带来的数值理解错误。😎该流程只是改进了传统机器学习中的数值标准化,而没有改变 LL😂M 原生分词器,因此模型的数值推理能力可以全部继承。 🚀推理也要「团购」:序列级批量预测——传统上下文学习一次只处理😢一个查询,在多样本学习时效率极低。作者将多个查询(如 50 😴条)拼成一条序列,统一前向推理,一次性输出所有预测结果。这不🥳仅大幅提升推理速度,还能在训练阶段提高自回归稳定性。 😊惊艳效果:多项能力突破 MachineLearning🤔LM 的继续预训练方案无需改变模型架构或分词器,只使用了 Q😁wen2.5-7B 基座模型和低秩适配(LoRA rank=🎉8)这种轻量级配置,MachineLearningLM 展现😂出了前所未有的上下文样本利用能力: 「千示例」上下文学😀习:模型性能随着提供的示例数量增加而持续稳定提升,从 8 条🔥示例到 1024 条示例,准确率单调增长。这样的上下文样本效🤯率是已有 LLM 都难以做到的。 远超 GPT-5-mini😅 等强大基准模型:在金融、生物信息、物理信号和医疗健康等领域😡的表格分类任务上,其纯上下文学习的准确率平均超越 GPT-5😆-mini 等强大基准模型约 13 到 16 个百分点。 😴 在无需任何任务特定训练的情况下,其准确率已能达到与需要任💯务级参数更新的随机森林模型相差无几的水平(平均相对差距在 2😂% 以内),并显著优于 K 近邻(kNN)算法。 通用❤️能力无损:最关键的是,注入 ML 能力后,模型原有的对话、知😀识和推理能力几乎完好无损。在 MMLU 基准测试中,其零样本😆准确率达 73.2%,50 样本设置下达 75.4%,与基准😢通用 LLM(Qwen-2.5-7B-Instruct)持平🙄,甚至在特定领域(如统计和物理)有一定提升,这意味着它可以无😉缝集成到更复杂的对话工作流中。 实证研究表明, Mac😂hineLearningLM 能够同时处理数值特征与自然语言🤯描述,无需像传统方法那样对文本进行分桶或转换为嵌入向量,实现👏了真正的异构(多模态)输入推理。然而,该模型仍存在一定局限,🙌例如在面对非独立同分布的时间序列数据以及类别数量极其庞大的数⭐据集时,性能尚有待提升,这也为后续研究指明了改进方向。 😜 应用领域 基于大幅提升的多样本上下文学习和数值建模能🤩力,MachineLearningLM 有望在金融、医疗健康😆与科学计算等广泛场景中扩展大型语言模型的实际应用边界。 🤗 未来展望 MachineLearningLM 为未来😘研究开辟了多个充满潜力的方向。以下是论文里列出的几个重点方向🙌: 超越文本与数字:合成多模态分类任务,使 Machi🤔neLearningLM 能够直接在海量合成数据上练习处理异🔥构信号的多模态上下文预测,这依然可以建立在表格预测的框架之上😅,例如利用 HTML 表格来嵌入图像。 通过系统优化突破上下⭐文长度限制:例如采用张量 / 流水线并行、高效内存注意力与 😜KV 缓存等系统优化技术。 不确定性预测 (Uncertai👍nty):预测的同时输出置信度(比如利用随机森林的置信度做热🚀身训练),以减少模型 OpenAI 近期提出的由于缺乏承认不😍确定性(Ho nesty a bout uncertaint😉y)引发的幻觉(Hallucination)。 提升可解释性😆 (Interpretability):叙事蒸馏与推理增强学🙌习,既可以利用底层的 SCM(变量、关系与机制)作为预测任务🤗的辅助目标,也可以从集成模型中蒸馏规则,形成紧凑、人类可读的😡推理链条。 集成检索增强方法(RAG):为 MachineL😜earningLM 集成一个检索模块,使其能在预训练和推理时🥳动态注入最相关的示例。 赋能智能体(Agent):与 Age👏nt 记忆机制(Memory)深度融合,提升其在复杂环境中利👍用多样本的上下文学习,赋予智能体强大的从大量经验记忆中挖掘和😍学习的能力。 作者介绍 本文作者:董浩宇(中国科😆学院大学)、张鹏昆(华南理工大学)、陆明哲(中国科学院大学)💯、沈言祯(斯坦福大学)、柯国霖(个人贡献者) 董浩宇:😆中国科学院大学在读博士(预计 2025 年底毕业)。研究方向😊涵盖表格与半结构化数据理解与推理、LLM 后训练与强化学习、🌟数据集与评测基准等。曾提出 SpreadsheetLLM 并😅获得 Hugging Face Paper of the D😢ay、联合发起并持续共同组织 NeurIPS 2022–20💯24 表格表征学习(TRL)系列研讨会,推动表格智能社区发展🥳。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
时隔9个月,美联储重启降息。 北京时间9月18日凌晨,🚀美联储最新的议息决议将联邦基金利率的目标区间下调25个基点至😁4%-4.25%,符合市场预期。 一年前,2024年9😁月,美联储启动了四年多来的首次降息,分别在2024年9月、1🥳1月、12月降息50个基点、25个基点、25个基点。进入20❤️25年,美联储连续5次会议维持利率不变,直至本次会议重启降息⭐。 美联储在声明中表示,近期指标表明,就业增长放缓,失💯业率小幅上升,但仍保持在低位。通胀上升,且保持了一定程度的高😜企。为支持其目标,同时考虑到风险转换到平衡,委员会决定将联邦🚀基金利率的目标区间下调25个基点至4%-4.25%。 🥳与7月议息声明相比,本次声明对就业市场的判断由“失业率依然较👏低,劳动力市场状况保持良好”转变为“就业增长放缓,失业率小幅😡上升,但仍保持在低位”,同时新增“通胀上升”的表述。在下调利😎率区间时,强调考虑到了“风险转换的平衡”。在描述调整目标区间😘的条件时,删去了“幅度和时机”的表述。 声明表示,在评😆估合适的货币政策立场时,委员会将继续监控未来的经济数据的影响😍。如果风险的发生会阻碍达成委员会的双重目标,委员会会为调整适😍当的货币政策立场做好准备。委员会的评估将考虑到大量信息,包括🤩劳动力市场指标、通胀压力和通胀预期指标、金融和国际形势发展的🤗数据等。 本次会议共有1票反对,为新任美联储理事米兰(😜Stephen I. Miran),他倾向于在本次会议上降息🤯50个基点。在上个月投出反对票的鲍曼(Michelle W.🤔 Bowman)和沃勒(Christopher J. Wal🚀ler)投票赞成了本次会议,7月他们便倾向于降息25个基点。🎉米兰被认为是特朗普政府经济议程的关键设计者,鲍曼和沃勒则是由😅现任美国总统特朗普提名的理事。美联储7名理事中,上述3人由特😊朗普提名,剩余4人由民主党政府提名。 以下是9月声明全🎉文与7月声明的比较: (删去7月原文:尽管净出口的波动💯继续影响着数据,)最近的指标表明,今年上半年经济活动的增长有😎所放缓。就业增长放缓,失业率小幅上升,但仍保持在低位(7月原😀文:失业率依然较低,劳动力市场状况保持良好)。通胀上升(本月🚀新增),且保持了一定程度的高企。 委员会力图在长期内达😆成最大就业和2%的通胀目标。关于经济前景的不确定性仍处于高位🤩。委员会注意到其双重任务面临的双面风险,并判断就业下行的风险🙌已经上升(本月新增)。 为支持其目标,同时考虑到风险转🙌换的平衡(本月新增),委员会决定将联邦基金利率的目标区间下调🎉0.25个百分点至4%-4.25%(7月原文:维持在4.25❤️%-4.5%)。在考虑对联邦基金利率目标区间(删去7月原文:😜的幅度和时机)进一步调整时,委员会将仔细评估未来的数据、不断🙌变化的前景和风险平衡。委员会将继续减持美国国债、机构债券和机👏构抵押贷款支持证券。委员会坚定地致力于支持最大限度的就业,以🤔及将通胀恢复至2%这一目标。 在评估合适的货币政策立场❤️时,委员会将继续监控未来的经济数据的影响。如果风险的发生会阻😜碍达成委员会的双重目标,委员会会为调整适当的货币政策立场做好🙌准备。委员会的评估将考虑到大量信息,包括劳动力市场指标、通胀😍压力和通胀预期指标、金融和国际形势发展的数据等。 投票😆赞成者包括:FOMC委员会主席(美联储主席)鲍威尔(Jero😎me H. Powell, Chairman);委员会副主席🌟(纽约联储主席)威廉姆斯(John C. Williams,🔥Vice Chairman);(美联储理事)Michael 😁S. Barr;[本月新增:(美联储理事)Michelle ⭐W. Bowman」];(波士顿联储主席)Susan M. 🤔Collins;(美联储理事)Lisa D. Cook;(芝😂加哥联储主席)Austan D. Goolsbee;(美联储🙄理事)Philip N. Jefferson;(圣路易斯联储👏主席)Alberto G. Musalem; (堪萨斯城联储😅主席)Jeffrey R. Schmid;[本月新增:(美联😡储理事)Christopher J. Waller];投票反😴对这一行动的有米兰(Stephen I. Miran)[7月🙌原文:鲍曼(Michelle W. Bowman)和沃勒(C😢hristopher J. Waller)],他倾向于在本次🤗会议上降息0.5个百分点(7月原文:0.25个百分点)。[删🙄去7月原文:库格勒(Adriana D. Kugler)缺席🤯,并未参与投票]。返回搜狐,查看更多
推荐阅读
《哈利·波特》“赫敏”扮演者因超速被禁止驾驶六个月!两年内已违规驾驶四次
9248
《歌手2025》监制洪啸回应争议话题 揭秘Grace淘汰真相与总决赛赛制
4249
姚晨晒照为儿子庆生!12岁小土豆脸颊比心笑容灿烂
8640
黄杨钿甜爸爸回应网传过亿别墅!“天价耳环”其实就一百多元
3056
黄杨钿甜“天价耳环”事件最新通报:未发现其父存在其他违法违规行为
6892
黄杨钿甜《冰湖重生》戏份将换人补拍? 知情人:可能会换脸
2146
古巨基晒带娃视频庆祝结婚11周年!儿子玩蹦床比心超可爱
8793
张凯丽女儿回应被质疑公主病:无中生有、断章取义
3708
75岁导演黄泰来去世!曾执导《如来神掌》《法内情》等电影
4718
网红钟美美时隔一年再谈被家暴:有时候连发出声音都是一种错误
3583
《亮剑》拍短剧,没有李云龙?“碰瓷”IP成短剧新营销密码
7665
前TVB演员吴博君捐赠遗体 曾患渐冻人症与病魔搏斗7年
9483
张凯丽女儿回应皇族传闻:我也没有任何特殊
4651
《美国偶像》音乐总监夫妻被枪杀 目前22岁的嫌疑人已被捕
1743
向佐工作室回应被指欠赌债一事:谣言止于智者,美高梅已经解释
6921
董璇张维伊婚宴照疑曝光 女方穿白色旗袍一脸灿笑
1409
美高梅回应向佐欠赌债未还:目前所有款项已全数清还
6172
检方对文泰一涉强奸案一审判决不服 将再次起诉
3920
谈“任性害死”梅艳芳、刘亦菲非“天赋型”……王晶为何变身“港圈于正”?
7859
暑期剧集半程复盘:《藏海传》《临江仙》领跑,市场整体遇冷
2033
美国富二代被控谋杀华人妻子及岳父母 近日在狱中自杀身亡
7524