从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
吃瓜电子官网最新热点:从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
更新时间: 浏览次数:7604
尽管大型语言模型(LLM)拥有广泛的世界知识和强大的推理能力🤩,被广泛视为优秀的少样本学习者,但在处理需要大量示例的上下文💯学习(ICL)时仍存在明显局限。 已有工作表明,即使提🙌供多达上百甚至上千条示例,LLM 仍难以从中有效学习规律,其😎表现往往很快进入平台期,甚至对示例的顺序、标签偏差等较为敏感😘。在利用上下文学习解决新任务时,LLM 往往更依赖于自身的强❤️先验以及示例的表面特征,而难以真正挖掘出示例中潜在的因果机制😊或统计依赖。 这项名为 MachineLearning😴LM 的新研究突破了这一瓶颈。该研究提出了一种轻量且可移植的😂「继续预训练」框架,无需下游微调即可直接通过上下文学习上千条😅示例,在金融、健康、生物信息、物理等等多个领域的二分类 / 🔥多分类任务中的准确率显著超越基准模型(Qwen-2.5-7B🙄-Instruct)以及最新发布的 GPT-5-mini。 😴 相比于已有的用于表格数据的机器学习方法,Machine😆LearningLM 几乎完全保留了 LLM 通用能力,这意🚀味着它可以无缝集成到更复杂的对话工作流中。 论文链接:🚀 https://arxiv.org/abs/2509.06😀806模型和数据集: https://huggingface🙄.co/MachineLearningLM代码: https😉://github.com/HaoAreYuDong/Mac🔥hineLearningLM 核心创新一:百万级合成任👍务「授人以渔」 研究团队旨在赋予 LLM 一种「举一反🎉三」的元能力 —— 不依赖对真实任务数据的机械记忆,而是通过😡海量且多样化的合成任务,从根本上训练模型在大量上下文示例中挖😜掘规律并进行预测的能力。 传统的指令微调方法通常基于有😂限规模(约为千数量级)的真实任务数据,这在很大程度上限制了模💯型向新任务的泛化能力。与之相比,MachineLearnin😊gLM 构建了一个超过 300 万合成任务的大规模预训练语料😉库。 任务生成器基于结构因果模型(Structural👍 Causal Model, SCM)来采样生成二分类及多分😊类任务。SCM 通过有向无环图(DAG)和结构方程(采用神经😴网络与树模型实现)明确定义变量间的因果关系,能够精确控制特征🙄的边际分布、类型(如数值型或类别型)以及标签生成机制。 🌟 该方法确保预训练数据与下游真实评估集没有任何重叠,从而保证🤔评估过程对模型泛化能力的检验具备充分公平性。同时,通过控制示😢例数量从数个到 1024 个不等,该机制能够专门训练模型处理🚀「多示例」场景的推理能力。 核心创新二:随机森林模型「🚀循循善诱」 在海量合成任务上直接训练大型语言模型(LL🙄M)容易因任务质量不一致 —— 例如存在信号微弱或类别极度不🤯平衡等情况 —— 而导致训练崩溃或陷入局部最优。为解决这一问🚀题,本研究引入随机森林(Random Forest)模型,利🤗用其强大且稳健的建模能力,设计了如下两级过滤机制: 样😍本级共识过滤(热身训练阶段):在热身训练中,为每个合成任务训🥳练一个随机森林模型,并引导 LLM 学习模仿其预测行为。具体🤩而言,仅保留随机森林预测结果与真实标签一致的那些样本用于 L😡LM 的训练。该方法通过提供清晰且高置信度的监督信号,使 L😊LM 初步建立起准确的上下文建模能力,尤其是数值建模能力,为🔥后续过渡到自主上下文学习奠定基础。 任务级过滤(全程训练阶段👍):在整个训练过程中,除为每个任务构建随机森林模型外,还引入🌟保守随机基线(如随机猜测或坍塌到多数类的预测方法),以剔除那😍些随机森林表现未显著优于基线的无效任务。评估指标包括机会校正🤔一致性、失衡鲁棒准确率、宏平均准确率以及避免预测坍塌等指标。🥳 展开全文 为何选择随机森林?除了强大且稳健的建😡模能力,随机森林具有高度透明的决策过程,可分解为清晰的规则路🎉径与特征重要性评估,这种可解释性与 LLM 的思维链(Cha😊in-of-Thought, CoT)推理模式天然契合,有助😴于后续推进思维链预测及解释性预测任务。 同时,随机森林🤗能够提供预测置信度,为进一步减少 LLM 幻觉问题引入置信度😀机制提供了可能。 核心创新三:高效上下文示例编码「多维🤔扩容」 在大模型时代,如何高效地在上下文学习中处理海量🤯表格数据,是一项重要挑战。传统的「自然语言描述」方式(例如:🎉「收入是 29370,职业是博士,年增长率是 - 12.34🙄% → 标签:1」),占用 token 多、计算开销大,严重🤗限制了实际应用中可支持的示例数量;数值型特征经分词器处理时,🤗一个小数可能被拆成多个 token,既浪费长度又可能导致数值😜比较错误,如模型容易误认为「1.11」(1|.|11)比「1😀.9」(1|.|9)大。 为此,作者提出了三项核心优化😢策略,显著提升了上下文学习的数据容纳能力与推理效率: 😀告别「小作文」,样本用表格来组织:SpreadsheetLL🤔M 等研究已广泛证明,LLM 能很好地理解结构化表格,因此作🙄者放弃相关工作将结构化数据展开成冗长自然语句的做法,转而采用😢紧凑的表格编码格式。 把数字「打包」成整数,告别 to🎉ken 碎片化:先遵循机器学习工程的常见操作,将所有数值基于😡训练集数据分布逐列进行 z-score 标准化;然后将 z-😎norm 下 ±4.17(绝大多数情况)的浮点数区间整体线性😍映射到 [0, 999] 的整数区间。这样,每个数值在 GP🎉T 和 LLaMA 3 的词表中仅需 1 个 token 表😡示(Qwen 分词器也仅需 1 到 3 个 token),既😍节省空间,还避免了小数点和正负号单独切词带来的数值理解错误。😆该流程只是改进了传统机器学习中的数值标准化,而没有改变 LL😎M 原生分词器,因此模型的数值推理能力可以全部继承。 🤔推理也要「团购」:序列级批量预测——传统上下文学习一次只处理🔥一个查询,在多样本学习时效率极低。作者将多个查询(如 50 😜条)拼成一条序列,统一前向推理,一次性输出所有预测结果。这不😂仅大幅提升推理速度,还能在训练阶段提高自回归稳定性。 🤔惊艳效果:多项能力突破 MachineLearning😅LM 的继续预训练方案无需改变模型架构或分词器,只使用了 Q👍wen2.5-7B 基座模型和低秩适配(LoRA rank=🤔8)这种轻量级配置,MachineLearningLM 展现🎉出了前所未有的上下文样本利用能力: 「千示例」上下文学😆习:模型性能随着提供的示例数量增加而持续稳定提升,从 8 条🔥示例到 1024 条示例,准确率单调增长。这样的上下文样本效⭐率是已有 LLM 都难以做到的。 远超 GPT-5-mini😁 等强大基准模型:在金融、生物信息、物理信号和医疗健康等领域👏的表格分类任务上,其纯上下文学习的准确率平均超越 GPT-5😁-mini 等强大基准模型约 13 到 16 个百分点。 🙌 在无需任何任务特定训练的情况下,其准确率已能达到与需要任🌟务级参数更新的随机森林模型相差无几的水平(平均相对差距在 2😴% 以内),并显著优于 K 近邻(kNN)算法。 通用😊能力无损:最关键的是,注入 ML 能力后,模型原有的对话、知🙄识和推理能力几乎完好无损。在 MMLU 基准测试中,其零样本😎准确率达 73.2%,50 样本设置下达 75.4%,与基准😅通用 LLM(Qwen-2.5-7B-Instruct)持平😴,甚至在特定领域(如统计和物理)有一定提升,这意味着它可以无😊缝集成到更复杂的对话工作流中。 实证研究表明, Mac⭐hineLearningLM 能够同时处理数值特征与自然语言😢描述,无需像传统方法那样对文本进行分桶或转换为嵌入向量,实现🤔了真正的异构(多模态)输入推理。然而,该模型仍存在一定局限,😜例如在面对非独立同分布的时间序列数据以及类别数量极其庞大的数🥳据集时,性能尚有待提升,这也为后续研究指明了改进方向。 🙄 应用领域 基于大幅提升的多样本上下文学习和数值建模能😜力,MachineLearningLM 有望在金融、医疗健康🔥与科学计算等广泛场景中扩展大型语言模型的实际应用边界。 🤯 未来展望 MachineLearningLM 为未来😊研究开辟了多个充满潜力的方向。以下是论文里列出的几个重点方向👍: 超越文本与数字:合成多模态分类任务,使 Machi😊neLearningLM 能够直接在海量合成数据上练习处理异😀构信号的多模态上下文预测,这依然可以建立在表格预测的框架之上🤗,例如利用 HTML 表格来嵌入图像。 通过系统优化突破上下😁文长度限制:例如采用张量 / 流水线并行、高效内存注意力与 🤯KV 缓存等系统优化技术。 不确定性预测 (Uncertai🎉nty):预测的同时输出置信度(比如利用随机森林的置信度做热🎉身训练),以减少模型 OpenAI 近期提出的由于缺乏承认不🤯确定性(Ho nesty a bout uncertaint😅y)引发的幻觉(Hallucination)。 提升可解释性😂 (Interpretability):叙事蒸馏与推理增强学🎉习,既可以利用底层的 SCM(变量、关系与机制)作为预测任务🙄的辅助目标,也可以从集成模型中蒸馏规则,形成紧凑、人类可读的😊推理链条。 集成检索增强方法(RAG):为 MachineL😅earningLM 集成一个检索模块,使其能在预训练和推理时😉动态注入最相关的示例。 赋能智能体(Agent):与 Age😊nt 记忆机制(Memory)深度融合,提升其在复杂环境中利🤩用多样本的上下文学习,赋予智能体强大的从大量经验记忆中挖掘和🚀学习的能力。 作者介绍 本文作者:董浩宇(中国科😊学院大学)、张鹏昆(华南理工大学)、陆明哲(中国科学院大学)🎉、沈言祯(斯坦福大学)、柯国霖(个人贡献者) 董浩宇:💯中国科学院大学在读博士(预计 2025 年底毕业)。研究方向😡涵盖表格与半结构化数据理解与推理、LLM 后训练与强化学习、😡数据集与评测基准等。曾提出 SpreadsheetLLM 并🥳获得 Hugging Face Paper of the D🎉ay、联合发起并持续共同组织 NeurIPS 2022–20❤️24 表格表征学习(TRL)系列研讨会,推动表格智能社区发展😊。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
她并不是说“我不屑演农村人”,而是坦言“演不好”——这就像你🤯明明知道自己不擅长跳民族舞,非要你去跳,还要被骂“你看不起民🚀族舞”?她自己也在视频中说:“电视机前的朋友们,如果你们有农⭐村戏,来找我看看我,我其实是…
推荐阅读
共4个版本!2026年《故宫日历》如约而至
1739
扎实推进“小化工”“小医药” 和黑加油点“打非治违”
3586
加剧餐饮市场“内卷” 价格体系与行业结构有失衡风险
1640
这些常见食物其实是“盐刺客”
1428
国民经济 稳中有进
5593
中国企业500强,南京9家企业上榜
7798
政策效果继续显现 主要数据指标总体平稳
7599
南京市教育局回应“中小学秋假”
9230
_南京晨报_2025年09月16日A07
7908
溧水洪蓝街道姜家村开展网络安全主题活动
9474
国家发展改革委等四部门 研究做好遏制“天价”月饼工作
9184
红山街道城管部门营造文明出行环境
6424
2025“活力中国调研行”江苏主题采访活动启动
3496
鼓楼象山社区: 孩子们巧手焕新,打造儿童友好议事厅
1760
关注孕期营养 筑牢“三级预防”屏障
9621
药房取药须注意和核对的那些事
7566
江浦街道深耕“绣花功夫” 激活城市治理效能
9307
网络安全 伴我同行
7898
英伟达违反反垄断法 市场监管总局决定实施进一步调查
9350
65岁以上老人免费体检
4952
看社区口腔医生书写“长情处方”
2158