从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

吃瓜电子官网最新热点：从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

更新时间：2025-11-16 12:16:52　浏览次数：4557

尽管大型语言模型（LLM）拥有广泛的世界知识和强大的推理能力😜，被广泛视为优秀的少样本学习者，但在处理需要大量示例的上下文😁学习（ICL）时仍存在明显局限。已有工作表明，即使提👍供多达上百甚至上千条示例，LLM 仍难以从中有效学习规律，其🤗表现往往很快进入平台期，甚至对示例的顺序、标签偏差等较为敏感👍。在利用上下文学习解决新任务时，LLM 往往更依赖于自身的强😢先验以及示例的表面特征，而难以真正挖掘出示例中潜在的因果机制⭐或统计依赖。这项名为 MachineLearning🚀LM 的新研究突破了这一瓶颈。该研究提出了一种轻量且可移植的🙄「继续预训练」框架，无需下游微调即可直接通过上下文学习上千条👏示例，在金融、健康、生物信息、物理等等多个领域的二分类 / 🤗多分类任务中的准确率显著超越基准模型（Qwen-2.5-7B😘-Instruct）以及最新发布的 GPT-5-mini。 🌟 相比于已有的用于表格数据的机器学习方法，Machine💯LearningLM 几乎完全保留了 LLM 通用能力，这意🤔味着它可以无缝集成到更复杂的对话工作流中。论文链接:😁 https://arxiv.org/abs/2509.06👏806模型和数据集: https://huggingface😴.co/MachineLearningLM代码: https😜://github.com/HaoAreYuDong/Mac😆hineLearningLM 核心创新一：百万级合成任🤩务「授人以渔」研究团队旨在赋予 LLM 一种「举一反😴三」的元能力 —— 不依赖对真实任务数据的机械记忆，而是通过👏海量且多样化的合成任务，从根本上训练模型在大量上下文示例中挖😊掘规律并进行预测的能力。传统的指令微调方法通常基于有😍限规模（约为千数量级）的真实任务数据，这在很大程度上限制了模🤗型向新任务的泛化能力。与之相比，MachineLearnin😆gLM 构建了一个超过 300 万合成任务的大规模预训练语料🙌库。任务生成器基于结构因果模型（Structural🙄 Causal Model, SCM）来采样生成二分类及多分❤️类任务。SCM 通过有向无环图（DAG）和结构方程（采用神经😴网络与树模型实现）明确定义变量间的因果关系，能够精确控制特征👏的边际分布、类型（如数值型或类别型）以及标签生成机制。 😂 该方法确保预训练数据与下游真实评估集没有任何重叠，从而保证❤️评估过程对模型泛化能力的检验具备充分公平性。同时，通过控制示❤️例数量从数个到 1024 个不等，该机制能够专门训练模型处理😀「多示例」场景的推理能力。核心创新二：随机森林模型「👏循循善诱」在海量合成任务上直接训练大型语言模型（LL💯M）容易因任务质量不一致 —— 例如存在信号微弱或类别极度不😜平衡等情况 —— 而导致训练崩溃或陷入局部最优。为解决这一问😂题，本研究引入随机森林（Random Forest）模型，利😘用其强大且稳健的建模能力，设计了如下两级过滤机制：样⭐本级共识过滤（热身训练阶段）：在热身训练中，为每个合成任务训😴练一个随机森林模型，并引导 LLM 学习模仿其预测行为。具体🎉而言，仅保留随机森林预测结果与真实标签一致的那些样本用于 L🌟LM 的训练。该方法通过提供清晰且高置信度的监督信号，使 L🙌LM 初步建立起准确的上下文建模能力，尤其是数值建模能力，为🌟后续过渡到自主上下文学习奠定基础。任务级过滤（全程训练阶段🔥）：在整个训练过程中，除为每个任务构建随机森林模型外，还引入🤩保守随机基线（如随机猜测或坍塌到多数类的预测方法），以剔除那🎉些随机森林表现未显著优于基线的无效任务。评估指标包括机会校正❤️一致性、失衡鲁棒准确率、宏平均准确率以及避免预测坍塌等指标。🙌 展开全文为何选择随机森林？除了强大且稳健的建🙌模能力，随机森林具有高度透明的决策过程，可分解为清晰的规则路😂径与特征重要性评估，这种可解释性与 LLM 的思维链（Cha👏in-of-Thought, CoT）推理模式天然契合，有助😊于后续推进思维链预测及解释性预测任务。同时，随机森林😂能够提供预测置信度，为进一步减少 LLM 幻觉问题引入置信度💯机制提供了可能。核心创新三：高效上下文示例编码「多维😅扩容」在大模型时代，如何高效地在上下文学习中处理海量😎表格数据，是一项重要挑战。传统的「自然语言描述」方式（例如：👏「收入是 29370，职业是博士，年增长率是 - 12.34😁% → 标签：1」），占用 token 多、计算开销大，严重👍限制了实际应用中可支持的示例数量；数值型特征经分词器处理时，🤗一个小数可能被拆成多个 token，既浪费长度又可能导致数值🙌比较错误，如模型容易误认为「1.11」（1|.|11）比「1😍.9」（1|.|9）大。为此，作者提出了三项核心优化🌟策略，显著提升了上下文学习的数据容纳能力与推理效率： 👏告别「小作文」，样本用表格来组织：SpreadsheetLL😉M 等研究已广泛证明，LLM 能很好地理解结构化表格，因此作😀者放弃相关工作将结构化数据展开成冗长自然语句的做法，转而采用❤️紧凑的表格编码格式。把数字「打包」成整数，告别 to🥳ken 碎片化：先遵循机器学习工程的常见操作，将所有数值基于🤗训练集数据分布逐列进行 z-score 标准化；然后将 z-🤩norm 下 ±4.17（绝大多数情况）的浮点数区间整体线性😊映射到 [0, 999] 的整数区间。这样，每个数值在 GP👏T 和 LLaMA 3 的词表中仅需 1 个 token 表😆示（Qwen 分词器也仅需 1 到 3 个 token），既🚀节省空间，还避免了小数点和正负号单独切词带来的数值理解错误。🙌该流程只是改进了传统机器学习中的数值标准化，而没有改变 LL🥳M 原生分词器，因此模型的数值推理能力可以全部继承。 😘推理也要「团购」：序列级批量预测——传统上下文学习一次只处理😢一个查询，在多样本学习时效率极低。作者将多个查询（如 50 🚀条）拼成一条序列，统一前向推理，一次性输出所有预测结果。这不💯仅大幅提升推理速度，还能在训练阶段提高自回归稳定性。 😍惊艳效果：多项能力突破 MachineLearning🤯LM 的继续预训练方案无需改变模型架构或分词器，只使用了 Q😂wen2.5-7B 基座模型和低秩适配（LoRA rank=🎉8）这种轻量级配置，MachineLearningLM 展现😢出了前所未有的上下文样本利用能力：「千示例」上下文学👍习：模型性能随着提供的示例数量增加而持续稳定提升，从 8 条😘示例到 1024 条示例，准确率单调增长。这样的上下文样本效😅率是已有 LLM 都难以做到的。远超 GPT-5-mini❤️ 等强大基准模型：在金融、生物信息、物理信号和医疗健康等领域😆的表格分类任务上，其纯上下文学习的准确率平均超越 GPT-5😊-mini 等强大基准模型约 13 到 16 个百分点。 😉 在无需任何任务特定训练的情况下，其准确率已能达到与需要任😀务级参数更新的随机森林模型相差无几的水平（平均相对差距在 2🤗% 以内），并显著优于 K 近邻（kNN）算法。通用😴能力无损：最关键的是，注入 ML 能力后，模型原有的对话、知😘识和推理能力几乎完好无损。在 MMLU 基准测试中，其零样本🤩准确率达 73.2%，50 样本设置下达 75.4%，与基准😉通用 LLM（Qwen-2.5-7B-Instruct）持平🎉，甚至在特定领域（如统计和物理）有一定提升，这意味着它可以无😀缝集成到更复杂的对话工作流中。实证研究表明， Mac😡hineLearningLM 能够同时处理数值特征与自然语言😘描述，无需像传统方法那样对文本进行分桶或转换为嵌入向量，实现😁了真正的异构（多模态）输入推理。然而，该模型仍存在一定局限，🤩例如在面对非独立同分布的时间序列数据以及类别数量极其庞大的数😂据集时，性能尚有待提升，这也为后续研究指明了改进方向。 😅 应用领域基于大幅提升的多样本上下文学习和数值建模能😅力，MachineLearningLM 有望在金融、医疗健康🤯与科学计算等广泛场景中扩展大型语言模型的实际应用边界。 😁 未来展望 MachineLearningLM 为未来🎉研究开辟了多个充满潜力的方向。以下是论文里列出的几个重点方向😘：超越文本与数字：合成多模态分类任务，使 Machi🎉neLearningLM 能够直接在海量合成数据上练习处理异😅构信号的多模态上下文预测，这依然可以建立在表格预测的框架之上😍，例如利用 HTML 表格来嵌入图像。通过系统优化突破上下😜文长度限制：例如采用张量 / 流水线并行、高效内存注意力与 👏KV 缓存等系统优化技术。不确定性预测 (Uncertai😁nty)：预测的同时输出置信度（比如利用随机森林的置信度做热😴身训练），以减少模型 OpenAI 近期提出的由于缺乏承认不😍确定性（Ho nesty a bout uncertaint🤩y）引发的幻觉（Hallucination）。提升可解释性🌟 (Interpretability)：叙事蒸馏与推理增强学⭐习，既可以利用底层的 SCM（变量、关系与机制）作为预测任务🚀的辅助目标，也可以从集成模型中蒸馏规则，形成紧凑、人类可读的⭐推理链条。集成检索增强方法（RAG）：为 MachineL😜earningLM 集成一个检索模块，使其能在预训练和推理时👍动态注入最相关的示例。赋能智能体（Agent）：与 Age😀nt 记忆机制（Memory）深度融合，提升其在复杂环境中利🔥用多样本的上下文学习，赋予智能体强大的从大量经验记忆中挖掘和😜学习的能力。作者介绍本文作者：董浩宇（中国科😢学院大学）、张鹏昆（华南理工大学）、陆明哲（中国科学院大学）🥳、沈言祯（斯坦福大学）、柯国霖（个人贡献者）董浩宇：😎中国科学院大学在读博士（预计 2025 年底毕业）。研究方向😴涵盖表格与半结构化数据理解与推理、LLM 后训练与强化学习、😊数据集与评测基准等。曾提出 SpreadsheetLLM 并😀获得 Hugging Face Paper of the D💯ay、联合发起并持续共同组织 NeurIPS 2022–20🚀24 表格表征学习（TRL）系列研讨会，推动表格智能社区发展😜。返回搜狐，查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

文 | 即时刘说文 | 即时刘说在Labub🙌u爆火时，它甚至被市场炒成了 “收藏品”，一位经济领域的大佬❤️和我聊起这事时直言：把 Labubu 当收藏品炒作，本质是个😍伪命题。大佬给出的理由很明确 ——Labubu 更偏向潮流消😀费品，它的市场价值多靠情绪价值和资本投机撑起来，既没有收藏品😜该有的 “系统性稀缺性”，也缺乏足够的IP深度。聊到🤩这个 “伪命题”，我不由联想到了即时零售行业里的闪电仓—— 😴它现在似乎也面临着类似的 “认知疑问”。目前即时零售😜平台端公布的市面上闪电仓数量超 5 万家，但依我和很多行业同😎仁的观察判断，真实仍在落地运营的数量恐怕没这么多；更关键的是😍，即便按这个规模算，整个行业里的闪电仓品牌也只有数百个，市面🤯上绝大多数闪电仓其实都是加盟模式，其中真正符合商业逻辑、具备🤩可持续性的品牌，或许寥寥无几。除了惠宜选的仓店数突破2500😆 家，其他绝大多数一线闪电仓品牌，比如小柴购、乐购达、优购哆😉、快客达等品牌仓店数在几百家左右；至于更多小品牌，仓店数甚至😡不足 20 家。所以，刘老实认为有必要和大家一起讨论😘：当下的闪电仓加盟，到底是不是又一个 “伪命题”？传👍统加盟的四大门槛，闪电仓能跨过几个？传统的品牌加盟模🎉型通常建立在四个基础之上，这也是品牌放加盟需满足的核心条件：😎 成熟的商业模型：即有品牌直营店验证这一商业模式的可行👍性和盈利性；一定的品牌性：即便品牌目前仍不具备品牌力🥳，后续也要加强对品牌的打造；较强的运营能力：总部需具😎备全流程支持系统和数字化运营工具；一定的供应链能力：😁很多品牌本质上主要依靠供应链盈利（如瑞幸、蜜雪冰城等）。 🙄 但放眼当下的闪电仓市场，绝大多数品牌似乎难以达标： 😅 首先，缺乏经过充分验证的直营模型。仓店品牌虽多，但有些仓店🔥甚至都没有自己的直营店，加盟后往往是能 “摸黑过河”； 🤗 其次，品牌建设几乎为零。目前，消费者认的是平台标识（美团闪🚀购、淘宝闪购、京东秒送），而非仓品牌本身；且目前即时零售平台👏用户主要依靠搜索商品关键词购物，特定到某闪电仓品牌购物的占比🔥相对较少；再次，运营支持系统薄弱。尽管大多数品牌都提😂供运营服务，并赚取加盟商的销售抽点，但很多品牌在选品、定价、😉动销策略等关键环节仍缺乏精细化管理；最致命的是第四点😴：供应链能力缺失。绝大多数闪电仓品牌没有自己的供应链，更无自🤗建中心仓，加盟商的货源大都来自 1688、拼多多等平台，导致🤩商品质量参差不齐、同质化严重。其实并非大多数闪电仓品🥳牌不想做自己的供应链，而是先天条件不足。展开全文 😴 闪电仓与便利店、餐饮等传统实体加盟存在本质差异：闪电仓做⭐的是线上半径生意（多为 3-5 公里），其密度天花板非常低。🥳即便在北京、上海这样的超大型城市，同一品牌目前也很难支撑超过⭐100 个仓店同时健康运营，这也切断了绝大多数品牌方打造自身🙄供应链的想法。然许多品牌也在平台没有区域保护机制的情💯况下进行全国招商加盟，导致区域内卷加剧、单仓盈利困难；这种 😀“一套货盘打全国”的模式，显然难以适应不同区域的消费差异。 😁 可以说，除了极少数品牌自建仓配体系外，绝大多数闪电仓在🤔供应链端几乎毫无壁垒—— 而这恰恰是加盟模型中最核心的盈利来🌟源之一。面对这些问题，我们需要思考：这是商业模式本身👏的问题，还是行业发展的阶段性问题？对此，市场存在两种不同观点👏：有观点认为，闪电仓仍处于早期发展阶段，目前的问题并😡非模式缺陷，而是行业尚未进入成熟期。正如电商早期一样，混乱与🌟整合是必经之路，随着市场出清和资本筛选，最终能留下的品牌或将🙌建立起真正的供应链和运营能力。也有不少人和我持相同看🙄法：如果绝大多数参与者始终依赖低质货源、缺乏品牌认知、只能在😁平台流量红利中 “薅羊毛”，那么闪电仓加盟很可能只是一个 “🤔看起来很美” 的伪命题。因为它吸引了很多并非真正的创业者，而🤗是追逐风口的投机者入局 —— 正如 Labubu 的炒作逻辑😁一样，情绪和资本驱动之下，缺乏可持续的根基。所以，我😁们不必急于给闪电仓加盟是否是伪命题下定论，但必须提出更尖锐的🔥核心疑问： 1、在没有供应链控制力的情况下，闪电仓品牌😘究竟靠什么为加盟商提供长期价值？ 2、是走区域为王的精❤️细化运营之路，还是继续走全国招商加盟的扩张之路？ 3、😀平台政策一旦变动（如抽成比例或流量分配调整），对平台依赖度极🔥高的闪电仓该如何生存？ 4、如果消费者只认平台、不认仓🙌品牌，那么加盟的 “品牌溢价” 究竟存在于哪里？ 5、😀闪电仓要想提升单量，除了卷价格，增加sku外，是否能找到真正😉的解锁钥匙？ 6、闪电仓是否适合搞私域，又如何打造自己😎的私域？ ...... 这些问题并不容易回答，但😉却值得每一个参与者深思。闪电仓是否将成为即时零售的基础设施，🙌抑或只是资本助推下的又一波泡沫？答案可能要在未来两三年内才能💯真正浮现。而在那之前，保持清醒的批判性思考，或许比盲目入场更🤩加重要—— 尤其是对行业小白而言。对此，你有什么高见⭐，也希望在评论区和刘老实一起互动讨论。返回搜狐，查看更多

还没有人评论过，快来抢首评

抢首评

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

吃瓜电子官网最新热点：从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

推荐阅读

中国茶饮，「占领」华尔街

又一家AI公司，惹怒好莱坞

集团管控，要警惕“平西王”

小核酸的风，继续吹

华为也来凑热闹，杭州的发布会扎堆了

CIO眼中的零售业：术与道并重，接受“卷”是常态 | 2025 ITValue Summit 数字价值年会

【钛晨报】工信部就智能网联汽车组合驾驶辅助相关标准公开征求意见；东风成立新合资公司，无形资产出资物包括猛士商标；香港证监会考虑加强对财经网红的监管

产业资本逆势增持银行股，用真金白银传递信心

储能板块迎来爆发，摩根大通看好的“V型反转”能否成为现实？

三股势力，抢食5万亿餐饮市场

汇源果汁，战端再起

华与华继续发财，罗永浩阻挡不了

甲骨文“一树梨花压海棠”

用"任务"识人，不万能，但管用

贾国龙错在太老了

方建华：SOFC何以成为破解AI能源困局的"六边形战士"？

【钛晨报】服务消费迎政策利好，入境游、赛事经济、中高端医疗站上风口；传阿里腾讯再“拆墙”，淘宝拟入驻微信小程序；小鹏汇天回应长春航展eVTOL事故

汽车行业如此卷，为什么还有新人要进来？

我国的“亚洲锂腰带”，会是下一个稀土级王牌吗？

方建华：“合肥模式”还是“合肥现象”？

看不见的需求

从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

吃瓜电子官网最新热点：从少样本到千样本！MachineLearningLM给大模型上下文学习装上「机器学习引擎」

长按复制以下链接，粘贴给好友吧！

中国茶饮，「占领」华尔街

又一家AI公司，惹怒好莱坞

集团管控，要警惕“平西王”

小核酸的风，继续吹

华为也来凑热闹，杭州的发布会扎堆了

CIO眼中的零售业：术与道并重，接受“卷”是常态 | 2025 ITValue Summit 数字价值年会

【钛晨报】工信部就智能网联汽车组合驾驶辅助相关标准公开征求意见；东风成立新合资公司，无形资产出资物包括猛士商标；香港证监会考虑加强对财经网红的监管

产业资本逆势增持银行股，用真金白银传递信心

储能板块迎来爆发，摩根大通看好的“V型反转”能否成为现实？

三股势力，抢食5万亿餐饮市场

汇源果汁，战端再起

华与华继续发财，罗永浩阻挡不了

甲骨文“一树梨花压海棠”

用"任务"识人，不万能，但管用

贾国龙错在太老了

方建华：SOFC何以成为破解AI能源困局的"六边形战士"？

【钛晨报】服务消费迎政策利好，入境游、赛事经济、中高端医疗站上风口；传阿里腾讯再“拆墙”，淘宝拟入驻微信小程序；小鹏汇天回应长春航展eVTOL事故

汽车行业如此卷，为什么还有新人要进来？

我国的“亚洲锂腰带”，会是下一个稀土级王牌吗？

方建华：“合肥模式”还是“合肥现象”？

看不见的需求