从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
吃瓜电子官网最新热点:从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
更新时间: 浏览次数:9191
尽管大型语言模型(LLM)拥有广泛的世界知识和强大的推理能力😴,被广泛视为优秀的少样本学习者,但在处理需要大量示例的上下文🚀学习(ICL)时仍存在明显局限。 已有工作表明,即使提👏供多达上百甚至上千条示例,LLM 仍难以从中有效学习规律,其😀表现往往很快进入平台期,甚至对示例的顺序、标签偏差等较为敏感🎉。在利用上下文学习解决新任务时,LLM 往往更依赖于自身的强🎉先验以及示例的表面特征,而难以真正挖掘出示例中潜在的因果机制😎或统计依赖。 这项名为 MachineLearning😅LM 的新研究突破了这一瓶颈。该研究提出了一种轻量且可移植的😉「继续预训练」框架,无需下游微调即可直接通过上下文学习上千条🤔示例,在金融、健康、生物信息、物理等等多个领域的二分类 / ❤️多分类任务中的准确率显著超越基准模型(Qwen-2.5-7B😴-Instruct)以及最新发布的 GPT-5-mini。 🥳 相比于已有的用于表格数据的机器学习方法,Machine🤯LearningLM 几乎完全保留了 LLM 通用能力,这意😘味着它可以无缝集成到更复杂的对话工作流中。 论文链接:😁 https://arxiv.org/abs/2509.06😀806模型和数据集: https://huggingface👍.co/MachineLearningLM代码: https🌟://github.com/HaoAreYuDong/Mac😂hineLearningLM 核心创新一:百万级合成任🤩务「授人以渔」 研究团队旨在赋予 LLM 一种「举一反😅三」的元能力 —— 不依赖对真实任务数据的机械记忆,而是通过😅海量且多样化的合成任务,从根本上训练模型在大量上下文示例中挖😍掘规律并进行预测的能力。 传统的指令微调方法通常基于有😁限规模(约为千数量级)的真实任务数据,这在很大程度上限制了模👏型向新任务的泛化能力。与之相比,MachineLearnin🥳gLM 构建了一个超过 300 万合成任务的大规模预训练语料🤔库。 任务生成器基于结构因果模型(Structural💯 Causal Model, SCM)来采样生成二分类及多分😍类任务。SCM 通过有向无环图(DAG)和结构方程(采用神经😂网络与树模型实现)明确定义变量间的因果关系,能够精确控制特征🎉的边际分布、类型(如数值型或类别型)以及标签生成机制。 😢 该方法确保预训练数据与下游真实评估集没有任何重叠,从而保证😀评估过程对模型泛化能力的检验具备充分公平性。同时,通过控制示⭐例数量从数个到 1024 个不等,该机制能够专门训练模型处理😆「多示例」场景的推理能力。 核心创新二:随机森林模型「😂循循善诱」 在海量合成任务上直接训练大型语言模型(LL😢M)容易因任务质量不一致 —— 例如存在信号微弱或类别极度不⭐平衡等情况 —— 而导致训练崩溃或陷入局部最优。为解决这一问👍题,本研究引入随机森林(Random Forest)模型,利😊用其强大且稳健的建模能力,设计了如下两级过滤机制: 样🙄本级共识过滤(热身训练阶段):在热身训练中,为每个合成任务训🤯练一个随机森林模型,并引导 LLM 学习模仿其预测行为。具体🤯而言,仅保留随机森林预测结果与真实标签一致的那些样本用于 L👏LM 的训练。该方法通过提供清晰且高置信度的监督信号,使 L😂LM 初步建立起准确的上下文建模能力,尤其是数值建模能力,为😍后续过渡到自主上下文学习奠定基础。 任务级过滤(全程训练阶段😘):在整个训练过程中,除为每个任务构建随机森林模型外,还引入🤔保守随机基线(如随机猜测或坍塌到多数类的预测方法),以剔除那🤩些随机森林表现未显著优于基线的无效任务。评估指标包括机会校正😘一致性、失衡鲁棒准确率、宏平均准确率以及避免预测坍塌等指标。🙌 展开全文 为何选择随机森林?除了强大且稳健的建💯模能力,随机森林具有高度透明的决策过程,可分解为清晰的规则路😉径与特征重要性评估,这种可解释性与 LLM 的思维链(Cha😁in-of-Thought, CoT)推理模式天然契合,有助🤯于后续推进思维链预测及解释性预测任务。 同时,随机森林⭐能够提供预测置信度,为进一步减少 LLM 幻觉问题引入置信度🤩机制提供了可能。 核心创新三:高效上下文示例编码「多维🙌扩容」 在大模型时代,如何高效地在上下文学习中处理海量😍表格数据,是一项重要挑战。传统的「自然语言描述」方式(例如:🤔「收入是 29370,职业是博士,年增长率是 - 12.34🌟% → 标签:1」),占用 token 多、计算开销大,严重😂限制了实际应用中可支持的示例数量;数值型特征经分词器处理时,🥳一个小数可能被拆成多个 token,既浪费长度又可能导致数值🤩比较错误,如模型容易误认为「1.11」(1|.|11)比「1😍.9」(1|.|9)大。 为此,作者提出了三项核心优化😆策略,显著提升了上下文学习的数据容纳能力与推理效率: 😜告别「小作文」,样本用表格来组织:SpreadsheetLL🎉M 等研究已广泛证明,LLM 能很好地理解结构化表格,因此作🎉者放弃相关工作将结构化数据展开成冗长自然语句的做法,转而采用🎉紧凑的表格编码格式。 把数字「打包」成整数,告别 to⭐ken 碎片化:先遵循机器学习工程的常见操作,将所有数值基于😘训练集数据分布逐列进行 z-score 标准化;然后将 z-👏norm 下 ±4.17(绝大多数情况)的浮点数区间整体线性😉映射到 [0, 999] 的整数区间。这样,每个数值在 GP😊T 和 LLaMA 3 的词表中仅需 1 个 token 表😂示(Qwen 分词器也仅需 1 到 3 个 token),既😊节省空间,还避免了小数点和正负号单独切词带来的数值理解错误。😎该流程只是改进了传统机器学习中的数值标准化,而没有改变 LL😂M 原生分词器,因此模型的数值推理能力可以全部继承。 🚀推理也要「团购」:序列级批量预测——传统上下文学习一次只处理😢一个查询,在多样本学习时效率极低。作者将多个查询(如 50 😴条)拼成一条序列,统一前向推理,一次性输出所有预测结果。这不🥳仅大幅提升推理速度,还能在训练阶段提高自回归稳定性。 😊惊艳效果:多项能力突破 MachineLearning🤔LM 的继续预训练方案无需改变模型架构或分词器,只使用了 Q😁wen2.5-7B 基座模型和低秩适配(LoRA rank=🎉8)这种轻量级配置,MachineLearningLM 展现😂出了前所未有的上下文样本利用能力: 「千示例」上下文学😀习:模型性能随着提供的示例数量增加而持续稳定提升,从 8 条🔥示例到 1024 条示例,准确率单调增长。这样的上下文样本效🤯率是已有 LLM 都难以做到的。 远超 GPT-5-mini😅 等强大基准模型:在金融、生物信息、物理信号和医疗健康等领域😡的表格分类任务上,其纯上下文学习的准确率平均超越 GPT-5😆-mini 等强大基准模型约 13 到 16 个百分点。 😴 在无需任何任务特定训练的情况下,其准确率已能达到与需要任💯务级参数更新的随机森林模型相差无几的水平(平均相对差距在 2😂% 以内),并显著优于 K 近邻(kNN)算法。 通用❤️能力无损:最关键的是,注入 ML 能力后,模型原有的对话、知😀识和推理能力几乎完好无损。在 MMLU 基准测试中,其零样本😆准确率达 73.2%,50 样本设置下达 75.4%,与基准😢通用 LLM(Qwen-2.5-7B-Instruct)持平🙄,甚至在特定领域(如统计和物理)有一定提升,这意味着它可以无😉缝集成到更复杂的对话工作流中。 实证研究表明, Mac😂hineLearningLM 能够同时处理数值特征与自然语言🤯描述,无需像传统方法那样对文本进行分桶或转换为嵌入向量,实现👏了真正的异构(多模态)输入推理。然而,该模型仍存在一定局限,🙌例如在面对非独立同分布的时间序列数据以及类别数量极其庞大的数⭐据集时,性能尚有待提升,这也为后续研究指明了改进方向。 😜 应用领域 基于大幅提升的多样本上下文学习和数值建模能🤩力,MachineLearningLM 有望在金融、医疗健康😆与科学计算等广泛场景中扩展大型语言模型的实际应用边界。 🤗 未来展望 MachineLearningLM 为未来😘研究开辟了多个充满潜力的方向。以下是论文里列出的几个重点方向🙌: 超越文本与数字:合成多模态分类任务,使 Machi🤔neLearningLM 能够直接在海量合成数据上练习处理异🔥构信号的多模态上下文预测,这依然可以建立在表格预测的框架之上😅,例如利用 HTML 表格来嵌入图像。 通过系统优化突破上下⭐文长度限制:例如采用张量 / 流水线并行、高效内存注意力与 😜KV 缓存等系统优化技术。 不确定性预测 (Uncertai👍nty):预测的同时输出置信度(比如利用随机森林的置信度做热🚀身训练),以减少模型 OpenAI 近期提出的由于缺乏承认不😍确定性(Ho nesty a bout uncertaint😉y)引发的幻觉(Hallucination)。 提升可解释性😆 (Interpretability):叙事蒸馏与推理增强学🙌习,既可以利用底层的 SCM(变量、关系与机制)作为预测任务🤗的辅助目标,也可以从集成模型中蒸馏规则,形成紧凑、人类可读的😡推理链条。 集成检索增强方法(RAG):为 MachineL😜earningLM 集成一个检索模块,使其能在预训练和推理时🥳动态注入最相关的示例。 赋能智能体(Agent):与 Age👏nt 记忆机制(Memory)深度融合,提升其在复杂环境中利👍用多样本的上下文学习,赋予智能体强大的从大量经验记忆中挖掘和😍学习的能力。 作者介绍 本文作者:董浩宇(中国科😆学院大学)、张鹏昆(华南理工大学)、陆明哲(中国科学院大学)💯、沈言祯(斯坦福大学)、柯国霖(个人贡献者) 董浩宇:😆中国科学院大学在读博士(预计 2025 年底毕业)。研究方向😊涵盖表格与半结构化数据理解与推理、LLM 后训练与强化学习、🌟数据集与评测基准等。曾提出 SpreadsheetLLM 并😅获得 Hugging Face Paper of the D😢ay、联合发起并持续共同组织 NeurIPS 2022–20💯24 表格表征学习(TRL)系列研讨会,推动表格智能社区发展🥳。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
中国大模型,首登Nature封面。 9月17日,在最新🙄一期的国际权威期刊Nature(自然)中,DeepSeek-🔥R1推理模型研究论文登上了封面。该论文由DeepSeek团队🤩共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发🎉大模型推理能力的重要研究成果。这是中国大模型研究首次登上Na😅ture封面,也是全球首个经过完整同行评审并发表于权威期刊的😀主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认🤯可。 Nature在其社论中评价道:“几乎所有主流的大😊模型都还没有经过独立同行评审,这一空白终于被DeepSeek❤️打破。” 中国AI大模型的“Nature时刻” 😘自大模型浪潮席卷全球以来,技术发布、性能榜单层出不穷,但始终👍缺乏一个权威的“科学认证”机制。OpenAI、谷歌等巨头虽屡🙄有突破,但其核心技术多以技术报告形式发布,未经独立同行评审。🎉 DeepSeek以其公开性和透明性打破了这一局面。D😆eepSeek-R1模型的研究论文最早于今年年初发布在预印本🙄平台arXiv上。自今年2月14日向Nature投递论文至今🙄,历经半年,8位外部专家参与了同行评审,DeepSeek-R👍1推理模型研究论文终获发表,完成了从预印本到Nature封面🤗的“学术跃迁”。审稿人不仅关注模型性能,更对数据来源、训练方🤔法、安全性等提出严格质询,这一过程是AI模型迈向更高的透明度😅和可重复性的可喜一步。 因此,Nature也对Deep🤩Seek的开放模式给予高度评价,在其社论中评价道:“几乎所有😜主流的大模型都还没有经过独立同行评审,这一空白终于被Deep🌟Seek打破。”全球知名开源社区Hugging Face机器🙌学习工程师Lewis Tunstall也是DeepSeek论😢文的审稿人之一,他强调:“这是一个备受欢迎的先例。如果缺乏这😡种公开分享大部分研发过程的行业规范,我们将很难评估这些系统的😅潜在风险。” 据了解,DeepSeek本次在Natur🤔e上发表的论文较今年年初的初版论文有较大的改动,全文64页,🤯不仅首次披露了R1的训练成本,而且透露了更多模型训练的技术细😂节,包括对发布初期外界有关“蒸馏”方法的质疑作出了正面回应,😴提供了训练过程中减轻数据污染的详细流程,并对R1的安全性进行😂了全面评估。 其中,在训练成本方面,R1-Zero和R⭐1都使用了512张H800GPU,分别训练了198个小时和8😀0个小时,以H800每GPU小时2美元的租赁价格换算,R1的👏总训练成本为29.4万美元(约合人民币209万元)。不到30🤯万美元的训练成本,与其他推理模型动辄上千万美元的花费相比,可👍谓实现了极大的降本。 关于R1发布最初时所受到的“蒸馏🚀”质疑,DeepSeek介绍,其使用的数据全部来自互联网,虽😀然可能包含GPT-4生成的结果,但并非有意而为之,更没有专门😜的蒸馏环节。所谓“蒸馏”,简单理解就是用预先训练好的复杂模型😘输出的结果,作为监督信号再去训练另外一个模型。R1发布时,O😀penAI称它发现DeepSeek使用了OpenAI专有模型😁来训练自己的开源模型的证据,但拒绝进一步透露其证据的细节。 😍 R2何时问世引发关注 自今年年初发布R1以来,D🙄eepSeek在全球树立了开源模型的典范,但过去数月,外界对😎于R2何时发布始终保持高度关注,相关传言一直不断。不过,R2💯的发布时间一再推迟,外界分析R2研发进程缓慢可能与算力受限有👍关。 展开全文 值得注意的是,今年8月21日,D🤩eepSeek正式发布DeepSeek-V3.1,称其为“迈🚀向Agent(智能体)时代的第一步”。据DeepSeek介绍🚀,V3.1主要包含三大变化:一是采用混合推理架构,一个模型同🤗时支持思考模式与非思考模式;二是具有更高的思考效率,能在更短🙄时间内给出答案;三是具有更强的智能体能力,通过后训练优化,新😜模型在工具使用与智能体任务中的表现有较大提升。 由于R🥳1的基座模型为V3,V3.1的升级也引发了外界对于R2“在路🎉上”的猜测。V3.1的升级更深刻的意义在于,DeepSeek🤯强调DeepSeek-V3.1使用了UE8M0 FP8 Sc🚀ale的参数精度,而UE8M0 FP8是针对即将发布的下一代🙄国产芯片设计。这也表明未来基于DeepSeek模型的训练与推🌟理有望更多应用国产AI芯片,助力国产算力生态加速建设。这一表🎉态一度带动国产芯片算力股股价飙升。 中国银河证券研报指😘出,DeepSeek从V3版本就开始采用FP8参数精度验证了😎其训练的有效性,通过降低算力精度,使国产ASIC芯片能在成熟😅制程(12-28nm)上接近先进制程英伟达GPU的算力精度,😁DeepSeek-V3.1使用UE8M0 FP8 Scale😅参数精度,让软件去主动拥抱硬件更喜欢的数据格式,“软硬协同”😉的生态技术壁垒逐渐成为AI浪潮下新范式,未来国产大模型将更多😜拥抱FP8算力精度并有望成为一种新技术趋势,通过软硬件的协同😍换取数量级性能的提升,国产算力芯片将迎来变革。 责编:👏万健祎 校对:王朝全 版权声明 " Typ😡e="normal"@@--> 证券时报各平台所有原创⭐内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关🙌行为主体法律责任的权利。 转载与合作可联系证券时报小助👍理,微信ID:SecuritiesTimes " Ty👏pe="normal"@@-->返回搜狐,查看更多
推荐阅读
不得编造、传播与驾驶自动化系统实际功能和效果不相符的虚假信息!《驾驶自动化技术研发伦理指引》公布
9833
《财富》中国500强出炉,国家电网“三连霸”,山东19家企业上榜
1231
华光国瓷:以品质引领,做世界最好的陶瓷
4163
知名品牌济南又一门店,关闭
6389
19岁小伙错付1010元打车费索要无果后自杀,上海交通委已介入,律师解读
5347
多名地级市市长跨省调整,江苏“十三太保”4市迎政府新“一把手”
1206
上海市监局回应就外卖大战约谈饿了么:只是了解情况,防范不正当竞争
4170
AI短视频培训套路:报名短视频运营课,却成垫资跨境电商,遭遇连环收费陷阱
3566
腾讯回应微信新增对讲机功能:正在灰度上线,将根据反馈持续调整
9152
最高32586元,济南2025年度住房公积金月缴存基数公布
5610
18岁男孩错付车费向司机索要无果后自杀,家属起诉司机,上海交通委已介入
6536
杭州通报“余杭自来水异味”调查情况:7人被严肃问责
4528
发展新质生产力看山西国企:潞安煤基清洁能源公司科技赋能 让生产更“智慧”
5377
山西文化旅游职业大学获批设立
8584
发展新质生产力看山西国企:华阳集团景福公司 梭车上“长”出“千里眼”
3814
晋城农商行7%股权变更行政许可被注销:因未能按期完成变更
9496
湖南官方通报4岁男童拔乳牙全麻后死亡:涉事医生停岗
8729
妈妈否认七七接商演2小时酬劳8000元:是和孩子一起逛商场
1029
山东淄博:突发暴雨三人被困水中,消防紧急营救
1918
7月23日8时起淄博太河水库提闸放水调洪
8680
杭州通报“余杭自来水异味”调查情况:7人被问责,受影响用户7月水费全免
3514