从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
吃瓜电子官网最新热点:从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
更新时间: 浏览次数:2179
尽管大型语言模型(LLM)拥有广泛的世界知识和强大的推理能力😜,被广泛视为优秀的少样本学习者,但在处理需要大量示例的上下文👍学习(ICL)时仍存在明显局限。 已有工作表明,即使提🥳供多达上百甚至上千条示例,LLM 仍难以从中有效学习规律,其😁表现往往很快进入平台期,甚至对示例的顺序、标签偏差等较为敏感😊。在利用上下文学习解决新任务时,LLM 往往更依赖于自身的强🚀先验以及示例的表面特征,而难以真正挖掘出示例中潜在的因果机制😉或统计依赖。 这项名为 MachineLearning🤗LM 的新研究突破了这一瓶颈。该研究提出了一种轻量且可移植的😅「继续预训练」框架,无需下游微调即可直接通过上下文学习上千条😴示例,在金融、健康、生物信息、物理等等多个领域的二分类 / 😢多分类任务中的准确率显著超越基准模型(Qwen-2.5-7B🙌-Instruct)以及最新发布的 GPT-5-mini。 🌟 相比于已有的用于表格数据的机器学习方法,Machine🔥LearningLM 几乎完全保留了 LLM 通用能力,这意🥳味着它可以无缝集成到更复杂的对话工作流中。 论文链接:🔥 https://arxiv.org/abs/2509.06😢806模型和数据集: https://huggingface😜.co/MachineLearningLM代码: https🎉://github.com/HaoAreYuDong/Mac😀hineLearningLM 核心创新一:百万级合成任👏务「授人以渔」 研究团队旨在赋予 LLM 一种「举一反😴三」的元能力 —— 不依赖对真实任务数据的机械记忆,而是通过💯海量且多样化的合成任务,从根本上训练模型在大量上下文示例中挖😘掘规律并进行预测的能力。 传统的指令微调方法通常基于有😎限规模(约为千数量级)的真实任务数据,这在很大程度上限制了模😴型向新任务的泛化能力。与之相比,MachineLearnin😍gLM 构建了一个超过 300 万合成任务的大规模预训练语料😴库。 任务生成器基于结构因果模型(Structural🤔 Causal Model, SCM)来采样生成二分类及多分😢类任务。SCM 通过有向无环图(DAG)和结构方程(采用神经🤗网络与树模型实现)明确定义变量间的因果关系,能够精确控制特征💯的边际分布、类型(如数值型或类别型)以及标签生成机制。 🌟 该方法确保预训练数据与下游真实评估集没有任何重叠,从而保证😍评估过程对模型泛化能力的检验具备充分公平性。同时,通过控制示🚀例数量从数个到 1024 个不等,该机制能够专门训练模型处理😡「多示例」场景的推理能力。 核心创新二:随机森林模型「😂循循善诱」 在海量合成任务上直接训练大型语言模型(LL😜M)容易因任务质量不一致 —— 例如存在信号微弱或类别极度不💯平衡等情况 —— 而导致训练崩溃或陷入局部最优。为解决这一问😁题,本研究引入随机森林(Random Forest)模型,利💯用其强大且稳健的建模能力,设计了如下两级过滤机制: 样🤗本级共识过滤(热身训练阶段):在热身训练中,为每个合成任务训🌟练一个随机森林模型,并引导 LLM 学习模仿其预测行为。具体😁而言,仅保留随机森林预测结果与真实标签一致的那些样本用于 L😍LM 的训练。该方法通过提供清晰且高置信度的监督信号,使 L😊LM 初步建立起准确的上下文建模能力,尤其是数值建模能力,为😢后续过渡到自主上下文学习奠定基础。 任务级过滤(全程训练阶段😂):在整个训练过程中,除为每个任务构建随机森林模型外,还引入😁保守随机基线(如随机猜测或坍塌到多数类的预测方法),以剔除那👏些随机森林表现未显著优于基线的无效任务。评估指标包括机会校正💯一致性、失衡鲁棒准确率、宏平均准确率以及避免预测坍塌等指标。😴 展开全文 为何选择随机森林?除了强大且稳健的建🙄模能力,随机森林具有高度透明的决策过程,可分解为清晰的规则路👍径与特征重要性评估,这种可解释性与 LLM 的思维链(Cha⭐in-of-Thought, CoT)推理模式天然契合,有助😁于后续推进思维链预测及解释性预测任务。 同时,随机森林❤️能够提供预测置信度,为进一步减少 LLM 幻觉问题引入置信度😜机制提供了可能。 核心创新三:高效上下文示例编码「多维😴扩容」 在大模型时代,如何高效地在上下文学习中处理海量🥳表格数据,是一项重要挑战。传统的「自然语言描述」方式(例如:🤯「收入是 29370,职业是博士,年增长率是 - 12.34👍% → 标签:1」),占用 token 多、计算开销大,严重😍限制了实际应用中可支持的示例数量;数值型特征经分词器处理时,🎉一个小数可能被拆成多个 token,既浪费长度又可能导致数值😍比较错误,如模型容易误认为「1.11」(1|.|11)比「1😉.9」(1|.|9)大。 为此,作者提出了三项核心优化😎策略,显著提升了上下文学习的数据容纳能力与推理效率: 😍告别「小作文」,样本用表格来组织:SpreadsheetLL🤔M 等研究已广泛证明,LLM 能很好地理解结构化表格,因此作😎者放弃相关工作将结构化数据展开成冗长自然语句的做法,转而采用😀紧凑的表格编码格式。 把数字「打包」成整数,告别 to😉ken 碎片化:先遵循机器学习工程的常见操作,将所有数值基于💯训练集数据分布逐列进行 z-score 标准化;然后将 z-🥳norm 下 ±4.17(绝大多数情况)的浮点数区间整体线性😴映射到 [0, 999] 的整数区间。这样,每个数值在 GP🌟T 和 LLaMA 3 的词表中仅需 1 个 token 表😂示(Qwen 分词器也仅需 1 到 3 个 token),既🚀节省空间,还避免了小数点和正负号单独切词带来的数值理解错误。❤️该流程只是改进了传统机器学习中的数值标准化,而没有改变 LL😅M 原生分词器,因此模型的数值推理能力可以全部继承。 😊推理也要「团购」:序列级批量预测——传统上下文学习一次只处理😅一个查询,在多样本学习时效率极低。作者将多个查询(如 50 😊条)拼成一条序列,统一前向推理,一次性输出所有预测结果。这不😢仅大幅提升推理速度,还能在训练阶段提高自回归稳定性。 🙌惊艳效果:多项能力突破 MachineLearning🚀LM 的继续预训练方案无需改变模型架构或分词器,只使用了 Q👏wen2.5-7B 基座模型和低秩适配(LoRA rank=🤯8)这种轻量级配置,MachineLearningLM 展现🤩出了前所未有的上下文样本利用能力: 「千示例」上下文学🤔习:模型性能随着提供的示例数量增加而持续稳定提升,从 8 条😉示例到 1024 条示例,准确率单调增长。这样的上下文样本效🥳率是已有 LLM 都难以做到的。 远超 GPT-5-mini😀 等强大基准模型:在金融、生物信息、物理信号和医疗健康等领域🎉的表格分类任务上,其纯上下文学习的准确率平均超越 GPT-5😍-mini 等强大基准模型约 13 到 16 个百分点。 🤯 在无需任何任务特定训练的情况下,其准确率已能达到与需要任🤩务级参数更新的随机森林模型相差无几的水平(平均相对差距在 2🚀% 以内),并显著优于 K 近邻(kNN)算法。 通用😅能力无损:最关键的是,注入 ML 能力后,模型原有的对话、知😂识和推理能力几乎完好无损。在 MMLU 基准测试中,其零样本😴准确率达 73.2%,50 样本设置下达 75.4%,与基准🙌通用 LLM(Qwen-2.5-7B-Instruct)持平😍,甚至在特定领域(如统计和物理)有一定提升,这意味着它可以无😜缝集成到更复杂的对话工作流中。 实证研究表明, Mac🤗hineLearningLM 能够同时处理数值特征与自然语言🌟描述,无需像传统方法那样对文本进行分桶或转换为嵌入向量,实现🚀了真正的异构(多模态)输入推理。然而,该模型仍存在一定局限,💯例如在面对非独立同分布的时间序列数据以及类别数量极其庞大的数👍据集时,性能尚有待提升,这也为后续研究指明了改进方向。 😀 应用领域 基于大幅提升的多样本上下文学习和数值建模能😍力,MachineLearningLM 有望在金融、医疗健康🤔与科学计算等广泛场景中扩展大型语言模型的实际应用边界。 🙌 未来展望 MachineLearningLM 为未来😉研究开辟了多个充满潜力的方向。以下是论文里列出的几个重点方向👍: 超越文本与数字:合成多模态分类任务,使 Machi🤔neLearningLM 能够直接在海量合成数据上练习处理异🥳构信号的多模态上下文预测,这依然可以建立在表格预测的框架之上😘,例如利用 HTML 表格来嵌入图像。 通过系统优化突破上下🎉文长度限制:例如采用张量 / 流水线并行、高效内存注意力与 👍KV 缓存等系统优化技术。 不确定性预测 (Uncertai😎nty):预测的同时输出置信度(比如利用随机森林的置信度做热😢身训练),以减少模型 OpenAI 近期提出的由于缺乏承认不🥳确定性(Ho nesty a bout uncertaint😉y)引发的幻觉(Hallucination)。 提升可解释性🎉 (Interpretability):叙事蒸馏与推理增强学⭐习,既可以利用底层的 SCM(变量、关系与机制)作为预测任务😁的辅助目标,也可以从集成模型中蒸馏规则,形成紧凑、人类可读的⭐推理链条。 集成检索增强方法(RAG):为 MachineL🤔earningLM 集成一个检索模块,使其能在预训练和推理时🙄动态注入最相关的示例。 赋能智能体(Agent):与 Age😊nt 记忆机制(Memory)深度融合,提升其在复杂环境中利😎用多样本的上下文学习,赋予智能体强大的从大量经验记忆中挖掘和🔥学习的能力。 作者介绍 本文作者:董浩宇(中国科🥳学院大学)、张鹏昆(华南理工大学)、陆明哲(中国科学院大学)😁、沈言祯(斯坦福大学)、柯国霖(个人贡献者) 董浩宇:😜中国科学院大学在读博士(预计 2025 年底毕业)。研究方向🤔涵盖表格与半结构化数据理解与推理、LLM 后训练与强化学习、🤩数据集与评测基准等。曾提出 SpreadsheetLLM 并😡获得 Hugging Face Paper of the D👍ay、联合发起并持续共同组织 NeurIPS 2022–20😁24 表格表征学习(TRL)系列研讨会,推动表格智能社区发展🔥。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
文 | 陆玖商业评论 文 | 陆玖商业评论 从市😅场端来看,全球L2级以上新车智能驾驶渗透率已接近45%,随着🙄未来两年具备L2-L3组合驾驶辅助功能的产品的快速落地,这一😂数字还有望进一步增长至60%。 巨额融资与巨额亏损并存😡,地平线在资本市场的强势募资与财务表现的强烈反差,勾勒出中国😴智能驾驶芯片行业的狂飙与隐忧。 9月26日,地平线在港😀交所发布公告,宣布以每股9.99港元的价格配售约6.39亿股🔥股份,估计所得款项净额约63.39亿港元(约合人民币58.1😜4亿元)。不出意外,该配售消息一出,地平线当日股价跌超8%。😢 这已是这家智能驾驶芯片公司一年内第三次大规模融资,总🥳募资金额也高达近155亿元人民币。特别是,此次配售距离上一次😡不过3个月的时间。 在资本市场长袖善舞的同时,地平线的😊亏损也在扩大。2025年上半年,地平线收入约为15.67亿元❤️,同比增长67.6%;但亏损反而从上年同期的50.98亿元增😆至52.33亿元。 这家被业内称为“中国智驾芯片第一股😴”的企业,一边是业务高速增长、出货量屡创新高,另一边是亏损持🙌续扩大,以及现有客户纷纷下场自研芯片。资本市场依然相信未来吗🚀? 01 一年内募资155亿 作为赛道中入局较早🎉且已打开一定市场的明星企业,地平线的融资能力无疑是令人瞩目的🥳。 自2024年10月在港交所上市以来,地平线通过IP😆O募资58.73亿港元,今年6月配售募资46.74亿港元,加😡上此次募资63.4亿港元,一年内合计募资168.87亿港元(🔥约合人民币154.8亿元)。 而此次公告中披露的配售价🌟格,是以前一日即9月25日的收盘价折让约5.75%的价格得来🥳的。对比三个月的那次配售,此次募资更多,但给出的“折扣”反而👏更小,不少股民则在各大社区中表示出了质疑。 对于本次募🤗资的用途,地平线公告称将用于扩大海外市场业务,加速国内市场业🙌务扩张;投资研发以进一步提升技术能力;投资新兴领域,例如与R🤔obotaxi相关的计划;对上游及下游业务合作伙伴进行策略性😜投资。 有分析认为,地平线的融资紧迫感,藏着其创始人余🥳凯对行业窗口期的判断。尽管今年初,余凯便喊出“3年脱手开,5🎉年闭眼开,10年随心开”的设想,但想要将这个战略规划落地,就😎必须要加速技术商业化。 加之,特斯拉、国内大厂、传统车😁企都在加码,地平线需要通过融资保持技术领先,才可能在规模化效⭐应到来前保持身位。 02 中高阶产品占比提升,前五大客❤️户依赖度高 尽管地平线一直在扩亏,但不能否认的是,其业🤯务增长速度还是可圈可点的。8月29日,地平线宣布其征程系列车🥳载智能芯片,累计量产出货突破1000万套,成为国内首家跨过该😂门槛的智能驾驶计算方案企业。 展开全文 2025🤗年上半年,公司实现营业收入15.67亿元,同比增长67.6%🤩,主要得益于产品及解决方案业务收入大幅增长。而该板块营收也达👍到了7.78亿元,为去年同期3.5倍,出货量198万套,同比🙌增长约100%。 更值得关注的是,中高阶辅助驾驶方案正🤗在成为业绩核心驱动力。支持高速NOA和城区NOA的征程6系列😁芯片出货约98万套,同比增长6倍,占上半年总出货量近50%,😎贡献超80%相关业务收入。 出货量的攀升,也带动平均单😀车价值量同比提升70%。这一变化源于智驾辅助功能从基础L2向😎城区NOA等高阶应用的升级。而余凯也预计,搭载城区辅助驾驶方🙄案的车型价格带有望下探至15万元区间,进一步推动智能驾驶向大🙄众市场普及。 据地平线官网上的数据,公司目前已与27家👏车厂合作,定点车型超300款,大众、比亚迪这些头部车企都在其🚀客户名单里。 另据高工智能汽车的监测数据,在中国自主品🌟牌乘用车智驾计算方案市场中,地平线以33.97%的市场份额稳🥳居第一,每3辆汽车中,就有1辆采用了地平线的智驾方案。 ⭐ 然而,亮眼的市场份额背后,地平线也面临着客户集中度较高的风😂险。 根据招股书,2021年至2024年上半年,来自前😘五大客户的收入分别占地平线当期总收入的60.7%、53.2%😊、68.8%和77.9%。 到了2025年上半年,地平😘线前五大客户收入在期内总收入的占比高达52.48%,其中第一😂大客户占比达到19.7%。尽管前五大客户收入占比有所回落,但😍从数值上看依然相对较高。 这种依赖性的衍生风险在于,当😊主流车企纷纷启动自研芯片计划之后,诸如蔚来、小鹏、比亚迪等车❤️企都已陆续下场真金白银砸入于此,这或将诱发地平线面对“备胎危🌟机”。 03 从“卖硬件”到“软硬一体化”,押注Rob😆otaxi 中信证券曾在一份研报中指出,到2025年,🙌国内中高阶智能驾驶的渗透率有望翻倍,带来约350亿元的增量市😅场。 群智咨询调研数据显示,2024年全球智能驾驶So🤯C市场规模约50亿美元,同比增长高达62%。而据其预测数据,🤗2025年全球智能驾驶SoC市场规模还有望进一步扩大至76亿🙄美元。 不过,从市场端来看,全球L2级以上新车智能驾驶😂渗透率已接近45%,随着未来两年具备L2-L3组合驾驶辅助功😍能的产品的快速落地,这一数字还有望进一步增长至60%。 🤯 政策层面也为行业提供了支持。工信部提出2025年汽车芯片国😘产化率提升至20% 的发展目标,此举受到了一众车企的积极响应💯。比如东风汽车集团,计划于2025年将车规级芯片国产化率提升💯到60%。 国内外玩家齐聚,算力军备竞赛加剧,智能驾驶😜芯片领域的竞争也变得愈发激烈。2025年,随着政策法规陆续落🤯地、技术迭代逐步成熟、用户智能化需求增加,国内外汽车芯片厂商😘也悄然间展开了一场算力军备赛。 国际巨头英伟达在202💯5年8月宣布Thor芯片量产,但这款原计划2024年落地的“💯下一代自动驾驶神芯”不仅延期了近一年,实际交付的“Thor 🚀U”版本算力也从宣传时的2000 TOPS缩水到1600 T🚀OPS。 与此同时,国产芯片品牌正在奋力追赶。在202😡4年的市场格局竞争中,智能驾驶辅助芯片市场依旧呈现国外厂商主🤯导的态势。 其中,英伟达以38.63%的市场份额稳居国👏内首位,特斯拉以23.43%的份额位居第二。华为、地平线分别😎以17.21%和10.68%的市场份额分别排列第三、第四。 😊 更值得注意的是,蔚来神玑NX9031芯片随ET9量产上😉车后迅速覆盖5款车型;小鹏P7搭载三颗自研图灵芯片,算力达2😁250 TOPS,比Thor U还高;芯擎科技推出“星辰一号💯+龍鹰一号”组合方案,直接叫板“Orin X+高通8295”😴的多芯片架构。 地平线在中报中提到,向中高阶辅助驾驶解⭐决方案的转型将成为行业下一阶段的主导趋势,其先进算法和软件对🤗云服务相关的需求日益增长。公司预计,搭载城市辅助驾驶解决方案⭐的车型价格区间将进一步下降至15万元区间。 与此同时,😊面对激烈的市场竞争,地平线正在积极朝着“软硬件一体化供应商”⭐的方向,进行战略转型。 通过对比地平线2021年和20🚀24年的收入结构变化就能看出,“卖硬件”的收入占比已从202👍1年的44.6%下降到2024年的27.9%,同一报告期内,🎉其“软件服务”的收入从43.3%一路上升到69.1%。 🎉 其实这种转型也并不难理解。近几年整个汽车行业价格战一轮接着😂一轮,各家车企都在不断向上游压缩成本,这直接影响了地平线产品🎉解决方案的平均售价。 Robotaxi同样是地平线押注😊的新兴领域。根据瑞银报告预测,到本世纪30年代后期,中国Ro😴botaxi服务市场的潜在规模将达到1830亿美元,届时全国🥳将有约400万辆Robotaxi投入运营。 在这种背景❤️下,9月11日,地平线宣布与哈啰正式签署战略合作协议。双方将😘基于Robotaxi运营场景和需求,发挥各自技术优势,共同打😢造极致低成本、高安全、高可靠、高可用的智能驾驶技术。 🥳在行业尚未盈利的背景下,边扩亏边谋求新机的地平线,还能让资本👏市场保持多久的耐心,我们不得而知,但资本的态度可能也将决定智😴能驾驶芯片之争的最终赢家。希望,这位百度出身的创业者余凯,可🤩以顶住压力。返回搜狐,查看更多
推荐阅读
中山大学6000米级深海无人遥控潜水器在南海完成首次深海试验
5669
今年我国智能算力规模增长将超40%
2505
一体化算网建设再提速 七城算力中心接入国家超算互联网
1628
工信部:将有序引导算力设施建设 加快突破GPU芯片等关键核心技术
6712
中国移动发布算网大脑3.0
5576
中文在线半年报:ReelShort亏损4600万,新海外平台上线3月营销费近1亿
9771
腾讯元宝已接入DeepSeek V3.1
4603
中国汽研:将围绕氢能汽车产业发展需求 持续开展氢能计量测试能力建设
7061
杭州中小学全面开展AI通识课 每学年不少于10课时
1951
国家电投集团雄安基地项目落地雄安新区
1517
新疆电网储能装机规模7个月同比增长超1倍
5120
中国算力平台正式贯通
2339
查办「幽灵外卖」等违法案件,「守护消费」铁拳行动典型案例公布
5277
苹果探索与OpenAI、Anthropic及谷歌合作开发Siri新引擎
3587
突发!极氪被曝重大调整
4084
宇树科技公布多地图融合导航专利
6394
恒指纳入中国电信、京东物流、泡泡玛特
7391
舜宇光学科技:与歌尔股份及歌尔光学订立谅解备忘录
7525
OpenAI正式进军印度市场
6478
特斯拉在美国上调Cyberbeast车型价格
8279
WPS Windows系统64位新版本上线
1870