中美研究团队突破:AI专家实现自主任务选择
吃瓜电子官网最新热点:中美研究团队突破:AI专家实现自主任务选择
更新时间: 浏览次数:2284
这项由中国人民大学高瓴人工智能学院的吕昂、腾讯大语言模型部门😆的谢若冰、东南大学的钱一宁等多位研究者共同完成的突破性研究,💯发表于2025年5月的第42届国际机器学习大会(ICML 2😀025)。有兴趣深入了解技术细节的读者可以通过研究团队在Gi😂tHub上公开的代码库(https://github.com🤯/trestad/Autonomy-of-Experts)访😀问完整资料。 在人工智能的世界里,有一种被称为"混合专😘家模型"的技术,就像是在一家大型咨询公司里安排不同的专家来处😘理不同的问题。传统的做法是:当客户带着问题来时,前台接待员(😴也就是"路由器")会根据问题的表面特征,决定把这个客户分配给😂哪位专家。比如听起来像法律问题就分给法律专家,像财务问题就分🚀给财务专家。 但这种安排方式有个根本性的问题:前台接待😡员其实并不真正了解每位专家的实际能力和专长,也不知道这个问题😁是否真的适合某位专家处理。结果就可能出现这样的情况:一个复杂😆的商业纠纷被分配给了只擅长处理简单合同的律师,而真正的商业法😅专家却在处理一些基础问题。 更糟糕的是,当分配错误发生🚀时,那位不太合适的专家为了完成任务,不得不硬着头皮学习处理这🙄类问题,这就逐渐偏离了他原本的专长。同时,前台接待员也只能通😂过反复试错来学习如何更好地分配任务,这个过程既低效又浪费资源🔥。 研究团队提出了一个革命性的解决方案:让专家们自己决😡定是否接手某个任务,这就是他们称之为"专家自主模型"的创新概🎉念。在这个新系统中,当一个问题到来时,所有专家都会先快速浏览😉一下,然后根据自己的判断给出一个"兴趣度评分"。只有那些最感😆兴趣、最有把握的专家才会真正投入时间和精力来解决这个问题。 ❤️ 这种做法的巧妙之处在于:专家对自己的能力最了解。当一位🥳商业法专家看到一个涉及复杂并购的案例时,他内心会产生强烈的"😉这正是我的专长"的感觉,这种感觉会反映在他的兴趣度评分上。相🚀反,如果他看到一个简单的交通违章咨询,他的兴趣度就会很低,因😎为他知道这类问题更适合其他同事处理。 一、从现实发现到😢理论突破:专家真的"知道"自己知道什么 研究团队的发现🤩始于一个有趣的实验。他们拿来了两个已经训练好的大型AI模型—😴—一个叫Mixtral,另一个叫Phi-3.5,这两个模型都🙌采用传统的专家分配方式。研究人员做了一个大胆的尝试:他们完全😎移除了这些模型中的"前台接待员"(路由器),然后让每个专家根😡据自己的"内心感受"来决定是否处理某个问题。 展开全文🥳 这就好比在一家医院里,突然取消了分诊台,而是让每位医😎生看到病人的症状后,根据自己内心的专业直觉来判断:"这个病人😎的情况我最适合处理吗?" 结果令人惊喜。在处理一些智力😊挑战题时,即使没有分诊系统,这些"自选"的专家组合仍然能达到🤩原系统95%的准确率。在另一个常识推理测试中,准确率甚至保持🌟在71%。这个发现证实了一个重要观点:专家确实对自己的能力有😁着敏锐的自我认知。 研究人员进一步发现,专家的这种"自👍我认知"其实体现在它们处理信息时的"激活程度"上。当一个AI❤️专家遇到适合自己的问题时,其内部神经网络的活跃度会明显升高,🚀就像一个人遇到感兴趣的话题时会变得神采奕奕一样。通过测量这种😢激活程度的强弱,就能判断这个专家对当前任务的胜任度。 😆这个发现为整个领域带来了全新的思路。研究团队意识到,与其让一🌟个外部的"分配器"来猜测哪个专家最合适,不如让专家们基于自己👏的内在感受来自主选择。这种方法不仅更准确,还能避免传统方法中😎决策制定和执行分离所带来的种种问题。 二、技术创新:让😍AI专家学会"毛遂自荐" 要让专家自主选择听起来简单,😆但在实际的AI系统中实现这一点却需要巧妙的技术设计。研究团队😊面临的第一个挑战是效率问题。如果让每个专家都完整地处理每个输😁入,然后根据结果来选择最佳答案,这就像让十位医生都给同一个病🤗人做完整的检查,然后再选择最好的诊断结果,显然这样做成本太高⭐。 研究团队想出了一个聪明的解决方案。他们让每个专家只😀需要做一个"初步诊断"——快速浏览问题并给出一个兴趣度评分,😍而不需要立即给出完整答案。这就像让医生们先看看病人的基本症状🤯,判断一下"这个病人的情况我有多大把握处理好",然后只有最有😂把握的几位医生才会进行详细诊断。 为了让这种"初步诊断🙌"既快速又准确,研究团队对专家的内部结构进行了巧妙的改造。他🚀们将专家内部负责"感知"的部分分解成两个更小的组件:一个负责😂快速形成初步印象,另一个负责基于这个印象进行深度思考。这种设❤️计就像是给每个专家配了一个"直觉系统"和一个"分析系统",直😎觉系统快速判断是否感兴趣,分析系统负责给出详细答案。 💯通过这种分层设计,每个专家可以用很少的计算资源快速判断自己对👍某个问题的胜任度,只有在确认自己最适合处理时,才会启动"分析🤩系统"给出最终答案。这大大提高了整个系统的效率,让"专家自主😊选择"变得既实用又高效。 更有趣的是,研究团队发现这种🔥自主选择机制还带来了意外的好处。在传统系统中,经常会出现某些👏专家工作过载而其他专家相对空闲的情况。而在新系统中,由于专家🚀们会基于自己的实际能力来选择任务,工作负载自然就更加均衡了。😀这就像一个项目团队中,当大家都根据自己的专长和兴趣主动认领任🤩务时,整个团队的效率和满意度都会更高。 三、深入验证:😎小规模实验揭示大道理 为了深入验证这种"专家自主"方法🥳的有效性,研究团队设计了一系列精心控制的实验。他们构建了一些👏规模相对较小但功能完整的AI模型,就像在实验室里搭建微缩版的❤️智能系统,来观察和分析各种现象。 这些小型模型包含12💯个处理层,每层有12个注意力头和8个专家,总参数量约为7.3😆亿个,其中实际激活的参数约为2.47亿个。研究团队让这些模型🔥学习处理1000亿个文本片段,这个数据量相当于阅读数百万本书😜籍。训练完成后,他们在8个不同类型的任务上测试这些模型的表现😂。 实验结果令人印象深刻。采用专家自主选择机制的模型在😢所有8个测试任务上都超越了传统的专家分配模型。更有趣的发现是⭐,即使不使用任何额外的负载均衡技术,专家自主模型也能自发地实🙄现更好的工作分配。这就像一个团队中,当成员们都能根据自己的兴😁趣和专长主动选择任务时,整个团队的协作效果反而比强制分配任务😊时更好。 研究团队还深入分析了专家们在训练过程中的行为😴变化。他们发现了一个有趣的现象:在训练初期,不同专家处理问题❤️时的"激活强度"相差很大,有些专家表现得很积极,有些则相对沉🤯默。但随着训练的进行,专家们逐渐找到了自己的定位,那些处理同🥳一类问题的专家最终会形成相似的激活模式。 这种自发的专🤯业化分工过程特别引人深思。在传统系统中,专家的分工往往是通过😁外部的分配机制强制形成的。而在新系统中,专家们通过自主选择逐😅渐找到了最适合自己的"职业方向",这种自然形成的专业化往往更🚀加精准和稳定。 四、扩展验证:不同场景下的表现如何 😢 为了确保这种方法不只是在特定情况下有效,研究团队还在多种😆不同的专家选择策略下测试了他们的方法。除了传统的"选择前K个🤯最佳专家"策略,他们还测试了"动态概率选择"和"专家主动选择😅"等不同方案。 在动态概率选择方案中,系统不是简单地选😡择评分最高的几个专家,而是根据评分来计算每个专家被选中的概率😡,然后进行随机选择。这就像在组建项目团队时,不是只选择最顶尖🎉的几个人,而是综合考虑多个因素,给不同水平的专家都留有机会。😘 在专家主动选择方案中,每个专家都会主动"申请"处理一😀定数量的任务,系统再根据申请情况进行协调。这更像是一个内部招🌟聘系统,专家们根据自己的兴趣和能力主动申请参与不同的项目。 😆 令人惊喜的是,无论采用哪种选择策略,专家自主方法都表现😜出了比传统方法更好的效果。这表明这种方法的优势不是偶然的,而🤗是具有普遍适用性的。 研究团队还详细分析了系统的效率表🤯现。他们发现,新方法能够达到传统方法97%的处理速度,同时在😁准确性上有明显提升。虽然存在一些额外的内存开销,但考虑到性能😡的显著改善,这种权衡是非常值得的。 特别值得注意的是,🤔在实际的分布式计算环境中,专家自主方法还能带来额外的效率优势😢。由于专家们的工作负载更加均衡,那些处理能力强的服务器不会因😀为被分配过多任务而成为整个系统的瓶颈,这进一步提升了整体的处👍理效率。 五、规模验证:40亿参数的真实世界测试 😆 为了验证这种方法在实际应用中的可行性,研究团队将实验规模扩❤️大到了40亿参数的大型模型。这个规模的模型已经接近许多商业A❤️I应用的水准,能够更好地反映真实世界的应用场景。 在这🤩个大规模实验中,模型包含24个处理层,每层有20个注意力头,💯总参数达到40亿个,其中实际激活参数为11.8亿个。训练数据😎量也相应增加,模型需要学习处理更加复杂和多样化的任务。 😎 大规模实验的结果进一步证实了专家自主方法的优越性。在所有测🙄试任务中,新方法都表现出了比传统方法更好的性能。更重要的是,😴随着模型规模的增大,这种优势变得更加明显。这表明专家自主方法😊不仅在理论上合理,在实际的大规模应用中也具有很强的实用价值。😘 研究团队还观察到,在大规模模型中,专家们的专业化分工😴变得更加精细和明确。不同的专家逐渐专注于不同类型的语言模式和🙌知识领域,形成了一个高效的"智力分工体系"。这种自然形成的专😊业化分工比人工设计的分工方案更加灵活和有效。 六、意外😜发现:AI专家的"专业直觉" 在研究过程中,团队发现了😆一个特别有趣的现象。他们注意到,那些表现更好的专家在面对适合😎自己处理的问题时,会表现出更强的"信心"——这种信心体现在其😘内部激活的集中度上。 这就像优秀的医生在面对自己擅长治👏疗的疾病时会表现得更加自信和专注,而面对不熟悉的症状时则会显🤩得犹豫不决。研究团队通过测量这种"信心指数",发现它确实能够😊很好地预测专家处理某个任务的效果。 更令人惊讶的是,专😂家们的这种"专业直觉"还表现出了层次性特征。在模型的浅层,专👏家们主要关注基础的语言模式和常见结构,它们的选择标准相对宽泛🎉。而在深层,专家们变得更加挑剔和专业化,只有在遇到真正符合自😁己专长的复杂问题时,才会表现出强烈的处理意愿。 这种层😡次化的专业分工很像人类专家的成长轨迹:初级专家能够处理各种基😴础问题,而资深专家则专注于特定领域的复杂挑战。这种自然形成的😎层次结构为整个系统提供了既有广度又有深度的问题解决能力。 👍 七、理论解释:为什么"自主选择"更有效 从理论角度😊来看,专家自主选择方法的成功可以从几个层面来理解。首先,它解😜决了传统方法中的信息不对称问题。在传统系统中,负责分配任务的😎路由器只能看到问题的表面特征,无法真正了解每个专家的内在能力😆。而专家自主选择让真正了解自身能力的专家来做决策,自然能够实🥳现更精准的匹配。 其次,这种方法避免了决策制定和执行分😢离带来的问题。在传统系统中,如果路由器做出了错误的分配决定,🙌被分配的专家要么勉强完成任务(导致质量下降),要么为了适应任❤️务而改变自己的专长(导致专业化程度降低)。而在新系统中,专家😴只会选择自己真正擅长的任务,这保证了既高质量又专业化的处理效😢果。 从学习效率的角度来看,专家自主选择还能促进更有效🤔的专业化发展。当专家们能够根据自己的兴趣和能力来选择任务时,🌟他们更容易在特定领域积累深度的专业知识,而不是被迫成为"万金🙌油"式的通用处理器。 研究团队通过一个简化的分类任务实😅验生动地展示了这种差异。在这个实验中,系统需要学会区分三类不😅同的输入。传统方法会让两个专家都参与所有类型的分类,结果每个😀专家都只能达到中等水平的专业化程度。而自主选择方法让一个专家😉专门处理其中两类相关的任务,另一个专家专门处理第三类任务,最💯终实现了更好的整体性能。 八、实际应用:从实验室到真实🤯世界 这项研究的意义不仅仅局限于学术领域,它为现实中的🙄AI应用提供了重要的改进方向。目前,许多大型AI系统都采用某🤔种形式的专家分工机制,比如搜索引擎中的不同算法模块、推荐系统😘中的不同推荐策略、以及聊天机器人中的不同对话技能。 在😉搜索引擎的应用中,传统方法可能会有一个中央调度系统来决定对于😴每个查询应该使用哪种搜索算法。而采用专家自主选择的方法,各种😁搜索算法可以根据查询的特征自主判断自己的适用性,那些最有把握😁给出高质量结果的算法会主动承担任务。 在推荐系统中,不😀同的推荐策略(比如基于内容的推荐、协同过滤推荐、深度学习推荐🙌等)可以根据用户的行为模式和偏好特征,自主判断哪种策略最适合🌟为该用户提供推荐。这样不仅能提高推荐的准确性,还能让每种推荐😎策略在自己最擅长的场景中得到更充分的发展。 对于聊天机❤️器人应用,这种方法可能带来更加自然和高效的对话体验。不同的对😊话技能模块(比如闲聊、问答、任务执行等)可以根据用户的输入自👏主判断是否适合自己处理,从而实现更流畅的对话切换和更准确的响😴应。 研究团队指出,这种方法还特别适用于需要处理多样化😴任务的大型AI系统。随着AI应用场景的不断扩展,单一的模型往🤩往难以在所有任务上都达到最佳性能。通过让不同的专家模块自主选😡择最适合自己的任务,整个系统可以在保持高效的同时,在各个细分🥳领域都达到专业化的水准。 当然,这项研究也指出了一些需🥳要进一步改进的地方。比如随着专家数量的增加和任务稀疏度的提高😆,系统的效率可能会受到一定影响。研究团队正在积极探索针对这些🤔挑战的优化方案,以使这种方法能够在更大规模的实际应用中发挥作🚀用。 说到底,这项研究揭示了一个深刻的道理:在复杂的智🥳能系统中,让最了解自身能力的组件来做决策,往往比依赖外部的统😎一调度更加有效。这不仅适用于AI系统,在人类组织和团队管理中😜也有着重要的启发意义。当团队成员能够根据自己的专长和兴趣主动😘承担合适的任务时,整个团队的效率和创新能力都会得到显著提升。😀 这项研究为AI领域带来了一种全新的思维方式,它告诉我🎉们,有时候最好的管理就是让专业的人做专业的事,而判断什么是"😊专业的事"的最佳人选,正是专家自己。随着这种方法在更多实际应🎉用中的验证和改进,我们有理由相信它将为AI技术的发展开辟出一😴条更加自然和高效的道路。 Q&A Q1:专家自主🔥模型和传统混合专家模型的核心区别是什么? A:核心区别🎉在于任务分配的决策者不同。传统混合专家模型依靠外部路由器来决🚀定哪个专家处理哪个任务,就像公司前台分配客户给不同专家。而专🚀家自主模型让专家自己根据内在判断来选择任务,类似专家们看到问🌟题后主动说"这个我最擅长"。这种方式避免了外部分配可能出现的😂不匹配问题,让真正有能力的专家处理最适合的任务。 Q2🤔:专家自主选择会不会导致某些专家一直不工作或工作过载? 😍 A:实际上恰恰相反。研究发现专家自主选择机制能够自然实现更🤗均衡的工作分配。因为每个专家都会根据自己的实际能力来选择任务🎉,既不会勉强接受超出能力范围的任务,也不会错过适合自己的机会😀。就像技能互补的团队中,成员们根据专长主动认领任务时,工作分🥳配往往比强制指派更合理。这种自然的负载均衡效果甚至比传统方法💯中专门设计的负载均衡机制还要好。 Q3:这种专家自主选😍择技术现在能在哪些实际应用中使用? A:目前这项技术主😁要还处在研究验证阶段,研究团队已经在GitHub开源了相关代😢码。但其核心理念可以应用到很多AI系统中,比如搜索引擎的多算😢法协调、推荐系统的策略选择、聊天机器人的技能模块切换等。随着🔥技术的进一步成熟,预计会逐步应用到需要多专家协作的大型AI系😊统中,让这些系统能够更智能地协调内部的不同能力模块。返回搜狐🤔,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
在最新一期的《爸爸当家》中,李艾分享了一段在海拔5000多米⭐高原上的“如厕惊魂记”,瞬间引爆网友讨论。胡歌的“神推断”,😢更是给这段经历加了一层“综艺效果”满分又科普到位的滤镜——难😁怪网友感慨:“这节目,笑完居…
推荐阅读
商务部回应TikTok问题
4633
政协委员为社区品牌项目建言献策
1117
汤泉街道推动研产贯通 助力产业发展
4205
康居集团聚焦“三大维度”全面提升服务能力
9342
口腔健康,全身健康:别让“缺牙”拖垮体重管理!
2440
南京举办网络安全宣传周 法治主题日活动
5606
通达海司法智能化产业园在鼓楼开园
2777
本部、江北口腔医学中心 及五大分门诊一览
3578
颞颌关节科医生眼中的红黑榜
9469
探索出一条与新业态群体“双向奔赴”新路径
1493
建邺区双和园社区开展“传承优良家风”主题活动
8667
建邺区中城社区:“一卡”解忧,情暖老人
8284
溧水东屏街道足球场焕然一新
4945
我国电动汽车充电基础设施 总数达1734.8万个
2326
南京浦口“草法双圣”馆藏真迹联展正式启幕
8075
国资央企“家底”已超90万亿元
3444
溧水崇贤社区开展红色经典阅读 传承革命精神
4551
南京建邺:闲置空地变身市民休闲放松好去处
3358
高淳区淳溪街道:老年大学笔墨飘香润心田
3146
没有头发,照片里他们依然漂亮帅气
8471
“苏超”火到篮球场
9847