阿里巴巴OmniThink:让机器写作像人类一样慢思深考的突破性框架
吃瓜电子官网最新热点:阿里巴巴OmniThink:让机器写作像人类一样慢思深考的突破性框架
更新时间: 浏览次数:7169
这项由浙江大学和阿里巴巴通义实验室联合完成的研究发表于202❤️5年1月,完整论文可通过arXiv:2501.09751访问🥳。研究团队由浙江大学的习泽坤、方纪展、方润楠、陈华钧、张宁宇🔥以及阿里巴巴通义实验室的尹文彪、吴佳龙、姜勇、谢鹏军、黄飞等😉学者组成。 当我们面对一个复杂话题需要写一篇深入文章时🤔,通常不会匆忙下笔,而是会先思考、收集资料、反思已知信息,然😆后再动笔。但现有的AI写作系统就像急性子的学生,拿到题目就马👏上开始写,结果往往内容浅薄、重复啰嗦。阿里巴巴的研究团队意识😉到这个问题后,开发了一个名为OmniThink的创新框架,让⭐机器学会像人类一样慢慢思考、逐步深入地写作。 现在的A😁I写作系统主要依赖检索增强生成技术,就像是给学生提供了一堆参🔥考书,让他们快速查找相关内容然后拼凑成文章。虽然这种方法能生😍成文章,但有个致命缺陷:搜索到的信息往往缺乏深度和新颖性,还😉经常重复。研究团队发现,即使是最先进的STORM和Co-ST😎ORM系统,也容易产生内容重复的问题。比如在一篇关于Alph😁aFold的文章中,"AlphaFold由DeepMind开😆发"这个基本信息竟然在文中重复出现了多次。 人类写作者😊之所以能避免这种问题,是因为我们会不断反思已经收集的信息,重🤔新整理思路,调整写作方向。这个过程被称为反思性实践,是认知科⭐学中的重要概念。基于这个洞察,研究团队设计了OmniThin😅k框架,让AI也学会这种慢思考的写作方式。 OmniT🤩hink的工作原理就像一个勤奋的研究者逐步深化对某个话题的理🔥解。整个过程分为三个阶段:信息获取、大纲构建和文章生成。在信😴息获取阶段,系统会建立两个核心组件:信息树和概念池。信息树就🔥像一个知识地图,从主题开始向外扩展各种相关子话题,每个分支都🔥包含具体的信息内容。概念池则像是研究者的思考笔记,记录着对话🥳题理解的各种深层洞察。 这个过程最精妙的地方在于扩展和🤩反思的循环。系统会先分析当前信息树的所有叶子节点,判断哪些需😊要进一步扩展。当需要扩展时,系统会利用概念池中的认知来确定深🙄入的方向和搜索关键词,然后获取新信息并添加到信息树中。接着,🌟系统会对新获取的信息进行反思,提取核心洞察并更新概念池。这样🌟一轮又一轮的扩展和反思,就像学者在研究过程中不断深化理解一样😎。 与传统方法相比,OmniThink有三个显著特点。🤯首先是动态检索能力,系统不是一次性搜索固定数量的网页,而是根😀据话题难度和深度需求来动态调整信息收集。其次是结构化记忆,通😀过信息树和概念池的双重架构,系统能够有组织地管理知识。最重要💯的是反思性思考能力,系统会持续评估和重新组织已获取的信息。 😊 展开全文 研究团队在WildSeek数据集上进行🤯了全面评估。这个数据集包含24个不同领域的100个话题,每个😉话题都有具体的用户意图。实验使用了多种评估指标,包括相关性、👍广度、深度和新颖性等传统指标,还特别设计了知识密度这个新指标🤗来衡量文章中有用信息的比例。 实验结果令人印象深刻。在😀GPT-4o模型上,OmniThink在所有评估维度都超越了😴现有最强的基线方法Co-STORM。相关性得分从4.37提升😂到4.77,广度从4.66提升到4.71,深度从4.65提升🤯到4.66,新颖性更是从3.89大幅提升到4.31。知识密度😎指标显示,OmniThink生成的文章信息密度达到22.31😀,明显高于其他方法的19-20分水平。 更有说服力的是😁人类评估结果。研究团队邀请了15位高学历志愿者对20篇文章进😁行人工评估,其中53%的评估者拥有研究生学历。结果显示,Om😎niThink在广度维度上领先Co-STORM达46%对22😅%,其他维度也都有显著优势。虽然自动评估显示新颖性有11%的😴提升,但人类评估中这个优势较小,这提示自动评估与人类判断之间👏还存在一定差距。 研究团队还进行了详细的消融实验来分析😍各个组件的作用。当移除信息树的层次结构时,系统性能显著下降,😡说明结构化组织信息的重要性。当禁用反思机制时,系统在新颖性和🙌信息多样性方面表现明显变差。这些实验证实了扩展和反思机制对于🚀提升写作质量的关键作用。 从知识边界的角度分析,研究团🤔队将现有方法的局限性归纳为两类边界问题。信息边界限制是指检索⭐到的信息量和质量有限,认知边界限制是指模型无法像人类那样有效🚀组织和利用信息。通过主成分分析可视化不同方法的信息检索范围,🚀OmniThink明显覆盖了最大的信息空间。认知边界实验中,👍即使给传统RAG方法提供同样多的网页信息,它仍然无法有效利用😅,反而可能因为信息过载而性能下降。 研究还发现了扩展和🤩反思机制的不同作用。反思主要影响新颖性,因为它让模型能够重新😁审视已有知识,整合信息产生更多样化的观点。扩展主要影响知识密⭐度、广度和深度,因为它为模型的信息检索设定了更精确的方向。当😘研究团队增加扩展和反思的深度时,发现知识密度和信息多样性的增😊长速度会逐渐放缓,这表明还存在其他需要识别和定义的知识边界。🙄 OmniThink的创新意义在于首次将人类的慢思考过😆程系统化地应用到机器写作中。传统方法就像让学生在考试时间有限🥳的情况下快速作答,而OmniThink更像是给予充足时间让学😂生深思熟虑后再下笔。这种范式转变不仅提高了文章质量,还为长文😆本生成研究指出了新方向。 该框架的实用价值也很显著。O😘mniThink是模型无关的,可以与现有的任何大语言模型结合😴使用。无论是GPT系列、文心一言还是通义千问,都能从这种慢思⭐考机制中受益。这意味着该技术有很强的推广潜力,可以广泛应用于❤️学术写作、新闻报道、技术文档等各种长文本生成场景。 当🙌然,这项研究也有一些局限性。目前的工作主要局限于文本搜索和生😴成,还没有考虑多模态信息的利用。此外,系统还没有考虑个性化的😉写作风格,生成的文本往往偏向学术化,可能不太符合普通用户的阅😂读习惯。处理时间方面,由于需要多轮扩展和反思,OmniThi🙌nk比传统方法需要更多时间,不过研究团队认为这种时间成本是值😘得的,因为它换来了显著的质量提升。 展望未来,这项研究😴为长文本生成开辟了新的研究方向。研究团队计划探索更高级的机器🥳写作方法,将更深层的推理与人机交互结合。同时,如何将多模态信👍息整合到慢思考框架中,如何实现个性化的写作风格,都是值得进一😊步探索的问题。 说到底,OmniThink的成功在于它🥳真正理解了写作的本质:写作不是简单的信息拼凑,而是一个需要深🤗度思考、反复琢磨的创作过程。正如古人所说"文章千古事,得失寸😊心知",好文章需要时间和心力的投入。这项研究让我们看到了AI😴写作的新可能:不再是快餐式的内容生产,而是像人类作家一样的深👍度创作。随着这类技术的成熟,我们或许真的能够拥有既高效又深刻🙌的AI写作助手,为人类的知识创作和传播贡献更大力量。 😊Q&A Q1:OmniThink与现有AI写作工具ST🚀ORM、Co-STORM相比有什么不同? A:Omni🤔Think最大的不同在于引入了"慢思考"机制。传统工具像ST😢ORM和Co-STORM主要通过角色扮演对话来收集信息,但缺😊乏深度反思能力,容易产生重复内容。OmniThink则通过信😅息树和概念池两个组件,让AI能够像人类一样不断扩展知识、反思👏信息,逐步深化对话题的理解,从而生成更有深度和新颖性的文章。😂 Q2:OmniThink生成一篇文章需要多长时间? 🙌 A:由于需要多轮扩展和反思,OmniThink确实比传🔥统方法耗时更长。根据研究团队的测试,平均需要322秒,相比C😅o-STORM的289秒略有增加。不过研究团队认为这种时间成😅本是值得的,因为它能显著提升文章的知识密度和质量,就像厨师花😆更多时间精心烹饪能做出更美味的菜肴一样。 Q3:普通用😉户能使用OmniThink吗?有什么使用要求? A:O😴mniThink是一个开源的研究框架,技术人员可以通过Git🎉Hub获取代码并与各种大语言模型结合使用。对于普通用户来说,😁目前还需要一定的技术基础来部署。不过由于该框架是模型无关的,😘未来很可能会被集成到各种商业AI写作工具中,让普通用户也能享😍受到慢思考写作的优势。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
第一财经 不同硬件、不同大脑,不同机器人厂商进入不同场🌟景,在多方变量的加持下,机器人的规模化落地似乎遥遥无期。 😎 9月17日,第一财经记者在采访第三方部署方、机器人本体厂🤗商和场景落地方时发现,一个行业新角色正在出现。一个类似于安卓🤗操作系统的中间算法层正在承担屏蔽硬件差异、兼容不同大脑架构的🔥功能,为机器人在真实场景中的规模化落地提供可能。 如今😁,这一产业角色已经吸引了谷歌、智元、富临精工(300432.❤️SZ)、格力博(301260.SZ)、东土科技(300353😴.SZ)、巨星新材料等企业押注。但在硬件厂商坚持自家体系、大🤗模型企业追逐通用智能的格局下,行业的“安卓时刻”何时到来,仍😂有待市场与现实工况的双重检验。 机器人涌入场景,跨本体🎉训练遇阻 当机器人厂商涌向场景方,新的问题正在出现。 🥳 “这个月至少有两家机器人公司正在和我们谈合作。”Kel🤩vin是长三角一家物流上市公司的技术负责人,他告诉记者,为了😢和人形机器人厂商进行合作,自己不得不拨出一个八人左右的团队和😢不同机器人企业进行对接。“我们需要开放不同的数据接口,提供一😁个专门的实验场景,还需要根据各家机器人的要求不断调整流程和测😊试参数”。 在大量的人力和物力投入之外,Kelvin坦❤️言自己算不过来ROI(Return on Investmen💯t,投资回报率)。“机器的工作效率不稳定,且运维需要大量后续😁的费用。”他向第一财经记者透露,物流企业马上就会备战“双11🤩”时间,在此期间是否继续让机器人上岗,他还在犹豫。 更😂大的问题是,由于不同厂商的机器人算法不兼容、硬件各自封闭,导🌟致一个场景的成功经验难以迁移到另一个场景。“有的时候我们的流😁水线哪怕是多一个弯折,机器人都需要重新走一轮POC(Proo⭐f of Concept,概念验证)。” “厂商觉得我🙌们不够开放,我们觉得机器人厂商要得太多。”Kelvin说,这🎉是产业上下游之间对接存在的普遍问题。第一财经记者了解到,一些👍“中间人”的角色正在产业链中诞生。前上汽自动驾驶域控制器算法😘负责人,安努智能工程算法总监杨曾告诉记者,团队正在研发的一套⭐中间件算法平台,希望像手机里的操作系统一样,把不同厂商的机器🔥人纳入统一的兼容框架。 就像手机的操作系统让不同软件在💯同一套规则下运转一样,中间件希望能够通过屏蔽底层硬件差异,使😉一套算法能够迁移到不同厂商的机器人上。“如果每遇到一个新的硬🙄件,就要重新训练,机器人在实际场景部署的速度就会非常慢。”重🌟庆大学助理教授,人工智能及多模态实验室具身智能负责人,安努智🤗能首席科学家胡喆告诉第一财经记者,想要提高机器人的通用化,跨😅本体是必须跨过的门槛。 在不改动模型本身的前提下,兼容🤩不同机器人的大脑,成为中间件的挑战。“虽然主流的模型是VLA🤔模型(Vision-Language-Action Mode😢l,视觉-语言-动作模型),但其中的架构仍然不同,有端到端,🥳也有分层式。”胡喆说,中间件在机器人大脑和机器人作业的实际场💯景中充当一个“翻译官”的角色。在他的设想里,输出的指令会先被😆中间件被转化为统一的目标和约束,再交由各家机器人自身的规划控😊制器执行。 “这样我们就不必为每一个新厂商重新训练模型🤔,只需要向每一个机器人的规划控制器下达指令,就能让中间件跑通🤗整个流程。”胡喆说。 展开全文 物理规律难仿真,🎉机器人“干中学” “我们曾经试过,在实验室里跑通了所有😴算法,结果到实际场景中发现完全不是一回事儿。”钛维云创的创始🤯人张磊告诉记者,当自己试图让机器人处理布料这样的柔性物体时,🚀由于布料材质、厚薄、摩擦力不同,实验室的环境并不能完全满足操😆作需要。 张磊透露,像布料、不规则包裹等物体,POC周😜期“很长,且难以给出确切的时间”,“因为我们需要提前磨合算法🙄、下线采集数据、再拿到实验室反复训练,才能勉强适配场景”。 🎉 工厂中的物料、工艺成千上万,换一条生产线、换一个工位,😅都可能带来完全不同的情况。 “离线的强化学习不可能把所🙄有真实场景一网打尽。”胡喆告诉第一财经记者,机器人不仅需要根😎据场景反复调试算法,还往往要重新采集数据回到实验室做离线训练😂,这让整个周期被拉长,时间和人力都被大量消耗。 边做边🚀改,或许才是机器人进行学习的关键。 胡喆透露,他正在尝😴试利用实时的在线学习算法,允许机器人在实际作业过程中一边操作😜一边采集数据,并实时更新模型。这种方式只需在现场额外增加几秒👏钟运行和100个数据量,“我们会根据模型出来的结果选择数据,😉让机器人在不断学习的过程中遗忘无用的数据,保持数据的精简,也😀不会对算力提出过多的要求”。 机器人“干中学”的另一边🙄,团队也在尝试利用仿真等手段降低机器人的学习成本。“现在大部🎉分机器人仿真环境离现实工况还有很大差距,因为仿真环境中缺乏物🔥理定律的支撑。”美国肯塔基大学空气动力实验室仿真负责人、安努❤️智能联席科学家付博直言,大部分仿真平台依赖数据驱动,却缺乏物😴理定律的支撑。 “如果只是换个环境光影、物体形状等表层🔥变量,那在这种仿真里能跑通的算法,一旦放到现实中,往往会失效😀。”付博说。 让虚拟环境逼近真实世界,并不是一件容易的🔥事。“摩擦力、空气流动等连续变化的环境很难被拆成可以极端的小👏单元。”付博解释,以机器人搬箱子举例,这个场景涉及了力学、刚😡体运动学与工程力学等基本的物理规律。付博说,加入这些规律的仿🤔真能够模拟不同重量箱子堆叠时的微小形变,计算箱内散落零件导致😡的重心偏移,并让机器人理解物体变化对抓取稳定性的影响,以及机🤩器人发力点与物体形变的关联。 他坦言,将这些物理定律的😢融入仿真环境是一个“正在进行的过程”,需逐步攻克计算量庞大的🙄技术难题。付博认为,只有当机器人在仿真环境中充分理解并内化这🤩些物理规律,才能在真实场景中更好地应对突发情况,实现泛化能力🎉的提升。“模型永远无法完全替代实验,但我们希望通过极致的物理😀仿真,让真实实验只需做一次就能验证可行性。” 谷歌提前⭐布局,中间件或成规模化关键 从机器人本体和大脑厂商到最😉终的应用企业,中间还需要大量复杂的部署工作——包括接口打通、😂场景适配、算法迁移等环节。对整个产业链而言,这是一块颇具吸引🤩力的“肥肉”,盯上的远不止安努智能一家企业。 今年6月🤗,银河通用和博世中国成立合资公司博银合创。根据双方披露内容,😀合资公司将聚焦复杂装配、智能质检等高精度制造场景,并且构建标😂准化、模块化、可复制的训练与部署体系,支撑机器人产品的快速迭🤔代与规模化部署。 今年年初,富临精工宣布公司与智元机器⭐人等相关方签署了《人形机器人应用项目投资合作协议》,各方共同😂投资设立合资公司实施人形机器人项目。当前,富临精工、智元、巨😢星新材料均为安努智能股东。就在9月,专注于北美市场的产业股东🤩格力博、聚焦机器人操作系统的东土科技也宣布增资安努智能。 👏 在海外,Google(谷歌)的母公司Alphabet孵化😎的Intrinsic也在扮演类似的角色。Intrinsic试🤩图通过通用算法和工具链降低机器人系统的集成成本,让不同厂商的😆机器人在同一套兼容框架下运行。 通过一个类似操作系统的😂中间件来对接不同机器人厂商和场景,这是安努智能董事长文宏杰提😍出的解题思路。虽然路径各异,但上述三家兼具机器人和产业方背景🙄的第三方部署商,它们的共同点都是试图在碎片化的产业格局中,寻👏找一套能跨越厂商和场景的兼容方式。 不过,机器人产业是👏否会像手机产业那样,最终走向由统一“操作系统”支撑的格局,仍😢充满疑问。一位由数码3C行业转至机器人产业的工程师告诉第一财😆经记者。与手机产业面临的问题不同,机器人领域的情况更为复杂,😅硬件厂商坚持各自的体系,而大模型企业则瞄准通用智能,“屁股决😊定脑袋,大家想的未必是同一个目标”。 多方角力之下,第😊三方部署商设想的中间件是否能够建立起产业上下游的桥梁,还需要😴进一步观察。“模型如果停留在实验室、本体如果只会跳几支舞,那😜最终只是一个故事。”文宏杰认为,在当下的机器人产业,关键不是😆讲模型和本体的“故事”,而是扎进具体场景,通过部署获取真机数🥳据和工程化经验,将商业化的流程拉通、沉淀。 在他看来,🔥这些工程化的经验和数据才能汇聚成类似“操作系统”的底座,真正🔥支撑机器人跨厂商、跨场景的落地。“如果中间件能够像安卓这样的🚀操作系统一样稳定通用、开放兼容,任何厂商都能接入,机器人产业😜的规模化会越来越近。” (本文来自第一财经)返回搜狐,😊查看更多
推荐阅读
欧盟昏招迭出,中方反制拳拳到肉,互怼背后欧洲的焦虑藏不住了!
4490
没有商量余地,特朗普访华之行要凉?中方11字坚决,12国等收信函
2225
被歼10砸烂招牌,法国赖上了中方,解放军反将两军,阵风声誉受损
3254
大捷!胡塞武装海军发威,3.5万吨级巨轮被击沉,英国雇佣兵败退
9411
美印谈崩了,印度划下两条“红线”,莫迪转向金砖寻求新局面。
7518
1962年,中印战争最大误判,尼赫鲁认为中国不敢出兵,这是为何?
9695
特朗普亲自致函日韩:将征收你们25%关税,不得规避或报复
3186
我国歼20、歼35将与歼10C一同亮相巴黎航展,参展机型多达8款
5062
山东舰在香港被偷拍,肇事者已经抓获
8472
俄罗斯炸疯了,乌克兰被炸到断电断水,美国继续给泽连斯基画大饼
2732
停职15天定生死!佩通坦三招布局,复职可能超预期,泰王沉默转机
7215
日本前首相提议,中日韩应加强合作
4150
特朗普回应马斯克成立“美国党”:荒谬
8510
央视突发!联合国定性大屠杀,以色列触犯底线,被判种族灭绝罪
1747
令人防不胜防?刚被中国帮助的友国,转头就要帮美国解决一大隐患
4911
1979年电波暗战:中国通信兵靠山东口音识破越军致命陷阱
5491
媒体爆料,乌克兰防长在美国拥有豪宅,其家属几乎都在美国生活
9251
我学者称印度也许该重新考虑上合资格,印主持人:我们打败了中巴
1878
俄军再次取得大捷后,又一国出兵支援?波兰前将军呼吁进攻俄本土
3913
两国可能合并,一旦成功将成超级大国,恐将终结美国一家独大局面
4591
5150万斯一票破局,特朗普考虑驱逐马斯克,他的最后一站定了?
8232