香港中文大学团队首次让AI绘画也能像人类一样"边画边思考"

吃瓜电子官网最新热点:香港中文大学团队首次让AI绘画也能像人类一样"边画边思考"

更新时间: 浏览次数:6498

这项由香港中文大学郭子宇、张任瑞等研究人员联合北京大学、上海😊人工智能实验室等机构开展的突破性研究,于2025年1月发表在🤯arXiv预印本平台,论文编号arXiv:2501.1392🎉6v2。有兴趣深入了解的读者可以通过https://gith😜ub.com/ZiyuGuo99/Image-Generat👍ion-CoT访问完整论文和代码。 想象一下,你让AI🙄画一张"红苹果放在椭圆盘子上"的图片。传统的AI就像一个闷头🙄苦干的画师,拿起笔就开始画,经常画出奇怪的结果——比如苹果是😢绿的,或者盘子变成了正方形。而现在,研究团队教会了AI像人类🙌画家一样"边画边思考":先想想"我要画什么?""这一笔画得对❤️吗?""需要修改什么?"然后再继续画下去。 这种让AI😡"思考着画画"的方法,就是从OpenAI的o1模型那里借鉴来😢的"链式思维推理"技术。就好比教孩子做数学题时,不是直接给答😜案,而是教他们一步步分析:"第一步要做什么?""第二步呢?"😎"这样做对不对?"现在,研究团队把同样的思路应用到了AI绘画😍上,让机器也能像人一样有条不紊地创作。 研究团队发现了😂一个有趣的现象:现在主流的AI绘画模型大多采用"扩散模型"技🙄术,就像在一张模糊的画布上逐渐清晰化图像。但还有另一类模型叫💯"自回归生成模型",它们的工作方式更像人类画画——一个区域一😉个区域地逐步完成,每画一笔都要考虑前面已经画好的部分。这种特🎉性让它们天然适合"边画边思考"的训练方式。 研究团队以😘Show-o模型为基础,就像选择了一个有潜力的学徒画师,然后😴通过三种巧妙的训练方法来提升它的绘画水平。第一种方法叫"测试⭐时验证",就像给画师配了一个严格的评审员,画完每一步都要检查😁:"这一笔画得怎么样?"如果不满意就重新画。第二种方法是"偏😜好对齐训练",相当于让画师多看优秀作品和糟糕作品的对比,逐渐😂培养出好的审美品味。第三种方法是把前两种结合起来,既有严格的🎉评审,又有不断的品味培养。 在"测试时验证"的探索中,🥳研究团队发现了一个关键问题:传统的评判标准不太适用于绘画过程😍。就像评价一个厨师,你不能只看最后的菜品,还要看整个烹饪过程😆中的每个步骤。对于绘画AI来说,早期的画面往往很模糊,就像素⭐描的初稿,很难判断好坏;而后期的画面虽然清晰,但不同路径画出😴的结果往往很相似,也难以区分优劣。 为了解决这个问题,🤗研究团队开发了一个专门的"潜力评估奖励模型"(PARM),就🚀像培训了一个既懂绘画技法又有长远眼光的艺术老师。这个老师不仅😘能看出现在的画面质量,还能预测"这样画下去最终会是什么效果"😢。更厉害的是,PARM还知道什么时候该开始认真评价——太早了😁画面还太模糊没法判断,太晚了已经定型没法修改,只有在恰当的时⭐机才给出指导意见。 展开全文 PARM的工作方式🤯分为三个步骤,就像一个经验丰富的绘画导师。首先是"清晰度判断😂":它会观察当前的画面,判断是否已经足够清晰到可以进行评价。🥳如果画面还太模糊,就耐心等待;如果已经比较清晰了,就进入下一🤩步。然后是"潜力评估":它会分析这个画面继续画下去是否有希望😢达到理想效果,就像一个老师看学生的草图时能预判最终作品的质量😘。最后是"最终选择":从所有被判定为"有潜力"的画作中挑出最😀好的一个作为最终结果。 研究团队还开发了PARM++,🤗这相当于给AI画师增加了"自我反思"的能力。当PARM++觉😁得画作还不够好时,它会具体指出哪里有问题,比如"物体颜色不对😁"或"位置关系错误",然后引导AI重新修改。这就像一个画家画😅完后自己审视作品,发现问题后主动修正,而不是被动接受批评。 😡 在实际测试中,研究成果表现令人惊喜。在Geneval这😀个专业的图像生成评测基准上,经过"思维训练"的AI比原来的基🤗础模型提高了24%,甚至比著名的Stable Diffusi😢on 3模型还要高出15%。这就好比一个原本中等水平的画师,😜经过系统训练后不仅大幅提升了自己的水平,还超越了一些知名画家😆。 研究团队特别关注那些最考验AI绘画能力的场景,比如😁画多个物体、数数、准确表达颜色、描述空间位置关系等等。传统的🤗AI在这些方面经常出错,比如让它画"三个红苹果",结果画成了😍两个绿苹果;让它画"蓝色杯子在红色书本左边",结果位置关系完😅全颠倒。而经过"思维训练"的AI在这些方面都有了显著改善,就😂像一个原本粗心的学生变得细致认真了。 从技术角度来看,🎉这项研究的创新之处在于首次系统性地将"链式思维推理"应用到了👏自回归图像生成领域。研究团队不是简单地照搬文本领域的方法,而😂是深入分析了图像生成的特殊性,设计了专门适合的训练和评估策略😢。他们发现,相比于传统的奖励模型,PARM能够更好地处理图像⭐生成过程中的模糊性和渐进性特征。 值得注意的是,这种方🔥法不仅适用于Show-o模型,研究团队还在LlamaGen和🙌Janus-Pro等其他自回归生成模型上进行了验证,都取得了😊一致的改善效果。这说明"让AI思考着画画"这个思路具有很好的🥳普适性,就像一套好的教学方法可以应用到不同的学生身上。 😘 研究过程中也暴露了一些有趣的现象。比如,单纯的"测试时验证😂"效果不如"偏好对齐训练",这说明让AI通过对比学习来提升品😜味,比单纯的反复检查更有效。但是当两种方法结合使用时,效果会😢进一步提升,这证实了不同训练策略的互补性。 从实际应用😍的角度来看,这项技术可能会改变我们与AI绘画工具的交互方式。🌟目前的AI绘画工具往往需要用户不断调整提示词、反复生成,直到😴得到满意的结果。而具备"思维能力"的AI可能会更加智能,能够👍理解复杂的描述,自主处理细节问题,减少用户的试错成本。 😡 研究团队还发现,让AI进行"自我反思"虽然会带来额外的计算🤗开销,但能够显著提升最终结果的质量。这就像让画家多花一些时间😴思考和修改,虽然效率略有下降,但作品质量会大幅提升。在实际应😡用中,用户可以根据需求选择是要快速生成还是高质量生成。 😉 这项研究的意义不仅限于技术层面,它还为AI创作领域提供了新⭐的思路。传统上,我们往往把AI看作是一个"黑盒子",输入需求🔥就输出结果。而这项研究展示了让AI具备"元认知"能力的可能性👏——不仅知道如何做,还知道如何检查自己做得对不对,如何改进。😂 当然,这项技术也有其局限性。目前的方法主要针对自回归😎生成模型,对于占据主流地位的扩散模型还需要进一步的适配和优化🙌。此外,增加的"思维"过程会带来一定的计算开销,在资源受限的😉环境下可能会影响使用体验。研究团队在论文中诚实地讨论了这些限😊制,并提出了未来的改进方向。 从更广阔的视角来看,这项😉研究是AI能力演进的一个重要里程碑。它不仅仅是让机器画画画得👍更好,更重要的是探索了让机器具备"自我意识"和"反思能力"的😆路径。这种"会思考的AI"可能会在更多领域发挥作用,从写作、👍编程到科学研究,都可能受益于这种"边做边思考"的智能模式。 🥳 总的来说,香港中文大学团队的这项研究为AI绘画领域带来⭐了新的突破,不仅在技术上实现了显著的性能提升,更在理念上展示👏了"思考型AI"的巨大潜力。随着这项技术的进一步发展和优化,😜我们可能会看到更加智能、更加可靠的AI创作工具,它们不仅能够🚀理解我们的需求,还能像人类创作者一样进行思考、判断和自我完善💯。 Q&A Q1:PARM是什么?它跟传统的AI😂绘画评判方法有什么不同? A:PARM是"潜力评估奖励🎉模型"的简称,是专门为AI绘画设计的智能评判系统。传统方法要🙄么只看最终结果,要么对每个步骤都强行评判,而PARM更聪明—🙌—它知道什么时候该开始评价(画面足够清晰时),能预测画作的发👍展潜力,就像一个经验丰富的绘画老师既能看出学生草图的问题,又🎉能预判最终效果。 Q2:这种让AI"边画边思考"的方法😢会让绘画速度变慢吗? A:确实会增加一些计算时间,因为🥳AI需要额外的"思考"过程来评估和调整。但研究团队发现这种时😍间投入是值得的——虽然单次生成稍慢一些,但画出好作品的成功率🙌大大提高,用户不需要反复重新生成,总体效率反而可能更高。就像😍画家多花时间思考构图,虽然慢一点但能避免返工。 Q3:😆这项技术什么时候能在日常的AI绘画工具中使用? A:目❤️前研究团队已经在GitHub上开源了相关代码(https:/⭐/github.com/ZiyuGuo99/Image-Ge🤯neration-CoT),技术开发者可以基于此进行开发。但🤗要集成到像Midjourney、Stable Diffusi😘on这样的主流工具中,还需要进一步的工程优化和适配工作。预计😘在未来1-2年内,我们可能会在一些新的AI绘画产品中看到类似😅的"思考型"功能。返回搜狐,查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

规模2520亿澳元的澳大利亚未来基金宣布,已适度减持美国资产👍转投德日,同时增持包括黄金在内的大宗商品,并称将密切关注特朗😂普对美联储的施压行动。 澳大利亚规模达2520亿澳元(🙄约合1660亿美元)的主权财富基金——未来基金(Future❤️ Fund)表示,已削减在美国市场的敞口,并正密切关注美国总😘统特朗普对美联储的施压行动。 未来基金宣布其截至6月的🤗年度回报率达12.2%,是政府设定的6.1%的目标的两倍。首👏席执行官拉斐尔·阿恩特(Raphael Arndt)于周二接🤗受电话采访时告诉记者,美国资产仍是该基金最大持仓类别,但市场😁波动和政治不确定性已促使其削减了美国资产敞口。 阿恩特❤️指出,此次“适度减持美国市场资产”是“为实现投资组合多元化而👏进行的调整”,目的是将资金转向德国、日本等估值相对更具吸引力😁的市场。 阿恩特说:“我们最感兴趣的地区是欧洲大陆,尤🙌其是德国,该国政府已经宣布了一些刺激和投资经济的措施....🎉..多年来,我们一直在把资金转移到日本,这两个市场似乎都比美🤯国或澳大利亚股市便宜。” 阿恩特认为,特朗普对美联储的😡一系列攻击——包括试图解雇美联储理事莉萨·库克(Lisa C😎ook)、呼吁降息等,目前尚未影响到美联储的独立性。 😴“我们正密切关注此事。我认为这一问题至关重要,但目前来看,美😅联储似乎仍在独立运作,”阿恩特表示,“这是当前极具关注度的话😎题——不仅我们在关注,许多对冲基金经理现在也在重点关注。” 🔥 此前,澳大利亚主要养老金机构对此事持不同观点:澳大利亚❤️超级养老金(AustralianSuper)的首席投资官上周😂淡化了相关担忧,而澳大利亚退休信托基金(Australian🎉 Retirement Trust)则部分因特朗普对美联储的⭐施压,已减持美国国债持仓。 根据周二发布的最新数据,未🙄来基金约三分之一的投资组合配置于发达市场和新兴市场股票,其中👍有651.3亿澳元投资于发达市场,占该基金总投资的四分之一。😡这一数字高于2024年同期的468.3亿澳元。该基金本年度1😁2.2%的回报率,超过了上一年度9.1%的收益水平。 😎阿恩特指出,尽管市场存在波动,股票资产仍实现了稳健回报。他补🙌充称,基础设施类资产表现“异常出色”,对冲基金投资组合也录得🔥强劲收益。 阿恩特还表示,未来基金已增持澳元计价资产,🙄以“应对通胀和汇率波动风险”。 澳大利亚政府去年更新了👏未来基金的投资授权,要求该基金考虑加大对住房、能源、基础设施🚀项目等“国家重点领域”的投资。 阿恩特称,未来基金还在😡“多元化配置发达市场货币及大宗商品(包括黄金)的敞口”。返回😢搜狐,查看更多

发布于:邹平市
评论
全部
还没有人评论过,快来抢首评
抢首评

推荐阅读

爱奇艺进军线下文旅 打造IP沉浸式主题乐园

界面新闻 2025-11-12 00:38:47 3250

七彩虹战斧B850M超级黑刃主板将上市

界面新闻 2025-11-12 02:30:09 4524

智能眼镜出货量暴增,光峰科技、利亚德等A股企业竞逐 AR 光学赛道

界面新闻 2025-11-12 04:57:31 1164

微信鸿蒙PC版4.1.0.5上线,支持多图查看与消息提醒

界面新闻 2025-11-12 06:06:39 4243

大疆RS 5稳定器曝光:电池大升级,续航大幅提升

界面新闻 2025-11-12 04:34:52 6446

字节跳动再传港股上市,官方回应称消息不实

界面新闻 2025-11-12 02:02:02 1777

雷军回应小米15年发展:谈人才、质疑与高端突破

界面新闻 2025-11-12 04:51:10 9908

宝可梦公司否认授权美执法视频

界面新闻 2025-11-12 04:24:58 5856

东京电玩展

界面新闻 2025-11-12 00:13:19 1171

微信鸿蒙版1.0.11.32内测上线,新增实时位置共享、朋友圈翻译等功能

界面新闻 2025-11-12 07:38:13 6049

杭州通报:方翔组织安排多人聚餐后酒驾,被公安机关当场查获

界面新闻 2025-11-12 06:04:38 1296

250亿美元核电大单,俄伊签了

界面新闻 2025-11-12 01:19:16 1216

中方重磅发声:以色列必须停止侵犯叙利亚、黎巴嫩、也门等国的主权、安全和领土完整

界面新闻 2025-11-12 07:51:54 4109

中俄巴伊发表联合声明,中方回应

界面新闻 2025-11-12 08:47:27 4433

航天信息爱信诺·信诺GPT深度集成DeepSeek,为财税数字化服务注入新动能

界面新闻 2025-11-12 06:06:54 2779

国庆假期圆满落幕,WiFi万能钥匙助力亿万旅客便捷连网

界面新闻 2025-11-12 02:35:07 6009

AMD FSR 3.1 SDK目前已可在GPUOpen上进行下载

界面新闻 2025-11-12 01:25:22 7388

WiFi万能钥匙持续助力网络普及,为数亿网民提供便捷连网服务

界面新闻 2025-11-12 05:17:25 5050

航天信息信安强基重大创新工程——致力成为信创和密码领域主力军

界面新闻 2025-11-12 06:56:27 8935

航天信息云链贸运重大创新工程——构建新型 国际贸运数字生态体系

界面新闻 2025-11-12 00:40:24 2605

WiFi万能钥匙助力传播央视“一带一路”报道

界面新闻 2025-11-12 05:25:09 2254
为您推荐中
暂时没有更多内容了……