香港中文大学团队首次让AI绘画也能像人类一样"边画边思考"
吃瓜电子官网最新热点:香港中文大学团队首次让AI绘画也能像人类一样"边画边思考"
更新时间: 浏览次数:1238
这项由香港中文大学郭子宇、张任瑞等研究人员联合北京大学、上海😎人工智能实验室等机构开展的突破性研究,于2025年1月发表在😘arXiv预印本平台,论文编号arXiv:2501.1392😢6v2。有兴趣深入了解的读者可以通过https://gith🥳ub.com/ZiyuGuo99/Image-Generat🤔ion-CoT访问完整论文和代码。 想象一下,你让AI⭐画一张"红苹果放在椭圆盘子上"的图片。传统的AI就像一个闷头👏苦干的画师,拿起笔就开始画,经常画出奇怪的结果——比如苹果是👍绿的,或者盘子变成了正方形。而现在,研究团队教会了AI像人类❤️画家一样"边画边思考":先想想"我要画什么?""这一笔画得对💯吗?""需要修改什么?"然后再继续画下去。 这种让AI🌟"思考着画画"的方法,就是从OpenAI的o1模型那里借鉴来💯的"链式思维推理"技术。就好比教孩子做数学题时,不是直接给答😴案,而是教他们一步步分析:"第一步要做什么?""第二步呢?"🤯"这样做对不对?"现在,研究团队把同样的思路应用到了AI绘画🤩上,让机器也能像人一样有条不紊地创作。 研究团队发现了😆一个有趣的现象:现在主流的AI绘画模型大多采用"扩散模型"技😡术,就像在一张模糊的画布上逐渐清晰化图像。但还有另一类模型叫😍"自回归生成模型",它们的工作方式更像人类画画——一个区域一😂个区域地逐步完成,每画一笔都要考虑前面已经画好的部分。这种特😘性让它们天然适合"边画边思考"的训练方式。 研究团队以🚀Show-o模型为基础,就像选择了一个有潜力的学徒画师,然后🤔通过三种巧妙的训练方法来提升它的绘画水平。第一种方法叫"测试🤩时验证",就像给画师配了一个严格的评审员,画完每一步都要检查😁:"这一笔画得怎么样?"如果不满意就重新画。第二种方法是"偏😂好对齐训练",相当于让画师多看优秀作品和糟糕作品的对比,逐渐👍培养出好的审美品味。第三种方法是把前两种结合起来,既有严格的👏评审,又有不断的品味培养。 在"测试时验证"的探索中,😁研究团队发现了一个关键问题:传统的评判标准不太适用于绘画过程🔥。就像评价一个厨师,你不能只看最后的菜品,还要看整个烹饪过程🙌中的每个步骤。对于绘画AI来说,早期的画面往往很模糊,就像素🥳描的初稿,很难判断好坏;而后期的画面虽然清晰,但不同路径画出🙌的结果往往很相似,也难以区分优劣。 为了解决这个问题,🥳研究团队开发了一个专门的"潜力评估奖励模型"(PARM),就👏像培训了一个既懂绘画技法又有长远眼光的艺术老师。这个老师不仅😁能看出现在的画面质量,还能预测"这样画下去最终会是什么效果"🤔。更厉害的是,PARM还知道什么时候该开始认真评价——太早了🥳画面还太模糊没法判断,太晚了已经定型没法修改,只有在恰当的时🤔机才给出指导意见。 展开全文 PARM的工作方式😜分为三个步骤,就像一个经验丰富的绘画导师。首先是"清晰度判断👍":它会观察当前的画面,判断是否已经足够清晰到可以进行评价。🚀如果画面还太模糊,就耐心等待;如果已经比较清晰了,就进入下一🔥步。然后是"潜力评估":它会分析这个画面继续画下去是否有希望😎达到理想效果,就像一个老师看学生的草图时能预判最终作品的质量😁。最后是"最终选择":从所有被判定为"有潜力"的画作中挑出最🙌好的一个作为最终结果。 研究团队还开发了PARM++,🤔这相当于给AI画师增加了"自我反思"的能力。当PARM++觉😅得画作还不够好时,它会具体指出哪里有问题,比如"物体颜色不对😡"或"位置关系错误",然后引导AI重新修改。这就像一个画家画😂完后自己审视作品,发现问题后主动修正,而不是被动接受批评。 👍 在实际测试中,研究成果表现令人惊喜。在Geneval这⭐个专业的图像生成评测基准上,经过"思维训练"的AI比原来的基😀础模型提高了24%,甚至比著名的Stable Diffusi🤯on 3模型还要高出15%。这就好比一个原本中等水平的画师,😡经过系统训练后不仅大幅提升了自己的水平,还超越了一些知名画家👍。 研究团队特别关注那些最考验AI绘画能力的场景,比如🤩画多个物体、数数、准确表达颜色、描述空间位置关系等等。传统的👏AI在这些方面经常出错,比如让它画"三个红苹果",结果画成了🎉两个绿苹果;让它画"蓝色杯子在红色书本左边",结果位置关系完👏全颠倒。而经过"思维训练"的AI在这些方面都有了显著改善,就😆像一个原本粗心的学生变得细致认真了。 从技术角度来看,😎这项研究的创新之处在于首次系统性地将"链式思维推理"应用到了😊自回归图像生成领域。研究团队不是简单地照搬文本领域的方法,而🤩是深入分析了图像生成的特殊性,设计了专门适合的训练和评估策略😍。他们发现,相比于传统的奖励模型,PARM能够更好地处理图像😆生成过程中的模糊性和渐进性特征。 值得注意的是,这种方🚀法不仅适用于Show-o模型,研究团队还在LlamaGen和😎Janus-Pro等其他自回归生成模型上进行了验证,都取得了😀一致的改善效果。这说明"让AI思考着画画"这个思路具有很好的😅普适性,就像一套好的教学方法可以应用到不同的学生身上。 😡 研究过程中也暴露了一些有趣的现象。比如,单纯的"测试时验证😁"效果不如"偏好对齐训练",这说明让AI通过对比学习来提升品🙌味,比单纯的反复检查更有效。但是当两种方法结合使用时,效果会🎉进一步提升,这证实了不同训练策略的互补性。 从实际应用🥳的角度来看,这项技术可能会改变我们与AI绘画工具的交互方式。❤️目前的AI绘画工具往往需要用户不断调整提示词、反复生成,直到🙄得到满意的结果。而具备"思维能力"的AI可能会更加智能,能够😅理解复杂的描述,自主处理细节问题,减少用户的试错成本。 😆 研究团队还发现,让AI进行"自我反思"虽然会带来额外的计算🌟开销,但能够显著提升最终结果的质量。这就像让画家多花一些时间🙄思考和修改,虽然效率略有下降,但作品质量会大幅提升。在实际应😎用中,用户可以根据需求选择是要快速生成还是高质量生成。 🤗 这项研究的意义不仅限于技术层面,它还为AI创作领域提供了新😆的思路。传统上,我们往往把AI看作是一个"黑盒子",输入需求😴就输出结果。而这项研究展示了让AI具备"元认知"能力的可能性💯——不仅知道如何做,还知道如何检查自己做得对不对,如何改进。🚀 当然,这项技术也有其局限性。目前的方法主要针对自回归😘生成模型,对于占据主流地位的扩散模型还需要进一步的适配和优化🤯。此外,增加的"思维"过程会带来一定的计算开销,在资源受限的🤩环境下可能会影响使用体验。研究团队在论文中诚实地讨论了这些限🚀制,并提出了未来的改进方向。 从更广阔的视角来看,这项😢研究是AI能力演进的一个重要里程碑。它不仅仅是让机器画画画得🤔更好,更重要的是探索了让机器具备"自我意识"和"反思能力"的😜路径。这种"会思考的AI"可能会在更多领域发挥作用,从写作、😆编程到科学研究,都可能受益于这种"边做边思考"的智能模式。 😎 总的来说,香港中文大学团队的这项研究为AI绘画领域带来😀了新的突破,不仅在技术上实现了显著的性能提升,更在理念上展示🌟了"思考型AI"的巨大潜力。随着这项技术的进一步发展和优化,😀我们可能会看到更加智能、更加可靠的AI创作工具,它们不仅能够😢理解我们的需求,还能像人类创作者一样进行思考、判断和自我完善🤯。 Q&A Q1:PARM是什么?它跟传统的AI😅绘画评判方法有什么不同? A:PARM是"潜力评估奖励🚀模型"的简称,是专门为AI绘画设计的智能评判系统。传统方法要🚀么只看最终结果,要么对每个步骤都强行评判,而PARM更聪明—😁—它知道什么时候该开始评价(画面足够清晰时),能预测画作的发😴展潜力,就像一个经验丰富的绘画老师既能看出学生草图的问题,又😉能预判最终效果。 Q2:这种让AI"边画边思考"的方法😉会让绘画速度变慢吗? A:确实会增加一些计算时间,因为🙄AI需要额外的"思考"过程来评估和调整。但研究团队发现这种时😜间投入是值得的——虽然单次生成稍慢一些,但画出好作品的成功率😎大大提高,用户不需要反复重新生成,总体效率反而可能更高。就像🤗画家多花时间思考构图,虽然慢一点但能避免返工。 Q3:🙌这项技术什么时候能在日常的AI绘画工具中使用? A:目😅前研究团队已经在GitHub上开源了相关代码(https:/🙄/github.com/ZiyuGuo99/Image-Ge⭐neration-CoT),技术开发者可以基于此进行开发。但😡要集成到像Midjourney、Stable Diffusi😅on这样的主流工具中,还需要进一步的工程优化和适配工作。预计🙌在未来1-2年内,我们可能会在一些新的AI绘画产品中看到类似😎的"思考型"功能。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
这一惊人增幅直接印证了中美贸易关系改善带来的直接影响——双方😴5月达成贸易协议后,中国迅速恢复包括稀土在内的关键原材料出口😀,而美国也取消了对AI芯片等技术的限制。当美国还在为短期供应😉恢复沾沾自喜时,中国已用一套…
推荐阅读
石湫街道开展“军事日”活动 以学铸魂筑牢国防线
3457
鼓楼小市街道文明实践活动弘扬传统文化
4225
东山外校3000多人唱响爱国强音
4838
兴隆街道织密油烟“防控网”
8292
2025长三角民政座谈会召开
7997
南京市浦口区交通运输局全面筑牢国庆假期出行“畅通防线”
8102
辽宁省委主要负责同志职务调整
4293
玄武蓁巷焕新 打造校地共创新标杆
6662
昨发送110万人次 江苏铁路开启“人从众”模式
5746
江苏全面开展汽车焕新促消费活动
9127
“乐享田园·国庆直通车”带你畅游金陵最美乡村
6511
长三角铁路 迎来节前出行大客流
2756
南京仁品耳鼻喉专科医院13周年 院庆系列活动暨福利月正式启动
5377
女子卧床两周引发肺栓塞 术后化险为夷
6120
到中山植物园涨知识、观蕨展、赏花海
4701
最高补贴8000元!江苏全面开展汽车焕新促消费活动
2203
特朗普宣布对进口建材、橱柜、浴室用品等征收新关税,中方回应:关税战、贸易战没有赢家
4970
江苏多个高速入口关闭!
9781
健康服务走进商业中心 惠民义诊送到居民身边
8074
65岁以上辖区居民 中华路社区医院喊你免费体检
2411
锁金村街道全力保障中秋国庆期间市容环境秩序
9869