清华大学MotionBench:揭示AI视频模型动作理解盲区
吃瓜电子官网最新热点:清华大学MotionBench:揭示AI视频模型动作理解盲区
更新时间: 浏览次数:4477
这项由清华大学洪文轶、程烨安等研究者与智谱AI团队合作完成的😅研究,发表于2025年1月6日的arXiv预印本平台(论文编😉号:arXiv:2501.02955v1),有兴趣深入了解的😎读者可以通过论文标题"MotionBench: Benchm😘arking and Improving Fine-grai😢ned Video Motion Understanding💯 for Vision Language Models"搜索⭐获取完整论文。 你是否曾经好奇,那些能够描述视频内容、🔥回答视频问题的AI模型,究竟能多准确地"看懂"视频?当我们看😴到一个人跳跃、两个棒球运动员在空中相撞庆祝时,这些看似简单的😘动作,对于目前最先进的AI视频理解模型来说,居然是极大的挑战❤️。清华大学的研究团队通过一项突破性研究发现,即使是GPT-4😉o、Qwen2-VL这样的顶级模型,在理解视频中的精细动作时😜,准确率竟然连60%都达不到。 这个发现让人意外,因为😢我们平时看到的AI视频分析似乎已经相当出色。研究团队深入分析🤔后发现,现有的视频理解评估体系存在一个巨大的盲区——几乎所有😂现存的视频评估基准都专注于故事情节理解和事件识别,却忽略了最😜基础的动作层面理解。就像我们评估一个人的阅读能力时,只测试他😜能否理解整本书的主题思想,却从未测试过他是否认识每个字一样。💯 为了填补这个关键空白,研究团队开发了MotionBe😊nch——一个专门测试AI模型精细动作理解能力的全新评估体系😆。这套评估系统包含了8052个精心设计的问答对,覆盖5385🔥个视频片段,这些视频来源极其丰富:从网络平台Pexels和P😁anda-70M数据集收集的日常生活视频、从MedVid医学🥳视频数据库获取的医疗教学片段、从SportsSloMo获得的👍体育慢镜头、从Ha-ViD收集的工业场景视频,甚至包括研究团🥳队使用Unity引擎专门制作的虚拟场景视频。 Moti🙌onBench的评估维度设计得极其精巧,涵盖了六个关键的动作😂理解类别。第一类是动作识别,测试模型能否准确识别视频中出现的😂具体动作类型。第二类是位置相关动作,检验模型是否能理解物体或🌟人物在空间中的移动轨迹和位置变化。第三类是动作顺序,评估模型😎能否正确理解复杂动作的先后顺序。第四类是重复计数,这可能是最😉困难的一类,要求模型准确计算某个动作重复了多少次。第五类是动😘作相关物体,测试模型能否识别参与动作的小物件。第六类是摄像机❤️运动,评估模型对镜头移动的理解能力。 当研究团队用这套👍评估体系测试当前最先进的视频理解模型时,结果令人震惊。即使是🤯业界公认表现最好的Qwen2-VL-72B模型,在Motio😆nBench上的综合表现也仅达到58%的准确率。更令人担忧的😘是,在重复计数这个类别中,几乎所有模型的表现都接近随机猜测的💯水平,准确率徘徊在25%左右。这意味着当你问一个AI"视频中🎉的人跳了几次"时,它的回答可能还不如抛硬币来得准确。 😍展开全文 为了深入理解这个问题的根源,研究团队进行了详🤔细分析。他们发现,精细动作理解的困难主要来自两个方面。首先是🥳技术限制:要准确捕捉动作细节需要高帧率的视频输入,但高帧率意😎味着巨大的计算成本。目前的视频理解模型受限于计算资源,只能处🤩理非常有限的帧数。以Intern-VL2为例,它只能处理16😉到64帧,这意味着对于一个5分钟的视频,它只能以0.2帧每秒😴的极低采样率进行处理——相当于每5秒钟只看一张图片,想要理解🤔其中的精细动作变化几乎是不可能的。 第二个根本原因是现🤯有模型缺乏精细动作理解的基础能力。研究发现,即使提供更高的帧😆率输入,模型的表现提升也相当有限,这表明问题不仅仅在于"看得❤️不够多",更在于"看了也不懂"。 针对这些发现的问题,🔥研究团队提出了一个创新的解决方案——通过编码器融合技术(Th🤔rough-Encoder Fusion,简称TE Fusi👏on)。传统的视频压缩方法就像是先把每张图片分别理解,然后再🤯试图找出它们之间的联系,这种"浅层融合"的方式很难捕捉到动作😎的连续性和细节变化。TE Fusion则采用了一种"深度融合😅"的策略,让相邻的视频帧在处理的整个过程中都保持紧密的信息交🙌流,就像一个团队在协作完成任务时保持实时沟通一样。 具😴体来说,TE Fusion将相邻的k帧视频组成一个群组,在视👍觉编码的整个过程中,这些帧之间会进行群组级别的自注意力计算,😜使得模型能够在更深层次上理解帧间的时间依赖关系。这种方法的优🤩势在于能够在相同的计算资源约束下,实现更好的视频特征表示,特🤩别是在高压缩比的场景下表现尤为突出。 实验结果证明了T🤔E Fusion的有效性。在MotionBench上,使用T😴E Fusion的模型达到了58%的准确率,不仅在所有六个动😍作理解类别中都有显著提升,而且在其他视频理解基准测试(如MV🥳Bench、LVBench、VideoMME)中也表现出色。😢特别值得注意的是,TE Fusion在处理高压缩比视频时的优🎉势最为明显,当压缩比达到16倍时,其性能下降幅度远小于其他方🌟法。 为了进一步推动这个领域的发展,研究团队还发布了一😜个包含5000个视频的精细动作描述数据集。这些视频都经过了人😢工标注,提供了详细的动作信息描述,标注密度达到每秒12.63🌟个单词,为研究者提供了宝贵的训练资源。 研究团队对所有🤗测试失败的案例进行了深入分析,发现了一些有趣的模式。在动作识👍别方面,失败案例中最大的比例涉及精细动作的区分,说明某些动作😉及其相关描述在训练数据中可能存在不足。从视频时长的角度分析,😴即使是0到4秒的短视频,所有模型都答错的问题仍占11%到14😎%,这突显了模型在区分某些动作时的固有困难。随着视频时长的增⭐加,失败率显著上升,18秒以上的视频失败率达到18%。 😴 一个典型的失败案例很好地说明了问题所在:在一个视频中,一只🤯手从汽车顶部移动到左下方,但大多数模型都认为这是"轻拍汽车表😴面"的动作。从单帧图像的角度看,这种判断似乎合理,但在视频时🤗序中,手实际上是滑过汽车表面而不是拍打,这个例子完美展示了单👏帧预测与时序理解之间的差异,也说明了创建专注于动作层面评估基🔥准的价值。 这项研究的意义远不止于揭示现有模型的不足。🥳在实际应用中,精细动作理解对于异常检测、开放域动作分析、详细🤔视频字幕生成等任务都至关重要。在医疗教学中,准确理解手术动作😊的细节关系到医学生的学习效果;在体育分析中,对运动员技术动作🙄的精确识别影响着训练效果的评估;在工业安全监控中,对危险动作😴的及时识别可能关系到工人的生命安全。 研究团队也坦诚地😴指出了这项工作的局限性。首先,尽管他们努力包含了多样化的视频😀内容,但数据集可能仍然存在地理、文化和情境方面的偏见,这可能👏限制了研究结果在不同环境下的普适性。其次,虽然进行了大规模的😡标注工作,但由于人工标注和自动化工具的限制,偶尔的不准确或不😀一致在所难免。 从更广阔的视角来看,这项研究为视频理解😜领域指明了一个重要的发展方向。当前的AI视频理解研究大多关注😁于高层次的语义理解,而忽略了基础的动作感知能力。就像建造高楼🙄大厦需要坚实的地基一样,要实现真正智能的视频理解,我们必须首😎先解决最基础的动作理解问题。 MotionBench的😀发布为这个领域提供了一个重要的评估工具和研究起点。通过这个基😆准测试,研究者们可以更准确地评估和改进自己的模型,推动整个领😀域向更加精细、更加准确的方向发展。同时,TE Fusion技💯术的提出也为解决视频理解中的计算效率和准确性平衡问题提供了新🔥的思路。 归根结底,这项研究告诉我们,在AI视频理解的🤯道路上,我们还有很长的路要走。虽然现有的模型在某些高层次任务😍上表现出色,但在最基础的动作理解方面仍然存在巨大的改进空间。🥳这个发现不仅让我们更清楚地认识到当前技术的局限,也为未来的研😅究指明了方向。随着MotionBench这样的专业评估工具的🙄出现,以及TE Fusion这样创新技术的发展,我们有理由相😡信,AI模型在精细动作理解方面的能力将会得到显著提升,最终实🌟现真正智能的视频理解。 Q&A Q1:Motio😴nBench是什么?它和其他视频评估有什么不同? A:🎉MotionBench是清华大学开发的专门测试AI模型精细动😢作理解能力的评估体系,包含8052个问答对和5385个视频。🎉与其他主要关注故事情节和事件理解的视频评估不同,Motion😘Bench专注于最基础的动作层面理解,就像测试AI是否真的"😜看懂"了人跳跃、物体移动这些基本动作。 Q2:为什么顶😁级AI模型在MotionBench上表现这么差? A:😴主要有两个原因。首先是技术限制:理解精细动作需要高帧率输入,🤔但现有模型受计算资源限制只能处理很少帧数,相当于每5秒只看一👍张图片。其次是基础能力缺失:即使提供更多帧数,模型的表现提升💯也有限,说明它们缺乏理解动作连续性和细节变化的根本能力。 🤯 Q3:通过编码器融合技术TE Fusion是如何改进视频😆理解的? A:TE Fusion采用"深度融合"策略,🎉让相邻视频帧在整个处理过程中保持紧密信息交流,而不是传统的先😆分别理解再寻找联系的"浅层融合"。这就像团队协作时保持实时沟😊通一样,能更好地捕捉动作的连续性,特别在高压缩比场景下优势明😡显。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
上证报中国证券网讯(记者 汪友若)9月18日,亚太市场主要股😂指收盘涨跌参半。韩国综合指数收盘涨1.40%,报3461.3👍0点。权重股方面,SK海力士涨5.85%,Kakao涨3.5🙄2%,LG化学涨3.08%;韩国锌业跌4.24%,现代商船跌👏2.13%,Hanwha Ocean跌1.77%。 此🙌外,澳洲标普200指数收盘跌0.54%,报8745.20点;😍新西兰标普50指数收盘跌0.82%,报13120.03点。返😁回搜狐,查看更多
推荐阅读
无脑反对预制菜就是在与工业文明作对 | 马上评
2404
H&M中国首个品牌体验中心落地上海;鸣鸣很忙门店数破2万;usmile笑容加官宣品牌代言人樊振东|消研所周报
6952
西贝VS罗永浩:一场赢了法理却输了人心的品牌危机公关
5203
八马茶业,不卖茶叶
4658
京东为什么要自营一切
5496
网易搞了个“副业”
9088
消费贷贴息满月调查:谁在享受3000元贴息红利? | 巴伦精选
3871
重回线下重回线下重回线下!零售行业再次站在了1999年 | 巴伦精选
8062
人形机器人+固态电池,能打开多少想象空间? | 巴伦精选
4347
美国“小包免税”终结,卖家营收腰斩转战新市场
5036
扫地机器人,困在围城里
7100
【钛晨报】中国、印尼两国央行共同启动双边交易本币结算框架和二维码互联互通合作项目;上汽赛可智能前CTO于乾坤加入哈啰自动驾驶,任联合创始人|独家;交易员完全定价美联储2025年底前将降息三次
6981
汇源果汁,战端再起
5741
华与华继续发财,罗永浩阻挡不了
1421
甲骨文“一树梨花压海棠”
9624
用"任务"识人,不万能,但管用
3200
贾国龙错在太老了
3041
方建华:SOFC何以成为破解AI能源困局的"六边形战士"?
6293
【钛晨报】服务消费迎政策利好,入境游、赛事经济、中高端医疗站上风口;传阿里腾讯再“拆墙”,淘宝拟入驻微信小程序;小鹏汇天回应长春航展eVTOL事故
6787
汽车行业如此卷,为什么还有新人要进来?
9205
我国的“亚洲锂腰带”,会是下一个稀土级王牌吗?
6608