清华大学MotionBench:揭示AI视频模型动作理解盲区
吃瓜电子官网最新热点:清华大学MotionBench:揭示AI视频模型动作理解盲区
更新时间: 浏览次数:3323
这项由清华大学洪文轶、程烨安等研究者与智谱AI团队合作完成的😅研究,发表于2025年1月6日的arXiv预印本平台(论文编🥳号:arXiv:2501.02955v1),有兴趣深入了解的😜读者可以通过论文标题"MotionBench: Benchm😁arking and Improving Fine-grai😅ned Video Motion Understanding😍 for Vision Language Models"搜索🥳获取完整论文。 你是否曾经好奇,那些能够描述视频内容、😅回答视频问题的AI模型,究竟能多准确地"看懂"视频?当我们看🎉到一个人跳跃、两个棒球运动员在空中相撞庆祝时,这些看似简单的😅动作,对于目前最先进的AI视频理解模型来说,居然是极大的挑战😀。清华大学的研究团队通过一项突破性研究发现,即使是GPT-4🌟o、Qwen2-VL这样的顶级模型,在理解视频中的精细动作时🥳,准确率竟然连60%都达不到。 这个发现让人意外,因为😆我们平时看到的AI视频分析似乎已经相当出色。研究团队深入分析😂后发现,现有的视频理解评估体系存在一个巨大的盲区——几乎所有😆现存的视频评估基准都专注于故事情节理解和事件识别,却忽略了最🤗基础的动作层面理解。就像我们评估一个人的阅读能力时,只测试他😆能否理解整本书的主题思想,却从未测试过他是否认识每个字一样。🥳 为了填补这个关键空白,研究团队开发了MotionBe😴nch——一个专门测试AI模型精细动作理解能力的全新评估体系🤔。这套评估系统包含了8052个精心设计的问答对,覆盖5385😁个视频片段,这些视频来源极其丰富:从网络平台Pexels和P🤗anda-70M数据集收集的日常生活视频、从MedVid医学💯视频数据库获取的医疗教学片段、从SportsSloMo获得的😂体育慢镜头、从Ha-ViD收集的工业场景视频,甚至包括研究团🤯队使用Unity引擎专门制作的虚拟场景视频。 Moti😉onBench的评估维度设计得极其精巧,涵盖了六个关键的动作🎉理解类别。第一类是动作识别,测试模型能否准确识别视频中出现的😉具体动作类型。第二类是位置相关动作,检验模型是否能理解物体或🤗人物在空间中的移动轨迹和位置变化。第三类是动作顺序,评估模型🌟能否正确理解复杂动作的先后顺序。第四类是重复计数,这可能是最🤔困难的一类,要求模型准确计算某个动作重复了多少次。第五类是动😘作相关物体,测试模型能否识别参与动作的小物件。第六类是摄像机🙌运动,评估模型对镜头移动的理解能力。 当研究团队用这套😅评估体系测试当前最先进的视频理解模型时,结果令人震惊。即使是😉业界公认表现最好的Qwen2-VL-72B模型,在Motio😆nBench上的综合表现也仅达到58%的准确率。更令人担忧的🤔是,在重复计数这个类别中,几乎所有模型的表现都接近随机猜测的😁水平,准确率徘徊在25%左右。这意味着当你问一个AI"视频中😆的人跳了几次"时,它的回答可能还不如抛硬币来得准确。 😜展开全文 为了深入理解这个问题的根源,研究团队进行了详🚀细分析。他们发现,精细动作理解的困难主要来自两个方面。首先是😉技术限制:要准确捕捉动作细节需要高帧率的视频输入,但高帧率意🤯味着巨大的计算成本。目前的视频理解模型受限于计算资源,只能处🔥理非常有限的帧数。以Intern-VL2为例,它只能处理16😴到64帧,这意味着对于一个5分钟的视频,它只能以0.2帧每秒🤩的极低采样率进行处理——相当于每5秒钟只看一张图片,想要理解🌟其中的精细动作变化几乎是不可能的。 第二个根本原因是现🙄有模型缺乏精细动作理解的基础能力。研究发现,即使提供更高的帧👏率输入,模型的表现提升也相当有限,这表明问题不仅仅在于"看得🔥不够多",更在于"看了也不懂"。 针对这些发现的问题,🤔研究团队提出了一个创新的解决方案——通过编码器融合技术(Th😀rough-Encoder Fusion,简称TE Fusi😉on)。传统的视频压缩方法就像是先把每张图片分别理解,然后再⭐试图找出它们之间的联系,这种"浅层融合"的方式很难捕捉到动作🤔的连续性和细节变化。TE Fusion则采用了一种"深度融合🤩"的策略,让相邻的视频帧在处理的整个过程中都保持紧密的信息交😜流,就像一个团队在协作完成任务时保持实时沟通一样。 具🔥体来说,TE Fusion将相邻的k帧视频组成一个群组,在视🤗觉编码的整个过程中,这些帧之间会进行群组级别的自注意力计算,🤔使得模型能够在更深层次上理解帧间的时间依赖关系。这种方法的优🌟势在于能够在相同的计算资源约束下,实现更好的视频特征表示,特⭐别是在高压缩比的场景下表现尤为突出。 实验结果证明了T😁E Fusion的有效性。在MotionBench上,使用T😘E Fusion的模型达到了58%的准确率,不仅在所有六个动🎉作理解类别中都有显著提升,而且在其他视频理解基准测试(如MV😉Bench、LVBench、VideoMME)中也表现出色。😎特别值得注意的是,TE Fusion在处理高压缩比视频时的优💯势最为明显,当压缩比达到16倍时,其性能下降幅度远小于其他方😉法。 为了进一步推动这个领域的发展,研究团队还发布了一😉个包含5000个视频的精细动作描述数据集。这些视频都经过了人❤️工标注,提供了详细的动作信息描述,标注密度达到每秒12.63😎个单词,为研究者提供了宝贵的训练资源。 研究团队对所有🙌测试失败的案例进行了深入分析,发现了一些有趣的模式。在动作识🔥别方面,失败案例中最大的比例涉及精细动作的区分,说明某些动作👏及其相关描述在训练数据中可能存在不足。从视频时长的角度分析,🤔即使是0到4秒的短视频,所有模型都答错的问题仍占11%到14😎%,这突显了模型在区分某些动作时的固有困难。随着视频时长的增😢加,失败率显著上升,18秒以上的视频失败率达到18%。 💯 一个典型的失败案例很好地说明了问题所在:在一个视频中,一只👏手从汽车顶部移动到左下方,但大多数模型都认为这是"轻拍汽车表🙄面"的动作。从单帧图像的角度看,这种判断似乎合理,但在视频时🤗序中,手实际上是滑过汽车表面而不是拍打,这个例子完美展示了单😂帧预测与时序理解之间的差异,也说明了创建专注于动作层面评估基😍准的价值。 这项研究的意义远不止于揭示现有模型的不足。🥳在实际应用中,精细动作理解对于异常检测、开放域动作分析、详细👏视频字幕生成等任务都至关重要。在医疗教学中,准确理解手术动作🙌的细节关系到医学生的学习效果;在体育分析中,对运动员技术动作😎的精确识别影响着训练效果的评估;在工业安全监控中,对危险动作🙄的及时识别可能关系到工人的生命安全。 研究团队也坦诚地🤯指出了这项工作的局限性。首先,尽管他们努力包含了多样化的视频😢内容,但数据集可能仍然存在地理、文化和情境方面的偏见,这可能🙄限制了研究结果在不同环境下的普适性。其次,虽然进行了大规模的😂标注工作,但由于人工标注和自动化工具的限制,偶尔的不准确或不🌟一致在所难免。 从更广阔的视角来看,这项研究为视频理解😀领域指明了一个重要的发展方向。当前的AI视频理解研究大多关注😎于高层次的语义理解,而忽略了基础的动作感知能力。就像建造高楼👏大厦需要坚实的地基一样,要实现真正智能的视频理解,我们必须首🚀先解决最基础的动作理解问题。 MotionBench的🔥发布为这个领域提供了一个重要的评估工具和研究起点。通过这个基🥳准测试,研究者们可以更准确地评估和改进自己的模型,推动整个领😢域向更加精细、更加准确的方向发展。同时,TE Fusion技🤯术的提出也为解决视频理解中的计算效率和准确性平衡问题提供了新😘的思路。 归根结底,这项研究告诉我们,在AI视频理解的😴道路上,我们还有很长的路要走。虽然现有的模型在某些高层次任务😁上表现出色,但在最基础的动作理解方面仍然存在巨大的改进空间。😎这个发现不仅让我们更清楚地认识到当前技术的局限,也为未来的研😀究指明了方向。随着MotionBench这样的专业评估工具的🤔出现,以及TE Fusion这样创新技术的发展,我们有理由相🤗信,AI模型在精细动作理解方面的能力将会得到显著提升,最终实🙄现真正智能的视频理解。 Q&A Q1:Motio😎nBench是什么?它和其他视频评估有什么不同? A:⭐MotionBench是清华大学开发的专门测试AI模型精细动😜作理解能力的评估体系,包含8052个问答对和5385个视频。😂与其他主要关注故事情节和事件理解的视频评估不同,Motion🤔Bench专注于最基础的动作层面理解,就像测试AI是否真的"🤔看懂"了人跳跃、物体移动这些基本动作。 Q2:为什么顶🙄级AI模型在MotionBench上表现这么差? A:🤗主要有两个原因。首先是技术限制:理解精细动作需要高帧率输入,😁但现有模型受计算资源限制只能处理很少帧数,相当于每5秒只看一😁张图片。其次是基础能力缺失:即使提供更多帧数,模型的表现提升😂也有限,说明它们缺乏理解动作连续性和细节变化的根本能力。 😂 Q3:通过编码器融合技术TE Fusion是如何改进视频🤗理解的? A:TE Fusion采用"深度融合"策略,😆让相邻视频帧在整个处理过程中保持紧密信息交流,而不是传统的先😴分别理解再寻找联系的"浅层融合"。这就像团队协作时保持实时沟😜通一样,能更好地捕捉动作的连续性,特别在高压缩比场景下优势明🌟显。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
贵州省自然资源厅党委委员、副厅长高玉平涉嫌严重违纪违法,目前😀正接受贵州省纪委监委纪律审查和监察调查。 实习编辑:金❤️怡杉 | 审核:李震 | 监审:古筝 (来源:中央纪委😎国家监委网站 )返回搜狐,查看更多
推荐阅读
卢伟冰:小米17系列目前销量已超100万台
4239
富时中国A50指数期货开盘上涨0.24%
6521
习近平给天津大学全体师生回信
3999
2年期日本国债收益率下降0.5个基点至0.945%
6946
中央气象台继续发布强对流天气蓝色预警
8271
日本芯片股早盘上涨,铠侠大涨11%
5650
香港金管局:截至9月底共收到36家机构提交的稳定币牌照申请
4270
SK海力士涨超7%
5015
WTI原油日内涨超1%
4655
韩国KOSPI指数开盘上涨68.52点,涨幅1.98%
6955
警方通报女子酒后观赛大声喧哗
5390
美官员称特朗普已批准向乌克兰提供情报
9853
粤港澳大湾区抽水蓄能电站在运规模突破1000万千瓦
5915
马斯克成为全球首位身家突破5000亿美元的富豪
7846
电影《刺杀小说家2》总票房破7000万
7437
阿维塔公布9月销量11028辆
7456
电影《浪浪人生》总票房破6000万
9037
微软将人工智能服务引入Office,以挑战ChatGPT
9010
苹果搁置Vision Pro升级计划,优先开发可与Meta竞争的智能眼镜
7718
意大利多地爆发示威活动,抗议以色列拦截“全球坚韧船队”
3313
卡塔尔埃米尔与美国总统通电话,重点讨论加沙问题
1250