清华大学MotionBench:揭示AI视频模型动作理解盲区
吃瓜电子官网最新热点:清华大学MotionBench:揭示AI视频模型动作理解盲区
更新时间: 浏览次数:9951
这项由清华大学洪文轶、程烨安等研究者与智谱AI团队合作完成的😘研究,发表于2025年1月6日的arXiv预印本平台(论文编⭐号:arXiv:2501.02955v1),有兴趣深入了解的👍读者可以通过论文标题"MotionBench: Benchm🙄arking and Improving Fine-grai👏ned Video Motion Understanding😢 for Vision Language Models"搜索🥳获取完整论文。 你是否曾经好奇,那些能够描述视频内容、🌟回答视频问题的AI模型,究竟能多准确地"看懂"视频?当我们看🌟到一个人跳跃、两个棒球运动员在空中相撞庆祝时,这些看似简单的🌟动作,对于目前最先进的AI视频理解模型来说,居然是极大的挑战⭐。清华大学的研究团队通过一项突破性研究发现,即使是GPT-4😢o、Qwen2-VL这样的顶级模型,在理解视频中的精细动作时😡,准确率竟然连60%都达不到。 这个发现让人意外,因为🤯我们平时看到的AI视频分析似乎已经相当出色。研究团队深入分析😎后发现,现有的视频理解评估体系存在一个巨大的盲区——几乎所有🤔现存的视频评估基准都专注于故事情节理解和事件识别,却忽略了最🤯基础的动作层面理解。就像我们评估一个人的阅读能力时,只测试他🥳能否理解整本书的主题思想,却从未测试过他是否认识每个字一样。😜 为了填补这个关键空白,研究团队开发了MotionBe🤩nch——一个专门测试AI模型精细动作理解能力的全新评估体系🔥。这套评估系统包含了8052个精心设计的问答对,覆盖5385😡个视频片段,这些视频来源极其丰富:从网络平台Pexels和P😁anda-70M数据集收集的日常生活视频、从MedVid医学😢视频数据库获取的医疗教学片段、从SportsSloMo获得的😘体育慢镜头、从Ha-ViD收集的工业场景视频,甚至包括研究团🙌队使用Unity引擎专门制作的虚拟场景视频。 Moti🙄onBench的评估维度设计得极其精巧,涵盖了六个关键的动作🙄理解类别。第一类是动作识别,测试模型能否准确识别视频中出现的👍具体动作类型。第二类是位置相关动作,检验模型是否能理解物体或👍人物在空间中的移动轨迹和位置变化。第三类是动作顺序,评估模型😅能否正确理解复杂动作的先后顺序。第四类是重复计数,这可能是最😁困难的一类,要求模型准确计算某个动作重复了多少次。第五类是动👏作相关物体,测试模型能否识别参与动作的小物件。第六类是摄像机😆运动,评估模型对镜头移动的理解能力。 当研究团队用这套😅评估体系测试当前最先进的视频理解模型时,结果令人震惊。即使是🤩业界公认表现最好的Qwen2-VL-72B模型,在Motio❤️nBench上的综合表现也仅达到58%的准确率。更令人担忧的😴是,在重复计数这个类别中,几乎所有模型的表现都接近随机猜测的😜水平,准确率徘徊在25%左右。这意味着当你问一个AI"视频中🔥的人跳了几次"时,它的回答可能还不如抛硬币来得准确。 😅展开全文 为了深入理解这个问题的根源,研究团队进行了详👍细分析。他们发现,精细动作理解的困难主要来自两个方面。首先是😘技术限制:要准确捕捉动作细节需要高帧率的视频输入,但高帧率意🙄味着巨大的计算成本。目前的视频理解模型受限于计算资源,只能处🥳理非常有限的帧数。以Intern-VL2为例,它只能处理16🎉到64帧,这意味着对于一个5分钟的视频,它只能以0.2帧每秒😀的极低采样率进行处理——相当于每5秒钟只看一张图片,想要理解❤️其中的精细动作变化几乎是不可能的。 第二个根本原因是现😴有模型缺乏精细动作理解的基础能力。研究发现,即使提供更高的帧😎率输入,模型的表现提升也相当有限,这表明问题不仅仅在于"看得😢不够多",更在于"看了也不懂"。 针对这些发现的问题,😂研究团队提出了一个创新的解决方案——通过编码器融合技术(Th🚀rough-Encoder Fusion,简称TE Fusi😴on)。传统的视频压缩方法就像是先把每张图片分别理解,然后再👍试图找出它们之间的联系,这种"浅层融合"的方式很难捕捉到动作😁的连续性和细节变化。TE Fusion则采用了一种"深度融合😁"的策略,让相邻的视频帧在处理的整个过程中都保持紧密的信息交😢流,就像一个团队在协作完成任务时保持实时沟通一样。 具🙄体来说,TE Fusion将相邻的k帧视频组成一个群组,在视😍觉编码的整个过程中,这些帧之间会进行群组级别的自注意力计算,😅使得模型能够在更深层次上理解帧间的时间依赖关系。这种方法的优😂势在于能够在相同的计算资源约束下,实现更好的视频特征表示,特🥳别是在高压缩比的场景下表现尤为突出。 实验结果证明了T👏E Fusion的有效性。在MotionBench上,使用T🤔E Fusion的模型达到了58%的准确率,不仅在所有六个动🤩作理解类别中都有显著提升,而且在其他视频理解基准测试(如MV👏Bench、LVBench、VideoMME)中也表现出色。💯特别值得注意的是,TE Fusion在处理高压缩比视频时的优😁势最为明显,当压缩比达到16倍时,其性能下降幅度远小于其他方🙄法。 为了进一步推动这个领域的发展,研究团队还发布了一🤯个包含5000个视频的精细动作描述数据集。这些视频都经过了人😜工标注,提供了详细的动作信息描述,标注密度达到每秒12.63😢个单词,为研究者提供了宝贵的训练资源。 研究团队对所有😢测试失败的案例进行了深入分析,发现了一些有趣的模式。在动作识😀别方面,失败案例中最大的比例涉及精细动作的区分,说明某些动作💯及其相关描述在训练数据中可能存在不足。从视频时长的角度分析,😂即使是0到4秒的短视频,所有模型都答错的问题仍占11%到14😢%,这突显了模型在区分某些动作时的固有困难。随着视频时长的增🤯加,失败率显著上升,18秒以上的视频失败率达到18%。 🚀 一个典型的失败案例很好地说明了问题所在:在一个视频中,一只😅手从汽车顶部移动到左下方,但大多数模型都认为这是"轻拍汽车表🚀面"的动作。从单帧图像的角度看,这种判断似乎合理,但在视频时👍序中,手实际上是滑过汽车表面而不是拍打,这个例子完美展示了单💯帧预测与时序理解之间的差异,也说明了创建专注于动作层面评估基🤩准的价值。 这项研究的意义远不止于揭示现有模型的不足。😜在实际应用中,精细动作理解对于异常检测、开放域动作分析、详细🔥视频字幕生成等任务都至关重要。在医疗教学中,准确理解手术动作😜的细节关系到医学生的学习效果;在体育分析中,对运动员技术动作🥳的精确识别影响着训练效果的评估;在工业安全监控中,对危险动作😜的及时识别可能关系到工人的生命安全。 研究团队也坦诚地😜指出了这项工作的局限性。首先,尽管他们努力包含了多样化的视频🌟内容,但数据集可能仍然存在地理、文化和情境方面的偏见,这可能👍限制了研究结果在不同环境下的普适性。其次,虽然进行了大规模的🤗标注工作,但由于人工标注和自动化工具的限制,偶尔的不准确或不🥳一致在所难免。 从更广阔的视角来看,这项研究为视频理解😴领域指明了一个重要的发展方向。当前的AI视频理解研究大多关注😅于高层次的语义理解,而忽略了基础的动作感知能力。就像建造高楼😀大厦需要坚实的地基一样,要实现真正智能的视频理解,我们必须首🌟先解决最基础的动作理解问题。 MotionBench的😀发布为这个领域提供了一个重要的评估工具和研究起点。通过这个基❤️准测试,研究者们可以更准确地评估和改进自己的模型,推动整个领😡域向更加精细、更加准确的方向发展。同时,TE Fusion技🤔术的提出也为解决视频理解中的计算效率和准确性平衡问题提供了新🥳的思路。 归根结底,这项研究告诉我们,在AI视频理解的😁道路上,我们还有很长的路要走。虽然现有的模型在某些高层次任务😉上表现出色,但在最基础的动作理解方面仍然存在巨大的改进空间。🤔这个发现不仅让我们更清楚地认识到当前技术的局限,也为未来的研😆究指明了方向。随着MotionBench这样的专业评估工具的😊出现,以及TE Fusion这样创新技术的发展,我们有理由相👍信,AI模型在精细动作理解方面的能力将会得到显著提升,最终实😢现真正智能的视频理解。 Q&A Q1:Motio🥳nBench是什么?它和其他视频评估有什么不同? A:🤩MotionBench是清华大学开发的专门测试AI模型精细动🎉作理解能力的评估体系,包含8052个问答对和5385个视频。🤩与其他主要关注故事情节和事件理解的视频评估不同,Motion👍Bench专注于最基础的动作层面理解,就像测试AI是否真的"🎉看懂"了人跳跃、物体移动这些基本动作。 Q2:为什么顶❤️级AI模型在MotionBench上表现这么差? A:😅主要有两个原因。首先是技术限制:理解精细动作需要高帧率输入,🤯但现有模型受计算资源限制只能处理很少帧数,相当于每5秒只看一❤️张图片。其次是基础能力缺失:即使提供更多帧数,模型的表现提升😂也有限,说明它们缺乏理解动作连续性和细节变化的根本能力。 😉 Q3:通过编码器融合技术TE Fusion是如何改进视频👏理解的? A:TE Fusion采用"深度融合"策略,🥳让相邻视频帧在整个处理过程中保持紧密信息交流,而不是传统的先🤗分别理解再寻找联系的"浅层融合"。这就像团队协作时保持实时沟🚀通一样,能更好地捕捉动作的连续性,特别在高压缩比场景下优势明😜显。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
2026年《故宫日历》9月15日在故宫博物院发布。本次发布的😊《故宫日历》在延续往年充分利用故宫博物院专家资源的基础上,创❤️新推出了生肖版、书画版、青春版以及汉英对照版共4个版本。各版👏本日历从不同角度选取故宫博物院藏骏马、名士、教育、文房等主题🎉文物,汇聚历代绘画、书法精品,展现中华马文化的历史和魅力,满😴足不同群体的文化需求,为即将到来的农历马年增添文化氛围。 🎉 “故宫日历”作为故宫博物院的一张文化创意名片,已连续出版🤔17年,累计发行850余万册。发布会上,文化和旅游部党组成员🙄、故宫博物院院长王旭东表示,作为年销量过百万册的优秀出版物,💯“故宫日历”已超越“日历”本身的功能,成为传播故宫文化、弘扬😀中华优秀传统文化的重要载体。近年来,“故宫日历”不断创新表达🤔形式,受到广大年轻人的喜爱,这正是传统文化薪火相传的生动体现👏。据新华社 返回搜狐,查看更多
推荐阅读
张嘉倪复工状态惊人,合影还站C位,江湖地位不可撼动!
1163
刘诗诗《淮水竹亭》延期播出,阵容太强大了,配角全是当红艺人!
4593
曝《无忧渡》本周空降,刘诗诗新剧延后,宋祖儿或一口气播两部剧
7741
时隔两年蔡徐坤沉冤得雪,造谣者登报道歉,赔偿款全部捐给公益
9884
装都懒得装了!《浪姐》二公分组没人要陈德容,吴宣仪表情亮了
7118
13岁甜馨正式出道,贾乃亮李小璐同为女儿呐喊,签约公司被吐槽
1260
王蓉回应《浪姐》一轮游好心酸,该走的不走,主打一个躺赢!
4875
吴宣仪体力不支晕倒在舞台,三公成绩引争议,现场观众大喊有黑幕
4475
天呐这居然是“雪姨”!真是一点不服老,网友评论扎心了
6712
祝绪丹忍得很辛苦吧?学虞书欣翻车后在机场开始冷脸装酷,真好笑
8752
求求陈德容回家吧!别去破坏其他姐姐们的氛围了
8284
打电话没朋友,舞台划水脾气还不小,《浪姐》这位嘉宾回家吧!
9850
赵露思在干什么啊?求求《小小的勇气》及时停播止损吧!
6976
不愧是童年偶像!一个60多参加综艺玩唱跳,一个70多还跑马拉松
4466
《浪姐6》人气大洗牌!节目组计划再次被打乱,真是次次押错宝!
2589
《浪姐6》又押错宝!姐姐评级排名出乎意料,00后开始发力
8902
唐嫣新剧来了,网友笑她和刘学义加起来近80岁!
7097
孙俪儿子让人眼前一亮,身材高挑颜值出众,将来肯定比爸爸帅气
4525
原来王蓉是临时救场《浪姐》,不仅镜头被剪,一公就被淘汰!
1270
也是塑料姐妹花?吴宣仪参加《浪姐》,孟美岐让宋妍霏拿第一
3617
《浪姐6》又出低情商嘉宾,一把年纪了各种蹭,那英无辜躺枪!
5518