清华大学MotionBench：揭示AI视频模型动作理解盲区

吃瓜电子官网最新热点：清华大学MotionBench：揭示AI视频模型动作理解盲区

更新时间：2025-11-11 07:15:50　浏览次数：1060

这项由清华大学洪文轶、程烨安等研究者与智谱AI团队合作完成的😘研究，发表于2025年1月6日的arXiv预印本平台（论文编⭐号：arXiv:2501.02955v1），有兴趣深入了解的👍读者可以通过论文标题"MotionBench: Benchm🙄arking and Improving Fine-grai👏ned Video Motion Understanding😢 for Vision Language Models"搜索🥳获取完整论文。你是否曾经好奇，那些能够描述视频内容、🌟回答视频问题的AI模型，究竟能多准确地"看懂"视频？当我们看🌟到一个人跳跃、两个棒球运动员在空中相撞庆祝时，这些看似简单的🌟动作，对于目前最先进的AI视频理解模型来说，居然是极大的挑战⭐。清华大学的研究团队通过一项突破性研究发现，即使是GPT-4😢o、Qwen2-VL这样的顶级模型，在理解视频中的精细动作时😡，准确率竟然连60%都达不到。这个发现让人意外，因为🤯我们平时看到的AI视频分析似乎已经相当出色。研究团队深入分析😎后发现，现有的视频理解评估体系存在一个巨大的盲区——几乎所有🤔现存的视频评估基准都专注于故事情节理解和事件识别，却忽略了最🤯基础的动作层面理解。就像我们评估一个人的阅读能力时，只测试他🥳能否理解整本书的主题思想，却从未测试过他是否认识每个字一样。😜 为了填补这个关键空白，研究团队开发了MotionBe🤩nch——一个专门测试AI模型精细动作理解能力的全新评估体系🔥。这套评估系统包含了8052个精心设计的问答对，覆盖5385😡个视频片段，这些视频来源极其丰富：从网络平台Pexels和P😁anda-70M数据集收集的日常生活视频、从MedVid医学😢视频数据库获取的医疗教学片段、从SportsSloMo获得的😘体育慢镜头、从Ha-ViD收集的工业场景视频，甚至包括研究团🙌队使用Unity引擎专门制作的虚拟场景视频。 Moti🙄onBench的评估维度设计得极其精巧，涵盖了六个关键的动作🙄理解类别。第一类是动作识别，测试模型能否准确识别视频中出现的👍具体动作类型。第二类是位置相关动作，检验模型是否能理解物体或👍人物在空间中的移动轨迹和位置变化。第三类是动作顺序，评估模型😅能否正确理解复杂动作的先后顺序。第四类是重复计数，这可能是最😁困难的一类，要求模型准确计算某个动作重复了多少次。第五类是动👏作相关物体，测试模型能否识别参与动作的小物件。第六类是摄像机😆运动，评估模型对镜头移动的理解能力。当研究团队用这套😅评估体系测试当前最先进的视频理解模型时，结果令人震惊。即使是🤩业界公认表现最好的Qwen2-VL-72B模型，在Motio❤️nBench上的综合表现也仅达到58%的准确率。更令人担忧的😴是，在重复计数这个类别中，几乎所有模型的表现都接近随机猜测的😜水平，准确率徘徊在25%左右。这意味着当你问一个AI"视频中🔥的人跳了几次"时，它的回答可能还不如抛硬币来得准确。 😅展开全文为了深入理解这个问题的根源，研究团队进行了详👍细分析。他们发现，精细动作理解的困难主要来自两个方面。首先是😘技术限制：要准确捕捉动作细节需要高帧率的视频输入，但高帧率意🙄味着巨大的计算成本。目前的视频理解模型受限于计算资源，只能处🥳理非常有限的帧数。以Intern-VL2为例，它只能处理16🎉到64帧，这意味着对于一个5分钟的视频，它只能以0.2帧每秒😀的极低采样率进行处理——相当于每5秒钟只看一张图片，想要理解❤️其中的精细动作变化几乎是不可能的。第二个根本原因是现😴有模型缺乏精细动作理解的基础能力。研究发现，即使提供更高的帧😎率输入，模型的表现提升也相当有限，这表明问题不仅仅在于"看得😢不够多"，更在于"看了也不懂"。针对这些发现的问题，😂研究团队提出了一个创新的解决方案——通过编码器融合技术（Th🚀rough-Encoder Fusion，简称TE Fusi😴on）。传统的视频压缩方法就像是先把每张图片分别理解，然后再👍试图找出它们之间的联系，这种"浅层融合"的方式很难捕捉到动作😁的连续性和细节变化。TE Fusion则采用了一种"深度融合😁"的策略，让相邻的视频帧在处理的整个过程中都保持紧密的信息交😢流，就像一个团队在协作完成任务时保持实时沟通一样。具🙄体来说，TE Fusion将相邻的k帧视频组成一个群组，在视😍觉编码的整个过程中，这些帧之间会进行群组级别的自注意力计算，😅使得模型能够在更深层次上理解帧间的时间依赖关系。这种方法的优😂势在于能够在相同的计算资源约束下，实现更好的视频特征表示，特🥳别是在高压缩比的场景下表现尤为突出。实验结果证明了T👏E Fusion的有效性。在MotionBench上，使用T🤔E Fusion的模型达到了58%的准确率，不仅在所有六个动🤩作理解类别中都有显著提升，而且在其他视频理解基准测试（如MV👏Bench、LVBench、VideoMME）中也表现出色。💯特别值得注意的是，TE Fusion在处理高压缩比视频时的优😁势最为明显，当压缩比达到16倍时，其性能下降幅度远小于其他方🙄法。为了进一步推动这个领域的发展，研究团队还发布了一🤯个包含5000个视频的精细动作描述数据集。这些视频都经过了人😜工标注，提供了详细的动作信息描述，标注密度达到每秒12.63😢个单词，为研究者提供了宝贵的训练资源。研究团队对所有😢测试失败的案例进行了深入分析，发现了一些有趣的模式。在动作识😀别方面，失败案例中最大的比例涉及精细动作的区分，说明某些动作💯及其相关描述在训练数据中可能存在不足。从视频时长的角度分析，😂即使是0到4秒的短视频，所有模型都答错的问题仍占11%到14😢%，这突显了模型在区分某些动作时的固有困难。随着视频时长的增🤯加，失败率显著上升，18秒以上的视频失败率达到18%。 🚀 一个典型的失败案例很好地说明了问题所在：在一个视频中，一只😅手从汽车顶部移动到左下方，但大多数模型都认为这是"轻拍汽车表🚀面"的动作。从单帧图像的角度看，这种判断似乎合理，但在视频时👍序中，手实际上是滑过汽车表面而不是拍打，这个例子完美展示了单💯帧预测与时序理解之间的差异，也说明了创建专注于动作层面评估基🤩准的价值。这项研究的意义远不止于揭示现有模型的不足。😜在实际应用中，精细动作理解对于异常检测、开放域动作分析、详细🔥视频字幕生成等任务都至关重要。在医疗教学中，准确理解手术动作😜的细节关系到医学生的学习效果；在体育分析中，对运动员技术动作🥳的精确识别影响着训练效果的评估；在工业安全监控中，对危险动作😜的及时识别可能关系到工人的生命安全。研究团队也坦诚地😜指出了这项工作的局限性。首先，尽管他们努力包含了多样化的视频🌟内容，但数据集可能仍然存在地理、文化和情境方面的偏见，这可能👍限制了研究结果在不同环境下的普适性。其次，虽然进行了大规模的🤗标注工作，但由于人工标注和自动化工具的限制，偶尔的不准确或不🥳一致在所难免。从更广阔的视角来看，这项研究为视频理解😴领域指明了一个重要的发展方向。当前的AI视频理解研究大多关注😅于高层次的语义理解，而忽略了基础的动作感知能力。就像建造高楼😀大厦需要坚实的地基一样，要实现真正智能的视频理解，我们必须首🌟先解决最基础的动作理解问题。 MotionBench的😀发布为这个领域提供了一个重要的评估工具和研究起点。通过这个基❤️准测试，研究者们可以更准确地评估和改进自己的模型，推动整个领😡域向更加精细、更加准确的方向发展。同时，TE Fusion技🤔术的提出也为解决视频理解中的计算效率和准确性平衡问题提供了新🥳的思路。归根结底，这项研究告诉我们，在AI视频理解的😁道路上，我们还有很长的路要走。虽然现有的模型在某些高层次任务😉上表现出色，但在最基础的动作理解方面仍然存在巨大的改进空间。🤔这个发现不仅让我们更清楚地认识到当前技术的局限，也为未来的研😆究指明了方向。随着MotionBench这样的专业评估工具的😊出现，以及TE Fusion这样创新技术的发展，我们有理由相👍信，AI模型在精细动作理解方面的能力将会得到显著提升，最终实😢现真正智能的视频理解。 Q&A Q1：Motio🥳nBench是什么？它和其他视频评估有什么不同？ A：🤩MotionBench是清华大学开发的专门测试AI模型精细动🎉作理解能力的评估体系，包含8052个问答对和5385个视频。🤩与其他主要关注故事情节和事件理解的视频评估不同，Motion👍Bench专注于最基础的动作层面理解，就像测试AI是否真的"🎉看懂"了人跳跃、物体移动这些基本动作。 Q2：为什么顶❤️级AI模型在MotionBench上表现这么差？ A：😅主要有两个原因。首先是技术限制：理解精细动作需要高帧率输入，🤯但现有模型受计算资源限制只能处理很少帧数，相当于每5秒只看一❤️张图片。其次是基础能力缺失：即使提供更多帧数，模型的表现提升😂也有限，说明它们缺乏理解动作连续性和细节变化的根本能力。 😉 Q3：通过编码器融合技术TE Fusion是如何改进视频👏理解的？ A：TE Fusion采用"深度融合"策略，🥳让相邻视频帧在整个处理过程中保持紧密信息交流，而不是传统的先🤗分别理解再寻找联系的"浅层融合"。这就像团队协作时保持实时沟🚀通一样，能更好地捕捉动作的连续性，特别在高压缩比场景下优势明😜显。返回搜狐，查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

中国商报（记者蒋永霞）9月16日，京东品酒会在北京某高端酒❤️店举行，京东集团创始人、董事局主席刘强东亲临现场并参与交流。🤔对于刘强东来说，这其实也是一场时隔18年的“用户见面会”。在🌟这场活动中，刘强东围绕行业竞争、外卖与酒旅业务布局、创业心路😂等话题展开全面分享，并坦诚阐述了京东进军外卖和酒旅行业的初衷😢。 “京东在家电、商超、生鲜等领域取得成功，正是基于这😂些行业存在明显痛点。”刘强东表示，当前的外卖和酒旅行业同样面🙄临巨大痛点，京东正是基于这一判断决定进入这两个赛道。 😘刘强东特别提出，自己一向热爱烹饪，对餐饮行业保持长期关注。在👍一次闲聊中，他意外发现外卖平台的扣点比例高达25%。“我的第😂一次创业就是开餐厅，所以我非常清楚，全国没几家餐饮企业的净利🔥润能达到25%，但平台却抽走如此高的扣点，无疑给餐饮店带来巨🤩大压力。”刘强东表示，高额扣点必然导致食品安全难以保障、“幽🎉灵餐厅”泛滥，以及餐饮从业者被迫降低食材质量等问题。 🙄京东进入外卖行业后，持续推动业务模式创新。例如，有人曾质疑京👏东推出的“七鲜小厨”会挤压传统餐饮生存空间，导致夫妻店倒闭。😜但刘强东以实际运营数据回应：首家七鲜小厨上线两个月以来，日订😢单量超过1500单，并且带动周边5公里范围内许多餐饮商户订单🤯量增长30%。他以京东电商业务举例称，自营与第三方商家（PO😴P）并非互相排斥，而是相辅相成、双线并行的关系。 “我😊们在全国要开设10000到15000家七鲜小厨，才能覆盖所有👏区县。周边其他商家订单增长30%，说明我们没有挤压同行收益，🌟反而为整个区域带来信任和流量，激发消费者的外卖需求。”刘强东😊解释，用户在平台点餐时，即便没有在七鲜小厨找到某道菜，也会发😁现更多的本地餐馆，这种流量共享有助于整体生态繁荣。除😀了商业模式的创新外，京东在外卖骑手保障方面也有突破。刘强东强😂调，京东在今年第二季度招募大批外卖骑手，并为所有全职骑手足额😆缴纳五险一金——“这是外卖行业诞生15年来，首次有平台为骑手😎全面缴纳五险一金。” 在酒旅业务方面，刘强东近期与多家🌟大型酒店集团进行交流，发现行业有些焦虑情绪。他表示，京东不希👍望将酒店行业拖入“价格战”，避免导致服务品质下降、利润空间压😴缩和生态恶化。“京东在酒店行业依然会创新，接下来我们会公布一🤯个全新的酒店发展计划。”刘强东表示。谈及外卖行业的竞🙄争，刘强东也表明了自己的态度。他表示，民营企业要简单，该竞争❤️就竞争，不要把正常的商业竞争变成个人恩怨。刘强东强调，竞争要😀靠战略、商业模式、价值创造和信誉来赢得消费者。返回搜狐，查看❤️更多

还没有人评论过，快来抢首评

抢首评

清华大学MotionBench：揭示AI视频模型动作理解盲区

吃瓜电子官网最新热点：清华大学MotionBench：揭示AI视频模型动作理解盲区

推荐阅读

河北新联固特紧固件有限公司成立注册资本300万人民币

河北鼎兆金属制品有限公司成立注册资本300万人民币

承德北锐机电设备有限公司成立注册资本200万人民币

衡水利合工具有限公司成立注册资本10万人民币

泊头市芮泽机械加工有限公司成立注册资本3万人民币

邯郸市乐瑞佑紧固件有限公司成立注册资本200万人民币

铭之森线缆（河北）有限公司成立注册资本300万人民币

邯郸思莫尔电子有限公司成立注册资本100万人民币

河北万皓创源新能源科技有限公司成立注册资本1000万人民币

任丘市冠途机械配件厂（个体工商户）成立注册资本2万人民币

美凌节能科技（廊坊）有限公司成立注册资本800万人民币

盛钧（唐山）机电有限公司成立注册资本50万人民币

河北源胜晖泵业有限公司成立注册资本300万人民币

河北盛铁建设工程有限公司成立注册资本300万人民币

保定冉星再生资源回收有限公司成立注册资本10万人民币

平乡县凯鹏再生资源科技有限公司成立注册资本50万人民币

邯郸市金樑再生资源有限公司成立注册资本100万人民币

保定聚帆再生资源回收有限公司成立注册资本60万人民币

保定市雄海再生资源回收有限公司成立注册资本20万人民币

河北雄安驰朗再生资源销售有限公司成立注册资本5万人民币

河北雄安茂恒再生资源销售有限公司成立注册资本5万人民币

清华大学MotionBench：揭示AI视频模型动作理解盲区

吃瓜电子官网最新热点：清华大学MotionBench：揭示AI视频模型动作理解盲区

长按复制以下链接，粘贴给好友吧！

河北新联固特紧固件有限公司成立 注册资本300万人民币

河北鼎兆金属制品有限公司成立 注册资本300万人民币

承德北锐机电设备有限公司成立 注册资本200万人民币

衡水利合工具有限公司成立 注册资本10万人民币

泊头市芮泽机械加工有限公司成立 注册资本3万人民币

邯郸市乐瑞佑紧固件有限公司成立 注册资本200万人民币

铭之森线缆（河北）有限公司成立 注册资本300万人民币

邯郸思莫尔电子有限公司成立 注册资本100万人民币

河北万皓创源新能源科技有限公司成立 注册资本1000万人民币

任丘市冠途机械配件厂（个体工商户）成立 注册资本2万人民币

美凌节能科技（廊坊）有限公司成立 注册资本800万人民币

盛钧（唐山）机电有限公司成立 注册资本50万人民币

河北源胜晖泵业有限公司成立 注册资本300万人民币

河北盛铁建设工程有限公司成立 注册资本300万人民币

保定冉星再生资源回收有限公司成立 注册资本10万人民币

平乡县凯鹏再生资源科技有限公司成立 注册资本50万人民币

邯郸市金樑再生资源有限公司成立 注册资本100万人民币

保定聚帆再生资源回收有限公司成立 注册资本60万人民币

保定市雄海再生资源回收有限公司成立 注册资本20万人民币

河北雄安驰朗再生资源销售有限公司成立 注册资本5万人民币

河北雄安茂恒再生资源销售有限公司成立 注册资本5万人民币

河北新联固特紧固件有限公司成立注册资本300万人民币

河北鼎兆金属制品有限公司成立注册资本300万人民币

承德北锐机电设备有限公司成立注册资本200万人民币

衡水利合工具有限公司成立注册资本10万人民币

泊头市芮泽机械加工有限公司成立注册资本3万人民币

邯郸市乐瑞佑紧固件有限公司成立注册资本200万人民币

铭之森线缆（河北）有限公司成立注册资本300万人民币

邯郸思莫尔电子有限公司成立注册资本100万人民币

河北万皓创源新能源科技有限公司成立注册资本1000万人民币

任丘市冠途机械配件厂（个体工商户）成立注册资本2万人民币

美凌节能科技（廊坊）有限公司成立注册资本800万人民币

盛钧（唐山）机电有限公司成立注册资本50万人民币

河北源胜晖泵业有限公司成立注册资本300万人民币

河北盛铁建设工程有限公司成立注册资本300万人民币

保定冉星再生资源回收有限公司成立注册资本10万人民币

平乡县凯鹏再生资源科技有限公司成立注册资本50万人民币

邯郸市金樑再生资源有限公司成立注册资本100万人民币

保定聚帆再生资源回收有限公司成立注册资本60万人民币

保定市雄海再生资源回收有限公司成立注册资本20万人民币

河北雄安驰朗再生资源销售有限公司成立注册资本5万人民币

河北雄安茂恒再生资源销售有限公司成立注册资本5万人民币