清华大学MotionBench:揭示AI视频模型动作理解盲区

吃瓜电子官网最新热点:清华大学MotionBench:揭示AI视频模型动作理解盲区

更新时间: 浏览次数:3624

这项由清华大学洪文轶、程烨安等研究者与智谱AI团队合作完成的😘研究,发表于2025年1月6日的arXiv预印本平台(论文编⭐号:arXiv:2501.02955v1),有兴趣深入了解的👍读者可以通过论文标题"MotionBench: Benchm🙄arking and Improving Fine-grai👏ned Video Motion Understanding😢 for Vision Language Models"搜索🥳获取完整论文。 你是否曾经好奇,那些能够描述视频内容、🌟回答视频问题的AI模型,究竟能多准确地"看懂"视频?当我们看🌟到一个人跳跃、两个棒球运动员在空中相撞庆祝时,这些看似简单的🌟动作,对于目前最先进的AI视频理解模型来说,居然是极大的挑战⭐。清华大学的研究团队通过一项突破性研究发现,即使是GPT-4😢o、Qwen2-VL这样的顶级模型,在理解视频中的精细动作时😡,准确率竟然连60%都达不到。 这个发现让人意外,因为🤯我们平时看到的AI视频分析似乎已经相当出色。研究团队深入分析😎后发现,现有的视频理解评估体系存在一个巨大的盲区——几乎所有🤔现存的视频评估基准都专注于故事情节理解和事件识别,却忽略了最🤯基础的动作层面理解。就像我们评估一个人的阅读能力时,只测试他🥳能否理解整本书的主题思想,却从未测试过他是否认识每个字一样。😜 为了填补这个关键空白,研究团队开发了MotionBe🤩nch——一个专门测试AI模型精细动作理解能力的全新评估体系🔥。这套评估系统包含了8052个精心设计的问答对,覆盖5385😡个视频片段,这些视频来源极其丰富:从网络平台Pexels和P😁anda-70M数据集收集的日常生活视频、从MedVid医学😢视频数据库获取的医疗教学片段、从SportsSloMo获得的😘体育慢镜头、从Ha-ViD收集的工业场景视频,甚至包括研究团🙌队使用Unity引擎专门制作的虚拟场景视频。 Moti🙄onBench的评估维度设计得极其精巧,涵盖了六个关键的动作🙄理解类别。第一类是动作识别,测试模型能否准确识别视频中出现的👍具体动作类型。第二类是位置相关动作,检验模型是否能理解物体或👍人物在空间中的移动轨迹和位置变化。第三类是动作顺序,评估模型😅能否正确理解复杂动作的先后顺序。第四类是重复计数,这可能是最😁困难的一类,要求模型准确计算某个动作重复了多少次。第五类是动👏作相关物体,测试模型能否识别参与动作的小物件。第六类是摄像机😆运动,评估模型对镜头移动的理解能力。 当研究团队用这套😅评估体系测试当前最先进的视频理解模型时,结果令人震惊。即使是🤩业界公认表现最好的Qwen2-VL-72B模型,在Motio❤️nBench上的综合表现也仅达到58%的准确率。更令人担忧的😴是,在重复计数这个类别中,几乎所有模型的表现都接近随机猜测的😜水平,准确率徘徊在25%左右。这意味着当你问一个AI"视频中🔥的人跳了几次"时,它的回答可能还不如抛硬币来得准确。 😅展开全文 为了深入理解这个问题的根源,研究团队进行了详👍细分析。他们发现,精细动作理解的困难主要来自两个方面。首先是😘技术限制:要准确捕捉动作细节需要高帧率的视频输入,但高帧率意🙄味着巨大的计算成本。目前的视频理解模型受限于计算资源,只能处🥳理非常有限的帧数。以Intern-VL2为例,它只能处理16🎉到64帧,这意味着对于一个5分钟的视频,它只能以0.2帧每秒😀的极低采样率进行处理——相当于每5秒钟只看一张图片,想要理解❤️其中的精细动作变化几乎是不可能的。 第二个根本原因是现😴有模型缺乏精细动作理解的基础能力。研究发现,即使提供更高的帧😎率输入,模型的表现提升也相当有限,这表明问题不仅仅在于"看得😢不够多",更在于"看了也不懂"。 针对这些发现的问题,😂研究团队提出了一个创新的解决方案——通过编码器融合技术(Th🚀rough-Encoder Fusion,简称TE Fusi😴on)。传统的视频压缩方法就像是先把每张图片分别理解,然后再👍试图找出它们之间的联系,这种"浅层融合"的方式很难捕捉到动作😁的连续性和细节变化。TE Fusion则采用了一种"深度融合😁"的策略,让相邻的视频帧在处理的整个过程中都保持紧密的信息交😢流,就像一个团队在协作完成任务时保持实时沟通一样。 具🙄体来说,TE Fusion将相邻的k帧视频组成一个群组,在视😍觉编码的整个过程中,这些帧之间会进行群组级别的自注意力计算,😅使得模型能够在更深层次上理解帧间的时间依赖关系。这种方法的优😂势在于能够在相同的计算资源约束下,实现更好的视频特征表示,特🥳别是在高压缩比的场景下表现尤为突出。 实验结果证明了T👏E Fusion的有效性。在MotionBench上,使用T🤔E Fusion的模型达到了58%的准确率,不仅在所有六个动🤩作理解类别中都有显著提升,而且在其他视频理解基准测试(如MV👏Bench、LVBench、VideoMME)中也表现出色。💯特别值得注意的是,TE Fusion在处理高压缩比视频时的优😁势最为明显,当压缩比达到16倍时,其性能下降幅度远小于其他方🙄法。 为了进一步推动这个领域的发展,研究团队还发布了一🤯个包含5000个视频的精细动作描述数据集。这些视频都经过了人😜工标注,提供了详细的动作信息描述,标注密度达到每秒12.63😢个单词,为研究者提供了宝贵的训练资源。 研究团队对所有😢测试失败的案例进行了深入分析,发现了一些有趣的模式。在动作识😀别方面,失败案例中最大的比例涉及精细动作的区分,说明某些动作💯及其相关描述在训练数据中可能存在不足。从视频时长的角度分析,😂即使是0到4秒的短视频,所有模型都答错的问题仍占11%到14😢%,这突显了模型在区分某些动作时的固有困难。随着视频时长的增🤯加,失败率显著上升,18秒以上的视频失败率达到18%。 🚀 一个典型的失败案例很好地说明了问题所在:在一个视频中,一只😅手从汽车顶部移动到左下方,但大多数模型都认为这是"轻拍汽车表🚀面"的动作。从单帧图像的角度看,这种判断似乎合理,但在视频时👍序中,手实际上是滑过汽车表面而不是拍打,这个例子完美展示了单💯帧预测与时序理解之间的差异,也说明了创建专注于动作层面评估基🤩准的价值。 这项研究的意义远不止于揭示现有模型的不足。😜在实际应用中,精细动作理解对于异常检测、开放域动作分析、详细🔥视频字幕生成等任务都至关重要。在医疗教学中,准确理解手术动作😜的细节关系到医学生的学习效果;在体育分析中,对运动员技术动作🥳的精确识别影响着训练效果的评估;在工业安全监控中,对危险动作😜的及时识别可能关系到工人的生命安全。 研究团队也坦诚地😜指出了这项工作的局限性。首先,尽管他们努力包含了多样化的视频🌟内容,但数据集可能仍然存在地理、文化和情境方面的偏见,这可能👍限制了研究结果在不同环境下的普适性。其次,虽然进行了大规模的🤗标注工作,但由于人工标注和自动化工具的限制,偶尔的不准确或不🥳一致在所难免。 从更广阔的视角来看,这项研究为视频理解😴领域指明了一个重要的发展方向。当前的AI视频理解研究大多关注😅于高层次的语义理解,而忽略了基础的动作感知能力。就像建造高楼😀大厦需要坚实的地基一样,要实现真正智能的视频理解,我们必须首🌟先解决最基础的动作理解问题。 MotionBench的😀发布为这个领域提供了一个重要的评估工具和研究起点。通过这个基❤️准测试,研究者们可以更准确地评估和改进自己的模型,推动整个领😡域向更加精细、更加准确的方向发展。同时,TE Fusion技🤔术的提出也为解决视频理解中的计算效率和准确性平衡问题提供了新🥳的思路。 归根结底,这项研究告诉我们,在AI视频理解的😁道路上,我们还有很长的路要走。虽然现有的模型在某些高层次任务😉上表现出色,但在最基础的动作理解方面仍然存在巨大的改进空间。🤔这个发现不仅让我们更清楚地认识到当前技术的局限,也为未来的研😆究指明了方向。随着MotionBench这样的专业评估工具的😊出现,以及TE Fusion这样创新技术的发展,我们有理由相👍信,AI模型在精细动作理解方面的能力将会得到显著提升,最终实😢现真正智能的视频理解。 Q&A Q1:Motio🥳nBench是什么?它和其他视频评估有什么不同? A:🤩MotionBench是清华大学开发的专门测试AI模型精细动🎉作理解能力的评估体系,包含8052个问答对和5385个视频。🤩与其他主要关注故事情节和事件理解的视频评估不同,Motion👍Bench专注于最基础的动作层面理解,就像测试AI是否真的"🎉看懂"了人跳跃、物体移动这些基本动作。 Q2:为什么顶❤️级AI模型在MotionBench上表现这么差? A:😅主要有两个原因。首先是技术限制:理解精细动作需要高帧率输入,🤯但现有模型受计算资源限制只能处理很少帧数,相当于每5秒只看一❤️张图片。其次是基础能力缺失:即使提供更多帧数,模型的表现提升😂也有限,说明它们缺乏理解动作连续性和细节变化的根本能力。 😉 Q3:通过编码器融合技术TE Fusion是如何改进视频👏理解的? A:TE Fusion采用"深度融合"策略,🥳让相邻视频帧在整个处理过程中保持紧密信息交流,而不是传统的先🤗分别理解再寻找联系的"浅层融合"。这就像团队协作时保持实时沟🚀通一样,能更好地捕捉动作的连续性,特别在高压缩比场景下优势明😜显。返回搜狐,查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

近日,多位浦发银行信用卡用户反映,其名下万事达“无价世界卡”🔥在境外遭遇盗刷。记者获悉,浦发银行已向部分用户提供补偿措施,👏包括积分补偿、消费返还及费用减免等。同时,浦发银行信用卡中心😜也迅速回应称,近期已监测到部分客户存在未经本人授权的异常交易🤯,并已启动风险防控机制。 然而,这一事件仍引起高度关注🥳:在移动支付盛行、跨境消费日益频繁的背景下,“隔空”盗刷是如😡何发生的?一旦损失产生,责任应如何划分?而在磁条卡仍在海外大😎量使用的现实下,支付安全风险该如何防范? 隔空盗刷如何😂发生? 与国内“刷卡必须输入密码”的普遍习惯不同,海外🙌信用卡交易中,持卡人多数场景只需提供卡号、有效期与CVV码(❤️Card Verification Value)即可完成支付😉。缺乏密码验证的流程,令信用卡信息一旦泄露,极易被复制利用。😜 CVV码由发卡行通过算法生成,并印制在卡背签名栏附近💯。它与卡号、有效期共同构成离线交易的核心验证要素,主要用于酒😊店预订、电话订票、网络购物等无需实体卡的支付。 “盗刷😉的关键往往在于CVV码。”浙江杭州一位支付行业技术专家对记者😘解释称,“卡号和有效期在很多支付环节可能被记录,若再加上CV🚀V码,几乎等同于拿到一张可交易的信用卡。” 记者了解到🙌,CVV码被盗取存在多种途径。最常见的是数据泄露,黑客通过攻😊击电商网站、支付平台甚至银行数据库,批量窃取卡片信息。暗网交😂易是另一途径,一整套包括卡号、有效期、CVV、姓名及地址的信⭐息,售价仅数美元至十几美元不等。 此外,钓鱼诈骗也较为😢普遍,犯罪分子伪造银行或支付平台网站,通过短信或邮件诱导用户😍输入信用卡信息。物理偷盗同样存在风险,一些ATM或POS机被😍安装盗录设备,同时配合针孔摄像头偷窥CVV码。 业内人🚀士分析,此次浦发“无价世界卡”事件,部分用户近期并未使用过卡😉片或访问可疑网站,大概率涉及某电商或支付平台数据泄露,被黑产😘批量盗取。 值得注意的是,犯罪团伙通常不会立即动用盗取😀的信息,而是将其绑定到具备NFC功能的手机电子钱包中,等待数🔥月后集中进行“爆发式”盗刷,以规避风控系统监测。“这就是典型😆的‘无卡支付’盗刷。”一位银行风控人士指出。 600元⭐如何刷出2万元额度? 除了盗刷行为本身,此次事件还引发😴了一个令人费解的现象:部分用户的信用卡额度仅为数百元,但盗刷🤔金额却高达数万元。 “这与海外信用卡的离线交易机制密切😊相关。”上述支付行业人士对记者说,在该模式下,商户无需实时与😡发卡行交互即可完成交易,先行放行后,再在数天或最长30天内提🤗交清算。这意味着,犯罪分子可以在短时间内集中完成多笔交易,而😁银行的实时额度系统尚未更新冻结金额,从而形成“账面可用余额虚😘高”。 一位从事支付清算的技术专家向记者解释:“离线交👏易模式下,商户先消费、后入账,结算通常可延迟数天。而国内银行😜多采用‘T+1’更新额度逻辑,两者之间存在错配,为盗刷提供了😜可乘之机。” 展开全文 更复杂的是,一些银行在境🎉外场景下会自动上调临时额度至原授信的3至5倍,以提升用户体验😡。这一机制在正常情况下便利了大额消费,但在盗刷场景下却被犯罪😁分子利用,相当于提供了额外的“杠杆空间”。业内人士分析,这也💯是为何原本额度不高的卡片,在短时间内出现数万元盗刷的原因之一😂。 责任如何划分? 在信用卡盗刷案件中,责任归属🙄长期是争议焦点。根据最高法2021年出台的司法解释,信用卡盗🥳刷案件中举证责任主要在银行。北京大成(长春)律师事务所律师葛💯仲彰认为,如果银行未能识别伪卡交易或未及时拦截异常消费,即未👏能尽到安全保障义务,应承担主要赔偿责任;而持卡人若存在信息泄😘露、延迟挂失等过错,则需自行承担部分损失。 记者了解到🤔,司法实践中,多数案件银行需承担七成以上责任。例如,华北某地🙌法院近期审理的一起案件中,持卡人王某的信用卡境外被盗刷200🎉0元。他在第一时间冻结账户并报警,法院最终判定银行未尽风控义🚀务,应承担全部赔偿责任。 但跨境交易中的维权远不如国内😉顺畅。“国际卡组织通常要求持卡人在规定时间内提交包括交易凭证👏、沟通记录在内的支持文件,否则银行无法代表客户申请拒付或退款🥳。”一位金融律师提醒,“时间优先、证据为王,这是跨境维权的基🥳本原则。” 通常来说,信用卡交易链条涉及发卡行、国际卡🙄组织、收单行、商户等多方主体。上述律师称,法院在审理时通常认🎉定消费者作为弱势一方,银行及相关机构应对外承担赔偿责任,至于🚀各方之间的责任再通过内部追偿解决。 不过,也存在法院酌😅定责任的情况。若原告在卡片保管上存在明显疏忽,法院可能判定持💯卡人与银行各自承担一定比例责任。 支付安全:磁条卡换芯😆片卡 从介质层面看,磁条卡仍是盗刷高发的重要原因。业内🤔普遍共识是,磁条卡被盗刷的概率是芯片卡的数倍。老版万事达卡多🔥数仅具备磁条功能,安全性远逊于支持EMV芯片标准的卡片。 🤯 中国市场近年来已逐步完成芯片卡替换,但在海外,磁条卡仍然🚀被大量使用。一旦持卡人持有的仍是磁条卡,境外交易的安全隐患就👏不可避免。 “从安全角度看,磁条卡确实是软肋。”前述支😘付行业人士表示,“更换芯片卡既是资金安全的需要,也能提升支付😉体验。” 据悉,万事达已在中国市场推出兼容EMV和银联😀PBOC3.0标准的新型芯片卡,实现“一芯双应用”,可同时支👏持境内外使用。与此同时,卡组织的活动与权益也已明确限定在新发😘芯片卡用户范围内,以进一步推动存量磁条卡的更新换代。 🎉前述人士称,对于普通持卡人而言,主动更换芯片卡不仅能降低盗刷😜风险,还能参与更多权益活动;而对于银行和卡组织,全面淘汰磁条🎉卡则是提升支付体系安全性的必由之路。返回搜狐,查看更多

发布于:邹平市
评论
全部
还没有人评论过,快来抢首评
抢首评

推荐阅读

日俄关系持续紧张,安倍妻子却私赴莫斯科与普京会面,有何目的?

欢乐夜生活 2025-11-15 04:54:39 8610

未能与特朗普见上一面,马斯克火速离职,对特朗普已彻底失望

欢乐夜生活 2025-11-15 02:36:15 3688

马科斯处境越来越危险,菲律宾军队被曝内部动荡,恐将发生政变

欢乐夜生活 2025-11-15 02:04:46 7470

F35不买了?印度突然要研制隐身战机,声称就是为了对付中巴

欢乐夜生活 2025-11-15 03:23:23 2453

美媒发现不对劲,虽然中美已经和解,但中国不再回头购买美国商品

欢乐夜生活 2025-11-15 01:44:11 6423

马科斯连续迈出两步后,杜家族还是不信,中间人公开给小马背书

欢乐夜生活 2025-11-15 03:10:20 4282

对美日贴脸开大,辽宁舰举行大规模演练,敢保“台独”死路一条

欢乐夜生活 2025-11-15 06:23:09 1458

空战败给巴基斯坦后,印度宣布建造国产隐身战机,直接对标中国

欢乐夜生活 2025-11-15 09:08:28 2125

效仿中国,英媒怂恿欧洲与美国对着干,称一旦让步将付出更大代价

欢乐夜生活 2025-11-15 01:52:05 1872

联俄反华彻底落空,特朗普指责普京给脸不要脸,把自己当傻子

欢乐夜生活 2025-11-15 03:14:23 6008

泽连斯基彻底豁出去了,斩首普京失败后,再次饱和攻击莫斯科

欢乐夜生活 2025-11-15 08:45:47 8300

莎拉不一定能当总统,杜特尔特还有干儿子,立场更加倾向中国

欢乐夜生活 2025-11-15 08:04:55 5100

终于不再沉默,默克尔公开警告:欧盟继续这样做将带来灾难性后果

欢乐夜生活 2025-11-15 04:01:20 8870

不再索要稀土,对付中国管控,特朗普又想到了一个新办法

欢乐夜生活 2025-11-15 08:29:32 9791

马科斯认栽了,莎拉逃过一劫,弹劾案将迎来戏剧性结尾

欢乐夜生活 2025-11-15 02:46:19 6504

还嫌不够丢人,阵风被歼10击落3架后,印度又要求法国交出源码

欢乐夜生活 2025-11-15 04:31:43 1396

普京坐标被内鬼出卖?专机遭46架无人机攻击,泽连斯基麻烦大了

欢乐夜生活 2025-11-15 08:01:32 7566

集中力量对付中国,万斯承认美国霸权已结束:必须回到现实

欢乐夜生活 2025-11-15 06:24:51 6631

讨好特朗普,马科斯再次搬出南海仲裁案,继续铁了心挑衅中国

欢乐夜生活 2025-11-15 04:41:55 2557

拿中国没办法,特朗普已经失去耐心,要把印度树立成投降的典范

欢乐夜生活 2025-11-15 05:37:00 3215

要当第二个印度?菲律宾执意对抗中国,一口气购买法国40艘巡逻艇

欢乐夜生活 2025-11-15 03:20:43 2861
为您推荐中
暂时没有更多内容了……