Meta与UC Berkeley突破：AI实现人类式视频理解

吃瓜电子官网最新热点：Meta与UC Berkeley突破：AI实现人类式视频理解

更新时间：2025-11-11 06:19:58　浏览次数：3403

这项由meta FAIR和UC Berkeley联合进行的研😡究于2025年1月发表在arXiv预印本平台上，研究团队由J😴athushan Rajasegaran、Ilija Rad🤩osavovic等多位学者组成。有兴趣深入了解的读者可以通过😍论文标题"An Empirical Study of Aut⭐oregressive Pre-training from 🎉Videos"在arXiv平台上找到完整论文。当我们🤔看电视时，大脑会根据前面的画面预测接下来可能发生什么。如果一🔥个人正在跑步，我们能预测他的下一个动作；如果一辆车正在转弯，🥳我们能预测它的行驶轨迹。现在，研究人员想让人工智能也具备这种🔥能力，不仅能理解单张照片，还能像人类一样理解连续的视频画面。⭐ 这项研究的核心在于训练一个名为Toto的AI模型，让🤯它通过观看大量视频来学习预测下一个画面。就像教孩子看图说话一😜样，研究团队让Toto观看了超过十万小时的视频内容，包括日常😅生活、运动、各种活动场景。通过这种训练，Toto不仅学会了识⭐别图像中的物体，还学会了理解动作、预测物体的运动轨迹，甚至能😘在复杂场景中持续跟踪特定目标。这种训练方式被称为"自🤩回归预训练"，本质上就是让AI通过"看前面猜后面"的游戏来学🔥习理解世界。研究团队发现，尽管这种方法看起来很简单，没有复杂❤️的规则和约束，但训练出的AI在各种视觉任务上都表现出色，包括💯图像分类、视频理解、物体跟踪，甚至机器人操作。更有趣❤️的是，研究人员发现AI学习视频的规律和人类学习语言的规律非常😂相似。当我们增加更多的计算资源和训练数据时，AI的能力会按照🥳一定规律持续提升，就像语言模型随着规模增大而变得更聪明一样。👍不过，视频AI的提升速度比语言AI稍慢一些，这可能是因为视频🎉信息比文字信息更加复杂和冗余。一、让AI学会"看前猜👍后"的训练秘诀要理解这项研究的核心方法，可以想象教一😀个孩子看连环画的过程。当孩子看到前几幅画后，我们会遮住后面的😊画面，让他猜测接下来会发生什么。Toto的训练过程本质上就是😁这样一个巨大规模的"看图猜后续"游戏。研究团队首先需🌟要将视频转换成AI能够理解的"语言"。就像我们需要将复杂的想😡法转换成文字来表达一样，视频也需要被转换成数字符号。他们使用❤️了一种称为dVAE的技术，将每一帧视频画面转换成256个离散😁的"视觉单词"。这样，一个16帧的短视频片段就变成了4096🤔个"单词"组成的"句子"。展开全文在这种转换🚀下，一张256×256像素的图片被分解成16×16个小块，每🌟个小块用一个特定的数字代码表示。这个过程就像将一幅拼图分解成🚀小块，然后用数字给每个小块编号。通过这种方式，原本连续的视频💯画面变成了离散的数字序列，为后续的AI训练奠定了基础。 👏 Toto的核心架构采用了类似GPT语言模型的transfo👍rmer结构，但专门针对视频内容进行了优化。这种结构让AI能👍够同时关注画面中的多个位置和时间点，就像人类看视频时能同时注😁意到画面中不同区域的变化一样。研究团队构建了三个不同规模的模😀型，参数量分别为1.2亿、2.8亿和11亿，就像训练三个不同😍"智力水平"的AI学生。训练数据的规模令人惊叹。研究💯团队收集了包括ImageNet图像数据集、Kinetics-🤯600动作视频、Ego4D第一人称视频，以及HowTo100⭐M教学视频在内的海量数据。这些数据总共包含超过十万小时的视频🙌内容和约1万亿个视觉"单词"。相当于让AI观看了几千年的电视🤗内容，涵盖了人类生活的方方面面。在训练过程中，每个批😊次的数据按照特定比例混合：20%是静态图像，10%是第一人称🤩生活视频，10%是动作识别视频，60%是教学类视频。这种搭配🙄就像给AI提供营养均衡的"视觉餐"，确保它能够学习到不同类型🎉的视觉模式和规律。整个训练过程使用了AdamW优化器，学习率😘设置为0.0003，并采用余弦衰减策略逐渐降低学习率。 👍 二、从像素到智能：视觉信息的魔法转换将连续的视频画🤩面转换成AI能够理解的离散符号，这个过程充满了技术巧思。研究😡团队面临的第一个挑战是选择合适的"翻译器"，将丰富的视觉信息😎转换成数字代码，同时尽可能保留重要信息。他们比较了三😉种主要的转换方法。第一种是dVAE方法，将每个图像块转换成8🌟000个可能符号中的一个，就像用8000种不同的"积木块"来😉重建图像。第二种是VQGAN方法，提供了1000到16000😴种不同的选择。第三种是连续块标准化方法，不使用离散符号，而是👏保持连续的数值表示。实验结果显示，在相同分辨率下，d😉VAE和VQGAN的表现相当，都能达到约61%的图像分类准确😍率。然而，dVAE有一个重要优势：它的符号使用更加均匀。通过🤯分析1-gram分布发现，dVAE几乎使用了所有8000个可😀能的符号，而VQGAN只使用了不到50%的符号。这就像一个词😜汇丰富的作家使用了更多样化的词汇来表达思想，而不是反复使用同😀样的词语。分辨率选择也是一个关键考虑。更高分辨率意味😅着更多细节，但也意味着更多计算成本。研究发现，从低分辨率开始😎训练，然后微调到高分辨率，这种策略不仅节省了计算资源，还获得😀了更好的最终性能。128×128分辨率训练后微调到256×2💯56分辨率的模型，表现甚至超过了直接用256×256分辨率训🤗练的模型。这种现象的原因在于RoPE位置编码的使用。🤗RoPE允许模型在训练后适应更长的序列，就像一个学会了短篇写❤️作的作者可以逐步适应长篇创作。当研究团队调整RoPE的基值参🔥数从10000到50000时，模型对高分辨率的适应能力进一步🤗提升。在架构选择方面，研究团队比较了三种不同的模型结👏构。LLaMA架构表现最佳，达到53.2%的准确率，而传统的🔥GPT2架构只有48.5%，新兴的Mamba架构为40.7%👍。这说明LLaMA的设计更适合视觉信息的处理，可能因为它使用😀了RMSNorm标准化、SwiGLU激活函数和RoPE位置编👏码等先进技术。三、解码AI的"视觉大脑"：不同层级的⭐智能表现当我们深入研究Toto模型的内部工作机制时，😊发现了一个有趣的现象：就像人脑的不同区域负责不同功能一样，A😂I模型的不同层次也展现出不同的能力特征。这个发现对理解AI如😴何处理视觉信息具有重要意义。在对模型不同层次的探测中😴，研究团队发现了一个令人惊讶的规律。与传统的编码器-解码器结😡构不同，这种纯解码器模型的最佳表现出现在大约50%的深度位置😆。换句话说，既不是最浅层，也不是最深层，而是中间层提供了最好😢的视觉理解能力。这种现象可以用一个生动的比喻来理解。😆如果把AI模型比作一个复杂的视觉处理工厂，那么前半部分就像工😡厂的原料处理车间，负责将原始的视觉信息逐步提炼和抽象，形成越❤️来越高级的特征表示。而后半部分则像产品组装车间，将这些抽象特😜征重新组合，生成最终的预测结果。这种结构特征在不同任😜务上表现一致。无论是图像分类、动作识别还是物体跟踪，所有模型🙌规模都显示出相同的规律：中间层表现最优。但有一个例外值得注意🥳，那就是机器人操作任务。在这类任务中，除了中间层表现良好外，🥳最后几层也显示出不错的性能。这个例外现象揭示了一个深😆刻的道理。机器人操作本质上是一个生成性任务，需要模型根据当前😀观察生成具体的动作指令。因此，那些专门训练来生成下一个视觉符😉号的后期层次，恰好也适合生成动作指令。这就像一个既会画画又会😅写字的艺术家，他用来创作文字的技能也能帮助他更好地创作绘画作😢品。为了充分利用这些中间层的表示能力，研究团队采用了😉注意力池化技术，而不是简单的平均池化。原因在于，在自回归模型😘中，序列中较晚位置的符号能够"看到"更多前面的信息，就像站在😡山顶的人比站在山腰的人看得更远一样。注意力池化允许模型动态地🎉给予这些"视野更广"的位置更多权重。实验证明，注意力🚀池化比平均池化的效果好7.9个百分点，这个提升相当可观。这种🤗方法学习两个权重矩阵和一个查询向量，通过交叉注意力机制将所有🙄位置的信息整合成单一的表示向量。虽然这增加了一些计算成本，但😉显著提升了下游任务的性能。四、从理论到实践：全面验证🔥AI的视觉理解能力研究团队设计了一系列全面的测试来验😆证Toto模型的实际能力，这些测试覆盖了从基础图像识别到复杂❤️视频理解的各个方面。每个测试都像是给AI学生出的不同类型的"🙄期末考试"，检验它在不同领域的学习成果。在图像识别这🤔个最基础的测试中，Toto在ImageNet数据集上的表现令😜人瞩目。基础版本达到64.7%的准确率，大型版本提升到71.👏1%，而10亿参数的版本更是达到了75.3%。虽然这个成绩还🔥无法与专门设计用于判别任务的模型相比（比如DINO的80.1🔥%），但在生成式模型中已经是相当优秀的表现。更重要的🎉是，当我们将Toto与同样采用自回归方式训练的iGPT模型对😉比时，优势就很明显了。在相似的10亿参数规模下，Toto达到🙄75.3%的准确率，而iGPT-XL只有72%。这个4个百分💯点的提升证明了Toto在模型设计和训练策略上的优势。特别值得😘一提的是，Toto用1.1万亿视觉符号的训练数据就达到了与i🤗GPT用更多数据训练的相当性能。在视频理解方面，To❤️to展现出了更加令人印象深刻的能力。在Kinetics-40🤔0动作识别数据集上，基础版本达到59.3%，大型版本提升到6😎5.3%，10亿参数版本更是达到74.4%。这个成绩已经接近💯专门设计的视频理解模型，比如VideoMAE的79.8%。考😢虑到Toto是一个通用模型，这个表现相当不错。视频预🤯测任务更能体现Toto对时间序列的理解能力。在Ego4D短期❤️动作预测任务中，模型需要观看一个人的动作，然后预测他接下来可😀能与什么物体交互、进行什么操作，以及这个交互何时发生。Tot❤️o-large模型在这个任务上达到2.70的平均精度，超过了🤩专门设计的StillFast模型的2.48分。物体跟😍踪是另一个重要的测试项目。在这个任务中，模型需要在视频序列中❤️持续跟踪特定目标，即使目标被其他物体遮挡或部分消失也要保持跟🙄踪。Toto在DAVIS数据集上的表现相当出色，特别是在51🙌2×512高分辨率下达到62.4的J&F分数，超过了DINO🤔等专门模型。最令人兴奋的可能是机器人应用测试。研究团🤔队在模拟环境中测试了四个不同的机器人操作任务：Franka机👍械臂抓取、Kuka机械臂抓取、Franka机械臂开柜门和Ku🌟ka机械臂开柜门。在所有四个任务中，使用Toto预训练特征的😜机器人都比使用传统MAE预训练特征的机器人学习得更快，达到目😜标性能所需的训练步数更少。真实世界的机器人测试更加严🤔格。研究团队使用7自由度Franka机械臂进行立方体抓取任务😂，Toto-base模型达到了63%的成功率，虽然略低于专门🤯为机器人设计的MVP模型的75%，但考虑到Toto并非专门为😢机器人应用设计，这个成绩已经相当不错。五、意想不到的😘发现：AI也有"物体永恒性"概念在所有测试中，最有趣🚀的发现之一是Toto在物体永恒性理解方面的能力。物体永恒性是😅心理学中的一个重要概念，指的是即使物体暂时从视野中消失，我们😍也知道它仍然存在。这是人类智力发展的一个重要里程碑，通常在婴🌟儿8-12个月时开始显现。研究团队使用CATER数据🌟集来测试这种能力。在这个任务中，一个小球在场景中移动，但会被🎉其他物体遮挡或隐藏。模型需要在看不到球的情况下，推测球的最终🤯位置。这就像玩杯中球游戏，需要在杯子不断移动的过程中记住球在😊哪个杯子下面。 Toto-large模型在这个任务上表🤔现出色，在16帧测试中达到62.8%的准确率，在32帧测试中😍达到72.9%的准确率。这个成绩超过了专门设计用于这类任务的😅V3D和TFC-V3D模型。更有趣的是，更长的视频序列（32❤️帧vs16帧）带来了更好的性能，说明模型确实学会了利用时间信❤️息来推理被遮挡物体的位置。这种能力的出现是自然涌现的👏结果，并非研究团队特意设计。Toto通过观看大量视频自然学会⭐了物体在空间中的连续性概念，理解了即使暂时看不到物体，它们依🚀然遵循物理定律继续存在和移动。这种理解对于真实世界的应用至关🥳重要，比如自动驾驶汽车需要记住被其他车辆暂时遮挡的行人位置。😉 除了基本的物体永恒性，Toto还展现出了更复杂的时空❤️推理能力。在处理视频时，模型学会了预测物体的运动轨迹，理解不🚀同物体之间的交互关系，甚至能够推断出某些因果关系。这些能力都🥳不是通过明确的规则编程实现的，而是通过大量观看视频数据自然涌😎现的。六、规模的力量：视觉AI的成长规律就像❤️生物学家发现动物的大脑大小与智力水平之间存在某种关系一样，研🌟究团队发现了AI模型规模与性能之间的数学关系。这种关系被称为😀"缩放定律"，它揭示了增加计算资源和模型参数如何转化为性能提🤩升。通过训练六个不同规模的模型（参数量从1480万到🤔19亿），研究团队发现Toto遵循着明确的幂律关系：L(C)😴 = 7.32 × C^(-0.0378)。这个公式告诉我们🚀，当计算资源增加时，模型的损失（可以理解为"错误率"）会按照😀特定比例下降。简单来说，投入更多计算资源确实能够带来更好的性🚀能，而且这种提升是可预测的。有趣的是，这个缩放规律与🙌大型语言模型的缩放规律既相似又不同。GPT-3的缩放公式是L🤯(C) = 2.57 × C^(-0.048)，指数部分-0😎.048比Toto的-0.0378更大，意味着语言模型对计算😁资源的利用效率更高。换句话说，同样增加一倍的计算资源，语言模🌟型的性能提升会比视觉模型更明显。这种差异可能源于视频😍数据的特殊性质。视频帧之间存在大量冗余信息，相邻帧往往非常相😢似，这使得"预测下一帧"这个任务比"预测下一个词"相对容易一😘些。研究团队通过分析发现，在16帧视频序列中，第一帧的预测损💯失最高，后续帧的预测损失逐渐降低并趋于稳定。这说明模型很快学😊会了利用时间冗余来简化预测任务。尽管视觉模型的缩放效😘率略低于语言模型，但这种可预测的缩放关系依然具有重要价值。它😘为研究团队和工程师提供了明确的指导：如果想要达到特定的性能目😊标，需要投入多少计算资源；如果预算有限，能够期望达到什么样的😡性能水平。为了找到最优的缩放策略，研究团队使用了μ参😍数化技术。这种技术确保了不同规模的模型都能使用相同的学习率（😊2^(-7) = 0.0078125），简化了训练过程。通过😍系统性的实验，他们证明了线性增加模型宽度和深度是一种有效的缩😂放策略。七、突破与局限：诚实面对研究的边界每🎉项研究都有其光辉的成就和诚实的局限，这项工作也不例外。在取得🤔令人瞩目成果的同时，研究团队也坦诚地指出了当前方法的不足之处😢和未来需要改进的方向。最明显的局限来自于训练数据的质😎量。由于使用了大量来自互联网的视频数据，不可避免地包含了质量😀参差不齐的内容。与精心策划的数据集相比，这种"野生"数据包含😢噪声、模糊片段、甚至错误标注的内容。这种数据质量的不一致性会🙌影响模型的最终性能，特别是在需要精确理解的任务中。另❤️一个重要局限是对分词器的依赖。目前的方法需要先将连续的视频画🙄面转换成离散的符号，然后再进行训练。这种转换过程不可避免地会😍丢失一些信息，就像将高清照片压缩成低分辨率图像一样。更关键的🤩是，模型的表现上限受到分词器质量的制约。即使后续的AI学习过👏程再完美，也无法超越分词器本身的信息提取能力。视频数😍据的冗余性也带来了挑战。相邻视频帧之间的高度相似性虽然降低了😎预测难度，但也可能阻碍模型学习更深层的时间模式。模型可能过度😉依赖简单的时间插值，而没有真正理解复杂的动态过程。这就像一个😁学生通过记忆相似题目的答案来应付考试，而没有真正掌握解题的原😀理。在任务覆盖范围方面，当前的评估主要集中在分类、识💯别和跟踪等相对基础的任务上。对于更复杂的密集预测任务（如语义🙌分割、深度估计）、细粒度识别（如区分不同品种的鸟类），以及长😍时间跨度的时间理解，模型的能力还没有得到充分验证。研🤯究团队的设计选择评估也主要基于ImageNet分类任务的表现😘。虽然这个任务具有一定代表性，但可能不是所有应用场景的最优配🤔置。不同任务可能需要不同的架构设计、训练策略和数据配比，这些🌟都需要进一步的研究和优化。八、未来展望：视觉AI的无🙌限可能尽管存在这些局限，这项研究为视觉AI的发展开辟😘了一条充满希望的道路。它证明了简单的"看前猜后"策略能够让A🤗I获得丰富的视觉理解能力，为构建更加通用的视觉智能系统提供了🎉重要启发。从技术发展角度来看，这项工作最重要的贡献是😉证明了视觉领域也存在类似语言模型的缩放规律。这意味着随着计算😅能力的提升和数据规模的扩大，视觉AI的能力将继续按照可预测的🤯方式增长。这为未来的研究投资和技术规划提供了科学依据。 😆 在实际应用方面，Toto展现出的多任务能力特别有价值。一个😊模型能够同时处理图像分类、视频理解、物体跟踪和机器人控制等不💯同任务，这大大降低了系统的复杂性和维护成本。未来，我们可能看😉到更多基于这种通用视觉模型的应用，从智能监控到自动驾驶，从医🥳疗影像分析到增强现实。对于机器人领域来说，这项研究特🤯别具有启发意义。传统的机器人视觉系统往往需要针对特定任务进行😎精心设计和调优，而Toto展现的通用视觉能力可能让机器人更容💯易适应新环境和新任务。一个经过大规模视频预训练的机器人可能只😂需要少量特定任务的训练就能胜任复杂的操作。在创意应用😁方面，具备时间理解能力的AI模型开辟了全新的可能性。从自动视😀频编辑、智能内容推荐，到沉浸式虚拟现实体验，这些应用都需要A😘I深刻理解视频内容的时空结构。Toto在这些方向上展现的潜力❤️令人期待。说到底，这项研究最重要的价值在于它的哲学启🤗示：智能不一定需要复杂的规则和精巧的设计，有时候最简单的学习😊原理就能产生最强大的能力。就像人类婴儿通过观察世界就能自然发😉展出丰富的认知能力一样，AI也能通过"观看"大量视频数据自然😡涌现出各种智能行为。这种发现让我们对构建真正通用的人工智能系😁统更加乐观。当然，距离创建能够像人类一样理解和互动世🌟界的AI系统，我们还有很长的路要走。但这项研究无疑是朝着正确🙌方向迈出的重要一步。它不仅推动了技术边界，更重要的是为整个领🤯域提供了新的思考框架和研究范式。在AI快速发展的今天，这样的🎉基础性探索具有不可估量的价值。有兴趣深入了解技术细节😂的读者可以通过搜索"An Empirical Study o⭐f Autoregressive Pre-training ⭐from Videos"在学术平台上找到完整论文，其中包含了😀详细的实验设计、数学推导和补充分析。 Q&A Q😡1：Toto模型是如何学习理解视频的？ A：Toto采🥳用"看前猜后"的训练方式，就像教孩子看连环画一样。它观看了超😅过十万小时的各种视频内容，包括日常生活、运动场景等，通过不断😆预测下一个画面来学习理解视觉世界的规律。这种方法被称为自回归😀预训练，让AI自然获得了图像识别、动作理解和物体跟踪等多种能😡力。 Q2：为什么视觉AI的缩放效率比语言模型低？ 😅 A：主要因为视频数据的冗余性更高。相邻的视频帧往往非常相😀似，这使得"预测下一帧"比"预测下一个词"相对容易一些。研究🤯发现第一帧预测最难，后续帧预测逐渐变容易，说明模型很快学会利😜用时间冗余。因此同样增加计算资源，视觉模型的性能提升没有语言🙌模型那么明显。 Q3：Toto在实际应用中表现如何？ 🙌 A：Toto在多个任务中都表现出色。在图像分类上达到7😂5.3%准确率，在视频理解任务中达到74.4%，在物体跟踪和😎机器人操作中也超越了多个专门模型。特别值得一提的是，它展现出🤯了"物体永恒性"理解能力，能够跟踪被遮挡的物体，这种能力是通😁过观看视频自然涌现的，并非特意设计。返回搜狐，查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

当地时间10月3日，美国参议院就民主党提出的临时拨款法案进行🤔投票，最终以46票赞成、52票反对的结果，再次未能推动该法案😜落地。随后，共和党提出的临时拨款法案也未能获得足够票👍数通过。联邦政府将继续“停摆”。当地时间10月1日0🤩时，美国联邦政府因资金耗尽而“停摆”。这是联邦政府近七年来首😡次“停摆”。（央视新闻）返回搜狐，查看更多

还没有人评论过，快来抢首评

抢首评

Meta与UC Berkeley突破：AI实现人类式视频理解

吃瓜电子官网最新热点：Meta与UC Berkeley突破：AI实现人类式视频理解

推荐阅读

iPhone 17系列早期交货时间增加大摩维持苹果(AAPL.US)“增持”评级

消息称 OPPO 于 10 月 15 日发布 ColorOS 16

DeepSeek-R1 登上《Nature》封面：只花了 200 万，没蒸馏 OpenAI

我国研发人员总量世界第一

多个世界第一！“十四五”时期我国科技事业取得历史性成就

科技部：我国研发人员总量世界第一

“如果没有中国，美国将独霸AI”

92款广东大模型“持证上岗”，备案数全国第二赋能千行百业

科技部：全国新能源汽车产销量连续10年保持全球第一

第四届琶洲算法大赛吸引30余国8100名选手参赛，赛事福利助力AI成果落地

苹果承认iPhone17系列及 iPhone Air 存在相机漏洞，将尽快发布修复程序

AI驱动安全能力升级长亭科技斩获网安周双项冠军

Claude 公司 CEO 示警称 AI 加速取代人类，近半白领岗位未来 5 年恐被淘汰

消息称马云已“强势回归”，阿里巴巴暂无回应

消息称iPhone 18 Pro及Max屏幕仍分别是6.3英寸、6.9英寸

“数字+产业+场景”——重庆农商行的转型密码

交个朋友发布半年报：新媒体服务营收6.19亿元，同比增长9.8%

中国茶饮，“占领”华尔街

17.98万起，唐DM-i智驾版 175KM长续航版上市

小米发布REDMI 15R 5G手机：售价1099元起搭载6000mAh电池

GPT-4o复活！OpenAI如何应对用户对新模型的情感依赖

Meta与UC Berkeley突破：AI实现人类式视频理解

吃瓜电子官网最新热点：Meta与UC Berkeley突破：AI实现人类式视频理解

长按复制以下链接，粘贴给好友吧！

iPhone 17系列早期交货时间增加 大摩维持苹果(AAPL.US)“增持”评级

消息称 OPPO 于 10 月 15 日发布 ColorOS 16

DeepSeek-R1 登上《Nature》封面：只花了 200 万，没蒸馏 OpenAI

我国研发人员总量世界第一

多个世界第一！“十四五”时期我国科技事业取得历史性成就

科技部：我国研发人员总量世界第一

“如果没有中国，美国将独霸AI”

92款广东大模型“持证上岗”，备案数全国第二赋能千行百业

科技部：全国新能源汽车产销量连续10年保持全球第一

第四届琶洲算法大赛吸引30余国8100名选手参赛，赛事福利助力AI成果落地

苹果承认iPhone17系列及 iPhone Air 存在相机漏洞，将尽快发布修复程序

AI驱动安全能力升级 长亭科技斩获网安周双项冠军

Claude 公司 CEO 示警称 AI 加速取代人类，近半白领岗位未来 5 年恐被淘汰

消息称马云已“强势回归”，阿里巴巴暂无回应

消息称iPhone 18 Pro及Max屏幕仍分别是6.3英寸、6.9英寸

“数字+产业+场景”——重庆农商行的转型密码

交个朋友发布半年报：新媒体服务营收6.19亿元，同比增长9.8%

中国茶饮，“占领”华尔街

17.98万起，唐DM-i智驾版 175KM长续航版上市

小米发布REDMI 15R 5G手机：售价1099元起 搭载6000mAh电池

GPT-4o复活！OpenAI如何应对用户对新模型的情感依赖

iPhone 17系列早期交货时间增加大摩维持苹果(AAPL.US)“增持”评级

AI驱动安全能力升级长亭科技斩获网安周双项冠军

小米发布REDMI 15R 5G手机：售价1099元起搭载6000mAh电池