Meta与UC Berkeley突破:AI实现人类式视频理解
吃瓜电子官网最新热点:Meta与UC Berkeley突破:AI实现人类式视频理解
更新时间: 浏览次数:3403
这项由meta FAIR和UC Berkeley联合进行的研😡究于2025年1月发表在arXiv预印本平台上,研究团队由J😴athushan Rajasegaran、Ilija Rad🤩osavovic等多位学者组成。有兴趣深入了解的读者可以通过😍论文标题"An Empirical Study of Aut⭐oregressive Pre-training from 🎉Videos"在arXiv平台上找到完整论文。 当我们🤔看电视时,大脑会根据前面的画面预测接下来可能发生什么。如果一🔥个人正在跑步,我们能预测他的下一个动作;如果一辆车正在转弯,🥳我们能预测它的行驶轨迹。现在,研究人员想让人工智能也具备这种🔥能力,不仅能理解单张照片,还能像人类一样理解连续的视频画面。⭐ 这项研究的核心在于训练一个名为Toto的AI模型,让🤯它通过观看大量视频来学习预测下一个画面。就像教孩子看图说话一😜样,研究团队让Toto观看了超过十万小时的视频内容,包括日常😅生活、运动、各种活动场景。通过这种训练,Toto不仅学会了识⭐别图像中的物体,还学会了理解动作、预测物体的运动轨迹,甚至能😘在复杂场景中持续跟踪特定目标。 这种训练方式被称为"自🤩回归预训练",本质上就是让AI通过"看前面猜后面"的游戏来学🔥习理解世界。研究团队发现,尽管这种方法看起来很简单,没有复杂❤️的规则和约束,但训练出的AI在各种视觉任务上都表现出色,包括💯图像分类、视频理解、物体跟踪,甚至机器人操作。 更有趣❤️的是,研究人员发现AI学习视频的规律和人类学习语言的规律非常😂相似。当我们增加更多的计算资源和训练数据时,AI的能力会按照🥳一定规律持续提升,就像语言模型随着规模增大而变得更聪明一样。👍不过,视频AI的提升速度比语言AI稍慢一些,这可能是因为视频🎉信息比文字信息更加复杂和冗余。 一、让AI学会"看前猜👍后"的训练秘诀 要理解这项研究的核心方法,可以想象教一😀个孩子看连环画的过程。当孩子看到前几幅画后,我们会遮住后面的😊画面,让他猜测接下来会发生什么。Toto的训练过程本质上就是😁这样一个巨大规模的"看图猜后续"游戏。 研究团队首先需🌟要将视频转换成AI能够理解的"语言"。就像我们需要将复杂的想😡法转换成文字来表达一样,视频也需要被转换成数字符号。他们使用❤️了一种称为dVAE的技术,将每一帧视频画面转换成256个离散😁的"视觉单词"。这样,一个16帧的短视频片段就变成了4096🤔个"单词"组成的"句子"。 展开全文 在这种转换🚀下,一张256×256像素的图片被分解成16×16个小块,每🌟个小块用一个特定的数字代码表示。这个过程就像将一幅拼图分解成🚀小块,然后用数字给每个小块编号。通过这种方式,原本连续的视频💯画面变成了离散的数字序列,为后续的AI训练奠定了基础。 👏 Toto的核心架构采用了类似GPT语言模型的transfo👍rmer结构,但专门针对视频内容进行了优化。这种结构让AI能👍够同时关注画面中的多个位置和时间点,就像人类看视频时能同时注😁意到画面中不同区域的变化一样。研究团队构建了三个不同规模的模😀型,参数量分别为1.2亿、2.8亿和11亿,就像训练三个不同😍"智力水平"的AI学生。 训练数据的规模令人惊叹。研究💯团队收集了包括ImageNet图像数据集、Kinetics-🤯600动作视频、Ego4D第一人称视频,以及HowTo100⭐M教学视频在内的海量数据。这些数据总共包含超过十万小时的视频🙌内容和约1万亿个视觉"单词"。相当于让AI观看了几千年的电视🤗内容,涵盖了人类生活的方方面面。 在训练过程中,每个批😊次的数据按照特定比例混合:20%是静态图像,10%是第一人称🤩生活视频,10%是动作识别视频,60%是教学类视频。这种搭配🙄就像给AI提供营养均衡的"视觉餐",确保它能够学习到不同类型🎉的视觉模式和规律。整个训练过程使用了AdamW优化器,学习率😘设置为0.0003,并采用余弦衰减策略逐渐降低学习率。 👍 二、从像素到智能:视觉信息的魔法转换 将连续的视频画🤩面转换成AI能够理解的离散符号,这个过程充满了技术巧思。研究😡团队面临的第一个挑战是选择合适的"翻译器",将丰富的视觉信息😎转换成数字代码,同时尽可能保留重要信息。 他们比较了三😉种主要的转换方法。第一种是dVAE方法,将每个图像块转换成8🌟000个可能符号中的一个,就像用8000种不同的"积木块"来😉重建图像。第二种是VQGAN方法,提供了1000到16000😴种不同的选择。第三种是连续块标准化方法,不使用离散符号,而是👏保持连续的数值表示。 实验结果显示,在相同分辨率下,d😉VAE和VQGAN的表现相当,都能达到约61%的图像分类准确😍率。然而,dVAE有一个重要优势:它的符号使用更加均匀。通过🤯分析1-gram分布发现,dVAE几乎使用了所有8000个可😀能的符号,而VQGAN只使用了不到50%的符号。这就像一个词😜汇丰富的作家使用了更多样化的词汇来表达思想,而不是反复使用同😀样的词语。 分辨率选择也是一个关键考虑。更高分辨率意味😅着更多细节,但也意味着更多计算成本。研究发现,从低分辨率开始😎训练,然后微调到高分辨率,这种策略不仅节省了计算资源,还获得😀了更好的最终性能。128×128分辨率训练后微调到256×2💯56分辨率的模型,表现甚至超过了直接用256×256分辨率训🤗练的模型。 这种现象的原因在于RoPE位置编码的使用。🤗RoPE允许模型在训练后适应更长的序列,就像一个学会了短篇写❤️作的作者可以逐步适应长篇创作。当研究团队调整RoPE的基值参🔥数从10000到50000时,模型对高分辨率的适应能力进一步🤗提升。 在架构选择方面,研究团队比较了三种不同的模型结👏构。LLaMA架构表现最佳,达到53.2%的准确率,而传统的🔥GPT2架构只有48.5%,新兴的Mamba架构为40.7%👍。这说明LLaMA的设计更适合视觉信息的处理,可能因为它使用😀了RMSNorm标准化、SwiGLU激活函数和RoPE位置编👏码等先进技术。 三、解码AI的"视觉大脑":不同层级的⭐智能表现 当我们深入研究Toto模型的内部工作机制时,😊发现了一个有趣的现象:就像人脑的不同区域负责不同功能一样,A😂I模型的不同层次也展现出不同的能力特征。这个发现对理解AI如😴何处理视觉信息具有重要意义。 在对模型不同层次的探测中😴,研究团队发现了一个令人惊讶的规律。与传统的编码器-解码器结😡构不同,这种纯解码器模型的最佳表现出现在大约50%的深度位置😆。换句话说,既不是最浅层,也不是最深层,而是中间层提供了最好😢的视觉理解能力。 这种现象可以用一个生动的比喻来理解。😆如果把AI模型比作一个复杂的视觉处理工厂,那么前半部分就像工😡厂的原料处理车间,负责将原始的视觉信息逐步提炼和抽象,形成越❤️来越高级的特征表示。而后半部分则像产品组装车间,将这些抽象特😜征重新组合,生成最终的预测结果。 这种结构特征在不同任😜务上表现一致。无论是图像分类、动作识别还是物体跟踪,所有模型🙌规模都显示出相同的规律:中间层表现最优。但有一个例外值得注意🥳,那就是机器人操作任务。在这类任务中,除了中间层表现良好外,🥳最后几层也显示出不错的性能。 这个例外现象揭示了一个深😆刻的道理。机器人操作本质上是一个生成性任务,需要模型根据当前😀观察生成具体的动作指令。因此,那些专门训练来生成下一个视觉符😉号的后期层次,恰好也适合生成动作指令。这就像一个既会画画又会😅写字的艺术家,他用来创作文字的技能也能帮助他更好地创作绘画作😢品。 为了充分利用这些中间层的表示能力,研究团队采用了😉注意力池化技术,而不是简单的平均池化。原因在于,在自回归模型😘中,序列中较晚位置的符号能够"看到"更多前面的信息,就像站在😡山顶的人比站在山腰的人看得更远一样。注意力池化允许模型动态地🎉给予这些"视野更广"的位置更多权重。 实验证明,注意力🚀池化比平均池化的效果好7.9个百分点,这个提升相当可观。这种🤗方法学习两个权重矩阵和一个查询向量,通过交叉注意力机制将所有🙄位置的信息整合成单一的表示向量。虽然这增加了一些计算成本,但😉显著提升了下游任务的性能。 四、从理论到实践:全面验证🔥AI的视觉理解能力 研究团队设计了一系列全面的测试来验😆证Toto模型的实际能力,这些测试覆盖了从基础图像识别到复杂❤️视频理解的各个方面。每个测试都像是给AI学生出的不同类型的"🙄期末考试",检验它在不同领域的学习成果。 在图像识别这🤔个最基础的测试中,Toto在ImageNet数据集上的表现令😜人瞩目。基础版本达到64.7%的准确率,大型版本提升到71.👏1%,而10亿参数的版本更是达到了75.3%。虽然这个成绩还🔥无法与专门设计用于判别任务的模型相比(比如DINO的80.1🔥%),但在生成式模型中已经是相当优秀的表现。 更重要的🎉是,当我们将Toto与同样采用自回归方式训练的iGPT模型对😉比时,优势就很明显了。在相似的10亿参数规模下,Toto达到🙄75.3%的准确率,而iGPT-XL只有72%。这个4个百分💯点的提升证明了Toto在模型设计和训练策略上的优势。特别值得😘一提的是,Toto用1.1万亿视觉符号的训练数据就达到了与i🤗GPT用更多数据训练的相当性能。 在视频理解方面,To❤️to展现出了更加令人印象深刻的能力。在Kinetics-40🤔0动作识别数据集上,基础版本达到59.3%,大型版本提升到6😎5.3%,10亿参数版本更是达到74.4%。这个成绩已经接近💯专门设计的视频理解模型,比如VideoMAE的79.8%。考😢虑到Toto是一个通用模型,这个表现相当不错。 视频预🤯测任务更能体现Toto对时间序列的理解能力。在Ego4D短期❤️动作预测任务中,模型需要观看一个人的动作,然后预测他接下来可😀能与什么物体交互、进行什么操作,以及这个交互何时发生。Tot❤️o-large模型在这个任务上达到2.70的平均精度,超过了🤩专门设计的StillFast模型的2.48分。 物体跟😍踪是另一个重要的测试项目。在这个任务中,模型需要在视频序列中❤️持续跟踪特定目标,即使目标被其他物体遮挡或部分消失也要保持跟🙄踪。Toto在DAVIS数据集上的表现相当出色,特别是在51🙌2×512高分辨率下达到62.4的J&F分数,超过了DINO🤔等专门模型。 最令人兴奋的可能是机器人应用测试。研究团🤔队在模拟环境中测试了四个不同的机器人操作任务:Franka机👍械臂抓取、Kuka机械臂抓取、Franka机械臂开柜门和Ku🌟ka机械臂开柜门。在所有四个任务中,使用Toto预训练特征的😜机器人都比使用传统MAE预训练特征的机器人学习得更快,达到目😜标性能所需的训练步数更少。 真实世界的机器人测试更加严🤔格。研究团队使用7自由度Franka机械臂进行立方体抓取任务😂,Toto-base模型达到了63%的成功率,虽然略低于专门🤯为机器人设计的MVP模型的75%,但考虑到Toto并非专门为😢机器人应用设计,这个成绩已经相当不错。 五、意想不到的😘发现:AI也有"物体永恒性"概念 在所有测试中,最有趣🚀的发现之一是Toto在物体永恒性理解方面的能力。物体永恒性是😅心理学中的一个重要概念,指的是即使物体暂时从视野中消失,我们😍也知道它仍然存在。这是人类智力发展的一个重要里程碑,通常在婴🌟儿8-12个月时开始显现。 研究团队使用CATER数据🌟集来测试这种能力。在这个任务中,一个小球在场景中移动,但会被🎉其他物体遮挡或隐藏。模型需要在看不到球的情况下,推测球的最终🤯位置。这就像玩杯中球游戏,需要在杯子不断移动的过程中记住球在😊哪个杯子下面。 Toto-large模型在这个任务上表🤔现出色,在16帧测试中达到62.8%的准确率,在32帧测试中😍达到72.9%的准确率。这个成绩超过了专门设计用于这类任务的😅V3D和TFC-V3D模型。更有趣的是,更长的视频序列(32❤️帧vs16帧)带来了更好的性能,说明模型确实学会了利用时间信❤️息来推理被遮挡物体的位置。 这种能力的出现是自然涌现的👏结果,并非研究团队特意设计。Toto通过观看大量视频自然学会⭐了物体在空间中的连续性概念,理解了即使暂时看不到物体,它们依🚀然遵循物理定律继续存在和移动。这种理解对于真实世界的应用至关🥳重要,比如自动驾驶汽车需要记住被其他车辆暂时遮挡的行人位置。😉 除了基本的物体永恒性,Toto还展现出了更复杂的时空❤️推理能力。在处理视频时,模型学会了预测物体的运动轨迹,理解不🚀同物体之间的交互关系,甚至能够推断出某些因果关系。这些能力都🥳不是通过明确的规则编程实现的,而是通过大量观看视频数据自然涌😎现的。 六、规模的力量:视觉AI的成长规律 就像❤️生物学家发现动物的大脑大小与智力水平之间存在某种关系一样,研🌟究团队发现了AI模型规模与性能之间的数学关系。这种关系被称为😀"缩放定律",它揭示了增加计算资源和模型参数如何转化为性能提🤩升。 通过训练六个不同规模的模型(参数量从1480万到🤔19亿),研究团队发现Toto遵循着明确的幂律关系:L(C)😴 = 7.32 × C^(-0.0378)。这个公式告诉我们🚀,当计算资源增加时,模型的损失(可以理解为"错误率")会按照😀特定比例下降。简单来说,投入更多计算资源确实能够带来更好的性🚀能,而且这种提升是可预测的。 有趣的是,这个缩放规律与🙌大型语言模型的缩放规律既相似又不同。GPT-3的缩放公式是L🤯(C) = 2.57 × C^(-0.048),指数部分-0😎.048比Toto的-0.0378更大,意味着语言模型对计算😁资源的利用效率更高。换句话说,同样增加一倍的计算资源,语言模🌟型的性能提升会比视觉模型更明显。 这种差异可能源于视频😍数据的特殊性质。视频帧之间存在大量冗余信息,相邻帧往往非常相😢似,这使得"预测下一帧"这个任务比"预测下一个词"相对容易一😘些。研究团队通过分析发现,在16帧视频序列中,第一帧的预测损💯失最高,后续帧的预测损失逐渐降低并趋于稳定。这说明模型很快学😊会了利用时间冗余来简化预测任务。 尽管视觉模型的缩放效😘率略低于语言模型,但这种可预测的缩放关系依然具有重要价值。它😘为研究团队和工程师提供了明确的指导:如果想要达到特定的性能目😊标,需要投入多少计算资源;如果预算有限,能够期望达到什么样的😡性能水平。 为了找到最优的缩放策略,研究团队使用了μ参😍数化技术。这种技术确保了不同规模的模型都能使用相同的学习率(😊2^(-7) = 0.0078125),简化了训练过程。通过😍系统性的实验,他们证明了线性增加模型宽度和深度是一种有效的缩😂放策略。 七、突破与局限:诚实面对研究的边界 每🎉项研究都有其光辉的成就和诚实的局限,这项工作也不例外。在取得🤔令人瞩目成果的同时,研究团队也坦诚地指出了当前方法的不足之处😢和未来需要改进的方向。 最明显的局限来自于训练数据的质😎量。由于使用了大量来自互联网的视频数据,不可避免地包含了质量😀参差不齐的内容。与精心策划的数据集相比,这种"野生"数据包含😢噪声、模糊片段、甚至错误标注的内容。这种数据质量的不一致性会🙌影响模型的最终性能,特别是在需要精确理解的任务中。 另❤️一个重要局限是对分词器的依赖。目前的方法需要先将连续的视频画🙄面转换成离散的符号,然后再进行训练。这种转换过程不可避免地会😍丢失一些信息,就像将高清照片压缩成低分辨率图像一样。更关键的🤩是,模型的表现上限受到分词器质量的制约。即使后续的AI学习过👏程再完美,也无法超越分词器本身的信息提取能力。 视频数😍据的冗余性也带来了挑战。相邻视频帧之间的高度相似性虽然降低了😎预测难度,但也可能阻碍模型学习更深层的时间模式。模型可能过度😉依赖简单的时间插值,而没有真正理解复杂的动态过程。这就像一个😁学生通过记忆相似题目的答案来应付考试,而没有真正掌握解题的原😀理。 在任务覆盖范围方面,当前的评估主要集中在分类、识💯别和跟踪等相对基础的任务上。对于更复杂的密集预测任务(如语义🙌分割、深度估计)、细粒度识别(如区分不同品种的鸟类),以及长😍时间跨度的时间理解,模型的能力还没有得到充分验证。 研🤯究团队的设计选择评估也主要基于ImageNet分类任务的表现😘。虽然这个任务具有一定代表性,但可能不是所有应用场景的最优配🤔置。不同任务可能需要不同的架构设计、训练策略和数据配比,这些🌟都需要进一步的研究和优化。 八、未来展望:视觉AI的无🙌限可能 尽管存在这些局限,这项研究为视觉AI的发展开辟😘了一条充满希望的道路。它证明了简单的"看前猜后"策略能够让A🤗I获得丰富的视觉理解能力,为构建更加通用的视觉智能系统提供了🎉重要启发。 从技术发展角度来看,这项工作最重要的贡献是😉证明了视觉领域也存在类似语言模型的缩放规律。这意味着随着计算😅能力的提升和数据规模的扩大,视觉AI的能力将继续按照可预测的🤯方式增长。这为未来的研究投资和技术规划提供了科学依据。 😆 在实际应用方面,Toto展现出的多任务能力特别有价值。一个😊模型能够同时处理图像分类、视频理解、物体跟踪和机器人控制等不💯同任务,这大大降低了系统的复杂性和维护成本。未来,我们可能看😉到更多基于这种通用视觉模型的应用,从智能监控到自动驾驶,从医🥳疗影像分析到增强现实。 对于机器人领域来说,这项研究特🤯别具有启发意义。传统的机器人视觉系统往往需要针对特定任务进行😎精心设计和调优,而Toto展现的通用视觉能力可能让机器人更容💯易适应新环境和新任务。一个经过大规模视频预训练的机器人可能只😂需要少量特定任务的训练就能胜任复杂的操作。 在创意应用😁方面,具备时间理解能力的AI模型开辟了全新的可能性。从自动视😀频编辑、智能内容推荐,到沉浸式虚拟现实体验,这些应用都需要A😘I深刻理解视频内容的时空结构。Toto在这些方向上展现的潜力❤️令人期待。 说到底,这项研究最重要的价值在于它的哲学启🤗示:智能不一定需要复杂的规则和精巧的设计,有时候最简单的学习😊原理就能产生最强大的能力。就像人类婴儿通过观察世界就能自然发😉展出丰富的认知能力一样,AI也能通过"观看"大量视频数据自然😡涌现出各种智能行为。这种发现让我们对构建真正通用的人工智能系😁统更加乐观。 当然,距离创建能够像人类一样理解和互动世🌟界的AI系统,我们还有很长的路要走。但这项研究无疑是朝着正确🙌方向迈出的重要一步。它不仅推动了技术边界,更重要的是为整个领🤯域提供了新的思考框架和研究范式。在AI快速发展的今天,这样的🎉基础性探索具有不可估量的价值。 有兴趣深入了解技术细节😂的读者可以通过搜索"An Empirical Study o⭐f Autoregressive Pre-training ⭐from Videos"在学术平台上找到完整论文,其中包含了😀详细的实验设计、数学推导和补充分析。 Q&A Q😡1:Toto模型是如何学习理解视频的? A:Toto采🥳用"看前猜后"的训练方式,就像教孩子看连环画一样。它观看了超😅过十万小时的各种视频内容,包括日常生活、运动场景等,通过不断😆预测下一个画面来学习理解视觉世界的规律。这种方法被称为自回归😀预训练,让AI自然获得了图像识别、动作理解和物体跟踪等多种能😡力。 Q2:为什么视觉AI的缩放效率比语言模型低? 😅 A:主要因为视频数据的冗余性更高。相邻的视频帧往往非常相😀似,这使得"预测下一帧"比"预测下一个词"相对容易一些。研究🤯发现第一帧预测最难,后续帧预测逐渐变容易,说明模型很快学会利😜用时间冗余。因此同样增加计算资源,视觉模型的性能提升没有语言🙌模型那么明显。 Q3:Toto在实际应用中表现如何? 🙌 A:Toto在多个任务中都表现出色。在图像分类上达到7😂5.3%准确率,在视频理解任务中达到74.4%,在物体跟踪和😎机器人操作中也超越了多个专门模型。特别值得一提的是,它展现出🤯了"物体永恒性"理解能力,能够跟踪被遮挡的物体,这种能力是通😁过观看视频自然涌现的,并非特意设计。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
当地时间10月3日,美国参议院就民主党提出的临时拨款法案进行🤔投票,最终以46票赞成、52票反对的结果,再次未能推动该法案😜落地。 随后,共和党提出的临时拨款法案也未能获得足够票👍数通过。联邦政府将继续“停摆”。 当地时间10月1日0🤩时,美国联邦政府因资金耗尽而“停摆”。这是联邦政府近七年来首😡次“停摆”。(央视新闻)返回搜狐,查看更多
推荐阅读
iPhone 17系列早期交货时间增加 大摩维持苹果(AAPL.US)“增持”评级
7298
消息称 OPPO 于 10 月 15 日发布 ColorOS 16
8259
DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI
7774
我国研发人员总量世界第一
9263
多个世界第一!“十四五”时期我国科技事业取得历史性成就
2812
科技部:我国研发人员总量世界第一
5626
“如果没有中国,美国将独霸AI”
5027
92款广东大模型“持证上岗”,备案数全国第二赋能千行百业
4354
科技部:全国新能源汽车产销量连续10年保持全球第一
3314
第四届琶洲算法大赛吸引30余国8100名选手参赛,赛事福利助力AI成果落地
1420
苹果承认iPhone17系列及 iPhone Air 存在相机漏洞,将尽快发布修复程序
3444
AI驱动安全能力升级 长亭科技斩获网安周双项冠军
6189
Claude 公司 CEO 示警称 AI 加速取代人类,近半白领岗位未来 5 年恐被淘汰
2043
消息称马云已“强势回归”,阿里巴巴暂无回应
2664
消息称iPhone 18 Pro及Max屏幕仍分别是6.3英寸、6.9英寸
1614
“数字+产业+场景”——重庆农商行的转型密码
2786
交个朋友发布半年报:新媒体服务营收6.19亿元,同比增长9.8%
1349
中国茶饮,“占领”华尔街
8538
17.98万起,唐DM-i智驾版 175KM长续航版上市
6426
小米发布REDMI 15R 5G手机:售价1099元起 搭载6000mAh电池
8379
GPT-4o复活!OpenAI如何应对用户对新模型的情感依赖
1454