Meta与UC Berkeley突破：AI实现人类式视频理解

吃瓜电子官网最新热点：Meta与UC Berkeley突破：AI实现人类式视频理解

更新时间：2025-11-13 14:04:07　浏览次数：8546

这项由meta FAIR和UC Berkeley联合进行的研😂究于2025年1月发表在arXiv预印本平台上，研究团队由J❤️athushan Rajasegaran、Ilija Rad😜osavovic等多位学者组成。有兴趣深入了解的读者可以通过🚀论文标题"An Empirical Study of Aut😡oregressive Pre-training from 😁Videos"在arXiv平台上找到完整论文。当我们😘看电视时，大脑会根据前面的画面预测接下来可能发生什么。如果一😜个人正在跑步，我们能预测他的下一个动作；如果一辆车正在转弯，😴我们能预测它的行驶轨迹。现在，研究人员想让人工智能也具备这种🤩能力，不仅能理解单张照片，还能像人类一样理解连续的视频画面。😴 这项研究的核心在于训练一个名为Toto的AI模型，让⭐它通过观看大量视频来学习预测下一个画面。就像教孩子看图说话一😴样，研究团队让Toto观看了超过十万小时的视频内容，包括日常🚀生活、运动、各种活动场景。通过这种训练，Toto不仅学会了识🙌别图像中的物体，还学会了理解动作、预测物体的运动轨迹，甚至能👏在复杂场景中持续跟踪特定目标。这种训练方式被称为"自😊回归预训练"，本质上就是让AI通过"看前面猜后面"的游戏来学😘习理解世界。研究团队发现，尽管这种方法看起来很简单，没有复杂❤️的规则和约束，但训练出的AI在各种视觉任务上都表现出色，包括🔥图像分类、视频理解、物体跟踪，甚至机器人操作。更有趣😉的是，研究人员发现AI学习视频的规律和人类学习语言的规律非常🤔相似。当我们增加更多的计算资源和训练数据时，AI的能力会按照😂一定规律持续提升，就像语言模型随着规模增大而变得更聪明一样。🙌不过，视频AI的提升速度比语言AI稍慢一些，这可能是因为视频😊信息比文字信息更加复杂和冗余。一、让AI学会"看前猜👏后"的训练秘诀要理解这项研究的核心方法，可以想象教一🔥个孩子看连环画的过程。当孩子看到前几幅画后，我们会遮住后面的🎉画面，让他猜测接下来会发生什么。Toto的训练过程本质上就是😂这样一个巨大规模的"看图猜后续"游戏。研究团队首先需😂要将视频转换成AI能够理解的"语言"。就像我们需要将复杂的想😜法转换成文字来表达一样，视频也需要被转换成数字符号。他们使用🤔了一种称为dVAE的技术，将每一帧视频画面转换成256个离散😆的"视觉单词"。这样，一个16帧的短视频片段就变成了4096🎉个"单词"组成的"句子"。展开全文在这种转换🤩下，一张256×256像素的图片被分解成16×16个小块，每🤯个小块用一个特定的数字代码表示。这个过程就像将一幅拼图分解成🙌小块，然后用数字给每个小块编号。通过这种方式，原本连续的视频😎画面变成了离散的数字序列，为后续的AI训练奠定了基础。 ❤️ Toto的核心架构采用了类似GPT语言模型的transfo👏rmer结构，但专门针对视频内容进行了优化。这种结构让AI能🎉够同时关注画面中的多个位置和时间点，就像人类看视频时能同时注🔥意到画面中不同区域的变化一样。研究团队构建了三个不同规模的模🙌型，参数量分别为1.2亿、2.8亿和11亿，就像训练三个不同💯"智力水平"的AI学生。训练数据的规模令人惊叹。研究😎团队收集了包括ImageNet图像数据集、Kinetics-😘600动作视频、Ego4D第一人称视频，以及HowTo100👏M教学视频在内的海量数据。这些数据总共包含超过十万小时的视频👍内容和约1万亿个视觉"单词"。相当于让AI观看了几千年的电视😜内容，涵盖了人类生活的方方面面。在训练过程中，每个批🎉次的数据按照特定比例混合：20%是静态图像，10%是第一人称💯生活视频，10%是动作识别视频，60%是教学类视频。这种搭配🚀就像给AI提供营养均衡的"视觉餐"，确保它能够学习到不同类型😊的视觉模式和规律。整个训练过程使用了AdamW优化器，学习率😂设置为0.0003，并采用余弦衰减策略逐渐降低学习率。 😘 二、从像素到智能：视觉信息的魔法转换将连续的视频画🎉面转换成AI能够理解的离散符号，这个过程充满了技术巧思。研究😜团队面临的第一个挑战是选择合适的"翻译器"，将丰富的视觉信息⭐转换成数字代码，同时尽可能保留重要信息。他们比较了三😂种主要的转换方法。第一种是dVAE方法，将每个图像块转换成8👏000个可能符号中的一个，就像用8000种不同的"积木块"来😀重建图像。第二种是VQGAN方法，提供了1000到16000👏种不同的选择。第三种是连续块标准化方法，不使用离散符号，而是😘保持连续的数值表示。实验结果显示，在相同分辨率下，d⭐VAE和VQGAN的表现相当，都能达到约61%的图像分类准确🤗率。然而，dVAE有一个重要优势：它的符号使用更加均匀。通过😉分析1-gram分布发现，dVAE几乎使用了所有8000个可🤔能的符号，而VQGAN只使用了不到50%的符号。这就像一个词💯汇丰富的作家使用了更多样化的词汇来表达思想，而不是反复使用同😁样的词语。分辨率选择也是一个关键考虑。更高分辨率意味😢着更多细节，但也意味着更多计算成本。研究发现，从低分辨率开始😉训练，然后微调到高分辨率，这种策略不仅节省了计算资源，还获得😘了更好的最终性能。128×128分辨率训练后微调到256×2😍56分辨率的模型，表现甚至超过了直接用256×256分辨率训😴练的模型。这种现象的原因在于RoPE位置编码的使用。🤯RoPE允许模型在训练后适应更长的序列，就像一个学会了短篇写🙌作的作者可以逐步适应长篇创作。当研究团队调整RoPE的基值参👍数从10000到50000时，模型对高分辨率的适应能力进一步😅提升。在架构选择方面，研究团队比较了三种不同的模型结🎉构。LLaMA架构表现最佳，达到53.2%的准确率，而传统的❤️GPT2架构只有48.5%，新兴的Mamba架构为40.7%😀。这说明LLaMA的设计更适合视觉信息的处理，可能因为它使用😅了RMSNorm标准化、SwiGLU激活函数和RoPE位置编😘码等先进技术。三、解码AI的"视觉大脑"：不同层级的🤔智能表现当我们深入研究Toto模型的内部工作机制时，😂发现了一个有趣的现象：就像人脑的不同区域负责不同功能一样，A🤗I模型的不同层次也展现出不同的能力特征。这个发现对理解AI如😢何处理视觉信息具有重要意义。在对模型不同层次的探测中🙌，研究团队发现了一个令人惊讶的规律。与传统的编码器-解码器结🔥构不同，这种纯解码器模型的最佳表现出现在大约50%的深度位置😡。换句话说，既不是最浅层，也不是最深层，而是中间层提供了最好😴的视觉理解能力。这种现象可以用一个生动的比喻来理解。😀如果把AI模型比作一个复杂的视觉处理工厂，那么前半部分就像工😎厂的原料处理车间，负责将原始的视觉信息逐步提炼和抽象，形成越😡来越高级的特征表示。而后半部分则像产品组装车间，将这些抽象特😡征重新组合，生成最终的预测结果。这种结构特征在不同任😁务上表现一致。无论是图像分类、动作识别还是物体跟踪，所有模型😉规模都显示出相同的规律：中间层表现最优。但有一个例外值得注意😍，那就是机器人操作任务。在这类任务中，除了中间层表现良好外，🚀最后几层也显示出不错的性能。这个例外现象揭示了一个深😜刻的道理。机器人操作本质上是一个生成性任务，需要模型根据当前🥳观察生成具体的动作指令。因此，那些专门训练来生成下一个视觉符😜号的后期层次，恰好也适合生成动作指令。这就像一个既会画画又会🎉写字的艺术家，他用来创作文字的技能也能帮助他更好地创作绘画作🤯品。为了充分利用这些中间层的表示能力，研究团队采用了😎注意力池化技术，而不是简单的平均池化。原因在于，在自回归模型😢中，序列中较晚位置的符号能够"看到"更多前面的信息，就像站在🚀山顶的人比站在山腰的人看得更远一样。注意力池化允许模型动态地😘给予这些"视野更广"的位置更多权重。实验证明，注意力🥳池化比平均池化的效果好7.9个百分点，这个提升相当可观。这种😡方法学习两个权重矩阵和一个查询向量，通过交叉注意力机制将所有🌟位置的信息整合成单一的表示向量。虽然这增加了一些计算成本，但😆显著提升了下游任务的性能。四、从理论到实践：全面验证💯AI的视觉理解能力研究团队设计了一系列全面的测试来验🌟证Toto模型的实际能力，这些测试覆盖了从基础图像识别到复杂👏视频理解的各个方面。每个测试都像是给AI学生出的不同类型的"🤩期末考试"，检验它在不同领域的学习成果。在图像识别这👍个最基础的测试中，Toto在ImageNet数据集上的表现令😎人瞩目。基础版本达到64.7%的准确率，大型版本提升到71.😢1%，而10亿参数的版本更是达到了75.3%。虽然这个成绩还😆无法与专门设计用于判别任务的模型相比（比如DINO的80.1😆%），但在生成式模型中已经是相当优秀的表现。更重要的😜是，当我们将Toto与同样采用自回归方式训练的iGPT模型对👍比时，优势就很明显了。在相似的10亿参数规模下，Toto达到🤩75.3%的准确率，而iGPT-XL只有72%。这个4个百分🤗点的提升证明了Toto在模型设计和训练策略上的优势。特别值得🙄一提的是，Toto用1.1万亿视觉符号的训练数据就达到了与i⭐GPT用更多数据训练的相当性能。在视频理解方面，To🤩to展现出了更加令人印象深刻的能力。在Kinetics-40😀0动作识别数据集上，基础版本达到59.3%，大型版本提升到6😎5.3%，10亿参数版本更是达到74.4%。这个成绩已经接近⭐专门设计的视频理解模型，比如VideoMAE的79.8%。考😢虑到Toto是一个通用模型，这个表现相当不错。视频预🤗测任务更能体现Toto对时间序列的理解能力。在Ego4D短期🤯动作预测任务中，模型需要观看一个人的动作，然后预测他接下来可🙄能与什么物体交互、进行什么操作，以及这个交互何时发生。Tot😁o-large模型在这个任务上达到2.70的平均精度，超过了🤗专门设计的StillFast模型的2.48分。物体跟🤯踪是另一个重要的测试项目。在这个任务中，模型需要在视频序列中😜持续跟踪特定目标，即使目标被其他物体遮挡或部分消失也要保持跟🔥踪。Toto在DAVIS数据集上的表现相当出色，特别是在51🙄2×512高分辨率下达到62.4的J&F分数，超过了DINO😜等专门模型。最令人兴奋的可能是机器人应用测试。研究团🤔队在模拟环境中测试了四个不同的机器人操作任务：Franka机🤔械臂抓取、Kuka机械臂抓取、Franka机械臂开柜门和Ku🌟ka机械臂开柜门。在所有四个任务中，使用Toto预训练特征的🎉机器人都比使用传统MAE预训练特征的机器人学习得更快，达到目😀标性能所需的训练步数更少。真实世界的机器人测试更加严😊格。研究团队使用7自由度Franka机械臂进行立方体抓取任务😊，Toto-base模型达到了63%的成功率，虽然略低于专门👏为机器人设计的MVP模型的75%，但考虑到Toto并非专门为🔥机器人应用设计，这个成绩已经相当不错。五、意想不到的🥳发现：AI也有"物体永恒性"概念在所有测试中，最有趣🤩的发现之一是Toto在物体永恒性理解方面的能力。物体永恒性是😁心理学中的一个重要概念，指的是即使物体暂时从视野中消失，我们⭐也知道它仍然存在。这是人类智力发展的一个重要里程碑，通常在婴🙄儿8-12个月时开始显现。研究团队使用CATER数据😍集来测试这种能力。在这个任务中，一个小球在场景中移动，但会被🙄其他物体遮挡或隐藏。模型需要在看不到球的情况下，推测球的最终💯位置。这就像玩杯中球游戏，需要在杯子不断移动的过程中记住球在😍哪个杯子下面。 Toto-large模型在这个任务上表😢现出色，在16帧测试中达到62.8%的准确率，在32帧测试中❤️达到72.9%的准确率。这个成绩超过了专门设计用于这类任务的😴V3D和TFC-V3D模型。更有趣的是，更长的视频序列（32🤯帧vs16帧）带来了更好的性能，说明模型确实学会了利用时间信🤯息来推理被遮挡物体的位置。这种能力的出现是自然涌现的🚀结果，并非研究团队特意设计。Toto通过观看大量视频自然学会🚀了物体在空间中的连续性概念，理解了即使暂时看不到物体，它们依😁然遵循物理定律继续存在和移动。这种理解对于真实世界的应用至关😂重要，比如自动驾驶汽车需要记住被其他车辆暂时遮挡的行人位置。😁 除了基本的物体永恒性，Toto还展现出了更复杂的时空🤗推理能力。在处理视频时，模型学会了预测物体的运动轨迹，理解不😴同物体之间的交互关系，甚至能够推断出某些因果关系。这些能力都🔥不是通过明确的规则编程实现的，而是通过大量观看视频数据自然涌😜现的。六、规模的力量：视觉AI的成长规律就像😜生物学家发现动物的大脑大小与智力水平之间存在某种关系一样，研😢究团队发现了AI模型规模与性能之间的数学关系。这种关系被称为😘"缩放定律"，它揭示了增加计算资源和模型参数如何转化为性能提😅升。通过训练六个不同规模的模型（参数量从1480万到🥳19亿），研究团队发现Toto遵循着明确的幂律关系：L(C)🤗 = 7.32 × C^(-0.0378)。这个公式告诉我们⭐，当计算资源增加时，模型的损失（可以理解为"错误率"）会按照🚀特定比例下降。简单来说，投入更多计算资源确实能够带来更好的性🤗能，而且这种提升是可预测的。有趣的是，这个缩放规律与😂大型语言模型的缩放规律既相似又不同。GPT-3的缩放公式是L🤩(C) = 2.57 × C^(-0.048)，指数部分-0🌟.048比Toto的-0.0378更大，意味着语言模型对计算🙄资源的利用效率更高。换句话说，同样增加一倍的计算资源，语言模👍型的性能提升会比视觉模型更明显。这种差异可能源于视频🤯数据的特殊性质。视频帧之间存在大量冗余信息，相邻帧往往非常相🤗似，这使得"预测下一帧"这个任务比"预测下一个词"相对容易一😴些。研究团队通过分析发现，在16帧视频序列中，第一帧的预测损😅失最高，后续帧的预测损失逐渐降低并趋于稳定。这说明模型很快学😴会了利用时间冗余来简化预测任务。尽管视觉模型的缩放效😜率略低于语言模型，但这种可预测的缩放关系依然具有重要价值。它😜为研究团队和工程师提供了明确的指导：如果想要达到特定的性能目❤️标，需要投入多少计算资源；如果预算有限，能够期望达到什么样的⭐性能水平。为了找到最优的缩放策略，研究团队使用了μ参😜数化技术。这种技术确保了不同规模的模型都能使用相同的学习率（😍2^(-7) = 0.0078125），简化了训练过程。通过😅系统性的实验，他们证明了线性增加模型宽度和深度是一种有效的缩🌟放策略。七、突破与局限：诚实面对研究的边界每😀项研究都有其光辉的成就和诚实的局限，这项工作也不例外。在取得❤️令人瞩目成果的同时，研究团队也坦诚地指出了当前方法的不足之处⭐和未来需要改进的方向。最明显的局限来自于训练数据的质🔥量。由于使用了大量来自互联网的视频数据，不可避免地包含了质量😂参差不齐的内容。与精心策划的数据集相比，这种"野生"数据包含😢噪声、模糊片段、甚至错误标注的内容。这种数据质量的不一致性会🎉影响模型的最终性能，特别是在需要精确理解的任务中。另😁一个重要局限是对分词器的依赖。目前的方法需要先将连续的视频画🚀面转换成离散的符号，然后再进行训练。这种转换过程不可避免地会😎丢失一些信息，就像将高清照片压缩成低分辨率图像一样。更关键的❤️是，模型的表现上限受到分词器质量的制约。即使后续的AI学习过⭐程再完美，也无法超越分词器本身的信息提取能力。视频数😊据的冗余性也带来了挑战。相邻视频帧之间的高度相似性虽然降低了😆预测难度，但也可能阻碍模型学习更深层的时间模式。模型可能过度😴依赖简单的时间插值，而没有真正理解复杂的动态过程。这就像一个😴学生通过记忆相似题目的答案来应付考试，而没有真正掌握解题的原❤️理。在任务覆盖范围方面，当前的评估主要集中在分类、识🙌别和跟踪等相对基础的任务上。对于更复杂的密集预测任务（如语义🙄分割、深度估计）、细粒度识别（如区分不同品种的鸟类），以及长😘时间跨度的时间理解，模型的能力还没有得到充分验证。研😆究团队的设计选择评估也主要基于ImageNet分类任务的表现😡。虽然这个任务具有一定代表性，但可能不是所有应用场景的最优配😊置。不同任务可能需要不同的架构设计、训练策略和数据配比，这些😆都需要进一步的研究和优化。八、未来展望：视觉AI的无🔥限可能尽管存在这些局限，这项研究为视觉AI的发展开辟😂了一条充满希望的道路。它证明了简单的"看前猜后"策略能够让A👏I获得丰富的视觉理解能力，为构建更加通用的视觉智能系统提供了🔥重要启发。从技术发展角度来看，这项工作最重要的贡献是😎证明了视觉领域也存在类似语言模型的缩放规律。这意味着随着计算😡能力的提升和数据规模的扩大，视觉AI的能力将继续按照可预测的😊方式增长。这为未来的研究投资和技术规划提供了科学依据。 😴 在实际应用方面，Toto展现出的多任务能力特别有价值。一个❤️模型能够同时处理图像分类、视频理解、物体跟踪和机器人控制等不😴同任务，这大大降低了系统的复杂性和维护成本。未来，我们可能看😅到更多基于这种通用视觉模型的应用，从智能监控到自动驾驶，从医❤️疗影像分析到增强现实。对于机器人领域来说，这项研究特🌟别具有启发意义。传统的机器人视觉系统往往需要针对特定任务进行🤯精心设计和调优，而Toto展现的通用视觉能力可能让机器人更容🙄易适应新环境和新任务。一个经过大规模视频预训练的机器人可能只💯需要少量特定任务的训练就能胜任复杂的操作。在创意应用😢方面，具备时间理解能力的AI模型开辟了全新的可能性。从自动视😘频编辑、智能内容推荐，到沉浸式虚拟现实体验，这些应用都需要A⭐I深刻理解视频内容的时空结构。Toto在这些方向上展现的潜力😉令人期待。说到底，这项研究最重要的价值在于它的哲学启🌟示：智能不一定需要复杂的规则和精巧的设计，有时候最简单的学习🙌原理就能产生最强大的能力。就像人类婴儿通过观察世界就能自然发😘展出丰富的认知能力一样，AI也能通过"观看"大量视频数据自然🤗涌现出各种智能行为。这种发现让我们对构建真正通用的人工智能系👏统更加乐观。当然，距离创建能够像人类一样理解和互动世🤔界的AI系统，我们还有很长的路要走。但这项研究无疑是朝着正确👍方向迈出的重要一步。它不仅推动了技术边界，更重要的是为整个领😁域提供了新的思考框架和研究范式。在AI快速发展的今天，这样的🙌基础性探索具有不可估量的价值。有兴趣深入了解技术细节😉的读者可以通过搜索"An Empirical Study o👍f Autoregressive Pre-training 🤯from Videos"在学术平台上找到完整论文，其中包含了🤔详细的实验设计、数学推导和补充分析。 Q&A Q🤔1：Toto模型是如何学习理解视频的？ A：Toto采😎用"看前猜后"的训练方式，就像教孩子看连环画一样。它观看了超😉过十万小时的各种视频内容，包括日常生活、运动场景等，通过不断🤔预测下一个画面来学习理解视觉世界的规律。这种方法被称为自回归🚀预训练，让AI自然获得了图像识别、动作理解和物体跟踪等多种能😀力。 Q2：为什么视觉AI的缩放效率比语言模型低？ 😀 A：主要因为视频数据的冗余性更高。相邻的视频帧往往非常相🥳似，这使得"预测下一帧"比"预测下一个词"相对容易一些。研究🙄发现第一帧预测最难，后续帧预测逐渐变容易，说明模型很快学会利💯用时间冗余。因此同样增加计算资源，视觉模型的性能提升没有语言❤️模型那么明显。 Q3：Toto在实际应用中表现如何？ 🎉 A：Toto在多个任务中都表现出色。在图像分类上达到7🤩5.3%准确率，在视频理解任务中达到74.4%，在物体跟踪和😉机器人操作中也超越了多个专门模型。特别值得一提的是，它展现出❤️了"物体永恒性"理解能力，能够跟踪被遮挡的物体，这种能力是通🌟过观看视频自然涌现的，并非特意设计。返回搜狐，查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

文 | 道总有理文 | 道总有理 9月末，大连🤗万达集团及法人王健林被兰州市中级人民法院采取限制高消费措施，😡限高涉及执行标的1.86亿元。从昔日“中国首富”到无法乘坐飞❤️机头等舱、入住星级酒店，巨大的身份反差让这一消息震动社交平台😊。很快，情况发生反转，9月29日，王健林“限高”措施😁已取消。有媒体报道本次事件是万达下属项目公司经济纠纷，或因在😍执行层面信息不对称导致。但这已并非万达首次陷入执行纠😜纷。 9月初，北京金融法院已新增一则对万达的执行信息，🥳标的超4亿元。截至目前，万达累计被执行总金额已突破52亿元，😁同时背负94亿元股权冻结，其中上海万达网络金融与小额贷款两家👍公司的冻结股权占比超九成。细究这几年的万达发展，诸如💯此类风波数不胜数，有些甚至早已埋下了伏笔，更有意思的是，王健😊林与万达的生存命题，似乎也成了中国一代民营企业管理者必须面对😜的时代课题。从「强势崛起」到「大势已去」 19😡88年，中国成立房地产公司需要100万元注册资金，王健林就借💯了100万。据他自己说，借款必须找人担保，担保人拿走😘50万元，实际上只拿到50 万元，而且借100 万元给他的人😊，要求他5年还款，每年25%的回报。看起来条件非常苛刻，但彼🌟时王健林骨子里的风险精神就开始显露。他拿着借来的钱在😍大连西岗区创立了一家房地产公司。当时，中国市场经济浪😍潮涌得热烈，到1992年，这家公司已经占据大连房地产市场20🔥%的份额，年销售额达到20亿，也是这一年，王健林掏出2000😅块重金登报征名，最终，从满纸投稿里挑出的“万达”二字，寓意万😍事顺遂、通达四方。王健林不止一次在公开场合把万达的成🤩长分为四步。第一步在1993年，他带着团队南下广州，🙌 那时候，民营企业到外地发展困难重重。王健林就去找广州😉当地企业谈，最后跟广州华侨房地产公司谈好，一年交200 万元🔥，注册了一个分公司，也正是从广州开始，万达逐渐从一个区域公司🙌变成全国性公司。第二步在2000年，进军商业地产。 😡 2000年前，万达主要做住宅开发，之所以要转型，王健林🎉在哈佛大学演讲时提到，是因为当时民营企业的医疗保险体系尚未完🤯善，公司有两个老员工，一个得了癌症，一个得了肝病，这件事促使😆他想要更多现金来保障员工福利。住宅房地产开发的现金流😡不稳定。为了寻求稳定的现金流，万达做过制造业、制药厂😀，还做过超市，外贸等等，到2000年，决定把不动产作为企业的🤯支柱产业，2004年，王健林提出“城市综合体”的概念，把商场😎、酒店、写字楼、公寓都整合在一起。展开全文从😊那年开始，万达开启了属于自己的时代，最风光的时候，地方排队与😍万达合作，甚至在上海，万达都以超低价拿下了五角场的场块。同时👏，万达广场飞速扩张，唐山万达广场110万平米，石家庄万达广场😆更是达到183万平米。第三步在2006年，因为万达购🤗物中心需要配电影院，王健林开始琢磨文化产业。他投资了😎万达乐园，扬言要让上海迪士尼二十年无法盈利。最初万达跟美国时😜代华纳院线合作，但由于两方面原因，双方没能合作下去，万达先后🤩和上海、江苏、广东、北京等地的广电集团谈合作。第四步🔥在2015年前后，万达大举进军海外。彼时，万达宣布了🥳十年战略规划，计划十年内成为世界一流的跨国企业。2014年到😉2016年，万达投资了16个海外项目，买下位于马德里市中心的😉西班牙大厦，以9.21亿英镑吞下了欧洲第一大院线，买下美国传👍奇影业。那几年，万达风光无限，综合过往年度报告，20😀09年，万达员工总人数近两万人，2015年达到十三万人，等到😢2016年，万达的总资产已经逼近8000亿元，营业收入达到2🤗550亿元，王健林连续三年成为中国的首富。在他看来，😎万达“去地产化”目标终于实现。 2017年，万达在全国😁已经有近200个商业项目，也正是在当年，万达急转直下。2月份😎，万达的海外收购之路受挫，6月份，遇上“股债双杀”，7月份，😢万达在海外的六个项目被严格管控。 2018年1月，万达🙌集团2017年年会在哈尔滨召开，会上称2017年是万达集团历🙄史上难忘的一年，万达商业不得已转让文旅项目、酒店资产，曾经让🤯首富引以为傲的四步棋，终于沦为“弃子”。 2017年，🎉王健林以438亿的价格，把13个文旅项目卖给了融创，又把77🎉家酒店以199亿卖给了富力，2019年，万达影视被儒意影业收😉购，2020年，百年人寿卖给了绿城，百货业务卖给了苏宁。 👍 到了2023年，万达大规模出售购物广场，三十多座万达广场🙌易主。2024年，北京CBD的总部大楼卖给了新华保险和中金资😴本，万达商管的控制权交给了太盟投资集团；截至2025年9月，🤗万达广场已累计出售85个。或许，浪潮从不会永远朝着一🥳个方向奔涌，后来的每一次出售，也都是王健林在时代洪流下的无奈🎉抉择。当万达广场的灯光熄灭在夜色里，不只是一个企业的起落，更❤️是一个时代里，野心与命运、辉煌与落寞交织的篇章。冲动😆退市「误终身」绝大部分人起底王健林会把他与万达的不幸😴归咎于2016年的私有化退市上。早在2014年，万达😉商业成功在港股上市，2015年，万达商业的股价最高涨到了76🥳港元，但好景不长，很快就跌破发行价，跌到30港元左右。此时的😉王健林对港股的低估很是失望，一口气以52.8港元的价格，回购👏了万达商业所有H股股票。私有化退市后，引发了一系列连😊锁反应，包括A股IPO受阻；转战港股再受挫；对赌协议引爆危机😁；索债方生出多米诺骨牌效应；资产大规模出售……一连串的危机叠💯加在一起，最终导致了王健林如今的局面。至于王健林为什💯么选择私有化退市，除了对港股估值的不满，其过于自信的行事作风🥳也一度被视为另一个主因。纵观这位首富先生的前半生，一个“赌”😂字基本可以概括，他本人也曾说过：“没有人永远赢得所有赌局，但🎉永远有人愿意赌。” 但在这两大因素之外，万达本身的发展🔥其实才是王健林选择私有化退市的关键。 2015年，万达🌟商业收入1242亿元，比2014年增长15.14%；归属于母🤩公司股东净利润299.7亿元，同比增长20.66%。看起来很🤔亮眼，但细究起来风险不少。据悉，万达商业虽有三大业务，但主营🤩收是物业销售板块。当年，物业销售为万达商业贡献了82❤️.5%的收入，总合同销售额约为人民币1640亿元。但🔥这一成绩与万达本身的关系不大，更多是得益于地产行业回暖，20😜15年，《中国房地产企业销售TOP100排行榜》显示，201👍4年万达商业销售金额1501亿元人民币排名第三， 2015年🙄销售金额1512.6亿元人民币，位列第四。换句话说，😉在地产行业发达的一年，万达排名不进反退。其次，201🙌5年万达商业业绩公告显示，其物业存货出现15%的增长，酒店业😀务净利润为亏损6.02亿元人民币；万达商业物业租赁出租率从2😆014年的99.32%下滑到2015年的96.37%，同期，🙌太古地产、中粮地产2015年的出租率都维持在99%左右。 🚀 或许，港股对万达商业的估值未必失了公允。另外，商😆业地产是“吞金兽”，万达商业的负债率一直居高不下，尤其是20❤️13年，万达商业的资产负债率接近90%，2015年报显示，万🙌达商业的净负债率为61.05%，较2014年底的56.68%🤩上升了4.37个百分点。对比之下，同行的净负债率维持👍在40%左右，华润置地甚至已降到23%。这时候，王健❤️林发现发债券比在股市融资划算。2015年8月28日，万达商业❤️首次五年期（3+2）50亿元公司债成功发行，票面利率4.09👏%，2015年10月15日、2016年1月12日，万达商业两🔥次发行五年期、额度为50亿元的公司债券，票面利率分别为3.9😂3%和3.20%。当然，万达商业退市不是不想上市，是🤯想换个地方上市，然而，后续的一切已不需要赘述。十年前⭐，王健林手握292座万达广场、1300家影院、13家文旅城、😊80家五星级酒店、150亿美元海外投资，以2200亿身家登上👍胡润百富榜首富。2025年，《2025新财富500创富榜》上🙄，王健林父子的财富为588.1亿元。时至今日，曾经叱😂咤风云的首富跌进谷底。再路过那些换了主人的万达广场，😉还会有很多人想起王健林在商海上挥斥方遒的模样，只是这一次，赌🚀桌早已散场，筹码尽失，资本市场从不同情“赌徒”，一旦行差踏错😊，都有可能满盘皆输，在时代的风里，满是繁华落尽的唏嘘。 😁 首富翻盘，也要靠「下沉市场」了十年光阴，曾经的商业🤗帝国一点点瓦解，王健林卖了半副身家，手中的资产版图大幅收缩。🎉那么，险些被限高的“首富”还剩什么？不完全统计显示，👍截至目前，万达集团对外投资仍处于存续状态的企业为24家，持股😎超过50%的为15家；王健林所控制的企业有76家处于存续期间😎，对外投资的11家企业中则仅有6家显示为存续状态。值😉得注意的是，万达集团及王健林所拥有的资产包括大连新达盟40%⭐股权、约200座万达广场，以及万达体育、万达宝贝王等。这大概👏是王健林能否在70岁高龄再逆袭的重要筹码，尤其是幸存的万达广🎉场。从这些广场的分布来看，王健林远没有认输，因为他卖👏掉的与留下的都藏着他对未来的渴望。比如，王健林正加速出手一二🚀线城市的万达广场，2025年5月6日，王健林500亿元出售4😜8座万达广场，这其中覆盖多城首发项目及一二线城市元老级项目。😍 结合赢商大数据最新《2024中国城市商业力》分析显示😅，商业一线和准一线城市项目占比高达33%，北京、上海、广州、👍成都、重庆等重要城市均有涉及；商业二线城市项目占27%。 😜 相反的，遍布全国县城的万达广场却很少被列入出售名单。 🤔 理由很简单，因为下沉市场的万达广场展现出了强劲的消费活力😡。 2023年12月，四川宜宾下辖县级市宜昌万达广场开🌟业，开业3天累计客流近40万，销售额超千万；2024年1月，😎重庆忠县万达广场开业首日，共接待消费者23.6万人次，销售额😎突破750万元，创下行业多个第一。投资与运营成本上，💯县城万达广场也有超高性价比。以湖北宜都万达广场为例，😴其总建筑面积约12万平方米，总投资约8亿元，而一线城市同等规😎模项目投资额往往超过20亿元。在运营成本上，县城万达广场的租😴金、人力成本较一二线城市低30%-50%，宜都万达广场租金回😴报率达6.8%，高于一线城市平均5.2%的水平。同时👏，县城万达广场在资源获取上优于一二线城市项目。以重庆😆忠县为例，当地为万达广场提供了土地出让金返还、税收优惠等政策⭐支持，并协调开通了直达广场的公交线路。在万达面临流动性压力的😀背景下，县城万达广场的现金流价值凸显，湖北宜都万达广场年租金🤗收入约8000万元。公开数据显示，截至2024年底，🙄全国513座万达广场中，三四线城市占比超过60%，同时，轻资👏产占比超40％。这也是王健林为自己留的后路，在一些出售的万达😡广场里，万达仍然保留运营管理权。轻资产模式对万达而言🤗，是退而求其次的生存法则。总的来说，王健林的万达广场😁分布已从全国扩张转向“五环外留守”，三四线城市与整个下沉地区🤔成为最后的生存空间。尽管通过轻资产化和业态调整，暂时维持了运😂营，但债务危机、消费疲软和竞争加剧，无疑又构成了一重新的枷锁🤗。王健林还有机会翻身吗？未来几年，这些幸存的🤯万达广场能否在县域市场续写“一个广场改变一座城”的神话，还是😉未知数。若无法实现重新上市或引入战略投资者，这些广场可能进一😘步被出售或抵押，届时，王健林的商业版图或将彻底重构。返回搜狐🙄，查看更多

还没有人评论过，快来抢首评

抢首评

Meta与UC Berkeley突破：AI实现人类式视频理解

吃瓜电子官网最新热点：Meta与UC Berkeley突破：AI实现人类式视频理解

推荐阅读

王沪宁主持召开全国政协主席会议

华夏基金迎新任董事长邹迎光，李一梅为副董事长

普京签署总统令，缩短俄联邦财产私有化程序

董事长变更不到半年，东海基金又见副总辞职

2025年全国城市联合招聘高校毕业生秋季专场推出172场特色服务活动

多氟多：公司储能电池已稳定供货于国内外客户，现阶段储能订单饱满

中国证监会、财政部就《证券期货违法行为吹哨人奖励工作规定（征求意见稿）》公开征求意见

浙文互联：两名股东拟合计减持不超3%公司股份

德邦股份：副董事长陈岩磊辞职

全国农渔循环种养高质量发展推进会在四川泸州召开

东风股份：获得政府补助5800万元

中方关于联大第2758号决议的立场文件

白银有色：收到甘肃证监局行政监管措施决定书

新诺威：筹划发行H股股票并在香港联交所上市

中国石油：聘任任立新为总裁

法拉第未来宣布完成对QLGN的战略投资

生态环境部就《2024、2025年度全国碳排放权交易市场钢铁、水泥、铝冶炼行业配额总量和分配方案（征求意见稿）》公开征求意见

巴基斯坦西南部爆炸袭击致至少10人死亡

均胜电子港股上市申请获中国证监会备案

三一重工港股上市申请获中国证监会备案

东方财富：股东陆丽丽、沈友根拟询价转让1.5%股份

Meta与UC Berkeley突破：AI实现人类式视频理解

吃瓜电子官网最新热点：Meta与UC Berkeley突破：AI实现人类式视频理解

长按复制以下链接，粘贴给好友吧！

王沪宁主持召开全国政协主席会议

华夏基金迎新任董事长邹迎光，李一梅为副董事长

普京签署总统令，缩短俄联邦财产私有化程序

董事长变更不到半年，东海基金又见副总辞职

2025年全国城市联合招聘高校毕业生秋季专场推出172场特色服务活动

多氟多：公司储能电池已稳定供货于国内外客户，现阶段储能订单饱满

中国证监会、财政部就《证券期货违法行为吹哨人奖励工作规定（征求意见稿）》公开征求意见

浙文互联：两名股东拟合计减持不超3%公司股份

德邦股份：副董事长陈岩磊辞职

全国农渔循环种养高质量发展推进会在四川泸州召开

东风股份：获得政府补助5800万元

中方关于联大第2758号决议的立场文件

白银有色：收到甘肃证监局行政监管措施决定书

新诺威：筹划发行H股股票并在香港联交所上市

中国石油：聘任任立新为总裁

法拉第未来宣布完成对QLGN的战略投资

生态环境部就《2024、2025年度全国碳排放权交易市场钢铁、水泥、铝冶炼行业配额总量和分配方案（征求意见稿）》公开征求意见

巴基斯坦西南部爆炸袭击致至少10人死亡

均胜电子港股上市申请获中国证监会备案

三一重工港股上市申请获中国证监会备案

东方财富：股东陆丽丽、沈友根拟询价转让1.5%股份