Meta与UC Berkeley突破：AI实现人类式视频理解

吃瓜电子官网最新热点：Meta与UC Berkeley突破：AI实现人类式视频理解

更新时间：2025-11-17 00:44:49　浏览次数：2881

这项由meta FAIR和UC Berkeley联合进行的研🔥究于2025年1月发表在arXiv预印本平台上，研究团队由J😍athushan Rajasegaran、Ilija Rad😎osavovic等多位学者组成。有兴趣深入了解的读者可以通过👍论文标题"An Empirical Study of Aut😆oregressive Pre-training from 🎉Videos"在arXiv平台上找到完整论文。当我们⭐看电视时，大脑会根据前面的画面预测接下来可能发生什么。如果一🔥个人正在跑步，我们能预测他的下一个动作；如果一辆车正在转弯，😂我们能预测它的行驶轨迹。现在，研究人员想让人工智能也具备这种😎能力，不仅能理解单张照片，还能像人类一样理解连续的视频画面。🎉 这项研究的核心在于训练一个名为Toto的AI模型，让💯它通过观看大量视频来学习预测下一个画面。就像教孩子看图说话一🌟样，研究团队让Toto观看了超过十万小时的视频内容，包括日常😀生活、运动、各种活动场景。通过这种训练，Toto不仅学会了识😀别图像中的物体，还学会了理解动作、预测物体的运动轨迹，甚至能🎉在复杂场景中持续跟踪特定目标。这种训练方式被称为"自😢回归预训练"，本质上就是让AI通过"看前面猜后面"的游戏来学🙌习理解世界。研究团队发现，尽管这种方法看起来很简单，没有复杂😜的规则和约束，但训练出的AI在各种视觉任务上都表现出色，包括😘图像分类、视频理解、物体跟踪，甚至机器人操作。更有趣🌟的是，研究人员发现AI学习视频的规律和人类学习语言的规律非常👍相似。当我们增加更多的计算资源和训练数据时，AI的能力会按照😆一定规律持续提升，就像语言模型随着规模增大而变得更聪明一样。😆不过，视频AI的提升速度比语言AI稍慢一些，这可能是因为视频💯信息比文字信息更加复杂和冗余。一、让AI学会"看前猜🤔后"的训练秘诀要理解这项研究的核心方法，可以想象教一🤯个孩子看连环画的过程。当孩子看到前几幅画后，我们会遮住后面的🤔画面，让他猜测接下来会发生什么。Toto的训练过程本质上就是😘这样一个巨大规模的"看图猜后续"游戏。研究团队首先需🙌要将视频转换成AI能够理解的"语言"。就像我们需要将复杂的想😀法转换成文字来表达一样，视频也需要被转换成数字符号。他们使用👍了一种称为dVAE的技术，将每一帧视频画面转换成256个离散😁的"视觉单词"。这样，一个16帧的短视频片段就变成了4096🤩个"单词"组成的"句子"。展开全文在这种转换❤️下，一张256×256像素的图片被分解成16×16个小块，每👏个小块用一个特定的数字代码表示。这个过程就像将一幅拼图分解成😎小块，然后用数字给每个小块编号。通过这种方式，原本连续的视频💯画面变成了离散的数字序列，为后续的AI训练奠定了基础。 😁 Toto的核心架构采用了类似GPT语言模型的transfo😀rmer结构，但专门针对视频内容进行了优化。这种结构让AI能🙌够同时关注画面中的多个位置和时间点，就像人类看视频时能同时注🤔意到画面中不同区域的变化一样。研究团队构建了三个不同规模的模😆型，参数量分别为1.2亿、2.8亿和11亿，就像训练三个不同😜"智力水平"的AI学生。训练数据的规模令人惊叹。研究😍团队收集了包括ImageNet图像数据集、Kinetics-🌟600动作视频、Ego4D第一人称视频，以及HowTo100🌟M教学视频在内的海量数据。这些数据总共包含超过十万小时的视频🚀内容和约1万亿个视觉"单词"。相当于让AI观看了几千年的电视🙄内容，涵盖了人类生活的方方面面。在训练过程中，每个批😍次的数据按照特定比例混合：20%是静态图像，10%是第一人称😊生活视频，10%是动作识别视频，60%是教学类视频。这种搭配😎就像给AI提供营养均衡的"视觉餐"，确保它能够学习到不同类型😡的视觉模式和规律。整个训练过程使用了AdamW优化器，学习率🤯设置为0.0003，并采用余弦衰减策略逐渐降低学习率。 😆 二、从像素到智能：视觉信息的魔法转换将连续的视频画🤔面转换成AI能够理解的离散符号，这个过程充满了技术巧思。研究😘团队面临的第一个挑战是选择合适的"翻译器"，将丰富的视觉信息🥳转换成数字代码，同时尽可能保留重要信息。他们比较了三🚀种主要的转换方法。第一种是dVAE方法，将每个图像块转换成8💯000个可能符号中的一个，就像用8000种不同的"积木块"来😅重建图像。第二种是VQGAN方法，提供了1000到16000😢种不同的选择。第三种是连续块标准化方法，不使用离散符号，而是😘保持连续的数值表示。实验结果显示，在相同分辨率下，d❤️VAE和VQGAN的表现相当，都能达到约61%的图像分类准确🤗率。然而，dVAE有一个重要优势：它的符号使用更加均匀。通过👏分析1-gram分布发现，dVAE几乎使用了所有8000个可🤯能的符号，而VQGAN只使用了不到50%的符号。这就像一个词👍汇丰富的作家使用了更多样化的词汇来表达思想，而不是反复使用同😉样的词语。分辨率选择也是一个关键考虑。更高分辨率意味⭐着更多细节，但也意味着更多计算成本。研究发现，从低分辨率开始❤️训练，然后微调到高分辨率，这种策略不仅节省了计算资源，还获得🥳了更好的最终性能。128×128分辨率训练后微调到256×2😢56分辨率的模型，表现甚至超过了直接用256×256分辨率训😍练的模型。这种现象的原因在于RoPE位置编码的使用。😅RoPE允许模型在训练后适应更长的序列，就像一个学会了短篇写🤔作的作者可以逐步适应长篇创作。当研究团队调整RoPE的基值参🤔数从10000到50000时，模型对高分辨率的适应能力进一步😘提升。在架构选择方面，研究团队比较了三种不同的模型结🤔构。LLaMA架构表现最佳，达到53.2%的准确率，而传统的👏GPT2架构只有48.5%，新兴的Mamba架构为40.7%🙌。这说明LLaMA的设计更适合视觉信息的处理，可能因为它使用🔥了RMSNorm标准化、SwiGLU激活函数和RoPE位置编😎码等先进技术。三、解码AI的"视觉大脑"：不同层级的😢智能表现当我们深入研究Toto模型的内部工作机制时，🤯发现了一个有趣的现象：就像人脑的不同区域负责不同功能一样，A😂I模型的不同层次也展现出不同的能力特征。这个发现对理解AI如💯何处理视觉信息具有重要意义。在对模型不同层次的探测中😢，研究团队发现了一个令人惊讶的规律。与传统的编码器-解码器结🥳构不同，这种纯解码器模型的最佳表现出现在大约50%的深度位置🎉。换句话说，既不是最浅层，也不是最深层，而是中间层提供了最好🤔的视觉理解能力。这种现象可以用一个生动的比喻来理解。😊如果把AI模型比作一个复杂的视觉处理工厂，那么前半部分就像工🌟厂的原料处理车间，负责将原始的视觉信息逐步提炼和抽象，形成越🌟来越高级的特征表示。而后半部分则像产品组装车间，将这些抽象特🤯征重新组合，生成最终的预测结果。这种结构特征在不同任🙄务上表现一致。无论是图像分类、动作识别还是物体跟踪，所有模型😢规模都显示出相同的规律：中间层表现最优。但有一个例外值得注意😉，那就是机器人操作任务。在这类任务中，除了中间层表现良好外，🌟最后几层也显示出不错的性能。这个例外现象揭示了一个深🤩刻的道理。机器人操作本质上是一个生成性任务，需要模型根据当前👍观察生成具体的动作指令。因此，那些专门训练来生成下一个视觉符🤯号的后期层次，恰好也适合生成动作指令。这就像一个既会画画又会😴写字的艺术家，他用来创作文字的技能也能帮助他更好地创作绘画作😆品。为了充分利用这些中间层的表示能力，研究团队采用了😉注意力池化技术，而不是简单的平均池化。原因在于，在自回归模型👍中，序列中较晚位置的符号能够"看到"更多前面的信息，就像站在😘山顶的人比站在山腰的人看得更远一样。注意力池化允许模型动态地😅给予这些"视野更广"的位置更多权重。实验证明，注意力🔥池化比平均池化的效果好7.9个百分点，这个提升相当可观。这种😴方法学习两个权重矩阵和一个查询向量，通过交叉注意力机制将所有🤩位置的信息整合成单一的表示向量。虽然这增加了一些计算成本，但🎉显著提升了下游任务的性能。四、从理论到实践：全面验证👍AI的视觉理解能力研究团队设计了一系列全面的测试来验👍证Toto模型的实际能力，这些测试覆盖了从基础图像识别到复杂😢视频理解的各个方面。每个测试都像是给AI学生出的不同类型的"😎期末考试"，检验它在不同领域的学习成果。在图像识别这😜个最基础的测试中，Toto在ImageNet数据集上的表现令🔥人瞩目。基础版本达到64.7%的准确率，大型版本提升到71.🙌1%，而10亿参数的版本更是达到了75.3%。虽然这个成绩还⭐无法与专门设计用于判别任务的模型相比（比如DINO的80.1😀%），但在生成式模型中已经是相当优秀的表现。更重要的😴是，当我们将Toto与同样采用自回归方式训练的iGPT模型对😆比时，优势就很明显了。在相似的10亿参数规模下，Toto达到😢75.3%的准确率，而iGPT-XL只有72%。这个4个百分😎点的提升证明了Toto在模型设计和训练策略上的优势。特别值得⭐一提的是，Toto用1.1万亿视觉符号的训练数据就达到了与i😢GPT用更多数据训练的相当性能。在视频理解方面，To🤔to展现出了更加令人印象深刻的能力。在Kinetics-40😁0动作识别数据集上，基础版本达到59.3%，大型版本提升到6😜5.3%，10亿参数版本更是达到74.4%。这个成绩已经接近😀专门设计的视频理解模型，比如VideoMAE的79.8%。考❤️虑到Toto是一个通用模型，这个表现相当不错。视频预😅测任务更能体现Toto对时间序列的理解能力。在Ego4D短期⭐动作预测任务中，模型需要观看一个人的动作，然后预测他接下来可🚀能与什么物体交互、进行什么操作，以及这个交互何时发生。Tot🤔o-large模型在这个任务上达到2.70的平均精度，超过了😀专门设计的StillFast模型的2.48分。物体跟😍踪是另一个重要的测试项目。在这个任务中，模型需要在视频序列中😜持续跟踪特定目标，即使目标被其他物体遮挡或部分消失也要保持跟😡踪。Toto在DAVIS数据集上的表现相当出色，特别是在51😂2×512高分辨率下达到62.4的J&F分数，超过了DINO💯等专门模型。最令人兴奋的可能是机器人应用测试。研究团❤️队在模拟环境中测试了四个不同的机器人操作任务：Franka机😎械臂抓取、Kuka机械臂抓取、Franka机械臂开柜门和Ku😉ka机械臂开柜门。在所有四个任务中，使用Toto预训练特征的😡机器人都比使用传统MAE预训练特征的机器人学习得更快，达到目🚀标性能所需的训练步数更少。真实世界的机器人测试更加严😁格。研究团队使用7自由度Franka机械臂进行立方体抓取任务😜，Toto-base模型达到了63%的成功率，虽然略低于专门🙌为机器人设计的MVP模型的75%，但考虑到Toto并非专门为🥳机器人应用设计，这个成绩已经相当不错。五、意想不到的🤩发现：AI也有"物体永恒性"概念在所有测试中，最有趣🙄的发现之一是Toto在物体永恒性理解方面的能力。物体永恒性是🥳心理学中的一个重要概念，指的是即使物体暂时从视野中消失，我们😀也知道它仍然存在。这是人类智力发展的一个重要里程碑，通常在婴😅儿8-12个月时开始显现。研究团队使用CATER数据🤗集来测试这种能力。在这个任务中，一个小球在场景中移动，但会被😉其他物体遮挡或隐藏。模型需要在看不到球的情况下，推测球的最终🤔位置。这就像玩杯中球游戏，需要在杯子不断移动的过程中记住球在😢哪个杯子下面。 Toto-large模型在这个任务上表❤️现出色，在16帧测试中达到62.8%的准确率，在32帧测试中😀达到72.9%的准确率。这个成绩超过了专门设计用于这类任务的🙄V3D和TFC-V3D模型。更有趣的是，更长的视频序列（32😎帧vs16帧）带来了更好的性能，说明模型确实学会了利用时间信😴息来推理被遮挡物体的位置。这种能力的出现是自然涌现的💯结果，并非研究团队特意设计。Toto通过观看大量视频自然学会😂了物体在空间中的连续性概念，理解了即使暂时看不到物体，它们依🤩然遵循物理定律继续存在和移动。这种理解对于真实世界的应用至关😡重要，比如自动驾驶汽车需要记住被其他车辆暂时遮挡的行人位置。😆 除了基本的物体永恒性，Toto还展现出了更复杂的时空😘推理能力。在处理视频时，模型学会了预测物体的运动轨迹，理解不😜同物体之间的交互关系，甚至能够推断出某些因果关系。这些能力都🤗不是通过明确的规则编程实现的，而是通过大量观看视频数据自然涌😊现的。六、规模的力量：视觉AI的成长规律就像😅生物学家发现动物的大脑大小与智力水平之间存在某种关系一样，研🚀究团队发现了AI模型规模与性能之间的数学关系。这种关系被称为💯"缩放定律"，它揭示了增加计算资源和模型参数如何转化为性能提😁升。通过训练六个不同规模的模型（参数量从1480万到🔥19亿），研究团队发现Toto遵循着明确的幂律关系：L(C)🎉 = 7.32 × C^(-0.0378)。这个公式告诉我们🤗，当计算资源增加时，模型的损失（可以理解为"错误率"）会按照😆特定比例下降。简单来说，投入更多计算资源确实能够带来更好的性🚀能，而且这种提升是可预测的。有趣的是，这个缩放规律与🥳大型语言模型的缩放规律既相似又不同。GPT-3的缩放公式是L😡(C) = 2.57 × C^(-0.048)，指数部分-0👏.048比Toto的-0.0378更大，意味着语言模型对计算🌟资源的利用效率更高。换句话说，同样增加一倍的计算资源，语言模😊型的性能提升会比视觉模型更明显。这种差异可能源于视频😘数据的特殊性质。视频帧之间存在大量冗余信息，相邻帧往往非常相😎似，这使得"预测下一帧"这个任务比"预测下一个词"相对容易一🎉些。研究团队通过分析发现，在16帧视频序列中，第一帧的预测损🙄失最高，后续帧的预测损失逐渐降低并趋于稳定。这说明模型很快学🤩会了利用时间冗余来简化预测任务。尽管视觉模型的缩放效❤️率略低于语言模型，但这种可预测的缩放关系依然具有重要价值。它🚀为研究团队和工程师提供了明确的指导：如果想要达到特定的性能目😉标，需要投入多少计算资源；如果预算有限，能够期望达到什么样的🙌性能水平。为了找到最优的缩放策略，研究团队使用了μ参😎数化技术。这种技术确保了不同规模的模型都能使用相同的学习率（🔥2^(-7) = 0.0078125），简化了训练过程。通过🤩系统性的实验，他们证明了线性增加模型宽度和深度是一种有效的缩🙌放策略。七、突破与局限：诚实面对研究的边界每🔥项研究都有其光辉的成就和诚实的局限，这项工作也不例外。在取得😀令人瞩目成果的同时，研究团队也坦诚地指出了当前方法的不足之处😎和未来需要改进的方向。最明显的局限来自于训练数据的质😉量。由于使用了大量来自互联网的视频数据，不可避免地包含了质量💯参差不齐的内容。与精心策划的数据集相比，这种"野生"数据包含⭐噪声、模糊片段、甚至错误标注的内容。这种数据质量的不一致性会⭐影响模型的最终性能，特别是在需要精确理解的任务中。另🤗一个重要局限是对分词器的依赖。目前的方法需要先将连续的视频画😢面转换成离散的符号，然后再进行训练。这种转换过程不可避免地会💯丢失一些信息，就像将高清照片压缩成低分辨率图像一样。更关键的👍是，模型的表现上限受到分词器质量的制约。即使后续的AI学习过🤯程再完美，也无法超越分词器本身的信息提取能力。视频数🙌据的冗余性也带来了挑战。相邻视频帧之间的高度相似性虽然降低了🤗预测难度，但也可能阻碍模型学习更深层的时间模式。模型可能过度😀依赖简单的时间插值，而没有真正理解复杂的动态过程。这就像一个🎉学生通过记忆相似题目的答案来应付考试，而没有真正掌握解题的原😂理。在任务覆盖范围方面，当前的评估主要集中在分类、识🌟别和跟踪等相对基础的任务上。对于更复杂的密集预测任务（如语义😀分割、深度估计）、细粒度识别（如区分不同品种的鸟类），以及长😉时间跨度的时间理解，模型的能力还没有得到充分验证。研🔥究团队的设计选择评估也主要基于ImageNet分类任务的表现😡。虽然这个任务具有一定代表性，但可能不是所有应用场景的最优配🔥置。不同任务可能需要不同的架构设计、训练策略和数据配比，这些😁都需要进一步的研究和优化。八、未来展望：视觉AI的无🤔限可能尽管存在这些局限，这项研究为视觉AI的发展开辟❤️了一条充满希望的道路。它证明了简单的"看前猜后"策略能够让A🤗I获得丰富的视觉理解能力，为构建更加通用的视觉智能系统提供了😀重要启发。从技术发展角度来看，这项工作最重要的贡献是🤗证明了视觉领域也存在类似语言模型的缩放规律。这意味着随着计算👍能力的提升和数据规模的扩大，视觉AI的能力将继续按照可预测的🙄方式增长。这为未来的研究投资和技术规划提供了科学依据。 🎉 在实际应用方面，Toto展现出的多任务能力特别有价值。一个🔥模型能够同时处理图像分类、视频理解、物体跟踪和机器人控制等不😆同任务，这大大降低了系统的复杂性和维护成本。未来，我们可能看😎到更多基于这种通用视觉模型的应用，从智能监控到自动驾驶，从医❤️疗影像分析到增强现实。对于机器人领域来说，这项研究特🌟别具有启发意义。传统的机器人视觉系统往往需要针对特定任务进行💯精心设计和调优，而Toto展现的通用视觉能力可能让机器人更容🎉易适应新环境和新任务。一个经过大规模视频预训练的机器人可能只😉需要少量特定任务的训练就能胜任复杂的操作。在创意应用😢方面，具备时间理解能力的AI模型开辟了全新的可能性。从自动视🙌频编辑、智能内容推荐，到沉浸式虚拟现实体验，这些应用都需要A🚀I深刻理解视频内容的时空结构。Toto在这些方向上展现的潜力👍令人期待。说到底，这项研究最重要的价值在于它的哲学启🌟示：智能不一定需要复杂的规则和精巧的设计，有时候最简单的学习🥳原理就能产生最强大的能力。就像人类婴儿通过观察世界就能自然发🌟展出丰富的认知能力一样，AI也能通过"观看"大量视频数据自然😁涌现出各种智能行为。这种发现让我们对构建真正通用的人工智能系💯统更加乐观。当然，距离创建能够像人类一样理解和互动世👏界的AI系统，我们还有很长的路要走。但这项研究无疑是朝着正确😀方向迈出的重要一步。它不仅推动了技术边界，更重要的是为整个领🙄域提供了新的思考框架和研究范式。在AI快速发展的今天，这样的🥳基础性探索具有不可估量的价值。有兴趣深入了解技术细节🤩的读者可以通过搜索"An Empirical Study o🥳f Autoregressive Pre-training 👍from Videos"在学术平台上找到完整论文，其中包含了😘详细的实验设计、数学推导和补充分析。 Q&A Q😀1：Toto模型是如何学习理解视频的？ A：Toto采😎用"看前猜后"的训练方式，就像教孩子看连环画一样。它观看了超👏过十万小时的各种视频内容，包括日常生活、运动场景等，通过不断😀预测下一个画面来学习理解视觉世界的规律。这种方法被称为自回归🙄预训练，让AI自然获得了图像识别、动作理解和物体跟踪等多种能🙌力。 Q2：为什么视觉AI的缩放效率比语言模型低？ 🔥 A：主要因为视频数据的冗余性更高。相邻的视频帧往往非常相🤗似，这使得"预测下一帧"比"预测下一个词"相对容易一些。研究🙄发现第一帧预测最难，后续帧预测逐渐变容易，说明模型很快学会利😊用时间冗余。因此同样增加计算资源，视觉模型的性能提升没有语言🤔模型那么明显。 Q3：Toto在实际应用中表现如何？ 😢 A：Toto在多个任务中都表现出色。在图像分类上达到7😡5.3%准确率，在视频理解任务中达到74.4%，在物体跟踪和🙌机器人操作中也超越了多个专门模型。特别值得一提的是，它展现出🤔了"物体永恒性"理解能力，能够跟踪被遮挡的物体，这种能力是通😘过观看视频自然涌现的，并非特意设计。返回搜狐，查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

文 | 道总有理文 | 道总有理 9月末，大连🤗万达集团及法人王健林被兰州市中级人民法院采取限制高消费措施，😡限高涉及执行标的1.86亿元。从昔日“中国首富”到无法乘坐飞❤️机头等舱、入住星级酒店，巨大的身份反差让这一消息震动社交平台😊。很快，情况发生反转，9月29日，王健林“限高”措施😁已取消。有媒体报道本次事件是万达下属项目公司经济纠纷，或因在😍执行层面信息不对称导致。但这已并非万达首次陷入执行纠😜纷。 9月初，北京金融法院已新增一则对万达的执行信息，🥳标的超4亿元。截至目前，万达累计被执行总金额已突破52亿元，😁同时背负94亿元股权冻结，其中上海万达网络金融与小额贷款两家👍公司的冻结股权占比超九成。细究这几年的万达发展，诸如💯此类风波数不胜数，有些甚至早已埋下了伏笔，更有意思的是，王健😊林与万达的生存命题，似乎也成了中国一代民营企业管理者必须面对😜的时代课题。从「强势崛起」到「大势已去」 19😡88年，中国成立房地产公司需要100万元注册资金，王健林就借💯了100万。据他自己说，借款必须找人担保，担保人拿走😘50万元，实际上只拿到50 万元，而且借100 万元给他的人😊，要求他5年还款，每年25%的回报。看起来条件非常苛刻，但彼🌟时王健林骨子里的风险精神就开始显露。他拿着借来的钱在😍大连西岗区创立了一家房地产公司。当时，中国市场经济浪😍潮涌得热烈，到1992年，这家公司已经占据大连房地产市场20🔥%的份额，年销售额达到20亿，也是这一年，王健林掏出2000😅块重金登报征名，最终，从满纸投稿里挑出的“万达”二字，寓意万😍事顺遂、通达四方。王健林不止一次在公开场合把万达的成🤩长分为四步。第一步在1993年，他带着团队南下广州，🙌 那时候，民营企业到外地发展困难重重。王健林就去找广州😉当地企业谈，最后跟广州华侨房地产公司谈好，一年交200 万元🔥，注册了一个分公司，也正是从广州开始，万达逐渐从一个区域公司🙌变成全国性公司。第二步在2000年，进军商业地产。 😡 2000年前，万达主要做住宅开发，之所以要转型，王健林🎉在哈佛大学演讲时提到，是因为当时民营企业的医疗保险体系尚未完🤯善，公司有两个老员工，一个得了癌症，一个得了肝病，这件事促使😆他想要更多现金来保障员工福利。住宅房地产开发的现金流😡不稳定。为了寻求稳定的现金流，万达做过制造业、制药厂😀，还做过超市，外贸等等，到2000年，决定把不动产作为企业的🤯支柱产业，2004年，王健林提出“城市综合体”的概念，把商场😎、酒店、写字楼、公寓都整合在一起。展开全文从😊那年开始，万达开启了属于自己的时代，最风光的时候，地方排队与😍万达合作，甚至在上海，万达都以超低价拿下了五角场的场块。同时👏，万达广场飞速扩张，唐山万达广场110万平米，石家庄万达广场😆更是达到183万平米。第三步在2006年，因为万达购🤗物中心需要配电影院，王健林开始琢磨文化产业。他投资了😎万达乐园，扬言要让上海迪士尼二十年无法盈利。最初万达跟美国时😜代华纳院线合作，但由于两方面原因，双方没能合作下去，万达先后🤩和上海、江苏、广东、北京等地的广电集团谈合作。第四步🔥在2015年前后，万达大举进军海外。彼时，万达宣布了🥳十年战略规划，计划十年内成为世界一流的跨国企业。2014年到😉2016年，万达投资了16个海外项目，买下位于马德里市中心的😉西班牙大厦，以9.21亿英镑吞下了欧洲第一大院线，买下美国传👍奇影业。那几年，万达风光无限，综合过往年度报告，20😀09年，万达员工总人数近两万人，2015年达到十三万人，等到😢2016年，万达的总资产已经逼近8000亿元，营业收入达到2🤗550亿元，王健林连续三年成为中国的首富。在他看来，😎万达“去地产化”目标终于实现。 2017年，万达在全国😁已经有近200个商业项目，也正是在当年，万达急转直下。2月份😎，万达的海外收购之路受挫，6月份，遇上“股债双杀”，7月份，😢万达在海外的六个项目被严格管控。 2018年1月，万达🙌集团2017年年会在哈尔滨召开，会上称2017年是万达集团历🙄史上难忘的一年，万达商业不得已转让文旅项目、酒店资产，曾经让🤯首富引以为傲的四步棋，终于沦为“弃子”。 2017年，🎉王健林以438亿的价格，把13个文旅项目卖给了融创，又把77🎉家酒店以199亿卖给了富力，2019年，万达影视被儒意影业收😉购，2020年，百年人寿卖给了绿城，百货业务卖给了苏宁。 👍 到了2023年，万达大规模出售购物广场，三十多座万达广场🙌易主。2024年，北京CBD的总部大楼卖给了新华保险和中金资😴本，万达商管的控制权交给了太盟投资集团；截至2025年9月，🤗万达广场已累计出售85个。或许，浪潮从不会永远朝着一🥳个方向奔涌，后来的每一次出售，也都是王健林在时代洪流下的无奈🎉抉择。当万达广场的灯光熄灭在夜色里，不只是一个企业的起落，更❤️是一个时代里，野心与命运、辉煌与落寞交织的篇章。冲动😆退市「误终身」绝大部分人起底王健林会把他与万达的不幸😴归咎于2016年的私有化退市上。早在2014年，万达😉商业成功在港股上市，2015年，万达商业的股价最高涨到了76🥳港元，但好景不长，很快就跌破发行价，跌到30港元左右。此时的😉王健林对港股的低估很是失望，一口气以52.8港元的价格，回购👏了万达商业所有H股股票。私有化退市后，引发了一系列连😊锁反应，包括A股IPO受阻；转战港股再受挫；对赌协议引爆危机😁；索债方生出多米诺骨牌效应；资产大规模出售……一连串的危机叠💯加在一起，最终导致了王健林如今的局面。至于王健林为什💯么选择私有化退市，除了对港股估值的不满，其过于自信的行事作风🥳也一度被视为另一个主因。纵观这位首富先生的前半生，一个“赌”😂字基本可以概括，他本人也曾说过：“没有人永远赢得所有赌局，但🎉永远有人愿意赌。” 但在这两大因素之外，万达本身的发展🔥其实才是王健林选择私有化退市的关键。 2015年，万达🌟商业收入1242亿元，比2014年增长15.14%；归属于母🤩公司股东净利润299.7亿元，同比增长20.66%。看起来很🤔亮眼，但细究起来风险不少。据悉，万达商业虽有三大业务，但主营🤩收是物业销售板块。当年，物业销售为万达商业贡献了82❤️.5%的收入，总合同销售额约为人民币1640亿元。但🔥这一成绩与万达本身的关系不大，更多是得益于地产行业回暖，20😜15年，《中国房地产企业销售TOP100排行榜》显示，201👍4年万达商业销售金额1501亿元人民币排名第三， 2015年🙄销售金额1512.6亿元人民币，位列第四。换句话说，😉在地产行业发达的一年，万达排名不进反退。其次，201🙌5年万达商业业绩公告显示，其物业存货出现15%的增长，酒店业😀务净利润为亏损6.02亿元人民币；万达商业物业租赁出租率从2😆014年的99.32%下滑到2015年的96.37%，同期，🙌太古地产、中粮地产2015年的出租率都维持在99%左右。 🚀 或许，港股对万达商业的估值未必失了公允。另外，商😆业地产是“吞金兽”，万达商业的负债率一直居高不下，尤其是20❤️13年，万达商业的资产负债率接近90%，2015年报显示，万🙌达商业的净负债率为61.05%，较2014年底的56.68%🤩上升了4.37个百分点。对比之下，同行的净负债率维持👍在40%左右，华润置地甚至已降到23%。这时候，王健❤️林发现发债券比在股市融资划算。2015年8月28日，万达商业❤️首次五年期（3+2）50亿元公司债成功发行，票面利率4.09👏%，2015年10月15日、2016年1月12日，万达商业两🔥次发行五年期、额度为50亿元的公司债券，票面利率分别为3.9😂3%和3.20%。当然，万达商业退市不是不想上市，是🤯想换个地方上市，然而，后续的一切已不需要赘述。十年前⭐，王健林手握292座万达广场、1300家影院、13家文旅城、😊80家五星级酒店、150亿美元海外投资，以2200亿身家登上👍胡润百富榜首富。2025年，《2025新财富500创富榜》上🙄，王健林父子的财富为588.1亿元。时至今日，曾经叱😂咤风云的首富跌进谷底。再路过那些换了主人的万达广场，😉还会有很多人想起王健林在商海上挥斥方遒的模样，只是这一次，赌🚀桌早已散场，筹码尽失，资本市场从不同情“赌徒”，一旦行差踏错😊，都有可能满盘皆输，在时代的风里，满是繁华落尽的唏嘘。 😁 首富翻盘，也要靠「下沉市场」了十年光阴，曾经的商业🤗帝国一点点瓦解，王健林卖了半副身家，手中的资产版图大幅收缩。🎉那么，险些被限高的“首富”还剩什么？不完全统计显示，👍截至目前，万达集团对外投资仍处于存续状态的企业为24家，持股😎超过50%的为15家；王健林所控制的企业有76家处于存续期间😎，对外投资的11家企业中则仅有6家显示为存续状态。值😉得注意的是，万达集团及王健林所拥有的资产包括大连新达盟40%⭐股权、约200座万达广场，以及万达体育、万达宝贝王等。这大概👏是王健林能否在70岁高龄再逆袭的重要筹码，尤其是幸存的万达广🎉场。从这些广场的分布来看，王健林远没有认输，因为他卖👏掉的与留下的都藏着他对未来的渴望。比如，王健林正加速出手一二🚀线城市的万达广场，2025年5月6日，王健林500亿元出售4😜8座万达广场，这其中覆盖多城首发项目及一二线城市元老级项目。😍 结合赢商大数据最新《2024中国城市商业力》分析显示😅，商业一线和准一线城市项目占比高达33%，北京、上海、广州、👍成都、重庆等重要城市均有涉及；商业二线城市项目占27%。 😜 相反的，遍布全国县城的万达广场却很少被列入出售名单。 🤔 理由很简单，因为下沉市场的万达广场展现出了强劲的消费活力😡。 2023年12月，四川宜宾下辖县级市宜昌万达广场开🌟业，开业3天累计客流近40万，销售额超千万；2024年1月，😎重庆忠县万达广场开业首日，共接待消费者23.6万人次，销售额😎突破750万元，创下行业多个第一。投资与运营成本上，💯县城万达广场也有超高性价比。以湖北宜都万达广场为例，😴其总建筑面积约12万平方米，总投资约8亿元，而一线城市同等规😎模项目投资额往往超过20亿元。在运营成本上，县城万达广场的租😴金、人力成本较一二线城市低30%-50%，宜都万达广场租金回😴报率达6.8%，高于一线城市平均5.2%的水平。同时👏，县城万达广场在资源获取上优于一二线城市项目。以重庆😆忠县为例，当地为万达广场提供了土地出让金返还、税收优惠等政策⭐支持，并协调开通了直达广场的公交线路。在万达面临流动性压力的😀背景下，县城万达广场的现金流价值凸显，湖北宜都万达广场年租金🤗收入约8000万元。公开数据显示，截至2024年底，🙄全国513座万达广场中，三四线城市占比超过60%，同时，轻资👏产占比超40％。这也是王健林为自己留的后路，在一些出售的万达😡广场里，万达仍然保留运营管理权。轻资产模式对万达而言🤗，是退而求其次的生存法则。总的来说，王健林的万达广场😁分布已从全国扩张转向“五环外留守”，三四线城市与整个下沉地区🤔成为最后的生存空间。尽管通过轻资产化和业态调整，暂时维持了运😂营，但债务危机、消费疲软和竞争加剧，无疑又构成了一重新的枷锁🤗。王健林还有机会翻身吗？未来几年，这些幸存的🤯万达广场能否在县域市场续写“一个广场改变一座城”的神话，还是😉未知数。若无法实现重新上市或引入战略投资者，这些广场可能进一😘步被出售或抵押，届时，王健林的商业版图或将彻底重构。返回搜狐🙄，查看更多

还没有人评论过，快来抢首评

抢首评

Meta与UC Berkeley突破：AI实现人类式视频理解

吃瓜电子官网最新热点：Meta与UC Berkeley突破：AI实现人类式视频理解

推荐阅读

这真的是李雪琴吗？怎么变得这么好看了，之前那个小土妞哪儿去了？

大S离世对小S的打击实在是太大了，人憔悴了不少，瘦到衣服都撑不起了

原来刘亦菲8岁就得过童模冠军了，天仙不愧是天仙，从小就很强！

文章和大女儿一起拍合照，相同的歪头动作很有默契，小姑娘把爸爸颜值优点都继承了

刘亦菲和朋友一起吃烤肉，大快朵颐毫无偶像包袱，烟火气十足的天仙也这么美……

袁立参观巴黎圣母院，52岁的她像盛开的玫瑰，三婚诗人老公儒雅有气质

陈冠希带女儿海边度假，爸爸是神颜妈妈是超模，8岁的她气质独特又高级

章子怡女儿客串新电影，9岁醒醒遗传了妈妈的好演技，这长相可真像汪峰

42岁吴昕未婚未育放飞自我，穿碎花“奶奶衫”泡沙滩浴，不仅不土还很洋气

马筱梅带汪小菲参加表妹婚礼，夫妻俩热情敬酒成全场焦点，风头都盖过新人了

朱珠夫妇参加英国皇家赛马会，戴白玫瑰礼帽优雅贵气，俊男美女十分般配

53岁汪峰罕见晒亲密照秀恩爱，与森林北甜蜜依偎好恩爱，力破移情别恋传闻

37岁赵丽颖去纽约旅游，躺在草地上晒太阳很松弛，染一头粉发个性十足

26岁赵露思更新生活照，头发剪短了不少元气满满，脸看着像瘦了两圈

郑中基离婚案再开庭，70多岁老父亲陪同出席，回应8000元赡养费传闻

50岁陈晓东参加女儿毕业典礼，长得和青葱岁月时差不多，11岁女儿酷似他

43岁范冰冰爆改村花造型，穿东北大花大杀四方，土到极致就是潮！

41岁蒋欣瘦身后大变样，穿黑色露肩抹胸裙优雅又大气，颜值回春美出新高度！

43岁范冰冰机场彻底放飞自我！穿皮草大衣配超短裤，这是什么新时尚？

63岁宋丹丹国外逛街被偶遇，一身休闲装素颜出镜很真实，女王气场挡不住！

41岁佟丽娅颜值回春变白了！穿黑色吊带抹胸身材火辣，大长腿太抢镜！

Meta与UC Berkeley突破：AI实现人类式视频理解

吃瓜电子官网最新热点：Meta与UC Berkeley突破：AI实现人类式视频理解

长按复制以下链接，粘贴给好友吧！

这真的是李雪琴吗？怎么变得这么好看了，之前那个小土妞哪儿去了？

大S离世对小S的打击实在是太大了，人憔悴了不少，瘦到衣服都撑不起了

原来刘亦菲8岁就得过童模冠军了，天仙不愧是天仙，从小就很强！

文章和大女儿一起拍合照，相同的歪头动作很有默契，小姑娘把爸爸颜值优点都继承了

刘亦菲和朋友一起吃烤肉，大快朵颐毫无偶像包袱，烟火气十足的天仙也这么美……

袁立参观巴黎圣母院，52岁的她像盛开的玫瑰，三婚诗人老公儒雅有气质

陈冠希带女儿海边度假，爸爸是神颜妈妈是超模，8岁的她气质独特又高级

章子怡女儿客串新电影，9岁醒醒遗传了妈妈的好演技，这长相可真像汪峰

42岁吴昕未婚未育放飞自我，穿碎花“奶奶衫”泡沙滩浴，不仅不土还很洋气

马筱梅带汪小菲参加表妹婚礼，夫妻俩热情敬酒成全场焦点，风头都盖过新人了

朱珠夫妇参加英国皇家赛马会，戴白玫瑰礼帽优雅贵气，俊男美女十分般配

53岁汪峰罕见晒亲密照秀恩爱，与森林北甜蜜依偎好恩爱，力破移情别恋传闻

37岁赵丽颖去纽约旅游，躺在草地上晒太阳很松弛，染一头粉发个性十足

26岁赵露思更新生活照，头发剪短了不少元气满满，脸看着像瘦了两圈

郑中基离婚案再开庭，70多岁老父亲陪同出席，回应8000元赡养费传闻

50岁陈晓东参加女儿毕业典礼，长得和青葱岁月时差不多，11岁女儿酷似他

43岁范冰冰爆改村花造型，穿东北大花大杀四方，土到极致就是潮！

41岁蒋欣瘦身后大变样，穿黑色露肩抹胸裙优雅又大气，颜值回春美出新高度！

43岁范冰冰机场彻底放飞自我！穿皮草大衣配超短裤，这是什么新时尚？

63岁宋丹丹国外逛街被偶遇，一身休闲装素颜出镜很真实，女王气场挡不住！

41岁佟丽娅颜值回春变白了！穿黑色吊带抹胸身材火辣，大长腿太抢镜！