Meta与UC Berkeley突破:AI实现人类式视频理解
吃瓜电子官网最新热点:Meta与UC Berkeley突破:AI实现人类式视频理解
更新时间: 浏览次数:8546
这项由meta FAIR和UC Berkeley联合进行的研😂究于2025年1月发表在arXiv预印本平台上,研究团队由J❤️athushan Rajasegaran、Ilija Rad😜osavovic等多位学者组成。有兴趣深入了解的读者可以通过🚀论文标题"An Empirical Study of Aut😡oregressive Pre-training from 😁Videos"在arXiv平台上找到完整论文。 当我们😘看电视时,大脑会根据前面的画面预测接下来可能发生什么。如果一😜个人正在跑步,我们能预测他的下一个动作;如果一辆车正在转弯,😴我们能预测它的行驶轨迹。现在,研究人员想让人工智能也具备这种🤩能力,不仅能理解单张照片,还能像人类一样理解连续的视频画面。😴 这项研究的核心在于训练一个名为Toto的AI模型,让⭐它通过观看大量视频来学习预测下一个画面。就像教孩子看图说话一😴样,研究团队让Toto观看了超过十万小时的视频内容,包括日常🚀生活、运动、各种活动场景。通过这种训练,Toto不仅学会了识🙌别图像中的物体,还学会了理解动作、预测物体的运动轨迹,甚至能👏在复杂场景中持续跟踪特定目标。 这种训练方式被称为"自😊回归预训练",本质上就是让AI通过"看前面猜后面"的游戏来学😘习理解世界。研究团队发现,尽管这种方法看起来很简单,没有复杂❤️的规则和约束,但训练出的AI在各种视觉任务上都表现出色,包括🔥图像分类、视频理解、物体跟踪,甚至机器人操作。 更有趣😉的是,研究人员发现AI学习视频的规律和人类学习语言的规律非常🤔相似。当我们增加更多的计算资源和训练数据时,AI的能力会按照😂一定规律持续提升,就像语言模型随着规模增大而变得更聪明一样。🙌不过,视频AI的提升速度比语言AI稍慢一些,这可能是因为视频😊信息比文字信息更加复杂和冗余。 一、让AI学会"看前猜👏后"的训练秘诀 要理解这项研究的核心方法,可以想象教一🔥个孩子看连环画的过程。当孩子看到前几幅画后,我们会遮住后面的🎉画面,让他猜测接下来会发生什么。Toto的训练过程本质上就是😂这样一个巨大规模的"看图猜后续"游戏。 研究团队首先需😂要将视频转换成AI能够理解的"语言"。就像我们需要将复杂的想😜法转换成文字来表达一样,视频也需要被转换成数字符号。他们使用🤔了一种称为dVAE的技术,将每一帧视频画面转换成256个离散😆的"视觉单词"。这样,一个16帧的短视频片段就变成了4096🎉个"单词"组成的"句子"。 展开全文 在这种转换🤩下,一张256×256像素的图片被分解成16×16个小块,每🤯个小块用一个特定的数字代码表示。这个过程就像将一幅拼图分解成🙌小块,然后用数字给每个小块编号。通过这种方式,原本连续的视频😎画面变成了离散的数字序列,为后续的AI训练奠定了基础。 ❤️ Toto的核心架构采用了类似GPT语言模型的transfo👏rmer结构,但专门针对视频内容进行了优化。这种结构让AI能🎉够同时关注画面中的多个位置和时间点,就像人类看视频时能同时注🔥意到画面中不同区域的变化一样。研究团队构建了三个不同规模的模🙌型,参数量分别为1.2亿、2.8亿和11亿,就像训练三个不同💯"智力水平"的AI学生。 训练数据的规模令人惊叹。研究😎团队收集了包括ImageNet图像数据集、Kinetics-😘600动作视频、Ego4D第一人称视频,以及HowTo100👏M教学视频在内的海量数据。这些数据总共包含超过十万小时的视频👍内容和约1万亿个视觉"单词"。相当于让AI观看了几千年的电视😜内容,涵盖了人类生活的方方面面。 在训练过程中,每个批🎉次的数据按照特定比例混合:20%是静态图像,10%是第一人称💯生活视频,10%是动作识别视频,60%是教学类视频。这种搭配🚀就像给AI提供营养均衡的"视觉餐",确保它能够学习到不同类型😊的视觉模式和规律。整个训练过程使用了AdamW优化器,学习率😂设置为0.0003,并采用余弦衰减策略逐渐降低学习率。 😘 二、从像素到智能:视觉信息的魔法转换 将连续的视频画🎉面转换成AI能够理解的离散符号,这个过程充满了技术巧思。研究😜团队面临的第一个挑战是选择合适的"翻译器",将丰富的视觉信息⭐转换成数字代码,同时尽可能保留重要信息。 他们比较了三😂种主要的转换方法。第一种是dVAE方法,将每个图像块转换成8👏000个可能符号中的一个,就像用8000种不同的"积木块"来😀重建图像。第二种是VQGAN方法,提供了1000到16000👏种不同的选择。第三种是连续块标准化方法,不使用离散符号,而是😘保持连续的数值表示。 实验结果显示,在相同分辨率下,d⭐VAE和VQGAN的表现相当,都能达到约61%的图像分类准确🤗率。然而,dVAE有一个重要优势:它的符号使用更加均匀。通过😉分析1-gram分布发现,dVAE几乎使用了所有8000个可🤔能的符号,而VQGAN只使用了不到50%的符号。这就像一个词💯汇丰富的作家使用了更多样化的词汇来表达思想,而不是反复使用同😁样的词语。 分辨率选择也是一个关键考虑。更高分辨率意味😢着更多细节,但也意味着更多计算成本。研究发现,从低分辨率开始😉训练,然后微调到高分辨率,这种策略不仅节省了计算资源,还获得😘了更好的最终性能。128×128分辨率训练后微调到256×2😍56分辨率的模型,表现甚至超过了直接用256×256分辨率训😴练的模型。 这种现象的原因在于RoPE位置编码的使用。🤯RoPE允许模型在训练后适应更长的序列,就像一个学会了短篇写🙌作的作者可以逐步适应长篇创作。当研究团队调整RoPE的基值参👍数从10000到50000时,模型对高分辨率的适应能力进一步😅提升。 在架构选择方面,研究团队比较了三种不同的模型结🎉构。LLaMA架构表现最佳,达到53.2%的准确率,而传统的❤️GPT2架构只有48.5%,新兴的Mamba架构为40.7%😀。这说明LLaMA的设计更适合视觉信息的处理,可能因为它使用😅了RMSNorm标准化、SwiGLU激活函数和RoPE位置编😘码等先进技术。 三、解码AI的"视觉大脑":不同层级的🤔智能表现 当我们深入研究Toto模型的内部工作机制时,😂发现了一个有趣的现象:就像人脑的不同区域负责不同功能一样,A🤗I模型的不同层次也展现出不同的能力特征。这个发现对理解AI如😢何处理视觉信息具有重要意义。 在对模型不同层次的探测中🙌,研究团队发现了一个令人惊讶的规律。与传统的编码器-解码器结🔥构不同,这种纯解码器模型的最佳表现出现在大约50%的深度位置😡。换句话说,既不是最浅层,也不是最深层,而是中间层提供了最好😴的视觉理解能力。 这种现象可以用一个生动的比喻来理解。😀如果把AI模型比作一个复杂的视觉处理工厂,那么前半部分就像工😎厂的原料处理车间,负责将原始的视觉信息逐步提炼和抽象,形成越😡来越高级的特征表示。而后半部分则像产品组装车间,将这些抽象特😡征重新组合,生成最终的预测结果。 这种结构特征在不同任😁务上表现一致。无论是图像分类、动作识别还是物体跟踪,所有模型😉规模都显示出相同的规律:中间层表现最优。但有一个例外值得注意😍,那就是机器人操作任务。在这类任务中,除了中间层表现良好外,🚀最后几层也显示出不错的性能。 这个例外现象揭示了一个深😜刻的道理。机器人操作本质上是一个生成性任务,需要模型根据当前🥳观察生成具体的动作指令。因此,那些专门训练来生成下一个视觉符😜号的后期层次,恰好也适合生成动作指令。这就像一个既会画画又会🎉写字的艺术家,他用来创作文字的技能也能帮助他更好地创作绘画作🤯品。 为了充分利用这些中间层的表示能力,研究团队采用了😎注意力池化技术,而不是简单的平均池化。原因在于,在自回归模型😢中,序列中较晚位置的符号能够"看到"更多前面的信息,就像站在🚀山顶的人比站在山腰的人看得更远一样。注意力池化允许模型动态地😘给予这些"视野更广"的位置更多权重。 实验证明,注意力🥳池化比平均池化的效果好7.9个百分点,这个提升相当可观。这种😡方法学习两个权重矩阵和一个查询向量,通过交叉注意力机制将所有🌟位置的信息整合成单一的表示向量。虽然这增加了一些计算成本,但😆显著提升了下游任务的性能。 四、从理论到实践:全面验证💯AI的视觉理解能力 研究团队设计了一系列全面的测试来验🌟证Toto模型的实际能力,这些测试覆盖了从基础图像识别到复杂👏视频理解的各个方面。每个测试都像是给AI学生出的不同类型的"🤩期末考试",检验它在不同领域的学习成果。 在图像识别这👍个最基础的测试中,Toto在ImageNet数据集上的表现令😎人瞩目。基础版本达到64.7%的准确率,大型版本提升到71.😢1%,而10亿参数的版本更是达到了75.3%。虽然这个成绩还😆无法与专门设计用于判别任务的模型相比(比如DINO的80.1😆%),但在生成式模型中已经是相当优秀的表现。 更重要的😜是,当我们将Toto与同样采用自回归方式训练的iGPT模型对👍比时,优势就很明显了。在相似的10亿参数规模下,Toto达到🤩75.3%的准确率,而iGPT-XL只有72%。这个4个百分🤗点的提升证明了Toto在模型设计和训练策略上的优势。特别值得🙄一提的是,Toto用1.1万亿视觉符号的训练数据就达到了与i⭐GPT用更多数据训练的相当性能。 在视频理解方面,To🤩to展现出了更加令人印象深刻的能力。在Kinetics-40😀0动作识别数据集上,基础版本达到59.3%,大型版本提升到6😎5.3%,10亿参数版本更是达到74.4%。这个成绩已经接近⭐专门设计的视频理解模型,比如VideoMAE的79.8%。考😢虑到Toto是一个通用模型,这个表现相当不错。 视频预🤗测任务更能体现Toto对时间序列的理解能力。在Ego4D短期🤯动作预测任务中,模型需要观看一个人的动作,然后预测他接下来可🙄能与什么物体交互、进行什么操作,以及这个交互何时发生。Tot😁o-large模型在这个任务上达到2.70的平均精度,超过了🤗专门设计的StillFast模型的2.48分。 物体跟🤯踪是另一个重要的测试项目。在这个任务中,模型需要在视频序列中😜持续跟踪特定目标,即使目标被其他物体遮挡或部分消失也要保持跟🔥踪。Toto在DAVIS数据集上的表现相当出色,特别是在51🙄2×512高分辨率下达到62.4的J&F分数,超过了DINO😜等专门模型。 最令人兴奋的可能是机器人应用测试。研究团🤔队在模拟环境中测试了四个不同的机器人操作任务:Franka机🤔械臂抓取、Kuka机械臂抓取、Franka机械臂开柜门和Ku🌟ka机械臂开柜门。在所有四个任务中,使用Toto预训练特征的🎉机器人都比使用传统MAE预训练特征的机器人学习得更快,达到目😀标性能所需的训练步数更少。 真实世界的机器人测试更加严😊格。研究团队使用7自由度Franka机械臂进行立方体抓取任务😊,Toto-base模型达到了63%的成功率,虽然略低于专门👏为机器人设计的MVP模型的75%,但考虑到Toto并非专门为🔥机器人应用设计,这个成绩已经相当不错。 五、意想不到的🥳发现:AI也有"物体永恒性"概念 在所有测试中,最有趣🤩的发现之一是Toto在物体永恒性理解方面的能力。物体永恒性是😁心理学中的一个重要概念,指的是即使物体暂时从视野中消失,我们⭐也知道它仍然存在。这是人类智力发展的一个重要里程碑,通常在婴🙄儿8-12个月时开始显现。 研究团队使用CATER数据😍集来测试这种能力。在这个任务中,一个小球在场景中移动,但会被🙄其他物体遮挡或隐藏。模型需要在看不到球的情况下,推测球的最终💯位置。这就像玩杯中球游戏,需要在杯子不断移动的过程中记住球在😍哪个杯子下面。 Toto-large模型在这个任务上表😢现出色,在16帧测试中达到62.8%的准确率,在32帧测试中❤️达到72.9%的准确率。这个成绩超过了专门设计用于这类任务的😴V3D和TFC-V3D模型。更有趣的是,更长的视频序列(32🤯帧vs16帧)带来了更好的性能,说明模型确实学会了利用时间信🤯息来推理被遮挡物体的位置。 这种能力的出现是自然涌现的🚀结果,并非研究团队特意设计。Toto通过观看大量视频自然学会🚀了物体在空间中的连续性概念,理解了即使暂时看不到物体,它们依😁然遵循物理定律继续存在和移动。这种理解对于真实世界的应用至关😂重要,比如自动驾驶汽车需要记住被其他车辆暂时遮挡的行人位置。😁 除了基本的物体永恒性,Toto还展现出了更复杂的时空🤗推理能力。在处理视频时,模型学会了预测物体的运动轨迹,理解不😴同物体之间的交互关系,甚至能够推断出某些因果关系。这些能力都🔥不是通过明确的规则编程实现的,而是通过大量观看视频数据自然涌😜现的。 六、规模的力量:视觉AI的成长规律 就像😜生物学家发现动物的大脑大小与智力水平之间存在某种关系一样,研😢究团队发现了AI模型规模与性能之间的数学关系。这种关系被称为😘"缩放定律",它揭示了增加计算资源和模型参数如何转化为性能提😅升。 通过训练六个不同规模的模型(参数量从1480万到🥳19亿),研究团队发现Toto遵循着明确的幂律关系:L(C)🤗 = 7.32 × C^(-0.0378)。这个公式告诉我们⭐,当计算资源增加时,模型的损失(可以理解为"错误率")会按照🚀特定比例下降。简单来说,投入更多计算资源确实能够带来更好的性🤗能,而且这种提升是可预测的。 有趣的是,这个缩放规律与😂大型语言模型的缩放规律既相似又不同。GPT-3的缩放公式是L🤩(C) = 2.57 × C^(-0.048),指数部分-0🌟.048比Toto的-0.0378更大,意味着语言模型对计算🙄资源的利用效率更高。换句话说,同样增加一倍的计算资源,语言模👍型的性能提升会比视觉模型更明显。 这种差异可能源于视频🤯数据的特殊性质。视频帧之间存在大量冗余信息,相邻帧往往非常相🤗似,这使得"预测下一帧"这个任务比"预测下一个词"相对容易一😴些。研究团队通过分析发现,在16帧视频序列中,第一帧的预测损😅失最高,后续帧的预测损失逐渐降低并趋于稳定。这说明模型很快学😴会了利用时间冗余来简化预测任务。 尽管视觉模型的缩放效😜率略低于语言模型,但这种可预测的缩放关系依然具有重要价值。它😜为研究团队和工程师提供了明确的指导:如果想要达到特定的性能目❤️标,需要投入多少计算资源;如果预算有限,能够期望达到什么样的⭐性能水平。 为了找到最优的缩放策略,研究团队使用了μ参😜数化技术。这种技术确保了不同规模的模型都能使用相同的学习率(😍2^(-7) = 0.0078125),简化了训练过程。通过😅系统性的实验,他们证明了线性增加模型宽度和深度是一种有效的缩🌟放策略。 七、突破与局限:诚实面对研究的边界 每😀项研究都有其光辉的成就和诚实的局限,这项工作也不例外。在取得❤️令人瞩目成果的同时,研究团队也坦诚地指出了当前方法的不足之处⭐和未来需要改进的方向。 最明显的局限来自于训练数据的质🔥量。由于使用了大量来自互联网的视频数据,不可避免地包含了质量😂参差不齐的内容。与精心策划的数据集相比,这种"野生"数据包含😢噪声、模糊片段、甚至错误标注的内容。这种数据质量的不一致性会🎉影响模型的最终性能,特别是在需要精确理解的任务中。 另😁一个重要局限是对分词器的依赖。目前的方法需要先将连续的视频画🚀面转换成离散的符号,然后再进行训练。这种转换过程不可避免地会😎丢失一些信息,就像将高清照片压缩成低分辨率图像一样。更关键的❤️是,模型的表现上限受到分词器质量的制约。即使后续的AI学习过⭐程再完美,也无法超越分词器本身的信息提取能力。 视频数😊据的冗余性也带来了挑战。相邻视频帧之间的高度相似性虽然降低了😆预测难度,但也可能阻碍模型学习更深层的时间模式。模型可能过度😴依赖简单的时间插值,而没有真正理解复杂的动态过程。这就像一个😴学生通过记忆相似题目的答案来应付考试,而没有真正掌握解题的原❤️理。 在任务覆盖范围方面,当前的评估主要集中在分类、识🙌别和跟踪等相对基础的任务上。对于更复杂的密集预测任务(如语义🙄分割、深度估计)、细粒度识别(如区分不同品种的鸟类),以及长😘时间跨度的时间理解,模型的能力还没有得到充分验证。 研😆究团队的设计选择评估也主要基于ImageNet分类任务的表现😡。虽然这个任务具有一定代表性,但可能不是所有应用场景的最优配😊置。不同任务可能需要不同的架构设计、训练策略和数据配比,这些😆都需要进一步的研究和优化。 八、未来展望:视觉AI的无🔥限可能 尽管存在这些局限,这项研究为视觉AI的发展开辟😂了一条充满希望的道路。它证明了简单的"看前猜后"策略能够让A👏I获得丰富的视觉理解能力,为构建更加通用的视觉智能系统提供了🔥重要启发。 从技术发展角度来看,这项工作最重要的贡献是😎证明了视觉领域也存在类似语言模型的缩放规律。这意味着随着计算😡能力的提升和数据规模的扩大,视觉AI的能力将继续按照可预测的😊方式增长。这为未来的研究投资和技术规划提供了科学依据。 😴 在实际应用方面,Toto展现出的多任务能力特别有价值。一个❤️模型能够同时处理图像分类、视频理解、物体跟踪和机器人控制等不😴同任务,这大大降低了系统的复杂性和维护成本。未来,我们可能看😅到更多基于这种通用视觉模型的应用,从智能监控到自动驾驶,从医❤️疗影像分析到增强现实。 对于机器人领域来说,这项研究特🌟别具有启发意义。传统的机器人视觉系统往往需要针对特定任务进行🤯精心设计和调优,而Toto展现的通用视觉能力可能让机器人更容🙄易适应新环境和新任务。一个经过大规模视频预训练的机器人可能只💯需要少量特定任务的训练就能胜任复杂的操作。 在创意应用😢方面,具备时间理解能力的AI模型开辟了全新的可能性。从自动视😘频编辑、智能内容推荐,到沉浸式虚拟现实体验,这些应用都需要A⭐I深刻理解视频内容的时空结构。Toto在这些方向上展现的潜力😉令人期待。 说到底,这项研究最重要的价值在于它的哲学启🌟示:智能不一定需要复杂的规则和精巧的设计,有时候最简单的学习🙌原理就能产生最强大的能力。就像人类婴儿通过观察世界就能自然发😘展出丰富的认知能力一样,AI也能通过"观看"大量视频数据自然🤗涌现出各种智能行为。这种发现让我们对构建真正通用的人工智能系👏统更加乐观。 当然,距离创建能够像人类一样理解和互动世🤔界的AI系统,我们还有很长的路要走。但这项研究无疑是朝着正确👍方向迈出的重要一步。它不仅推动了技术边界,更重要的是为整个领😁域提供了新的思考框架和研究范式。在AI快速发展的今天,这样的🙌基础性探索具有不可估量的价值。 有兴趣深入了解技术细节😉的读者可以通过搜索"An Empirical Study o👍f Autoregressive Pre-training 🤯from Videos"在学术平台上找到完整论文,其中包含了🤔详细的实验设计、数学推导和补充分析。 Q&A Q🤔1:Toto模型是如何学习理解视频的? A:Toto采😎用"看前猜后"的训练方式,就像教孩子看连环画一样。它观看了超😉过十万小时的各种视频内容,包括日常生活、运动场景等,通过不断🤔预测下一个画面来学习理解视觉世界的规律。这种方法被称为自回归🚀预训练,让AI自然获得了图像识别、动作理解和物体跟踪等多种能😀力。 Q2:为什么视觉AI的缩放效率比语言模型低? 😀 A:主要因为视频数据的冗余性更高。相邻的视频帧往往非常相🥳似,这使得"预测下一帧"比"预测下一个词"相对容易一些。研究🙄发现第一帧预测最难,后续帧预测逐渐变容易,说明模型很快学会利💯用时间冗余。因此同样增加计算资源,视觉模型的性能提升没有语言❤️模型那么明显。 Q3:Toto在实际应用中表现如何? 🎉 A:Toto在多个任务中都表现出色。在图像分类上达到7🤩5.3%准确率,在视频理解任务中达到74.4%,在物体跟踪和😉机器人操作中也超越了多个专门模型。特别值得一提的是,它展现出❤️了"物体永恒性"理解能力,能够跟踪被遮挡的物体,这种能力是通🌟过观看视频自然涌现的,并非特意设计。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
文 | 道总有理 文 | 道总有理 9月末,大连🤗万达集团及法人王健林被兰州市中级人民法院采取限制高消费措施,😡限高涉及执行标的1.86亿元。从昔日“中国首富”到无法乘坐飞❤️机头等舱、入住星级酒店,巨大的身份反差让这一消息震动社交平台😊。 很快,情况发生反转,9月29日,王健林“限高”措施😁已取消。有媒体报道本次事件是万达下属项目公司经济纠纷,或因在😍执行层面信息不对称导致。 但这已并非万达首次陷入执行纠😜纷。 9月初,北京金融法院已新增一则对万达的执行信息,🥳标的超4亿元。截至目前,万达累计被执行总金额已突破52亿元,😁同时背负94亿元股权冻结,其中上海万达网络金融与小额贷款两家👍公司的冻结股权占比超九成。 细究这几年的万达发展,诸如💯此类风波数不胜数,有些甚至早已埋下了伏笔,更有意思的是,王健😊林与万达的生存命题,似乎也成了中国一代民营企业管理者必须面对😜的时代课题。 从「强势崛起」到「大势已去」 19😡88年,中国成立房地产公司需要100万元注册资金,王健林就借💯了100万。 据他自己说,借款必须找人担保,担保人拿走😘50万元,实际上只拿到50 万元,而且借100 万元给他的人😊,要求他5年还款,每年25%的回报。看起来条件非常苛刻,但彼🌟时王健林骨子里的风险精神就开始显露。 他拿着借来的钱在😍大连西岗区创立了一家房地产公司。 当时,中国市场经济浪😍潮涌得热烈,到1992年,这家公司已经占据大连房地产市场20🔥%的份额,年销售额达到20亿,也是这一年,王健林掏出2000😅块重金登报征名,最终,从满纸投稿里挑出的“万达”二字,寓意万😍事顺遂、通达四方。 王健林不止一次在公开场合把万达的成🤩长分为四步。 第一步在1993年,他带着团队南下广州,🙌 那时候,民营企业到外地发展困难重重。王健林就去找广州😉当地企业谈,最后跟广州华侨房地产公司谈好,一年交200 万元🔥,注册了一个分公司,也正是从广州开始,万达逐渐从一个区域公司🙌变成全国性公司。 第二步在2000年,进军商业地产。 😡 2000年前,万达主要做住宅开发,之所以要转型,王健林🎉在哈佛大学演讲时提到,是因为当时民营企业的医疗保险体系尚未完🤯善,公司有两个老员工,一个得了癌症,一个得了肝病,这件事促使😆他想要更多现金来保障员工福利。 住宅房地产开发的现金流😡不稳定。 为了寻求稳定的现金流,万达做过制造业、制药厂😀,还做过超市,外贸等等,到2000年,决定把不动产作为企业的🤯支柱产业,2004年,王健林提出“城市综合体”的概念,把商场😎、酒店、写字楼、公寓都整合在一起。 展开全文 从😊那年开始,万达开启了属于自己的时代,最风光的时候,地方排队与😍万达合作,甚至在上海,万达都以超低价拿下了五角场的场块。同时👏,万达广场飞速扩张,唐山万达广场110万平米,石家庄万达广场😆更是达到183万平米。 第三步在2006年,因为万达购🤗物中心需要配电影院,王健林开始琢磨文化产业。 他投资了😎万达乐园,扬言要让上海迪士尼二十年无法盈利。最初万达跟美国时😜代华纳院线合作,但由于两方面原因,双方没能合作下去,万达先后🤩和上海、江苏、广东、北京等地的广电集团谈合作。 第四步🔥在2015年前后,万达大举进军海外。 彼时,万达宣布了🥳十年战略规划,计划十年内成为世界一流的跨国企业。2014年到😉2016年,万达投资了16个海外项目,买下位于马德里市中心的😉西班牙大厦,以9.21亿英镑吞下了欧洲第一大院线,买下美国传👍奇影业。 那几年,万达风光无限,综合过往年度报告,20😀09年,万达员工总人数近两万人,2015年达到十三万人,等到😢2016年,万达的总资产已经逼近8000亿元,营业收入达到2🤗550亿元,王健林连续三年成为中国的首富。 在他看来,😎万达“去地产化”目标终于实现。 2017年,万达在全国😁已经有近200个商业项目,也正是在当年,万达急转直下。2月份😎,万达的海外收购之路受挫,6月份,遇上“股债双杀”,7月份,😢万达在海外的六个项目被严格管控。 2018年1月,万达🙌集团2017年年会在哈尔滨召开,会上称2017年是万达集团历🙄史上难忘的一年,万达商业不得已转让文旅项目、酒店资产,曾经让🤯首富引以为傲的四步棋,终于沦为“弃子”。 2017年,🎉王健林以438亿的价格,把13个文旅项目卖给了融创,又把77🎉家酒店以199亿卖给了富力,2019年,万达影视被儒意影业收😉购,2020年,百年人寿卖给了绿城,百货业务卖给了苏宁。 👍 到了2023年,万达大规模出售购物广场,三十多座万达广场🙌易主。2024年,北京CBD的总部大楼卖给了新华保险和中金资😴本,万达商管的控制权交给了太盟投资集团;截至2025年9月,🤗万达广场已累计出售85个。 或许,浪潮从不会永远朝着一🥳个方向奔涌,后来的每一次出售,也都是王健林在时代洪流下的无奈🎉抉择。当万达广场的灯光熄灭在夜色里,不只是一个企业的起落,更❤️是一个时代里,野心与命运、辉煌与落寞交织的篇章。 冲动😆退市「误终身」 绝大部分人起底王健林会把他与万达的不幸😴归咎于2016年的私有化退市上。 早在2014年,万达😉商业成功在港股上市,2015年,万达商业的股价最高涨到了76🥳港元,但好景不长,很快就跌破发行价,跌到30港元左右。此时的😉王健林对港股的低估很是失望,一口气以52.8港元的价格,回购👏了万达商业所有H股股票。 私有化退市后,引发了一系列连😊锁反应,包括A股IPO受阻;转战港股再受挫;对赌协议引爆危机😁;索债方生出多米诺骨牌效应;资产大规模出售……一连串的危机叠💯加在一起,最终导致了王健林如今的局面。 至于王健林为什💯么选择私有化退市,除了对港股估值的不满,其过于自信的行事作风🥳也一度被视为另一个主因。纵观这位首富先生的前半生,一个“赌”😂字基本可以概括,他本人也曾说过:“没有人永远赢得所有赌局,但🎉永远有人愿意赌。” 但在这两大因素之外,万达本身的发展🔥其实才是王健林选择私有化退市的关键。 2015年,万达🌟商业收入1242亿元,比2014年增长15.14%;归属于母🤩公司股东净利润299.7亿元,同比增长20.66%。看起来很🤔亮眼,但细究起来风险不少。据悉,万达商业虽有三大业务,但主营🤩收是物业销售板块。 当年,物业销售为万达商业贡献了82❤️.5%的收入,总合同销售额约为人民币1640亿元。 但🔥这一成绩与万达本身的关系不大,更多是得益于地产行业回暖,20😜15年,《中国房地产企业销售TOP100排行榜》显示,201👍4年万达商业销售金额1501亿元人民币排名第三, 2015年🙄销售金额1512.6亿元人民币,位列第四。 换句话说,😉在地产行业发达的一年,万达排名不进反退。 其次,201🙌5年万达商业业绩公告显示,其物业存货出现15%的增长,酒店业😀务净利润为亏损6.02亿元人民币;万达商业物业租赁出租率从2😆014年的99.32%下滑到2015年的96.37%,同期,🙌太古地产、中粮地产2015年的出租率都维持在99%左右。 🚀 或许,港股对万达商业的估值未必失了公允。 另外,商😆业地产是“吞金兽”,万达商业的负债率一直居高不下,尤其是20❤️13年,万达商业的资产负债率接近90%,2015年报显示,万🙌达商业的净负债率为61.05%,较2014年底的56.68%🤩上升了4.37个百分点。 对比之下,同行的净负债率维持👍在40%左右,华润置地甚至已降到23%。 这时候,王健❤️林发现发债券比在股市融资划算。2015年8月28日,万达商业❤️首次五年期(3+2)50亿元公司债成功发行,票面利率4.09👏%,2015年10月15日、2016年1月12日,万达商业两🔥次发行五年期、额度为50亿元的公司债券,票面利率分别为3.9😂3%和3.20%。 当然,万达商业退市不是不想上市,是🤯想换个地方上市,然而,后续的一切已不需要赘述。 十年前⭐,王健林手握292座万达广场、1300家影院、13家文旅城、😊80家五星级酒店、150亿美元海外投资,以2200亿身家登上👍胡润百富榜首富。2025年,《2025新财富500创富榜》上🙄,王健林父子的财富为588.1亿元。 时至今日,曾经叱😂咤风云的首富跌进谷底。 再路过那些换了主人的万达广场,😉还会有很多人想起王健林在商海上挥斥方遒的模样,只是这一次,赌🚀桌早已散场,筹码尽失,资本市场从不同情“赌徒”,一旦行差踏错😊,都有可能满盘皆输,在时代的风里,满是繁华落尽的唏嘘。 😁 首富翻盘,也要靠「下沉市场」了 十年光阴,曾经的商业🤗帝国一点点瓦解,王健林卖了半副身家,手中的资产版图大幅收缩。🎉那么,险些被限高的“首富”还剩什么? 不完全统计显示,👍截至目前,万达集团对外投资仍处于存续状态的企业为24家,持股😎超过50%的为15家;王健林所控制的企业有76家处于存续期间😎,对外投资的11家企业中则仅有6家显示为存续状态。 值😉得注意的是,万达集团及王健林所拥有的资产包括大连新达盟40%⭐股权、约200座万达广场,以及万达体育、万达宝贝王等。这大概👏是王健林能否在70岁高龄再逆袭的重要筹码,尤其是幸存的万达广🎉场。 从这些广场的分布来看,王健林远没有认输,因为他卖👏掉的与留下的都藏着他对未来的渴望。比如,王健林正加速出手一二🚀线城市的万达广场,2025年5月6日,王健林500亿元出售4😜8座万达广场,这其中覆盖多城首发项目及一二线城市元老级项目。😍 结合赢商大数据最新《2024中国城市商业力》分析显示😅,商业一线和准一线城市项目占比高达33%,北京、上海、广州、👍成都、重庆等重要城市均有涉及;商业二线城市项目占27%。 😜 相反的,遍布全国县城的万达广场却很少被列入出售名单。 🤔 理由很简单,因为下沉市场的万达广场展现出了强劲的消费活力😡。 2023年12月,四川宜宾下辖县级市宜昌万达广场开🌟业,开业3天累计客流近40万,销售额超千万;2024年1月,😎重庆忠县万达广场开业首日,共接待消费者23.6万人次,销售额😎突破750万元,创下行业多个第一。 投资与运营成本上,💯县城万达广场也有超高性价比。 以湖北宜都万达广场为例,😴其总建筑面积约12万平方米,总投资约8亿元,而一线城市同等规😎模项目投资额往往超过20亿元。在运营成本上,县城万达广场的租😴金、人力成本较一二线城市低30%-50%,宜都万达广场租金回😴报率达6.8%,高于一线城市平均5.2%的水平。 同时👏,县城万达广场在资源获取上优于一二线城市项目。 以重庆😆忠县为例,当地为万达广场提供了土地出让金返还、税收优惠等政策⭐支持,并协调开通了直达广场的公交线路。在万达面临流动性压力的😀背景下,县城万达广场的现金流价值凸显,湖北宜都万达广场年租金🤗收入约8000万元。 公开数据显示,截至2024年底,🙄全国513座万达广场中,三四线城市占比超过60%,同时,轻资👏产占比超40%。这也是王健林为自己留的后路,在一些出售的万达😡广场里,万达仍然保留运营管理权。 轻资产模式对万达而言🤗,是退而求其次的生存法则。 总的来说,王健林的万达广场😁分布已从全国扩张转向“五环外留守”,三四线城市与整个下沉地区🤔成为最后的生存空间。尽管通过轻资产化和业态调整,暂时维持了运😂营,但债务危机、消费疲软和竞争加剧,无疑又构成了一重新的枷锁🤗。 王健林还有机会翻身吗? 未来几年,这些幸存的🤯万达广场能否在县域市场续写“一个广场改变一座城”的神话,还是😉未知数。若无法实现重新上市或引入战略投资者,这些广场可能进一😘步被出售或抵押,届时,王健林的商业版图或将彻底重构。返回搜狐🙄,查看更多
推荐阅读
王沪宁主持召开全国政协主席会议
3129
华夏基金迎新任董事长邹迎光,李一梅为副董事长
9609
普京签署总统令,缩短俄联邦财产私有化程序
2740
董事长变更不到半年,东海基金又见副总辞职
2328
2025年全国城市联合招聘高校毕业生秋季专场推出172场特色服务活动
8471
多氟多:公司储能电池已稳定供货于国内外客户,现阶段储能订单饱满
4368
中国证监会、财政部就《证券期货违法行为吹哨人奖励工作规定(征求意见稿)》公开征求意见
4790
浙文互联:两名股东拟合计减持不超3%公司股份
5833
德邦股份:副董事长陈岩磊辞职
3190
全国农渔循环种养高质量发展推进会在四川泸州召开
1366
东风股份:获得政府补助5800万元
3780
中方关于联大第2758号决议的立场文件
2964
白银有色:收到甘肃证监局行政监管措施决定书
3645
新诺威:筹划发行H股股票并在香港联交所上市
3389
中国石油:聘任任立新为总裁
3989
法拉第未来宣布完成对QLGN的战略投资
5490
生态环境部就《2024、2025年度全国碳排放权交易市场钢铁、水泥、铝冶炼行业配额总量和分配方案(征求意见稿)》公开征求意见
4454
巴基斯坦西南部爆炸袭击致至少10人死亡
8283
均胜电子港股上市申请获中国证监会备案
2812
三一重工港股上市申请获中国证监会备案
4300
东方财富:股东陆丽丽、沈友根拟询价转让1.5%股份
5829