VITA-1.5:让计算机像人一样同时"看"和"说话"的革命性突破
吃瓜电子官网最新热点:VITA-1.5:让计算机像人一样同时"看"和"说话"的革命性突破
更新时间: 浏览次数:4884
这项由南京大学、腾讯优图实验室、厦门大学等多家机构联合完成的🤗研究发表于2025年1月21日,论文题为《VITA-1.5:😘 Towards GPT-4o Level Real-Tim😅e Vision and Speech Interactio🤔n》。有兴趣深入了解的读者可以通过GitHub开源项目(ht😁tps://github.com/VITA-MLLM/VIT😅A)获取完整的代码和研究资料,该项目目前已获得超过2000个😂星标。 现在,请你闭上眼睛,设想这样一个场景:你正在厨😆房里准备晚餐,双手忙着切菜,突然想要查询某道菜的做法。你只需😊要对着手机说话,同时用手机摄像头对准你面前的食材,一个智能助😆手就能立刻理解你在做什么,然后用清晰的语音告诉你接下来该怎么😉做。这不是科幻电影,而是VITA-1.5这个新系统正在实现的😘能力。 过去,计算机要想同时处理视觉信息和语音对话是极🤩其困难的。就像一个人要同时用左手画画、右手弹琴,还要唱歌一样👏,每项技能都需要大脑的不同区域协调工作。传统的人工智能系统通😴常只能专注于一种能力,要么是看图识别,要么是语音对话,很少能🌟像人类一样自然地结合这些技能。 VITA-1.5的突破😉性在于它能够像人类一样,同时运用视觉和听觉进行自然对话。这个😂系统不需要先把语音转成文字,再把回答转成语音这样繁琐的步骤,😉而是能够直接进行语音到语音的交流。这就好比过去的翻译需要先把😍中文写在纸上,翻译成英文,再读出来;而现在可以直接进行同声传🙌译一样流畅。 研究团队面临的最大挑战是如何让一个系统同🤩时掌握看图和说话这两种完全不同的能力。视觉信息就像是一幅静态👏的画,包含空间和细节信息;而语音信息则像是流动的音乐,包含时🔥间序列和韵律变化。这两种信息的处理方式截然不同,强行让系统同😅时学习往往会造成"顾此失彼"的问题,就像让一个学生同时学习数🙄学和音乐,可能两样都学不好。 一、循序渐进的三阶段训练😘策略:从基础到精通的学习之路 VITA-1.5的成功秘🚀诀在于它采用了一种非常聪明的分阶段训练方法,就像培养一个全能😘型人才一样,先让他掌握基础技能,再逐步添加新能力。 第👏一阶段是建立视觉理解的基础。研究团队首先让系统学会"看懂"图🙄片和视频。这个过程就像教一个孩子认识世界一样,从简单的物体识😢别开始,逐渐学会理解复杂的场景。系统使用了一个名为Inter😜nViT-300M的视觉编码器作为"眼睛",能够将448×4👏48像素的图像转换成256个视觉标记。对于高分辨率图像,系统🔥还采用了动态分块策略,就像用放大镜仔细观察图片的每个细节一样🥳。 展开全文 在处理视频时,VITA-1.5采用💯了智能的帧采样策略。如果视频短于4秒,系统会均匀采样4帧;如❤️果视频长度在4-16秒之间,则每秒采样一帧;对于超过16秒的😂长视频,系统会均匀采样16帧。这种策略确保了系统既能捕捉到视😀频的关键信息,又不会因为处理过多帧而影响效率。 这个阶🚀段分为三个小步骤。首先是视觉对齐训练,系统学习如何将视觉特征🌟与语言模型连接起来,只有视觉适配器是可训练的,其他模块保持冻🤯结状态。接着是视觉理解训练,系统学会生成图像描述,这时视觉模💯块和语言模型都参与训练。最后是视觉指令调优,系统学会回答关于😢图像的各种问题,同时保留部分描述数据以增加训练的多样性。 👏 第二阶段引入了音频理解能力。就像一个已经会看的孩子开始学😂会听和理解语音一样。系统的音频编码模块包含多个下采样卷积层和👍24个Transformer块,拥有约3.5亿个参数,输出帧👏率为12.5Hz。输入采用梅尔滤波器组特征,窗口大小为25毫🔥秒,位移为10毫秒。 音频对齐训练使用了11万小时的内😅部语音转录配对数据,覆盖中英文两种语言。研究团队采用两步法:😊首先训练语音编码器,使用常见语音识别系统的连接时序分类损失函😎数来预测转录文本;然后训练语音适配器,将音频编码器与语言模型😉集成,同时引入特殊的可训练输入标记来指导语音理解过程。 🥳 音频指令调优阶段,系统学会处理语音问答任务。研究团队采样了🙌4%的描述数据和20%的问答数据,约一半的文本问题被随机替换😢为相应的语音版本。系统还添加了分类头来区分输入是来自语音还是🌟文本,使模型能够更准确地处理不同类型的输入。 第三阶段😎是最关键的音频输出训练。前两个阶段让系统学会了"看"和"听"🚀,现在要教它"说话"。系统使用TiCodec作为编解码模型,🌟定制了单一码本设计,码本大小为1024,简化了推理阶段的解码🎉过程。编解码模型负责将连续语音信号编码为离散语音标记,频率为💯40Hz,同时具备将这些标记解码回采样率为24000Hz语音😉信号的能力。 为了让系统能够输出语音,研究团队在文本标😆记后添加了两个语音解码器:非自回归语音解码器负责处理全局文本🤗标记并建模语义特征,目标是生成语音标记的初始分布;自回归语音🤗解码器则基于非自回归解码器产生的信息逐步生成更高质量的语音标🚀记。这种设计就像先有一个大概的轮廓,然后逐步细化成清晰的画面⭐一样。 编解码训练使用3000小时的文本-语音配对数据😡训练编解码模型,而解码器训练阶段,文本通过分词器和语言模型的⭐嵌入层获得嵌入向量,语音通过编解码模型编码器获得语音标记。文😴本嵌入向量被发送到非自回归语音解码器获得全局语义特征,然后这😍些特征被送到自回归语音解码器预测相应的语音标记。重要的是,在😢这个阶段语言模型保持冻结状态,因此不会影响多模态性能。 😁 二、强大的多模态架构设计:统一而高效的信息处理中心 🤔VITA-1.5的整体架构就像一个高度协调的管弦乐团,每个组😆件都有自己的职责,但能够完美地协同工作。输入端采用了"多模态😆编码器-适配器-语言模型"的配置,将视觉和音频变换器与多层连🚀接器结合,目标是增强对视觉、语言和音频的统一理解。 在😜视觉处理方面,系统的"眼睛"采用InternViT-300M🥳作为视觉编码器,输入图像尺寸为448×448像素,每张图像生💯成256个视觉标记。对于需要精细处理的高分辨率图像,系统采用😁动态分块策略来捕获局部细节,提高图像理解的准确性。视频被视为🤗特殊的多图像输入进行处理。为避免产生过多可能阻碍处理效率的视😡觉标记,视频帧不应用动态分块处理。视觉适配器采用两层多层感知🤔机结构,将视觉特征映射为适合语言模型理解的视觉标记。 ⭐音频处理模块的设计同样精巧。语音编码器由多个4倍下采样卷积层🚀和24个Transformer块组成,隐藏层大小为1024。😍下采样层帮助降低音频特征的帧率,提高语言模型的处理速度。语音👏适配器包含多个2倍下采样的卷积层。整个音频编码模块约有3.5😡亿参数,输出帧率为12.5Hz,确保了高效的音频处理能力。 🤗 语音解码器部分采用了创新的双重解码设计。TiCodec🥳被用作编解码模型,定制了单一码本设计,码本大小为1024,这❤️种设计简化了推理阶段的解码过程。编解码模型能够将连续语音信号🌟编码为40Hz频率的离散语音标记,同时具备将这些标记解码回2😜4000Hz采样率语音信号的能力。 当前的语言模型只能🌟输出文本标记,要获得语音生成能力需要让语言模型能够输出语音标😁记。研究团队在文本标记后添加了两个语音解码器:非自回归语音解😍码器全局处理文本标记并建模语义特征,目标是生成语音标记的初始🤩分布;自回归语音解码器基于非自回归解码器产生的语音信息逐步生🌟成更高质量的语音标记。最终的语音标记序列通过编解码模型的语音🤩解码器转换为连续语音信号流。两个解码器都采用4层LLaMA解🥳码器结构,隐藏层大小为896,参数量约为1.2亿。 三🎉、丰富多样的训练数据:涵盖多语言多场景的学习素材 VI😊TA-1.5的训练就像培养一个博学的学者,需要大量丰富多样的🤗学习材料。整个训练数据集包含约2.21万个问题,涵盖中英文两😴种语言,确保系统能够处理不同语言环境下的多模态交互。 😢图像描述数据是系统学习视觉理解的基础。ShareGPT4V提🌟供了9.95万个英文图像描述问题,ALLaVA-Captio🙄n贡献了69.74万个英文描述,SharedGPT4o-Im👍age增加了5.55万个英文样本,还有59.37万个中文合成👍数据。这些数据教会系统如何用自然语言描述图像内容,就像训练一🤩个解说员学会生动地描述所看到的场景。 图像问答数据进一😘步提升了系统的推理能力。LLaVA-150K提供了21.84⭐万个中文问答对,LLaVA-Mixture-sample贡献😎了187.21万个英文样本,LVIS-Instruct增加了👍93.94万个英文问答,ScienceQA提供了1.27万个😉英文科学问题,ChatQA贡献了7390个英文对话问答。这些👏数据涵盖了从一般图像问答到数学推理的各种任务,让系统学会在不🙌同情境下进行视觉推理。 文字识别和图表理解数据帮助系统👏掌握更精细的视觉技能。Anyword-3M提供了170.93😆万个中文文字识别样本,ICDAR2019-LSVT贡献了36😀.63万个中文样本,UReader和SynDOG分别提供了英🙌文文字识别训练数据。这些数据让系统能够识别图像中的文字内容,😴理解图表和文档,就像训练一个既能看图又能读字的助手。 😡视频理解数据让系统学会处理动态视觉信息。ShareGemin😴i提供了20.57万个中文视频描述样本,合成数据贡献了56.⭐94万个中英文视频样本和433.63万个中英文视频问答对。这😍些数据教会系统理解视频中的动作、场景变化和时间关系。 🤔纯文本数据确保系统保持强大的语言理解和生成能力。157.42😊万个中英文合成文本问答对帮助系统在处理多模态信息的同时,不丢😂失原有的文本处理能力。 除了这些图像和视频数据,系统还🙄使用了11万小时的内部语音转录配对数据进行音频编码器训练和音😁频编码器与语言模型的对齐,涵盖中英文两种语言。另外,3000🤗小时由文本到语音系统生成的文本-语音配对数据用于训练语音解码🤗器,确保系统能够生成自然流畅的语音回复。 四、全面的性😜能评估:与顶级模型的正面较量 为了验证VITA-1.5🎉的实际能力,研究团队进行了全方位的性能测试,就像给一个全能运😂动员安排各种比赛项目一样。 在图像理解能力测试中,VI🙄TA-1.5与多个开源和闭源模型进行了对比。测试采用了九个权😢威评估基准,包括MME、MMBench、MMStar、MMM💯U、MathVista、HallusionBench、AI2🙄D、OCRBench和MMVet。这些基准覆盖了通用多模态能🚀力、数学推理、幻觉检测、图表理解和文字识别等多个方面。 😅 结果显示,VITA-1.5在完成三个阶段训练后,平均得分达😡到66.8,表现可比肩领先的图像视频多模态大语言模型。特别值❤️得注意的是,在完成第二阶段(音频输入调优)和第三阶段(音频输💯出调优)训练后,VITA-1.5几乎完全保持了第一阶段(视觉😍语言训练)的原始视觉语言能力,这证明了分阶段训练策略的有效性🤯。 与闭源模型相比,VITA-1.5的表现同样令人印象💯深刻。在某些指标上,它甚至超越了GPT-4V和GPT-4o-❤️mini等知名模型。例如,在OCRBench测试中,VITA🤔-1.5得分732,超过了GPT-4V的678分。在MME综👏合评估中,VITA-1.5获得2352分,表现稳定可靠。 😍 视频理解能力测试采用了Video-MME、MVBench😍和TempCompass等基准。尽管VITA-1.5在某些视🚀频理解任务上仍落后于GPT-4o和Gemini-1.5-Pr😉o等顶级闭源模型,但它与许多开源模型的表现相当,显示出良好的😅视频处理能力。在TempCompass基准上,VITA-1.🚀5得分66.7,接近InternLM-XComposer-2🌟.5的62.1分和MiniCPM-V-2.6的66.3分。 😜 语音识别能力的测试结果尤其令人鼓舞。在中文语音识别方面🤗,VITA-1.5在aishell-1测试集上的字符错误率仅🌟为2.2%,在test net上为8.4%,在test me😅eting上为10.0%,均显著优于VITA-1.0的表现。😘在英文语音识别方面,系统在dev-clean上的词错误率为3😎.3%,在dev-other上为7.2%,在test-cle🔥an上为3.4%,在test-other上为7.5%,表现同🤯样出色。 这些测试结果不仅超越了专门的语音模型如Wav🥳2vec2-base,还优于其他多模态模型如Mini-Omi😢ni2和Freeze-Omini。这证明VITA-1.5成功😡地整合了先进的语音能力,能够支持高质量的多模态交互。 🙌五、技术创新与实际应用:从实验室到现实生活的跨越 VI😜TA-1.5的技术创新不仅体现在性能数据上,更重要的是它为实⭐际应用开辟了新的可能性。这个系统实现了真正的端到端语音到语音😀对话,无需依赖外部的语音识别或文本转语音模块,这大大降低了延🌟迟,提高了交互的自然性。 在实际使用场景中,VITA-😊1.5展现出了接近实时的交互能力。用户可以打开摄像头,进行流🙄畅的语音对话,系统能够同时理解视觉信息和语音指令,然后直接用🎉语音回应。这种能力在多个领域具有巨大的应用潜力。 在教👍育领域,VITA-1.5可以作为智能辅导助手,学生可以通过语🚀音提问,同时展示作业或学习材料,系统能够理解具体问题并提供针🙄对性的语音解答。在医疗保健领域,它可以协助医生进行病例分析,🙄通过语音描述症状的同时展示影像资料,获得初步的诊断建议。 😆 在客户服务方面,VITA-1.5可以提供更加自然和高效的😴服务体验。客户可以通过语音描述问题,同时展示相关产品或文档,🙌系统能够准确理解情况并提供相应的解决方案。在无障碍技术领域,🤩这个系统可以为视觉或听觉障碍人士提供更好的信息获取和交流方式⭐。 研究团队已经将VITA-1.5的训练和推理代码在G😎itHub上开源,项目地址为https://github.c❤️om/VITA-MLLM/VITA,目前已获得超过2000个😆星标,这表明了学术界和工业界对这项技术的高度关注。开源发布降😘低了技术门槛,使更多研究者和开发者能够基于VITA-1.5进❤️行进一步的研究和应用开发。 与传统的多模态系统相比,V😍ITA-1.5的主要优势在于其统一的端到端架构。传统系统通常🤗需要多个独立模块的协作,例如先用自动语音识别将语音转为文本,😉然后用文本到语音系统生成回复语音,这种流水线式的处理方式不仅😁增加了延迟,还可能在各个环节引入错误。VITA-1.5通过统😂一的训练策略,让所有模态在同一个框架下协同工作,实现了更加自🙌然和高效的交互。 系统的另一个重要特点是其可扩展性。三😢阶段训练策略不仅解决了多模态冲突问题,还为未来集成更多模态(🚀如触觉、嗅觉等)提供了框架参考。这种渐进式的能力扩展方法可能👏成为构建更加全面的人工智能系统的标准范式。 从技术发展👍的角度来看,VITA-1.5代表了多模态人工智能从专业工具向😁日常助手转变的重要一步。它展示了如何通过精心设计的训练策略和🎉架构,让人工智能系统具备更加接近人类的感知和交流能力。这不仅😁推进了人工智能技术的发展,也为构建更加智能和便民的数字社会提💯供了重要支撑。 说到底,VITA-1.5的出现标志着我😢们正在进入一个全新的人机交互时代。过去,我们需要学习如何与计🌟算机"对话",使用特定的命令和界面;现在,计算机开始学习如何😢像人一样与我们交流,能看能听能说,理解我们的意图和需求。这种🤩转变不仅会改变我们使用技术的方式,更会重新定义人与机器之间的🤯关系。 虽然VITA-1.5目前在某些复杂的视频理解任👍务上仍有提升空间,但它已经展现出了巨大的潜力和价值。随着技术😉的不断完善和应用场景的不断扩展,我们有理由相信,这样的多模态🤗智能系统将在不久的将来成为我们日常生活中不可或缺的助手,让人🔥工智能真正服务于人类的美好生活。 对于那些关注人工智能😜发展趋势的读者,VITA-1.5的成功经验提供了宝贵的启示:😍技术突破往往不是一蹴而就的,而是需要通过精心设计的策略和持续🙌的努力来实现。对于想要了解更多技术细节的研究者和开发者,可以⭐通过访问GitHub项目页面(https://github.😴com/VITA-MLLM/VITA)获取完整的代码和文档资🤯源。 Q&A Q1:VITA-1.5和其他AI语⭐音助手有什么区别? A:VITA-1.5最大的区别是能👏同时处理视觉和语音信息进行实时对话。传统AI助手要么只能听语😴音,要么只能看图片,而VITA-1.5可以一边看摄像头画面一😢边进行语音对话,就像真人一样同时用眼睛和耳朵理解你的需求,然🚀后直接用语音回答,不需要先转成文字再转成语音的中间步骤。 🚀 Q2:普通人什么时候能用上VITA-1.5? A:👍目前VITA-1.5还主要是研究阶段的技术,研究团队已经在G🙌itHub上开源了代码,但普通用户直接使用还需要一定的技术门😢槛。不过随着技术成熟和产业化推进,预计未来1-2年内可能会有😁基于这种技术的商业产品出现,让普通人也能体验到这种多模态AI😊交互。 Q3:VITA-1.5的语音对话质量怎么样? 😜 A:根据测试结果,VITA-1.5在中英文语音识别方面😍表现出色,中文字符错误率低至2.2%,英文词错误率为3.3-😉7.5%,超越了许多专门的语音识别系统。它能够进行接近实时的🤗语音交互,语音质量自然流畅,在保持强大视觉理解能力的同时实现👍了高质量的语音对话功能。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
文 | 道总有理 文 | 道总有理 9月末,大连🤗万达集团及法人王健林被兰州市中级人民法院采取限制高消费措施,😡限高涉及执行标的1.86亿元。从昔日“中国首富”到无法乘坐飞❤️机头等舱、入住星级酒店,巨大的身份反差让这一消息震动社交平台😊。 很快,情况发生反转,9月29日,王健林“限高”措施😁已取消。有媒体报道本次事件是万达下属项目公司经济纠纷,或因在😍执行层面信息不对称导致。 但这已并非万达首次陷入执行纠😜纷。 9月初,北京金融法院已新增一则对万达的执行信息,🥳标的超4亿元。截至目前,万达累计被执行总金额已突破52亿元,😁同时背负94亿元股权冻结,其中上海万达网络金融与小额贷款两家👍公司的冻结股权占比超九成。 细究这几年的万达发展,诸如💯此类风波数不胜数,有些甚至早已埋下了伏笔,更有意思的是,王健😊林与万达的生存命题,似乎也成了中国一代民营企业管理者必须面对😜的时代课题。 从「强势崛起」到「大势已去」 19😡88年,中国成立房地产公司需要100万元注册资金,王健林就借💯了100万。 据他自己说,借款必须找人担保,担保人拿走😘50万元,实际上只拿到50 万元,而且借100 万元给他的人😊,要求他5年还款,每年25%的回报。看起来条件非常苛刻,但彼🌟时王健林骨子里的风险精神就开始显露。 他拿着借来的钱在😍大连西岗区创立了一家房地产公司。 当时,中国市场经济浪😍潮涌得热烈,到1992年,这家公司已经占据大连房地产市场20🔥%的份额,年销售额达到20亿,也是这一年,王健林掏出2000😅块重金登报征名,最终,从满纸投稿里挑出的“万达”二字,寓意万😍事顺遂、通达四方。 王健林不止一次在公开场合把万达的成🤩长分为四步。 第一步在1993年,他带着团队南下广州,🙌 那时候,民营企业到外地发展困难重重。王健林就去找广州😉当地企业谈,最后跟广州华侨房地产公司谈好,一年交200 万元🔥,注册了一个分公司,也正是从广州开始,万达逐渐从一个区域公司🙌变成全国性公司。 第二步在2000年,进军商业地产。 😡 2000年前,万达主要做住宅开发,之所以要转型,王健林🎉在哈佛大学演讲时提到,是因为当时民营企业的医疗保险体系尚未完🤯善,公司有两个老员工,一个得了癌症,一个得了肝病,这件事促使😆他想要更多现金来保障员工福利。 住宅房地产开发的现金流😡不稳定。 为了寻求稳定的现金流,万达做过制造业、制药厂😀,还做过超市,外贸等等,到2000年,决定把不动产作为企业的🤯支柱产业,2004年,王健林提出“城市综合体”的概念,把商场😎、酒店、写字楼、公寓都整合在一起。 展开全文 从😊那年开始,万达开启了属于自己的时代,最风光的时候,地方排队与😍万达合作,甚至在上海,万达都以超低价拿下了五角场的场块。同时👏,万达广场飞速扩张,唐山万达广场110万平米,石家庄万达广场😆更是达到183万平米。 第三步在2006年,因为万达购🤗物中心需要配电影院,王健林开始琢磨文化产业。 他投资了😎万达乐园,扬言要让上海迪士尼二十年无法盈利。最初万达跟美国时😜代华纳院线合作,但由于两方面原因,双方没能合作下去,万达先后🤩和上海、江苏、广东、北京等地的广电集团谈合作。 第四步🔥在2015年前后,万达大举进军海外。 彼时,万达宣布了🥳十年战略规划,计划十年内成为世界一流的跨国企业。2014年到😉2016年,万达投资了16个海外项目,买下位于马德里市中心的😉西班牙大厦,以9.21亿英镑吞下了欧洲第一大院线,买下美国传👍奇影业。 那几年,万达风光无限,综合过往年度报告,20😀09年,万达员工总人数近两万人,2015年达到十三万人,等到😢2016年,万达的总资产已经逼近8000亿元,营业收入达到2🤗550亿元,王健林连续三年成为中国的首富。 在他看来,😎万达“去地产化”目标终于实现。 2017年,万达在全国😁已经有近200个商业项目,也正是在当年,万达急转直下。2月份😎,万达的海外收购之路受挫,6月份,遇上“股债双杀”,7月份,😢万达在海外的六个项目被严格管控。 2018年1月,万达🙌集团2017年年会在哈尔滨召开,会上称2017年是万达集团历🙄史上难忘的一年,万达商业不得已转让文旅项目、酒店资产,曾经让🤯首富引以为傲的四步棋,终于沦为“弃子”。 2017年,🎉王健林以438亿的价格,把13个文旅项目卖给了融创,又把77🎉家酒店以199亿卖给了富力,2019年,万达影视被儒意影业收😉购,2020年,百年人寿卖给了绿城,百货业务卖给了苏宁。 👍 到了2023年,万达大规模出售购物广场,三十多座万达广场🙌易主。2024年,北京CBD的总部大楼卖给了新华保险和中金资😴本,万达商管的控制权交给了太盟投资集团;截至2025年9月,🤗万达广场已累计出售85个。 或许,浪潮从不会永远朝着一🥳个方向奔涌,后来的每一次出售,也都是王健林在时代洪流下的无奈🎉抉择。当万达广场的灯光熄灭在夜色里,不只是一个企业的起落,更❤️是一个时代里,野心与命运、辉煌与落寞交织的篇章。 冲动😆退市「误终身」 绝大部分人起底王健林会把他与万达的不幸😴归咎于2016年的私有化退市上。 早在2014年,万达😉商业成功在港股上市,2015年,万达商业的股价最高涨到了76🥳港元,但好景不长,很快就跌破发行价,跌到30港元左右。此时的😉王健林对港股的低估很是失望,一口气以52.8港元的价格,回购👏了万达商业所有H股股票。 私有化退市后,引发了一系列连😊锁反应,包括A股IPO受阻;转战港股再受挫;对赌协议引爆危机😁;索债方生出多米诺骨牌效应;资产大规模出售……一连串的危机叠💯加在一起,最终导致了王健林如今的局面。 至于王健林为什💯么选择私有化退市,除了对港股估值的不满,其过于自信的行事作风🥳也一度被视为另一个主因。纵观这位首富先生的前半生,一个“赌”😂字基本可以概括,他本人也曾说过:“没有人永远赢得所有赌局,但🎉永远有人愿意赌。” 但在这两大因素之外,万达本身的发展🔥其实才是王健林选择私有化退市的关键。 2015年,万达🌟商业收入1242亿元,比2014年增长15.14%;归属于母🤩公司股东净利润299.7亿元,同比增长20.66%。看起来很🤔亮眼,但细究起来风险不少。据悉,万达商业虽有三大业务,但主营🤩收是物业销售板块。 当年,物业销售为万达商业贡献了82❤️.5%的收入,总合同销售额约为人民币1640亿元。 但🔥这一成绩与万达本身的关系不大,更多是得益于地产行业回暖,20😜15年,《中国房地产企业销售TOP100排行榜》显示,201👍4年万达商业销售金额1501亿元人民币排名第三, 2015年🙄销售金额1512.6亿元人民币,位列第四。 换句话说,😉在地产行业发达的一年,万达排名不进反退。 其次,201🙌5年万达商业业绩公告显示,其物业存货出现15%的增长,酒店业😀务净利润为亏损6.02亿元人民币;万达商业物业租赁出租率从2😆014年的99.32%下滑到2015年的96.37%,同期,🙌太古地产、中粮地产2015年的出租率都维持在99%左右。 🚀 或许,港股对万达商业的估值未必失了公允。 另外,商😆业地产是“吞金兽”,万达商业的负债率一直居高不下,尤其是20❤️13年,万达商业的资产负债率接近90%,2015年报显示,万🙌达商业的净负债率为61.05%,较2014年底的56.68%🤩上升了4.37个百分点。 对比之下,同行的净负债率维持👍在40%左右,华润置地甚至已降到23%。 这时候,王健❤️林发现发债券比在股市融资划算。2015年8月28日,万达商业❤️首次五年期(3+2)50亿元公司债成功发行,票面利率4.09👏%,2015年10月15日、2016年1月12日,万达商业两🔥次发行五年期、额度为50亿元的公司债券,票面利率分别为3.9😂3%和3.20%。 当然,万达商业退市不是不想上市,是🤯想换个地方上市,然而,后续的一切已不需要赘述。 十年前⭐,王健林手握292座万达广场、1300家影院、13家文旅城、😊80家五星级酒店、150亿美元海外投资,以2200亿身家登上👍胡润百富榜首富。2025年,《2025新财富500创富榜》上🙄,王健林父子的财富为588.1亿元。 时至今日,曾经叱😂咤风云的首富跌进谷底。 再路过那些换了主人的万达广场,😉还会有很多人想起王健林在商海上挥斥方遒的模样,只是这一次,赌🚀桌早已散场,筹码尽失,资本市场从不同情“赌徒”,一旦行差踏错😊,都有可能满盘皆输,在时代的风里,满是繁华落尽的唏嘘。 😁 首富翻盘,也要靠「下沉市场」了 十年光阴,曾经的商业🤗帝国一点点瓦解,王健林卖了半副身家,手中的资产版图大幅收缩。🎉那么,险些被限高的“首富”还剩什么? 不完全统计显示,👍截至目前,万达集团对外投资仍处于存续状态的企业为24家,持股😎超过50%的为15家;王健林所控制的企业有76家处于存续期间😎,对外投资的11家企业中则仅有6家显示为存续状态。 值😉得注意的是,万达集团及王健林所拥有的资产包括大连新达盟40%⭐股权、约200座万达广场,以及万达体育、万达宝贝王等。这大概👏是王健林能否在70岁高龄再逆袭的重要筹码,尤其是幸存的万达广🎉场。 从这些广场的分布来看,王健林远没有认输,因为他卖👏掉的与留下的都藏着他对未来的渴望。比如,王健林正加速出手一二🚀线城市的万达广场,2025年5月6日,王健林500亿元出售4😜8座万达广场,这其中覆盖多城首发项目及一二线城市元老级项目。😍 结合赢商大数据最新《2024中国城市商业力》分析显示😅,商业一线和准一线城市项目占比高达33%,北京、上海、广州、👍成都、重庆等重要城市均有涉及;商业二线城市项目占27%。 😜 相反的,遍布全国县城的万达广场却很少被列入出售名单。 🤔 理由很简单,因为下沉市场的万达广场展现出了强劲的消费活力😡。 2023年12月,四川宜宾下辖县级市宜昌万达广场开🌟业,开业3天累计客流近40万,销售额超千万;2024年1月,😎重庆忠县万达广场开业首日,共接待消费者23.6万人次,销售额😎突破750万元,创下行业多个第一。 投资与运营成本上,💯县城万达广场也有超高性价比。 以湖北宜都万达广场为例,😴其总建筑面积约12万平方米,总投资约8亿元,而一线城市同等规😎模项目投资额往往超过20亿元。在运营成本上,县城万达广场的租😴金、人力成本较一二线城市低30%-50%,宜都万达广场租金回😴报率达6.8%,高于一线城市平均5.2%的水平。 同时👏,县城万达广场在资源获取上优于一二线城市项目。 以重庆😆忠县为例,当地为万达广场提供了土地出让金返还、税收优惠等政策⭐支持,并协调开通了直达广场的公交线路。在万达面临流动性压力的😀背景下,县城万达广场的现金流价值凸显,湖北宜都万达广场年租金🤗收入约8000万元。 公开数据显示,截至2024年底,🙄全国513座万达广场中,三四线城市占比超过60%,同时,轻资👏产占比超40%。这也是王健林为自己留的后路,在一些出售的万达😡广场里,万达仍然保留运营管理权。 轻资产模式对万达而言🤗,是退而求其次的生存法则。 总的来说,王健林的万达广场😁分布已从全国扩张转向“五环外留守”,三四线城市与整个下沉地区🤔成为最后的生存空间。尽管通过轻资产化和业态调整,暂时维持了运😂营,但债务危机、消费疲软和竞争加剧,无疑又构成了一重新的枷锁🤗。 王健林还有机会翻身吗? 未来几年,这些幸存的🤯万达广场能否在县域市场续写“一个广场改变一座城”的神话,还是😉未知数。若无法实现重新上市或引入战略投资者,这些广场可能进一😘步被出售或抵押,届时,王健林的商业版图或将彻底重构。返回搜狐🙄,查看更多
推荐阅读
王沪宁主持召开全国政协主席会议
1134
华夏基金迎新任董事长邹迎光,李一梅为副董事长
8093
普京签署总统令,缩短俄联邦财产私有化程序
4096
董事长变更不到半年,东海基金又见副总辞职
7802
2025年全国城市联合招聘高校毕业生秋季专场推出172场特色服务活动
1920
多氟多:公司储能电池已稳定供货于国内外客户,现阶段储能订单饱满
2458
中国证监会、财政部就《证券期货违法行为吹哨人奖励工作规定(征求意见稿)》公开征求意见
3755
浙文互联:两名股东拟合计减持不超3%公司股份
8540
德邦股份:副董事长陈岩磊辞职
9219
全国农渔循环种养高质量发展推进会在四川泸州召开
2962
东风股份:获得政府补助5800万元
3043
中方关于联大第2758号决议的立场文件
2351
白银有色:收到甘肃证监局行政监管措施决定书
2652
新诺威:筹划发行H股股票并在香港联交所上市
3772
中国石油:聘任任立新为总裁
4586
法拉第未来宣布完成对QLGN的战略投资
9217
生态环境部就《2024、2025年度全国碳排放权交易市场钢铁、水泥、铝冶炼行业配额总量和分配方案(征求意见稿)》公开征求意见
1308
巴基斯坦西南部爆炸袭击致至少10人死亡
2196
均胜电子港股上市申请获中国证监会备案
6559
三一重工港股上市申请获中国证监会备案
1000
东方财富:股东陆丽丽、沈友根拟询价转让1.5%股份
4557