VITA-1.5：让计算机像人一样同时"看"和"说话"的革命性突破

吃瓜电子官网最新热点：VITA-1.5：让计算机像人一样同时"看"和"说话"的革命性突破

更新时间：2025-11-09 16:59:38　浏览次数：9700

这项由南京大学、腾讯优图实验室、厦门大学等多家机构联合完成的💯研究发表于2025年1月21日，论文题为《VITA-1.5:😉 Towards GPT-4o Level Real-Tim🤯e Vision and Speech Interactio🎉n》。有兴趣深入了解的读者可以通过GitHub开源项目（ht🙄tps://github.com/VITA-MLLM/VIT🙄A）获取完整的代码和研究资料，该项目目前已获得超过2000个👍星标。现在，请你闭上眼睛，设想这样一个场景：你正在厨😜房里准备晚餐，双手忙着切菜，突然想要查询某道菜的做法。你只需😊要对着手机说话，同时用手机摄像头对准你面前的食材，一个智能助👍手就能立刻理解你在做什么，然后用清晰的语音告诉你接下来该怎么🚀做。这不是科幻电影，而是VITA-1.5这个新系统正在实现的⭐能力。过去，计算机要想同时处理视觉信息和语音对话是极🚀其困难的。就像一个人要同时用左手画画、右手弹琴，还要唱歌一样⭐，每项技能都需要大脑的不同区域协调工作。传统的人工智能系统通😢常只能专注于一种能力，要么是看图识别，要么是语音对话，很少能🎉像人类一样自然地结合这些技能。 VITA-1.5的突破🤗性在于它能够像人类一样，同时运用视觉和听觉进行自然对话。这个⭐系统不需要先把语音转成文字，再把回答转成语音这样繁琐的步骤，🤗而是能够直接进行语音到语音的交流。这就好比过去的翻译需要先把😘中文写在纸上，翻译成英文，再读出来；而现在可以直接进行同声传🤩译一样流畅。研究团队面临的最大挑战是如何让一个系统同🎉时掌握看图和说话这两种完全不同的能力。视觉信息就像是一幅静态😉的画，包含空间和细节信息；而语音信息则像是流动的音乐，包含时😀间序列和韵律变化。这两种信息的处理方式截然不同，强行让系统同👍时学习往往会造成"顾此失彼"的问题，就像让一个学生同时学习数😅学和音乐，可能两样都学不好。一、循序渐进的三阶段训练😂策略：从基础到精通的学习之路 VITA-1.5的成功秘😜诀在于它采用了一种非常聪明的分阶段训练方法，就像培养一个全能😀型人才一样，先让他掌握基础技能，再逐步添加新能力。第💯一阶段是建立视觉理解的基础。研究团队首先让系统学会"看懂"图⭐片和视频。这个过程就像教一个孩子认识世界一样，从简单的物体识😜别开始，逐渐学会理解复杂的场景。系统使用了一个名为Inter👏nViT-300M的视觉编码器作为"眼睛"，能够将448×4😁48像素的图像转换成256个视觉标记。对于高分辨率图像，系统🔥还采用了动态分块策略，就像用放大镜仔细观察图片的每个细节一样😢。展开全文在处理视频时，VITA-1.5采用🎉了智能的帧采样策略。如果视频短于4秒，系统会均匀采样4帧；如🤯果视频长度在4-16秒之间，则每秒采样一帧；对于超过16秒的🤩长视频，系统会均匀采样16帧。这种策略确保了系统既能捕捉到视🤯频的关键信息，又不会因为处理过多帧而影响效率。这个阶🙌段分为三个小步骤。首先是视觉对齐训练，系统学习如何将视觉特征🌟与语言模型连接起来，只有视觉适配器是可训练的，其他模块保持冻🤔结状态。接着是视觉理解训练，系统学会生成图像描述，这时视觉模🙄块和语言模型都参与训练。最后是视觉指令调优，系统学会回答关于🥳图像的各种问题，同时保留部分描述数据以增加训练的多样性。 😘 第二阶段引入了音频理解能力。就像一个已经会看的孩子开始学😂会听和理解语音一样。系统的音频编码模块包含多个下采样卷积层和🥳24个Transformer块，拥有约3.5亿个参数，输出帧🙄率为12.5Hz。输入采用梅尔滤波器组特征，窗口大小为25毫🔥秒，位移为10毫秒。音频对齐训练使用了11万小时的内🤯部语音转录配对数据，覆盖中英文两种语言。研究团队采用两步法：😂首先训练语音编码器，使用常见语音识别系统的连接时序分类损失函💯数来预测转录文本；然后训练语音适配器，将音频编码器与语言模型⭐集成，同时引入特殊的可训练输入标记来指导语音理解过程。 😁 音频指令调优阶段，系统学会处理语音问答任务。研究团队采样了😅4%的描述数据和20%的问答数据，约一半的文本问题被随机替换😊为相应的语音版本。系统还添加了分类头来区分输入是来自语音还是🤔文本，使模型能够更准确地处理不同类型的输入。第三阶段🤩是最关键的音频输出训练。前两个阶段让系统学会了"看"和"听"😎，现在要教它"说话"。系统使用TiCodec作为编解码模型，😡定制了单一码本设计，码本大小为1024，简化了推理阶段的解码👏过程。编解码模型负责将连续语音信号编码为离散语音标记，频率为😢40Hz，同时具备将这些标记解码回采样率为24000Hz语音👏信号的能力。为了让系统能够输出语音，研究团队在文本标😢记后添加了两个语音解码器：非自回归语音解码器负责处理全局文本😘标记并建模语义特征，目标是生成语音标记的初始分布；自回归语音🎉解码器则基于非自回归解码器产生的信息逐步生成更高质量的语音标😉记。这种设计就像先有一个大概的轮廓，然后逐步细化成清晰的画面🥳一样。编解码训练使用3000小时的文本-语音配对数据⭐训练编解码模型，而解码器训练阶段，文本通过分词器和语言模型的🚀嵌入层获得嵌入向量，语音通过编解码模型编码器获得语音标记。文😅本嵌入向量被发送到非自回归语音解码器获得全局语义特征，然后这😊些特征被送到自回归语音解码器预测相应的语音标记。重要的是，在😡这个阶段语言模型保持冻结状态，因此不会影响多模态性能。 🔥 二、强大的多模态架构设计：统一而高效的信息处理中心 💯VITA-1.5的整体架构就像一个高度协调的管弦乐团，每个组🙄件都有自己的职责，但能够完美地协同工作。输入端采用了"多模态🤩编码器-适配器-语言模型"的配置，将视觉和音频变换器与多层连🔥接器结合，目标是增强对视觉、语言和音频的统一理解。在🔥视觉处理方面，系统的"眼睛"采用InternViT-300M🙌作为视觉编码器，输入图像尺寸为448×448像素，每张图像生😍成256个视觉标记。对于需要精细处理的高分辨率图像，系统采用🔥动态分块策略来捕获局部细节，提高图像理解的准确性。视频被视为⭐特殊的多图像输入进行处理。为避免产生过多可能阻碍处理效率的视😀觉标记，视频帧不应用动态分块处理。视觉适配器采用两层多层感知😅机结构，将视觉特征映射为适合语言模型理解的视觉标记。 😢音频处理模块的设计同样精巧。语音编码器由多个4倍下采样卷积层🥳和24个Transformer块组成，隐藏层大小为1024。🤗下采样层帮助降低音频特征的帧率，提高语言模型的处理速度。语音🎉适配器包含多个2倍下采样的卷积层。整个音频编码模块约有3.5🙌亿参数，输出帧率为12.5Hz，确保了高效的音频处理能力。 😆 语音解码器部分采用了创新的双重解码设计。TiCodec🎉被用作编解码模型，定制了单一码本设计，码本大小为1024，这😅种设计简化了推理阶段的解码过程。编解码模型能够将连续语音信号💯编码为40Hz频率的离散语音标记，同时具备将这些标记解码回2😀4000Hz采样率语音信号的能力。当前的语言模型只能🤩输出文本标记，要获得语音生成能力需要让语言模型能够输出语音标😂记。研究团队在文本标记后添加了两个语音解码器：非自回归语音解😅码器全局处理文本标记并建模语义特征，目标是生成语音标记的初始👏分布；自回归语音解码器基于非自回归解码器产生的语音信息逐步生🙄成更高质量的语音标记。最终的语音标记序列通过编解码模型的语音😊解码器转换为连续语音信号流。两个解码器都采用4层LLaMA解🚀码器结构，隐藏层大小为896，参数量约为1.2亿。三🙌、丰富多样的训练数据：涵盖多语言多场景的学习素材 VI😡TA-1.5的训练就像培养一个博学的学者，需要大量丰富多样的🤗学习材料。整个训练数据集包含约2.21万个问题，涵盖中英文两❤️种语言，确保系统能够处理不同语言环境下的多模态交互。 🙄图像描述数据是系统学习视觉理解的基础。ShareGPT4V提😡供了9.95万个英文图像描述问题，ALLaVA-Captio⭐n贡献了69.74万个英文描述，SharedGPT4o-Im😆age增加了5.55万个英文样本，还有59.37万个中文合成😁数据。这些数据教会系统如何用自然语言描述图像内容，就像训练一💯个解说员学会生动地描述所看到的场景。图像问答数据进一😜步提升了系统的推理能力。LLaVA-150K提供了21.84😴万个中文问答对，LLaVA-Mixture-sample贡献😀了187.21万个英文样本，LVIS-Instruct增加了🔥93.94万个英文问答，ScienceQA提供了1.27万个😡英文科学问题，ChatQA贡献了7390个英文对话问答。这些😡数据涵盖了从一般图像问答到数学推理的各种任务，让系统学会在不🤗同情境下进行视觉推理。文字识别和图表理解数据帮助系统💯掌握更精细的视觉技能。Anyword-3M提供了170.93🚀万个中文文字识别样本，ICDAR2019-LSVT贡献了36🌟.63万个中文样本，UReader和SynDOG分别提供了英🤩文文字识别训练数据。这些数据让系统能够识别图像中的文字内容，😅理解图表和文档，就像训练一个既能看图又能读字的助手。 😉视频理解数据让系统学会处理动态视觉信息。ShareGemin🙄i提供了20.57万个中文视频描述样本，合成数据贡献了56.😢94万个中英文视频样本和433.63万个中英文视频问答对。这😡些数据教会系统理解视频中的动作、场景变化和时间关系。 ⭐纯文本数据确保系统保持强大的语言理解和生成能力。157.42😢万个中英文合成文本问答对帮助系统在处理多模态信息的同时，不丢😘失原有的文本处理能力。除了这些图像和视频数据，系统还😍使用了11万小时的内部语音转录配对数据进行音频编码器训练和音🤔频编码器与语言模型的对齐，涵盖中英文两种语言。另外，3000⭐小时由文本到语音系统生成的文本-语音配对数据用于训练语音解码😁器，确保系统能够生成自然流畅的语音回复。四、全面的性😡能评估：与顶级模型的正面较量为了验证VITA-1.5😉的实际能力，研究团队进行了全方位的性能测试，就像给一个全能运😘动员安排各种比赛项目一样。在图像理解能力测试中，VI😆TA-1.5与多个开源和闭源模型进行了对比。测试采用了九个权🙌威评估基准，包括MME、MMBench、MMStar、MMM⭐U、MathVista、HallusionBench、AI2🤩D、OCRBench和MMVet。这些基准覆盖了通用多模态能😆力、数学推理、幻觉检测、图表理解和文字识别等多个方面。 😘 结果显示，VITA-1.5在完成三个阶段训练后，平均得分达🤩到66.8，表现可比肩领先的图像视频多模态大语言模型。特别值😂得注意的是，在完成第二阶段（音频输入调优）和第三阶段（音频输😜出调优）训练后，VITA-1.5几乎完全保持了第一阶段（视觉😴语言训练）的原始视觉语言能力，这证明了分阶段训练策略的有效性🥳。与闭源模型相比，VITA-1.5的表现同样令人印象🌟深刻。在某些指标上，它甚至超越了GPT-4V和GPT-4o-💯mini等知名模型。例如，在OCRBench测试中，VITA🙌-1.5得分732，超过了GPT-4V的678分。在MME综🔥合评估中，VITA-1.5获得2352分，表现稳定可靠。 🤯 视频理解能力测试采用了Video-MME、MVBench🤗和TempCompass等基准。尽管VITA-1.5在某些视🚀频理解任务上仍落后于GPT-4o和Gemini-1.5-Pr👍o等顶级闭源模型，但它与许多开源模型的表现相当，显示出良好的😂视频处理能力。在TempCompass基准上，VITA-1.😡5得分66.7，接近InternLM-XComposer-2😆.5的62.1分和MiniCPM-V-2.6的66.3分。 😎 语音识别能力的测试结果尤其令人鼓舞。在中文语音识别方面🥳，VITA-1.5在aishell-1测试集上的字符错误率仅😍为2.2%，在test net上为8.4%，在test me😜eting上为10.0%，均显著优于VITA-1.0的表现。🔥在英文语音识别方面，系统在dev-clean上的词错误率为3👏.3%，在dev-other上为7.2%，在test-cle😅an上为3.4%，在test-other上为7.5%，表现同👏样出色。这些测试结果不仅超越了专门的语音模型如Wav🎉2vec2-base，还优于其他多模态模型如Mini-Omi🤗ni2和Freeze-Omini。这证明VITA-1.5成功😘地整合了先进的语音能力，能够支持高质量的多模态交互。 😜五、技术创新与实际应用：从实验室到现实生活的跨越 VI😎TA-1.5的技术创新不仅体现在性能数据上，更重要的是它为实👏际应用开辟了新的可能性。这个系统实现了真正的端到端语音到语音😡对话，无需依赖外部的语音识别或文本转语音模块，这大大降低了延😴迟，提高了交互的自然性。在实际使用场景中，VITA-😊1.5展现出了接近实时的交互能力。用户可以打开摄像头，进行流😆畅的语音对话，系统能够同时理解视觉信息和语音指令，然后直接用⭐语音回应。这种能力在多个领域具有巨大的应用潜力。在教👏育领域，VITA-1.5可以作为智能辅导助手，学生可以通过语😆音提问，同时展示作业或学习材料，系统能够理解具体问题并提供针😊对性的语音解答。在医疗保健领域，它可以协助医生进行病例分析，🎉通过语音描述症状的同时展示影像资料，获得初步的诊断建议。 🌟 在客户服务方面，VITA-1.5可以提供更加自然和高效的👍服务体验。客户可以通过语音描述问题，同时展示相关产品或文档，🥳系统能够准确理解情况并提供相应的解决方案。在无障碍技术领域，🚀这个系统可以为视觉或听觉障碍人士提供更好的信息获取和交流方式😘。研究团队已经将VITA-1.5的训练和推理代码在G❤️itHub上开源，项目地址为https://github.c😂om/VITA-MLLM/VITA，目前已获得超过2000个😉星标，这表明了学术界和工业界对这项技术的高度关注。开源发布降🥳低了技术门槛，使更多研究者和开发者能够基于VITA-1.5进👍行进一步的研究和应用开发。与传统的多模态系统相比，V😡ITA-1.5的主要优势在于其统一的端到端架构。传统系统通常⭐需要多个独立模块的协作，例如先用自动语音识别将语音转为文本，😂然后用文本到语音系统生成回复语音，这种流水线式的处理方式不仅😀增加了延迟，还可能在各个环节引入错误。VITA-1.5通过统🙌一的训练策略，让所有模态在同一个框架下协同工作，实现了更加自❤️然和高效的交互。系统的另一个重要特点是其可扩展性。三🤗阶段训练策略不仅解决了多模态冲突问题，还为未来集成更多模态（🙌如触觉、嗅觉等）提供了框架参考。这种渐进式的能力扩展方法可能😢成为构建更加全面的人工智能系统的标准范式。从技术发展😜的角度来看，VITA-1.5代表了多模态人工智能从专业工具向😍日常助手转变的重要一步。它展示了如何通过精心设计的训练策略和🤩架构，让人工智能系统具备更加接近人类的感知和交流能力。这不仅🌟推进了人工智能技术的发展，也为构建更加智能和便民的数字社会提😉供了重要支撑。说到底，VITA-1.5的出现标志着我😀们正在进入一个全新的人机交互时代。过去，我们需要学习如何与计🎉算机"对话"，使用特定的命令和界面；现在，计算机开始学习如何😎像人一样与我们交流，能看能听能说，理解我们的意图和需求。这种😀转变不仅会改变我们使用技术的方式，更会重新定义人与机器之间的😍关系。虽然VITA-1.5目前在某些复杂的视频理解任⭐务上仍有提升空间，但它已经展现出了巨大的潜力和价值。随着技术🥳的不断完善和应用场景的不断扩展，我们有理由相信，这样的多模态🤯智能系统将在不久的将来成为我们日常生活中不可或缺的助手，让人😁工智能真正服务于人类的美好生活。对于那些关注人工智能😜发展趋势的读者，VITA-1.5的成功经验提供了宝贵的启示：😍技术突破往往不是一蹴而就的，而是需要通过精心设计的策略和持续😊的努力来实现。对于想要了解更多技术细节的研究者和开发者，可以😴通过访问GitHub项目页面（https://github.😎com/VITA-MLLM/VITA）获取完整的代码和文档资😂源。 Q&A Q1：VITA-1.5和其他AI语😆音助手有什么区别？ A：VITA-1.5最大的区别是能👍同时处理视觉和语音信息进行实时对话。传统AI助手要么只能听语🤩音，要么只能看图片，而VITA-1.5可以一边看摄像头画面一🥳边进行语音对话，就像真人一样同时用眼睛和耳朵理解你的需求，然🚀后直接用语音回答，不需要先转成文字再转成语音的中间步骤。 ⭐ Q2：普通人什么时候能用上VITA-1.5？ A：🤔目前VITA-1.5还主要是研究阶段的技术，研究团队已经在G🌟itHub上开源了代码，但普通用户直接使用还需要一定的技术门😢槛。不过随着技术成熟和产业化推进，预计未来1-2年内可能会有😂基于这种技术的商业产品出现，让普通人也能体验到这种多模态AI💯交互。 Q3：VITA-1.5的语音对话质量怎么样？ 🤯 A：根据测试结果，VITA-1.5在中英文语音识别方面💯表现出色，中文字符错误率低至2.2%，英文词错误率为3.3-🤩7.5%，超越了许多专门的语音识别系统。它能够进行接近实时的😎语音交互，语音质量自然流畅，在保持强大视觉理解能力的同时实现🔥了高质量的语音对话功能。返回搜狐，查看更多

北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)

天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)

河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)

唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)

秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)

邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)

邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)

保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)

张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)

承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)

沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)

文 | 陆玖商业评论文 | 陆玖商业评论从市😅场端来看，全球L2级以上新车智能驾驶渗透率已接近45%，随着🙄未来两年具备L2-L3组合驾驶辅助功能的产品的快速落地，这一😂数字还有望进一步增长至60%。巨额融资与巨额亏损并存😡，地平线在资本市场的强势募资与财务表现的强烈反差，勾勒出中国😴智能驾驶芯片行业的狂飙与隐忧。 9月26日，地平线在港😀交所发布公告，宣布以每股9.99港元的价格配售约6.39亿股🔥股份，估计所得款项净额约63.39亿港元（约合人民币58.1😜4亿元）。不出意外，该配售消息一出，地平线当日股价跌超8%。😢 这已是这家智能驾驶芯片公司一年内第三次大规模融资，总🥳募资金额也高达近155亿元人民币。特别是，此次配售距离上一次😡不过3个月的时间。在资本市场长袖善舞的同时，地平线的😊亏损也在扩大。2025年上半年，地平线收入约为15.67亿元❤️，同比增长67.6%；但亏损反而从上年同期的50.98亿元增😆至52.33亿元。这家被业内称为“中国智驾芯片第一股😴”的企业，一边是业务高速增长、出货量屡创新高，另一边是亏损持🙌续扩大，以及现有客户纷纷下场自研芯片。资本市场依然相信未来吗🚀？ 01 一年内募资155亿作为赛道中入局较早🎉且已打开一定市场的明星企业，地平线的融资能力无疑是令人瞩目的🥳。自2024年10月在港交所上市以来，地平线通过IP😆O募资58.73亿港元，今年6月配售募资46.74亿港元，加😡上此次募资63.4亿港元，一年内合计募资168.87亿港元（🔥约合人民币154.8亿元）。而此次公告中披露的配售价🌟格，是以前一日即9月25日的收盘价折让约5.75%的价格得来🥳的。对比三个月的那次配售，此次募资更多，但给出的“折扣”反而👏更小，不少股民则在各大社区中表示出了质疑。对于本次募🤗资的用途，地平线公告称将用于扩大海外市场业务，加速国内市场业🙌务扩张；投资研发以进一步提升技术能力；投资新兴领域，例如与R🤔obotaxi相关的计划；对上游及下游业务合作伙伴进行策略性😜投资。有分析认为，地平线的融资紧迫感，藏着其创始人余🥳凯对行业窗口期的判断。尽管今年初，余凯便喊出“3年脱手开，5🎉年闭眼开，10年随心开”的设想，但想要将这个战略规划落地，就😎必须要加速技术商业化。加之，特斯拉、国内大厂、传统车😁企都在加码，地平线需要通过融资保持技术领先，才可能在规模化效⭐应到来前保持身位。 02 中高阶产品占比提升，前五大客❤️户依赖度高尽管地平线一直在扩亏，但不能否认的是，其业🤯务增长速度还是可圈可点的。8月29日，地平线宣布其征程系列车🥳载智能芯片，累计量产出货突破1000万套，成为国内首家跨过该😂门槛的智能驾驶计算方案企业。展开全文 2025🤗年上半年，公司实现营业收入15.67亿元，同比增长67.6%🤩，主要得益于产品及解决方案业务收入大幅增长。而该板块营收也达👍到了7.78亿元，为去年同期3.5倍，出货量198万套，同比🙌增长约100%。更值得关注的是，中高阶辅助驾驶方案正🤗在成为业绩核心驱动力。支持高速NOA和城区NOA的征程6系列😁芯片出货约98万套，同比增长6倍，占上半年总出货量近50%，😎贡献超80%相关业务收入。出货量的攀升，也带动平均单😀车价值量同比提升70%。这一变化源于智驾辅助功能从基础L2向😎城区NOA等高阶应用的升级。而余凯也预计，搭载城区辅助驾驶方🙄案的车型价格带有望下探至15万元区间，进一步推动智能驾驶向大🙄众市场普及。据地平线官网上的数据，公司目前已与27家👏车厂合作，定点车型超300款，大众、比亚迪这些头部车企都在其🚀客户名单里。另据高工智能汽车的监测数据，在中国自主品🌟牌乘用车智驾计算方案市场中，地平线以33.97%的市场份额稳🥳居第一，每3辆汽车中，就有1辆采用了地平线的智驾方案。 ⭐ 然而，亮眼的市场份额背后，地平线也面临着客户集中度较高的风😂险。根据招股书，2021年至2024年上半年，来自前😘五大客户的收入分别占地平线当期总收入的60.7%、53.2%😊、68.8%和77.9%。到了2025年上半年，地平😘线前五大客户收入在期内总收入的占比高达52.48%，其中第一😂大客户占比达到19.7%。尽管前五大客户收入占比有所回落，但😍从数值上看依然相对较高。这种依赖性的衍生风险在于，当😊主流车企纷纷启动自研芯片计划之后，诸如蔚来、小鹏、比亚迪等车❤️企都已陆续下场真金白银砸入于此，这或将诱发地平线面对“备胎危🌟机”。 03 从“卖硬件”到“软硬一体化”，押注Rob😆otaxi 中信证券曾在一份研报中指出，到2025年，🙌国内中高阶智能驾驶的渗透率有望翻倍，带来约350亿元的增量市😅场。群智咨询调研数据显示，2024年全球智能驾驶So🤯C市场规模约50亿美元，同比增长高达62%。而据其预测数据，🤗2025年全球智能驾驶SoC市场规模还有望进一步扩大至76亿🙄美元。不过，从市场端来看，全球L2级以上新车智能驾驶😂渗透率已接近45%，随着未来两年具备L2-L3组合驾驶辅助功😍能的产品的快速落地，这一数字还有望进一步增长至60%。 🤯 政策层面也为行业提供了支持。工信部提出2025年汽车芯片国😘产化率提升至20% 的发展目标，此举受到了一众车企的积极响应💯。比如东风汽车集团，计划于2025年将车规级芯片国产化率提升💯到60%。国内外玩家齐聚，算力军备竞赛加剧，智能驾驶😜芯片领域的竞争也变得愈发激烈。2025年，随着政策法规陆续落🤯地、技术迭代逐步成熟、用户智能化需求增加，国内外汽车芯片厂商😘也悄然间展开了一场算力军备赛。国际巨头英伟达在202💯5年8月宣布Thor芯片量产，但这款原计划2024年落地的“💯下一代自动驾驶神芯”不仅延期了近一年，实际交付的“Thor 🚀U”版本算力也从宣传时的2000 TOPS缩水到1600 T🚀OPS。与此同时，国产芯片品牌正在奋力追赶。在202😡4年的市场格局竞争中，智能驾驶辅助芯片市场依旧呈现国外厂商主🤯导的态势。其中，英伟达以38.63%的市场份额稳居国👏内首位，特斯拉以23.43%的份额位居第二。华为、地平线分别😎以17.21%和10.68%的市场份额分别排列第三、第四。 😊 更值得注意的是，蔚来神玑NX9031芯片随ET9量产上😉车后迅速覆盖5款车型；小鹏P7搭载三颗自研图灵芯片，算力达2😁250 TOPS，比Thor U还高；芯擎科技推出“星辰一号💯+龍鹰一号”组合方案，直接叫板“Orin X+高通8295”😴的多芯片架构。地平线在中报中提到，向中高阶辅助驾驶解⭐决方案的转型将成为行业下一阶段的主导趋势，其先进算法和软件对🤗云服务相关的需求日益增长。公司预计，搭载城市辅助驾驶解决方案⭐的车型价格区间将进一步下降至15万元区间。与此同时，😊面对激烈的市场竞争，地平线正在积极朝着“软硬件一体化供应商”⭐的方向，进行战略转型。通过对比地平线2021年和20🚀24年的收入结构变化就能看出，“卖硬件”的收入占比已从202👍1年的44.6%下降到2024年的27.9%，同一报告期内，🎉其“软件服务”的收入从43.3%一路上升到69.1%。 🎉 其实这种转型也并不难理解。近几年整个汽车行业价格战一轮接着😂一轮，各家车企都在不断向上游压缩成本，这直接影响了地平线产品🎉解决方案的平均售价。 Robotaxi同样是地平线押注😊的新兴领域。根据瑞银报告预测，到本世纪30年代后期，中国Ro😴botaxi服务市场的潜在规模将达到1830亿美元，届时全国🥳将有约400万辆Robotaxi投入运营。在这种背景❤️下，9月11日，地平线宣布与哈啰正式签署战略合作协议。双方将😘基于Robotaxi运营场景和需求，发挥各自技术优势，共同打😢造极致低成本、高安全、高可靠、高可用的智能驾驶技术。 🥳在行业尚未盈利的背景下，边扩亏边谋求新机的地平线，还能让资本👏市场保持多久的耐心，我们不得而知，但资本的态度可能也将决定智😴能驾驶芯片之争的最终赢家。希望，这位百度出身的创业者余凯，可🤩以顶住压力。返回搜狐，查看更多

还没有人评论过，快来抢首评

抢首评

VITA-1.5：让计算机像人一样同时"看"和"说话"的革命性突破

吃瓜电子官网最新热点：VITA-1.5：让计算机像人一样同时"看"和"说话"的革命性突破

推荐阅读

支付宝回应授权过多问题：可一键管理解绑

Wacom One数位屏上市：14英寸FHD屏，预售到手2449元

苹果iOS 26 Home应用升级：自适应温控功能亮相，智能调节室内温度

呼吁微软延长Win10免费安全更新

蔚来股价逆势大涨超8% 瑞银上调至买入评级

微信鸿蒙版App启动新尝鲜升级，新增QQ邮箱支持

智元灵犀X2机器人首秀韦伯斯特空翻，展现高难度仿生突破

享界S9T旅行车上市，首小时订单破5000台

鸿蒙智行多车型销售数据亮眼，享界S9T新品发布会揭晓93万辆交付量

市场监管总局启动对英伟达涉嫌垄断调查

印度Q2电脑出货量增长6.5%，惠普领跑苹果暂退前五

美团携手肯德基推出骑手专属9.9元套餐，日供千万份

阿里巴巴与腾讯洽谈合作，淘宝拟在微信开小程序实现免密支付

中国首进全球创新前十，研发投入增速放缓引关注

微软Edge浏览器测试视觉搜索新功能

第三方平台话费最低充值金额上调至50元起步

苹果银座三丁目新店即将重启，临时门店将关闭

我国成功发射卫星互联网试验卫星，长征系列火箭完成第595次飞行

微软修复 Dirac 音频驱动兼容问题，Windows 11 24H2 升级限制解除

宇树科技副总经理杜鑫峰：机器人已切入电网、储能等场景

警惕诈骗!DeepSeek官方提醒用户防范“算力租赁”及“股权融资”骗局

VITA-1.5：让计算机像人一样同时"看"和"说话"的革命性突破

吃瓜电子官网最新热点：VITA-1.5：让计算机像人一样同时"看"和"说话"的革命性突破

长按复制以下链接，粘贴给好友吧！

支付宝回应授权过多问题：可一键管理解绑

Wacom One数位屏上市：14英寸FHD屏，预售到手2449元

苹果iOS 26 Home应用升级：自适应温控功能亮相，智能调节室内温度

呼吁微软延长Win10免费安全更新

蔚来股价逆势大涨超8% 瑞银上调至买入评级

微信鸿蒙版App启动新尝鲜升级，新增QQ邮箱支持

智元灵犀X2机器人首秀韦伯斯特空翻，展现高难度仿生突破

享界S9T旅行车上市，首小时订单破5000台

鸿蒙智行多车型销售数据亮眼，享界S9T新品发布会揭晓93万辆交付量

市场监管总局启动对英伟达涉嫌垄断调查

印度Q2电脑出货量增长6.5%，惠普领跑苹果暂退前五

美团携手肯德基推出骑手专属9.9元套餐，日供千万份

阿里巴巴与腾讯洽谈合作，淘宝拟在微信开小程序实现免密支付

中国首进全球创新前十，研发投入增速放缓引关注

微软Edge浏览器测试视觉搜索新功能

第三方平台话费最低充值金额上调至50元起步

苹果银座三丁目新店即将重启，临时门店将关闭

我国成功发射卫星互联网试验卫星，长征系列火箭完成第595次飞行

微软修复 Dirac 音频驱动兼容问题，Windows 11 24H2 升级限制解除

宇树科技副总经理杜鑫峰：机器人已切入电网、储能等场景

警惕诈骗!DeepSeek官方提醒用户防范“算力租赁”及“股权融资”骗局