VITA-1.5:让计算机像人一样同时"看"和"说话"的革命性突破
吃瓜电子官网最新热点:VITA-1.5:让计算机像人一样同时"看"和"说话"的革命性突破
更新时间: 浏览次数:7538
这项由南京大学、腾讯优图实验室、厦门大学等多家机构联合完成的💯研究发表于2025年1月21日,论文题为《VITA-1.5:😉 Towards GPT-4o Level Real-Tim🤯e Vision and Speech Interactio🎉n》。有兴趣深入了解的读者可以通过GitHub开源项目(ht🙄tps://github.com/VITA-MLLM/VIT🙄A)获取完整的代码和研究资料,该项目目前已获得超过2000个👍星标。 现在,请你闭上眼睛,设想这样一个场景:你正在厨😜房里准备晚餐,双手忙着切菜,突然想要查询某道菜的做法。你只需😊要对着手机说话,同时用手机摄像头对准你面前的食材,一个智能助👍手就能立刻理解你在做什么,然后用清晰的语音告诉你接下来该怎么🚀做。这不是科幻电影,而是VITA-1.5这个新系统正在实现的⭐能力。 过去,计算机要想同时处理视觉信息和语音对话是极🚀其困难的。就像一个人要同时用左手画画、右手弹琴,还要唱歌一样⭐,每项技能都需要大脑的不同区域协调工作。传统的人工智能系统通😢常只能专注于一种能力,要么是看图识别,要么是语音对话,很少能🎉像人类一样自然地结合这些技能。 VITA-1.5的突破🤗性在于它能够像人类一样,同时运用视觉和听觉进行自然对话。这个⭐系统不需要先把语音转成文字,再把回答转成语音这样繁琐的步骤,🤗而是能够直接进行语音到语音的交流。这就好比过去的翻译需要先把😘中文写在纸上,翻译成英文,再读出来;而现在可以直接进行同声传🤩译一样流畅。 研究团队面临的最大挑战是如何让一个系统同🎉时掌握看图和说话这两种完全不同的能力。视觉信息就像是一幅静态😉的画,包含空间和细节信息;而语音信息则像是流动的音乐,包含时😀间序列和韵律变化。这两种信息的处理方式截然不同,强行让系统同👍时学习往往会造成"顾此失彼"的问题,就像让一个学生同时学习数😅学和音乐,可能两样都学不好。 一、循序渐进的三阶段训练😂策略:从基础到精通的学习之路 VITA-1.5的成功秘😜诀在于它采用了一种非常聪明的分阶段训练方法,就像培养一个全能😀型人才一样,先让他掌握基础技能,再逐步添加新能力。 第💯一阶段是建立视觉理解的基础。研究团队首先让系统学会"看懂"图⭐片和视频。这个过程就像教一个孩子认识世界一样,从简单的物体识😜别开始,逐渐学会理解复杂的场景。系统使用了一个名为Inter👏nViT-300M的视觉编码器作为"眼睛",能够将448×4😁48像素的图像转换成256个视觉标记。对于高分辨率图像,系统🔥还采用了动态分块策略,就像用放大镜仔细观察图片的每个细节一样😢。 展开全文 在处理视频时,VITA-1.5采用🎉了智能的帧采样策略。如果视频短于4秒,系统会均匀采样4帧;如🤯果视频长度在4-16秒之间,则每秒采样一帧;对于超过16秒的🤩长视频,系统会均匀采样16帧。这种策略确保了系统既能捕捉到视🤯频的关键信息,又不会因为处理过多帧而影响效率。 这个阶🙌段分为三个小步骤。首先是视觉对齐训练,系统学习如何将视觉特征🌟与语言模型连接起来,只有视觉适配器是可训练的,其他模块保持冻🤔结状态。接着是视觉理解训练,系统学会生成图像描述,这时视觉模🙄块和语言模型都参与训练。最后是视觉指令调优,系统学会回答关于🥳图像的各种问题,同时保留部分描述数据以增加训练的多样性。 😘 第二阶段引入了音频理解能力。就像一个已经会看的孩子开始学😂会听和理解语音一样。系统的音频编码模块包含多个下采样卷积层和🥳24个Transformer块,拥有约3.5亿个参数,输出帧🙄率为12.5Hz。输入采用梅尔滤波器组特征,窗口大小为25毫🔥秒,位移为10毫秒。 音频对齐训练使用了11万小时的内🤯部语音转录配对数据,覆盖中英文两种语言。研究团队采用两步法:😂首先训练语音编码器,使用常见语音识别系统的连接时序分类损失函💯数来预测转录文本;然后训练语音适配器,将音频编码器与语言模型⭐集成,同时引入特殊的可训练输入标记来指导语音理解过程。 😁 音频指令调优阶段,系统学会处理语音问答任务。研究团队采样了😅4%的描述数据和20%的问答数据,约一半的文本问题被随机替换😊为相应的语音版本。系统还添加了分类头来区分输入是来自语音还是🤔文本,使模型能够更准确地处理不同类型的输入。 第三阶段🤩是最关键的音频输出训练。前两个阶段让系统学会了"看"和"听"😎,现在要教它"说话"。系统使用TiCodec作为编解码模型,😡定制了单一码本设计,码本大小为1024,简化了推理阶段的解码👏过程。编解码模型负责将连续语音信号编码为离散语音标记,频率为😢40Hz,同时具备将这些标记解码回采样率为24000Hz语音👏信号的能力。 为了让系统能够输出语音,研究团队在文本标😢记后添加了两个语音解码器:非自回归语音解码器负责处理全局文本😘标记并建模语义特征,目标是生成语音标记的初始分布;自回归语音🎉解码器则基于非自回归解码器产生的信息逐步生成更高质量的语音标😉记。这种设计就像先有一个大概的轮廓,然后逐步细化成清晰的画面🥳一样。 编解码训练使用3000小时的文本-语音配对数据⭐训练编解码模型,而解码器训练阶段,文本通过分词器和语言模型的🚀嵌入层获得嵌入向量,语音通过编解码模型编码器获得语音标记。文😅本嵌入向量被发送到非自回归语音解码器获得全局语义特征,然后这😊些特征被送到自回归语音解码器预测相应的语音标记。重要的是,在😡这个阶段语言模型保持冻结状态,因此不会影响多模态性能。 🔥 二、强大的多模态架构设计:统一而高效的信息处理中心 💯VITA-1.5的整体架构就像一个高度协调的管弦乐团,每个组🙄件都有自己的职责,但能够完美地协同工作。输入端采用了"多模态🤩编码器-适配器-语言模型"的配置,将视觉和音频变换器与多层连🔥接器结合,目标是增强对视觉、语言和音频的统一理解。 在🔥视觉处理方面,系统的"眼睛"采用InternViT-300M🙌作为视觉编码器,输入图像尺寸为448×448像素,每张图像生😍成256个视觉标记。对于需要精细处理的高分辨率图像,系统采用🔥动态分块策略来捕获局部细节,提高图像理解的准确性。视频被视为⭐特殊的多图像输入进行处理。为避免产生过多可能阻碍处理效率的视😀觉标记,视频帧不应用动态分块处理。视觉适配器采用两层多层感知😅机结构,将视觉特征映射为适合语言模型理解的视觉标记。 😢音频处理模块的设计同样精巧。语音编码器由多个4倍下采样卷积层🥳和24个Transformer块组成,隐藏层大小为1024。🤗下采样层帮助降低音频特征的帧率,提高语言模型的处理速度。语音🎉适配器包含多个2倍下采样的卷积层。整个音频编码模块约有3.5🙌亿参数,输出帧率为12.5Hz,确保了高效的音频处理能力。 😆 语音解码器部分采用了创新的双重解码设计。TiCodec🎉被用作编解码模型,定制了单一码本设计,码本大小为1024,这😅种设计简化了推理阶段的解码过程。编解码模型能够将连续语音信号💯编码为40Hz频率的离散语音标记,同时具备将这些标记解码回2😀4000Hz采样率语音信号的能力。 当前的语言模型只能🤩输出文本标记,要获得语音生成能力需要让语言模型能够输出语音标😂记。研究团队在文本标记后添加了两个语音解码器:非自回归语音解😅码器全局处理文本标记并建模语义特征,目标是生成语音标记的初始👏分布;自回归语音解码器基于非自回归解码器产生的语音信息逐步生🙄成更高质量的语音标记。最终的语音标记序列通过编解码模型的语音😊解码器转换为连续语音信号流。两个解码器都采用4层LLaMA解🚀码器结构,隐藏层大小为896,参数量约为1.2亿。 三🙌、丰富多样的训练数据:涵盖多语言多场景的学习素材 VI😡TA-1.5的训练就像培养一个博学的学者,需要大量丰富多样的🤗学习材料。整个训练数据集包含约2.21万个问题,涵盖中英文两❤️种语言,确保系统能够处理不同语言环境下的多模态交互。 🙄图像描述数据是系统学习视觉理解的基础。ShareGPT4V提😡供了9.95万个英文图像描述问题,ALLaVA-Captio⭐n贡献了69.74万个英文描述,SharedGPT4o-Im😆age增加了5.55万个英文样本,还有59.37万个中文合成😁数据。这些数据教会系统如何用自然语言描述图像内容,就像训练一💯个解说员学会生动地描述所看到的场景。 图像问答数据进一😜步提升了系统的推理能力。LLaVA-150K提供了21.84😴万个中文问答对,LLaVA-Mixture-sample贡献😀了187.21万个英文样本,LVIS-Instruct增加了🔥93.94万个英文问答,ScienceQA提供了1.27万个😡英文科学问题,ChatQA贡献了7390个英文对话问答。这些😡数据涵盖了从一般图像问答到数学推理的各种任务,让系统学会在不🤗同情境下进行视觉推理。 文字识别和图表理解数据帮助系统💯掌握更精细的视觉技能。Anyword-3M提供了170.93🚀万个中文文字识别样本,ICDAR2019-LSVT贡献了36🌟.63万个中文样本,UReader和SynDOG分别提供了英🤩文文字识别训练数据。这些数据让系统能够识别图像中的文字内容,😅理解图表和文档,就像训练一个既能看图又能读字的助手。 😉视频理解数据让系统学会处理动态视觉信息。ShareGemin🙄i提供了20.57万个中文视频描述样本,合成数据贡献了56.😢94万个中英文视频样本和433.63万个中英文视频问答对。这😡些数据教会系统理解视频中的动作、场景变化和时间关系。 ⭐纯文本数据确保系统保持强大的语言理解和生成能力。157.42😢万个中英文合成文本问答对帮助系统在处理多模态信息的同时,不丢😘失原有的文本处理能力。 除了这些图像和视频数据,系统还😍使用了11万小时的内部语音转录配对数据进行音频编码器训练和音🤔频编码器与语言模型的对齐,涵盖中英文两种语言。另外,3000⭐小时由文本到语音系统生成的文本-语音配对数据用于训练语音解码😁器,确保系统能够生成自然流畅的语音回复。 四、全面的性😡能评估:与顶级模型的正面较量 为了验证VITA-1.5😉的实际能力,研究团队进行了全方位的性能测试,就像给一个全能运😘动员安排各种比赛项目一样。 在图像理解能力测试中,VI😆TA-1.5与多个开源和闭源模型进行了对比。测试采用了九个权🙌威评估基准,包括MME、MMBench、MMStar、MMM⭐U、MathVista、HallusionBench、AI2🤩D、OCRBench和MMVet。这些基准覆盖了通用多模态能😆力、数学推理、幻觉检测、图表理解和文字识别等多个方面。 😘 结果显示,VITA-1.5在完成三个阶段训练后,平均得分达🤩到66.8,表现可比肩领先的图像视频多模态大语言模型。特别值😂得注意的是,在完成第二阶段(音频输入调优)和第三阶段(音频输😜出调优)训练后,VITA-1.5几乎完全保持了第一阶段(视觉😴语言训练)的原始视觉语言能力,这证明了分阶段训练策略的有效性🥳。 与闭源模型相比,VITA-1.5的表现同样令人印象🌟深刻。在某些指标上,它甚至超越了GPT-4V和GPT-4o-💯mini等知名模型。例如,在OCRBench测试中,VITA🙌-1.5得分732,超过了GPT-4V的678分。在MME综🔥合评估中,VITA-1.5获得2352分,表现稳定可靠。 🤯 视频理解能力测试采用了Video-MME、MVBench🤗和TempCompass等基准。尽管VITA-1.5在某些视🚀频理解任务上仍落后于GPT-4o和Gemini-1.5-Pr👍o等顶级闭源模型,但它与许多开源模型的表现相当,显示出良好的😂视频处理能力。在TempCompass基准上,VITA-1.😡5得分66.7,接近InternLM-XComposer-2😆.5的62.1分和MiniCPM-V-2.6的66.3分。 😎 语音识别能力的测试结果尤其令人鼓舞。在中文语音识别方面🥳,VITA-1.5在aishell-1测试集上的字符错误率仅😍为2.2%,在test net上为8.4%,在test me😜eting上为10.0%,均显著优于VITA-1.0的表现。🔥在英文语音识别方面,系统在dev-clean上的词错误率为3👏.3%,在dev-other上为7.2%,在test-cle😅an上为3.4%,在test-other上为7.5%,表现同👏样出色。 这些测试结果不仅超越了专门的语音模型如Wav🎉2vec2-base,还优于其他多模态模型如Mini-Omi🤗ni2和Freeze-Omini。这证明VITA-1.5成功😘地整合了先进的语音能力,能够支持高质量的多模态交互。 😜五、技术创新与实际应用:从实验室到现实生活的跨越 VI😎TA-1.5的技术创新不仅体现在性能数据上,更重要的是它为实👏际应用开辟了新的可能性。这个系统实现了真正的端到端语音到语音😡对话,无需依赖外部的语音识别或文本转语音模块,这大大降低了延😴迟,提高了交互的自然性。 在实际使用场景中,VITA-😊1.5展现出了接近实时的交互能力。用户可以打开摄像头,进行流😆畅的语音对话,系统能够同时理解视觉信息和语音指令,然后直接用⭐语音回应。这种能力在多个领域具有巨大的应用潜力。 在教👏育领域,VITA-1.5可以作为智能辅导助手,学生可以通过语😆音提问,同时展示作业或学习材料,系统能够理解具体问题并提供针😊对性的语音解答。在医疗保健领域,它可以协助医生进行病例分析,🎉通过语音描述症状的同时展示影像资料,获得初步的诊断建议。 🌟 在客户服务方面,VITA-1.5可以提供更加自然和高效的👍服务体验。客户可以通过语音描述问题,同时展示相关产品或文档,🥳系统能够准确理解情况并提供相应的解决方案。在无障碍技术领域,🚀这个系统可以为视觉或听觉障碍人士提供更好的信息获取和交流方式😘。 研究团队已经将VITA-1.5的训练和推理代码在G❤️itHub上开源,项目地址为https://github.c😂om/VITA-MLLM/VITA,目前已获得超过2000个😉星标,这表明了学术界和工业界对这项技术的高度关注。开源发布降🥳低了技术门槛,使更多研究者和开发者能够基于VITA-1.5进👍行进一步的研究和应用开发。 与传统的多模态系统相比,V😡ITA-1.5的主要优势在于其统一的端到端架构。传统系统通常⭐需要多个独立模块的协作,例如先用自动语音识别将语音转为文本,😂然后用文本到语音系统生成回复语音,这种流水线式的处理方式不仅😀增加了延迟,还可能在各个环节引入错误。VITA-1.5通过统🙌一的训练策略,让所有模态在同一个框架下协同工作,实现了更加自❤️然和高效的交互。 系统的另一个重要特点是其可扩展性。三🤗阶段训练策略不仅解决了多模态冲突问题,还为未来集成更多模态(🙌如触觉、嗅觉等)提供了框架参考。这种渐进式的能力扩展方法可能😢成为构建更加全面的人工智能系统的标准范式。 从技术发展😜的角度来看,VITA-1.5代表了多模态人工智能从专业工具向😍日常助手转变的重要一步。它展示了如何通过精心设计的训练策略和🤩架构,让人工智能系统具备更加接近人类的感知和交流能力。这不仅🌟推进了人工智能技术的发展,也为构建更加智能和便民的数字社会提😉供了重要支撑。 说到底,VITA-1.5的出现标志着我😀们正在进入一个全新的人机交互时代。过去,我们需要学习如何与计🎉算机"对话",使用特定的命令和界面;现在,计算机开始学习如何😎像人一样与我们交流,能看能听能说,理解我们的意图和需求。这种😀转变不仅会改变我们使用技术的方式,更会重新定义人与机器之间的😍关系。 虽然VITA-1.5目前在某些复杂的视频理解任⭐务上仍有提升空间,但它已经展现出了巨大的潜力和价值。随着技术🥳的不断完善和应用场景的不断扩展,我们有理由相信,这样的多模态🤯智能系统将在不久的将来成为我们日常生活中不可或缺的助手,让人😁工智能真正服务于人类的美好生活。 对于那些关注人工智能😜发展趋势的读者,VITA-1.5的成功经验提供了宝贵的启示:😍技术突破往往不是一蹴而就的,而是需要通过精心设计的策略和持续😊的努力来实现。对于想要了解更多技术细节的研究者和开发者,可以😴通过访问GitHub项目页面(https://github.😎com/VITA-MLLM/VITA)获取完整的代码和文档资😂源。 Q&A Q1:VITA-1.5和其他AI语😆音助手有什么区别? A:VITA-1.5最大的区别是能👍同时处理视觉和语音信息进行实时对话。传统AI助手要么只能听语🤩音,要么只能看图片,而VITA-1.5可以一边看摄像头画面一🥳边进行语音对话,就像真人一样同时用眼睛和耳朵理解你的需求,然🚀后直接用语音回答,不需要先转成文字再转成语音的中间步骤。 ⭐ Q2:普通人什么时候能用上VITA-1.5? A:🤔目前VITA-1.5还主要是研究阶段的技术,研究团队已经在G🌟itHub上开源了代码,但普通用户直接使用还需要一定的技术门😢槛。不过随着技术成熟和产业化推进,预计未来1-2年内可能会有😂基于这种技术的商业产品出现,让普通人也能体验到这种多模态AI💯交互。 Q3:VITA-1.5的语音对话质量怎么样? 🤯 A:根据测试结果,VITA-1.5在中英文语音识别方面💯表现出色,中文字符错误率低至2.2%,英文词错误率为3.3-🤩7.5%,超越了许多专门的语音识别系统。它能够进行接近实时的😎语音交互,语音质量自然流畅,在保持强大视觉理解能力的同时实现🔥了高质量的语音对话功能。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
文 | 大V商业,作者 | 庄莉 文 | 大V商业,作😴者 | 庄莉 即时零售的竞争,开始波及到消费品牌。 🥳 前阵子,华润啤酒四川营销中心发布公告,停售即时零售平台勇😴闯、纯生系列产品,纯线上销售平台的大仓、门店库存回收。 😂 原因是,即时零售平台的竞争(京东美团淘宝闪购),导致多款系🙌列啤酒出现突破价格红线的情况,部分消费者到手价低于30元/件🤗。 这个价格对于品牌的经销商体系有着极大的冲击,一般来🎉说电商平台销量大、话语权高,能够在品牌方拿到一级批发商的价格😉,成本远远低于二批三批的中小经销商。 当美团京东开始打😴价格战,通过补贴让利更多给消费者的时候,问题就出现了,终端价🤗格比小经销商的进货价还低。 小经销商还怎么玩。 🎉断供平台的事情在社区团购的时候也有发生。 2020年各🤩家社区团购打仗,各平台也遭受过供应商断供,紫林醋业、华海顺达😜粮油、卫龙等供应商都曾发公告断供社区团购平台,原因也是平台的😍促销导致终端价格出现问题。 即时零售平台已经成为超级渠🤩道,足以左右一家消费品牌的终端销售策略。2024年的上市消费⭐公司的财报中,大概有2/3提到了即时零售平台这一新渠道的影响👍。 即时零售成为消费品牌重要的新渠道,但也可能是未来最🌟大的危机。 就以米面粮油为例,美团的自有品牌早已经全面🙄覆盖了全部的品类,在美团旗下的小象品牌中,大米、食用油、调味😁品,比如米面粮油美团的小象超市已经有多款自有品牌产品,比如京😡东七鲜超市,线上搜索大米排在前位的就是七鲜的自有品牌,盒马大🙄米品类下有近10款自有品牌。 这是典型的“裁判和运动员😊”问题——当“京美淘”既要做超级渠道,又要做超级品牌,中小的😢消费企业怎么活? “京美淘”入场,硬折扣将改造零售业态⭐ 山姆在过去两年几乎在中国百货零售市场掀起腥风血雨,而🥳更残酷的是,美团、京东和盒马NB正在成为山姆的“平替”。 😁 这三家带来的冲击只会更广泛。 山姆证明了一个事实:🎉超级渠道本身就是超级品牌。 作为带货王,山姆在过去一年🎉捧红了无数供应商,但这些商品在山姆都被统一冠以Member’😀s Mark的名字。消费者真正认可的,并不是供应商品牌,而是😴山姆这一渠道,以及它所代表的品质背书。 展开全文 🥳 同样,美团、京东和阿里体系中孵化的品牌,本质上也依赖平台心😂智。 今年以来,京东、美团和阿里纷纷入局硬折扣——折扣🤩超市、自营商品的推进,为零售业注入了新的变量。 京东近😡期在河北涿州、江苏宿迁等地开出多家硬折扣超市,主打低价和高频😆消费,迅速吸引了本地客群。从现场反响看,低价确实是最大卖点,😡部分百货和食品价格明显更低,客流量保持在高位。 在京东😍折扣超市内,大量自有品牌占据核心货架,尤其是七鲜系列,覆盖米🎉面粮油、零食饮料、日化洗护等多个品类。通过自有品牌,京东既能🚀掌控成本与议价权,也在验证能否把线上“低价心智”迁移到线下零🎉售。 这背后,是在电商竞争激烈、线上流量成本走高的背景🌟下,京东试图以硬折扣超市作为新的流量入口和供应链实验场,把低🙌价战略延伸到线下的主动选择。 美团同样加速布局。 🚀 旗下折扣超市品牌“快乐猴”首店于8月29日在杭州拱墅区开业👏,SKU约1000—1700个,突出低价和日常刚需,如粮油、😆零食、日化、生鲜、蛋奶等。 美团希望借助“低价+高频+😎便利”的社区折扣业态,与即时零售和配送网络形成更紧密的线下触😉点,提升覆盖与用户粘性。 阿里盒马的平价社区超市盒马N🤔B,则在8月底更名为“超盒算NB”,定位社区临街门店,以生鲜😁、3R、标品、冻品为主,通过约1500款商品满足家庭一日三餐🥳需求。 值得注意的是,京东、美团和阿里的硬折扣门店,都😁有大量自营商品。京东七鲜、美团象大厨、盒马的自有系列,在销售😎中占比极高。 硬折扣的首要冲击是零售体系。超级渠道凭借😘“挟销量以令品牌”,重塑了消费者对品牌与渠道的认知。尤其在供👏应链环节,硬折扣大幅压缩成本,这也是它带给行业的最大变化。 😡 品牌同样受到波及。 在中国市场,消费品几乎没有真🥳正意义上的品牌,所谓品牌往往只是渠道红利的结果。在渠道的重压💯之下,品牌毫无话语权,渠道对其影响可谓生死攸关。 三个🔥超级渠道,正在借助自营商品,把自己锻造成超级品牌。 当😅京东、美团、阿里这样的超级渠道逐步成为多个品类的超级品牌,消😀费者自然会选择它们提供的平台。 一个直观的对比是山姆。💯山姆通过Member’s Mark,将渠道直接变为品牌。换句😘话说,美团、京东和阿里,正以自己的方式成为山姆的平替。 🤗 继续低价,但这次有何不一样? 硬折扣的起点可以追溯到😀无印良品。 创始人辻井乔曾在与社会学家三浦展的对话中提😴到, 价格往往是商品销售的最大障碍,而事实上不少产品完😆全可以通过低价、低成本实现销售。 比如,带有裂纹的香菇❤️依旧可以以低价出售;蟹肉罐头在生产过程中若省去摆放蟹足的工序😊就能显著降低成本;毛衣制造中,厂家通常直接从牧场采购羊毛,这🤔一点与今日优衣库的做法相似。 当时无印良品甚至与优衣库😘一同前往原材料产地展开生产合作,剩余材料再返还批发商。 😀 然而,这样的模式在传统百货店几乎难以落地。 硬折扣由🥳此逐渐形成了区别于百货超市的独特路径,其核心在于三点——低价😘但质量过关、极简设计凸显商品核心价值,以及通过极致运营效率削🌟减非必要成本。 这三点恰好与京东、美团、阿里如今推动的😂硬折扣模式高度契合。 比如,自有商品在压低价格的同时确🤩保品质;通过简洁设计和极简品牌降低消费者认知成本;折扣超市、😍前置仓等形态则有效压缩运营成本。 事实上,三者在硬折扣❤️上的野心早已有迹可循。 京东早在2018年就推出了“京😍东京造”,以自有品牌和缩短供应链为核心。 当时它更多是😅C2M背景下与拼多多、阿里竞争的产物,却意外契合了硬折扣逻辑😉。随后,京东在米面粮油等食品类推出“七鲜”,并依托七鲜超市这😊一即时零售线下业态,将自有品牌延展到多个品类。 美团方😀面,则在2020年后加速扩张小象超市,其中衍生了“象大厨”和🥳“象优选”两大品牌。 前者偏向主食、速食等预制食品,源😜于小象生鲜门店时代的餐饮档口;后者侧重粮油调料等基础原料,是🤗社区电商“美团优选”时期的产物。可以说,这是餐饮与社区团购两🤗条业务线孕育出的自有商品。 阿里的自营商品布局主要来自👏盒马和淘宝心选。 公开报道显示,2022年盒马自有品牌🌟占比已达35%。更早在2017年,阿里便上线“淘宝心选”,以🚀ODM模式对标网易严选,主营具有设计感的生活用品。2022年⭐4月,淘宝心选升级为“喵满分”,聚焦日常用品,核心销售渠道转🤯向天猫超市。 冲击“价格”和“品牌”体系 一年卖😅出千亿规模的山姆,或许是对中国零售市场最具启发性的样本。 😂 需要说明的是,山姆的核心是会员折扣,依靠大包装和低毛利来🚀运作,本身并不能完全等同于硬折扣。但在商品源头直采、高度定制🚀的模式下,山姆却成为硬折扣的最佳代表。 硬折扣之所以成😆为趋势,核心原因有二。 第一是价格。 价格始终是🤔零售竞争的核心。 正如无印良品创始人辻井乔当年指出,许🔥多商品完全可以通过简化环节、降低成本来以低价销售:带裂纹的香🤩菇可以低价处理,蟹肉罐头若省去摆放蟹足的工序就能减少成本。 ❤️ 如今中国市场进入“质价比时代”,低价再次成为关键。过去🤔两年,三大电商平台围绕低价展开的激烈竞争,已经证明低价在消费😊市场的重要性。 第二是供应链的畸形。 在消费者眼😡中,同一企业的商品往往在山姆卖得更“优质”。 比如一款💯热销鲜奶,生产商是蒙牛,但因包装标注了欧盟标准,让消费者认为😊品质更高。而事实上,中国现行生乳国标的菌落总数上限为200万🎉个/mL,而欧盟标准仅为10万个/mL。这 背后反映出😜,中国企业在发展中更多依赖砸钱营销来堆叠品牌知名度,却未能同🔥步提升产品品质。比如良品铺子作为零食头部品牌,在经历质量事件😘后最终卖身,正是典型案例。 硬折扣带来的冲击主要体现在⭐两个方面。 首先是价格体系。 以低价为卖点的硬折🤗扣,正在冲击传统品牌的定价模式。 在“超级渠道即超级品😢牌”的逻辑下,依靠高价与高品质构筑的品牌护城河正被撕开口子。🔥 比如京东七鲜超市的苹果汁仅售9.9元/L,不到味全同😅类产品的一半。 这也导致加入硬折扣的品牌普遍面临利润危🤗机。洽洽食品、甘源食品虽然进入山姆成为供应商,却出现业绩下滑⭐:洽洽上半年净利润同比下降超七成,甘源下滑逾五成。 其😅次是品牌体系。 在消费者追求质价比的环境下,品牌一旦进😅入硬折扣体系,溢价空间就会迅速被压缩。 零售商的自有品🤔牌(京东七鲜、盒马NB、山姆Member’s Mark)大规🤗模占据货架,把消费品牌的空间挤压殆尽。小象超市几乎在所有主力🙌品类上都推出了自有品牌:牛奶、调味品等全覆盖。 例如,🚀美团定制的蒙牛鲜奶1.5L售价13.5元,而小象自有品牌鲜奶🚀1.9L售价仅13.9元,单价优势明显。又如椰子水在2024😊年走红后,七鲜、美团、盒马都迅速上架了自有产品。 对于💯消费品牌而言,这意味着不仅要面对渠道的挑选,还要直接与渠道正😂面对抗,而在价格、流量和供应链三个维度上,几乎没有优势。 🙄 中小品牌们,该怎么面对超级渠道们? 渠道倒逼品牌,👍从来不是新鲜事。 在电商时代,这种力量已经彻底改写了品👍牌与消费者的关系。平台以低价和流量为核心逻辑,打散了原本由品😜牌主导的价格体系,消费者逐渐习惯于在大促节点等待最低价入手,🥳正价销售体系随之崩塌。 与此同时,流量入口和曝光机制完😜全掌握在平台手中,品牌若不参与促销,就会迅速被边缘化。 😍 更具冲击力的是,平台自身还不断推出自有品牌,或联手白牌厂商⭐,以更低的价格直接蚕食传统品牌的份额。消费者的心智也在这一过😜程中被重构,正在取代广告和品牌溢价,成为新的购买依据。 😢 于是,电商平台既倒逼品牌让利、内卷,也让不少消费品牌陷入了😂“花高价买流量”的循环。 硬折扣趋势下,这种倒逼效应仍😁然存在,品牌最终的选择大致逃不开三条路径。 第一是成为😂供应商。 像山姆的供货商一样,依托硬折扣渠道,品牌能获🤩得稳定收入,并借助渠道的严苛标准提升制造能力。但代价是品牌独😘立性和价值感逐渐被稀释,消费者只认渠道,不再认品牌。 😢一旦ODM占比过高,品牌便失去了C端市场和定价权。 第👍二是走高端化。 主动避开硬折扣渠道里的价格战,塑造差异🎉化的生态位。超级渠道的优势在于规模和低价,但其受众往往 集中😴在对价格高度敏感的群体,这反而为高端需求留出了空间。通过在原😍料、工艺、设计与文化内涵上的深耕,品牌可以建立起不依赖补贴的😉溢价壁垒。 日本市场上,一批与无印良品调性不同的高端小😉众品牌,正是通过强调工艺与稀缺性,实现了与硬折扣渠道的共存。🤯对中国消费品牌而言,高端化既能抵御渠道自有品牌的替代,又能在❤️消费分层中占据上层市场,以“不可替代性”对抗价格逻辑。 🚀 第三是平衡外部渠道与自有渠道。 超级渠道承担走量与曝⭐光的功能,而高端与创新产品则更多放在自有零售和会员体系中,以👏维护溢价与差异化。电商时代的后期,品牌们已开始这样做——把电🔥商作为基本盘,同时把新品和高端系列放在线下旗舰店或自营体系中💯。 进入硬折扣时代,这种“两条腿走路”的策略更为关键:🌟一方面要接受美团、京东、山姆等渠道里的低价竞争以维持规模,另⭐一方面又要通过自有渠道和品牌活动来积累长期价值。 唯有🥳如此,品牌才能在渠道权力日益强势的时代保有独立性与主动权。 😉 事实上,在无印良品引领的“无印”消费风潮下,也曾诞生过😂一批并非完全同质化的品牌,它们通过功能、专业分层切入市场,同😁样获得了不错的空间。这说明,即便在超级渠道的挤压之下,品牌依😡然有机会通过差异化和策略平衡找到自己的生态位。返回搜狐,查看😂更多
推荐阅读
如何做品牌
6361
英伟达1000亿美元投资OpenAI,人类超级计算资源正走向垄断
3487
千亿巨人网络,凭什么?
1150
即时零售闪电仓加盟:风口上的伪命题?
4060
朱兴明再送女儿7.7亿元股份,身家较高点缩水超50亿
6414
BBA的纯电焦虑,中国市场解不了
3066
2.4秒造1部手机、70天建厂投产,“望城速度”如何再造一个千亿级产业?
3614
【钛晨报】吴清最新发声,透露资本市场四大未来路线;鼎信通讯连续两涨停,再次澄清与平头哥合作;科创成长层首家新发行企业来了
2487
当虹科技战略升级 迈向“AI多模态+空间视频+行业”全新发展阶段
2134
极致产品参数vs降低创作门槛:大疆和影石谁能赢得未来
4375
在中国做关系必须理解江湖
3904
留给石头科技的赛道不多了
6361
售价数万、毛利超90%,AI玩具跑出下一个泡泡玛特?
6356
英伟达50亿投英特尔,图啥?
7988
市场开始对碳化硅“刮目相看”
6501
国产存储,“黄金窗口” 已至
9485
关于户晨风被封,我所想到的二三事
9898
始祖鸟品牌的绿色谎言
1748
【钛晨报】国家医保局:第十一批药品集采遵循稳临床、保质量、防围标、反内卷原则;国务院食安办等部门积极推进预制菜国家标准制定和餐饮环节使用明示;摩尔线程科创板IPO将于9月26日上会
5362
百元餐饮品牌的悲歌
4903
西贝陨落全景图
4977