VITA-1.5:让计算机像人一样同时"看"和"说话"的革命性突破
吃瓜电子官网最新热点:VITA-1.5:让计算机像人一样同时"看"和"说话"的革命性突破
更新时间: 浏览次数:5265
这项由南京大学、腾讯优图实验室、厦门大学等多家机构联合完成的💯研究发表于2025年1月21日,论文题为《VITA-1.5:😉 Towards GPT-4o Level Real-Tim🤯e Vision and Speech Interactio🎉n》。有兴趣深入了解的读者可以通过GitHub开源项目(ht🙄tps://github.com/VITA-MLLM/VIT🙄A)获取完整的代码和研究资料,该项目目前已获得超过2000个👍星标。 现在,请你闭上眼睛,设想这样一个场景:你正在厨😜房里准备晚餐,双手忙着切菜,突然想要查询某道菜的做法。你只需😊要对着手机说话,同时用手机摄像头对准你面前的食材,一个智能助👍手就能立刻理解你在做什么,然后用清晰的语音告诉你接下来该怎么🚀做。这不是科幻电影,而是VITA-1.5这个新系统正在实现的⭐能力。 过去,计算机要想同时处理视觉信息和语音对话是极🚀其困难的。就像一个人要同时用左手画画、右手弹琴,还要唱歌一样⭐,每项技能都需要大脑的不同区域协调工作。传统的人工智能系统通😢常只能专注于一种能力,要么是看图识别,要么是语音对话,很少能🎉像人类一样自然地结合这些技能。 VITA-1.5的突破🤗性在于它能够像人类一样,同时运用视觉和听觉进行自然对话。这个⭐系统不需要先把语音转成文字,再把回答转成语音这样繁琐的步骤,🤗而是能够直接进行语音到语音的交流。这就好比过去的翻译需要先把😘中文写在纸上,翻译成英文,再读出来;而现在可以直接进行同声传🤩译一样流畅。 研究团队面临的最大挑战是如何让一个系统同🎉时掌握看图和说话这两种完全不同的能力。视觉信息就像是一幅静态😉的画,包含空间和细节信息;而语音信息则像是流动的音乐,包含时😀间序列和韵律变化。这两种信息的处理方式截然不同,强行让系统同👍时学习往往会造成"顾此失彼"的问题,就像让一个学生同时学习数😅学和音乐,可能两样都学不好。 一、循序渐进的三阶段训练😂策略:从基础到精通的学习之路 VITA-1.5的成功秘😜诀在于它采用了一种非常聪明的分阶段训练方法,就像培养一个全能😀型人才一样,先让他掌握基础技能,再逐步添加新能力。 第💯一阶段是建立视觉理解的基础。研究团队首先让系统学会"看懂"图⭐片和视频。这个过程就像教一个孩子认识世界一样,从简单的物体识😜别开始,逐渐学会理解复杂的场景。系统使用了一个名为Inter👏nViT-300M的视觉编码器作为"眼睛",能够将448×4😁48像素的图像转换成256个视觉标记。对于高分辨率图像,系统🔥还采用了动态分块策略,就像用放大镜仔细观察图片的每个细节一样😢。 展开全文 在处理视频时,VITA-1.5采用🎉了智能的帧采样策略。如果视频短于4秒,系统会均匀采样4帧;如🤯果视频长度在4-16秒之间,则每秒采样一帧;对于超过16秒的🤩长视频,系统会均匀采样16帧。这种策略确保了系统既能捕捉到视🤯频的关键信息,又不会因为处理过多帧而影响效率。 这个阶🙌段分为三个小步骤。首先是视觉对齐训练,系统学习如何将视觉特征🌟与语言模型连接起来,只有视觉适配器是可训练的,其他模块保持冻🤔结状态。接着是视觉理解训练,系统学会生成图像描述,这时视觉模🙄块和语言模型都参与训练。最后是视觉指令调优,系统学会回答关于🥳图像的各种问题,同时保留部分描述数据以增加训练的多样性。 😘 第二阶段引入了音频理解能力。就像一个已经会看的孩子开始学😂会听和理解语音一样。系统的音频编码模块包含多个下采样卷积层和🥳24个Transformer块,拥有约3.5亿个参数,输出帧🙄率为12.5Hz。输入采用梅尔滤波器组特征,窗口大小为25毫🔥秒,位移为10毫秒。 音频对齐训练使用了11万小时的内🤯部语音转录配对数据,覆盖中英文两种语言。研究团队采用两步法:😂首先训练语音编码器,使用常见语音识别系统的连接时序分类损失函💯数来预测转录文本;然后训练语音适配器,将音频编码器与语言模型⭐集成,同时引入特殊的可训练输入标记来指导语音理解过程。 😁 音频指令调优阶段,系统学会处理语音问答任务。研究团队采样了😅4%的描述数据和20%的问答数据,约一半的文本问题被随机替换😊为相应的语音版本。系统还添加了分类头来区分输入是来自语音还是🤔文本,使模型能够更准确地处理不同类型的输入。 第三阶段🤩是最关键的音频输出训练。前两个阶段让系统学会了"看"和"听"😎,现在要教它"说话"。系统使用TiCodec作为编解码模型,😡定制了单一码本设计,码本大小为1024,简化了推理阶段的解码👏过程。编解码模型负责将连续语音信号编码为离散语音标记,频率为😢40Hz,同时具备将这些标记解码回采样率为24000Hz语音👏信号的能力。 为了让系统能够输出语音,研究团队在文本标😢记后添加了两个语音解码器:非自回归语音解码器负责处理全局文本😘标记并建模语义特征,目标是生成语音标记的初始分布;自回归语音🎉解码器则基于非自回归解码器产生的信息逐步生成更高质量的语音标😉记。这种设计就像先有一个大概的轮廓,然后逐步细化成清晰的画面🥳一样。 编解码训练使用3000小时的文本-语音配对数据⭐训练编解码模型,而解码器训练阶段,文本通过分词器和语言模型的🚀嵌入层获得嵌入向量,语音通过编解码模型编码器获得语音标记。文😅本嵌入向量被发送到非自回归语音解码器获得全局语义特征,然后这😊些特征被送到自回归语音解码器预测相应的语音标记。重要的是,在😡这个阶段语言模型保持冻结状态,因此不会影响多模态性能。 🔥 二、强大的多模态架构设计:统一而高效的信息处理中心 💯VITA-1.5的整体架构就像一个高度协调的管弦乐团,每个组🙄件都有自己的职责,但能够完美地协同工作。输入端采用了"多模态🤩编码器-适配器-语言模型"的配置,将视觉和音频变换器与多层连🔥接器结合,目标是增强对视觉、语言和音频的统一理解。 在🔥视觉处理方面,系统的"眼睛"采用InternViT-300M🙌作为视觉编码器,输入图像尺寸为448×448像素,每张图像生😍成256个视觉标记。对于需要精细处理的高分辨率图像,系统采用🔥动态分块策略来捕获局部细节,提高图像理解的准确性。视频被视为⭐特殊的多图像输入进行处理。为避免产生过多可能阻碍处理效率的视😀觉标记,视频帧不应用动态分块处理。视觉适配器采用两层多层感知😅机结构,将视觉特征映射为适合语言模型理解的视觉标记。 😢音频处理模块的设计同样精巧。语音编码器由多个4倍下采样卷积层🥳和24个Transformer块组成,隐藏层大小为1024。🤗下采样层帮助降低音频特征的帧率,提高语言模型的处理速度。语音🎉适配器包含多个2倍下采样的卷积层。整个音频编码模块约有3.5🙌亿参数,输出帧率为12.5Hz,确保了高效的音频处理能力。 😆 语音解码器部分采用了创新的双重解码设计。TiCodec🎉被用作编解码模型,定制了单一码本设计,码本大小为1024,这😅种设计简化了推理阶段的解码过程。编解码模型能够将连续语音信号💯编码为40Hz频率的离散语音标记,同时具备将这些标记解码回2😀4000Hz采样率语音信号的能力。 当前的语言模型只能🤩输出文本标记,要获得语音生成能力需要让语言模型能够输出语音标😂记。研究团队在文本标记后添加了两个语音解码器:非自回归语音解😅码器全局处理文本标记并建模语义特征,目标是生成语音标记的初始👏分布;自回归语音解码器基于非自回归解码器产生的语音信息逐步生🙄成更高质量的语音标记。最终的语音标记序列通过编解码模型的语音😊解码器转换为连续语音信号流。两个解码器都采用4层LLaMA解🚀码器结构,隐藏层大小为896,参数量约为1.2亿。 三🙌、丰富多样的训练数据:涵盖多语言多场景的学习素材 VI😡TA-1.5的训练就像培养一个博学的学者,需要大量丰富多样的🤗学习材料。整个训练数据集包含约2.21万个问题,涵盖中英文两❤️种语言,确保系统能够处理不同语言环境下的多模态交互。 🙄图像描述数据是系统学习视觉理解的基础。ShareGPT4V提😡供了9.95万个英文图像描述问题,ALLaVA-Captio⭐n贡献了69.74万个英文描述,SharedGPT4o-Im😆age增加了5.55万个英文样本,还有59.37万个中文合成😁数据。这些数据教会系统如何用自然语言描述图像内容,就像训练一💯个解说员学会生动地描述所看到的场景。 图像问答数据进一😜步提升了系统的推理能力。LLaVA-150K提供了21.84😴万个中文问答对,LLaVA-Mixture-sample贡献😀了187.21万个英文样本,LVIS-Instruct增加了🔥93.94万个英文问答,ScienceQA提供了1.27万个😡英文科学问题,ChatQA贡献了7390个英文对话问答。这些😡数据涵盖了从一般图像问答到数学推理的各种任务,让系统学会在不🤗同情境下进行视觉推理。 文字识别和图表理解数据帮助系统💯掌握更精细的视觉技能。Anyword-3M提供了170.93🚀万个中文文字识别样本,ICDAR2019-LSVT贡献了36🌟.63万个中文样本,UReader和SynDOG分别提供了英🤩文文字识别训练数据。这些数据让系统能够识别图像中的文字内容,😅理解图表和文档,就像训练一个既能看图又能读字的助手。 😉视频理解数据让系统学会处理动态视觉信息。ShareGemin🙄i提供了20.57万个中文视频描述样本,合成数据贡献了56.😢94万个中英文视频样本和433.63万个中英文视频问答对。这😡些数据教会系统理解视频中的动作、场景变化和时间关系。 ⭐纯文本数据确保系统保持强大的语言理解和生成能力。157.42😢万个中英文合成文本问答对帮助系统在处理多模态信息的同时,不丢😘失原有的文本处理能力。 除了这些图像和视频数据,系统还😍使用了11万小时的内部语音转录配对数据进行音频编码器训练和音🤔频编码器与语言模型的对齐,涵盖中英文两种语言。另外,3000⭐小时由文本到语音系统生成的文本-语音配对数据用于训练语音解码😁器,确保系统能够生成自然流畅的语音回复。 四、全面的性😡能评估:与顶级模型的正面较量 为了验证VITA-1.5😉的实际能力,研究团队进行了全方位的性能测试,就像给一个全能运😘动员安排各种比赛项目一样。 在图像理解能力测试中,VI😆TA-1.5与多个开源和闭源模型进行了对比。测试采用了九个权🙌威评估基准,包括MME、MMBench、MMStar、MMM⭐U、MathVista、HallusionBench、AI2🤩D、OCRBench和MMVet。这些基准覆盖了通用多模态能😆力、数学推理、幻觉检测、图表理解和文字识别等多个方面。 😘 结果显示,VITA-1.5在完成三个阶段训练后,平均得分达🤩到66.8,表现可比肩领先的图像视频多模态大语言模型。特别值😂得注意的是,在完成第二阶段(音频输入调优)和第三阶段(音频输😜出调优)训练后,VITA-1.5几乎完全保持了第一阶段(视觉😴语言训练)的原始视觉语言能力,这证明了分阶段训练策略的有效性🥳。 与闭源模型相比,VITA-1.5的表现同样令人印象🌟深刻。在某些指标上,它甚至超越了GPT-4V和GPT-4o-💯mini等知名模型。例如,在OCRBench测试中,VITA🙌-1.5得分732,超过了GPT-4V的678分。在MME综🔥合评估中,VITA-1.5获得2352分,表现稳定可靠。 🤯 视频理解能力测试采用了Video-MME、MVBench🤗和TempCompass等基准。尽管VITA-1.5在某些视🚀频理解任务上仍落后于GPT-4o和Gemini-1.5-Pr👍o等顶级闭源模型,但它与许多开源模型的表现相当,显示出良好的😂视频处理能力。在TempCompass基准上,VITA-1.😡5得分66.7,接近InternLM-XComposer-2😆.5的62.1分和MiniCPM-V-2.6的66.3分。 😎 语音识别能力的测试结果尤其令人鼓舞。在中文语音识别方面🥳,VITA-1.5在aishell-1测试集上的字符错误率仅😍为2.2%,在test net上为8.4%,在test me😜eting上为10.0%,均显著优于VITA-1.0的表现。🔥在英文语音识别方面,系统在dev-clean上的词错误率为3👏.3%,在dev-other上为7.2%,在test-cle😅an上为3.4%,在test-other上为7.5%,表现同👏样出色。 这些测试结果不仅超越了专门的语音模型如Wav🎉2vec2-base,还优于其他多模态模型如Mini-Omi🤗ni2和Freeze-Omini。这证明VITA-1.5成功😘地整合了先进的语音能力,能够支持高质量的多模态交互。 😜五、技术创新与实际应用:从实验室到现实生活的跨越 VI😎TA-1.5的技术创新不仅体现在性能数据上,更重要的是它为实👏际应用开辟了新的可能性。这个系统实现了真正的端到端语音到语音😡对话,无需依赖外部的语音识别或文本转语音模块,这大大降低了延😴迟,提高了交互的自然性。 在实际使用场景中,VITA-😊1.5展现出了接近实时的交互能力。用户可以打开摄像头,进行流😆畅的语音对话,系统能够同时理解视觉信息和语音指令,然后直接用⭐语音回应。这种能力在多个领域具有巨大的应用潜力。 在教👏育领域,VITA-1.5可以作为智能辅导助手,学生可以通过语😆音提问,同时展示作业或学习材料,系统能够理解具体问题并提供针😊对性的语音解答。在医疗保健领域,它可以协助医生进行病例分析,🎉通过语音描述症状的同时展示影像资料,获得初步的诊断建议。 🌟 在客户服务方面,VITA-1.5可以提供更加自然和高效的👍服务体验。客户可以通过语音描述问题,同时展示相关产品或文档,🥳系统能够准确理解情况并提供相应的解决方案。在无障碍技术领域,🚀这个系统可以为视觉或听觉障碍人士提供更好的信息获取和交流方式😘。 研究团队已经将VITA-1.5的训练和推理代码在G❤️itHub上开源,项目地址为https://github.c😂om/VITA-MLLM/VITA,目前已获得超过2000个😉星标,这表明了学术界和工业界对这项技术的高度关注。开源发布降🥳低了技术门槛,使更多研究者和开发者能够基于VITA-1.5进👍行进一步的研究和应用开发。 与传统的多模态系统相比,V😡ITA-1.5的主要优势在于其统一的端到端架构。传统系统通常⭐需要多个独立模块的协作,例如先用自动语音识别将语音转为文本,😂然后用文本到语音系统生成回复语音,这种流水线式的处理方式不仅😀增加了延迟,还可能在各个环节引入错误。VITA-1.5通过统🙌一的训练策略,让所有模态在同一个框架下协同工作,实现了更加自❤️然和高效的交互。 系统的另一个重要特点是其可扩展性。三🤗阶段训练策略不仅解决了多模态冲突问题,还为未来集成更多模态(🙌如触觉、嗅觉等)提供了框架参考。这种渐进式的能力扩展方法可能😢成为构建更加全面的人工智能系统的标准范式。 从技术发展😜的角度来看,VITA-1.5代表了多模态人工智能从专业工具向😍日常助手转变的重要一步。它展示了如何通过精心设计的训练策略和🤩架构,让人工智能系统具备更加接近人类的感知和交流能力。这不仅🌟推进了人工智能技术的发展,也为构建更加智能和便民的数字社会提😉供了重要支撑。 说到底,VITA-1.5的出现标志着我😀们正在进入一个全新的人机交互时代。过去,我们需要学习如何与计🎉算机"对话",使用特定的命令和界面;现在,计算机开始学习如何😎像人一样与我们交流,能看能听能说,理解我们的意图和需求。这种😀转变不仅会改变我们使用技术的方式,更会重新定义人与机器之间的😍关系。 虽然VITA-1.5目前在某些复杂的视频理解任⭐务上仍有提升空间,但它已经展现出了巨大的潜力和价值。随着技术🥳的不断完善和应用场景的不断扩展,我们有理由相信,这样的多模态🤯智能系统将在不久的将来成为我们日常生活中不可或缺的助手,让人😁工智能真正服务于人类的美好生活。 对于那些关注人工智能😜发展趋势的读者,VITA-1.5的成功经验提供了宝贵的启示:😍技术突破往往不是一蹴而就的,而是需要通过精心设计的策略和持续😊的努力来实现。对于想要了解更多技术细节的研究者和开发者,可以😴通过访问GitHub项目页面(https://github.😎com/VITA-MLLM/VITA)获取完整的代码和文档资😂源。 Q&A Q1:VITA-1.5和其他AI语😆音助手有什么区别? A:VITA-1.5最大的区别是能👍同时处理视觉和语音信息进行实时对话。传统AI助手要么只能听语🤩音,要么只能看图片,而VITA-1.5可以一边看摄像头画面一🥳边进行语音对话,就像真人一样同时用眼睛和耳朵理解你的需求,然🚀后直接用语音回答,不需要先转成文字再转成语音的中间步骤。 ⭐ Q2:普通人什么时候能用上VITA-1.5? A:🤔目前VITA-1.5还主要是研究阶段的技术,研究团队已经在G🌟itHub上开源了代码,但普通用户直接使用还需要一定的技术门😢槛。不过随着技术成熟和产业化推进,预计未来1-2年内可能会有😂基于这种技术的商业产品出现,让普通人也能体验到这种多模态AI💯交互。 Q3:VITA-1.5的语音对话质量怎么样? 🤯 A:根据测试结果,VITA-1.5在中英文语音识别方面💯表现出色,中文字符错误率低至2.2%,英文词错误率为3.3-🤩7.5%,超越了许多专门的语音识别系统。它能够进行接近实时的😎语音交互,语音质量自然流畅,在保持强大视觉理解能力的同时实现🔥了高质量的语音对话功能。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
1927年,他在海南成立了中共琼崖县委,并被任命为县委书记,😍致力于发展党的组织和武装力量。吴克之出生在海南琼山的一个普通😎家庭,早年家境贫困,但他在父亲的革命影响下,早早地树立起了革🥳命思想。吴克之在抗日战争期间…
推荐阅读
Claude 公司 CEO 示警称 AI 加速取代人类,近半白领岗位未来 5 年恐被淘汰
9544
消息称马云已“强势回归”,阿里巴巴暂无回应
4957
消息称iPhone 18 Pro及Max屏幕仍分别是6.3英寸、6.9英寸
7119
“数字+产业+场景”——重庆农商行的转型密码
2532
交个朋友发布半年报:新媒体服务营收6.19亿元,同比增长9.8%
9945
中国茶饮,“占领”华尔街
7864
17.98万起,唐DM-i智驾版 175KM长续航版上市
4615
小米发布REDMI 15R 5G手机:售价1099元起 搭载6000mAh电池
8567
GPT-4o复活!OpenAI如何应对用户对新模型的情感依赖
2427
药捷安康股价过山车,ETF被动“抬轿”又“踩雷”!什么情况?
4021
通义首个深度研究Agent模型DeepResearch开源
7392
新石器成立科技新公司 含AI及机器人业务
8323
华为:今年第四季度将推出全球最强超节点
4694
立讯精密与美国边缘人工智能芯片企业PIMIC达成战略合作
6421
【特稿】科学家提取近海淡水 全球缺水问题有解了?
3768
大疆发布迷你航拍机DJI Mini 5 Pro,起售价4788元
6490
沃飞长空获川发租赁200架eVTOL意向采购订单
9743
DeepSeek,打破历史!中国AI的“Nature时刻”
8480
恒生聚源吴震操谈AI爆款攻略:数据决定未来,三大场景落地指南
2043
华为算力概念持续上扬 烽火通信涨停
2882
中信国际电讯下午复牌
2268