谷歌“香蕉”杀死Photoshop,全球软件业彻底变天了
吃瓜电子官网最新热点:谷歌“香蕉”杀死Photoshop,全球软件业彻底变天了
更新时间: 浏览次数:6094
“惊艳”两个字已不足以形容,它是跨时代的领先。 锦缎 🤩 若论当前最火的AI应用,非谷歌的香蕉Nano Bana🔥na莫属。 Nano Banana原名是Gemini 😘2.5 Flash Image,但自从它验明真身,大家普遍反🎉映还是Banana好记。 而听劝的谷歌,也马上把模型名🤩换了回去。 不论是文本生成还是图像编辑,Nano Ba😍nana都展现出了断档领先的实力。 首先来看看评分: 🙌 图:LMarena文生图模型排行榜 图:LMar😁ena图像编辑模型排行榜 展开全文 可以看到,文🚀生图能力属于最优一档,而图像编辑能力更是碾压级别,几乎砸穿了🚀Photoshop的锅。 我们可以笃定,Nano Ba😡nana之后,全球软件业彻底变天了。 01 用户体验:😍惊艳两个字已不足以形容 事实上,惊艳这两个字,已经不足👏以形容Nano Banana的强大。 先前的文生图评测🌟中,我们已经见识过它的本事。 但根据Gemini AP😅I文档中的描述,它还有几个其他的拿手好活: 在Nano🤯 Banana被发现出现于LMarena之前,各家大模型对于😍文生图中的文字几乎都束手无策。 哪怕不提汉字,只是英文😴单词,生成出来的基本都是乱码,令人难以理解。 Nano😡 Banana轻而易举地攻克了这一难关。 而最近让Na🤗no Banana在网络上爆火的原因,则是有网友发现它可以制🚀作精度极高的手办图。 图片中的手办完全能够以假乱真,圈⭐外人可能完全无法分辨这到底是不是真的手办。 除此之外,😆Google还明确介绍了Nano Banana的其他生图优势😅: 例如逼真的场景、风格化的插图和贴纸、产品模型和商业😉摄影、极简风格和负空间设计等。 而在图像编辑方面,Na😘no Banana也能够出色的完成以下任务:例如添加和移除元😆素、局部重绘、风格迁移、组合多张图片、高保真细节保留等有效解😅决了以往模型牵一发而动全身的问题。 这么说可能有些抽象🥳,我们用Nano Banana团队在采访中谈到的例子来解释。😍 ①像素级的修图编辑 最常见的需求之一:只想修改🌟一张图像中的一处细节,但又希望其他部分保持原样。 旅游🤯照片P掉路过的游客、自拍照去掉熬夜的黑眼圈,这些对于以往的多👏模态模型来说,并不是一项很简单的挑战。 微小的修改往往👏会导致图像整体风格或结构的不协调,而观感则会遭到严重的破坏。😘 Robert Riachi在采访中提到,团队在模型2😴.0版本时期遇到的一个主要挑战,就是编辑时往往无法保证与图像👏其他部分的一致性。 但通过持续的爬坡训练和用户反馈收集🤗,Nano Banana才取得了明显的进步。 无论是给🙌小猫戴上一顶帽子,还是调整一件家具的方向,它都能做到保持场景🎉的整体姿态和结构不变,让编辑的部分与图像其余部分无缝融合。 😂 而这种精准的控制力,对于需要高度一致性的创作场景至关重😡要。 ②不同角度的渲染 图像虽然是2D的,但它反🌟映的内容却是3D的。 因此,想要完成对现实世界中物体的❤️精确编辑,还需要AI对三维空间具备一定的理解能力。 N😉anoBanana能够从不同的角度渲染角色和物体,创造出全新👏的场景。 比如,上传一件家具的图像,让它从侧面或是背面😘重新生成,生成的结果仍然能保持高度一致性。 这种能力不💯仅是像素的复制,而是通过理解对象的外观和深层结构,对原始图像😘进行实质性变换,而创作自由度也是由此而来。 ③交错式生😴成 相比于文本,图像中包含的信息往往更多。 对于😡较为复杂的图像生成任务,Nano Banana引入了交错式生🚀成的新范式。 传统的文生图模型需要一次性处理所有细节,🤗如果指令中包含大量修改或元素的提示,模型就很容易发生饱和现象😡。 Nano Banana采取的解决方案是化整为零。 ⭐ 将复杂的提示分解为多个步骤,逐步进行编辑或生成。 🚀 这种增量生成的方式,能够让模型处理细节时更加精准。 🤔同时,它还可以积累上下文信息,从而生成高度复杂且高质量的图像😁。 创作流程因此变得更加灵活可控,模型处理复杂任务的能🚀力也得以显著提升。 ④超越用户的预期 Mosta🤗fa Dehghani在访谈中提到了一个词智能感。 他🤯给出了一个有趣的例子:在要求模型执行某项操作时,模型并未原封😆不动地遵循并执行他的指令。 但最终生成的结果却比他实际🌟描述的要更好,这使得他感到十分惊喜。 可以看出,Nan🌟o Banana已经打破执行命令的工具这一格局。 它具🤯备一定的真实世界的相关知识和常识,能够在一些特定情境下对用户😍的模糊或错误指令进行修正和优化。 这种智能带来的影响可👏好可坏,或许它无法达成用户的预期效果,但也可能生成更符合用户😉潜在需求甚至更具创意的图像。 对于大部分人来说,这种智😂能还是会明显提升用户体验,毕竟创意总是可遇而不可求的。 😡 02 商业化前景:文生图盈亏平衡出现曙光 任何先进的🤗技术,其商业化落地都离不开成本效益的考量。 而Nano😊 Banana在图像领域的应用,自然也涉及到成本和潜在的盈利😎模式。 Robert Riachi在采访中,明确提出多😆模态数据(图像和视频等)的爬坡训练非常困难。 这需要大❤️量的人类偏好信号,因此训练就需要投入巨大的时间成本和资源。 🙄 机器学习的过程中,需要锚定一个指标用于评估训练结果的好🔥坏。 以往的指标往往需要几个小时才能获取到有效反馈,而😁Google的研究团队则始终在努力寻找更为高效的训练指标。 😀 另一方面,图像的极度主观性,使得收集并处理用户反馈成为😢一个同样耗时且昂贵的过程。 Kaushik Shiva⭐kumar强调了人工评分在图像生成评估中的成本效益问题。 😘 先前我们的AI竞技场一文中曾经介绍过,LMarena就采😍用了这种人工评分的方式。 我们看到的排行榜上的Vote⭐s正是由该网站的使用者进行投票得出的。 即便是效果如此🥳出色的Nano Banana,目前的投票数量也只有22万左右🤯。 因此,让足够多的用户进行图像质量评分固然能提供良好😂的信号,但这种方式的成本恐怕令Google团队都难以承受。 😆 这条路走不通,就必须寻找更加高效且经济的评估指标,也就😁是Nano Banana目前使用的文本渲染度量,这项技术我们🔥后面再介绍。 除了训练成本,模型部署上线后的推理成本也🤗要考虑。 目前,Nano Banana的API定价为:😍 文字输入:$0.30/M tokens 文字输😍出:$2.50/M tokens 图像输入:$0.30😢/张 图像输出:$0.039/张 在Google🤯 AI Studio上可以免费使用,但近期已经设置免费额度。🤗 如此低的定价再加上高质量的生成效果,Nano Ban😊ana的性价比可以说是直接拉满。 与此同时,本周网上已😁经开始出现第三方平台以更低的价格提供Nano Banana的🤗API服务。 以AI领域现有的产品迭代速度,其他厂商推👏出水平相近的模型恐怕也只是时间问题。 仅仅依靠Nano🤔 Banana的使用费用,极难覆盖Google在如此先进的模🙌型上投入的巨大成本。 因此,这一重新定义AI图像领域的😡模型的诞生,更多还是为了应对市场份额和生态系统的竞争。 ⭐ AIGC作为科技巨头公司竞争的焦点,Google必须不断推😜出有竞争力的产品以对抗OpenAI或是Midjourney等😍公司。 而Nano Banana和Gemini 2.5🙌 Pro两款高用户评分产品的存在,有效保持了Google在A🤯I领域的领导地位。 从技术角度来看,模型的迭代和优化是😢一个几乎永不间断的过程。 平民级别的价格能够带来的,是⭐所有厂商都急需的大量真实用户数据。 Google这样的⭐科技公司,更多是通过平台上提供的各种服务实现盈利。 即🔥使Nano Banana现在可能亏本,但低成本的图像生成和编😅辑能力,不仅可以用来吸引用户进入Google的生态系统,鼓励💯用户使用Google提供的相关服务;未来,还可能成为某些更大😎利润业务的核心组件。 03 技术逻辑:跨时代的强大 😍 Nano Banana能够在AI图像领域实现如此强大的能🤯力,归功于Google团队在多模态学习、用户反馈机制和创新架🎉构设计等方面的长期投入和努力。 在观看完Google官😁方发布的约30分钟的采访后,不得不对其技术能力感到惊讶。 😁 ①文本渲染度量 这是Kaushik Shivaku😁mar始终坚持的一项指标,起初谁也没能想到它就是成功的关键。😢 前面我们说过,Google团队需要找到一个无需依靠用😁户主观评价的指标来判断模型是否在越变越好。 在Nano🚀 Banana正式发布之前,无论是国内还是国外的多模态模型,😂生图水平参差不齐。 但在图片中加入文字这件事上,所有的🌟模型都无法准确完成。 看起来,文字生成只是AI图像领域🤩的一个分支,但Google团队坚持以此为优化目标。 最🙄终结果也证明了这是一个无比正确的决定。 在对文本渲染的😍不断优化过程中,研究团队发现图像生成质量也在不断提高。 🤔 天才般的想法,加上持之以恒的努力,成就了Nano Bana😊na的强大。 ②多模态统一模型与正向迁移 Mos😎tafa Dehghani提出了Nano Banana的核心🌟理念之一:实现原生的图像生成和多模态理解与生成。 这意😀味着模型会在同一个训练运行中学习所有模态和不同的能力,而最终🤔目标则是实现跨不同维度的正迁移。 简单地说,就是要让模😉型不仅能理解和生成单一模态(比如文本或图像),还能利用从一种😉模态中学到的知识,帮助理解和生成另一种模态。 例如,模🎉型可以从图像、音频和视频中学到真实世界的相关知识,从而更好地⭐理解和生成文本。 就像Robert Riachi提到的💯一种名为报告偏差的现象: 人们在日常对话中通常不会提及🙌哪些显而易见、习以为常的事物,比如朋友家的普通沙发。 🙄但如果展示一张房间的图片,沙发就会自然呈现在眼前。 说😢实话,这个例子举得有点莫名其妙,但确实有一定道理: 图💯像和视频等视觉信号里,包含着大量关于真实世界的隐性信息,而这👏些信息无需明确请求即可获取。 对于一个多模态模型来说,😡视觉信号是了解世界难得的捷径。 这种统一的多模态学习方🤔式,帮助Google团队建立了更全面和深入的世界模型。 😆 Gemini系列产品也在各种模态任务中表现出了更高的智能化🌟程度,LMarena的数据已经验证了这一点。 因此,采😎访中提及图像理解和图像生成被视为姐妹,在交错生成中互相促进。😆 ③从错误中学习:用户反馈驱动爬坡训练 Robe👍rt Riachi着重强调了利用人类偏好进行爬坡训练的重要性😍。 但前面已经说过,不可能模型每次生成图片都让人类来判❤️断孰优孰劣。 因此,Google团队收集了大量来自Tw👍itter等平台的真实用户反馈,将失败案例转化为评估基准,而😡这些恰恰是用于改进模型的宝贵信号。 在模型的2.0版本😊发布时,团队成员敏锐地注意到一个常见的失败案 例: 😘 编辑时无法保持图像其余部分的一致性。 于是,以此为😂基础,团队开始针对于具体问题进行爬坡训练和迭代。 这种😍以用户为中心、从错误中学习的机制,正是Nano Banana🤗能够解决这一挑战的关键。 ④团队协作:Gemini与I🤯magen的融合 采访的最后,Robert Riach🙌i也谈到了Nano Banana的成功离不开Gemini和I🤯magen两个团队的紧密协作。 Gemini团队专注于😀指令遵循和世界知识等方面,确保模型能够理解用户的意图并生成符😂合逻辑的内容。 Imagen团队专注于图像的视觉质量,😡确保生成的图像自然美观,且不出现明显问题。 Gemin🚀i 2.5 Pro之前的长期霸榜已经说明其功能的强大,而融合😜两个团队的视角和专业知识,Nano Banana做到了兼顾图🥳像的智能性和美观性。 Nano Banana在Goog😅le AI Studio上线后,我们也可以发现,它和Gemi😊ni 2.5 Pro是融为一体的,在原先的聊天界面就可以直接🚀使用,而非两个独立的模型。 这种跨团队的深度合作,使得🔥Google的产品体系上升到了一个新的高度。 04 结😍语 就像很多标题所说,Nano Banana的出现毫无💯疑问给AI图像领域带来了革命性的变化。 从像素级的完美😍编辑,到交错式的复杂图像构建; 从对用户意图的智能理解😢,到超越预期的创意发散; 人工智能在视觉艺术上的创作潜😆力正在被逐步发掘。 但与此同时,以假乱真的高质量图像也💯在改变很多行业的现状。 尽管Nano Banana生成🤯的图像目前也已经明确带有AI生成标识,但它的作品已经足以满足🤩大多数人的需求。 未来的创作者和艺术家又该何去何从? 🙌 唯一可以确定的,是AI图像领域的未来将会更加智能、更加😊高效、更具创意。 而人机之间的协作,也即将开始书写全新😴的篇章,全球软件业正因此重塑。返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
有三峡大坝,为何还还要雅鲁藏布江水电站?
推荐阅读
吊坠型 AI 吊坠“Friend”引发争议:用户体验差、隐私风险高
3452
上市没几天iPhone 17已跌破发售价 部分机型降幅高达千元
8106
谷歌Gemini火速登顶:iPhone用户的免费应用新宠
8615
大模型不再是“万能钥匙”?探秘 AI 初创公司的新策略与挑战
6308
高中生用 AI 炒股,一个月竟轻松赚了 25%!
5657
华为穿戴音频新品发布会定档9月24日:WATCH GT6等将发布
3700
魅族22今日发布:小屏影像旗舰、行业唯一白面板
9030
主流聊天机器人传播虚假信息风险加剧,研究显示情况堪忧
5112
OpenAI 计划削减微软收入分成,以应对巨额计算成本
3082
马斯克xAI将裁员500人 主要涉及数据标注团队
7934
北京1400 多所中小学推行人工智能通识课程
2303
智能家居新趋势!洗衣房里的 “机器人小能手” 正式上岗
8852
彭斯克集团起诉 Google,指控 AI 摘要侵权并威胁数字媒体未来
6849
谷歌AI摘要功能惹大祸!知名媒体集团起诉垄断巨头"偷内容毁生意"
6248
AI数据标注新星Micro1融资3500万美元,估值飙升至5亿
1341
基础模型神话破灭?AI行业巨变来袭,"GPT包装工"们正在翻身
6617
尚界H5小订突破10万台 预售16.98万起
2690
专访瑞银首席策略师:内资支撑新兴市场表现,警惕AI需求波动
8316
规范汽车整车企业供应商账款支付,工业和信息化部作出回应
6537
研究:主流AI聊天机器人传播虚假信息概率较去年翻倍
3890
荣耀拥有原方舟引擎核心开发人员并开发新特性
4718