谷歌发布Gemini 2.5 Flash Image,图像生成与编辑技术迎来突破

导语:谷歌推出Gemini 2.5 Flash Image,这一被称为“纳米香蕉”的新模型,为图像生成与编辑带来了一系列先进功能,包括无缝融合多张图片、保持角色一致性以及利用自然语言提示进行精准编辑,为创意工作者和企业应用提供了强大的工具。
谷歌在图像生成技术领域迈出了重要一步,推出了Gemini 2.5 Flash Image。这款新模型(昵称为“纳米香蕉”)带来了诸多先进功能,使用户能够无缝融合多张图片、保持角色在不同场景中的一致性,并通过自然语言提示进行精准的图像编辑。此外,该模型还整合了Gemini的广泛世界知识,支持图像生成与编辑功能。
自今年初Gemini 2.0 Flash发布以来,用户反馈推动了多项改进,特别是对高质量图像和更多创意控制的需求。如今,Gemini 2.5 Flash Image已通过Gemini API、Google AI Studio(面向开发者)以及Vertex AI(面向企业应用)等平台提供服务,定价为每百万输出令牌30美元,每张图像约0.039美元。
为了简化创作流程,Google AI Studio进行了重大更新,尤其是在“构建模式”方面。用户可以通过自定义AI驱动的应用程序探索模型的能力,重新混合现有模板,或通过简单提示生成新想法。完成的项目可以轻松部署或保存在GitHub上。
该模型的一个关键进步是能够在不同图像中保持角色一致性。这意味着同一角色可以在不同环境中设置,或从多个角度展示产品,同时保持其独特特征不变。此外,Gemini 2.5 Flash Image能够紧密遵循视觉模板,这对于开发人员在房地产列表卡片、员工徽章或全面产品模拟等项目中非常有吸引力,所有这些都可以从单一设计模板中生成。
该模型还具备基于提示的图像编辑功能,允许用户进行精确和针对性的转换。例如,用户可以通过简单提示模糊背景、移除不需要的元素或调整姿势,使复杂编辑变得易于操作。
此外,模型整合的世界知识使其功能超越了美学范畴。它能够支持如互动教育工具等应用,能够解释手绘图表并响应现实世界的问题,同时在一步中执行复杂的编辑指令。
另一个显著特点是多图像融合功能,用户可以将各种输入图像混合在一起,生成连贯且逼真的输出。这在产品设计和市场营销中尤其有用,因为视觉故事讲述在其中扮演着关键角色。
使用Gemini 2.5 Flash Image变得简单,通过全面的开发者文档和通过Gemini API及Google AI Studio提供的预览版。该模型与OpenRouter.ai合作,使其能够触及超过三百万开发者,成为该平台上首个图像生成模型。此外,与fal.ai的合作将使更多开发社区能够使用这项技术。
为了保持透明度和问责制,所有通过Gemini 2.5 Flash Image生成或编辑的图像都将包含一个不可见的SynthID数字水印,标记为AI生成或编辑。
改进工作仍在持续进行中,重点关注增强长文本渲染、角色一致性和确保图像细节的准确性。用户反馈至关重要,开发者可以在论坛或社交媒体平台上分享见解。随着人们对这些新功能的期待不断增加,图像生成领域的创新潜力似乎无穷无尽。
下一篇 → 马斯克 xAI 起诉苹果和 OpenAI,指控垄断