谷歌发布Gemini 2.5 Flash Image，图像生成与编辑技术迎来突破

导语：谷歌推出Gemini 2.5 Flash Image，这一被称为“纳米香蕉”的新模型，为图像生成与编辑带来了一系列先进功能，包括无缝融合多张图片、保持角色一致性以及利用自然语言提示进行精准编辑，为创意工作者和企业应用提供了强大的工具。

谷歌在图像生成技术领域迈出了重要一步，推出了Gemini 2.5 Flash Image。这款新模型（昵称为“纳米香蕉”）带来了诸多先进功能，使用户能够无缝融合多张图片、保持角色在不同场景中的一致性，并通过自然语言提示进行精准的图像编辑。此外，该模型还整合了Gemini的广泛世界知识，支持图像生成与编辑功能。

自今年初Gemini 2.0 Flash发布以来，用户反馈推动了多项改进，特别是对高质量图像和更多创意控制的需求。如今，Gemini 2.5 Flash Image已通过Gemini API、Google AI Studio（面向开发者）以及Vertex AI（面向企业应用）等平台提供服务，定价为每百万输出令牌30美元，每张图像约0.039美元。

为了简化创作流程，Google AI Studio进行了重大更新，尤其是在“构建模式”方面。用户可以通过自定义AI驱动的应用程序探索模型的能力，重新混合现有模板，或通过简单提示生成新想法。完成的项目可以轻松部署或保存在GitHub上。

该模型的一个关键进步是能够在不同图像中保持角色一致性。这意味着同一角色可以在不同环境中设置，或从多个角度展示产品，同时保持其独特特征不变。此外，Gemini 2.5 Flash Image能够紧密遵循视觉模板，这对于开发人员在房地产列表卡片、员工徽章或全面产品模拟等项目中非常有吸引力，所有这些都可以从单一设计模板中生成。

该模型还具备基于提示的图像编辑功能，允许用户进行精确和针对性的转换。例如，用户可以通过简单提示模糊背景、移除不需要的元素或调整姿势，使复杂编辑变得易于操作。

此外，模型整合的世界知识使其功能超越了美学范畴。它能够支持如互动教育工具等应用，能够解释手绘图表并响应现实世界的问题，同时在一步中执行复杂的编辑指令。

另一个显著特点是多图像融合功能，用户可以将各种输入图像混合在一起，生成连贯且逼真的输出。这在产品设计和市场营销中尤其有用，因为视觉故事讲述在其中扮演着关键角色。

使用Gemini 2.5 Flash Image变得简单，通过全面的开发者文档和通过Gemini API及Google AI Studio提供的预览版。该模型与OpenRouter.ai合作，使其能够触及超过三百万开发者，成为该平台上首个图像生成模型。此外，与fal.ai的合作将使更多开发社区能够使用这项技术。

为了保持透明度和问责制，所有通过Gemini 2.5 Flash Image生成或编辑的图像都将包含一个不可见的SynthID数字水印，标记为AI生成或编辑。

改进工作仍在持续进行中，重点关注增强长文本渲染、角色一致性和确保图像细节的准确性。用户反馈至关重要，开发者可以在论坛或社交媒体平台上分享见解。随着人们对这些新功能的期待不断增加，图像生成领域的创新潜力似乎无穷无尽。