我们先进的图像生成与编辑模型 Gemini 2.5 Flash Image 🍌 现已正式发布 (GA),可用于生产环境。本次更新带来了多项新功能,包括支持更广泛的宽高比以及指定纯图像输出的能力。

Gemini 2.5 Flash Image 模型能够无缝融合多张图片、在创作中保持角色一致性、通过自然语言进行局部编辑,并利用 Gemini 强大的世界知识进行图像生成和修改。您可以通过 Google AI Studio 中的 Gemini API 或面向企业用户的 Vertex AI 平台来访问该模型。

扩展创意边界:新增多种宽高比

为了进一步释放创意潜力,新版模型现在支持 10 种不同的宽高比,让您能轻松为电影级横幅、社交媒体竖屏等不同格式创作内容。

支持的宽高比包括:

  • 横向 (Landscape): 21:9, 16:9, 4:3, 3:2
  • 方形 (Square): 1:1
  • 纵向 (Portrait): 9:16, 3:4, 2:3
  • 其他 (Flexible): 5:4, 4:5

API 与代码示例

开发者可以立即开始使用 Gemini 2.5 Flash Image。通过 API,您可以轻松指定输出图像的宽高比,并设置为仅返回图像内容。

以下是一个 Python 代码示例,演示了如何使用新功能:

from google import genai
from google.genai import types
from PIL import Image

# 初始化客户端
client = genai.Client()

# 定义你的提示词
prompt = "请根据这张图片中的人物,创作一张 1980 年代风格的照片。照片需要捕捉到那个时代独特的时尚、发型和整体氛围。"

# 打开本地图片
image = Image.open('/path/to/image.png')

# 调用模型生成内容
response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[prompt, image],
    generation_config=types.GenerationConfig(
        # 指定响应内容仅为图像
        response_modalities=["IMAGE"],
        image_config=types.ImageConfig(
            # 设置图像宽高比为 16:9
            aspect_ratio="16:9",
        )
    )
)

# 处理并显示生成的图像
for part in response.parts:
    if part.inline_data is not None:
        generated_image = part.as_image()
        generated_image.show()

应用案例

Cartwheel:精准的角色姿态控制

Cartwheel 团队正利用 AI 赋予艺术家更直接的创作控制权。在开发其“姿态模式 (Pose Mode)”功能时,他们发现其他模型难以满足需求,最终在 Gemini 2.5 Flash Image 中找到了解决方案。通过将自家的 3D 姿态工具与 Gemini 2.5 Flash Image 相结合,他们创建了一个强大的图像生成系统,实现了前所未有的角色控制力与一致性。

“其他模型要么无法从任意摄像机角度渲染角色,要么在忠实于姿态的同时牺牲了‘世界知识’。新的 Gemini 2.5 Flash Image 模型是第一个能够同时兼顾两者的模型。”

— Andrew Carr, Cartwheel 联合创始人

Volley:实时游戏视觉生成

AI 驱动的地牢探索游戏《Wit’s End》的开发商 Volley,使用 Gemini 2.5 Flash Image 在游戏会话中实时生成和编辑视觉元素,包括角色肖像、动态场景、多角色构图以及通过聊天或语音进行的快速迭代编辑。

“该模型在遵循美学指导方面表现出色,同时将延迟控制在 10 秒以内,这为许多实时应用解锁了可能性。例如,允许玩家在多轮交互中选择风格并优化输出。”

— James Wilsterman, Volley 首席技术官

快速上手与价格信息

开发者可以查阅开发者文档cookbook 来了解新功能的详细指南。

  • Google AI Studio: 您可以在 Google AI Studio 中免费测试模型。其“构建模式”允许您通过单个提示词(例如“为我构建一个带滤镜的图片编辑应用”)即时创建和修改由 AI 驱动的应用,并可直接部署或将代码保存到 GitHub。
  • 示例应用:
    • Bananimate: 使用你的图片和提示词,与 Nano Banana 一起创作 GIF 动图。
    • Enhance: 通过创意放大器无限缩放任何照片。
    • Fit check: 上传自己的照片和一套服装,看看穿上身的效果。

价格

Gemini 2.5 Flash Image 的定价为每张图片 $0.039,或每百万输出 token $30.00。其他输入和输出模态的定价与标准的 Gemini 2.5 Flash 保持一致。


👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API