我们先进的图像生成与编辑模型 Gemini 2.5 Flash Image 🍌 现已正式发布 (GA),可用于生产环境。本次更新带来了多项新功能,包括支持更广泛的宽高比以及指定纯图像输出的能力。
Gemini 2.5 Flash Image 模型能够无缝融合多张图片、在创作中保持角色一致性、通过自然语言进行局部编辑,并利用 Gemini 强大的世界知识进行图像生成和修改。您可以通过 Google AI Studio 中的 Gemini API 或面向企业用户的 Vertex AI 平台来访问该模型。
扩展创意边界:新增多种宽高比
为了进一步释放创意潜力,新版模型现在支持 10 种不同的宽高比,让您能轻松为电影级横幅、社交媒体竖屏等不同格式创作内容。
支持的宽高比包括:
- 横向 (Landscape): 21:9, 16:9, 4:3, 3:2
- 方形 (Square): 1:1
- 纵向 (Portrait): 9:16, 3:4, 2:3
- 其他 (Flexible): 5:4, 4:5
API 与代码示例
开发者可以立即开始使用 Gemini 2.5 Flash Image。通过 API,您可以轻松指定输出图像的宽高比,并设置为仅返回图像内容。
以下是一个 Python 代码示例,演示了如何使用新功能:
from google import genai
from google.genai import types
from PIL import Image
# 初始化客户端
client = genai.Client()
# 定义你的提示词
prompt = "请根据这张图片中的人物,创作一张 1980 年代风格的照片。照片需要捕捉到那个时代独特的时尚、发型和整体氛围。"
# 打开本地图片
image = Image.open('/path/to/image.png')
# 调用模型生成内容
response = client.models.generate_content(
model="gemini-2.5-flash-image",
contents=[prompt, image],
generation_config=types.GenerationConfig(
# 指定响应内容仅为图像
response_modalities=["IMAGE"],
image_config=types.ImageConfig(
# 设置图像宽高比为 16:9
aspect_ratio="16:9",
)
)
)
# 处理并显示生成的图像
for part in response.parts:
if part.inline_data is not None:
generated_image = part.as_image()
generated_image.show()
应用案例
Cartwheel:精准的角色姿态控制
Cartwheel 团队正利用 AI 赋予艺术家更直接的创作控制权。在开发其“姿态模式 (Pose Mode)”功能时,他们发现其他模型难以满足需求,最终在 Gemini 2.5 Flash Image 中找到了解决方案。通过将自家的 3D 姿态工具与 Gemini 2.5 Flash Image 相结合,他们创建了一个强大的图像生成系统,实现了前所未有的角色控制力与一致性。
“其他模型要么无法从任意摄像机角度渲染角色,要么在忠实于姿态的同时牺牲了‘世界知识’。新的 Gemini 2.5 Flash Image 模型是第一个能够同时兼顾两者的模型。”
— Andrew Carr, Cartwheel 联合创始人
Volley:实时游戏视觉生成
AI 驱动的地牢探索游戏《Wit’s End》的开发商 Volley,使用 Gemini 2.5 Flash Image 在游戏会话中实时生成和编辑视觉元素,包括角色肖像、动态场景、多角色构图以及通过聊天或语音进行的快速迭代编辑。
“该模型在遵循美学指导方面表现出色,同时将延迟控制在 10 秒以内,这为许多实时应用解锁了可能性。例如,允许玩家在多轮交互中选择风格并优化输出。”
— James Wilsterman, Volley 首席技术官
快速上手与价格信息
开发者可以查阅开发者文档和 cookbook 来了解新功能的详细指南。
- Google AI Studio: 您可以在 Google AI Studio 中免费测试模型。其“构建模式”允许您通过单个提示词(例如“为我构建一个带滤镜的图片编辑应用”)即时创建和修改由 AI 驱动的应用,并可直接部署或将代码保存到 GitHub。
- 示例应用:
- Bananimate: 使用你的图片和提示词,与 Nano Banana 一起创作 GIF 动图。
- Enhance: 通过创意放大器无限缩放任何照片。
- Fit check: 上传自己的照片和一套服装,看看穿上身的效果。
价格
Gemini 2.5 Flash Image 的定价为每张图片 $0.039,或每百万输出 token $30.00。其他输入和输出模态的定价与标准的 Gemini 2.5 Flash 保持一致。
👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API:
- 购买 / 了解更多:ai4.plus
- 备用入口:kk4099.com