Gemini

终极指南：精通AI图像魔法Nano Banana提示词

导语：从“生成”到“精修”，AI图像编辑的革命 AI绘画早已不是新鲜事，但我们常常会遇到这样的瓶颈：生成的图片总有些瑕疵，想要微调却力不从心。“给这件衣服换个颜色”、“把背景的路人P掉”、“让光线更柔和一些”，这些在专业设计师手中轻而易举的操作，对于传统AI工具却是巨大的挑战。现在，谷歌携其最新的AI图像编辑模型 Nano Banana（也称 Gemini 2.5 Flash Image）入场，彻底改变了游戏规则。它不再仅仅是一个“创作者”，更像一个能与你心灵相通的“AI视觉设计师”。它能通过自然语言对话，对图像进行精细、真实且富有创意的修改，同时保持惊人的一致性。这篇终极指南将为你一站式解决所有关于 Nano Banana 的疑问，从核心功能到高级提示词技巧，再到丰富的实战案例和避坑指南，助你彻底掌握这项“黑科技”。篇章一：Nano Banana 的核心能力——它究竟强在哪里？要用好一个工具，首先要理解它的核心优势。Nano Banana 的强大之处主要体现在以下四点： “指哪打哪”的自然语言编辑你可以像和真人设计师沟通一样，用最日常的语言下达指令。无论是“把夹克换成红色皮衣”，还是“在她的右手上加一把武士刀，要有真实的金属反光和阴影”，Nano Banana 都能精准理解并执行。 “始终如一”的角色一致性这是它最惊艳的功能之一。在连续编辑中，它能牢牢记住角色的面部特征、发型、神态和体型。你可以给同一个人换上不同风格的衣服、置于不同场景，而不用担心每次都生成一个“陌生人”。 “无缝融合”的场景与元素当你想在图片中添加新元素时，Nano Banana 会智能分析环境光照、阴影和透视，确保新元素能完美融入，看起来就像“原生”的一样。它甚至支持将多张图片融合成一张风格统一、故事连贯的新图像。 “跨次元”的风格转换想把你自己的照片变成酷炫的Q版手办或动漫角色吗？Nano Banana 能轻松实现这种“次元转换”，生成的结果极具娱乐性和社交分享价值。篇章二：提示词的艺术——如何让AI精准读懂你？掌握提示词，是释放 Nano Banana 全部潜能的关键。从入门到精通，你需要掌握以下几个层次的技巧。入门技巧：打好坚实基础指令要明确具体：避免使用“好看一点”这类模糊词汇。应直接说明修改内容，如“增加画面亮度和对比度，添加温暖的日落光线”。强调编辑主体：当画面中有多个对象时，明确指出你要修改的是哪一个。例如，“给那个穿蓝色裙子的女孩戴上一顶草帽”。化繁为简，分步操作：对于复杂的编辑需求（例如，既要换衣服又要换背景还要改天气），最好一步一步来。先换好衣服，再处理背景，这样能更好地控制每一步的效果。进阶技巧：S-T-A-R 原则为了构建更专业、效果更好的提示词，强烈推荐使用 S-T-A-R 原则，它能帮你系统化地构思画面： S (Subject - 主体)：定义核心对象。基础：一个女人 STAR：一位神秘的、戴着面纱的沙漠女祭司 (A mysterious desert priestess wearing a veil) T (Texture & Tone - 材质与色调)：丰富细节和氛围。基础：穿着长袍 STAR：身穿饰有金色刺绣的丝质白色长袍，整体色调温暖、偏橘 (wearing a white silk robe with gold embroidery, with a warm, orange-toned overall color) A (Angle & Action - 视角与动态)：设定构图和姿态。基础：站着 STAR：远景镜头，从侧面拍摄，她正缓步走上沙丘之巅 (Wide shot, captured from the side, as she slowly walks to the top of a sand dune) R (Rendering & Reality - 渲染与风格)：定义最终效果。基础：像照片 STAR：国家地理杂志风格的摄影，黄金时刻的光线，画面细腻，富有故事感 (National Geographic style photography, golden hour lighting, fine-grained, story-rich) 高级技巧：专业关键词与结构化指令当你需要商业级或艺术品级的输出时，可以尝试更复杂的结构化提示词，并加入专业术语： ...

AI 编程工具前沿探索：Claude Code、Cursor 及多模态模型盘点

随着人工智能技术的飞速发展，AI 正在深刻重塑软件开发的各个环节。从智能编码助手到自动化测试平台，一系列创新工具和框架不断涌现，旨在提升开发效率、优化工作流程。本文将梳理近期备受关注的 AI 编程工具、开发范式及专用模型，重点探讨以 Claude Code 为核心的生态系统，并介绍其他前沿工具和技术。一、 Claude Code 生态：从规范驱动到多智能体协作 Claude Code 及其生态系统正引领着 AI 辅助开发的新范式，其核心在于将 AI 的创造力与工程化的严谨性相结合，实现从需求到代码的全流程自动化与协同。核心理念与开发范式规范驱动开发 (Spec-driven Development)：这是 Claude Code 推崇的核心开发模式，旨在通过标准化的工作流，将大型语言模型（LLM）高效、规范地集成到开发生命周期中。它强调通过结构化的“规范”来引导 AI，使其能更可靠、高效地完成复杂的软件工程任务，从而取代随意性较强的“Vibe Coding”。上下文工程 (Context Engineering)：相较于传统的提示词工程，上下文工程更注重构建和管理 AI 理解任务所需的完整环境。通过提供精确、结构化的上下文信息（如 initial.md 中定义的功能、数据源、交互方式等），开发者可以引导 AI 生成更高质量、更符合需求的代码。项目管理与工作流自动化 CCPM (Claude Code Project Management)：这是一个专为 AI 辅助开发团队设计的开源项目管理框架。它巧妙地结合了 GitHub Issues 与 Git worktrees，将产品需求文档（PRD）、技术方案（Epic）、任务拆分（Issues）直至最终的代码生成串联成一条自动化、可追溯的开发流水线，确保了开发过程中上下文的完整性和连续性。 BMad-Method：一个创新的多智能体协作框架，旨在实现“敏捷 AI 驱动开发”。它不仅仅是一个开发工具，更是一个通用的 AI 代理系统，能够自动生成 PRD 文档、架构设计，并支持与 Cursor、Cline 等工具集成，打造高效的 AI 开发工作流。核心功能创新子智能体 (Sub Agents)：这项功能标志着 AI 助手从通用型向专业化的重要转变。开发者可以创建专用于特定任务的子智能体，实现任务的模块化和专业化分工，从而更精细、高效地解决复杂问题。输出样式 (Output Styles)：该机制允许用户通过预设的模板来控制模型生成内容的表达方式和结构。本质上，这是一个位于 .claude/output-styles/ 目录下的系统提示词文件，可以定义诸如“代码审查报告”、“教学风格步骤”等固定格式，使 AI 的输出更具一致性和可用性。 ...

近期 AI 技术热点追踪与社区观察

近期，在一个名为“鱼龙瓦舍”的中文社区中，涌现出大量关于人工智能（AI）及前沿科技的深度讨论。本文梳理了该社区近期的热门话题，旨在洞察当前技术爱好者的关注焦点与行业脉搏。 AI 模型与技术前沿动态社区成员对主流 AI 模型的迭代和新技术的发布保持着高度关注。新模型发布与评测 DeepSeek-V3.1 发布：讨论认为该版本是其迈向 Agent 时代的关键一步。神秘模型 Nano Banana：引发了广泛的好奇与猜测，社区成员分享了对其的初步测试结果。 Google Gemini 2.5 Flash：成员分享了 gemini-2.5-flash-image-preview 模型的实战效果。 GPT-5 信息泄露：关于下一代 GPT 模型的传闻成为讨论热点。技术更新与功能讨论 Claude Code 的未来：有用户表达了对 Claude Pro 版本可能限制 Claude Code 功能的担忧。大模型的“个性”：一篇有趣的讨论从分析各大模型的系统提示词（System Prompt）入手，探讨其背后隐藏的设计哲学和“性格”差异。 iOS 系统更新：社区持续追踪苹果 iOS 26 的 Public Beta 版本推送，从 Beta 2 到 Beta 5 均有讨论。 AI 行业应用与深度思考除了技术本身，社区也深入探讨了 AI 带来的产业变革和伦理问题。商业模式与市场观察 AI 公司的定价策略：一个引人深思的话题是，为何在 Token 成本持续下降的背景下，AI 服务的订阅费用却在不断上涨？人形机器人进展：成员关注了人形机器人完成半程马拉松的事件，讨论其技术成熟度和未来潜力。 AI 播客：有用户分享了支持 AI 生成的播客应用，并邀请大家体验和评价效果。 AI 伦理与社会影响 AI 应该奉承我们，治愈我们，还是冷漠地告诉我们事实？ ...

Gemini API Key 免费获取与使用指南

Google 为其强大的 Gemini 模型提供了免费的 API 密钥，无需绑定信用卡即可快速上手。对于开发者和小型项目而言，其免费额度相当慷慨，足以满足日常的开发、测试与学习需求。与其他主流 AI 服务相比，Gemini 的免费政策极具吸引力。例如，OpenAI 必须绑定信用卡，而 Claude 则需要企业验证。Gemini 仅需一个 Google 账号，三分钟内即可完成申请。免费额度详解 Google 为不同模型设定了差异化的免费配额，以满足不同场景的需求。免费额度的重置时间为太平洋时间每日午夜（北京时间下午 3 点）。免费层级核心限制（2025 年 8 月更新）限制项目 Gemini 1.5 Flash Gemini 1.5 Pro 每分钟请求数 (RPM) 15 5 每天请求数 (RPD) 1,500 50 每分钟 Token 数 (TPM) 1,000,000 32,000 上下文窗口 1,000,000 Tokens 2,000,000 Tokens 免费试用期永久永久免费版 vs. 付费版免费层级功能齐全，包含所有模型访问、批处理和流式响应。与付费版的主要区别在于：数据隐私：免费层级的数据可能被用于模型改进，而付费层级提供数据隐私保护。服务等级协议 (SLA)：免费层级无 SLA 保证，付费层级承诺 99.9% 的可用性。请求优先级：免费层级不设优先队列，高峰时段可能出现延迟。对于原型开发和测试，免费额度绰绰有余。若需部署到生产环境，建议评估成本后升级至付费版。注意：自 2025 年 4 月 29 日起，新创建的项目可能无法立即访问 Gemini 1.5 Pro 和 Flash 的某些实验性功能，通常需要 7-14 天的活跃使用记录后方可申请。 ...

AI 技术前沿精选：从 Agent 构建到大模型应用

一、 AI Agent 开发与实践构建生产级 AI Agent 的 12 条实战指南（上下篇）本文深入探讨了构建生产级 AI Agent 的 12 条核心实践原则，旨在帮助开发者打造更可靠、更高效的智能体应用，掌握这些技巧能让你的 Agent 能力获得显著提升。 (发布于 2025.07.16 & 2025.07.22) 理念的交锋：Cognition 与 Anthropic 对多智能体系统的不同态度深度解析 Cognition 与 Anthropic 在多智能体系统上的技术哲学差异。一个强调可靠性优先，一个展示性能突破。本文将探讨单智能体与多智能体系统的优劣，帮助你根据应用场景做出正确的技术选型。 (发布于 2025.06.17) OpenAI 官方指南：构建 Agent 的最佳实践随着大型语言模型（LLM）在推理、多模态和工具使用方面的进步，一种由 LLM 驱动的新型系统——Agent 应运而生。本文分享了 OpenAI 官方总结的 Agent 构建最佳实践。 (发布于 2025.04.21) 如何编写强大的 Agent 系统提示词：精读 Cursor 与 v0 案例通过深入剖析 Vercel v0 与 Cursor Agent 的系统提示词，本文总结出构建高效 AI Agent 的八大关键原则，并通过实例展示如何设计目标明确、结构清晰、交互友好且安全可靠的 Agent 系统。 (发布于 2025.04.28) 谷歌重磅发布：Agent2Agent 协议、ADK 与 Firebase Studio 谷歌推出一系列面向 Agent 开发的工具与协议，包括用于 Agent 间通信的 Agent2Agent 协议、Agent Development Kit (ADK) 以及 Firebase Studio，旨在为开发者提供更完善的 Agent 构建生态。 (发布于 2025.04.10) ...

零成本玩转 Gemini 2.5 Flash Image：Nano Banana 免费 API 完整指南

Google 最新发布的多模态 AI 模型 Gemini 2.5 Flash Image Preview（非官方代号 “Nano Banana”）正在 AI 图像生成与编辑领域掀起一场革命。它凭借前所未有的角色一致性、极快的响应速度和极具竞争力的价格，为开发者和创作者带来了全新的可能性。该模型的核心优势在于其卓越的“思考后编辑”能力，即使经过多次修改和场景变换，也能保持人物特征的高度一致。更令人震撼的是，其每张图片的生成成本仅为 0.039 美元，比主流方案便宜约 95%。 Gemini 2.5 Flash Image 核心能力 Gemini 2.5 Flash Image Preview（模型 ID: gemini-2.5-flash-image-preview）具备四大核心能力，几乎实现了实时处理的体验，响应速度通常在 1-2 秒之间。维持角色一致性：在丰富的叙事和多场景图片生成中，能够精准保持人物的面部、服装和细节，避免了传统 AI 模型常见的特征扭曲问题。自然语言精准编辑：支持通过自然语言指令对图像进行像素级的局部编辑，例如“将背景中第二棵树的叶子颜色调整为秋天的金黄色”。多图融合：可以将多张图片的元素无缝融合，创造出单一的、构图和谐的全新图像。利用世界知识：借助 Gemini 强大的知识库，能够理解并生成与现实世界知识相关的图像内容。此外，所有通过该模型生成或编辑的图片都会自动添加不可见的 SynthID 数字水印，用于标识 AI 生成内容。免费使用 Nano Banana 的 5 种方法开发者可以通过多种途径免费或低成本地使用 Gemini 2.5 Flash Image。以下是五种主流访问方式的对比：访问方式免费额度速率限制 (RPM) 适用场景访问难度 Google AI Studio 完全免费测试 15 原型开发、功能测试 ★☆☆☆☆ Gemini App (网页/移动端) 基础编辑免费无明确限制个人创作、轻度使用 ★☆☆☆☆ Vertex AI 免费层 300 美元新用户额度 60 企业试用、批量处理 ★★★☆☆ OpenRouter.ai 按需付费根据套餐 API 集成、多模型切换 ★★☆☆☆ fal.ai 平台有限免费调用 10 快速原型、小规模应用 ★★☆☆☆ 对于大多数开发者而言，Google AI Studio 是最直接、最受欢迎的免费选项。用户仅需一个 Google 账号即可立即开始测试，无需绑定信用卡。对于需要更高配额的商业应用，Vertex AI 提供的 300 美元免费额度，足以生成约 7,692 张图片。 ...

Google Gemini 2.5 Flash Image (Nano Banana) API 深度解析与实战指南

Google 推出的 Gemini 2.5 Flash Image API（开发代号：Nano Banana）是 AI 图像生成领域的一项重大技术突破。这款轻量级模型在保证顶尖图像质量的同时，实现了 API 易用性与成本效益的完美平衡，为寻求高效、稳定图像生成方案的开发者提供了前所未有的价值。本文将从技术原理、核心功能到实战代码，全面解析这款革命性的图像 AI 服务，并为中国开发者提供详尽的接入与优化方案。核心功能详解 Gemini 2.5 Flash Image API 的功能体系围绕四大核心能力构建，代表了当前 AI 图像技术的前沿水平。文本到图像生成作为基础功能，API 支持通过自然语言描述直接生成照片级真实感的图像。其强大的语言理解能力源于 Gemini 基座模型，能够精准解析复杂的空间关系、情感表达和抽象概念。例如，对于“一只戴着宇航员头盔的猫咪漂浮在星云中，背景是土星环，采用赛博朋克风格”这样的复杂提示词，API 能够准确地生成包含所有细节元素的图像。智能图像编辑此功能是其真正的创新之处。开发者可通过自然语言指令对现有图像进行精确修改，无需专业的图像处理技能。这种编辑是基于深度理解的语义级修改，而非简单的滤镜叠加。你可以发出指令，如“将背景更换为日落时的海滩”或“让人物露出微笑，并将光线调整为柔和的暖色调”，API 会智能识别图像元素并进行相应调整，同时保持画面的整体协调性与真实感。角色一致性保持在创作系列图像（如漫画、故事插图）时，保持角色形象的一致性是行业痛点。Gemini 2.5 Flash Image 通过先进的特征锁定机制，能够在多次生成中稳定保持人物的面部特征、体型比例和服装风格等关键属性。实测表明，即使在不同姿势、表情和场景下，角色识别准确率也能达到 95% 以上。多图创意融合 API 支持同时输入多张参考图像，并智能地提取、组合各自的优势元素，创造出全新的视觉作品。这并非简单的图像拼接，而是基于深度学习的创意融合。例如，你可以提供一张风景照的构图、一幅油画的色彩风格和一个产品的主体，API 将生成一张融合了所有这些元素的独特图像。这一能力在广告创意、艺术创作和产品设计领域具有巨大的应用潜力。 API 集成快速上手准备工作：获取 API 密钥首先，你需要获取 API 访问凭证。国际用户可通过 Google Cloud Console 或 Google AI Studio 申请。流程通常包括创建项目、启用 Gemini API 并生成认证密钥。Google 提供每月免费使用额度，足以满足开发测试阶段的需求。 Python 实现示例在 Python 环境中，通过几行代码即可实现图像生成。 ...

顶级 AI 模型代码能力对决：自动寻路贪吃蛇实现大比拼

本文旨在通过一个具体的编程任务，横向评测当前顶尖 AI 大模型的代码生成与问题解决能力。我们要求多个主流 AI 模型完成一个带有自动寻路功能的 HTML 贪吃蛇游戏，并根据其最终实现效果和得分进行比较。评测任务为了保证公平性，所有参与评测的 AI 模型都收到了完全相同的指令：请生成一个 HTML 版本的贪吃蛇游戏，具体要求如下：画布大小：20x20 的标准网格。核心功能：实现自动寻路算法，让蛇能够智能地寻找食物以获得尽可能高的分数。可以考虑结合多种算法。运行方式：游戏启动后，蛇应立即开始自动移动和吃食物。计分与展示：每吃掉一个食物得 1 分，分数需在游戏界面右上角实时显示。游戏结束：游戏结束后，自动停止运行并最终展示得分。技术细节：重点关注寻路算法的设计，并使用 requestAnimationFrame 来驱动蛇的移动。参赛模型本次评测挑选了以下几款备受关注的 AI 模型： GPT-5-Thinking Gemini 2.5 Pro Grok4 Claude Sonnet 4 DeepSeek-V3.1 (思考模式) Kimi-K2 Qwen3-235B-A22B-2507 (思考模式) Qwen3-Coder 各模型表现与分析以下是各个模型在单次生成与运行后的表现，按最终得分降序排列。 Qwen3-235B-A22B-2507 (思考模式) 最终得分：80分所用算法：广度优先搜索 (BFS) 简评：在本次评测中获得最高分。代码实现了有效的寻路逻辑，但存在一个 UI Bug，导致游戏区域的第 20 列格子被遮挡，未能完全显示。 Grok4 最终得分：79分所用算法：A* 算法简评：表现非常出色，得分紧随其后。其生成的代码最为简洁，没有任何多余的解释说明，直接输出了可运行的代码。 Qwen3-Coder 最终得分：67分所用算法：A* 算法简评：作为专为代码优化的模型，表现稳健。同样采用了经典的 A* 算法，取得了不错的成绩。 DeepSeek-V3.1 (思考模式) 最终得分：53分所用算法：广度优先搜索 (BFS) 简评：同样使用了 BFS 算法。但其生成的代码存在一个 Bug，每次刷新后有一定概率在地图上同时生成两个食物，这是其他模型未出现的情况。 Claude Sonnet 4 最终得分：52分所用算法：A* 算法 + 哈密顿路径简评：结合了两种寻路策略，试图在全局路径和局部最优解之间取得平衡，但最终得分中等。 GPT-5-Thinking 最终得分：40分所用算法：A* 算法 + 广度优先搜索 (BFS) 简评：结合了 A* 和 BFS 两种算法，但实际得分并不突出，表现中规中矩。 Gemini 2.5 Pro 最终得分：2分所用算法：环形回路简评：采用了一种非常独特的策略，即让蛇沿着预设的环形路径移动来覆盖整个地图。理论上这种方法可以吃完所有食物，但在实践中效率极低，运行了很长时间才得到 2 分。 Kimi-K2 最终得分：2分所用算法：A* 算法 + 哈密顿路径 + 贪心算法简评：尝试融合多种算法，但生成的代码较为混乱，即使经过手动修复和拼接后，运行效果依然不佳，最终得分很低。综合排名与总结排名模型名称最终得分主要算法备注 1 Qwen3-235B (思考模式) 80 BFS 存在 UI Bug 2 Grok4 79 A* 代码最简洁 3 Qwen3-Coder 67 A* 表现稳健 4 DeepSeek-V3.1 (思考模式) 53 BFS 存在食物生成 Bug 5 Claude Sonnet 4 52 A* + 哈密顿路径 - 6 GPT-5-Thinking 40 A* + BFS - 7 Gemini 2.5 Pro 2 环形回路策略效率低下 8 Kimi-K2 2 A* + 哈密顿路径 + 贪心代码质量较差从本次评测结果来看，Qwen3-235B 和 Grok4 在解决这个具体的算法和工程问题上表现最为出色。大部分模型都倾向于使用 A* 或 BFS 这类经典的寻路算法，而 Gemini 2.5 Pro 的环形回路策略则是一个有趣的例外。 ...

使用 Gemini API 生成和编辑图像：一份实践指南

Gemini API 现已支持强大的图像生成功能，其模型 gemini-2.5-flash-image-preview（也被称为 Nano Banana）允许用户通过对话方式创建和处理视觉内容。你可以结合文本、图像或两者来与模型交互，实现前所未有的创作控制力。核心功能包括：文本到图像 (Text-to-Image)：根据简单或复杂的文本描述生成高质量图像。图像编辑 (Image + Text-to-Image)：提供一张现有图像，并用文本指令来添加、移除或修改其中的元素，调整风格或色彩。图像合成与风格迁移 (Multi-image to Image)：利用多张输入图像合成一个新场景，或将一张图像的艺术风格应用到另一张上。迭代式优化：通过连续对话逐步微调图像，直至达到理想效果。高保真文本渲染：在图像中精准地生成清晰、可读且位置合理的文本，非常适合制作徽标、图表和海报。所有通过此功能生成的图像都将包含 SynthID 数字水印。文本到图像生成 (Text-to-Image) 这是最基础的用法，只需提供一段描述性的文本提示词，即可生成相应的图像。以下代码演示了如何根据提示词“创建一张以 Gemini 为主题的高档餐厅中的‘纳米香蕉’菜肴图片”来生成图像。 Python from google import genai from PIL import Image from io import BytesIO # 需要先配置你的 API Key # genai.configure(api_key="YOUR_API_KEY") client = genai.Client() prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme" response = client.models.generate_content( model="gemini-2.5-flash-image-preview", contents=[prompt], ) # 响应中可能包含文本和图像部分 for part in response.candidates[0].content.parts: if part.text is not None: print(part.text) elif part.inline_data is not None: # 将图像数据保存为文件 image_data = part.inline_data.data image = Image.open(BytesIO(image_data)) image.save("generated_image.png") print("图像已保存为 generated_image.png") JavaScript (Node.js) import { GoogleGenAI } from "@google/genai"; import * as fs from "node:fs"; async function main() { // 需要先配置你的 API Key const genAI = new GoogleGenAI("YOUR_API_KEY"); const model = genAI.getGenerativeModel({ model: "gemini-2.5-flash-image-preview" }); const prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"; const result = await model.generateContent(prompt); const response = result.response; const candidate = response.candidates[0]; for (const part of candidate.content.parts) { if (part.text) { console.log(part.text); } else if (part.inlineData) { const imageData = part.inlineData.data; const buffer = Buffer.from(imageData, "base64"); fs.writeFileSync("generated_image.png", buffer); console.log("图像已保存为 generated_image.png"); } } } main(); Go package main import ( "context" "fmt" "log" "os" "google.golang.org/api/option" "google.golang.org/genai" ) func main() { ctx := context.Background() // 需要先配置你的 API Key client, err := genai.NewClient(ctx, option.WithAPIKey("YOUR_API_KEY")) if err != nil { log.Fatal(err) } defer client.Close() model := client.GenerativeModel("gemini-2.5-flash-image-preview") prompt := genai.Text("Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme") resp, err := model.GenerateContent(ctx, prompt) if err != nil { log.Fatal(err) } for _, part := range resp.Candidates[0].Content.Parts { if txt, ok := part.(genai.Text); ok { fmt.Println(txt) } else if data, ok := part.(genai.ImageData); ok { err := os.WriteFile("generated_image.png", data, 0644) if err != nil { log.Fatal(err) } fmt.Println("图像已保存为 generated_image.png") } } } REST API (cURL) curl -s -X POST " \ -H "x-goog-api-key: $GEMINI_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "contents": [{ "parts": [ {"text": "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"} ] }] }' \ | grep -o '"data": "[^"]*"' \ | cut -d '"' -f4 \ | base64 --decode > generated_image.png 图像编辑 (图文到图像) 此功能允许你上传一张图片，并结合文本指令对其进行修改。 ...