Google AI

Google 最近发布的 Gemini 3 系列模型，在实际开发里带来几项值得留意的更新。系列包含 Gemini 3.1 Pro、Gemini 3 Flash 以及 Gemini 3.1 Flash-Lite 等不同版本。核心变化在于动态思考级别支持，开发者通过 thinking_level 参数就能在 minimal、low、medium、high 之间切换，直接控制模型推理深度。处理媒体内容时，还能用 media_resolution 参数调节分辨率。在函数调用和图像编辑场景，必须返回 thoughtSignature 来保证过程可追溯。结构化输出、图像生成编辑、多模态函数响应以及 OpenAI 兼容性也同步加强。从 Gemini 2.5 迁移时，官方明确建议优先采用 thinking_level 配置，取代过去自定义的思维链步骤，同时把 temperature 保持在 1.0 左右。这样能让过渡更平稳，避免额外调试。 Gemini API 基础调用与 Python 代码示例 Python SDK 的基础调用主要围绕 generate_content 方法展开。实际编写时，先配置 thinking_config 指定思考级别，再结合 media_resolution 参数处理图像输入。如果需要结构化结果，直接传入 JSON schema 即可完成输出约束。这些调用方式在开发者指南里有清晰示范，上手后几行代码就能跑通多模态任务。 Gemini CLI 安装部署及终端实战指南 Gemini CLI 是一款开源终端 AI 代理工具，专为开发者设计。它能直接查询和编辑大型代码库，从图像或 PDF 生成应用，还支持自动化工作流。安装只需一条命令： npm install -g @google/gemini-cli 安装完成后，在终端里启动交互就能处理日常开发任务。不少开发者反馈，在 vibe coding 这种随性编程场景下，CLI 提供的抽象层让生产部署变得更顺手，省去了不少上下文切换。 ...

Google 在 3 月 26 日发布了 Gemini 3.1 Flash Live 这个实时语音模型。通过 Gemini Live API 在 AI Studio 正式开放后，开发者现在能直接接入低延迟的语音到语音交互、多语言支持、实时工具调用以及视觉理解能力。这些特性让构建设计助手、老年陪伴机器人或者 RPG 游戏 GM 之类的代理应用有了实际落地的可能。官方公告里明确列出了接入流程、会话管理细节以及多语言和工具调用的实现方式。开发者可以借助这些功能，把一个初步想法快速转化成生产级的语音或视觉代理，而无需从底层框架重新搭建。实时语音/视觉代理构建实战：Stitch、Ato、Wit’s End 案例拆解实际项目里，Stitch 展示了如何把实时语音交互直接嵌入现有系统。Ato 和 Wit’s End 则提供了视觉理解与语音结合的集成路径。这些案例的共同点在于，它们都利用 Live API 的低延迟特性来处理动态对话和工具调用。开发者在 AI Studio 中启动 API 后，就能通过简单的配置实现会话连续性，避免了以往语音代理常见的卡顿问题。在落地过程中，常见限制是高并发场景下的延迟表现。解决思路是优先选用支持实时工具调用的会话管理机制，同时在测试阶段关注多语言切换时的上下文保持。 Gemini CLI 新扩展 Conductor 与 Agent Skills：终端开发工作流优化 Gemini CLI 这次更新带来了 Conductor 扩展，它采用上下文驱动的规划方式并自动完成评审。Agent Skills 则负责知识补全，让代理能自动调用最新的 SDK 和文档信息。Google 官方博客详细说明了构建过程以及对应的性能提升数据。终端开发里，这套扩展让代码生成、PR 评审等环节能在命令行内完成闭环。开发者无需频繁切换界面，就能让 CLI 根据项目上下文自动调整方案。 Flutter 项目全感知工作流：图像/PDF 转 App 实战解读在 Flutter 项目中，Gemini CLI 的全感知能力表现突出。它能读取整个项目结构，支持 Riverpod 等状态管理框架，直接在终端内处理图像转 App 或 PDF 转 App 的工作流。社区分享的经验显示，先让 CLI 感知项目目录，再输入图像或 PDF 文件，系统就会生成对应的代码和资源文件。 ...

Google AI

Gemini 3 API 实战教程：CLI 终端部署、调用示例、最佳实践与故障排查

Gemini 3.1 Flash Live 正式发布：Google Live API 与 CLI Conductor 助力实时语音代理和终端开发工作流