LLM | AI小卖铺博客

Gemini 2.5 Flash 与 Flash-Lite 更新：质量与效率双重提升

我们发布了 Gemini 2.5 Flash 和 2.5 Flash-Lite 的更新预览版本，现已在 Google AI Studio 和 Vertex AI 上线。新版本旨在持续提升模型质量并优化运行效率。与当前的稳定模型相比，新的预览版模型在质量和速度上均有显著改进，其中 Gemini 2.5 Flash-Lite 的输出 Token（及成本）降低了 50%，Gemini 2.5 Flash 则降低了 24%。 Gemini 2.5 Flash-Lite 更新详情最新版本的 Gemini 2.5 Flash-Lite 主要围绕以下三个关键主题进行训练和构建：更强的指令遵循能力：模型在理解和执行复杂指令及系统提示方面表现更佳。更简洁的输出：模型现在能够生成更精炼的回答，这对于高吞吐量应用而言，是降低 Token 成本和延迟的关键因素。更强的多模态与翻译能力：此更新带来了更准确的音频转录、更出色的图像理解能力以及更高质量的翻译。您可以使用以下模型名称开始测试此预览版本： gemini-2.5-flash-lite-preview-09-2025 Gemini 2.5 Flash 更新详情最新的 Gemini 2.5 Flash 模型主要在以下两个我们持续收到反馈的领域进行了改进：更优的 Agent 工具使用：我们改进了模型使用工具的方式，使其在更复杂的、需要 Agent 智能体参与的多步骤应用中表现更出色。与上一版本相比，该模型在关键的 Agent 性能基准测试中取得了显著进步，例如在 SWE-Bench Verified 上的得分提升了 5%（从 48.9% 增长到 54%）。更高的效率：在启用思考（thinking on）模式时，模型的成本效益显著提高，能够以更少的 Token 实现更高质量的输出，从而降低延迟和成本。我们已经收到了早期测试者的积极反馈。正如自动化 AI Agent 公司 Manus 的联合创始人兼首席科学家 Yichao ‘Peak’ Ji 所说： ...

Gemini 推出引导式学习：你的 AI 私人学习伙伴

Google Gemini 近期推出了一项名为“引导式学习”（Guided Learning）的新功能，旨在为用户提供一种个性化、互动性强的学习方式，扮演一个不知疲倦的 AI 私人学习伙伴。与传统的问答模式不同，引导式学习不仅会回答你的问题，更会主动向你提问，根据你的水平量身定制指导方案，并在讲解完一个概念后通过测试来检验你的掌握程度。核心特性：不只是给出答案引导式学习的核心理念是“授人以渔”，而非“授人以鱼”。它旨在帮助你建立对知识的深层理解，而不仅仅是提供现成的答案。当遇到一个复杂的数学问题时，它不会直接给出结果，而是会：引导你学习相关的核心概念。与你一步步合作，共同推导出最终答案。这种模式强调掌握解决问题的方法，因为这比答案本身更为重要。实际应用场景引导式学习功能强大且灵活，可以应用于多种学习场景：课程材料学习：上传你的课程资料，Gemini 可以为其生成专属的学习指南。代码调试：当你遇到棘手的代码 bug 时，它可以引导你逐步排查和修复问题。概念理解：通过视频和图片等多媒体形式，生动解释抽象概念，例如“月球上的重力是如何运作的”。制定学习计划：针对一个特定主题，它可以为你规划好学习路径，并将任务分解为清晰、可管理的小步骤，让你按照自己的节奏学习。备考与面试：无论是准备期末考试，还是模拟工作面试，引导式学习都能提供系统性的支持和练习。背后的技术：LearnLM 模型引导式学习功能的实现，得益于 Google 专门为学习场景微调的 LearnLM 模型家族。在激发好奇心等关键学习科学原则上，LearnLM 的表现优于其他模型。为了让 AI 实现“引导”而非“告知”，开发团队采用了精密的系统指令（System Instructions）来规范模型的行为。例如：主动澄清：当用户的提问模糊不清时，模型会主动要求澄清，而非猜测意图。引导而非代劳：在辅导作业时，模型会引导用户独立思考，而不是直接给出答案。此外，该功能的设计也离不开教育工作者和学生测试者的宝贵反馈。根据反馈，团队优化了许多细节：高质量视觉材料：集成了高质量的图表、图片数据库，并能从 YouTube 检索相关视频，以增强学习效果。友好的学习伙伴人设：模型被设计成一个耐心、友好的“学习伙伴”，会使用自然的语言甚至表情符号来建立融洽的互动关系，从而提升用户的参与感。 Google 认为，负责任地使用 AI 是解锁创造力、支持学习和提高生产力的强大工具。引导式学习功能正是这一理念的体现，它致力于放大每个学习者在探索知识过程中体验到的“顿悟时刻”，让学习的乐趣触手可及。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API：购买 / 了解更多：ai4.plus 备用入口：kk4099.com

提示工程（Prompt Engineering）核心技术

注意：对于像 gpt-5 或 o-series 这样先进的推理模型，可能不再推荐本文中介绍的某些技巧。构建提示（Prompt）可能是一项复杂的工作。在实践中，提示旨在辅助模型完成预期任务，但这门技术更像是一门艺术而非科学，往往需要经验和直觉才能打造出成功的提示。本文旨在帮助你开启学习之旅，提炼出适用于所有 GPT 模型的通用概念和模式。但请务必理解，每个模型的行为都有所不同，因此这些技巧在不同模型上的效果可能存在差异。 GPT 的基本工作原理文本提示是用户与 GPT 模型交互的方式。与所有生成式语言模型一样，GPT 模型会尝试根据先前的文本，生成最有可能出现的下一个词序列。这就像我们在问：“当我说出 <提示> 时，你首先想到的是什么？” 下面的例子展示了这种行为。当给出著名作品的开头时，模型能够准确地续写文本。 Prompt: Four score and seven years ago our fathers brought forth on this continent, Completion: a new nation, conceived in Liberty, and dedicated to the proposition that all men are created equal. […] Prompt: "Call me Ishmael." Completion: "Some years ago—never mind how long precisely—having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world." […] 在设计更复杂的提示时，请始终牢记这一基本行为。无论你提供什么样的提示，模型都只是根据其训练数据和目标，回应它认为最可能出现的内容。当你在提示中提出一个问题时，模型并非在执行一个独立的“问答”代码路径，而是因为它认为“答案”是针对该“问题”输入最可能的回应类型。 ...

GPT-4 在系统综述中的应用：数据提取、分析与偏倚风险评估的实证研究

本研究旨在评估定制化 GPT-4 模型在医学文献数据提取与评估方面的性能，探索其在系统综述（Systematic Review, SR）流程中的辅助应用潜力。研究设计本研究采用概念验证性比较研究方法，将定制化 GPT-4 模型的表现与人类专家对随机对照试验（Randomized Controlled Trials, RCTs）的审查结果进行对比。定制化 GPT-4 模型研究团队开发了四个专门的 GPT-4 模型，各自负责系统综述流程中的一个特定环节：研究特征提取模型：负责从文献中提取研究的基本特征，如参与者信息、干预措施等。研究结局提取模型：负责提取研究的关键结果数据。偏倚评估域提取模型：负责识别和提取用于偏倚风险评估的相关信息。偏倚风险评估模型：基于模型 3 提取的结果，对研究的偏倚风险进行评估。对比与评估方法我们将模型的输出结果与四份已发表的、由人类作者完成的系统综述数据进行比较。评估重点包括：数据提取的准确性研究结局复现的精确度偏倚风险评估的一致性水平研究共选取了 43 项研究用于数据提取评估，并额外选取了 17 项随机对照试验用于偏倚风险评估的比较。核心评估指标数据提取一致率：比较 GPT-4 与人类专家在提取数据方面的吻合程度。效应量可比性：比较 GPT-4 提取数据后计算出的效应量与人类综述的差异。偏倚风险评估的信度：通过评估者内部（intra-rater）和评估者之间（inter-rater）的一致性来衡量评估结果的可靠性。研究结果研究特征提取在与已发表综述中的研究特征表进行比较时，GPT-4 的提取结果与原文的一致率达到了 88.6%。由模型不准确或遗漏导致的差异低于 5%。在 2.5% 的情况下，GPT-4 的准确性甚至超过了人类专家。研究结局提取与分析模型成功提取了研究的结局数据。基于这些数据进行的汇总分析显示，其效应量与人类专家进行的系统综述结果相当。偏倚风险评估偏倚风险评估的一致性分析揭示了以下几点：模型内部一致性：GPT-4 自身的评估结果具有良好至中等程度的一致性，且在统计学上显著（ICC=0.518, p<0.001）。模型与人类的一致性：与一份人类系统综述相比，加权 kappa 值为 0.237（轻度一致）。与另一份类似的系统综述相比，加权 kappa 值为 0.296（轻度一致）。人类之间的一致性：作为对比，两份由不同人类专家完成的系统综述之间的一致性非常低（加权 kappa = 0.094）。这一结果表明，GPT-4 在偏倚风险评估方面的一致性表现，可能优于人类专家之间的表现。 ...

Microsoft 365 Copilot 现已集成 Anthropic 模型，提供更多选择

Microsoft 365 Copilot 宣布扩展其底层模型库，正式引入 Anthropic 的系列模型。除了继续使用 OpenAI 的最新模型外，用户现在还可以灵活选择 Anthropic 模型来增强其工作体验。这一更新首先应用于 Researcher 智能体和 Microsoft Copilot Studio 平台。新加入的 Claude Sonnet 4 和 Claude Opus 4.1 模型，体现了微软致力于将业界顶尖的 AI 创新成果引入 Microsoft 365 Copilot 的承诺，为企业用户提供更贴合业务需求的定制化解决方案。新增模型如何赋能工作流 Anthropic 模型现已通过以下方式集成到 Microsoft 365 Copilot 中，帮助用户简化工作流程： Researcher 智能体 Researcher 是一款强大的推理智能体，现在可由 OpenAI 的深度推理模型或 Anthropic 的 Claude Opus 4.1 提供支持。用户可以根据具体任务选择偏好的模型，以处理深度工作。无论是制定详尽的市场进入策略、分析新兴产品趋势，还是创建全面的季度报告，Researcher 都能胜任。它能够对网络信息、可信第三方数据以及您工作环境中的所有内容（包括电子邮件、聊天记录、会议和文件）进行复杂的、多步骤的推理和研究，按需提供专业级的分析洞察。 Copilot Studio 在 Microsoft Copilot Studio 中，Claude Sonnet 4 和 Claude Opus 4.1 现已作为可选模型，供开发者轻松创建和定制企业级智能体。通过此次集成，您可以构建、编排和管理由 Anthropic 模型驱动的智能体，以实现深度推理、工作流自动化和灵活的智能体任务。借助 Copilot Studio 中的多智能体系统和提示词工具，您甚至可以为不同的专业任务混合搭配使用来自 Anthropic、OpenAI 或 Azure 模型目录中的任意模型。 ...

Gemini CLI 与 Code Assist 迎来更高使用额度

Google 宣布为 Google AI Pro 和 Ultra 订阅用户大幅提升 Gemini CLI 和 Gemini Code Assist 的模型请求额度。这意味着开发者可以更充分地利用 Gemini 1.5 Pro 和 Flash 模型进行开发和编码，而不必过分担心用量限制。此项变更将在未来 24 小时内逐步生效。额度提升详情适用用户： Google AI Pro 及 Ultra 订阅者。适用工具： Gemini CLI 和 Gemini Code Assist。适用模型： Gemini 1.5 Pro 和 Gemini 1.5 Flash。生效时间：相关调整将在 24 小时内陆续完成部署。具体额度：详细的使用限制信息，请参阅 Google for Developers 官方网站的相关文档。背景回顾与新功能为了帮助大家更好地了解这些工具，我们简单回顾一下：Google 于今年 5 月在 VS Code 和 IntelliJ IDEA 中推出了 Gemini Code Assist，并于 6 月发布了开源的 Gemini CLI 工具，让 Gemini 的能力可以直接在终端中使用。 ...

GitHub Copilot 公开预览版集成 OpenAI GPT-5-Codex 模型

GitHub Copilot 现已在公开预览版中逐步推出 OpenAI 的 GPT-5-Codex 模型。该模型专为智能体式编码（agentic coding）进行了优化，旨在提供更强大的代码生成与辅助能力。可用性与适用范围新的 GPT-5-Codex 模型将面向以下 GitHub Copilot 用户开放：订阅计划：Copilot Pro, Pro+, Business, 和 Enterprise。使用方式：在 Visual Studio Code 中，用户可以通过 Copilot Chat 的模型选择器来切换至 GPT-5-Codex。支持模式：该模型支持 ask、edit 和 agent 三种模式。请注意，本次更新为逐步推送。您需要确保 GitHub Copilot 插件版本不低于 v1.104.1。如果暂时未在模型选择器中看到该选项，请耐心等待。如何启用 GPT-5-Codex 不同订阅计划的启用方式有所不同：企业版与商业版 (Enterprise & Business) 管理员必须首先在组织的 Copilot 设置页面中，启用 GPT-5-Codex 相关策略。策略生效后，组织内的所有用户即可在 VS Code 的模型选择器中找到并使用该模型。个人专业版 (Pro & Pro+) 用户可以直接在 Visual Studio Code 的模型选择器中选择 GPT-5-Codex。首次选择时，系统会弹出一个一次性确认提示，同意后即可启用。更多信息关于模型的详细信息及最佳实践，可以查阅 OpenAI 的官方文档和提示指南。要了解 GitHub Copilot 中所有可用的模型，请参阅 GitHub 的相关文档。如有任何反馈或问题，欢迎前往官方社区参与讨论，分享您的使用体验。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API： ...

为 Claude Code 等编码助手赋予文档理解能力

以 Claude Code、Cursor、Cognition 等为代表的编码助手的兴起，正在改变软件的构建方式。开发者不再需要手动连接 API，只需通过自然语言描述需求，编码助手就能处理编写、执行和迭代代码等技术任务。这为“低代码 IT”带来了可能，让业务人员也能快速构建内外部应用程序。但这里存在一个关键问题：默认情况下，编码助手无法原生理解文档。编码助手的局限性：为何文档理解至关重要？企业应用的核心是处理各类文档：合同、财务报告、法律文书、技术规范、会议纪要等。这些信息通常被锁定在 PDF、PPTX、DOCX、XLSX 等文件格式中，需要专门的工具来读取和检索，而这正是编码助手所欠缺的。这可能听起来有些意外，但编码助手在理解文件方面确实存在明显短板： Cursor：完全不支持上传 PDF 等多种文件格式。 Claude Code：虽然具备基本的 PDF 读取能力，但有 32MB 的最大文件大小和单次请求 100 页的限制。为编码助手配备强大的文档理解工具，将带来两大核心优势：获取更丰富的上下文：构建的应用能更好地适应具体的业务需求。在生成代码中集成工具：构建的应用将更具智能化、通用性，且准确率更高。如果编码助手缺乏文档理解能力，将导致两个严重问题： 1. 缺失核心业务上下文当你要求编码助手构建一个财务报告仪表盘时，它本应理解你公司的季度报告格式、数据结构以及关键业务指标。然而，这些信息通常以产品需求文档（PRD）和产品规格书的形式存储在 Google Drive 或 Sharepoint 等文件系统中。没有这些上下文，编码助手只能生成基于假设的通用模板。 2. 无法构建实用的自动化流程若要求编码助手构建合同审查软件，它可能会生成一些查找“终止”、“责任”等关键词的代码，但完全无法理解决定合同可执行性的细微法律语言。这意味着它生成的自动化流程非常脆弱，无法泛化到各种输入，实用价值极低。一个典型的例子是，私募股权分析师希望自动化分析数据室中的财务文件。编码助手首先需要初步理解示例财务文件（是公开文件还是内部报告？）和过往的尽职调查报告，才能明确业务需求。同时，在生成的自动化工作流中，也需要持续调用这些文档理解模块。三种为编码助手增强文档理解能力的方法为了弥合这一差距，我们探索了三种互补的模式，为编码助手赋予文档智能。每种方法都有其优缺点，你可以根据自身需求选择组合使用。方法一：通过模型上下文协议（MCP）访问文档 Claude Code 原生支持模型上下文协议（Model Context Protocol, MCP）。通过官方提供的 MCP 集成列表，可以连接到 Salesforce、Confluence、Figma 等多种 SaaS 服务。如果你的数据源主要是文件集合，则需要先对文档进行预处理，再将其作为 MCP 端点暴露给编码助手。工作原理预处理：创建一个服务来解析、分块和嵌入你的文档（如 PRD、财务报告等）。存储：将处理后的数据存入向量数据库、结构化数据库或图数据库中。暴露：将该存储系统包装成一组 MCP 工具接口。在代码生成过程中，Claude Code 可以查询这个 MCP 服务器，从而获取关于业务流程、政策和数据结构的丰富上下文。优势这是一种为编码助手快速提供大量上下文的有效方式。当你让它“创建一个费用审批工作流”时，它可以通过查询索引好的政策文件，直接了解公司的支出限制、审批层级和政策例外。 ...

Gemini CLI 集成 FastMCP：简化 MCP 服务器开发流程

我们很高兴地宣布，Gemini CLI 现已与 FastMCP（业界领先的 Python MCP 服务器构建库）完成无缝集成。作为两个开源项目的强强联手，此次更新将帮助开发者轻松地将自定义的 MCP 工具和提示词直接接入 Gemini CLI。一键式集成命令从 FastMCP v2.12.3 版本开始，您可以使用一条简单的命令来安装基于 FastMCP 构建的本地 STDIO 传输 MCP 服务器： fastmcp install gemini-cli server.py 这条命令极大地简化了集成过程，它会自动处理所有配置、依赖管理，并调用 Gemini CLI 内置的 MCP 管理系统（gemini mcp add），让您的 FastMCP 服务器功能即刻在 Gemini CLI 中生效。对于本地服务器的开发和调试而言，这提供了一种极其便捷的启动方式。解锁 Gemini CLI 的全部潜力 MCP（Model Context Protocol，模型上下文协议）服务器能够赋予 AI 代理执行额外操作和访问特定上下文的能力，从而显著提升 Gemini CLI 的使用体验。FastMCP 借助 Python 装饰器和类型提示的优雅设计，让创建这些组件变得简单而直观。通过 FastMCP，您可以为 Gemini CLI 扩展两类核心功能：工具 (Tools)：允许 Gemini CLI 执行具体操作、进行复杂计算，或与外部 API 及数据库交互，使其成为您工作流中的一个活跃参与者。提示词 (Prompts)：将您在 FastMCP 中定义的提示词作为斜杠命令（例如 /promptname）在 Gemini CLI 中直接调用。这种方式简化了高频交互，让常用指令仿佛原生终端命令一般自然。快速上手指南想要立即体验这一全新集成吗？只需以下几个简单步骤： ...

Gemini 最新动态：2025 年 9 月更新

Gemini 应用迎来九月更新，本次聚焦于一系列全新的创意与协作工具，旨在提升用户体验和生产力。推出 Nano Banana 图像编辑模型近期，强大的 Nano Banana 图像编辑模型备受瞩目。该模型提供了卓越的图像处理能力，并在社区中催生了许多热门用例。 Gemini Live 支持实时摄像头共享 Gemini Live 现已支持摄像头共享功能。用户可以将实时画面分享给 Gemini，AI 将通过高亮显示等方式提供精准的视觉引导，帮助你实时解决问题。该功能即将登陆所有 Android 和 iOS 设备。桌面端 Chrome 集成 Gemini 即将登陆美国地区的桌面版 Chrome 浏览器。用户将能够直接在浏览器中，利用当前打开标签页的上下文信息，快速获取内容摘要、概念解释或问题答案。自定义 Gem 支持分享现在，你可以与他人分享你创建的自定义 Gem。无论是用于项目规划还是派对筹备，团队成员都可以利用同一个 Gem 中封装的 AI 专业知识进行协作。 Canvas 应用支持可视化无代码编辑 Canvas 进一步降低了应用创建的门槛。即使没有编程经验，用户也可以轻松构建应用。新版本增加了强大的可视化编辑功能：只需点击 Web 应用中的任意元素，然后用自然语言描述你想要的修改，即可完成界面调整。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API：购买 / 了解更多：ai4.plus 备用入口：kk4099.com