框架 | AI小卖铺博客

单 Agent vs 多 Agent：架构、边界与落地取舍

在大型语言模型（LLM）能力飞速发展的今天，构建 Agent 应用已成为主流。然而，在选择单 Agent 还是多 Agent 架构时，许多团队会陷入困境。单 Agent 如同全栈工程师，能力全面但有上限；多 Agent 则像项目团队，分工明确但管理复杂。本文将从工程落地视角，系统性对比单 Agent 与多 Agent 的技术路线、适用场景、关键设计点与常见陷阱，帮助你判断何时应该坚持“强单体”，何时应该引入“团队协作”，以及如何设计一个高效、可控的多 Agent 系统。核心概念速览 Agent：一个以 LLM 为核心，具备工具调用（Tools）和记忆（Memory）能力的可执行实体。可以将其视为一个拥有“大脑”的微服务。工具 (Tool/Function)：Agent 可以调用的确定性能力，通常通过函数调用（Function Calling）实现，具有明确的输入、输出和错误定义。记忆 (Memory)：为 Agent 提供状态感知能力。包括短期对话上下文、长期知识库（如向量数据库）以及任务执行中的工作记忆（如草稿区）。编排 (Orchestration)：定义 Agent 之间或 Agent 内部任务的执行流程，包括消息传递、角色切换、任务分解与结果汇聚。编排可以是简单的循环，也可以是复杂的有向无环图（DAG）。单 Agent vs. 多 Agent：优劣边界维度单 Agent 多 Agent 核心优势架构简单、延迟低、可观测性好、维护成本低。任务分解、领域专长、并行吞吐、自我审校、容错性强。延迟/吞吐通常端到端延迟较低。可通过并行执行提升吞吐量，但调度本身会引入额外延迟。成本 Token 开销、模型调用和工具回调次数相对较少。协作本身（消息、投票、审校）会产生大量额外的 Token 和调用开销。可靠性链路短，故障点少，但容易出现“单点幻觉”。可通过“质检”、“裁判”或“投票”机制降低幻觉风险，但也引入了协作失败的新风险。可控性逻辑清晰，易于追踪和调试。依赖统一的消息协议和 Tracing 工具，否则复杂性难以管理。维护升级和迭代相对直接。任何角色或协议的变更都可能涉及多个 Agent 的契约调整和回归测试。核心原则：如果一个精心设计的“强单体”Agent 能够稳定满足业务需求，就不要急于引入多 Agent 架构。只有当任务的复杂度、并行需求或审校要求带来的收益，明确高于系统复杂度的增加时，才应考虑多 Agent 方案。 ...

为 MCP Server 集成 OAuth 2.0 认证：从概念到实战

在构建基于 MCP (Model Context Protocol) 架构的企业级 LLM 应用时，一个核心挑战是如何确保授权员工才能访问特定的内部工具与自动化任务。简单的 API Key 机制难以满足复杂的权限控制需求，尤其当企业需要集成现有的单点登录（SSO）等安全体系时。本文将从 OAuth 2.0 的基础概念入手，通过一个完整的 Python 示例，演示如何利用 MCP SDK 与第三方身份提供商（以 Google 为例），为您的 MCP Server 构建强大而灵活的 OAuth 2.0 安全认证体系。 OAuth 2.0 核心概念 OAuth 2.0 是一套开放的授权标准协议，它允许第三方应用在不获取用户密码的前提下，安全地访问用户在某一服务上受保护的资源。关键角色理解 OAuth 2.0 需要了解以下四个核心角色：资源拥有者 (Resource Owner)：通常指终端用户，是受保护资源的所有者。客户端 (Client)：希望访问受保护资源的第三方应用程序，例如一个需要获取您 Google 账户信息的 Web 应用。授权服务器 (Authorization Server)：负责验证用户身份，并在用户授权后，向客户端发放访问令牌（Token）的服务器。资源服务器 (Resource Server)：存储受保护资源的服务器。它会验证客户端出示的访问令牌，并根据令牌的权限提供相应的资源。我们可以用一个银行保险柜的例子来类比：您是保险柜的主人（资源拥有者），一位朋友（客户端）需要临时取用您的资料。您不会直接把钥匙（密码）给他，而是到银行前台（授权服务器）登记，签发一张有时效的临时访问凭证（访问令牌）。保险柜管理员（资源服务器）只认这张凭证，凭证过期后自动作废。授权码模式 (Authorization Code Flow) 授权码模式是 OAuth 2.0 中功能最完整、流程最严谨的授权模式，常见于各类 Web 应用。其典型流程如下：用户授权：用户在应用中点击“使用 Google 登录”。应用将浏览器重定向到 Google 的授权页面，并在 URL 中附带自身的客户端 ID、请求的权限范围 (scope) 和回调地址 (redirect_uri)。用户登录并同意：用户在 Google 页面登录，并确认是否同意应用请求的权限。返回授权码：用户同意后，Google 授权服务器将浏览器重定向回应用指定的回调地址，并在 URL 中附上一个一次性的授权码 (code)。交换访问令牌：应用的后端服务收到授权码后，带上自身的客户端 ID 和密钥，向 Google 授权服务器发起请求，用授权码换取访问令牌 (Access Token)。此过程对用户不可见。访问资源：应用使用获取到的访问令牌，向 Google 的资源服务器（API）请求访问用户授权的资源。为了进一步增强安全性，OAuth 2.1 规范要求所有客户端在授权流程中使用 PKCE (Proof Key for Code Exchange) 机制，以防止授权码被恶意拦截和利用。 ...

揭秘 Anthropic Claude Code Prompt 的设计精髓

近期，一份关于 Anthropic 官方代码工具 Claude Code 的 Prompt 设计细节被分享出来，其内容的详尽与全面令人印象深刻。这份 Prompt 不仅定义了 AI 的核心角色与行为准则，还涵盖了任务管理、工具使用和代码规范等多个维度。本文将对其进行深度剖析，揭示其高效与安全背后的设计哲学。核心原则：安全、隐私与简洁在 Prompt 的开篇，首先明确了 Claude Code 的核心角色与不可逾越的安全红线。角色与安全红线 Claude Code 被定义为一个专业的软件工程命令行（CLI）工具。其最重要的原则是安全与隐私：坚守防御性安全：只协助防御性安全任务，拒绝创建、修改或改进任何可能被恶意利用的代码。允许进行安全分析、编写检测规则、解释漏洞、开发防御工具和撰写安全文档。尊重用户隐私：绝不随意生成或猜测 URL，除非确信这些链接能帮助用户解决编程问题。仅使用用户在消息或本地文件中提供的 URL。 You are Claude Code, Anthropic’s official CLI for Claude. You are an interactive CLI tool that helps users with software engineering tasks. IMPORTANT: Assist with defensive security tasks only. Refuse to create, modify, or improve code that may be used maliciously. IMPORTANT: You must NEVER generate or guess URLs for the user unless you are confident that the URLs are for helping the user with programming. ...

深入解析多智能体（Multi-Agent）系统：为何“主从架构”是关键？

近一年来，从 AutoGPT 到 MetaGPT，从 CrewAI 到 LangGraph，多智能体（Multi-Agent）系统如雨后春笋般涌现，成为 AI 应用领域最热门的趋势之一。这股热潮背后，揭示了 AI 应用正从单一模型调用，向更复杂的“群体智能”协作模式演进。当我们审视这些前沿系统时，会发现一个惊人的一致性：无论是 MetaGPT 中的产品经理角色、AutoGen 的 Manager-Worker 模式，还是 Claude Code 的“主循环引擎 + 子任务代理”设计，都内嵌了一种“主从”或“指挥-执行”的协作架构。一个核心智能体负责全局协调，而其他智能体则作为专家提供专项支持。这仅仅是巧合吗？答案是否定的。这种架构模式的背后，隐藏着大型语言模型（LLM）最底层的运作原理。大模型“注意力”的诅咒与祝福要理解多智能体系统的架构选择，首先要理解大模型是如何“思考”的。其核心是 Transformer 架构，而 Transformer 的灵魂则是注意力机制（Attention）。简单来说，模型在生成每一个词元（Token）时，都会回顾并“注意”其上下文窗口内的所有相关信息，然后综合全局信息做出决策。这里的关键在于：大模型的每一次决策，都基于它能“看到”的全部上下文。这就像解一道数学应用题。题目是“小明有 5 个苹果，给了小红 2 个，还剩几个？”你必须同时看到“5 个”和“给了 2 个”这两个关键信息才能得出正确答案。任何信息的缺失都会导致推理失败。大模型的智能同样源于对上下文的完整理解。一旦上下文分裂或出现矛盾，其输出质量便会急剧下降。多智能体协作的困境：上下文分裂当多个独立的 AI 智能体需要协作完成一项复杂任务时，最大的挑战便随之而来：如何保证它们共享同一个完整、无冲突的上下文？假设我们有三个并行的智能体分别负责一个软件项目的不同部分： Agent A：负责前端开发 Agent B：负责后端开发 Agent C：负责部署运维理想情况下，它们应像一位经验丰富的全栈工程师，时刻了解彼此的设计决策。但现实是，每个智能体都是一个独立的大模型实例，各自维护着自己的上下文，这便导致了上下文分裂（Context Splitting）。例如，Agent A 决定前端采用 React，并假设后端会提供 GraphQL API。与此同时，Agent B 独立决策，使用 Python Flask 搭建了一个 REST API。当最终进行集成时，两边生成的代码将完全无法对接。更糟糕的是，大模型具有“自回归生成”的特性，即每一个新输出都建立在之前所有输出的基础上。这意味着一个微小的错误假设会在后续的生成中被不断放大，最终导致整个项目偏离轨道。主从架构：全局上下文的唯一守护者主从架构的核心思想非常直观：一个大脑指挥，多个专家执行。一个**主智能体（Master Agent）**负责掌控全局上下文，它始终清楚： ...

LangGraph 深度解析：构建复杂 AI Agent 的利器

LangGraph 是 LangChain 团队推出的一个开源框架，旨在帮助开发者构建、部署和管理复杂且有状态的 AI Agent 应用。它通过引入图（Graph）结构，使得开发者能够以更灵活、可控的方式编排大型语言模型（LLM）、工具以及人工交互，从而实现超越简单链式调用的高级工作流。什么是 LangGraph？从本质上讲，LangGraph 提供了一套用于构建 AI Agent 工作流的工具库。它的核心思想是将 Agent 的运行流程建模为一个图结构：节点 (Nodes)：代表工作流中的一个计算步骤，可以是一个函数、一个 LangChain 可运行对象（Runnable）或者一次工具调用。边 (Edges)：代表节点之间的连接，它根据当前的状态（State）决定下一个要执行的节点。这种基于图的架构，赋予了 Agent 工作流两大关键能力：状态管理和循环执行。传统的 LangChain Expression Language (LCEL) 主要用于构建有向无环图（DAG），非常适合处理一次性的、从头到尾的请求。然而，当需要构建能够自我修正、多次调用工具、甚至等待人类反馈的复杂 Agent 时，简单的链式结构就显得力不从心。LangGraph 正是为了解决这一问题而生，它允许在图中创建循环，使 Agent 能够根据中间结果进行反思、规划和迭代，从而执行更复杂的任务。核心概念与关键组件要理解 LangGraph，首先需要掌握其几个核心组件。状态图 (StatefulGraph) LangGraph 的核心是状态管理。整个工作流共享一个状态对象 (State Object)，每个节点在执行时都可以读取和修改这个对象。这个状态对象就像一个中央数据仓库，记录了 Agent 在执行过程中的所有信息，例如：用户的输入中间生成的思考过程工具调用的结果历史消息记录这种设计带来了极大的便利，尤其是在调试时。由于所有状态都集中管理，开发者可以清晰地追踪每一步的数据变化，快速定位问题。节点 (Nodes) 节点是图中的基本执行单元。每个节点都接收当前的状态对象作为输入，并返回一个包含其更新内容的对象。常见的节点类型包括：入口点 (Entry Point)：图的起始节点。功能节点 (Function Nodes)：执行具体的业务逻辑，如调用 LLM、处理数据等。工具节点 (Tool Nodes)：专门用于执行一个或多个预定义的工具，例如 ToolNode。边 (Edges) 边负责连接节点，控制工作流的走向。LangGraph 中的边分为两类： ...

AI 创意工作流：从图片编辑到视频生成的实战指南

本文将介绍一套完整的 AI 创意工作流，从使用先进的图像模型精细编辑图片，到利用首尾帧视频生成技术赋予静态图像以生命，带你一步步完成从静态概念到动态故事的蜕变。第一步：使用 AI 模型创造惊艳的静态图我们的目标是利用 AI 将一张普通的游戏截图，创作成一张包含主体、背景、包装盒乃至屏幕反射的精美手办模型图。工具与准备模型平台：LM Arena 输入素材：一张你希望编辑的图片，例如《黑神话：悟空》中的角色截图。操作流程访问 LM Arena 并选择图像模式：打开 LM Arena 网站，在右下角将模式切换为 Image，以启用图像生成模型。上传图片并输入提示词：上传你的源图片。接着，输入一段详细的英文提示词（Prompt），精确描述你想要实现的最终效果。例如，我们将一张“钟馗”的游戏截图，通过以下提示词，要求模型将其转换为一个骑着老虎的手办，并辅以游戏包装盒、显示游戏画面的电脑等场景元素。 Please turn this screenshot of the game character into a character figure riding on an Asian tiger. Behind it, place a PlayStation game box printed with the character’s image and the game title ‘Black Myth: Zhong Kui.’ Next to it, add a computer with its screen displaying the in-game scene, complete with the game’s UI and the character. In front of the game box, add a round plastic base for the figure and have it stand on it. The PVC material of the base should have a crystal-clear, translucent texture, and set the entire scene indoors. 生成与筛选： LM Arena 的设计初衷是用于模型评估，因此每次会生成两张由不同模型（如 Nano Banana）生成的图片。你需要从中选择效果更佳的一张。如果生成的结果都不理想或未使用你期望的模型，可以重新生成，通常尝试两三次即可获得满意的结果。 ...