欢迎来到AI小卖铺博客
每天分享人工智能资讯、技术教程和工具。
每天分享人工智能资讯、技术教程和工具。
很多人第一次听到“多 agent 协作”,脑子里会自动出现一种很玄乎的画面:几个 AI 在后台自己讨论、自己分工、自己交付,好像一个数字公司一样。 OpenClaw 这套东西,确实支持往这个方向走,但我想先泼一盆冷水:多 agent 不是越多越高级,也不是一上来就该开。 单 agent 足够的时候,别为了炫技硬拆。因为一旦进入多 agent,意味着更多会话、更多上下文、更多 token 开销,还有更多排错成本。 但反过来说,如果你的任务本来就天然适合分工,比如: 一个负责搜资料 一个负责写初稿 一个负责校对 那 OpenClaw 的多 agent 机制就非常有价值。 官方文档里,至少已经明确了几层能力:Sub-agents、按 agent 划分的工作区、以及更进一步的 agent-to-agent / 多 agent 协作路线**。这不是概念 PPT,而是实打实能用来拆任务的。** 一、先搞懂最核心的结构 你可以先把 OpenClaw 的多 agent 理解成三层: 1)主 agent 主 agent 就是对外接消息的那个“总控”。 它负责: 接收用户请求 判断这个任务要不要拆 决定交给谁做 最后汇总结果返回给你 2)子 agent(Sub-agent) 子 agent 是主 agent 临时拉起来的后台执行者。官方文档明确说,它们会在独立 session 里运行,任务结束后再把结果 announce 回来。 这点非常关键:独立 session = 相对独立的上下文。这样做的好处是,一个子任务不会把主会话弄得越来越臃肿。 3)更深一层的嵌套 OpenClaw 默认子 agent 不能再继续无限生孩子,默认 maxSpawnDepth: 1。如果你主动把配置调到 2,就能支持“主 agent → 协调型子 agent → 工作者子 agent”这种模式。 ...
如果说 OpenClaw 部署完成只是“把大脑装好了”,那接入 Telegram,才算真正把这个大脑装进你每天都会用的入口里。 我现在越来越喜欢这种用法:白天在电脑上开 Dashboard 调试,出门之后直接在 Telegram 里给 AI 发消息。查天气、记提醒、整理任务、问点资料,全部都能在手机上完成。对个人用户来说,这种体验比单纯守着网页聊天实用太多了。 而且 Telegram 这条线,也是 OpenClaw 官方文档里明确标注为生产可用的 Bot API 通道,DM 和群组都支持,默认用长轮询,配置门槛不高。 这篇就讲怎么把它接起来。 一、为什么先接 Telegram 我建议新手第一条外部通道就选 Telegram,原因很简单: 不需要复杂审核 只要一个 Bot Token 就能开始 手机上随时能发消息给你的助手 官方文档完整,排错路径也清楚 OpenClaw 官方 Getting Started 里也提到,想从手机上最快速聊天,Telegram 是最容易上手的一条线路。 二、先去 Telegram 里创建机器人 打开 Telegram,搜索 @BotFather。注意一定要确认账号就是官方那个 @BotFather,别加错。 然后按顺序操作: 发送 /newbot 给机器人起一个展示名 给机器人起一个唯一用户名,通常以 bot 结尾 保存它返回给你的 Bot Token 这个 Token 很重要,相当于机器人密码。别随手贴到公开群里,也别直接发给别人。 截图建议 这里最适合放两张图: BotFather 创建完成后返回 Token 的页面 你搜索到自己 bot 账号的页面 很多读者看到这两张图,理解速度会快很多。 三、在 OpenClaw 里配置 Telegram 根据官方 Telegram 文档,Telegram 不走那种 channels login 的交互式登录,而是直接在配置里放 botToken,然后启动 Gateway。 ...
很多人第一次接触 OpenClaw,会先被“AI agent”“Gateway”“多通道”这些词吓到。其实真上手之后你会发现,它并不是那种必须先读三天文档、再折腾半天 Docker 才能跑起来的项目。按照官方现在的安装路线,普通用户在一台干净的 Linux 服务器上,确实可以很快把它跑起来。 这篇文章我就按纯小白视角来写:从买服务器开始,到 OpenClaw 成功启动、打开控制面板、发出第一条消息为止。你不需要预先懂多 agent,也不需要先配置一堆花里胡哨的插件。先跑起来,才是第一步。 一、先准备什么 最基本只要三样: 一台 Linux 服务器 一个模型 API Key 一台你能打开浏览器的电脑 根据 OpenClaw 官方 Getting Started 文档,目前推荐环境是 Node 24,Node 22.14+ 也可以。官方安装脚本会尽量帮你处理依赖,这对新手很友好。 服务器方面,我建议直接买最普通的 Ubuntu 24.04 机器就行。别一上来追求高配置。OpenClaw 自己并不吃显卡,它更像一个“AI 助手调度器”,真正烧钱的是你后面接的模型。 如果你只是自己用,2 核 4G、带公网 IP 的小机器就够起步了。 二、买完服务器后先做这几步 登录服务器后,先更新系统: sudo apt update && sudo apt upgrade -y 然后确认系统没问题: uname -a lsb_release -a 如果你是刚买的云服务器,建议顺手做两件事: 设置一个普通用户,别长期用 root 在控制台安全组里先只放行 SSH 和你后面要访问的端口 不过如果你只是想先体验,直接用 root 也不是不行,先把流程走通再说。 三、安装 OpenClaw 官方目前最省事的安装方式,是直接用安装脚本: curl -fsSL https://openclaw.ai/install.sh | bash 这一条命令的好处是简单。对新手来说,不需要你自己先研究 npm、全局路径、服务管理这些细节。 ...
在AI辅助编程日益普及的今天,如何高效地利用大型语言模型(LLM)成为开发者关注的焦点。oh-my-claudecode(简称OMC)正是为解决这一痛点而生。它是一个强大的多代理编排工具,专为Anthropic Claude Code设计,旨在提供零学习曲线、直观高效的开发体验,让你无需深入理解Claude Code的复杂性,即可轻松驾驭AI协同编程。 OMC的核心理念是简化AI代理的协作与管理,通过智能编排实现任务自动化、效率最大化,并优化资源使用。无论你是需要构建复杂的REST API,进行代码审查,还是设计用户界面,OMC都能提供一套流畅的解决方案。 快速上手 使用OMC极其简单,只需几个步骤即可开始你的AI辅助编程之旅。 安装 通过Claude Code插件市场安装: /plugin marketplace add https://github.com/Yeachan-Heo/oh-my-claudecode /plugin install oh-my-claudecode 设置 运行初始化设置: /setup /omc-setup 开始构建 直接用自然语言描述你的需求,OMC将自动完成: autopilot: build a REST API for managing tasks 就是这么简单!一切都将自动化进行。 不知如何开始?深度访谈来帮你! 如果你对需求不明确,或者想更精细地掌控设计过程,可以使用 /deep-interview。它通过苏格拉底式提问,在代码编写前澄清你的思路,揭示潜在假设,并衡量需求清晰度,确保你精确了解要构建什么。 /deep-interview "我想要构建一个任务管理应用" 核心特性与优势 oh-my-claudecode之所以能脱颖而出,在于其提供了一系列旨在提升开发者体验和效率的强大功能。 零配置开箱即用:智能默认设置,无需繁琐配置即可立即使用。 团队优先编排:以“团队”为核心的多代理协作模式,是OMC的规范编排界面。 自然语言交互:无需记忆复杂命令,直接描述你的意图。 自动并行化:将复杂任务智能分配给专业代理并行处理。 持久化执行:任务会持续执行,直到通过验证并完全完成。 成本优化:智能模型路由,可节省 30-50% 的令牌使用成本。 经验学习:自动提取和重用解决问题的模式。 实时可见性:HUD状态栏实时显示后台运行情况。 编排模式:多场景应对 OMC提供了多种编排模式,以适应不同的开发需求和用例。 模式名称 模式特点 适用场景 团队 (Team) 规范的分阶段管道(计划 → 生产 → 执行 → 验证 → 修复),协同Claude代理执行共享任务列表。 多代理协同完成复杂任务,例如修复TypeScript错误、实现支付流程。 omc team (CLI) 通过tmux CLI工作者,在分离窗格中运行真实的Claude/Codex/Gemini进程。 需要特定模型CLI执行的任务,如代码审查(Codex)、UI/UX设计(Gemini),按需生成和销毁工作进程。 ccg 结合/ask codex + /ask gemini,由Claude进行综合。 涉及后端(Codex)和前端(Gemini)混合工作的项目,需要多模型协同建议。 Autopilot 单一主导代理的自主执行。 端到端功能开发,追求最小干预和自动化。 Ultrawork 最大并行度(非团队模式)。 爆发式并行修复/重构,不需要团队协作的场景。 Ralph 持久化模式,带有验证/修复循环。 必须完全完成且不允许静默部分完成的任务。 Pipeline 顺序、分阶段处理。 需要严格顺序的多步骤转换。 AI代理与模型路由 OMC内置了32个专业代理,涵盖架构、研究、设计、测试、数据科学等领域。它能智能路由模型,例如对简单任务使用Haiku,对复杂推理使用Opus,确保每次都将任务委托给最适合的代理。 ...
DeerFlow 是一个基于 LangGraph 构建的 AI 超级代理(Super Agent)后端系统。它集成了沙箱执行环境、持久化记忆以及可扩展的工具集,旨在让 AI 代理能够在一个隔离且持久的环境中执行复杂任务,例如执行代码、浏览网页、管理文件,甚至将任务委托给子代理并行处理。 架构概览 DeerFlow 的系统架构设计清晰,通过 Nginx 作为统一反向代理,将请求分发至后端的 LangGraph 服务和 FastAPI 网关。 graph TD subgraph 用户请求 A[Nginx 统一反向代理 :2026] end A -- "/api/langgraph/*" --> B[LangGraph 服务 :2024] A -- "/api/* (其他)" --> C[FastAPI 网关 :8001] A -- "/" --> D[前端应用] subgraph B direction LR B1[主代理 Lead Agent] B1 --> B2[中间件链] B1 --> B3[工具集] B1 --> B4[子代理] end subgraph C C1[模型管理] C2[MCP 服务] C3[技能管理] C4[记忆系统接口] C5[文件上传与产物] end 请求路由逻辑: ...
感谢你对DeerFlow项目的关注与贡献意愿!本文将详细指导你如何设置开发环境,并熟悉DeerFlow的开发工作流程。 一、开发环境设置 DeerFlow提供了两种开发环境选项,其中Docker方案因其一致性和便捷性而被强烈推荐。 1. Docker开发环境(推荐) Docker提供了一个一致、隔离的环境,所有依赖项(如Node.js、Python、Nginx)都已预配置,无需在本地机器上单独安装。 前置条件: Docker Desktop 或 Docker Engine pnpm (用于优化缓存) 设置步骤: 配置应用: 首先,复制示例配置文件并设置API密钥。 # 复制示例配置文件 cp config.example.yaml config.yaml # 设置你的API密钥,例如OpenAI API Key export OPENAI_API_KEY="your-key-here" # 或者直接编辑 config.yaml 文件 初始化Docker环境(首次运行): 执行初始化命令,这将构建Docker镜像、安装前端和后端依赖,并配置pnpm缓存共享。 make docker-init 此命令将完成以下任务: 构建Docker镜像。 安装前端依赖 (使用 pnpm)。 安装后端依赖 (使用 uv)。 将 pnpm 缓存与宿主机共享,以加快后续构建速度。 启动开发服务: 启动所有开发服务,支持热重载。make docker-start 会读取 config.yaml,并仅在 provisioner/Kubernetes 沙盒模式下启动 provisioner 服务。 make docker-start 前端代码修改会自动重新加载。 后端代码修改会触发自动重启。 LangGraph 服务支持热重载。 访问应用: Web界面: ` API网关: ` LangGraph服务: ` 常用Docker命令: ...
在我的家庭办公室里,有一台运行着 OpenClaw 的 DGX Spark。通过安全隧道,它连接到了我的手机和笔记本电脑。毫不夸张地说,它已经成为了我们家庭运行的“操作系统”。 我和妻子用它来规划孩子的日程;我编写了一个 Agent 技能(Skill),每天早上调取学校的午餐菜单作为提醒;另一个技能则负责追踪孩子们的网球比赛抽签。通过 Zapier 连接 Model Context Protocol (MCP) 服务器,它能同步我的电子邮件、日历和 Discord。它会在我遗忘时给予提醒,承载了我大脑无法容纳的所有背景信息。它甚至成了我深度思考的伙伴——在那些策略想法变成正式幻灯片之前,我会先在这里将雏形打磨成型。 OpenClaw 不仅改变了个人的生产力,也从根本上改变了我们家庭的运作方式。但这正是令我感到恐惧的地方:它暴露在外的风险实在是太大了。 爆发式增长的开源项目,也是巨大的攻击目标 OpenClaw 的崛起堪称爆炸式。自 2025 年 11 月 Peter Steinberger 发布首个版本以来,它以开源史上前所未有的速度走红:GitHub 星数在几天内突破 6 万,几个月内达到数十万。英伟达 CEO 黄仁勋将其称为“个人 AI 的操作系统”。 这种狂热是有道理的。OpenClaw 代表了一种真正的范式转移——从“你与其交谈的 AI”转变为“代表你行动的 AI”。它读取你的文件、管理你的工具、运行 Shell 命令、连接社交平台,甚至在你睡觉时为自己构建新功能。正如早期用户所言,它是目前最接近“贾维斯(Jarvis)”的存在。 然而,OpenClaw 也是开源史上安全危机最集中的焦点。在它走红后的三周内,我们就目睹了一波严重的攻击浪潮: CVE-2026-25253:一个高危远程代码执行(RCE)漏洞,用户只需访问一个恶意网页,其 Agent 就会被劫持。 暴露风险:公网上有超过 13.5 万个 OpenClaw 实例,其中数千个存在安全漏洞。 ClawHavoc 供应链攻击:攻击者在 ClawHub 中植入了 800 多个恶意技能(约占注册总数的 20%),打着生产力工具的幌子分发信息窃取程序。 隐蔽威胁:安全研究人员演示了恶意第三方技能如何在用户毫无察觉的情况下,执行数据外泄和提示词注入(Prompt Injection)。 对于一个拥有完整系统访问权限、广泛网络连接且依赖社区贡献插件的 Agent 来说,其攻击面极其庞大。 弥合“强大”与“安全”之间的鸿沟 过去一年,生态系统开始做出回应。英伟达发布的 OpenShell 提供了 OpenClaw 之前缺失的基础设施级沙箱:内核隔离、默认拒绝的网络访问、基于 YAML 的策略执行以及确保敏感数据留在本地的隐私路由器。这些控制措施运行在进程之外,意味着 Agent 无法绕过它们。 ...
AI 编码工具正日益普及,但其真正价值往往被误解。经过多个实际项目的开发,我发现工具本身远不如使用它的人重要。本文将分享我在日常使用 Claude Code 时的设置、BMAD 与计划模式的选择、CLAUDE.md 的结构,以及从三个真实项目中吸取的宝贵经验。 我的 Claude Code 设置 以下是我日常使用的 Claude Code 设置: 类别 我使用的工具/方法 IDE VS Code (搭配 Claude Code 扩展) 模型 Opus (用于架构设计、安全分析、复杂代码等繁重任务),Sonnet (用于规划和迭代优化) AI SDLC BMAD 方法 (适用于大型项目),Claude Code 计划模式 (适用于小型功能) MCP 服务器 Chrome 浏览器, Playwright, GitHub 技能 安全审查 (内置), SEO 分析, Google Analytics, 网站可访问性, 网页设计 代理 单代理会话 (暂无多代理编排) 辅助工具 博客润色, 演示文稿制作, 构思塑造, 创意写作 (例如基于 Ruben 指南的写作) 接下来,我将通过三个项目案例,详细阐述这些设置是如何形成的。 项目一:使用 Claude Code 重建个人网站 我的咨询品牌网站 ranthebuilder.cloud 承载了我关于 AWS Serverless、平台工程和 AI 辅助开发的所有经验。最初它搭建在 Wix 上,四年后我决定用 Claude Code 重建。 ...
通过将 Gemini 的强大推理能力与 MediaPipe 的实时感知技术相结合,开发者可以比以往更轻松地构建富有创意的交互式游戏和应用程序。MediaPipe 提供了一系列跨平台的、开箱即用的机器学习解决方案,涵盖视觉、音频和文本处理,并针对设备端实时性能进行了深度优化。 为了直观展示 MediaPipe 的能力,我们在 Google AI Studio 中推出了一个全新的 Showcase Gallery。你可以访问 AI Studio,用自然语言描述你的想法,并指定希望使用的 MediaPipe 功能(如人脸、手部、姿态跟踪或图像分割等),AI Studio 便能为你生成功能完备的 Web 应用。 本文将通过几个有趣的实例,展示如何利用 Gemini 和 MediaPipe 构建能与物理世界互动的应用。 快速上手:在 AI Studio 中用提示词生成应用 访问 AI Studio,在提示词中清晰地描述你的应用创意。确保提及你希望集成的 MediaPipe 功能。以下示例建议在设置中选择 Gemini 1.7 Pro 模型。 示例一:体感控制的恐龙跳跃游戏 我们可以复刻经典的 Chrome 恐龙游戏,并利用 MediaPipe 的 Pose Landmarker API 将其改造为体感控制版本。 示例提示词: 创建一个基于 MediaPipe Pose Landmarker 的网页游戏,复刻 Chrome 恐龙游戏的玩法和 8-bit 像素风格。 核心功能: - 玩家通过身体跳跃来控制恐龙跳起,以躲避障碍物。 - 实现一个鲁棒的跳跃检测机制,不受玩家与摄像头距离的影响。 - 恐龙的跳跃高度应至少是障碍物高度的两倍。 - 支持使用空格键作为备用跳跃方式。 - 在游戏画面下方增加一个调试面板,显示实时摄像头画面及姿态关键点叠加,用于反馈和调试。 AI Studio 能在数分钟内生成一个功能齐全的 Web 应用。即便只提供简单的提示词,Gemini 也能智能地补全细节,使应用更加完善,例如: ...
本文汇集了来自 Anthropic 官方文档、核心开发者、社区经验以及资深用户日常使用的 22 个 Claude 编程技巧与最佳实践,旨在帮助你更高效地驾驭这款强大的 AI 编程助手。 1. 配置 cc 别名,快速启动 这是许多开发者启动 Claude 会话的首选方式。通过设置一个简短的别名,你可以省去每次输入长命令和处理权限提示的麻烦。 将以下行添加到你的 ~/.zshrc (或 ~/.bashrc) 文件中: alias cc='claude --dangerously-skip-permissions' 然后运行 source ~/.zshrc 使其生效。此后,只需输入 cc 即可启动会话。 --dangerously-skip-permissions 这个标记名被设计得“故意吓人”,是为了提醒你:只有在完全理解 Claude Code 对代码库可能执行的操作后,才应使用此标记。 2. 内联执行 Shell 命令 在 Claude 提示符中,以 ! 为前缀可以直接运行任何 shell 命令,例如 !git status 或 !npm test。命令及其输出都会被自动加入到上下文中,便于 Claude 查看结果并采取后续行动。这比请求 Claude 运行命令要快捷得多。 3. 用 Esc 键掌控全局 熟练使用 Esc 键可以让你自如地控制 Claude 的行为: Esc:立即停止 Claude 当前的操作,但保留上下文,你可以马上给出新的指令。 Esc + Esc (或 /rewind):打开一个可滚动的检查点菜单,其中包含了 Claude 创建的每一个历史版本。你可以选择恢复代码、对话,或两者兼有。这让你能大胆尝试不确定的方案,如果行不通,一键“倒带”即可,代码库安然无恙。 注意:检查点只追踪文件编辑。由 shell 命令引起的变化(如数据库迁移)不会被捕获。 ...