欢迎来到AI小卖铺博客
每天分享人工智能资讯、技术教程和工具。
每天分享人工智能资讯、技术教程和工具。
在AI辅助编程日益普及的今天,如何高效地利用大型语言模型(LLM)成为开发者关注的焦点。oh-my-claudecode(简称OMC)正是为解决这一痛点而生。它是一个强大的多代理编排工具,专为Anthropic Claude Code设计,旨在提供零学习曲线、直观高效的开发体验,让你无需深入理解Claude Code的复杂性,即可轻松驾驭AI协同编程。 OMC的核心理念是简化AI代理的协作与管理,通过智能编排实现任务自动化、效率最大化,并优化资源使用。无论你是需要构建复杂的REST API,进行代码审查,还是设计用户界面,OMC都能提供一套流畅的解决方案。 快速上手 使用OMC极其简单,只需几个步骤即可开始你的AI辅助编程之旅。 安装 通过Claude Code插件市场安装: /plugin marketplace add https://github.com/Yeachan-Heo/oh-my-claudecode /plugin install oh-my-claudecode 设置 运行初始化设置: /setup /omc-setup 开始构建 直接用自然语言描述你的需求,OMC将自动完成: autopilot: build a REST API for managing tasks 就是这么简单!一切都将自动化进行。 不知如何开始?深度访谈来帮你! 如果你对需求不明确,或者想更精细地掌控设计过程,可以使用 /deep-interview。它通过苏格拉底式提问,在代码编写前澄清你的思路,揭示潜在假设,并衡量需求清晰度,确保你精确了解要构建什么。 /deep-interview "我想要构建一个任务管理应用" 核心特性与优势 oh-my-claudecode之所以能脱颖而出,在于其提供了一系列旨在提升开发者体验和效率的强大功能。 零配置开箱即用:智能默认设置,无需繁琐配置即可立即使用。 团队优先编排:以“团队”为核心的多代理协作模式,是OMC的规范编排界面。 自然语言交互:无需记忆复杂命令,直接描述你的意图。 自动并行化:将复杂任务智能分配给专业代理并行处理。 持久化执行:任务会持续执行,直到通过验证并完全完成。 成本优化:智能模型路由,可节省 30-50% 的令牌使用成本。 经验学习:自动提取和重用解决问题的模式。 实时可见性:HUD状态栏实时显示后台运行情况。 编排模式:多场景应对 OMC提供了多种编排模式,以适应不同的开发需求和用例。 模式名称 模式特点 适用场景 团队 (Team) 规范的分阶段管道(计划 → 生产 → 执行 → 验证 → 修复),协同Claude代理执行共享任务列表。 多代理协同完成复杂任务,例如修复TypeScript错误、实现支付流程。 omc team (CLI) 通过tmux CLI工作者,在分离窗格中运行真实的Claude/Codex/Gemini进程。 需要特定模型CLI执行的任务,如代码审查(Codex)、UI/UX设计(Gemini),按需生成和销毁工作进程。 ccg 结合/ask codex + /ask gemini,由Claude进行综合。 涉及后端(Codex)和前端(Gemini)混合工作的项目,需要多模型协同建议。 Autopilot 单一主导代理的自主执行。 端到端功能开发,追求最小干预和自动化。 Ultrawork 最大并行度(非团队模式)。 爆发式并行修复/重构,不需要团队协作的场景。 Ralph 持久化模式,带有验证/修复循环。 必须完全完成且不允许静默部分完成的任务。 Pipeline 顺序、分阶段处理。 需要严格顺序的多步骤转换。 AI代理与模型路由 OMC内置了32个专业代理,涵盖架构、研究、设计、测试、数据科学等领域。它能智能路由模型,例如对简单任务使用Haiku,对复杂推理使用Opus,确保每次都将任务委托给最适合的代理。 ...
DeerFlow 是一个基于 LangGraph 构建的 AI 超级代理(Super Agent)后端系统。它集成了沙箱执行环境、持久化记忆以及可扩展的工具集,旨在让 AI 代理能够在一个隔离且持久的环境中执行复杂任务,例如执行代码、浏览网页、管理文件,甚至将任务委托给子代理并行处理。 架构概览 DeerFlow 的系统架构设计清晰,通过 Nginx 作为统一反向代理,将请求分发至后端的 LangGraph 服务和 FastAPI 网关。 graph TD subgraph 用户请求 A[Nginx 统一反向代理 :2026] end A -- "/api/langgraph/*" --> B[LangGraph 服务 :2024] A -- "/api/* (其他)" --> C[FastAPI 网关 :8001] A -- "/" --> D[前端应用] subgraph B direction LR B1[主代理 Lead Agent] B1 --> B2[中间件链] B1 --> B3[工具集] B1 --> B4[子代理] end subgraph C C1[模型管理] C2[MCP 服务] C3[技能管理] C4[记忆系统接口] C5[文件上传与产物] end 请求路由逻辑: ...
感谢你对DeerFlow项目的关注与贡献意愿!本文将详细指导你如何设置开发环境,并熟悉DeerFlow的开发工作流程。 一、开发环境设置 DeerFlow提供了两种开发环境选项,其中Docker方案因其一致性和便捷性而被强烈推荐。 1. Docker开发环境(推荐) Docker提供了一个一致、隔离的环境,所有依赖项(如Node.js、Python、Nginx)都已预配置,无需在本地机器上单独安装。 前置条件: Docker Desktop 或 Docker Engine pnpm (用于优化缓存) 设置步骤: 配置应用: 首先,复制示例配置文件并设置API密钥。 # 复制示例配置文件 cp config.example.yaml config.yaml # 设置你的API密钥,例如OpenAI API Key export OPENAI_API_KEY="your-key-here" # 或者直接编辑 config.yaml 文件 初始化Docker环境(首次运行): 执行初始化命令,这将构建Docker镜像、安装前端和后端依赖,并配置pnpm缓存共享。 make docker-init 此命令将完成以下任务: 构建Docker镜像。 安装前端依赖 (使用 pnpm)。 安装后端依赖 (使用 uv)。 将 pnpm 缓存与宿主机共享,以加快后续构建速度。 启动开发服务: 启动所有开发服务,支持热重载。make docker-start 会读取 config.yaml,并仅在 provisioner/Kubernetes 沙盒模式下启动 provisioner 服务。 make docker-start 前端代码修改会自动重新加载。 后端代码修改会触发自动重启。 LangGraph 服务支持热重载。 访问应用: Web界面: ` API网关: ` LangGraph服务: ` 常用Docker命令: ...
在我的家庭办公室里,有一台运行着 OpenClaw 的 DGX Spark。通过安全隧道,它连接到了我的手机和笔记本电脑。毫不夸张地说,它已经成为了我们家庭运行的“操作系统”。 我和妻子用它来规划孩子的日程;我编写了一个 Agent 技能(Skill),每天早上调取学校的午餐菜单作为提醒;另一个技能则负责追踪孩子们的网球比赛抽签。通过 Zapier 连接 Model Context Protocol (MCP) 服务器,它能同步我的电子邮件、日历和 Discord。它会在我遗忘时给予提醒,承载了我大脑无法容纳的所有背景信息。它甚至成了我深度思考的伙伴——在那些策略想法变成正式幻灯片之前,我会先在这里将雏形打磨成型。 OpenClaw 不仅改变了个人的生产力,也从根本上改变了我们家庭的运作方式。但这正是令我感到恐惧的地方:它暴露在外的风险实在是太大了。 爆发式增长的开源项目,也是巨大的攻击目标 OpenClaw 的崛起堪称爆炸式。自 2025 年 11 月 Peter Steinberger 发布首个版本以来,它以开源史上前所未有的速度走红:GitHub 星数在几天内突破 6 万,几个月内达到数十万。英伟达 CEO 黄仁勋将其称为“个人 AI 的操作系统”。 这种狂热是有道理的。OpenClaw 代表了一种真正的范式转移——从“你与其交谈的 AI”转变为“代表你行动的 AI”。它读取你的文件、管理你的工具、运行 Shell 命令、连接社交平台,甚至在你睡觉时为自己构建新功能。正如早期用户所言,它是目前最接近“贾维斯(Jarvis)”的存在。 然而,OpenClaw 也是开源史上安全危机最集中的焦点。在它走红后的三周内,我们就目睹了一波严重的攻击浪潮: CVE-2026-25253:一个高危远程代码执行(RCE)漏洞,用户只需访问一个恶意网页,其 Agent 就会被劫持。 暴露风险:公网上有超过 13.5 万个 OpenClaw 实例,其中数千个存在安全漏洞。 ClawHavoc 供应链攻击:攻击者在 ClawHub 中植入了 800 多个恶意技能(约占注册总数的 20%),打着生产力工具的幌子分发信息窃取程序。 隐蔽威胁:安全研究人员演示了恶意第三方技能如何在用户毫无察觉的情况下,执行数据外泄和提示词注入(Prompt Injection)。 对于一个拥有完整系统访问权限、广泛网络连接且依赖社区贡献插件的 Agent 来说,其攻击面极其庞大。 弥合“强大”与“安全”之间的鸿沟 过去一年,生态系统开始做出回应。英伟达发布的 OpenShell 提供了 OpenClaw 之前缺失的基础设施级沙箱:内核隔离、默认拒绝的网络访问、基于 YAML 的策略执行以及确保敏感数据留在本地的隐私路由器。这些控制措施运行在进程之外,意味着 Agent 无法绕过它们。 ...
AI 编码工具正日益普及,但其真正价值往往被误解。经过多个实际项目的开发,我发现工具本身远不如使用它的人重要。本文将分享我在日常使用 Claude Code 时的设置、BMAD 与计划模式的选择、CLAUDE.md 的结构,以及从三个真实项目中吸取的宝贵经验。 我的 Claude Code 设置 以下是我日常使用的 Claude Code 设置: 类别 我使用的工具/方法 IDE VS Code (搭配 Claude Code 扩展) 模型 Opus (用于架构设计、安全分析、复杂代码等繁重任务),Sonnet (用于规划和迭代优化) AI SDLC BMAD 方法 (适用于大型项目),Claude Code 计划模式 (适用于小型功能) MCP 服务器 Chrome 浏览器, Playwright, GitHub 技能 安全审查 (内置), SEO 分析, Google Analytics, 网站可访问性, 网页设计 代理 单代理会话 (暂无多代理编排) 辅助工具 博客润色, 演示文稿制作, 构思塑造, 创意写作 (例如基于 Ruben 指南的写作) 接下来,我将通过三个项目案例,详细阐述这些设置是如何形成的。 项目一:使用 Claude Code 重建个人网站 我的咨询品牌网站 ranthebuilder.cloud 承载了我关于 AWS Serverless、平台工程和 AI 辅助开发的所有经验。最初它搭建在 Wix 上,四年后我决定用 Claude Code 重建。 ...
通过将 Gemini 的强大推理能力与 MediaPipe 的实时感知技术相结合,开发者可以比以往更轻松地构建富有创意的交互式游戏和应用程序。MediaPipe 提供了一系列跨平台的、开箱即用的机器学习解决方案,涵盖视觉、音频和文本处理,并针对设备端实时性能进行了深度优化。 为了直观展示 MediaPipe 的能力,我们在 Google AI Studio 中推出了一个全新的 Showcase Gallery。你可以访问 AI Studio,用自然语言描述你的想法,并指定希望使用的 MediaPipe 功能(如人脸、手部、姿态跟踪或图像分割等),AI Studio 便能为你生成功能完备的 Web 应用。 本文将通过几个有趣的实例,展示如何利用 Gemini 和 MediaPipe 构建能与物理世界互动的应用。 快速上手:在 AI Studio 中用提示词生成应用 访问 AI Studio,在提示词中清晰地描述你的应用创意。确保提及你希望集成的 MediaPipe 功能。以下示例建议在设置中选择 Gemini 1.7 Pro 模型。 示例一:体感控制的恐龙跳跃游戏 我们可以复刻经典的 Chrome 恐龙游戏,并利用 MediaPipe 的 Pose Landmarker API 将其改造为体感控制版本。 示例提示词: 创建一个基于 MediaPipe Pose Landmarker 的网页游戏,复刻 Chrome 恐龙游戏的玩法和 8-bit 像素风格。 核心功能: - 玩家通过身体跳跃来控制恐龙跳起,以躲避障碍物。 - 实现一个鲁棒的跳跃检测机制,不受玩家与摄像头距离的影响。 - 恐龙的跳跃高度应至少是障碍物高度的两倍。 - 支持使用空格键作为备用跳跃方式。 - 在游戏画面下方增加一个调试面板,显示实时摄像头画面及姿态关键点叠加,用于反馈和调试。 AI Studio 能在数分钟内生成一个功能齐全的 Web 应用。即便只提供简单的提示词,Gemini 也能智能地补全细节,使应用更加完善,例如: ...
本文汇集了来自 Anthropic 官方文档、核心开发者、社区经验以及资深用户日常使用的 22 个 Claude 编程技巧与最佳实践,旨在帮助你更高效地驾驭这款强大的 AI 编程助手。 1. 配置 cc 别名,快速启动 这是许多开发者启动 Claude 会话的首选方式。通过设置一个简短的别名,你可以省去每次输入长命令和处理权限提示的麻烦。 将以下行添加到你的 ~/.zshrc (或 ~/.bashrc) 文件中: alias cc='claude --dangerously-skip-permissions' 然后运行 source ~/.zshrc 使其生效。此后,只需输入 cc 即可启动会话。 --dangerously-skip-permissions 这个标记名被设计得“故意吓人”,是为了提醒你:只有在完全理解 Claude Code 对代码库可能执行的操作后,才应使用此标记。 2. 内联执行 Shell 命令 在 Claude 提示符中,以 ! 为前缀可以直接运行任何 shell 命令,例如 !git status 或 !npm test。命令及其输出都会被自动加入到上下文中,便于 Claude 查看结果并采取后续行动。这比请求 Claude 运行命令要快捷得多。 3. 用 Esc 键掌控全局 熟练使用 Esc 键可以让你自如地控制 Claude 的行为: Esc:立即停止 Claude 当前的操作,但保留上下文,你可以马上给出新的指令。 Esc + Esc (或 /rewind):打开一个可滚动的检查点菜单,其中包含了 Claude 创建的每一个历史版本。你可以选择恢复代码、对话,或两者兼有。这让你能大胆尝试不确定的方案,如果行不通,一键“倒带”即可,代码库安然无恙。 注意:检查点只追踪文件编辑。由 shell 命令引起的变化(如数据库迁移)不会被捕获。 ...
在家庭娱乐场景中,用户常会遇到这样的困扰:在海量影片中反复徘徊而迟迟无法开演,或是为了查询比赛规则不得不频繁拿起手机。为了解决这些痛点,Google TV 近期推出了由 Gemini 驱动的三项全新功能,旨在让大屏设备承担更多“重活”,为用户提供更直观、更深入的信息交互体验。 以下是本次更新的三大核心功能: 1. 更智能的自适应视觉辅助回答 Gemini 现在能根据用户的提问内容,自动匹配最合适的展示形式。无论是寻找生活灵感还是查询即时信息,Gemini 都能将视频、图像和文字完美融合: 体育赛事: 询问比赛比分时,电视将直接显示实时计分板及观看渠道。 烹饪教学: 搜索特定菜谱时,系统会优先推送视频教程。 生活规划: 从电影推荐到晚餐计划,Gemini 都能提供图文并茂的综合建议。 2. 沉浸式“深度探索”(Deep Dives) 为了将“被动观看”转变为“主动学习”,Google TV 推出了深度探索 (Deep Dives) 功能。该功能针对健康、经济、科技等教育类话题,提供带有语音解说的视觉化拆解。 互动式学习: 例如,你可以深入了解“冷水浴对生理的影响”或“抹茶的制作全过程”。Gemini 会生成定制化的互动指南,并提供引导式后续问题,方便家庭成员在屏幕前共同探讨。 开启方式: 用户只需向 Gemini 提问并点击“深度探索(Dive deeper)”,或通过主屏幕顶部的 Gemini 标签进入“学习(Learn)”板块。 3. 实时体育简报(Sports Briefs) 继去年推出新闻简报功能后,Google TV 现将该体验扩展至体育领域。体育简报专为那些无法观看直播但又想快速掌握赛况的粉丝设计。 联赛覆盖: 首批支持 NBA、NCAA 篮球、NHL(冰球)、MLB(棒球)、MLS(足球)和 NWSL(女足)。 个性化摘要: 用户无需在手机上翻阅繁琐的社交媒体动态,即可通过大屏获取最新的球员新闻和比赛概况。用户可以在 Gemini 标签页中轻松找到所有关注联赛的简报汇总。 发布计划与设备要求 视觉辅助功能: 即日起开始在美国和加拿大的 Gemini 兼容设备上推送。 深度探索与体育简报: 已在美国上线,更多设备的适配工作将于今年春季完成。 国际化进展: Google TV 版 Gemini 语音助手将于今年内推向更多国家,首批包括澳大利亚、新西兰和英国。 技术要求: 这些功能主要面向运行 Android TV OS 14 及以上版本的设备。用户需登录 Google 账号并保持互联网连接,具体的搜索结果可能会因设备、语言和地理位置而有所差异。 ...
从非结构化文档中提取文本是开发过程中的一个典型难题。数十年来,传统的光学字符识别(OCR)系统在处理复杂布局时常常力不从心,导致多栏 PDF、嵌入式图片和嵌套表格最终变成一堆难以辨识的纯文本。如今,大型语言模型(LLM)的多模态能力终于让可靠的文档理解成为可能。 LlamaParse 旨在弥合传统 OCR 与基于视觉语言的智能体解析之间的鸿沟,它能够为 PDF、演示文稿和图像提供顶尖的文本提取能力。本文将指导你如何利用 Gemini 来驱动 LlamaParse,从非结构化文档中提取高质量的文本和表格,并构建一个智能个人财务助手。 请注意:Gemini 模型生成的内容可能存在错误,不应作为专业的财务建议。 为什么选择 LlamaParse? 在许多场景下,LLM 本身已经能够有效执行文档解析任务。然而,当处理大量文档或格式多变的文档时,保证解析的一致性和可靠性变得极具挑战性。 像 LlamaParse 这样的专用工具通过引入预处理步骤和可定制的解析指令来补充 LLM 的能力,这有助于结构化处理大型表格或密集文本等复杂元素。在通用的解析基准测试中,与直接处理原始文档相比,这种方法的效果提升了约 13%–15%。 应用场景:解析券商对账单 券商对账单是文档解析领域的一大终极挑战。它们包含了密集的金融术语、复杂的嵌套表格以及动态变化的布局。为了帮助用户理解其财务状况,我们需要一个工作流,它不仅能解析文件,还能显式地提取表格,并通过 LLM 对数据进行解释。 鉴于这些高级的推理和多模态需求,Gemini 3.1 Pro 成为了底层模型的理想选择。它在拥有巨大上下文窗口的同时,还具备原生的空间布局理解能力。 整个工作流分为四个阶段: 接收 (Ingest):将 PDF 文件提交给 LlamaParse 引擎。 路由 (Route):引擎解析文档并发出一个 ParsingDoneEvent 事件。 提取 (Extract):该事件触发两个并行任务——文本提取和表格提取,以最大限度地减少延迟。 合成 (Synthesize):一旦两个提取任务完成,Gemini 会生成一份易于理解的摘要。 这种双模型架构是一个经过深思熟虑的设计: Gemini 3.1 Pro:在解析阶段处理复杂的布局理解任务,保证准确性。 Gemini 3 Flash:负责最后的摘要生成,优化延迟和成本。 本教程的完整代码可以在 LlamaParse x Gemini 的 GitHub 演示仓库中找到。 环境设置 首先,安装 LlamaCloud、LlamaIndex workflows 和 Google GenAI SDK 所需的 Python 包。 ...
ChatGPT 作为一种基于大语言模型(LLM)的生成式人工智能,正在从简单的聊天工具演变为财务专业人士的生产力利器。通过利用其自然语言处理(NLP)能力,财务团队可以显著减少繁琐的手动任务,快速提取关键指标,并为决策提供深度支持。 在财务管理中,ChatGPT 的应用涵盖了从基础的费用追踪到复杂的收并购(M&A)分析、现金流预测以及投资研究等多个领域。特别是在财务计划与分析(FP&A)中,它能有效整合会计数据,提升企业的决策效率。 以下是财务团队利用 ChatGPT 提升工作效率的 14 个核心场景: 1. 财务分析与决策支持 ChatGPT 可以分析包括损益表、资产负债表和现金流量表在内的财务报表。它能够敏锐地识别数据中的异常项,提醒财务人员进行人工复核。通过这种方式,财务团队可以更快速地提炼经营建议,优化增长策略和盈利能力。 2. 费用管理与预算控制 财务团队可以利用 ChatGPT 对企业支出和员工报销进行分类与追踪。目前,许多先进的应付账款(AP)自动化软件已嵌入 GPT-4 模型,用于提升发票处理中的费用编码准确性。用户甚至可以通过数字助手以对话形式实时查询业务情报。 3. 编写与优化计算机代码 在财务工作中,经常需要处理复杂的 Excel 宏或使用 Python 进行数据建模。ChatGPT 可以根据具体需求生成 VBA 代码、Python 脚本或其他编程语言代码。财务人员只需描述需求,即可获得代码框架,将其复制到相应环境中运行即可。 4. 现金流预测 在财务建模中,ChatGPT 可以辅助编制现金流预测。通过输入最新的经济指标和行业信息,它可以提供初步的预测模型。财务专业人士可以基于自身经验对这些预测值进行微调,以确保资金计划的可靠性。 5. 融资与投资产品研究 首席财务官(CFO)或司库在选择融资方案或短期投资工具时,可以利用 ChatGPT 搜索并评估市场上的不同选项。通过其内置的搜索功能,ChatGPT 可以抓取最新的利率和产品信息,并生成对比报告供决策参考。 6. 经济与行业趋势分析 通过上传 PDF 报告、连接数据插件或使用搜索功能,ChatGPT 可以追踪宏观经济趋势和行业动态。这有助于财务团队评估市场波动对业务的潜在影响,并针对竞争对手或股市波动制定应对策略。 7. 编写初步研究报告 利用 ChatGPT 的“深度研究”(Deep Research)功能和 AI Agent,财务团队可以针对特定领域生成复杂的多步骤研究报告。虽然 AI 可以完成大部分资料搜集和初稿撰写工作,但仍需人工进行事实核查以确保准确性。 8. 并购(M&A)与企业发展 在并购场景下,ChatGPT 可用于研究目标行业、竞争对手及并购对象。它还能协助制定尽职调查清单、估值技术分析以及投后整合计划,为企业发展部提供初步的决策依据。 9. 税务与全球化策略研究 CFO 和税务专家可以利用 ChatGPT 了解国内外税法的变化。在企业进行国际扩张时,它可以帮助梳理不同地区的税务影响和合规要求,从而优化全球财务表现。 10. 投资者关系会议脚本 对于上市公司,ChatGPT 可以协助编写季度财报电话会议的脚本。它还能模拟分析师提问,帮助 CEO 和 CFO 提前准备问答环节(Q&A),确保信息传递的专业性。 ...