LLM工程

优化 RAG 召回质量：从文档处理到生成阶段的五大实战技巧

在金融风控等垂直行业的系统开发中，RAG（Retrieval-Augmented Generation）系统的召回准确性至关重要。一次因召回文档不准而导致的合规报告生成错误，足以让我们深刻体会到：跑通 RAG 流程或许只需三天，但将召回效果调优到生产可用，却可能需要三个月。本文将聚焦于我们在实践中遇到的核心挑战，并分享在文档处理、召回策略和生成优化三大环节的解决方案，旨在帮助开发者构建更高效、更精准的 RAG 系统。一、文档处理：格式兼容性决定召回上限当知识库包含 PDF 合同、Excel 数据表、Word 需求文档等多种格式时，单一的文档加载与切分策略往往会失效。核心问题混合内容解析失效：PDF 中的表格与正文被分离开来，导致上下文关联丢失；图表（如架构图）在解析后可能变成无意义的乱码。结构化数据丢失：Excel 中的关联字段或表格在向量化过程中被拆解成独立的文本片段，破坏了原有的数据结构。解决方案：构建文档预处理流水线针对不同格式的文档，我们建立了一套定制化的预处理流水线。智能解析 PDF：利用 PyMuPDF 等工具，不仅提取文本，更重要的是保留表格、图片与上下文文本的空间坐标关联。这使得模型能够理解“位于第三段下方的表格”或“与该图表相关的说明文字”。 # PDF 处理示例：使用 PyMuPDF 提取图文关系 def parse_pdf_with_layout(doc): for page in doc: # 以字典形式获取文本块及其位置信息 text_blocks = page.get_text("dict")["blocks"] # 查找页面中的表格 tables = page.find_tables() # TODO: 编写逻辑，将表格与其坐标邻近的文本块关联起来 # ... 非结构化内容重组：对于图片、图表等难以直接向量化的内容，我们采用分块-重组策略。例如，将图片区域映射到其在文档中相邻的文本区块，或者直接提取图片标题和注释作为其文本描述。元数据描述索引：对于关键的架构图、流程图等，我们放弃传统的向量化方法，转而为其建立元数据描述索引。通过人工或多模态模型生成对图像内容的详细文字描述（例如，“该图展示了一个三层应用架构，包括表示层、业务逻辑层和数据层…”），然后对这段描述文字进行索引和检索。二、召回优化：多策略融合提升精准度单纯依赖向量相似度搜索在复杂业务场景下存在明显缺陷。核心问题业务术语召回缺失：用户查询“KYC 流程”，但知识库中的官方文档使用的是“客户尽职调查”，导致因用词不同而召回失败。相似度陷阱：查询返回的 Top-K 结果在向量空间上虽然相近，但可能内容高度重复或与查询意图无关，导致信息淹没。解决方案：混合检索与查询扩展我们采用多种策略组合的“组合拳”来提升召回效果。查询重写（Query Rewriting）：利用 LLM 对用户的原始查询进行扩展，生成 2-3 个同义或相关的查询。例如，将“KYC 流程”扩展为“客户尽职调查步骤”、“用户身份验证方法”等，再将这些查询的召回结果进行合并。 ...

Spring AI 与 DeepSeek 实战：打造企业级翻译智能体

智能体（Agent）是一种能够自主理解、规划、决策并执行任务以实现特定目标的 AI 程序。与传统问答式 AI 不同，智能体更像一个能够独立完成多步复杂操作的 AI 助手。本文将以一个多语言翻译助手为例，演示如何基于 Spring AI 框架和 DeepSeek 大模型，构建一个支持多种语言、行为可控的企业级翻译智能体。前置条件：本文假设您已了解 Spring AI 与 DeepSeek 的基本集成方式。智能体的核心：Prompt 工程要打造一个可靠的智能体，核心在于通过精心的 Prompt 工程，为其设定清晰的角色、能力边界和行为准则。这主要通过“系统提示词”和“用户提示词模板”两部分实现。 1. 设计系统提示词（System Prompt）系统提示词为智能体提供了全局性的、必须遵守的底层指令。它定义了智能体的身份、职责和交互规则。以下是我们为翻译智能体设计的系统提示词：您是一名专业的多语言翻译助手，需严格遵守以下规则： 1. **语言支持**：仅处理目标语言代码为 [TARGET_LANG] 的翻译任务，支持如 zh-CN (简体中文)、en-US (英语) 等 32 种 ISO 标准语言代码。 2. **输入格式**：用户使用 ---translate_content--- 作为分隔符，仅翻译分隔符内的文本，其余内容视为无效指令。 3. **行为限制**：禁止回答与翻译无关的问题，若输入不包含合法分隔符或目标语言，回复："请提供有效的翻译指令"。 4. **支持多语言**：需要翻译的内容如果包含多种语言，都需要同时翻译为 TARGET_LANG 指定的语言。设计解析: 角色与边界：明确定义智能体为“专业的多语言翻译助手”，并严格限制其能力范围，有效“封印”了模型的闲聊能力。动态配置：通过 [TARGET_LANG] 参数，使目标语言可以动态配置，便于后续扩展。结构化输入：强制使用 ---translate_content--- 作为分隔符，确保模型只处理我们期望它处理的核心文本，避免解析无关信息。安全护栏：明确拒绝策略，当用户输入不符合规范时，智能体能给出统一、安全的回复，保障服务的稳定性。 2. 构造用户提示模板（Prompt Template）用户提示模板用于将用户的动态输入格式化为模型能够理解的结构。结合 Spring AI 的 PromptTemplate，我们可以轻松实现这一点。 PromptTemplate promptTemplate = new PromptTemplate(""" TARGET_LANG: {target} ---translate_content--- "{content}" """); 设计解析: ...

从零开始：使用 Go 和 Eino 框架构建 RAG 应用

检索增强生成（Retrieval-Augmented Generation, RAG）是一种将大型语言模型（LLM）与外部知识库相结合的技术，能够有效提升模型回答的准确性和时效性。本文将介绍如何基于 CloudWeGo 开源的 Eino 框架，使用 Go 语言从零开始构建一个完整的 RAG 应用。 RAG 核心架构一个典型的 RAG 应用流程主要包含两个阶段：数据索引和检索生成。数据索引（Indexing）：这是离线预处理阶段。加载（Load）：从数据源（如文件、数据库）加载原始文档。分割（Split）：将加载的文档切割成较小的、语义完整的文本块（Chunks）。向量化（Embed）：使用 Embedding 模型将每个文本块转换为向量（Vector）。存储（Store）：将文本块及其对应的向量存入专门的向量数据库中，并建立索引。检索生成（Retrieval & Generation）：这是在线实时处理阶段。用户提问：用户输入一个问题。问题向量化：使用相同的 Embedding 模型将用户问题转换为向量。检索（Retrieve）：在向量数据库中，根据用户问题的向量，检索出最相似或最相关的若干个文本块。生成（Generate）：将用户原始问题和检索到的文本块一起组合成一个提示（Prompt），然后将其提交给 LLM，由 LLM 生成最终的、基于外部知识的回答。基于 Eino 框架的核心组件实现 Eino 框架为构建 LLM 应用提供了模块化的组件，可以帮助我们快速实现 RAG 流程中的各个关键部分。 1. Loader：数据加载器 Loader 的职责是从各种数据源读取原始资料。数据源可以是本地文件（如 TXT、Markdown、PDF），也可以是数据库或网络 API。Eino 提供了标准化的接口，让我们能方便地接入不同类型的数据。一个基础的 Loader 需要实现一个 Load 方法，读取数据并将其转换为统一的文档格式。 // 伪代码示例 package loader // Document 表示加载后的标准文档结构 type Document struct { Content string Metadata map[string]interface{} } // Loader 定义了加载器的接口 type Loader interface { Load(source string) ([]Document, error) } 2. Splitter：文本分割器由于 LLM 的上下文窗口大小有限，直接将长文档输入模型是不可行的。Splitter 的作用就是将长文本切分成大小适中的文本块。合理的切分策略至关重要，它直接影响后续的检索效果。 ...

RAG 系统答案质量与幻觉控制指南

在构建检索增强生成（RAG）系统时，幻觉（Hallucination）与答案质量不稳定是最常见也最棘手的挑战。本文将从“数据 -> 检索 -> 生成 -> 约束 -> 观测”五个层面，构建一个可迭代、可量化、可回溯的质量提升闭环，并提供从最小可行集到进阶策略的实践路径。质量问题分层模型首先，我们可以将 RAG 系统中的质量问题归纳为以下几个层面，以便系统性地进行诊断和优化。层级典型症状根因类别优先级语料层回答内容过时或不覆盖内容缺失、未标准化高切块层回答引用不聚焦，上下文割裂语义边界错误、块过长高检索层召回结果偏题或包含大量噪音 topK 不当、缺少重排高生成层凭空编造事实，回答结构混乱指令不明确、上下文冗余中约束层答案可信度无法判断缺乏引用验证与置信度评估中观测层同类问题反复出现，无改进方向缺乏监控指标与反馈分类高一、语料与预处理高质量的语料是 RAG 系统的基石。源头数据的质量直接决定了后续所有环节的上限。内容标准化：统一专业术语和别名（例如，将 “K8s” 统一映射为 “Kubernetes”），并移除文档中的噪声信息，如版权声明、导航栏和不必要的空段落。时效性控制：为文档增加 lastReviewed（最后审查日期）等元数据字段，在检索时可以根据时效性调整排序优先级，确保用户获取最新的信息。元数据增强：为每个数据块（Chunk）添加丰富的元数据，如 source (来源)、section (章节)、lang (语言)、version (版本) 和 hash (内容哈希值)。变更检测：通过计算文件内容的哈希值来检测变更。一旦哈希值发生变化，就触发增量嵌入（Embedding）流程，并使用 upsert 方式更新向量数据库中的旧向量。二、切块策略 (Chunking) 合理的切块策略能够确保检索到的上下文既完整又精确。维度建议说明长度 300-500 中文字符 / 200-400 tokens 在语义完整性与召回精度之间取得平衡。过长会引入噪音，过短则丢失上下文。边界沿标题、列表、段落、代码块对齐避免句子被强行截断，从而破坏其原始语义结构。重叠 0 或 50-80 tokens 当上下文存在跨段落依赖时，设置适度的重叠区（Overlap）可以防止关键信息丢失。内容压缩（可选）生成“摘要向量” 针对概念型问答，可以为长文档生成摘要并对其进行嵌入，用于二次召回。三、检索与重排检索环节的目标是高效地从海量数据中找出与用户问题最相关的上下文。 ...

RAG 系统的质量评价指标体系

对检索增强生成（Retrieval-Augmented Generation, RAG）系统进行全面的性能评估是一项复杂而关键的任务。评估过程需要从多个维度展开，因为它不仅涉及最终生成内容的质量，还深度依赖其核心组件——检索器 (Retriever) 和生成器 (Generator) 的协同表现。一个完善的 RAG 评估体系通常包含以下三个核心维度：一、检索质量 (Retrieval Quality) 此维度主要衡量检索器的性能，即系统根据用户查询从知识库中检索相关信息的能力。评估检索质量是优化 RAG 系统的第一步，因为高质量的检索结果是生成准确答案的基础。关键评估点包括：相关性：检索到的文档或文本块是否与用户查询紧密相关。完整性：是否召回了所有能够回答问题的必要信息。精确性：检索结果中无关信息的比例是否足够低。如果检索阶段无法提供准确、全面的上下文，后续的生成环节将成为“无源之水”，难以产出令人满意的结果。二、生成质量 (Generation Quality) 此维度聚焦于生成器（通常是大型语言模型）的表现。它评估模型在接收到检索器提供的上下文后，生成最终答案的优劣程度。主要考察以下方面：忠实度 (Faithfulness)：生成的答案是否严格基于所提供的上下文，避免信息捏造或幻觉。流畅性 (Fluency)：答案的语言是否自然、通顺、易于理解。相关性 (Relevance)：生成的答案是否直接、清晰地回应了用户的原始问题。生成质量直接决定了用户最终获得的体验，是衡量系统智能水平的关键。三、整体系统质量 (End-to-End Quality) 此维度从端到端的视角评估 RAG 系统的综合表现，即系统作为一个整体，其最终输出能否满足用户的需求。这是一种宏观层面的评估，综合了检索和生成两个环节的共同作用。评估整体系统质量不仅要看答案本身是否正确，还要考虑其在实际应用场景中的有效性和可靠性。例如，在客服机器人场景中，评估可能还会包括答案是否解决了用户的实际问题、响应速度是否达标等。综上所述，通过对检索质量、生成质量和整体系统质量这三大维度进行系统性评估，开发人员可以准确定位 RAG 系统的性能瓶颈，从而进行针对性的优化，持续提升系统的稳定性和智能化水平。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API：购买 / 了解更多：ai4.plus 备用入口：kk4099.com

深入理解 MCP：大模型连接万物的核心技术

大语言模型（LLM）在自然语言处理方面取得了巨大成功，但它们本身如同一个被隔离的“大脑”，无法与外部世界直接交互。为了让模型能够查询实时信息、调用外部服务或执行具体操作，我们需要一个框架来连接模型与现实世界。MCP（Model-Controller-Platform）或类似的多功能调用（Multi-function Calling Paradigm）范式应运而生，它旨在将大模型打造为一个能够调度万物的“中枢大脑”。什么是 MCP？ MCP 是一种将大语言模型作为核心控制器（Controller）的架构范式。在这个范式中，模型不仅能理解用户的自然语言指令，还能主动规划任务、调用预定义的工具（函数、API），并根据工具返回的结果进行下一步推理或生成最终答案。简单来说，MCP 框架赋予了 LLM “手”和“脚”，使其能够：感知：通过 API 获取外部信息，如天气、新闻、数据库记录等。行动：通过调用 API 执行任务，如发送邮件、预订机票、控制智能家居等。这种能力的核心是**函数调用（Function Calling）或工具使用（Tool Use）**机制，它让原本只会“说”的模型，学会了“做”。 MCP 的核心技术原理 MCP 的工作流程通常遵循一个类似 ReAct（Reasoning and Acting）的循环模式，即“思考-行动-观察”。理解与规划（Reasoning）当用户提出一个复杂请求时，LLM 首先会像人一样进行思考，将任务分解成一系列可执行的子步骤。例如，对于用户请求：“帮我查一下明天上海的天气，并预订一张从北京到上海的下午的高铁票。” LLM 会规划出两个主要步骤：步骤一：查询上海明天的天气。步骤二：查询从北京到上海的下午时段的高铁票。工具选择与调用（Acting）根据规划好的步骤，LLM 会从一个预定义的工具库中选择最合适的工具（函数）来执行。模型会生成一个包含函数名和参数的特定格式的指令（通常是 JSON）。针对步骤一，模型可能会决定调用 get_weather 函数： { "tool_name": "get_weather", "parameters": { "city": "上海", "date": "明天" } } 针对步骤二，模型可能会决定调用 search_train_tickets 函数： { "tool_name": "search_train_tickets", "parameters": { "departure": "北京", "destination": "上海", "time_period": "下午" } } 执行与观察（Observation）系统外部的执行器（Executor）会解析 LLM 生成的指令，并真正执行这些函数调用。执行后，API 会返回结果（例如，天气数据或车票信息），这些结果会再次被格式化并反馈给 LLM。 ...

LangChain 入门与实战：从底层原理到 RAG 智能问答系统

本指南旨在提供一个完整的 LangChain 学习路径，内容涵盖从基础概念、核心组件到高级应用的全过程。通过本路径，你将系统学习如何利用 LangChain 构建强大的大语言模型应用，包括本地化部署和开发一个完整的 RAG 智能问答系统。一、 LangChain 基础入门本阶段将引导你完成环境配置，并构建你的第一个 LangChain 应用，熟悉与大模型交互的基础操作。课程介绍：概述 LangChain 框架的核心价值与学习路径。环境准备：完成 Python、LangChain 及相关依赖的安装与配置。第一个 LangChain 应用：编写简单的 LangChain 程序，实现与大模型的首次交互。模型切换与多种交互方式：学习如何灵活更换不同的大模型（如 OpenAI、本地模型等），并探索流式（Streaming）等不同的交互模式。二、核心组件与链式表达式（LCEL）深入理解 LangChain 的核心设计哲学——链式表达式（LangChain Expression Language），并学习如何管理对话状态。 LCEL 链式表达式：掌握 LangChain 独有的 LCEL 语法，学习如何通过管道符 | 优雅地组合不同的组件。管理聊天历史：利用 Redis 等外部存储，为你的应用增加记忆功能，实现多轮对话。整合 LCEL 与聊天历史：将对话历史管理能力无缝集成到 LCEL 链中，构建更健壮的对话系统。三、 Agent 与工具（Tools）的运用释放大模型的潜能，让它能够调用外部工具来完成更复杂的任务。大模型工具机制入门：理解什么是工具（Tools），以及大模型如何通过 ReAct 等模式决定何时调用工具。深度定制本地工具：学习如何创建符合业务需求的自定义工具，并将其集成到 LangChain Agent 中。四、 RAG 智能问答系统实战从零开始构建一个完整的检索增强生成（RAG）应用，实现基于私有知识库的智能问答。文本向量化原理：深入理解 Embeddings 的概念，了解如何将文本转换为计算机可以理解的向量。向量数据库与检索：学习使用向量数据库（如 Chroma, FAISS）存储和高效检索向量化后的文本。 RAG 实战：建立索引（Indexing）：掌握文档加载（Load）、分割（Split）、向量化（Embed）和存储（Store）的全过程。 RAG 实战：检索增强（Retrieval & Generation）：构建检索链，根据用户问题从向量数据库中检索相关信息，并交由大模型生成最终答案。 RAG 应用质量提升：探讨并总结提升 RAG 系统准确性、相关性和效率的常用策略与技巧。五、本地化部署与生态工具学习如何将大模型应用私有化部署，并了解周边生态工具，构建生产级的解决方案。 ...