近期,DeepSeek 发布了其模型的全新升级版——DeepSeek-V3.1。该模型在权威的 Aider 编程榜单上取得了 76.3% 的高分,超越了 Claude 3 Opus,再次登顶全球开源编程大模型榜首。
本文将深入解析 DeepSeek-V3.1 的核心技术升级,并通过实际操作,展示其强大的智能体(Agent)编程能力。
V3.1 的核心升级
根据官方介绍,DeepSeek-V3.1 主要带来了三方面的显著提升:
- 思考模式优化:引入“思维链压缩”技术,在减少输出 Token 的同时,保证甚至提升了答案质量。
- 智能体能力增强:在编码和搜索等智能体任务上性能大幅跃升,向更自主的 AI 智能体迈出了重要一步。
- 推理效率提升:优化后的模型在推理效率上与 OpenAI 的顶尖模型相当,响应更快。
在开始深入分析前,我们先对新模型进行一个简单的“身份鉴定”。当被问及其身份时,V3.1 能够清晰、准确地回答,这表明模型在迭代升级后仍能保持良好的自我认知。
技术解析:思维链压缩
本次升级中最引人注目的技术之一是“思维链压缩”(Chain-of-Thought Compression)。它旨在解决一个核心矛盾:如何在保证答案质量的同时,让模型的输出更加简洁高效。
为什么“更简洁”意味着“更困难”?
我们可以通过一个简单的类比来理解这项技术的挑战性:
想象一下两个写作任务:
- 任务 A:用 500 字写一篇观点清晰、论据充分的影评。
- 任务 B:用 150 字写一篇同样水平的影评。
显然,任务 B 的难度要大得多。它要求作者对电影有更深刻的理解,能精准捕捉核心观点,并用最精炼的语言表达出来,不容任何冗余。这对作者的概括、逻辑和语言组织能力提出了更高的要求。
同理,让大模型用更少的 Token 输出高质量答案,是对其能力的一次极限考验。
工作原理
思维链压缩技术通过以下方式实现:
-
简化推理过程:模型首先生成一个完整的、详细的“思维链”(CoT),然后通过技术手段将其压缩成更精炼的形式。
- 传统 CoT 示例:
“约翰有5个苹果,他吃了2个,所以还剩下5-2=3个。然后他又买了4个,所以现在有3+4=7个。因此,答案是7。”
- 压缩后输出:
“约翰吃完剩3个,加上新买的4个,总共7个。”
- 传统 CoT 示例:
-
强化学习训练:模型通过生成大量的压缩思维链样本进行训练。在训练过程中,采用强化学习技术,同时对两个目标进行奖励:
- 答案的正确性
- 回复的简洁性
通过这种方式,模型学会了在保持逻辑完整和答案准确的前提下,生成更简短、更高效的回答。
在官网实际测试中,即使不开启深度思考模式(DeepThink),V3.1 的回答也相当完整且语言精炼。开启 DeepThink 模式后,其展示的思维链也变得更为精简。
智能体(Agent)能力跃升
智能体是 AIGC 发展的关键方向,而 DeepSeek-V3.1 在这方面取得了巨大进步。
在多个权威的智能体评测基准中,V3.1 的性能实现了对前序版本的全面超越:
- SWE-bench:一个专注于测试智能体完成真实世界软件开发任务能力的基准。
- TerminalBench:一个侧重于评估在命令行环境中编程任务能力的基准。
此外,模型在搜索智能体(Search Agent)能力上也获得了飞跃式提升。
这意味着什么?
大模型是智能体的“大脑”。一个更具“智能体化”(Agentic)的大模型,能更好地与智能体的其他模块(如工具调用、记忆等)协同工作。DeepSeek-V3.1 的进步意味着:
- 开发者可以更轻松地构建功能更强大、更可靠的 Agent。
- 智能体能更快地理解用户意图、诊断问题并生成解决方案,减少了与用户之间冗长的“来回确认”过程。
实战演练:接入 Claude Code 智能体修复代码
接下来,我们通过一个实战案例,体验 DeepSeek-V3.1 强大的编程智能体能力。官方提到它可以轻松接入 Claude Code 智能体,我们来完整实践一遍。
第一步:安装 Claude Code 智能体
打开终端(命令行窗口),执行以下命令全局安装:
npm install -g @anthropic-ai/claude-code
第二步:配置环境变量
配置环境变量,将请求指向 DeepSeek API,并设置你的 API 密钥。
export ANTHROPIC_BASE_URL=
export ANTHROPIC_AUTH_TOKEN=你的DEEPSEEK_API_KEY
export ANTHROPIC_MODEL=deepseek-chat
export ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat
注意:请将 你的DEEPSEEK_API_KEY
替换为你自己的 DeepSeek API 密钥。
第三步:启动并使用智能体
- 在终端中,进入你的项目代码所在的目录。
- 直接输入
claude
命令启动编程智能体。 - 向智能体提出修复代码 bug 的请求。例如,让它分析当前目录下的
test.py
文件。
智能体会自动读取并分析本地文件,迅速定位出 bug 所在的位置。
,授权它修改代码文件。 - 智能体会立即完成代码修复。
- 你可以在智能体交互界面中直接运行代码进行验证,例如输入
python test.py
。
![](
此时,再次从本地磁盘打开 test.py
文件,会发现 bug 已经被完美修复。整个过程行云流水,无需手动打开、编辑或保存任何文件。
总结
DeepSeek-V3.1 的发布是开源大模型领域的一个重要里程碑。它不仅在编程能力上达到了新的高度,其核心的“思维链压缩”技术也为模型效率与质量的平衡提供了新的解决思路。
通过实战测试,我们看到 V3.1 强大的智能体能力已经能够无缝融入开发工作流,实现代码的自动分析、定位和修复。这预示着一个由 AI 智能体驱动、人人都能高效编程的新时代正在加速到来。
👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API:
- 购买 / 了解更多:ai4.plus
- 备用入口:kk4099.com