本文旨在通过一个具体的编程任务,横向评测当前顶尖 AI 大模型的代码生成与问题解决能力。我们要求多个主流 AI 模型完成一个带有自动寻路功能的 HTML 贪吃蛇游戏,并根据其最终实现效果和得分进行比较。

评测任务

为了保证公平性,所有参与评测的 AI 模型都收到了完全相同的指令:

请生成一个 HTML 版本的贪吃蛇游戏,具体要求如下:

  1. 画布大小:20x20 的标准网格。
  2. 核心功能:实现自动寻路算法,让蛇能够智能地寻找食物以获得尽可能高的分数。可以考虑结合多种算法。
  3. 运行方式:游戏启动后,蛇应立即开始自动移动和吃食物。
  4. 计分与展示:每吃掉一个食物得 1 分,分数需在游戏界面右上角实时显示。
  5. 游戏结束:游戏结束后,自动停止运行并最终展示得分。
  6. 技术细节:重点关注寻路算法的设计,并使用 requestAnimationFrame 来驱动蛇的移动。

参赛模型

本次评测挑选了以下几款备受关注的 AI 模型:

  • GPT-5-Thinking
  • Gemini 2.5 Pro
  • Grok4
  • Claude Sonnet 4
  • DeepSeek-V3.1 (思考模式)
  • Kimi-K2
  • Qwen3-235B-A22B-2507 (思考模式)
  • Qwen3-Coder

各模型表现与分析

以下是各个模型在单次生成与运行后的表现,按最终得分降序排列。

Qwen3-235B-A22B-2507 (思考模式)

  • 最终得分:80分
  • 所用算法:广度优先搜索 (BFS)
  • 简评:在本次评测中获得最高分。代码实现了有效的寻路逻辑,但存在一个 UI Bug,导致游戏区域的第 20 列格子被遮挡,未能完全显示。

Grok4

  • 最终得分:79分
  • 所用算法:A* 算法
  • 简评:表现非常出色,得分紧随其后。其生成的代码最为简洁,没有任何多余的解释说明,直接输出了可运行的代码。

Qwen3-Coder

  • 最终得分:67分
  • 所用算法:A* 算法
  • 简评:作为专为代码优化的模型,表现稳健。同样采用了经典的 A* 算法,取得了不错的成绩。

DeepSeek-V3.1 (思考模式)

  • 最终得分:53分
  • 所用算法:广度优先搜索 (BFS)
  • 简评:同样使用了 BFS 算法。但其生成的代码存在一个 Bug,每次刷新后有一定概率在地图上同时生成两个食物,这是其他模型未出现的情况。

Claude Sonnet 4

  • 最终得分:52分
  • 所用算法:A* 算法 + 哈密顿路径
  • 简评:结合了两种寻路策略,试图在全局路径和局部最优解之间取得平衡,但最终得分中等。

GPT-5-Thinking

  • 最终得分:40分
  • 所用算法:A* 算法 + 广度优先搜索 (BFS)
  • 简评:结合了 A* 和 BFS 两种算法,但实际得分并不突出,表现中规中矩。

Gemini 2.5 Pro

  • 最终得分:2分
  • 所用算法:环形回路
  • 简评:采用了一种非常独特的策略,即让蛇沿着预设的环形路径移动来覆盖整个地图。理论上这种方法可以吃完所有食物,但在实践中效率极低,运行了很长时间才得到 2 分。

Kimi-K2

  • 最终得分:2分
  • 所用算法:A* 算法 + 哈密顿路径 + 贪心算法
  • 简评:尝试融合多种算法,但生成的代码较为混乱,即使经过手动修复和拼接后,运行效果依然不佳,最终得分很低。

综合排名与总结

排名 模型名称 最终得分 主要算法 备注
1 Qwen3-235B (思考模式) 80 BFS 存在 UI Bug
2 Grok4 79 A* 代码最简洁
3 Qwen3-Coder 67 A* 表现稳健
4 DeepSeek-V3.1 (思考模式) 53 BFS 存在食物生成 Bug
5 Claude Sonnet 4 52 A* + 哈密顿路径 -
6 GPT-5-Thinking 40 A* + BFS -
7 Gemini 2.5 Pro 2 环形回路 策略效率低下
8 Kimi-K2 2 A* + 哈密顿路径 + 贪心 代码质量较差

从本次评测结果来看,Qwen3-235B 和 Grok4 在解决这个具体的算法和工程问题上表现最为出色。大部分模型都倾向于使用 A* 或 BFS 这类经典的寻路算法,而 Gemini 2.5 Pro 的环形回路策略则是一个有趣的例外。

需要强调的是,本次评测的结果仅基于单次代码生成和运行,并未进行多次测试以消除随机性。大语言模型输出的不确定性以及游戏本身食物生成的随机性都可能影响最终得分。因此,以上结果仅供参考和娱乐。


👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API