自2022年首个成功的AI聊天机器人问世以来,这项技术如同一场科技地震,其影响力堪比互联网和智能手机的诞生。如今,AI聊天机器人已深度融入我们的工作与生活,在辅助写作、编程、教育等领域展现出巨大潜力。

本次评测聚焦于市面上最主流的八款免费AI聊天机器人:ChatGPT、Copilot、Grok、Gemini、Perplexity、Claude、DeepSeek 和 Meta AI。我们通过一系列严苛的实际测试,旨在帮助你找到最适合自己需求的那一款。

评测结果显示,免费AI聊天机器人的能力已远超以往,其中 ChatGPT、Copilot 和 Grok 在综合性能上名列前茅。特别是在图像生成和故事创作方面,免费工具的表现已能与部分付费AI相媲美。

评测方法与标准

为了提供最实用的参考,我们摒弃了单纯罗列模型名称和技术规格的做法,转而设计了一套贴近真实世界应用场景的测试方案。我们对每个聊天机器人的免费版本进行了总计112项独立测试,以检验它们在不同任务下的实际表现。

AI公司向免费用户提供的模型资源可能随时变化,就像餐厅的“每日例汤”,配方并不固定。因此,我们的测试着重于结果的质量,而非底层具体的模型版本。

所有测试分为文本和图像两大类,总分为120分。

文本生成测试 (满分100分)

我们设计了10个基于文本的测试提示,涵盖了以下方面:

  • 信息获取与总结:访问并总结一篇关于流感的网络新闻。
  • 概念解释:向一个五岁的孩子解释一个学术概念。
  • 数学与分析:处理数学计算与数据分析问题。
  • 文化探讨:结合背景知识讨论文化现象。
  • 文学分析:对文学作品进行简要分析。
  • 旅行规划:制定一份详细的旅行计划。
  • 情感支持:提供情感上的安慰与建议。
  • 翻译与文化关联:翻译文本并解释其文化背景。
  • 代码编写:完成一个基础的编程任务。
  • 长文创作:撰写一篇1500词的长篇故事。

图像生成测试 (满分20分)

我们要求聊天机器人生成四张不同主题的图片:

  • 一艘在空中飞行的航空母舰。
  • 一个巨大的机器人。
  • 一位身处中世纪宫廷的年轻棒球手。
  • 一幅向电影《回到未来》致敬的作品。

测试中的主要发现

在数小时的密集测试中,我们得到了一些令人惊喜的发现:

  1. 免费产品的强大功能:AI服务商为免费用户提供了极高的价值。在连续执行10个提示的过程中,我们几乎没有遇到任何性能限制或节流。
  2. 低门槛使用:许多AI聊天机器人在不创建账户或登录的情况下,就允许用户使用大部分核心功能,非常便捷。
  3. 响应质量普遍提升:与以往的评测相比,所有参评机器人的回答质量都有了显著提高。即使是排名靠后的产品,其表现也远超预期。

接下来,我们将详细介绍本次评测的冠军。

评测冠军:OpenAI ChatGPT

作为AI聊天机器人领域的开创者,ChatGPT自发布以来不断创新,其免费版本的功能依然强大。凭借庞大的用户基础和丰富的学习资源,它成为了许多人的首选。

  • 总分:109 / 120
  • 文本得分:91 / 100
  • 图像得分:18 / 20

强项表现

在我们的测试中,ChatGPT在多个文本任务上表现完美,包括向儿童解释概念、数学分析、文化讨论、文学分析和翻译。

  • 旅行规划:它不仅规划了合理的旅行路线,还为每天的行程配上了图片,并贴心地给出了针对三月份东北部地区天气的着装建议。
  • 代码编写:成功通过了我们的基础编程测试。
  • 图像生成:生成的图片质量很高。在《回到未来》主题测试中,它准确地呈现了电影的Logo、德罗宁汽车以及一个手持滑板的少年。

不足之处

  • 网页信息获取:在总结一篇雅虎新闻的文章时,ChatGPT意外地访问了雅虎的台湾新闻门户,并用繁体中文给出了结果,这可能是由于在无痕窗口下未登录账号所致。
  • 长文创作:未能达到要求的1500词,并且文章结构更像一个带有标题的大纲,而非一篇完整的故事。

付费版本

ChatGPT提供更高级的付费方案以满足不同用户的需求:

  • Plus Plan:20美元/月,提供更强大的模型和更快的响应速度。
  • Pro Plan:200美元/月,为重度用户和开发者提供更高的资源配额和高级功能。

优缺点总结

优点:

  • 强大的图像生成能力
  • 代码生成结果出色
  • 拥有庞大的生态系统和丰富的学习资源

缺点:

  • 频繁提示用户登录,对体验有一定影响
  • 在网页查询任务中偶尔出现语言错误

👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API