GPT-4 在系统综述中的应用：数据提取、分析与偏倚风险评估的实证研究

本研究旨在评估定制化 GPT-4 模型在医学文献数据提取与评估方面的性能，探索其在系统综述（Systematic Review, SR）流程中的辅助应用潜力。

研究设计

本研究采用概念验证性比较研究方法，将定制化 GPT-4 模型的表现与人类专家对随机对照试验（Randomized Controlled Trials, RCTs）的审查结果进行对比。

研究团队开发了四个专门的 GPT-4 模型，各自负责系统综述流程中的一个特定环节：

我们将模型的输出结果与四份已发表的、由人类作者完成的系统综述数据进行比较。评估重点包括：

研究共选取了 43 项研究用于数据提取评估，并额外选取了 17 项随机对照试验用于偏倚风险评估的比较。

在与已发表综述中的研究特征表进行比较时，GPT-4 的提取结果与原文的一致率达到了 88.6%。

模型成功提取了研究的结局数据。基于这些数据进行的汇总分析显示，其效应量与人类专家进行的系统综述结果相当。

偏倚风险评估的一致性分析揭示了以下几点：

模型内部一致性：GPT-4 自身的评估结果具有良好至中等程度的一致性，且在统计学上显著（ICC=0.518, p<0.001）。
模型与人类的一致性：
- 与一份人类系统综述相比，加权 kappa 值为 0.237（轻度一致）。
- 与另一份类似的系统综述相比，加权 kappa 值为 0.296（轻度一致）。
人类之间的一致性：作为对比，两份由不同人类专家完成的系统综述之间的一致性非常低（加权 kappa = 0.094）。

这一结果表明，GPT-4 在偏倚风险评估方面的一致性表现，可能优于人类专家之间的表现。

定制化的 GPT-4 模型在从医学文献中精确提取数据方面表现出色，并在偏倚风险评估领域展现出巨大的应用潜力。

尽管本次评估的任务仅涵盖了系统综述方法论中相对简单的部分，但它为理解 GPT-4 在这一复杂领域的应用能力提供了重要的初步证据。随着技术的进一步发展，人工智能有望成为系统综述流程中一个强大而可靠的辅助工具。

👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API：