本研究旨在评估定制化 GPT-4 模型在医学文献数据提取与评估方面的性能,探索其在系统综述(Systematic Review, SR)流程中的辅助应用潜力。

研究设计

本研究采用概念验证性比较研究方法,将定制化 GPT-4 模型的表现与人类专家对随机对照试验(Randomized Controlled Trials, RCTs)的审查结果进行对比。

定制化 GPT-4 模型

研究团队开发了四个专门的 GPT-4 模型,各自负责系统综述流程中的一个特定环节:

  1. 研究特征提取模型:负责从文献中提取研究的基本特征,如参与者信息、干预措施等。
  2. 研究结局提取模型:负责提取研究的关键结果数据。
  3. 偏倚评估域提取模型:负责识别和提取用于偏倚风险评估的相关信息。
  4. 偏倚风险评估模型:基于模型 3 提取的结果,对研究的偏倚风险进行评估。

对比与评估方法

我们将模型的输出结果与四份已发表的、由人类作者完成的系统综述数据进行比较。评估重点包括:

  • 数据提取的准确性
  • 研究结局复现的精确度
  • 偏倚风险评估的一致性水平

研究共选取了 43 项研究用于数据提取评估,并额外选取了 17 项随机对照试验用于偏倚风险评估的比较。

核心评估指标

  • 数据提取一致率:比较 GPT-4 与人类专家在提取数据方面的吻合程度。
  • 效应量可比性:比较 GPT-4 提取数据后计算出的效应量与人类综述的差异。
  • 偏倚风险评估的信度:通过评估者内部(intra-rater)和评估者之间(inter-rater)的一致性来衡量评估结果的可靠性。

研究结果

研究特征提取

在与已发表综述中的研究特征表进行比较时,GPT-4 的提取结果与原文的一致率达到了 88.6%

  • 由模型不准确或遗漏导致的差异低于 5%。
  • 在 2.5% 的情况下,GPT-4 的准确性甚至超过了人类专家。

研究结局提取与分析

模型成功提取了研究的结局数据。基于这些数据进行的汇总分析显示,其效应量与人类专家进行的系统综述结果相当。

偏倚风险评估

偏倚风险评估的一致性分析揭示了以下几点:

  • 模型内部一致性:GPT-4 自身的评估结果具有良好至中等程度的一致性,且在统计学上显著(ICC=0.518, p<0.001)。
  • 模型与人类的一致性
    • 与一份人类系统综述相比,加权 kappa 值为 0.237(轻度一致)。
    • 与另一份类似的系统综述相比,加权 kappa 值为 0.296(轻度一致)。
  • 人类之间的一致性:作为对比,两份由不同人类专家完成的系统综述之间的一致性非常低(加权 kappa = 0.094)。

这一结果表明,GPT-4 在偏倚风险评估方面的一致性表现,可能优于人类专家之间的表现。

结论

定制化的 GPT-4 模型在从医学文献中精确提取数据方面表现出色,并在偏倚风险评估领域展现出巨大的应用潜力。

尽管本次评估的任务仅涵盖了系统综述方法论中相对简单的部分,但它为理解 GPT-4 在这一复杂领域的应用能力提供了重要的初步证据。随着技术的进一步发展,人工智能有望成为系统综述流程中一个强大而可靠的辅助工具。


👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API