本研究旨在评估定制化 GPT-4 模型在医学文献数据提取与评估方面的性能,探索其在系统综述(Systematic Review, SR)流程中的辅助应用潜力。
研究设计
本研究采用概念验证性比较研究方法,将定制化 GPT-4 模型的表现与人类专家对随机对照试验(Randomized Controlled Trials, RCTs)的审查结果进行对比。
定制化 GPT-4 模型
研究团队开发了四个专门的 GPT-4 模型,各自负责系统综述流程中的一个特定环节:
- 研究特征提取模型:负责从文献中提取研究的基本特征,如参与者信息、干预措施等。
- 研究结局提取模型:负责提取研究的关键结果数据。
- 偏倚评估域提取模型:负责识别和提取用于偏倚风险评估的相关信息。
- 偏倚风险评估模型:基于模型 3 提取的结果,对研究的偏倚风险进行评估。
对比与评估方法
我们将模型的输出结果与四份已发表的、由人类作者完成的系统综述数据进行比较。评估重点包括:
- 数据提取的准确性
- 研究结局复现的精确度
- 偏倚风险评估的一致性水平
研究共选取了 43 项研究用于数据提取评估,并额外选取了 17 项随机对照试验用于偏倚风险评估的比较。
核心评估指标
- 数据提取一致率:比较 GPT-4 与人类专家在提取数据方面的吻合程度。
- 效应量可比性:比较 GPT-4 提取数据后计算出的效应量与人类综述的差异。
- 偏倚风险评估的信度:通过评估者内部(intra-rater)和评估者之间(inter-rater)的一致性来衡量评估结果的可靠性。
研究结果
研究特征提取
在与已发表综述中的研究特征表进行比较时,GPT-4 的提取结果与原文的一致率达到了 88.6%。
- 由模型不准确或遗漏导致的差异低于 5%。
- 在 2.5% 的情况下,GPT-4 的准确性甚至超过了人类专家。
研究结局提取与分析
模型成功提取了研究的结局数据。基于这些数据进行的汇总分析显示,其效应量与人类专家进行的系统综述结果相当。
偏倚风险评估
偏倚风险评估的一致性分析揭示了以下几点:
- 模型内部一致性:GPT-4 自身的评估结果具有良好至中等程度的一致性,且在统计学上显著(ICC=0.518, p<0.001)。
- 模型与人类的一致性:
- 与一份人类系统综述相比,加权 kappa 值为 0.237(轻度一致)。
- 与另一份类似的系统综述相比,加权 kappa 值为 0.296(轻度一致)。
- 人类之间的一致性:作为对比,两份由不同人类专家完成的系统综述之间的一致性非常低(加权 kappa = 0.094)。
这一结果表明,GPT-4 在偏倚风险评估方面的一致性表现,可能优于人类专家之间的表现。
结论
定制化的 GPT-4 模型在从医学文献中精确提取数据方面表现出色,并在偏倚风险评估领域展现出巨大的应用潜力。
尽管本次评估的任务仅涵盖了系统综述方法论中相对简单的部分,但它为理解 GPT-4 在这一复杂领域的应用能力提供了重要的初步证据。随着技术的进一步发展,人工智能有望成为系统综述流程中一个强大而可靠的辅助工具。
👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API:
- 购买 / 了解更多:ai4.plus
- 备用入口:kk4099.com