Rheumatol Int:人工智能是否已经具备替代经验丰富的风湿病学专家的能力?
时间:2024-08-17 10:00:44 热度:37.1℃ 作者:网络
风湿病的复杂性使得个体化治疗方案的制定对临床医生来说充满挑战。近年来,随着人工智能技术的发展,大型语言模型(LLMs)如ChatGPT逐渐显示出在医疗决策支持中的潜力。本研究旨在比较由ChatGPT-3.5、GPT-4以及风湿病学专家委员会(RB)生成的治疗方案,以评估其在安全性、指南依从性、医学适宜性、整体质量以及逻辑性等方面的表现。
本研究设计了20个涵盖不同风湿性疾病的虚拟病例,包括类风湿性关节炎、脊柱关节炎、混合性结缔组织病和血管炎等。通过标准化提示,分别向GPT-3.5、GPT-4和风湿病学专家委员会(RB)提问,生成相应的初始治疗方案和后续治疗方案,并提供相应的治疗理由。随后,四位来自不同风湿病学中心的资深风湿病学家,对这些治疗方案进行了盲评,使用5分Likert量表评估方案的安全性、指南依从性、医学适宜性、整体质量、逻辑性和完整性,并选择其整体偏好的治疗方案。数据分析采用Kruskal-Wallis检验、Spearman相关分析以及Fleiss' kappa检验等统计方法。
在160次评分中,风湿病学专家委员会(RB)生成的治疗方案在68.8%(110/160)次评分中被评为最佳选择,而GPT-4和GPT-3.5分别为16.3%(26/160)和15.0%(24/160)。GPT-4在初始治疗方案中表现优于GPT-3.5(13.8% vs 7.5%)。在所有评估维度中,RB生成的方案在指南依从性、医学适宜性、整体质量、逻辑性和完整性上显著优于GPT-3.5和GPT-4。在安全性方面,GPT-4的初始治疗方案与RB的方案无显著差异。进一步分析显示,LLMs生成的治疗方案在字符数上明显长于RB,且更为详尽。
治疗计划偏好(总治疗计划偏好显示在条形图中。 B 该表显示了各种决策,并针对个别案例的插图和评估者进行了颜色编码。 C 堆叠条形图显示了多数赞成 (LLM > RB) 或反对 (RB > LLM) LLM(GPT-3.5 和 GPT-4)的案例插图数量,以及导致平局的案例数量)
本研究表明,尽管ChatGPT-4和GPT-3.5能够生成安全且高质量的风湿病治疗方案,但它们在个体化决策和临床判断上仍无法替代风湿病学专家的角色。GPT-4在一定程度上展示了在医疗决策支持中的潜力,但其表现仍不及人类专家。
原始出处:
Vignette-based comparative analysis of ChatGPT and specialist treatment decisions for rheumatic patients: results of the Rheum2Guide study. Rheumatol Int (2024). https://doi.org/10.1007/s00296-024-05675-5