Gastroenterology:ChatGPT回答关于结肠镜检查的常见问题

时间:2023-05-13 20:45:42   热度:37.1℃   作者:网络

ChatGPT(OpenAI)是一个1750亿个参数的大型语言模型(LLM)人工智能(AI),于2022年11月发布。ChatGPT是基于生成预训练的Transformer(GPT)-3.5自然语言处理技术开发的,并提供对给定提示的会话文本响应。

ChatGPT的一个潜在应用是回答病人的医疗问题。在美国,每年有超过7000万例手术,筛查结肠镜检查经常是胃肠病学问题的主题。2023年4月30日发表在Gastroenterology的文章,检查了ChatGPT生成的关于结肠镜检查的常见问题(CQs)答案的质量。

检测人工智能生成的答案的准确性

研究人员从《美国新闻与世界报道》胃肠病学和胃肠外科最佳医院排名前20位的三家医院的公开网页中随机抽取了关于结肠镜检查的8个CQs和答案。在同一天两次将这些问题作为ChatGPT(2023年1月30日版本)的提示输入,并将ChatGPT生成的答案分别记录为AI1和AI2。使用抄袭检测软件比较了所有答案的文本相似度。为了客观地解释ChatGPT生成的答案的质量,四名胃肠病学家(两名高级胃肠病学家,两名研究员)对随机显示的36对cq和答案进行了7点李克特量表的以下质量指标评分:(1)易于理解,(2)科学充足性,(3)对答案的满意度(表1)。

研究结果显示,与医院网页上的答案相比,ChatGPT答案的文本相似性极低(0%至16%),而两个ChatGPT答案之间的文本相似性范围为28%至77%,除了第7个CQ。胃肠病学家对ChatGPT答案的评价与非AI答案的理解程度相似(AI 5.0 - 6.4 vs非AI 4.8 - 5.8, P均>0.00089进行56次多次比较Bonferroni调整后的比较均值),人工智能平均得分高于非人工智能得分。科学充分性得分也相似(63%的时间为AI 5.4)。人工智能和非人工智能的答案在回答的满意度方面得到了相似的评级(人工智能4.9 - 6.3 vs非人工智能4.8 - 5.8,无显著性)。

评分者在识别人工智能生成的答案时只有48%的准确率,灵敏度为41%,特异性为54%。三个评分员的准确率低于50%,而一个(一个家伙)的准确率为81%。

然而,ChatGPT存在一定的隐患。首先,ChatGPT生成的MI不是基于临床证据构建的,而是通过在各种互联网文本上训练的LLM通过人类反馈进行强化学习而创建的。LLM输出可能很敏感,容易受到提示工程的影响,即输入提示的细微变化所操纵,性能的一致性可能处于“不断变化的状态”。因此,在技术和格式方面,LLM在负责任的临床护理中的应用仍然存在很大差距。内隐偏见是另一个问题,因为有或没有资源的患者的临床效用可能不同。此外,使用有效的阅读水平指标(Flesch-Kincaid Grade Level;射击雾指数)显示,人工智能生成的答案的阅读水平明显高于医院网页(P <0.001),远远超过建议的八年级阈值。

这项研究有几个局限性。首先,研究人员没有包括患者评分者,最终将提供结肠镜检查准备答案的群体。在本研究中,研究人员旨在通过医学专业人士的视角对人工智能产生的心梗进行初步批判。未来的研究应该探索对更广泛的问题样本和临床条件的反应,以及纳入患者评分者。其次,医院网页和评分者的数量都很少,限制了广泛的推广。最后,随机选择的一线医院的网页可能不全面。

这项研究表明,对话式人工智能程序在优化患者和医疗服务提供者之间的沟通方面具有潜在作用,尤其是在结肠镜检查等大容量手术中。尽管评级相似,但人工智能和非人工智能答案之间,以及两个人工智能答案之间几乎没有重叠或抄袭(表S1),这表明ChatGPT固有的避免抄袭的设计,以及ChatGPT为同一问题创造独特答案的能力。

 

原文出处

Lee TC, Staller K, Botoman V, Pathipati MP, Varma S, Kuo B. ChatGPT Answers Common Patient Questions About Colonoscopy. Gastroenterology. 2023 May 5:S0016-5085(23)00704-7. doi: 10.1053/j.gastro.2023.04.033. 

上一篇: Science:饥饿感本身就足以延缓衰老

下一篇: Gastroenterology:结直肠...


 本站广告