Radiology:使用较少数据的胸片模型的简化转移学习
时间:2023-01-15 18:02:15 热度:37.1℃ 作者:网络
据统计,全世界每年约有8.37亿张胸片用于检测、诊断和管理心胸疾病;在世界许多地方,胸片检查也比CT更容易获得。现阶段,人们在开发深度学习模型以检测胸部放射成像异常方面投入了大量精力。然而,模型开发的核心挑战包括需要极其庞大的、有标签的训练数据集以及对不同人群和机构进行归纳的能力。
转移学习是一种机器学习方法,将在一项任务上训练的模型重新用于不同但相关的任务,可以减少对大型数据集的需求。一个常见的迁移学习工作流程包括首先在一个通用的源任务上预训练一个深度学习模型(通常使用大型非医疗数据集),然后在一个特定的目标医疗任务上完善该模型(使用医疗数据集)。
近日,发表在Radiology杂志的一项研究通过使用先进的机器学习方法(监督对比[SupCon]学习)来生成胸片网络,以减少胸片深度学习模型的数据集大小要求,为进一步的相关研究开辟了道路。
SupCon从印度和美国的821544张胸部X光片中生成胸部X光片网络。胸部X光片网络被用作进一步机器学习模型开发的起点,通过使用由来自印度、美国和中国的684955张胸部X光片组成的五个数据集,进行10项预测任务(例如,GGO、骨折、肺结核和COVID-19表现)。测试了三种模型开发设置(线性分类器、非线性分类器和微调全网络),数据集大小从8到85个不等。
在大多数任务中,与来自非医疗数据集的迁移学习相比,SupCon将标签要求降低了688倍,并在匹配的数据集规模下提高了接受者操作特征曲线(AUC)的面积。在极端的低数据方案下,只用45张胸片来训练小型非线性模型,在外部验证中对微生物学证实的肺结核进行分类时,AUC达到了0.95(不逊于放射科医生的表现)。在一个更适度的数据方案中,通过仅使用528张胸片训练小型非线性模型,在预测严重的COVID-19结果方面产生了0.75的AUC。
图 图表显示了在CheXpert数据集中使用我们的三步训练设置中的胸部放射学网络与非线性分类器对特定任务结果的影响。实线和虚线表示原始CheXpert模型(Irvin等人[27])在所有可用训练数据(224 000张图像)上的表现;在1%和10%的训练集上训练的非线性模型(数据点在84和85)的接受者操作特征曲线下的面积接近原始CheXpert模型在无肺气肿、心脏肿大、胸腔积液和肺水肿方面的表现
本项研究结果表明,对可扩展的可提取的噪声标签进行预训练,可使我们能够提供可概括的嵌入,并在广泛的数据集和预测任务中大幅提高预测性能。本项研究开启了在较小的数据集上或在数据稀缺的情况下快速训练胸片模型的能力。
原文出处:
Andrew B Sellergren,Christina Chen,Zaid Nabulsi,et al.Simplified Transfer Learning for Chest Radiography Models Using Less Data.DOI:10.1148/radiol.212482