JAMA Dermatol:从非标准化的互联网临床照片中汇聚黑色素瘤与痣的数据宝库
时间:2023-11-24 07:27:22 热度:37.1℃ 作者:网络
目前使用卷积神经网络(CNNs)的人工智能(AI)算法可以对皮肤损伤图像进行分类,其准确性与获得认证的皮肤科医生相似。用于诊断皮肤图像的AI训练需要大量干净的数据。然而,皮肤图像具有不同的成分,而且由于隐私问题,许多图像无法访问,这阻碍了AI的发展。
JAMA Dermatology 最新的一篇研究报告,研究者从互联网上黑色素瘤和痣的非标准化图像中建立了一个用于识别和生成的AI训练数据集。
在这项诊断性研究中,总共从大约50万张互联网照片中使用卷积神经网络(CNNs)、基于区域的CNNs和大面积遮罩修复技术对5619张(CAN5600数据集)和2006张(CAN2000数据集;CAN5600的手动修订子集)黑色素瘤或痣的裁剪病变图像进行了半自动标注。为进行无监督的预训练,收集了来自全球80个国家约18,482个网站的图像,创建了132,673个可能的病变图像(LESION130k数据集),以便增强数据的多样性。使用生成对抗网络(StyleGAN2-ADA;训练数据集为CAN2000数据集,预训练数据集为LESION130k数据集)生成了共5000个合成图像(GAN5000数据集)。随后,在建议的数据集上训练CNN(EfficientNet Lite0)。使用合并后的公共数据集中的2,312张图像训练相同的CNN(包括Edinburgh, an SNU subset, Asan test, Waterloo, 7-point criteria evaluation, PAD-UFES-20, and MED-NODE)。采用受试者工作特征曲线下面积(AUROC)评估AI模型的性能。
在标注或合成图像上训练的EfficientNet Lite0 CNN与公共数据集训练的EfficientNet Lite0具有更高或相当的AUROC,CAN5600 (0.874 [0.042];P = 0.02)、CAN2000 (0.848 [0.027];P =0.08)和GAN5000 (0.838 [0.040];P = 0.31)和现有数据集(0.809[0.063])。
综上, 本诊断研究中的合成数据集是使用各种AI技术从互联网图像创建的。在创建的数据集(CAN5600)上训练的神经网络比在预先存在的数据集上训练的神经网络表现更好。标注数据集(CAN5600和LESION130k)和合成数据集(GAN5000)都可以用于AI训练,并在医生之间形成共识。
原始出处:
Cho SI, Navarrete-Dechent C, Daneshjou R, et al. Generation of a Melanoma and Nevus Data Set From Unstandardized Clinical Photographs on the Internet. JAMA Dermatol. 2023;159(11):1223-1231. doi:10.1001/jamadermatol.2023.3521