智能医学图像计算江苏高校重点实验室(IMIC)蔡程飞博士的论文《IBDAIM:用于辅助炎症性肠病综合诊断的肠道活检病理图像人工智能分析方法(IBDAIM: Artificial intelligence for analyzing intestinal biopsies pathological images for assisted integrated diagnostic of inflammatory bowel disease)》被期刊International Journal of Medical Informatics录用。该成果是IMIC实验室(徐军教授团队)与南京大学医学院附属鼓楼医院病理科(孙琦主任团队)医工交叉合作的最新研究成果,为炎症性肠病的辅助诊断提供了新的AI解决方案。当前计算病理领域的研究在肿瘤病理领域的研究取得了显著进展,但在非肿瘤性病变(尤其是炎症性病变)的研究仍存在明显不足,尤其是肠道炎症性病变的识别与检测面临诸多挑战。
研究背景
炎症性肠病(Inflammatory Bowel Disease, IBD)是一种慢性的胃肠道疾病,其发病机制尚不明确,它主要的亚型包括克罗恩病(Crohn’s Disease, CD)和溃疡性结肠炎(Ulcerative Colitis, UC)。IBD可以发生在任何年龄,但主要累及青壮年,临床表现差异大,缺乏特异性治疗手段,病程迁延不愈,并发症发生率高,给患者及其家庭和社会带来沉重的经济负担。近年来,IBD发病率有明显升高的趋势已成为日常临床工作中不容忽视的问题。其症状包括腹痛、腹泻、直肠出血、厌食和疲劳,这显着影响患者的生活质量。尽管UC和CD有许多共同的症状,但是由于治疗策略,结局预测、综合评价和临床护理的差异,因此鉴别诊断具有重要的临床意义。目前IBD的临床表现复杂,误诊率高。准确诊断需依赖于临川表现、内镜检查、组织学诊断、实验室检查和影像学检查相结合。因此,IBD的精准诊断是治疗的先决条件和基础,IBD的辅助诊断可以减小不同病理学家诊断之间的差异性。
组织学检查是确保许多疾病准确诊断和适当治疗的重要组成部分。在常规实践中,它包括对组织中关键组织学和细胞模式的视觉评估,这是了解各种疾病状态的重要步骤。病理检查在IBD患者的诊断、治疗和随访监测中起着至关重要的作用。病理检查也已在全球医疗机构中得到广泛应用,但IBD的诊断缺乏高水的病理学家。病理学家资源分布不均匀,导致基础医疗机构在诊断IBD方面面临一定的困难。当前病理学家的诊断水平参差不齐,可能会导致病理检查的结果漏检或者误检,延误治疗。将非典型检测为病变,这不仅增加患者的成本,还增加了疾病进展的风险。因此,在病理诊断中,如何减少假阳性,提高病理学家的IBD病理诊断水平是当前迫切需要解决的问题。通过高灵敏度的人工智能辅助系统或许是解决当前问题最好的方式。先进的人工智能辅助系统将提高诊断准确性和效率,助力精准化诊疗,提高患者的生活质量。
研究方法
针对肠道活检病理图像的炎症类型诊断问题,本文提出了一个多阶段特征信息有效融合的辅助诊断范式,旨在区分无异常活检和炎症性活检类型,协助组织病理学检查,以改善病理医生的诊断水平。本文提出的方法在两个中心的数据集进行验证,证明本文所提出的基于炎症性肠病活检病理图像诊断模型(IBDAIM)可以用于正常肠道活检的筛查,以及主要IBD类型的诊断。通过使用内部数据集队列和交叉验证方法训练模型,然后使用内部、外部验证队列来验证模型的诊断准确性,使用科学的评估方式公平的评估模型对病理医生诊断结果的提升。
本文所构建的诊断模型是一个辅助病理医生诊断的弱监督学习模型,主要过程分为环节:图像块级别预测和全景切片(WSI)级别预测。本文首先将活检WSI分割成小的图像块预测。随后利用多示例学习(MIL)算法来融合图像块特征,从而得到WSI级别的预测。具体来说:主要有以下四个部分。(1)图像块级别的诊断模型训练:本文提出炎症性肠病炎症类型综合诊断模型是一个三分类问题,其中每个WSI都被分为其中的一种类型如正常肠组织,UC,或者CD。本文所提出的模型是通过训练深度卷积神经网络,用于在训练队列中训练WSI中的图像块的三类分类。本文也相似的构建了二分类的模型即正常大肠组织与IBD的诊断模型,以及UC与CD的诊断模型。这将便于评估本文的诊断模型性能与病理医生之间的差异以及量化模型辅助病理医生诊断的增益。;(2)基于多实例学习的WSI融合:图像块级别的预测模型对所有图像块进行了标签预测和概率计算。本文使用MIL方法将这些图像块的概率聚合起来,从而训练分类器生成了WSI级别的预测。为了收集图像块的似然概率,本文采用了两种不同的机器学习方法,分别是图像块似然直方图(Patch Likelihood Histogram, PLH)和词袋(Bag of Words, BoW)策略。通过使用这两个独立的管道,本文有效地将分散的图像块级别预测结果融合,生成WSI级别的特征,这些特征用于后续的分析操作。(3)特征选择和分类器:由于获取的特征维度较高,因此,直接训练分类器会导致计算复杂度增加存在过拟合风险、模型泛化性差以及降低模型的可解释性。本文使用皮尔逊相关系数进行特征相关系数的评价,然后选择相关系数较高的特征进行聚类分析。过滤出相关特征后,使用LASSO回归模型进行特征选择,其优化的目标是最小化损失函数与 范数惩罚项的总和。在最终预测本文使用的机器学习算法模型实现鉴别诊断,同时本文使用多个分类算法进行对比(4)模型辅助病理医生诊断的结果增益:对于内部测试集和外部测试集,病理医生进行两轮的诊断,以量化病理科医生通过IBDAIM模型的帮助实际获得的临床益处。5名平均具有7年肠道病理诊断经验(2-15年)的病理科医生参与了本文的研究。对于内部测试集和外部测试集病理医生在进行诊断时是随机呈现的。
实验设计
本研究从南京大学医学院附属鼓楼医院(NDTH)收集了2014年到2023年的543个组织样本。每个样本被制成多个连续切片,放在同一载玻片上,并使用H&E染色。由于连续切片之间的相似性较高,本研究使用连续的样本作为WSI,以防止在随机生成模型集和内部测试集时出现数据重叠。本研究使用来自NDTH的活检数据作为模型训练集。由于H&E染色褪色和扫描不清,剔除了3张WSI。训练数据集中包括正常组织(184张WSI)、CD(182张WSI)和UC(174张WSI)。在本文研究的分类任务中,数据集被随机分为模型集和内部测试集,比例为8:2。此外,收集了南方医科大学珠江医院组织样本的H&E染色活检数据作为外部验证集(ZJH),共收集了305张WSI。其中,正常广泛性肠道组织有90张WSI,CD有113张WSI,UC有102张WSI。所有WSI均使用Aperio GT450扫描仪以263 nm/像素的分辨率进行数字化。图1是本文研究框架概述。

图1:本文构建辅助IBD诊断的AI模型的流程框架。(a)是将WSI分割为图像块并进行颜色标准化处理;(b)是构建图像块级别的诊断模型;(c)首先,使用两组特征表示每个图像块聚合,其次聚合图像块预测结果,并将其表示为WSI的特征。然后使用特征选择的方法选择有效特征,最后使用五折交叉验证的方式构建WSI级别的诊断模型。(d)在测试集上测试构建的诊断模型并辅助病理医生进行诊断,同时评估模型对病理医生辅助诊断的增益。
实验结果
在构建WSI级别的二分类诊断模型中,使用SVM构建分类模型。本研究通过使用BoW和PLH聚合后的特征构建模型取得了出色的结果。本研究为二分类任务的训练和测试数据集生成混淆矩阵,以直观地解释模型分类性能。图2显示本研究在两分类的两个任务中的内部测试集和外部测试集的结果。在区分正常和炎症的任务中,模型在测试集性能较高。在区分UC和CD的任务中,CD容易被错误分为UC,而UC通常被判断UC。

图2: 内部测试集和外部测试集中二分类任务的AUROC和混淆矩阵。(a)、(c)、(e)、(g)中Normal vs. IBD任务的AUROC和混淆矩阵,其中(a)和(e)是内部测试集的结果和(c)和(g)是外部测试集的结果。(b)、(d)、(f)、(h)是CD vs. UC任务中的AUROC
和混淆矩阵的结果,其中(b)和(f)是内部测试集的结果,(d)和(h)是外部测试集的结果。
在多分类模型诊断效率评估中,本研究测试了6种分类模型,其中随机森林分类器显示出最精确的分类结果。图3显示了随机森林分类器在训练集、内部测试以及外部测试集中的AUROC和混淆矩阵。从测试集的结果表现来看,模型对于正常、CD和UC的诊断模型有着较可靠的性能。

图3: 显示了训练集、内部测试集和外部测试集中三种类型的AUROC和混淆矩阵。(a)和(d)是模型在训练集中的AUROC和混淆矩阵(b)
和(e)是模型在内部测试集中的AUROC和混淆矩阵;(c)和(f)是模型在外部测试集中的AUROC和混淆矩阵。
本文研究中,选取了5名病理医生对于所有测试集进行两轮的诊断,分别是独自诊断和在IBDAIM模型辅助下诊断。对于IBD的诊断是非常具有挑战,低年资的病理医生进行诊断准确率较低。在实际临床中,经验丰富的病理医生可以在病理切片和充分的临床信息支持下能够有较高的准确率进行IBD的诊断。第一轮诊断每一位病理医生在不同队列中的诊断结果如图4的human行所示。在区分是否存在炎症的任务中病理医生诊断准确较高。在UC和CD的区分任务中,低年资的病理医生诊断准确率远远低于模型的准确率,经验丰富的病理医生在没有临床信息的支持下其诊断准确率也略低于模型的准确率。图4的AI-assist行显示了第二轮诊断在IBDAIM模型的辅助下,年轻的病理医生的诊断准确率接近经验丰富的病理医生的诊断准确率,而经验丰富的病理医生的诊断准确率达到甚至超过模型准确率。此外,图5显示了在AI辅助下病理医生的平均诊断效能提升。

图4: IBDAIM辅助病理医生提升肠道活检组织诊断的效率。

图5: 病理医生在内部和外部测试集上使用IBDAIM辅助诊断的平均诊断性能改进。(a)显示不同经验的病理医生在内部测试集上在IBDAIM辅
助诊断下的平均诊断性能改进。(b)显示不同经验的病理医生在IBDAIM辅助诊断下在外部测试集上的平均诊断性能改进。
结论
本研究开发的IBDAIM模型,在正常、CD和UC的诊断中展现出的卓越性能,使其在辅助病理医生进行IBD诊断方面具有重要的临床应用潜力。当前病理医生对于IBD的类型诊断效率和准确率都较低,缺乏有经验的病理医生。本文IBDAIM模型在提升病理医生诊断效能方面的作用进行了深入探讨。在2-15年的病理诊断经验的病理医生经过培训在区分正常和IBD中有着较高准确率,略低于模型的性能。但是在进行CD和UC的诊断时出现明显的下降。这一现象可能源于临床实践中,CD和UC的精准诊断往往依赖多模态检查信息的综合分析,而仅凭H&E染色病理切片进行诊断,尤其是对于经验有限的病理医生而言,准确性难以保证。在AI辅助诊断后,病理医生可以从模型预测结果得到模型预测的概率值以及模型感兴趣区域的热图,从而辅助病理医生观察到难以发现的细微诊断特性。实验结果表明,IBDAIM 模型有望成为IBD活检病理图像的诊断工具。模型不仅可辅助病理医生提高诊断效率,还能为年轻病理医生提供指导,并有效减少资深病理医生的工作负担。模型通过排除无异常样本,促使炎症性肠病的诊断流程得到优化,进而实现整体诊断效率的提升。
本文的引用信息如下:
Chengfei Cai, Qianyun Shi, Mingxin Liu, Jun Li, Yangshu Zhou, Andi Xu, Dan Zhang, Yiping Jiao, Yao Liu, Xiaobin Cui, Jun Chen, Jun Xu, Qi Sun, IBDAIM: Artificial Intelligence for Analyzing Intestinal Biopsies Pathological Images for Assisted Integrated Diagnostic of Inflammatory Bowel Disease, International Journal of Medical Informatics, vol. 203, 2025, 106024.