重点实验室与复旦大学附属肿瘤医院肿瘤妇科吴小华教授团队合作的论文被期刊Bioinformatics录用

信息来源: 发布日期:2025-01-26

近期,重点实验室病理智慧诊疗团队教师王向学和研究生崔昊宇针对常规苏木精和伊红(H&E)染色的全景(Whole Slide Images, WSI)病理切片研究了子宫内膜癌分子亚型的预测方法。该研究成果(Prediction of molecular subtypes for endometrial cancer based on hierarchical foundation model(基于分层式基础模型的子宫内膜癌分子亚型预测))最近被期刊Bioinformatics录用。本文基于目前性能优异的计算病理大模型UNI,提出了基于弱监督学习的分层式分类模型,hierarchical UNI (hi-UNI)。我们提出的模型在复旦大学附属肿瘤医院肿瘤妇科队列(N=364)中进行5 折交叉验证,针对子宫内膜癌分子亚型预测准确性达到了0.879(95% CI,0.853-0.904)的宏平均AUROC 。本文提出的模型与目前最先进的子宫内膜癌分子亚型预测方法相比,我们的方法在预测准确性和计算效率方面都更胜一筹;此外,我们的方法具有更好的可复现性。这项研究旨在解决传统基因测序分型的时间和成本:我们的方法为基因测序提供了一种可靠、便捷的替代方法,有望改变子宫内膜癌诊断领域。智能医学图像计算重点实验室的智能病理辅助诊疗团队长期致力于超高分辨率病理图像处理与分析,本论文的临床合作单位是复旦大学附属肿瘤医院肿瘤妇科吴小华教授团队郭勤浩教授和温灏教授。

研究背景

子宫内膜癌(endometrial carcinoma)是当今最常见的妇科恶性肿瘤之一,近年来,由POLE mut、错配修复缺陷型(MMRd)、p53异常型和无特殊分子改变型(NSMP)组成的四种分子分型正逐渐取代传统分型方法,成为近年来的主流分型方法,对指导诊疗和预后有着重要作用,这四种分型依赖于通过成本较高和周期较长的基因测序来确定。目前,基于病理切片的诊断仍是子宫内膜癌诊疗周期不可或缺的重要手段。随着数字病理技术的发展,特别是数字玻片扫描仪的应用,为实现病理学与分子生物学之间的紧密整合提供了技术基础。这种方式带来了从基因突变到形态改变观测的可能性,从而间接预测特定基因的突变信息。本研究尝试从苏木精和伊红染色的全切片图像中提取关键信息,从而快速、准确地预测子宫内膜癌的四种分子分型。

基于WSI的分类可以分为基于MIL(multi-instance learning)的方法和经典弱监督方法(classical weakly-supervised methods)(Narmin et al.)。Fremond等人提出的子宫内膜癌分子分型预测网络im4MEC属MIL方法,其必需的特征提取器的性能依赖于大量数据和高算力,这对于大多数机构复现而言,是一项巨大的挑战。本研究提出了一种端到端的子宫内膜癌分子分型预测模型hi-UNI,基于传统弱监督方法,同时针对数字病理图像的金字塔结构的特性进行了改进,使之能结合不同分辨率下组织的宏观特征和细胞的微观特征。其创新点在于:

1. 使用大模型的先验知识和强大的特征提取能力,使用弱监督方法微调,解决了大规模数据依赖问题和算力依赖的问题。

2. 使用层级式结构(hierarchical structure),综合了不同尺度的WSI信息,解决了基于ViT的大模型只能接受固定分辨率(224 像素)的不足。

实验

本研究收集了复旦大学附属肿瘤医院肿瘤妇科2020年至2023年间收治的333名子宫内膜癌患者的378张苏木精和伊红(H&E)染色的WSI。该数据集整合了全面的临床注释、患者的临床数据以及 46基因组的NGS数据。

1 本文的实验流程与网络结构图

我们使用直方图区分前景与背景区域,并使用基于DeepLab v3的肿瘤分割网络,裁剪并保留肿瘤区域的图像块,并使用选择性采样将来自相同区域的图像块分为三个不同尺度的patch,分别送入并联的UNI中微调、特征融合和预测输出,最终的WSI级预测结果来源于所有图像块的软投票,具体的,分子亚型 j WSI级别预测概率可通过下式求得:

其中,N 代表提取的分层式图像块总数,zi 表示图像块i对应网络的logits输出。Softmax(zi)j 为根据对数 zi计算出的子类型 jSoftmax函数输出概率。我们将提出的基于弱监督的hi-UNI与目前顶尖性能的MIL方法进行对比,包括最近的方法,如 TransMILDTFD-MIL SETMIL,以及经典的 MIL 方法,如 CLAM-SB Attention-MIL(在 im4MEC 中实现)。我们提出的方法在WSI预测方面,在MMRd 分型上达到了0.82995% CI0.816-0.843)的AUROC,在NSMP上达到了0.89995% CI0.867-0.931)的AUROCp53abn 上达到了 0.89995% CI0.836-0.962)的AUROCPOLE mut上达到了0.88695% CI0.853-0.919)的AUROC,其ROC曲线如图:


2 所提出方法的ROC曲线

在五折交叉验证实验中,与其他 MIL 方法相比,使用 UNI 作为特征提取器的 TransMIL 表现更优,AUROC 0.83895% CI0.805-0.871)。我们提出的方法在 MMRdNSMP POLE 突变亚型上的性能超过了 TransMIL,宏平均 AUROC 达到 0.87995% CI0.853-0.904),在 p53abn 分类上的性能稍低。其具体结果如图:

3 对比实验结果及tSNE特征分布

使用tSNE获取的四种分型特征分布如右子图所示,位于左侧子图的UNI 模型可以根据其提取的关键特征区分图像块的分型亚型,包括 NSMP(绿色散点)和 p53abn(红色散点),但在处理高度相似的图像块时却很困难——每个亚型的簇还没有被明确区分开来——这一点也同样适用于未经微调的 hi-UNI。右图表明,UNI hi-UNI 模型在子宫内膜癌数据集上进行微调后,都能显著提高特征提取效果,不同亚型对应的特征向量聚类更加明显,这表明弱监督学习可以改进分类的特征表示。与 UNI(图c)相比,hi-UNI(图d)的聚类更加聚集,不同亚型之间的聚类边缘更加明显,显示出更突出的亚型相关特征。

结论

在这项研究中,我们针对子宫内膜癌分子亚型预测研究了基于弱监督学习流程和计算病理基础模型的分层网络。我们的方法实现了该领域最先进的性能,提供了经济高效、快速的分子亚型预测,同时提出了一种微调基础模型的新方法,以改进计算病理学中的特征提取。这一创新不仅提高了基础模型在病理学中的实用性,还为利用 WSI 预测疾病亚型开辟了新的道路。

以下是论文引用信息:

Haoyu Cui, Qinhao Guo, Jun Xu, Xiaohua Wu, Chengfei Cai, Yiping Jiao, Wenlong Ming, Hao Wen, Xiangxue Wang, Prediction of molecular subtypes for endometrial cancer based on hierarchical foundation model, Bioinformatics, 2025;, btaf059, https://doi.org/10.1093/bioinformatics/btaf059