论文研读TOWARDS UNSUPERVISED CANCER SUBTYPING: PREDICTING PROGNOSIS USING A HISTOLOGIC VISUAL DICTIONARY

本文提出一种基于深度学习的无监督聚类模型,应用于肝内胆管癌(ICC)的组织病理学图像,旨在创建一个组织学模式的视觉字典,以识别预后相关的形态学模式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TOWARDS UNSUPERVISED CANCER SUBTYPING: PREDICTING PROGNOSIS USING A HISTOLOGIC VISUAL DICTIONARY

Abstract:

与前列腺癌和乳腺癌等常见癌症不同,因为样本量小,罕见癌症的肿瘤分级非常困难,而且在很大程度上不确定,完成这项任务需要大量时间,以及提取人类观察到的模式的固有困难。最具挑战性的例子之一是肝内胆管癌(ICC),这是一种源于胆道系统的原发性肝癌,其肿瘤异质性已被公认,且没有分级范式或预后标志物(no grading paradigm or prognostic biomarkers)。在本文中,我们提出了一种新的基于深度卷积自编码的无监督聚类模型,该模型基于视觉相似性将246张ICC数字化slide中的肿瘤细胞形态和结构形态进行聚类。从这个组织学模式的视觉字典,我们使用聚类出来的簇作为协变量来训练cox比例的危险生存模型。在单因素分析中,三个簇与无复发生存率显著相关。在多因素分析中,这些聚类的联合是有意义的。在所有聚类的多变量分析中,有5个对无复发生存率有显著性意义,但整体模型的测量不具有显著性。最后,一位病理学家为视觉词典中的重要聚类指定了临床术语,并发现了支持胶原蛋白丰富的纤维化在疾病严重程度中起作用这一假设的证据。这些结果为未来的癌症亚型提供了见解,并表明计算病理学可以有助于疾病的预测,特别是在罕见的癌症上。

关键词:非监督学习,组织病理学,聚类,疾病分期

1 Introduction

肿瘤分级是预测疾病预后和直接治疗的重要工具。常见的癌症,如乳腺癌和前列腺癌,已经建立了良好的分级方案,并在大样本中验证[1]。前列腺癌分级体系是国际上公认的癌症医学分级体系。该系统被称为Gleason分级系统(GGS),由Donald Gleason开发,使用数千例病例将病理观察到的组织学模式与结果数据联系起来。经过近20年的反复设计和验证他的预后分类,他在1992年发表了前列腺癌分级的最终综述。从那以后,它就成为了临床标准[2],除了在2005年和2011年由一个国际专家协会进行的微小修改之外。虽然是前列腺癌分层的金标准,但GGS仍受到持续的严格评估。

在2016年。McKenney等人在5年多的时间里从1275例病例中创建了一个新的组织学模式字典,它独立于那些构成GGS的组织模式。使用这些特定的模式,在GGS等级中确定了额外的风险组,支持了GGS可以被[3]进一步优化的观点。识别不同的组织学类型并利用它们将患者划分为不同的危险组是一项极其复杂的工作,需要多年的努力和反复检查大量的视觉数据,通常由一位病理学家完成。前列腺癌分级的故事表明,不同的观察者可能识别不同的或不完整的模式。

开发一种罕见癌症的分级系统带来了一系列独特的挑战。肝内胆管癌(ICC)是一种胆管癌,在美国的发病率约为10万分之一,且[4]呈上升趋势。目前,尚无公认的基于组织病理学的ICC亚型或分级体系,将ICC划分为不同风险组的研究也不一致[5,6,7]。对ICC进行子分类的一个主要限制因素是每个研究机构只能使用很小的队列。我们的机构最近发表了一项[8]研究,使用了世界上最大的ICC队列之一(n = 184),扩展了一项基于组织学的[9]分型到四个风险组,但仍未发现与生存率有显著相关性。

目前迫切需要从有限的罕见癌症的组织学数据集中有效地识别预后相关的细胞和结构形态,以建立目前在许多癌症类型中缺乏的风险分层系统。理想情况下,这些系统应该利用一个完整的、可复制的组织学模式的视觉字典。一旦生成,这样的视觉词典必须能够翻译为病理学家普遍理解的组织病理学术语。计算病理学[10]提供了一套新的工具,更重要的是,它提供了一种新的方法,利用基于计算机视觉的深度学习,利用病理学幻灯片的数字化,并利用计算处理能力的最新进展,来解决癌症亚型的历史挑战。在本文中,我们首次提出了一个基于深度学习的新模型,该模型可以基于细胞层次上的形态学,通过对ICC进行分层来创建一个视觉词典并显示其效用。

2 Materials and Methods

癌症组织病理学图像由于其大小(高达数百亿像素)而表现出高度内部内异质性。不同的空间或时间采样的肿瘤可以有具有独特基因组的细胞亚群,理论上导致视觉上不同的组织学模式[11]。为了有效地将这大量的高内方差数据聚类到基于相似形态学的子集中,我们提出将基于神经网络的聚类成本函数与新的深度卷积架构相结合,该聚类成本函数在手写数字[12]的图像上优于传统的聚类技术。最后,我们通过cox 比例风险建模和Kaplan-Meier生存估计进行生存分析,评估该聚类模型的有效性和有效性,以衡量每一组组织形态学是否与肿瘤切除术后复发有显著相关性。

2.1 Deep Clustering Convolutional Auto Encoder

自编码器由编码器和解码器两部分组成。编码器层通过一系列卷积、池化和激活函数将图像投影到更低维的表示中,即嵌入。如式1a所述,其中xi为f()变换后的一幅输入图像或一批输入图像,zi为嵌入后的表示。解码层试图从嵌入中重建原始输入图像。均值平方误差损失(Mean-squared-error loss, MSE)是优化该模型的常用方法,在一组N幅图像中,更新相对于原始图像(input, xi)和重构图像(output, xi)之间的误差的模型权值(coefficient, entropy, entropy)。如方程1b所示
(a)−>zi=fθ(xi) (a)-> z_{i} =f_{θ}(x_{i}) (a)>zi=fθ(xi)

(b)−>ϵ=min⁡θ1N∑i=1N∥xi−xi′∥2−−−−−−−−−−−−−−−−−−−(1) (b)->\epsilon=\min _{\theta} \frac{1}{N} \sum_{i=1}^{N}\left\|x_{i}-x_{i}^{\prime}\right\|^{2}-------------------(1) (b)>ϵ=θminN1i=1Nxixi2(1)
虽然自编码器可以学习一组图像的有效低维表示,但它不会将具有相似形态学的样本聚类在一起。为了克服这个问题,我们采用Song等人首先提出的重构-聚类误差函数来修正传统的MSE-loss函数。
ϵ=min⁡θ1N∑i=1N∥xi−xi′∥2+λ∑i=1N∥zi−ci∗∥2−−−−−−−−−−−−−−(2) \epsilon=\min _{\theta} \frac{1}{N} \sum_{i=1}^{N}\left\|x_{i}-x_{i}^{\prime}\right\|^{2}+\lambda \sum_{i=1}^{N}\left\|z_{i}-c_{i}^{*}\right\|^{2}--------------(2) ϵ=θminN1i=1Nxixi2+λi=1Nzici2(2)
zi是在方程a中定义的嵌入(特征表示),ci是在训练过程中分配给xi样本的质心,epoch和 λ是权重参数,通过寻找从第 t - 1个epoch的j个质心的嵌入样本与一个质心之间的最短欧氏距离来确定聚类分配:
ci∗=arg⁡min⁡j∥zit−cjt−1∥2−−−−−−−−−−−−−−−−−−−−−−−(3) c_{i}^{*}=\underset{j}{\arg \min }\left\|z_{i}^{t}-c_{j}^{t-1}\right\|^{2} -----------------------(3) ci=jargminzitcjt12(3)
该算法通过为每个样本分配一个随机聚类来初始化。通过式4计算每个类簇的质心位置。通过模型前向传播每个小批量,分别更新网络权值。在一个epoch结束时,所有mini-batch的前向传播被定义,这时候给定新的嵌入空间(特征表示),集群分配被公式3更新。最后,通过新的聚类分配更新质心位置。这个过程重复,直到收敛。图3显示了这个培训过程的可视化
cjt=∑t=1Nzi∣Cjt−1∣−−−−−−−−−−−−−−−−−−−−−−(4) c_{j}^{t}=\frac{\sum_{t=1}^{N} z_{i}}{\left|C_{j}^{t-1}\right|}----------------------(4) cjt=Cjt1t=1Nzi(4)

2.2 Dataset

所有的slide均来自纪念斯隆凯特琳癌症中心(MSKCC)和伊拉斯谟医学中心,并获得了各自机构审查委员会的批准。246例ICC切除后未进行新辅助化疗的患者被纳入分析。所有slide在MSKCC使用Aperio AT2扫描仪(徕卡生物系统;Wetzlar德国)。我们也获得了最新的关于术后无复发生存率的回顾性数据。虽然目前的样本量较小,但该收集是世界上已知的最大的回顾性ICC数据集。

从所有数字化的slide中生成提取的tile(patch)。首先,每张幻灯片被简化为一个缩略图,缩略图中的一个像素表示幻灯片中放大20倍的224x224像素点的平铺。接下来,在缩略图上使用Otsu阈值设定,生成组织(正)与背景(负)的二进制掩模[13]。组织中低于10个缩略图像素的连接组件被视为背景,以排除数字化幻灯片中的污垢或其他不重要的质量。最后,利用数学形态学方法对组织掩模进行一个缩略图像素的侵蚀,使局部背景块最小化。**为了将本文所讨论的癌症亚型问题从肿瘤分割问题中分离出来,我们使用基于web的整张幻灯片查看器手工标注肿瘤区域。(这里的意思是说:病理学家将癌变区域给画出来了,数据集patch是从癌变区域取出来的)**使用触摸屏(Surface Pro 3, Surface Studio;(微软公司,美国华盛顿州雷德蒙),一位病理学家在肿瘤区域画出来,以确定tile应该从哪里取出。图1演示了这个注释的示例。如果tile完全位于这些已识别的肿瘤区域内,则将其添加到训练集中。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IbZULqnv-1594027866329)(C:\Users\10622\AppData\Roaming\Typora\typora-user-images\image-20200705232345450.png)]

图1:(左)低放大率数字化slide的例子。这些切片相当大,因为这个平均样本包含至少10亿像素。(右)同一张幻灯片,肿瘤区域用红色标注。请注意注释可以覆盖背景区域。我们的新tile协议与质量控制,确保获取的tile包含高分辨率和清晰的图像组织。

2.2.1 Quality Control

扫描工件,如图像的失焦区域,会影响较小数据集上的模型性能。训练一个深度卷积神经网络来检测模糊块,进一步降低数据集中的噪声。在真实模糊数据上训练检测器超出了本研究的范围,因为获取切片中模糊区域的注释是不可行的,而且还会在模糊块和锐块之间造成强烈的类不平衡。为了准备训练模糊检测器的数据,我们使用了一种类似于[14]中描述的方法。首先,使用高斯模糊滤镜对一半的tile进行人工模糊,滤镜半径从1到10不等。另一半被标记为“sharp”,没有任何变化。训练一个ResNet18输出图像质量分数,通过回归的值,应用滤波器半径使用MSE。对于sharp类中的图像,取值为0。最后,根据检测器的输出值手动选择一个阈值来排除模糊图像。图2显示了基于模糊检测器被排除的随机选择的tile示例。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SOOxTg0M-1594027866333)(C:\Users\10622\AppData\Roaming\Typora\typora-user-images\image-20200705232818233.png)]

图2:质量控制算法排除的tile例子。有趣的是,这种方法还有助于识别带有墨迹、褶皱和部分背景的tile,tile生成的第一阶段被设计为尽可能排除这些tile。

2.3 Architecture and Training

我们提出了一种新的自编码器结构,以优化的图像重建性能。编码器是一个ResNet18[15]在ImageNet[16]上预先训练。在对病理数据进行完整模型训练时,编码器各层的参数都会更新。译码器由5个卷积层组成,每个层的填充和步长为1,以便在每次卷积操作中保持张量大小不变。在每个卷积步骤之前使用上采样来增加feature map的大小。根据经验,批处理归一化层不能提高重构性能,因此,被排除在外。

模型有两个属性需要优化:首先是网络的权值,即“权值”,然后是簇中心或中心在嵌入空间Cj中的位置。为了使方程2最小化并更新θ,使用了前一个训练epoch的中心集Ct-1j。在第一次训练epoch的情况下,质心位置是随机分配的,在初始化。训练epoch的定义是所有小批量的前传一次通过网络。在更新了线性回归后,所有样本根据公式3重新分配到最近的质心。最后,使用公式4更新所有质心位置,并用于下一个训练epoch的计算。图3说明了这个过程和体系结构。

该模型使用Adam优化对125个epoch进行训练,学习速率为1e−2,重量衰减为1e−4。学习率每50个epoch降低0.1。将聚类权值,即加权系数,设为0.4。最后,为了节省计算时间,从完整的tile库中随机抽取500,000个tile来训练每个模型,平均每个slide中抽取约2000个tile。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qu1DbTMU-1594027866335)(C:\Users\10622\AppData\Roaming\Typora\typora-user-images\image-20200705233927323.png)]

图3:在每次迭代中,模型在两个步骤中更新。在每次向前传递一个小批次后,网络权值被更新。在每个epoch结束时,通过将新更新的嵌入空间中的所有样本重新分配到离前一个历元最近的质心来更新质心位置,如式3所示。最后,利用公式4重新计算每个质心位置。所有的质心在训练前被随机初始化

2.3.1 Survival Analysis

为了衡量聚集形态模式的有用性和有效性,我们基于给定数字slide上发生的模式及其相关结果数据。进行了slide级别的生存分析,每个簇被认为是二元协变量。如果来自给定cluster的一个或多个tile存在于一张幻灯片中,则该slide被认为是该集群定义的形态模式的positive。基于对每个患者的二值化表示,使用多变量Cox回归来建模所有聚类的对复发的影响:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N9lmt8yl-1594027866340)(C:\Users\10622\AppData\Roaming\Typora\typora-user-images\image-20200706074359756.png)]

其中H(t)是依赖于时间t的风险函数,ho是基线风险,协变量(x1, x2,,…xj)具有系数(b1, b2,…bj)。一个协变量的风险比由ebj定义

。**风险比大于1表示。群集中的tile会导致更坏的预后。**相反,风险比小于1有助于良好的预后因素。为了在生存模型中度量显著性,基于Wald统计量给出了每个协变量的p值。

对每个群集也进行了单变量Cox回归。那些被测量为显著的(p < 0.05)被用于构建各组合的多变量Cox回归。结果如表2所示。最后,我们通过估计生存函数S(t)显示具有预后意义的聚类的Kaplan-Meier曲线。
S(t)=∏ti<tni−dinn S(t)=\prod_{t_{i}<t} \frac{n_{i}-d_{i}}{n_{n}} S(t)=ti<tnnnidi
di为t时间复发事件数,ni为t时间前有死亡或复发风险的受试者数。对每个聚类进行二元Kaplan-Meier分析,并使用标准对数秩检验衡量分层是否显著

2.3.2 Histologic Interpretation

基于Cox分析测量出与生存显著相关的群集,由病理学家使用标准组织学术语分配临床描述符,如表1所示。每个集群随机抽取20块tile,记录组成每个tile的组织学成分的半定量评估。一个主要特征被定义为在一个簇里面至少存在10个以上tile有50%区域中存在组织学成分。微小特征被定义为一个簇里面有8-9个以上tile有50%区域中存在组织学成分;一组8-9块瓦片中50%的瓦片面积。当含有50%以上的tile具有相同的组织学描述时,确定为主要肿瘤的组织学类型。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JevOetjH-1594027866347)(C:\Users\10622\AppData\Roaming\Typora\typora-user-images\image-20200706165804724.png)]

2.4 Results

由所有聚类组成的多变量Cox模型显示,簇0、11、13、20和23的危险比显著(p <0.05)。簇 20显示预后风险降低,Cluster 0、11、13和23显示预后风险增加。然而,整体模型未测量到显著性(似然比检验:p = 0.106, Wald检验:p = 0.096, Log-Rank检验:p = 0.076)。

在单因素Cox回归分析中,簇0、11和13被测量为显著性(p <0.05),与阴性的样本相比,对预后的影响均为正。表2显示了在只考虑那些显著的聚类时,对聚类0、11、13和所有组合进行多元Cox回归的单个单变量风险比。多变量模型的Wald检验、似然比检验和对数秩检验均显示p <0.05

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IWIEO07w-1594027866349)(C:\Users\10622\AppData\Roaming\Typora\typora-user-images\image-20200706170209712.png)]

图4:复合Cox回归将所有簇作为协变量。簇0、11、13、20和23显示了显著的风险比率。采用对数秩检验来衡量整个模型的显著性

对于从单变量分析中得到的显著性聚类,图5显示了按阳性组和阴性组划分的Kaplan-Meier图。对数秩检验p值小于0.05表示估计生存曲线的分层显著性。每个垂直勾号表示一个审查事件。

从有意义的聚类中随机选取20个tile进行半定量组织学分析,结果显示只有聚类0符合一个主要特征的标准,即由细胞外基质成分胶原组成,具体排列成线状束状。胶原蛋白是另一个簇(23)的次要特征,这两个簇(0,23)在单变量生存分析中都降低了危险比。表1中定义的肿瘤组织学不符合该标准为主要特征

一个肿瘤的组织学是一个簇的次要特征,簇13有9个tile,超过50%低核质比的solid肿瘤,这簇显示预后风险的降低。没有确定其他主要或次要的特征。

虽然肿瘤含量不是大多数聚类的主要或次要特征,但在每个聚类中35- 75%的tile中,任何体积的肿瘤含量和组织学描述都存在。主要肿瘤组织学类型分为两组:第0组有4/7(57%)的瓦片为管状,第23组有7/12(58%)的瓦片为管状高核质比型。

表2:单变量Cox回归建模时具有预后意义的聚类j的危险比(ebj)及其在多变量模型中的组合。括号中的值表示基于累积风险的95%置信区间的界限

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lI82wQLX-1594027866351)(C:\Users\10622\AppData\Roaming\Typora\typora-user-images\image-20200706171126875.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GnGdG0Tz-1594027866354)(C:\Users\10622\AppData\Roaming\Typora\typora-user-images\image-20200706171140567.png)]

图5:顶部的面板显示了基于Log-Rank检验报告分层显著性的聚类0、11和13的Kaplan-Meier跨越时间(月)的生存曲线。中间的面板显示了随着时间的推移在每个分层类中的样本数量,底部的面板显示了截尾事件发生的点。每一项分析都显示了一个显著的积极的预后因素的样本阳性为给定的聚类。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tds68S1z-1594027866355)(C:\Users\10622\AppData\Roaming\Typora\typora-user-images\image-20200706171233239.png)]

图6:每行描述了每个集群的20个随机抽样的tiles

2.5 Conclusion

2.5.1 Technical Contribution

我们的模型提供了一种新的方法来识别具有潜在预后意义的组织学模式,绕过冗长的组织标记任务和艰苦的slide的评估。作为一个比较点,最近的一项研究表明,通过使用监督学习[17]将slide第一次分割成八个预定义的分类组织,可以获得结肠直肠癌的有效预后评分。诸如此类的方法将模型限制在预先定义的组织学成分(肿瘤、非肿瘤、脂肪、碎片等),并且该方案可能不能扩展到缺乏类似肿瘤特异性间质相互作用[18]的结肠外解剖部位。相比之下,我们的模型设计缺乏预定义的组织类,能够分析n个聚类,从而消除了训练带来的潜在偏差,增加了模型应用的灵活性。

2.5.2 Histology

通过对有预后意义的tile的组织学成分进行半定量评估,我们发现肿瘤细胞在任何簇中都不是主要特征,而由细胞外基质(胶原)组成的结缔组织(间质)是两个簇的主要/次要特征。

肿瘤间质肿瘤细胞集群之间的结缔组织干预组织组成的矩阵和胶原蛋白,是肿瘤生长中扮演不可或缺的角色,但不是用于肿瘤分级或预测系统,往往集中在肿瘤属性,如核特性,细胞结构和入侵行为(19、20、21)。通过分析不可见的旁分泌因子,ICC方面的研究支持了肿瘤相关间质在肿瘤进展中的重要生物学作用[22,23,24]。最近,一种基于深度学习的算法使用肿瘤相关的基质,而不是肿瘤细胞,按[25]级对乳腺导管癌进行原位分层。在目前的研究中,我们发现肿瘤间质是两个重要簇的主要/次要特征,这增加了间质微环境可能具有独特的形态特征,可以常规检测并具有潜在的预后意义

References

[1] HJG Bloom and WW Richardson. Histological grading and prognosis in breast cancer: a study of 1409 cases of which 359 have been followed for 15 years. British Journal ofCancer, 11(3):359, 1957.

[2] Brett Delahunt, Rose J Miller, John R Srigley, Andrew J Evans, and Hemamali Samaratunga. Gleason grading: past, present and future. Histopathology, 60(1):75–86, 2012.

[3] Jesse K McKenney, Wei Wei, Sarah Hawley, Heidi Auman, Lisa F Newcomb, Hilary D Boyer, Ladan Fazli, Jeff Simko, Antonio Hurtado-Coll, Dean A Troyer, et al. Histologic grading of prostatic adenocarcinoma can be further optimized. The American Journal ofSurgical Pathology, 40(11):1439–1456, 2016.

[4] Supriya K Saha, Andrew X Zhu, Charles S Fuchs, and Gabriel A Brooks. Forty-year trends in cholangiocarcinoma incidence in the us: intrahepatic disease on the rise. The Oncologist, 21(5):594–599, 2016.

[5] Tohru Nakajima, Yoichiro Kondo, Masaru Miyazaki, and Katsuji Okui. A histopathologic study of 102 cases of in- trahepatic cholangiocarcinoma: histologic classification and modes of spreading. Human Pathology, 19(10):1228– 1234, 1988.

[6] Shinichi Aishima, Yousuke Kuroda, Yunosuke Nishihara, Tomohiro Iguchi, Kenichi Taguchi, Akinobu Taketomi, Yoshihiko Maehara, and Masazumi Tsuneyoshi. Proposal of progression model for intrahepatic cholangiocarci- noma: clinicopathologic differences between hilar type and peripheral type. The American Journal ofSurgical Pathology, 31(7):1059–1067, 2007.

[7] Christine Sempoux, Ghalib Jibara, Stephen C Ward, Cathy Fan, Lihui Qin, Sasan Roayaie, M Isabel Fiel, Myron Schwartz, and Swan N Thung. Intrahepatic cholangiocarcinoma: new insights in pathology. In Seminars in Liver Disease, volume 31, pages 049–060. Thieme Medical Publishers, 2011

[8] Carlie S Sigel, Esther Drill, Yi Zhou, Olca Basturk, Gokce Askan, Linda M Pak, Efsevia Vakiani, Tao Wang, Thomas Boerner, Richard KG Do, et al. Intrahepatic cholangiocarcinomas have histologically and immunopheno- typically distinct small and large duct patterns. The American Journal ofSurgical Pathology, 42(10):1334–1345, 2018.

[9] Akimasa Hayashi, Kento Misumi, Junji Shibahara, Junichi Arita, Yoshihiro Sakamoto, Kiyoshi Hasegawa, Norihiro Kokudo, and Masashi Fukayama. Distinct clinicopathologic and genetic features of 2 histologic subtypes of intrahepatic cholangiocarcinoma. The American Journal ofSurgical Pathology, 40(8):1021–1030, 2016.

[10] Thomas J Fuchs and Joachim M Buhmann. Computational pathology: Challenges and promises for tissue analysis. Computerized Medical Imaging and Graphics, 35(7-8):515–530, 2011.

[11] Philippe L Bedard, Aaron R Hansen, Mark J Ratain, and Lillian L Siu. Tumour heterogeneity in the clinic. Nature, 501(7467):355, 2013.

[12] Chunfeng Song, Feng Liu, Yongzhen Huang, Liang Wang, and Tieniu Tan. Auto-encoder based data clustering. In Iberoamerican Congress on Pattern Recognition, pages 117–124. Springer, 2013.

[13] Gabriele Campanella, Vitor Werneck Krauss Silva, and Thomas J Fuchs. Terabyte-scale deep multiple instance learning for classification and localization in pathology. arXiv preprint arXiv:1805.06983, 2018.

[14] Gabriele Campanella, Arjun R Rajanna, Lorraine Corsale, Peter J Schüffler, Yukako Yagi, and Thomas J Fuchs. Towards machine learned quality control: A benchmark for sharpness quantification in digital pathology. Comput- erized Medical Imaging and Graphics, 65:142–151, 2018.

[15] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016.

[16] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal ofComputer Vision (IJCV), 115(3):211–252, 2015.

[17] Jakob Nikolas Kather, Johannes Krisam, Pornpimol Charoentong, Tom Luedde, Esther Herpel, Cleo-Aron Weis, Timo Gaiser, Alexander Marx, Nektarios A Valous, Dyke Ferber, et al. Predicting survival from colorectal cancer histology slides using deep learning: A retrospective multicenter study. PLoS Medicine, 16(1):e1002730, 2019.

[18] Frances R Balkwill, Melania Capasso, and Thorsten Hagemann. The tumor microenvironment at a glance, 2012.

[19] Daniela F Quail and Johanna A Joyce. Microenvironmental regulation of tumor progression and metastasis. Nature Medicine, 19(11):1423, 2013.

[20] Mikala Egeblad, Elizabeth S Nakasone, and Zena Werb. Tumors as organs: complex tissues that interface with the entire organism. Developmental Cell, 18(6):884–901, 2010.

[21] Johanna A Joyce and Jeffrey W Pollard. Microenvironmental regulation of metastasis. Nature Reviews Cancer, 9(4):239, 2009.

[22] T Terada and Y Nakanuma. Expression of tenascin, type iv collagen and laminin during human intrahepatic bile duct development and in intrahepatic cholangiocarcinoma. Histopathology, 25(2):143–150, 1994.

[23] Alphonse E Sirica and Gregory J Gores. Desmoplastic stroma and cholangiocarcinoma: clinical implications and therapeutic targeting. Hepatology, 59(6):2397–2402, 2014.

[24] Simone Brivio, Massimiliano Cadamuro, Mario Strazzabosco, and Luca Fabris. Tumor reactive stroma in cholangiocarcinoma: The fuel behind cancer aggressiveness. World Journal ofHepatology, 9(9):455, 2017.

[25] Babak Ehteshami Bejnordi, Maeve Mullooly, Ruth M Pfeiffer, Shaoqi Fan, Pamela M Vacek, Donald L Weaver, Sally Herschorn, Louise A Brinton, Bram van Ginneken, Nico Karssemeijer, et al. Using deep convolutional neural networks to identify and classify tumor-associated stroma in diagnostic breast biopsies. Modern Pathology, 31(10):1502, 2018

针对过分分布的普遍化:一项调查 "towards out of distribution generalization: a survey"是一项对过分分布普遍化现象的研究。该研究关注如何处理机器学习中的模型在训练过程中未曾遇到的情况下的泛化能力。 当前,机器学习中的模型往往在面对与训练数据不同的情况时出现问题。这些情况被称为"分布外"或"过分分布"。过分分布问题在现实世界的应用中非常普遍,例如在医学影像诊断中,模型在对未见过的病例进行预测时可能出现错误。 为了改善过分分布问题,该调查着重研究了几种处理方法。首先,一种方法是使用生成对抗网络(GAN)。GAN可以通过学习未见过的数据分布来生成合成样本,从而提高模型的泛化性能。其次,该调查还介绍了自监督学习和深度对比学习等技术。这些方法通过引入自动生成标签或学习新的特征表示来增强模型的泛化能力。 此外,该调查提到了一些用于评估模型在过分分布上泛化能力的评估指标。例如,置信度和不确定性度量可以帮助评估模型对于不同类别或未知样本的预测是否可信。同时,模型的置换不变性和鲁棒性也是评估模型泛化能力的重要因素。 总结来说,这项调查对于解决过分分布普遍化问题提供了一些有益的方法和指导。通过使用生成对抗网络、自监督学习和深度对比学习技术,以及评估模型的不确定性和鲁棒性,我们可以提高模型在未曾遇到的情况下的泛化能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值