论文阅读 (107)：Multiple instance learning framework with masked hard instance mining (2023 CVPR)

最新推荐文章于 2024-04-11 09:41:06 发布

原创最新推荐文章于 2024-04-11 09:41:06 发布 · 916 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#多示例 #MIL #WSI

多示例学习专栏收录该内容

82 篇文章

订阅专栏

文章介绍了一种新的多示例学习框架MHIM-MIL，针对全幻灯片图像分类中的硬实例挖掘问题。该方法利用蒙版遮蔽显著实例，强化了模型对难以分类样本的关注，通过孪生网络结构和一致性优化提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 概述

1.1 要点

题目：蒙版硬实例挖掘多示例学习 (Multiple instance learning framework with masked hard instance mining)

背景：全幻灯片图像 (WSI) 分类常被看作是一个典型的MIL问题，其已有的方法大都关注于使用注意力机制来鉴别显著实例 (易于分类的实例，反之是硬实例)。

问题：已有方法忽略了难以分类的实例，其对建立更准确模型以及辨别性决策边界是有益的。

方法：提出了一个新颖算法MHIM-MIL，其使用蒙版硬实例挖掘下的Siamese结构来探索与训练硬实例。

1.2 代码

https://github.com/DearCaat/MHIM-MIL/

1.3 引用

@InProceedings{Tang:2023:40784087,
author		=	{Tang, Wen Hao and Huang, Sheng and Zhang, Xiao Xian and Zhou, Feng Tao and Zhang, Yi and Liu, Bo},
title     	=	{Multiple instance learning framework with masked hard instance mining for whole slide image classification},
booktitle 	=	{{ICCV}},
year      	=	{2023},
pages     	=	{4078-4087}
}

2 方法

2.1 背景：MIL定义

在MIL中，任意WSI可以表示为 $X=\{x_i\}_{i=1}^N$ ，其中 $x_i$ 是第 $i$ 个区块，亦即实例。对于分类任务，包对应一个已知的标签 $Y\in C$ ，实例对应未知标签 $y_n\in C$ ，其中 $C$ 是类别标签的集合。MIL模型 $\mathcal{M}(\cdot)$ 的目的是预测包标签 $\hat{Y}\leftarrow\mathcal{M}(X)$ 。目前常用的方法是从实例的提取特征 $Z=\{z_i\}_{i=1}^N$ 中习得包表示 $F$ ，并在此基础上训练一个分类器 $\mathcal{C}(\cdot)$ ，即 $\hat{Y}\leftarrow\mathcal{C}(F)$ 。这里有两种讲实例特征汇聚为包嵌入的方法：

注意力聚合：
$\tag{1} F=\sum_{i=1}^Na_iz_i\in\mathbb{R}^D,$ 其中 $a_i$ 是注意力稀疏；
多头自注意力聚合 (MSA)：类别token $z_0$ 通过实例特征嵌入，以获取初始的输入序列 $Z^0=[z_0,z_1,\dots,z_N]in\mathbb{R}^{(N+1)\times D}$ ：
$\tag{2} \begin{array}{ll} \text{head}=A^\ell(Z^{\ell-1}W^V)\in\mathbb{R}^{(N+1)\times\frac{D}{H}},&\ell=1\dots L\\ Z^\ell=\text{Concat}(head_1,\dots,head_H)W^O,&\ell=1\dots L\\ \end{array}$ 其中 $W^V\in\mathbb{R}^{D\times \frac{D}{H}}$ 、 $W^O\in\mathbb{R}^{D\times D}$ 、 $A^\ell\in\mathbb{R}^{(N+1)\times (N+1)}$ 是注意力矩阵、 $L$ 是MSA块的数量，以及 $H$ 是每个MSA的头数。包嵌入是最后一层的类别token：
$\tag{3} F=Z^L_0.$ 自注意力嵌入本质上是一类特殊的MIL注意力方法，本文将这些方法均归类为注意力方法。

2.2 MHIM-MIL

在基于注意力的MIL方法中，实例的注意力得分用于指示实例对于包分类的贡献。这些具有高得分的显著实例是益于分类的，但却不易于训练一个泛化性强的模型。尽管硬样本再很多计算机视觉领域被证明可以提升模型的泛化性，但已有的MIL工作却常常将这些忽略。

本文提出的MHIM-MIL来处理这个问题，其框架如图2所示：

在训练阶段，MHIM-MIL使用孪生结构，其主体部分是一个注意力MIL网络 (Student)，表示为 $\mathcal{S}(\cdot)$ ，用于汇聚实例特征；
为了增加student模型的辨别难度，且更多地关注硬实例，引入动量teacher，表示为 $\mathcal{T}(\cdot)$ ，其通过注意力权重来给实例打分，然后使用蒙版硬实例挖掘策略来遮蔽显著实例，以此保留硬实例；
在推理阶段，所有挖掘的特征均传递给student以获取包标签；
Teacher与student共享同一结构；
所提出方法的被定义为：
$\tag{4} \hat{Y}=\mathcal{S}(\hat{Z})=\mathcal{S}(M_\mathcal{T}(Z)),$ 其中 $M_\mathcal{T}(\cdot)$ 表示通过teacher模型设计蒙版硬实例挖掘策略，以及 $\hat{Z}$ 是挖掘到的实例。

图2：MHIM-MIL总体框架。动量teacher用于计算所有实例的分数。然后基于硬实例挖掘注意力来为实例添加蒙版，并将余下的实例传递给student模型。student模型通过一致性损失 $\mathcal{L}_{con}$ 以及标签损失 $\mathcal{L}_{cls}$ 。teacher的损失通过student参数的指数移动平均 (EMA) 来更新，而非梯度。在推理阶段，将使用完整的输入实例，且只使用student模型

2.3 蒙版硬实例挖掘策略

在没用实例级别监督时，传统的硬实例发掘策略将难以应用。对此，通过遮蔽高注意力得分的实例来明确硬实例。具体地，给定一个实例特征的序列 $Z=\{z_i\}_{i=1}^N$ 作为teacher模型 $\mathcal{T}(\cdot)$ 是输入，其输出每个实例的注意力权重 $a_i$ ：
$\tag{5} A=[a_1,\dots,a_i,\dots,a_N]=\mathcal{T}(Z).$ 然后获取注意力序列的降序索引：
$I=[i_1,i_2,\dots,i_N]=\text{Sort(A)},$ 其中 $i_1$ 和 $i_N$ 分别是具有最高注意力和最低注意力分数的实例的索引。基于 $I$ ，我们提出了几个蒙版硬实例挖掘策略来选择硬实例。令 $M=[m_1,\dots,m_i,\dots,m_N]$ 表示用于编码蒙版标志的 $N$ 维二元向量，其中 $m_i\in\{0,1\}$ 。如果 $m_i=1$ ，则表示蒙蔽第 $i$ 个实例。

2.3.1 高注意力蒙版

最简单的蒙版硬实例挖掘策略是高注意力蒙版 (HAM)，其简单的蒙蔽注意力最高的top $\beta_h\%$ 的实例。

2.3.2 混合蒙版

通过结合其它实例蒙蔽技术，提出三种混合蒙版，如图3：

L-HAM：额外蒙蔽 $\beta_l\%$ 注意力最低的实例 $M_l$ ，即共蒙蔽 $\hat{M}=M_h\cup M_l$ ；
R-HAM：随机蒙蔽 $\beta_r\%$ 的实例，防止过拟合，即 $\hat{M}=M_h\cup M_r$ ；
LR-HAM： $\hat{M}=M_h\cup M_r\cup M_l$ ；

图3：混合蒙蔽策略

基于 $\hat{M}$ ，蒙蔽实例序列计算为：
$\tag{7} \hat{Z}=M_\mathcal{T}(Z)=\text{Mask}(Z,\hat{M})\in\mathbf{R}^{\hat{N}\times D},$ 其中 $\hat{N}$ 是未蒙蔽的实例。

2.4 一致性优化

在孪生网络结构下，teacher指导student训练的同时，student学习的知识也会用于更新teacher。这样迭代的优化过程将渐进式地提升teacher的挖掘能力以及student的辨别能力。为了进一步促进这个优化过程，并使用动量teacher提供的额外监督信息，提出了一个一致性损失来约束两个模型的分类结果。

2.4.1 Student优化

Student包含两个损失：

度量包标签的交叉熵：
$\tag{8} \mathcal{L}_{cls}=Y\log\hat{Y}+(1-Y)\log(1-\hat{Y}).$
Student $F_s$ 和动量teacher $F_t$ 包标签之间的一致性损失：
$\tag{9} \mathcal{L}_{con}=-\text{softmax}(F_t/\tau)\log F_s,$ 其中 $\tau>0$ 是温度参数；

综上，最终的优化损失定义未：
$\tag{10} \{\hat{\theta}_s\}\leftarrow\argmin_{\theta_s}\mathcal{L}=\mathcal{L}_{cls}+\alpha\mathcal{L}_{con},$ 其中 $\theta_s$ 是 $\mathcal{S}(\cdot)$ 的参数，以及 $\alpha$ 是缩放因子。