ISSN 1004-4140
CN 11-3017/P

基于混合注意力机制的肺结节假阳性降低

唐秉航, 王艳芳, 马力, 陈庆武, 邵立伟, 黄德皇

唐秉航, 王艳芳, 马力, 等. 基于混合注意力机制的肺结节假阳性降低[J]. CT理论与应用研究, 2022, 31(1): 63-72. DOI: 10.15953/j.ctta.2021.002.
引用本文: 唐秉航, 王艳芳, 马力, 等. 基于混合注意力机制的肺结节假阳性降低[J]. CT理论与应用研究, 2022, 31(1): 63-72. DOI: 10.15953/j.ctta.2021.002.
TANG B H, WANG Y F, M L, et al. False positive reduction of pulmonary nodules based on mixed attentional mechanism[J]. CT Theory and Applications, 2022, 31(1): 63-72. DOI: 10.15953/j.ctta.2021.002. (in Chinese).
Citation: TANG B H, WANG Y F, M L, et al. False positive reduction of pulmonary nodules based on mixed attentional mechanism[J]. CT Theory and Applications, 2022, 31(1): 63-72. DOI: 10.15953/j.ctta.2021.002. (in Chinese).

基于混合注意力机制的肺结节假阳性降低

基金项目: 中山市2019年高端科研机构创新专项(第一批)(基于人工智能CT时序列的肺癌早期预测及其应用)
详细信息
    作者简介:

    唐秉航: 男,中山市人民医院主任医师,硕士生导师,主要从事影像放射诊断,E-mail:zstangbh@sina.com

    王艳芳: 女,中山仰视科技有限公司CEO,主要从事人工智能深度学习技术在医学影像上的开发与应用系列研究,E-mail:yfwang6@sina.cn

  • 中图分类号: R  814

False Positive Reduction of Pulmonary Nodules Based on Mixed Attentional Mechanism

  • 摘要:

    为了解决肺结节CAD系统候选结节检测阶段高假阳性问题,本文提出一种基于混合注意力机制的肺结节假阳性降低方法。该方法可作为目前假阳性降低阶段最常用的3D CNN分类模型的替代方案,能有效回避3D CNN模型参数量及计算量大的问题。该方法将三维候选结节切片数据看作切片序列,使用时序分割模型,结合改进的包含混合注意力模块的2D Resnet-18骨干网络,在使用2D CNN的基础上,有效学习三维切片数据的时空特征。相对于3D CNN结构的肺结节分类模型,本文提出的方法在降低模型参数量和推理时间的基础上,提高了结节分类的准确率。

    Abstract:

    In order to solve the problem of high false positives in the candidate detection stage of pulmonary nodules CAD system, this paper proposes a method to reduce false positives of pulmonary nodules based on mixed attention mechanism. The method can be used as an alternative to the most commonly used 3D CNN classification model at the stage of false positive reduction. It can effectively avoid the problems of large number of parameters and computation in 3D CNN model. In this method, the 3D candidate nodule data is viewed as a slice sequence, and the temporal segment networks model is used in combination with the improved 2D ResNet-18 backbone network which contains mixed attention modules. On the basis of using 2D CNN, the spatial and temporal characteristics of the 3D slice data are effectively studied. Compared with the 3D CNN structure model for pulmonary nodules classification, the method proposed in this paper not only improves the accuracy of nodules classification but also reduces the number of model parameters and the inference time.

  • 肺癌是世界上发病率和死亡率最高的癌症。肺癌早期是以肺结节的形式存在的,早期诊断和治疗肺结节可提高病人生存率。目前肺癌诊断中肺部计算机断层扫描(computed tomography,CT)成像检测是最常用且有效的无创方法。通常肺部仅一套CT影像序列就包含几十到几百层的影像数据,大量的CT影像仅通过医生人工阅片会增大医生的工作量,从而引起视觉疲劳,影响阅片效率和质量。得益于科学技术的发展,目前存在各种计算机辅助诊断(computer-aided diagnosis,CAD)系统为医生提供帮助,在减轻医生工作量的同时,加速诊断过程。

    现有的肺结节CAD系统主要由候选结节检测及假阳性降低两阶段组成。候选结节检测阶段的目标是尽可能的检测出CT影像中疑似结节,以提高肺结节检出灵敏度;假阳性降低阶段的目标是将检测出的候选结节进行真阳性结节和假阳性结节分类来排除假阳性结节,从而提高肺结节检出的准确率。由于非结节与结节在外观上具有一定的相似性,候选结节检测阶段在获得高肺结节检出灵敏度的同时,往往导致检出的候选结节中存在大量的假阳性结节,因此如何进行有效地降低假阳性是肺结节CAD系统的研究重点。

    降假阳任务作为肺结节CAD系统中的重要组成部分,近年来受到了研究者的广泛关注。目前存在的降假阳方法主要可分为两大类:一类是基于传统图像处理方法,一类是基于深度学习方法。

    基于传统图像处理方法主要思想是对肺结节设计人工特征,利用提取的较为底层的特征来进行分类任务。Han等[1]针对肺结节在CT影像中的纹理表现,利用3种二维纹理特征:Haralick特征、Gabor特征以及局部二维纹理特征,进行特征提取,然后基于这些底层特征使用支持向量机进行分类任务;张婧等[2]提出了一种结合规则和支持向量机的识别方法,来对分割出来的感兴趣区域进行分类,该方法先利用基于规则的方法筛去非结节的区域,然后对筛选之后剩余的候选,计算它们的灰度和纹理等特征作为SVM的输入进行结节分类。这类传统方法主要依赖复杂的特征设计,特征设计往往需要专业知识,较为耗间,且特征设计的好环对结果影响较大。

    基于深度学习方法是目前主流的方法,根据结节特征提取方式大致分为基于2D卷积神经网络(convolutional neural networks,CNN)和基于3D CNN两个方向。Setio等[3]提出使用多流2D CNN学习判别特征,并采用专用的融合方法得到最终的分类结果,该方法在LIDC-IDRI CT数据集[4]上,得到平均每例CT假阳性个数为1时的灵敏度为85.4%。这种基于2D CNN的特征提取方式并没有充分利用CT影像序列本身的三维性质。为了学习CT影像序列本身的三维性质,高慧明等[5]提出多尺度融合网络,对每个候选结节输入到不同尺度的3D CNN,并对分类结果融合,以减少假阳性,在LUNA 2016[6]竞赛数据上进行的实验,得到平均每例CT假阳性个数为1时的灵敏度为84.9%;王尚丽等[7]构造三维密集分类网络(3D DenseNet)[8]进行假阳剔除,在天池医疗AI大赛数据集的测试中,检测肺结节总体敏感度为94.3%,10 mm以下结节敏感度91.5%,假阳例率5.9%。然而3D CNN结构通常存在参数量及计算量大的问题。

    为了克服上述深度学习方法的存在的问题,本文将三维候选结节切片数据看作为切片序列,使用时序分割网络(temporal segment networks,TSN)[9],结合改进的包含混合注意力模块的2D ResNet-18骨干网络,在使用2D CNN的基础上,有效学习三维切片数据的特征。相对于3D CNN结构的肺结节分类模型,本文提出的方法在降低模型参数量和推理时间的基础上,同时提高了结节分类的召回率及精确率。

    本文提出的方法作为目前假阳性降低阶段最常用的3D CNN分类模型的替代方案,能有效回避3D CNN模型参数量及计算量大的问题。模型整体结构如图1所示,主要分为:①时序分割网络框架输入分段;②时序位移模块TSM;③ResNet-18特征提取骨干结构;④改进的基于混合注意力机制的残差模块;⑤基于时序的特征平均融合模块。相应的结构在后续部分进行说明。

    图  1  网络模型整体结构
    Figure  1.  The overall structure of the network model

    Wang等[9]提出的TSN是第一个将2D CNN用在视频行为识别上的深度网络框架。TSN通过一种基于分段的采样和聚合模块对长程时间结构进行建模,从而能够使用整个动作视频有效地学习动作模型。TSN主要对不同时序位置上的图像进行短期运动特征提取,最终将提取的多个特征进行融合,以实现长期的运动特征学习。具体形式为,给定一个视频V,把它分成相同持续时间的K个部分{S1,S2,…,SK},从对应的片段SK中随机抽取一帧TK,TSN对帧序列(T1,T2, …,TK)进行如下方式建模:

    $$ {\rm{TSN}}\Big(T_{1},T_{2},…,T_{K}\Big)=\Bigg({{G}}\bigg({{F}}\Big(T_{1},W\Big),\,{{F}}\Big(T_{2},W\Big), …,\,{{F}}\Big(T_{K},W\Big)\bigg)\Bigg)\text{,} $$ (1)

    其中F(TK, W)是表示具有参数W的卷积网络的函数,视频帧PT经过卷积网络后得到一个C维向量,其中C表示类别数。函数G(·)是段共识函数,共识函数G形式为Gi=g(Fi(T1),…,Fi(PT)),其中 ${\rm{i}} \in(1,{{C}})$ g为聚合函数,采用均匀平均法来从所有片段中相同类别的得分中得出某个类别分数Gi。函数H(·)为Softmax函数,基于段共识函数的结果,预测视频所属类别。本文模型对T个分段得到的特征向量以平均池化方式进行融合,对融合后的特征向量采用Softmax输出类别概率。

    本文提出的模型算法基于TSN模型思路:将肺结节三维CT影像看作切片方向(横断面、z轴方向)上的组合,对36×36×36(方向z,y,x)大小的肺结节数据,z轴长度为 36张切片,使用TSN,对切片分段为12,每个分段的3张切片作为通道数,重变换成12×3×36×36的输入数据形状。通过模型提取各分段的特征向量,最终对各分段的特征向量平均池化融合,使用Softmax对融合后的特征向量输出类别概率。

    时序位移模块(temporal shift module,TSM)[10]主要通过沿时间维度移动部分的通道来实现相邻帧之间的信息交换。它可以插入到二维神经网络中实现零参数的时域建模。本文模型在TSN基础上增加了TSM模块,增强对时序分段的建模能力。

    特征提取使用He等[11]提出的深度残差网络(deep residual networks,ResNet),考虑到肺结节训练数据体积及过拟合问题,实验选取2D ResNet-18模型作为特征提取网络G(·)。具体的特征提取描述如下:

    将候选结节的三维CT影像维数由[L, H, W]转换为[T, C, H, W],其中L为候选结节数据的切片数目,H, W对应切面的宽高,T表示分段数,C表示通道数。考虑到候选结节切片数L较小,对结节分成T段后,每个分段并不随机选取切片,而是将每个分段分配的切片作为通道进行处理,即L=T×C

    T段数据分别输入到 2D ResNet-18中提取分段特征F=[F1, F2, …, FT],其中F为隐含层中的特征表示,其维数为[T, C', H', W'],考虑Batch Size的情况,F的维数为[N, T, C', H', W'],其中N为 Batch Size大小。

    本文提出的混合注意力包含3部分:压缩和激励 (squeeze-and-excitation,SE)[12]、运动激励(motion excitation,ME)[13-14]、坐标注意力(coordinate attention,CA)[15]。三种注意力结合构成混合注意力模块,分别学习候选结节特征的通道重要程度、相邻分段运动信息及空间位置信息。

    本节需要特别说明的是:在输入混合注意力模块之前的张量是4D,即[N×T, C, H, W],在输入混合注意力模块时,首先应将输入的4D张量重塑为5D张量[N, T, C, H, W]使得在混合注意力模块内部能对特定维度进行操作。然后将混合注意力模块输出的5D张量重塑为4D张量,提供给后续2D卷积使用。

    (1)压缩和激励模块。压缩和激励模块是一种通道注意力机制,主要考虑特征通道相关性,通过明确建模通道之间的相互依赖,自适应地重新校准通道的特征响应,来增强卷积层所提取特征的指向性。本文SE模块的核心分为两部分:挤压和激励,具体;如图2所示,其中,挤压部分:给定输入X进行全局平均池化,可表示为:

    图  2  SE模块
    Figure  2.  SE module
    $$ {F}_{s}=\frac{1}{\;H\times W\;}\sum _{i=1}^{H}\sum _{j=1}^{W}X[:,:,:,i,j]\text{,} $$ (2)

    激励部分:对挤压后的特征 $ {F}_{s} $ ,通过给定一个缩放比例r,利用1×1二维卷积得到特征 ${F}_{r}\in {\mathbb{R}}^{N\times T\times \frac{\;C\;}{r}\times 1\times 1}$ ,对 $ {F}_{r} $ 进ReLU非线性变换后,再利用1×1二维卷积还原到 ${F}_{{\rm{temp}}}\in {\mathbb{R}}^{N\times T\times C\times 1\times 1}$

    $ {F}_{{\rm{temp}}} $ 输入到Sigmoid激活函数,得到通道掩码, $ {F}_{m}\in {\mathbb{R}}^{N\times T\times C\times 1\times 1} $ 。最终SE模块的输出,可表示为:

    $$ {F}_{o} = {\boldsymbol{X}} + {\boldsymbol{X}} \odot{F}_{m} \text{,} $$ (3)

    其中, ${F}_{o}\in {\mathbb{R}}^{N\times T\times {\rm{C}}\times H\times W}$

    (2)运动激励模块。引入ME模块的目的是对相邻分段进行运动信息建模,如图3所示。为降低计算量,首先使用1×1二维卷积对输入X进行挤压。挤压后的特征 ${F}_{r}\in {\mathbb{R}}^{N\times T\times \frac{\;C\;}{r}\times H\times W}$ ,然后对运动特征进行建模,可以表示为:

    图  3  ME模块
    Figure  3.  ME module
    $$ {F}_{me}=K*{F}_{r}(:,\;t+1,\;:,\;:,\;:)-{F}_{r}\left(:,\;t,\;:,\;:,\;:\right) \text{,} $$ (4)

    其中,K是一个3×3 2D卷积层、 ${F}_{\rm{me}}\in {\mathbb{R}}^{N\times 1\times \frac{\;C\;}{r}\times \mathrm{H}\times \mathrm{W}}$ 。然后将运动特征根据时间维数串联起来,0填充到最后一个元素,即 ${F}_{{\rm{me}}}={\Big(F}_{{\rm{me}}}\big(1\big),\cdots,{F}_{{\rm{me}}}\big(t-1\big),0\Big)$ ,其中 ${F}_{{\rm{me}}}\in {\mathbb{R}}^{N\times T\times {\frac{\;C\;}{r}}\times H\times W}$ ,然后利用公式(2) $\mathrm{对}{F}_{{\rm{ME}}}\mathrm{进}\mathrm{行}$ 空间平均池化处理,再使用1×1二维卷积将处理后的特征通道还原得到 ${F}_{{\rm{temp}}}\in {\mathbb{R}}^{N\times T\times C\times 1\times 1}$

    ${F}_{{\rm{temp}}}$ 输入Sigmoid激活函数,得到相应掩码, $ {F}_{m}\in {\mathbb{R}}^{N\times T\times C\times 1\times 1} $ 。按公式(3),最终得到ME模块的输出 ${F}_{o}\in {\mathbb{R}}^{N\times T\times C\times H\times W}$

    (3)坐标注意力模块。压缩和激励模块(通道注意力)通常忽略了位置信息,而位置信息对于生成空间选择性注意力图非常重要。坐标注意力模块将位置信息嵌入到通道注意中,与通过二维全局池化将特征张量转化为单个特征向量的通道注意力不同,坐标注意力将通道注意力分解为两个一维特征编码,分别沿两个空间方向聚合特征。这样既可以获取一个空间方向上的远程依赖关系,又可以保留另一个空间方向上的精确位置信息。然后,生成的特征图被分别编码成一对方向感知和位置敏感的注意力图,这对注意力图可以互补地应用于输入特征图,以增加感兴趣对象的表示。本文使用的CA模块细节如图4所示,具体分成坐标信息嵌入和坐标注意力生成两部分说明。

    图  4  CA模块
    Figure  4.  CA module

    坐标信息嵌入:将全局池化公式(2)分解为一对一维特征编码。具体而言,对输入X,先使用尺寸(H, 1)和(1, W)的池化核沿着水平坐标方向和竖直坐标方向对每个通道进行编码。对第C个通道,在H方向上的输出可用公式(5)表示。

    $$ {z}_{c}^{h}\left(h\right)=\frac{1}{\;W\;}\sum _{0\le i < W}{x}_{c}(h,i)\mathrm{。} $$ (5)

    同理,对第C个通道,在W方向上的输出可用公式(6)表示。

    $$ {z}_{c}^{w}\left(w\right)=\frac{1}{\;H\;}\sum _{0\le j < H}{x}_{c}\left(j,w\right)\mathrm{。} $$ (6)

    上面这两个变换沿着两个空间方向进行特征聚合,返回一对方向感知注意力图。

    坐标注意力生成:对公式(5)和(6)生成的聚合特征图,首先将它们拼接起来,然后利用一个共享的1×1卷积变换函数 $ {F}_{1} $ ,得到

    $$ \mathrm{f}=\delta \bigg({F}_{1}\Big([{{z}}^{h},{{z}}^{w}]\Big)\bigg)\text{,} $$ (7)

    其中[·,·]表示沿空间维度的拼接操作, $ \delta $ 为非线性激活函数, ${{f}}\in {\mathbb{R}}^{N\times T\times \frac{C}{r}\times ({\mathrm{H}}+{\mathrm{W})}}$ ,为从水平方向和垂直方向编码空间信息得到的中间特征图。然后沿着空间维度把 ${f}$ 分解成两个单独的张量 ${f}^{h}\in {\mathbb{R}}^{N\times T\times \frac{\;C\;}{r}\times \mathrm{{\rm{H}}}}$ ${f}^{w}\in {\mathbb{R}}^{N\times T\times \frac{\;C\;}{r}\times \mathrm{W}}$ ,再利用两个1×1卷积变换函数 $ {F}_{h} $ $ {F}_{w} $ 分别将张量变换回输入X相同的通道数,得到 ${{g}}^{h}$ ${{g}}^{w}$

    $$ {{g}}^{h}=\delta \bigg({F}_{h}\Big({f}^{h}\Big)\bigg) \text{,}$$ (8)
    $$ {{g}}^{w}=\delta \bigg({F}_{w}\Big({f}^{w}\Big)\bigg)\text{,} $$ (9)

    输出 ${{g}}^{h}$ ${{g}}^{w}$ 作为注意权重,最终的注意力模块的输出为:

    $$ {F}_{o} = X + X \times {g}^{h}\times{ g}^{w} \text{,} $$ (10)

    其中 $ {F}_{o}\in {\mathbb{R}}^{N\times T\times C\times H\times W} $

    对提取的T个特征向量,直接使用平均池化方式进行融合,对融合后的特征向量采用Softmax输出类别概率。

    对降假阳分类网络,类别只有真阳性结节(Nodule)和假阳性结节(Non-nodule)两类,损失函数采用二元交叉熵损失函数,公式如下:

    $$ {L}_{{\rm{cls}}}=\frac{1}{\;N\;}\sum _{i=1}^{N}-\Big({y}_{i}{\rm{log}}({p}_{i})+(1-{y}_{i}){\rm{log}}(1-{p}_{i})\Big)\text{,} $$ (11)

    其中 $ {y}_{i} $ 为真实标签, $ {p}_{i} $ 为预测值。

    实验数据来源于LUNA2016公开数据集,该数据集提供降假阳研究的标注数据,相应的标注信息保存在candidates_V2.csv文件中。该文件共记录754976个标注结节,其中真阳性结节1557个,假阳性结节753419个。标记字段包括:结节所在CT的序列UID(seriesuid)、结节世界坐标(XYZ)以及结节所属类别(真阳性结节标记为1,假阳性结节标记为0)。该结节类别由4名国际放射科医生独立标注。

    放射科医师的独立标注分为两个阶段,每位医师会将病灶标记为:非肺部结节、小于3 mm的肺部结节和大于等于3 mm的肺部结节。由4名放射科医师中的至少3名接受的所有大于等于3 mm的肺部结节病灶将会被标记为类别1,即真阳结节。而非结节、小于3 mm的肺部结节、仅1到2名放射科医师标注的病灶类别将会被标记为0,即为假阳结节,结节切片如图5图6所示,每行列出一个候选结节的部分切片序列。

    图  5  真阳性结节切片序列
    Figure  5.  Slice sequence of true positive nodules
    图  6  假阳性结节切片序列
    Figure  6.  Slice sequence of false positive nodules

    对肺部三维CT影像进行预处理包括:将三维肺部CT影像数据的像素间隔统一采样调整为1 mm×1 mm×1 mm,CT影像的HU值截取到区间[-1200,600],并转换为[0,255]之间的灰度值。将结节的世界坐标转换成对应的预处理后的像素坐标,按像素坐标为中心,裁剪出大小为42×42×42像素的正样本(真阳性结节)和负样本(假阳性结节)。

    对1557个真阳性结节,753419个假阳性结节原始数据,采用五折交叉验证进行实验。因正负样本数目极不平衡量,每次划分时需要对训练部分中的正样本进行数据增强处理。相应的增强方式包括:①每个正样本路径及标签复制 200倍,与负样本混合,打乱顺序。通过标签复制将正负样本训练时出现的数目比例控制到2∶5;②将 42×42×42大小正样本进行x轴、y轴、z轴随机翻转;③随机剪切 36×36×36大小;④xy轴随机旋转 0°、90°、180°、270°。对网络输入的36×36×36大小数据块重变换成12×3×36×36,其中12作为分段数,3作为通道数,后两维是宽度和高度。

    本文混合注意力模型及作为对比的3D CNN模型,训练时设置超参数相同,均采用基于动量的随机梯度下降法,动量因子设为0.9、总的训练epoch设为20、学习率初始值设为0.01,batch size为512,每迭代5个epoch,学习率减小10倍,采用五折交叉验证进行实验,训练时长分别约为5.2 h及9.5 h,单个结节预测平均时间分别约为0.005 s及0.011 s。

    实验环境:CPU Intel Core i7-7820X @3.60 GHz,操作系统ubuntu 16.04,显卡11 G RTX 1080 TI×2,内存32 G, 深度学习框架使用pytorch 1.7版本。

    本文实验对LUNA 2016公开降假阳数据集进行二分类实验。对3种注意力进行消融实验,仅测试了两两组合及3种组合的情况,具体实验结果见表1所示,其中baseline模型为不使用混合注意力机制的模型,w/o代表3种注意力中不包含的情况。实验得出3种注意力的组合效果最好,相比于不使用注意力机制的基准网络,模型召回率提升了0.71%,精确率提升了0.94%,证明了各注意力的重要性。

    表  1  注意力消融实验
    Table  1.  Attention ablation experiment
    模型 参数量/M 召回率/% 精确率/%
    Baseline 11.17 97.52 98.24
    Ours w/o ME 11.33 98.01 98.88
    Ours w/o CA 11.30 98.05 98.93
    Ours w/o SE 11.33 97.97 98.82
    Ours(SE+ME+CA) 11.39 98.23 99.18
    下载: 导出CSV 
    | 显示表格

    为了证明本文提出的模型可以作为目前假阳性降低阶段常用的3D ResNet分类模型的替代方案,通过将3D ResNet-18作为基准,具体比较模型参数量、召回率、精确率及单个结节推理时间,结果如表2所示。在本文提出的模型参数量约为3D ResNet-18模型的1/3情况下,模型召回率、精确率及推理时间均有提升,实验验证了本文模型作为替代方案的有效性。

    表  2  本文模型与3D CNN基准比较
    Table  2.  Comparison between the model in this paper and the 3D CNN benchmark
    模型 参数量/M 召回率/% 精确率/% 推理时间/(s/单结节)
    3D Resnet-18 33.16 97.95 98.81 0.011
    Ours(SE+ME+CA) 11.39 98.23 99.18 0.005
    下载: 导出CSV 
    | 显示表格

    本文将三维候选结节切片数据看作切片序列,利用TSN及TSM思想,结合通道注意力、运动注意力及空间注意力,在使用2D CNN的基础上,有效学习候选结节三维切片数据的时空特征及其运动特征。实验结果证明本文提出的模型可作为3D CNN模型的替代方案,在降低模型参数量和计算量的基础上,本文模型仍然具有较好的性能。

    接下来的研究工作将对提取到的多个分段特征融合方式重新考虑,如采用加权方式或加入注意力机制来学习不同分段的重要程度,进一步提升模型的性能。

  • 图  1   网络模型整体结构

    Figure  1.   The overall structure of the network model

    图  2   SE模块

    Figure  2.   SE module

    图  3   ME模块

    Figure  3.   ME module

    图  4   CA模块

    Figure  4.   CA module

    图  5   真阳性结节切片序列

    Figure  5.   Slice sequence of true positive nodules

    图  6   假阳性结节切片序列

    Figure  6.   Slice sequence of false positive nodules

    1   注意力消融实验

    模型参数量/M召回率/%精确率/%
    Baseline11.1797.5298.24
    Ours w/o ME11.3398.0198.88
    Ours w/o CA11.3098.0598.93
    Ours w/o SE11.3397.9798.82
    Ours(SE+ME+CA)11.3998.2399.18
    下载: 导出CSV

    表  1   注意力消融实验

    Table  1   Attention ablation experiment

    模型 参数量/M 召回率/% 精确率/%
    Baseline 11.17 97.52 98.24
    Ours w/o ME 11.33 98.01 98.88
    Ours w/o CA 11.30 98.05 98.93
    Ours w/o SE 11.33 97.97 98.82
    Ours(SE+ME+CA) 11.39 98.23 99.18
    下载: 导出CSV

    2   本文模型与3D CNN基准比较

    模型参数量/M召回率/%精确率/%推理时间/(s/单结节)
    3D Resnet-1833.1697.9598.810.011
    Ours(SE+ME+CA)11.3998.2399.180.005
    下载: 导出CSV

    表  2   本文模型与3D CNN基准比较

    Table  2   Comparison between the model in this paper and the 3D CNN benchmark

    模型 参数量/M 召回率/% 精确率/% 推理时间/(s/单结节)
    3D Resnet-18 33.16 97.95 98.81 0.011
    Ours(SE+ME+CA) 11.39 98.23 99.18 0.005
    下载: 导出CSV
  • [1]

    HAN F, WANG H, ZHANG G, et al. Texture feature analysis for computer-aided diagnosis on pulmonary nodules[J]. Journal of Digital Imaging, 2015, 28(1): 99−115. doi: 10.1007/s10278-014-9718-8

    [2] 张婧, 李彬, 田联房, 等. 结合规则和SVM方法的肺结节识别[J]. 华南理工大学学报(自然科学版), 2011,39(2): 125−129, 147.

    ZHANG J, LI B, TIAN L F, et al. Lung nodule recognition combining rule-based method and SVM[J]. Journal of South China University of Technology (Natural Science Edition), 2011, 39(2): 125−129, 147. (in Chinese).

    [3]

    SETIO A, CIOMPI F, LITJENS G, et al. Pulmonary nodule detection in CT images: False positive reduction using multi-view convolutional networks[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1160−1169. doi: 10.1109/TMI.2016.2536809

    [4]

    ARMATO S G, ROBERTS R Y, MCNITT-GRAY M F, et al. The lung image database consortium (LIDC) and image database resource initiative (IDRI): A completed reference database of lung nodules on CT scans[J]. Academic Radiology, 2007, 14(12): 1455−1463. doi: 10.1016/j.acra.2007.08.006

    [5] 高慧明, 赵涓涓, 刘继华, 等. 多尺度卷积神经网络用于肺结节假阳性降低[J]. 计算机工程与设计, 2019,40(9): 2718−2724.

    GAO H M, ZHAO J J, LIU J H, et al. Multi-scale convolutional neural network for pulmonary nodule false positive reduction[J]. Computer Engineering and Design, 2019, 40(9): 2718−2724. (in Chinese).

    [6]

    SETIO A A A, TRAVERSO A, de BEL T, et al. Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: The LUNA16 challenge[J]. Medical Image Analysis, 2017, 42: 1−13. doi: 10.1016/j.media.2017.06.015

    [7] 王尚丽, 金戈辉, 徐亮, 等. 基于三维密集网络的肺结节检测方法[J]. 中国生物医学工程学报, 2020,39(1): 8−18. doi: 10.3969/j.issn.0258-8021.2020.01.02

    WANG S L, JING G H, XU L, et al. Method for detecting pulmonary nodules based on three-dimensional dense network[J]. Chinese Journal of Biomedical Engineering, 2020, 39(1): 8−18. (in Chinese). doi: 10.3969/j.issn.0258-8021.2020.01.02

    [8]

    HUANG G, LIU Z, LAURENS V, et al. Densely connected convolutional networks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 2261-2269.

    [9]

    WANG L, XIONG Y, ZHE W, et al. Temporal segment networks for action recognition in videos[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(11): 2740−2755. doi: 10.1109/TPAMI.2018.2868668

    [10]

    LIN J, GAN C, HAN S. TSM: Temporal shift module for efficient video understanding[C]// IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 7082-7092.

    [11]

    HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 770-778.

    [12]

    HU J, SHEN L, ALBANIE S, et al. Squeeze and excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011−2023. doi: 10.1109/TPAMI.2019.2913372

    [13]

    LI Y, JI B, SHI X, et al. TEA: Temporal excitation and aggregation for action recognition[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 906-915.

    [14]

    WANG Z, SHE Q, SMOLIC A. ACTION-Net: Multipath excitation for action recognition[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 13214-13223.

    [15]

    HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]// Computer Vision and Pattern Recognition (CVPR), 2021: 13713-13722.

  • 期刊类型引用(2)

    1. 马力,黄德皇,王艳芳. 融合形状变换及纹理学习的肺结节生长预测. CT理论与应用研究. 2024(03): 317-324 . 本站查看
    2. 朱玉婷,袁晓. 基于改进TransUNet模型的脑肿瘤图像分割方法研究. 计算技术与自动化. 2024(02): 98-104 . 百度学术

    其他类型引用(1)

图(12)  /  表(4)
计量
  • 文章访问数:  290
  • HTML全文浏览量:  156
  • PDF下载量:  41
  • 被引次数: 3
出版历程
  • 收稿日期:  2021-09-23
  • 录用日期:  2021-11-23
  • 网络出版日期:  2021-12-01
  • 刊出日期:  2022-01-31

目录

/

返回文章
返回
x 关闭 永久关闭