ISSN 1004-4140
CN 11-3017/P

基于多注意力融合增强Restormer的低剂量CT图像重建

吴送稳, 方晨韵, 乔志伟

吴送稳, 方晨韵, 乔志伟. 基于多注意力融合增强Restormer的低剂量CT图像重建[J]. CT理论与应用研究(中英文), xxxx, x(x): 1-10. DOI: 10.15953/j.ctta.2025.052.
引用本文: 吴送稳, 方晨韵, 乔志伟. 基于多注意力融合增强Restormer的低剂量CT图像重建[J]. CT理论与应用研究(中英文), xxxx, x(x): 1-10. DOI: 10.15953/j.ctta.2025.052.
Wu S W, Fang C Y, Qiao Z W. Enhanced Restormer for Low-Dose CT Image Reconstruction Based on Multi-Attention Fusion[J]. CT Theory and Applications, xxxx, x(x): 1-10. DOI: 10.15953/j.ctta.2025.052. (in Chinese).
Citation: Wu S W, Fang C Y, Qiao Z W. Enhanced Restormer for Low-Dose CT Image Reconstruction Based on Multi-Attention Fusion[J]. CT Theory and Applications, xxxx, x(x): 1-10. DOI: 10.15953/j.ctta.2025.052. (in Chinese).

基于多注意力融合增强Restormer的低剂量CT图像重建

基金项目: 国家自然科学基金面上项目(模型与数据耦合驱动的快速四维EPRI肿瘤氧成像(62071281));中央引导地方科技发展资金项目(新型TV和学习先验联合约束的快速四维EPRI成像方法(YDZJSX2021A003))。
详细信息
    作者简介:

    吴送稳,男,软件工程专业硕士研究生,主要从事医学图像重建、图像处理,E-mail:Wusongwen3@163.com

    通讯作者:

    乔志伟✉,男,博士,教授、博士生导师,主要从事医学图像重建、信号处理、大规模最优化等方面的研究,E-mail:zqiao@sxu.edu.cn

  • 中图分类号: TP 391

Enhanced Restormer for Low-Dose CT Image Reconstruction Based on Multi-Attention Fusion

  • 摘要:

    计算机断层成像(CT)技术在医学诊断中起着至关重要的作用。在CT图像重建中保持投影角度数量不变的情况下,降低每个投影角度的辐射剂量,是一种实现低剂量CT的有效方法。这会使得重建出的CT图像中含有较大的噪声,影响后续的图像分析和研究。针对上述问题,提出一种融合多注意力机制和特征融合机制的增强的Restormer网络(ERestormer)用于低剂量CT图像去噪。该网络融合了通道注意力、感受野注意力和多头转置注意力以增强网络对重要信息的关注能力,进而提高网络的特征学习能力。另外,本网络引入特征融合机制来增强编码器和解码器之间的特征复用。实验结果证明,与DNCNN、RED-CNN、UNet、Uformer和Restormer 5种经典的网络相比,所提出的网络具有更好的去噪性能和保留图像细节信息的能力。

    Abstract:

    Computed Tomography (CT) technology plays a crucial role in medical diagnosis. Reducing the radiation dose per projection angle while maintaining a constant number of projection angles is an effective approach to achieving low-dose CT. However, this reduction often introduces significant noise into the reconstructed CT images, adversely affecting subsequent image analysis and research. To address this issue, we propose the Enhanced Restormer for Low-Dose CT Image Reconstruction Based on Multi-Attention Fusion (ERestormer) for low-dose CT image denoising. The network integrates channel attention, receptive field attention, and multi-head transposed attention to enhance the model’s ability to focus on critical information, thereby improving its feature learning capacity. Furthermore, a feature fusion mechanism is introduced to strengthen feature reuse between the encoder and decoder. Experimental results show that the proposed network achieves superior denoising performance and enhanced preservation of image detail when compared to five classical networks: DNCNN, RED-CNN, UNet, Uformer, and Restormer.

  • 计算机断层成像(computed tomography,CT)是一种基于低维投影数据重建高维目标图像的技术,被广泛应用于医疗诊断 [1]。X射线剂量过高会对人体造成危害,常用的方法是降低每个投影角度下的辐射剂量来获取低剂量的CT图像,减小辐射造成的危害。这会导致重建出来的图像含有大量噪声,图像质量降低,影响后续的诊断。因此,低剂量CT图像去噪在医疗方向有着重要意义。

    现有的图像去噪方法主要有传统重建算法和基于深度学习的方法。传统的重建方法主包含解析重建算法和迭代重建算法[2-7]。近年来,随着深度学习方法自动化、高效性和高精度等特点[8-10],一些深度神经网络被用于低剂量CT图像去噪任务。

    基于卷积神经网络(convolutional neural networks,CNN)的深度学习方法利用卷积运算增强了对局部特征的提取能力,使用权值共享的方式大大减少了模型的参数,提高模型的泛化能力,从而被人们广泛地应用于图像去噪。2016年,Zhang等[11]提出DNCNN网络(beyond a gaussian denoiser:residual learning of deep CNN for image denoising,DNCNN),该网络采用深度残差学习框架,通过堆叠卷积层、批归一化和ReLU激活函数的方式构建。2017年,Chen等[12]提出了RED-CNN网络(residual encoder-decoder convolutional neural network,RED-CNN),采用残差网络与对称的编码器和解码器架相结合的方式提取和重建特征,通过引入跳跃连接很好地保留了关键特征信息。2018年,Guo等[13]提出了CBDNet网络结构(toward convolutional blind denoising of real photographs,CBDNet),该网络由一个噪声估计子网络和一个去噪子网络组成,通过这种双分支设计,网络可以自适应估计出噪声的统计特性,从而更有效地进行去噪处理。2020年,Zhao等[14]提出了PRIDNet网络(pyramid real image denoising network,PRIDNet),通过整合金字塔结构的多尺度特征提取和融合技术,以有效捕获和还原多尺度的图像信息,实现低分辨率到高分辨率的噪声去除。2022年,Chen等提出了NAFNet网络(simple baselines for image restoration,NAFNet),该网络提出代替传统的非线性激活函数,在图像去噪方面取得了显著的效果[15]

    基于卷积神经网络的深度学习方法在去噪方面虽然表现出优异的性能,但是缺乏对远程特征相关性的建模能力[16]。而Transformer能够利用其注意力机制捕获远程像素间的强弱语义关系,实现上下文信息的全局交互,弥补了CNN在特征映射能力上的不足[17-21]。2017年,Google团队首次提出了Transformer网络,网络首次提出了自注意力机制,使得模型能够在全局范围内关注信息,而非仅依赖于局部上下文信息,丰富了深度学习模型的设计思路[22]。2020年,Google团队提出了ViT模型(an image is worth 16×16 words:Transformers for image recognition at scale,ViT),它首次将Transformer架构引入到视觉领域,提出将输入图像划分为固定大小的图像块并输入到Transformer模型中,并利用位置编码来补充输入数据,使Transformer模型能够有效处理图像信息[23]。2021年,Liu等[24]提出了Swin Transformer网络(hierarchical vision transformer using shifted windows,Swin Transformer),提出了一种层次化的架构设计,引入了局部窗口自注意力机制,模型通过在局部窗口内计算自注意力来减少计算复杂度,并采用窗口移位策略增强了模型对全局信息的捕获能力。2021年,Wang等[25]提出了Uformer网络(a general u-shaped transformer for image restoration,Uformer),该网络引入了一种基于UNet的全新框架,结合了UNet与Transformer的特征,通过有效整合局部特征和全局上下文信息,在图像去噪任务上有良好的效果。2022年,Syed等[26]提出了Restormer(efficient transformer for high-resolution image restoration,Restormer),网络使用多头转置注意力聚合局部和非局部像素的交互,并采用一种新的双路门控网路作为前馈层处理特征信息,在图像去噪任务上取得了不错的表现。

    Restormer利用多头注意力机制能够有效捕获全局上下文信息[27-30],但对局部特征信息建模的能力不足。同时,对于不同编码器和解码器之间,Restormer仅使用跳跃连接,这限制了模型跨层特征的协同建模能力,难以充分融合不同层次之间的特征信息。针对上述问题,本文提出一种基于多注意力融合和特征融合机制的增强Restormer网络(enhanced restormer for low-dose CT image reconstruction based on multi-attention fusion,ERestormer),提升模型对图像特征信息的提取能力且增强了多尺度特征的融合效果。综上所述,本文的主要贡献如下:

    (1)设计一个多注意力融合模块。该模块通过混合多种注意力机制的方式增强模型对全局特征信息的捕获能力和对局部特征信息的关联能力。

    (2)设计一个特征融合模块。通过融合编解码器不同尺度的特征信息,从而增强网络恢复高分辨率细节信息的能力。

    (3)实验结果表明与五种经典的深度学习网络相比,本文提出的网络模型在低剂量CT图像去噪任务上取得了最优的效果。

    图1所示,本文设计一个编码器-解码器层次结构的U型网络结构,该网络结构分为特征提取和特征融合两个阶段。给定退化图像$ I\in {\mathbb{R}}^{H\times W\times 1} $,网络首先应用$ 3\times 3 $卷积来获得浅层特征$ {F}_{0}={\mathbb{R}}^{H\times W\times C} $,其中$ H\times W $表示空间维度,$ C $表示通道数。然后将这些浅层特征$ {F}_{0} $输入到编码器中进行编码处理。通过对每层编码器的输出特征图进行下采样操作得到深层特征$ {F}_{1}\in {\mathbb{R}}^{\textstyle\frac{H}{8}\times \frac{W}{8}\times 8 C} $。深层特征通过进一步提取高级语义信息得到特征图$ {F}_{2}\in {\mathbb{R}}^{\textstyle\frac{H}{8}\times \frac{W}{8}\times 8 C} $。解码器将低分辨率的特征$ {F}_{2} $作为输入,通过上采样操作逐步恢复图像信息。为此,编码器特征通过跳跃连接与解码器特征级联,级联操作之后是$ 1\times 1 $卷积,用来减少级联之后的通道数。其中,网络在第3层的跳跃连接处添加特征融合模块,先对编码器与瓶颈层的特征图进行融合处理,再将融合结果与解码器特征图进行拼接。通过编码器-解码器的处理,网络得到细化后的特征$ {F}_{3}\in {\mathbb{R}}^{H\times W\times \text{2 C}} $。最后,对细化后的特征进行$ 3\times 3 $卷积处理,得到残差图像$ R\in {\mathbb{R}}^{H\times W\times 1} $,并将其与退化图像相加,得到复原图像${I}=\text{I+R} $

    图  1  ERestormer网络结构图
    Figure  1.  ERestormer network structure diagram

    Restormer使用多头转置注意力(multi-dconv head transposed attention,MDTA)捕获远距离像素间的相互作用,但是其使用的点积注意力主要建模通道之间的全局依赖关系,缺乏对图像的空间位置依赖,不能对细粒度噪声进行有效地处理。并且,多头转置注意力缺乏对特征图细粒度局部特征的捕获能力。为了增强网络对局部特征信息的关联能力和对全局特征信息的捕获能力,本文设计了一个多注意力融合模块(multi-attention fusion block,MAB),网络结构如图2所示。该模块由基于通道注意力的卷积块(channel attention block,CAB)、感受野注意力(receptive field attention,RFA)与多头转置注意力相互并行构成新的多注意力机制。混合注意力模块主要由层归一化、混合注意力和前馈层组成。计算公式如式(1)~式(3)所示。

    图  2  多注意力融合模块网络结构图
    Figure  2.  Network structure diagram of multi-attention fusion block
    $$ {X}_{1}=\text{LN}\left(X\right) \text{,} $$ (1)
    $$ {X}_{2}=\text{CAB}\left({X}_{1}\right)\text{+MDTA}\left({X}_{1}\right)\text{+RFA}\left({X}_{1}\right)\text+{\text{X}}_{1} \text{,} $$ (2)
    $$ {X}_{3}=\text{GDFN}\Big(\text{LN}\left({X}_{2}\right)\Big)\text+{\text{X}}_{2} 。 $$ (3)

    在低剂量CT图像去噪任务中,图像的不同通道中通常包含了不同类型的特征,例如纹理、边缘和全局上下文信息,而噪声可能随机分布在所有通道中。本文应用通道注意力来动态分配权重信息,从而突出重要的通道特征,同时抑制无关的通道信息,在去除噪声的同时能够保留更多有意义的细节信息,增强网络模型对图像恢复的能力。

    通道注意力模块的网络结构图如下图3(a)所示[31]。CAB由两个标准卷积层组成,具有GELU激活层和通道注意(CA)模块。因为基于Transformer的结构通道需要高维通道来完成特征编码的操作,所以使用不改变通道数的卷积会产生很大的计算成本。因此通过常数r来压缩两个卷积层的通道数。对于具有C个通道的输入特征,在经过第一层卷积层之后的输出特征的通道数被压缩到$ \text{C/r} $,然后特征通过第二层卷积层被恢复到原来的C个通道,其中常数r设置为16。接下来,利用标准的CA模块自适应地重新缩放通道特征。计算公式如式(4)~(5)所示。

    图  3  通道注意力和感受野注意力网络结构图
    Figure  3.  Network structure diagram of channel attention and receptive field attention
    $$ {X}_{1}=\text{Con}{\text{v}}_{3\times 3}\bigg(\text{GELU}\Big(\text{Con}{\text{v}}_{3\times 3}\left(X\right)\Big)\bigg) \text{,} $$ (4)
    $$ {X}_{2}=\sigma \left(\text{AvgPool}\Bigg(\text{Con}{\text{v}}_{3\times 3}\bigg(\text{GELU}\Big(\text{Con}{\text{v}}_{3\times 3}\left({X}_{1}\right)\Big)\bigg)\Bigg)^{\,}\right)+{X}_{1} 。 $$ (5)

    其中,$ \sigma $为Sigmoid激活函数。

    虽然多头注意力机制擅长建模全局关系,但是对局部细节特征的捕获能力相对较弱。然而低剂量CT图像去噪任务通常需要同时关注全局结构和局部细节信息。为了增强网络模型对局部特征的建模能力,提升网络对细节纹理信息的捕获能力,我们在多注意力融合模块中加入了感受野注意力[32]。感受野注意力通过结合深度卷积、通道注意力机制和空间注意力机制,增强局部感受野和动态加权特征来提升模型对不同位置特征信息的捕获能力,从而弥补多头注意力机制在细节建模上的不足。

    感受野注意力的网络结构如下图3(b)所示。感受野注意力模块首先将特征图通过深度卷积生成多尺度的特征图,将这些特征图调整为固定形状后与SE模块的输出逐元素相乘,增强对重要通道的关注;同时,将调整为固定形状的特征图进行最大池化和平均池化提取特征的空间位置信息,将它们进行拼接后输入到一个卷积核大小为$ 3\times 3 $的卷积层生成感受野注意力权重;最后感受野注意力权重用于加权生成特征图,实现对重要特征的增强和不相关区域的抑制,并通过最后的$ 3\times 3 $卷积层生成输出特征。计算公式如式(6)~式(8)所示。

    $$ {X}_{1}=\text{SE}\left({X}_{0}\right)\times \text{DSCon}{\text{v}}_{3\times 3}\left({X}_{0}\right) \text{,} $$ (6)
    $$ {X}_{2}=\sigma \Bigg(\text{Con}{\text{v}}_{3\times 3}\bigg[\Big(\text{AvgPool}\left({X}_{0}\right);\text{MaxPool}\left({X}_{0}\right)\Big)\bigg]\Bigg) \text{,} $$ (7)
    $$ {X}_{3}=\text{Con}{\text{v}}_{3\times 3}\left({X}_{1}\times {X}_{2}\right) 。 $$ (8)

    因为不同层次的特征具有不同的感受野和细节信息,其中低层次特征包含更多的局部信息,而高层次特征更具有语义信息。在Restormer中,编解码器之间仅使用简单的跳跃连接来融合特征信息,这种方式会损失很多特征细节信息,不能使编码器特征与解码器特征进行有效地融合。为了结合这些不同层次的特征,提升模型对特征的融合能力,本文设计了一个特征融合模块(Feature Fusion Module,FFM)添加在跳跃连接处来帮助解码器恢复高分辨率细节信息[33]。特征融合模块通过结合局部注意力和全局注意力机制,动态平衡编码器和解码器的特征融合,通过关注特征间的相关性和重要性来增强特征表达能力,缓解网络模型中的信息流失问题。特征融合模块的网络结构如下图4所示。

    图  4  特征融合模块网络结构图
    Figure  4.  Network structure diagram of feature fusion module

    给定编码器和解码器的输入特征图为$ x' $$ x'' $,局部注意力中使用两层卷积、批归一化层和LeakyReLU激活函数对输入特征图$ x' $提取局部特征,保留了输入特征图的局部信息。而全局注意力使用全局平均池化将输入特征图$ x'' $压缩到$ 1\times 1 $大小,提取全局信息,然后通过两层卷积、批归一化层和LeakyReLU激活函数重构全局信息。将通过局部和全局注意力得到的输出特征图相加并输入Sigmoid函数,生成注意力权重并与特征图$ x' $$ x'' $进行加权融合,得到更新后的特征。第二次注意力计算与第一次类似,通过对加权融合后的特征图再次进行特征的提取和融合,以进一步地优化特征表示。特征融合模块通过局部和全局注意力提取特征的局部和全局信息,使特征融合得更加充分。并且通过注意力机制动态生成权重信息,有效抑制了不重要的特征区域,突出了对网络有利的特征区域。计算公式如式(9)~式(13)所示。

    $$ x=x'+x'' \text{,} $$ (9)
    $$ {F}_{1}=\text{Con}{\text{v}}_{3\times 3}\Bigg(\text{LeakyReLU}\bigg(\text{BN}\Big(\text{Con}{\text{v}}_{3\times 3}\left(x\right)\Big)\bigg)\Bigg) \text{,} $$ (10)
    $$ {F}_{2}=\text{Con}{\text{v}}_{3\times 3}\left(\text{LeakyReLU}\Bigg(\text{BN}\bigg(\text{Con}{\text{v}}_{3\times 3}\Big(\text{GAP}\left(x\right)\Big)\bigg)\Bigg)\right) \text{,} $$ (11)
    $$ {F}_{3}={F}_{1}+{F}_{2} \text{,} $$ (12)
    $$ {F}_{4}=x'\times \text{Sigmoid}\left({F}_{3}\right)+x''\times \Big(1-\text{Sigmoid}\left({F}_{3}\right)\Big) 。 $$ (13)

    为了衡量所构建的网络的有效性,我们选择了来自癌症成像档案馆(TCIA)的AAPM Mayo诊所在2016年更新后的低剂量CT挑战大赛的数据集。该数据集是从140例患者中收集的3种CT扫描类型,分别包括腹部、肺部和头部的CT图像,收集自48,49和42例患者。每个患者的数据包括1/4剂量CT图像和相应的正常剂量CT图像。

    本文从该数据集中选取了5000对数据,图像的大小为$ 256\times 256 $,其中80%作为训练集,10%作为验证集,10%作为测试集。

    运行该实验所使用的CPU为Montage Jintide(R) C08101 2.10 GHz,GPU为NVIDIA Geforce GTX 3090,实验在Windows10操作系统下使用Python语言Pytorch深度学习框架进行训练。初始学习率为$ 3\times 1{0}^{-4} $,训练过程中的batchsize为4,训练轮数为120。损失函数设置为Charbonnier损失函数。

    本文使用峰值信噪比(PSNR)、结构相似性(SSIM)、均方根误差(RMSE)这3种图像质量评估指标来评价网络的性能。PSNR是一中常见的衡量图像质量的方法,通过峰值信号的差异来反映图像质量;SSIM通过比较两个图像的结构相似性来评估图像质量;RMSE是一种基于像素误差的图像质量客观评价指标,用于衡量融合图像和理想参考图像之间的差异。计算公式如式(14)~式(16)所示:

    $$ \text{PSNR}=10\times log{}_{10}\left(\frac{\text{Ma}{\text{x}}^{2}}{\text{RMSE}}\right) \text{,} $$ (14)
    $$ \text{SSIM}\left(\text{x,y}\right)=\frac{\left(\text{2}{\text{μ}}_{x}{\mu }_{y}\text+{\text{C}}_{1}\right)\left(\text{2}{\text{σ}}_{\text{xy}}\text+{\text{C}}_{2}\right)}{\left({\mu }_{x}^{2}\text+{\text{μ}}_{y}^{2}\text+{\text{C}}_{1}\right)\left({\sigma }_{x}^{2}\text+{\text{σ}}_{y}^{2}\text+{\text{C}}_{2}\right)} \text{,} $$ (15)
    $$ \text{RMSE=}\sqrt{\frac{\displaystyle\sum _{\text{i=1}}^{N}\displaystyle\sum _{\text{j=1}}^{N}{\left({x}_{\text{i,j}}-{\text{y}}_{\text{i,j}}\right)}^{2}}{{N}^{2}}} \text{,} $$ (16)

    其中,Max表示为图像的最大灰度值,x表示为低剂量CT图像,y表示为高质量图像;$ {\mu }_{x} $表示为x的均值,$ {\mu }_{y} $表示为y的均值,$ {\sigma }_{x}^{2} $表示为x的方差,$ {\sigma }_{y}^{2} $表示为y的方差,$ {\sigma }_{xy} $表示为x和y的协方差;C1,C2为常数。

    为了评估本文方法在低剂量CT图像重建中的性能,实验采取了五种经典的深度学习神经网络DNCNN,RED-CNN,UNet,Uformer和Restormer与ERestormer进行比较,并采用PSNR、SSIM、RMSE作为评价指标来定量评估不同网络在低剂量CT图像重建中的性能。

    从测试集中随机挑选一张肺部CT图像用来展示不同算法的实验结果。如图5图6所示,对于肺部CT图像的恢复,我们的网络模型展示出来的效果最佳。其中,DNCNN重建图像存在的噪声较为明显;RED-CNN重建图像仍存在能用肉眼观察到的噪声;UNet重建图像存在的噪声有所缓和,但是其部分图像细节并不能完整的恢复;Uformer和Restormer重建图像不存在能够用肉眼观察到的噪声,并且能够恢复部分局部组织的细节信息;ERestormer重建出来的图像噪声表现得更好,细节信息恢复得更多,在上述网络中达到了最好的效果。

    图  5  低剂量肺部CT图像去噪结果图;显示窗口为[0, 1]
    Figure  5.  Denoising results of low-dose lung CT images; the display window is [0, 1].
    图  6  低剂量肺部CT图像去噪结果局部放大图;显示窗口为[0, 1]
    Figure  6.  Local magnification of denoising results of low-dose lung CT images; the display window is [0, 1].

    由下表1中的数据可知,本文所提出的网络模型在PSNR、SSIM和RMSE指标上都优于其他的五种模型,其中,ERestormer的PSNR比Uformer和Restormer分别高出0.3725 dB和0.3003 dB,SSIM分别高出0.00280.0026,RMSE分别降低了0.00070.0006。上述数据表明了该模型可以在有效去除图像噪声的同时保留图像更多的细节信息。

    表  1  6种网络的低剂量CT图像重建实验结果
    Table  1.  Results of low-dose CT image reconstruction experiments of six types of networks
    算法 PSNR SSIM RMSE
    DNCNN  32.1194 0.8776 0.0268
    RED-CNN 33.9776 0.8850 0.2226
    UNet    34.7074 0.8935 0.0209
    Uformer  34.9080 0.8961 0.0203
    Restormer 34.9352 0.8963 0.0202
    ERestormer 35.2355 0.8989 0.0196
    下载: 导出CSV 
    | 显示表格

    为了进一步探索ERestormer网络中不同模块对低剂量CT图像重建的影响,我们进行了相关的消融实验:①无通道注意力,②无感受野注意力,③无通道注意力和感受野注意力,④无特征融合。如下图7,无感受野注意力与无通道注意力和感受野注意力的低剂量CT肺部图像比较模糊,缺少大量细节信息。无通道注意力和无特征融合的低剂量CT肺部图像较为清晰,但是损失少量细节信息。详细信息如图7图8所示。

    图  7  低剂量肺部CT图像去噪结果图;显示窗口为[0, 1]
    Figure  7.  Denoising results of low-dose lung CT images; the display window is [0, 1]
    图  8  低剂量肺部CT图像去噪结果局部放大图;显示窗口为[0, 1]
    Figure  8.  Local magnification of denoising results of low-dose lung CT image; the display window is [0, 1]

    我们采用PSNR、SSIM、RMSE作为评价指标,评价不同模块对低剂量CT图像重建的影响。由表2的数据所显示,感受野注意力对网络的影响是最大的,特征融合模块其次,通道注意力对网络的影响是最小的。但是这三者对网络的去噪性能都起到了关键的作用。

    表  2  消融实验结果
    Table  2.  Results of ablation experiment
    消融实验 PSNR SSIM RMSE
    ERestormer 35.2355 0.8989 0.0196
    no rfa+cab 34.9771 0.8974 0.0199
    no ffm   35.1789 0.8984 0.0196
    no rfa   35.1312 0.8981 0.0197
    no cab   35.2045 0.8988 0.0196
    下载: 导出CSV 
    | 显示表格

    特征融合模块通过两次注意力计算,逐步提炼并融合特征,丰富特征的表达能力并增强模型的去噪性能。因此,为了确定该模块在网络中的作用机制,我们对其在网络中的最佳部署位置和具体结构进行讨论。目前有两种具体的方案:第1种方法是在跳跃连接处逐层添加特征融合模块,第2种方法是在每一层的跳跃连接处分别单独添加特征融合模块。

    在ERestormer网络中,随着编码器-解码器层数的降低,输入的特征图尺寸会依次减小,但是特征图中所包含的全局信息会变得更加高级。为了更好地利用这些全局信息,本文采用自下而上地方式逐层添加特征融合模块。ERestormer3-2-1代表特征融合模块加在第3层、第2层和第1层跳跃连接处。ERestormer3-2代表特征融合模块添加在第3层和第2层跳跃连接处。ERestormer3代表特征融合模块添加在第3层跳跃连接处。从测试集中随机挑选一张腹部CT图像用来展示特征融合模块在逐层级的跳跃连接处的实验结果。如下图所示,将特征融合模块添加在网络的第3层跳跃连接处能够获得最佳的性能,详细信息如下图9图10所示。

    图  9  低剂量腹部CT图像去噪结果图;显示窗口为[0, 1]
    Figure  9.  Denoising results of low-dose abdominal CT images; the display window is [0, 1]
    图  10  低剂量腹部CT图像去噪结果局部放大图;显示窗口为[0, 1]
    Figure  10.  Local magnification of denoising results of low-dose abdominal CT images; the display window is [0, 1]

    我们采用PSNR、SSIM、RMSE作为评价指标,对特征融合模块逐层添加在跳跃连接处的低剂量CT图像的重建质量进行定量评估。根据表3中的数据所展示,将特征融合模块添加在第3层跳跃连接处能够使得网络模型的性最优。

    表  3  特征融合模块逐层增加的定量结果比较
    Table  3.  Comparison of quantitative results of layer-by-layer addition of feature fusion modules
    特征融合模块的位置 PSNR SSIM RMSE
    ERestormer3 35.2355 0.8989 0.0196
    ERestormer3-2 35.2267 0.8986 0.0196
    ERestormer3-2-1 35.2033 0.8985 0.0197
    下载: 导出CSV 
    | 显示表格

    本文将特征融合模块按照从下到上的顺序添加到网络的跳跃连接处。ERestormer3、ERestormer2和ERestormer1分别表示跳跃连接模块在第3层、第2层和第1层跳跃连接处。如图11所示,特征融合模块单独添加在网络的第3层跳跃连接处能够使得网络达到最好的性能。详细信息如图12所示。

    图  11  低剂量肺部CT图像去噪结果图;显示窗口为[0, 1]
    Figure  11.  Denoising results of low-dose lung CT images; the display window is [0, 1]
    图  12  低剂量肺部CT图像去噪结果局部放大图;显示窗口为[0, 1]
    Figure  12.  Local magnification of de-noising results of low-dose lung CT images; the display window is [0, 1]

    我们采用PSNR、SSIM、RMSE作为评价指标,对特征融合模块单独添加在跳跃连接处的低剂量CT图像的重建质量进行定量评估。根据表4中的数据所展示,将特征融合模块单独添加在第3层跳跃连接处能够使得网络模型的性能最优。

    表  4  特征融合模块各层中的定量结果比较
    Table  4.  Comparison of quantitative results in each layer of feature fusion module
    特征融合模块的位置PSNRSSIMRMSE
    ERestormer335.23550.89890.0196
    ERestormer235.18680.89820.0197
    ERestormer135.13770.89770.0197
    下载: 导出CSV 
    | 显示表格

    综上所述,将特征融合模块单独地添加在跳跃连接第3层可以显著优化网络的整体性能,使网络模型在低剂量CT图像去噪任务中实现最佳效果,显著提高模型的图像重建质量。

    本文针对低剂量CT图像去噪问题,提出一种基于多注意力融合的增强Restormer网络,该网络结合通道注意力和感受野注意力,增强了特征表示能力与精确捕捉空间特征信息能力。通过特征融合模块整合编码器和解码器之间的多尺度特征,充分融合了图像恢复所需的细节信息和整体结构特征,从而显著提升了去噪性能。实验证明,与DNCNN、RED-CNN、UNet、Uformer和Restormer五种经典网络相比,ERestormer在有效去噪的同时能够更好地保留图像的细节信息。

  • 图  1   ERestormer网络结构图

    Figure  1.   ERestormer network structure diagram

    图  2   多注意力融合模块网络结构图

    Figure  2.   Network structure diagram of multi-attention fusion block

    图  3   通道注意力和感受野注意力网络结构图

    Figure  3.   Network structure diagram of channel attention and receptive field attention

    图  4   特征融合模块网络结构图

    Figure  4.   Network structure diagram of feature fusion module

    图  5   低剂量肺部CT图像去噪结果图;显示窗口为[0, 1]

    Figure  5.   Denoising results of low-dose lung CT images; the display window is [0, 1].

    图  6   低剂量肺部CT图像去噪结果局部放大图;显示窗口为[0, 1]

    Figure  6.   Local magnification of denoising results of low-dose lung CT images; the display window is [0, 1].

    图  7   低剂量肺部CT图像去噪结果图;显示窗口为[0, 1]

    Figure  7.   Denoising results of low-dose lung CT images; the display window is [0, 1]

    图  8   低剂量肺部CT图像去噪结果局部放大图;显示窗口为[0, 1]

    Figure  8.   Local magnification of denoising results of low-dose lung CT image; the display window is [0, 1]

    图  9   低剂量腹部CT图像去噪结果图;显示窗口为[0, 1]

    Figure  9.   Denoising results of low-dose abdominal CT images; the display window is [0, 1]

    图  10   低剂量腹部CT图像去噪结果局部放大图;显示窗口为[0, 1]

    Figure  10.   Local magnification of denoising results of low-dose abdominal CT images; the display window is [0, 1]

    图  11   低剂量肺部CT图像去噪结果图;显示窗口为[0, 1]

    Figure  11.   Denoising results of low-dose lung CT images; the display window is [0, 1]

    图  12   低剂量肺部CT图像去噪结果局部放大图;显示窗口为[0, 1]

    Figure  12.   Local magnification of de-noising results of low-dose lung CT images; the display window is [0, 1]

    表  1   6种网络的低剂量CT图像重建实验结果

    Table  1   Results of low-dose CT image reconstruction experiments of six types of networks

    算法 PSNR SSIM RMSE
    DNCNN  32.1194 0.8776 0.0268
    RED-CNN 33.9776 0.8850 0.2226
    UNet    34.7074 0.8935 0.0209
    Uformer  34.9080 0.8961 0.0203
    Restormer 34.9352 0.8963 0.0202
    ERestormer 35.2355 0.8989 0.0196
    下载: 导出CSV

    表  2   消融实验结果

    Table  2   Results of ablation experiment

    消融实验 PSNR SSIM RMSE
    ERestormer 35.2355 0.8989 0.0196
    no rfa+cab 34.9771 0.8974 0.0199
    no ffm   35.1789 0.8984 0.0196
    no rfa   35.1312 0.8981 0.0197
    no cab   35.2045 0.8988 0.0196
    下载: 导出CSV

    表  3   特征融合模块逐层增加的定量结果比较

    Table  3   Comparison of quantitative results of layer-by-layer addition of feature fusion modules

    特征融合模块的位置 PSNR SSIM RMSE
    ERestormer3 35.2355 0.8989 0.0196
    ERestormer3-2 35.2267 0.8986 0.0196
    ERestormer3-2-1 35.2033 0.8985 0.0197
    下载: 导出CSV

    表  4   特征融合模块各层中的定量结果比较

    Table  4   Comparison of quantitative results in each layer of feature fusion module

    特征融合模块的位置PSNRSSIMRMSE
    ERestormer335.23550.89890.0196
    ERestormer235.18680.89820.0197
    ERestormer135.13770.89770.0197
    下载: 导出CSV
  • [1]

    BRENNER D J, HALL E J. Computed tomography—an increasing source of radiation exposure[J]. New England Journal of Medicine, 2007, 357(22): 2277-2284. DOI: 10.1056/NEJMra072149.

    [2]

    QIAO Z, LU Y, LIU P, et al. An iterative reconstruction algorithm without system matrix for EPR imaging[J]. Journal of Magnetic Resonance, 2022, 344: 107307. DOI: 10.1016/j.jmr.2022.107307.

    [3]

    QIAOZ, ZHANG Z, PAN X, et al. Optimization-based image reconstruction from sparsely sampled data in electron paramagnetic resonance imaging[J]. Journal of Magnetic Resonance, 2018, 294: 24-34. DOI: 10.1016/j.jmr.2018.06.015.

    [4]

    QIAO Z, LIU P, FANG C, et al. Directional TV algorithm for image reconstruction from sparse-view projections in EPR imaging[J]. Physics in Medicine & Biology, 2024, 69(11): 115051.

    [5]

    FANG C, XI Y, EPEL B, et al. Directional TV algorithm for fast EPR imaging[J]. Journal of Magnetic Resonance, 2024, 361: 107652. DOI: 10.1016/j.jmr.2024.107652.

    [6] 马靓怡, 乔志伟. 基于Chambolle-Pock框架的核TV多通道图像重建算法[J]. CT理论与应用研究, 2022, 31(6): 731-747. DOI: 10.15953/j.ctta.2022.111.

    MA J Y, QIAO Z W. Nuclear TV multi-channel image reconstruction algorithms based on Chambolle-pock framework[J]. CT Theory and Applications, 2022, 31(6): 731-747. DOI: 10.15953/j.ctta.2022.111.

    [7] 张家浩, 乔志伟. 基于相对TV最小的CT图像重建算法[J]. CT理论与应用研究, 2023, 32(2): 153-169. DOI: 10.15953/j.ctta.2022.190.

    ZHANG J H, QIAO Z W. Computed tomography reconstruction algorithm based on relative total variation minimization[J]. CT Theory and Applications, 2023, 32(2): 153-169. DOI: 10.15953/j.ctta.2022.190.

    [8]

    LIU P, FANG C, QIAO Z. A dense and U-shaped transformer with dual-domain multi-loss function for sparse-view CT reconstruction[J]. Journal of X-Ray Science and Technology, 2024(Preprint): 1-22.

    [9]

    LIU P, ZHANG Y, XI Y, et al. PU-CDM: A pyramid UNet based conditional diffusion model for sparse-view reconstruction in EPRI[J]. Biomedical Signal Processing and Control, 2025, 100: 107182. DOI: 10.1016/j.bspc.2024.107182.

    [10]

    YAN H, FANG C, QIAO Z. A multi-attention Uformer for low-dose CT image denoising[J]. Signal, Image and Video Processing, 2024, 18(2): 1429-1442. DOI: 10.1007/s11760-023-02853-z.

    [11]

    ZHANG K, ZUO W, CHEN Y, et al. Beyond a gaussian denoiser: Residual learning of deep cnn for image denoising[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3142-3155. DOI: 10.1109/TIP.2017.2662206.

    [12]

    CHEN H, ZHANG Y, KALRA M K, et al. Low-dose CT with a residual encoder-decoder convolutional neural network[J]. IEEE Transactions on Medical Imaging, 2017, 36(12): 2524-2535. DOI: 10.1109/TMI.2017.2715284.

    [13]

    GUO S, YAN Z, ZHANG K, et al. Toward convolutional blind denoising of real photographs[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 1712-1722.

    [14]

    ZHAO Y, JIANG Z, MEN A, et al. Pyramid real image denoising network[C]//2019 IEEE Visual Communications and Image Processing (VCIP). IEEE, 2019: 1-4.

    [15]

    CHEN L, CHU X, ZHANG X, et al. Simple baselines for image restoration[C]//European conference on computer vision. Cham: Springer Nature Switzerland, 2022: 17-33.

    [16]

    ANWAR S, BARNES N. Real image denoising with feature attention[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 3155-3164.

    [17]

    CHEN J, YU Q, SHEN X, et al. ViTamin: Designing Scalable Vision Models in the Vision-Language Era[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 12954-12966.

    [18]

    CHEN X, LI H, LI M, et al. Learning a sparse transformer network for effective image deraining[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 5896-5905.

    [19] 乔一瑜, 乔志伟. 基于CNN和Transformer耦合网络的低剂量CT图像重建方法[J]. CT理论与应用研究, 2022, 31(6): 697-707+694. DOI: 10.15953/j.ctta.2022.114.

    QIAO Y Y, QIAO Z W. Low-dose CT image reconstruction method based on CNN and transformer coupling network[J]. CT Theory and Applications, 2022, 31(6): 697-707. DOI: 10.15953/j.ctta.2022.114.

    [20] 樊雪林, 文昱齐, 乔志伟. 基于Transformer增强型U-net的CT图像稀疏重建与伪影抑制[J]. CT理论与应用研究, 2024, 33(1): 1-12. DOI: 10.15953/j.ctta.2023.183.

    FAN X L, WEN Y Q, QIAO Z W. Sparse reconstruction of computed tomography images with transformer enhanced U-net[J]. CT Theory and Applications, 2024, 33(1): 1-12. DOI: 10.15953/j.ctta.2023.183.

    [21] 魏屹立, 杨子元, 夏文军, 等. 基于子空间投影和边缘增强的低剂量CT去噪[J]. CT理论与应用研究, 2022, 31(6): 721-729. DOI: 10.15953/j.ctta.2022.108.

    WEI Y L, YANG Z Y, XIA W J, et al. Low-dose CT denoising based on subspace projection and edge enhancement[J]. CT Theory and Applications, 2022, 31(6): 721-729. DOI: 10.15953/j.ctta.2022.108.

    [22]

    VASWANI A. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017.

    [23]

    DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[C]//Proceedings of the 9th International Conference on Learning Representations. Austria: OpenReview. net, 2021.

    [24]

    LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 10012-10022.

    [25]

    WANG Z, CUN X, BAO J, et al. Uformer: A general u-shaped transformer for image restoration[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 17683-17693.

    [26]

    ZAMIR S W, ARORA A, KHAN S, et al. Restormer: Efficient transformer for high-resolution image restoration[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 5728-5739.

    [27]

    WANG T, ZHANG K, SHEN T, et al. Ultra-high-definition low-light image enhancement: A benchmark and transformer-based method[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2023, 37(3): 2654-2662.

    [28]

    XU S, SUN Z, ZHU J, et al. DemosaicFormer: Coarse-to-Fine Demosaicing Network for HybridEVS Camera[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 1126-1135.

    [29]

    OUYANG D, HE S, ZHANG G, et al. Efficient multi-scale attention module with cross-spatial learning[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.

    [30]

    TU Z, TALEBI H, ZHANG H, et al. Maxim: Multi-axis mlp for image processing[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 5769-5780.

    [31]

    CHEN X, WANG X, ZHOU J, et al. Activating more pixels in image super-resolution transformer[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 22367-22377.

    [32]

    ZHANG X, LIU C, YANG D, et al. RFAConv: Innovating spatial attention and standard convolutional operation[J]. ArXiv, 2304: abs/2304.03198.

    [33]

    DAI Y, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]//Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2021: 3560-3569.

图(12)  /  表(4)
计量
  • 文章访问数:  307
  • HTML全文浏览量:  32
  • PDF下载量:  36
  • 被引次数: 0
出版历程
  • 收稿日期:  2025-02-17
  • 修回日期:  2025-02-24
  • 录用日期:  2025-02-27
  • 网络出版日期:  2025-03-18

目录

/

返回文章
返回
x 关闭 永久关闭