Sparse Reconstruction of Computed Tomography Images with Transformer Enhanced U-net
-
摘要:
实现低剂量计算机断层成像(CT)的一个有效办法是减少投影角度,但投影角度较少会产生严重的条状伪影,降低图像的临床使用价值。针对该问题,提出一种耦合卷积神经网络(CNN)和多种注意力机制的U型网络(TE-unet)。首先采用U型架构提取多尺度特征信息;其次提出一个包含CNN和多种注意力的模块提取图像特征;最后在跳跃连接处加入Transformer块过滤信息,抑制不相关特征,突出重要特征。所提网络结合CNN的局部特征提取能力和Transformer的全局信息捕获能力,辅以多种注意力机制,实现了良好的去条状伪影能力。在60个投影角度下,与经典的Uformer网络相比,峰值信噪比(PSNR)高出0.3178 dB,结构相似度(SSIM)高出0.002,均方根误差(RMSE)降低0.0005。实验结果表明,所提TE-unet重建的图像精度更高,图像细节保留的更好,可以更好地压制条状伪影。
-
关键词:
- 稀疏重建 /
- 计算机断层成像 /
- Transformer /
- 多注意力机制 /
- 条状伪影
Abstract:An effective way to achieve low-dose computed tomography (CT) is to reduce the projection angle while maintaining the same radiation dose at each angle. However, a fewer projection angle can result in severe strip artifacts, reducing the practicality and clinical value of the image. To address this issue, a U-shaped network (Transformer Enhanced U-net, TE-unet) coupled with convolutional neural network (CNN) and multiple attention mechanisms was proposed. Firstly, a U-shaped architecture was adopted to fuse multi-scale feature information; Secondly, a module that includes CNN and multiple types of attention was proposed to extract image features; Finally, transformer blocks were added at skip connections to filter information, suppress irrelevant features, and highlight important features. This network combines the local feature extraction ability of CNN and the global information capture ability of Transformer, supplemented by various attention mechanisms, to achieve good ability to remove stripe artifacts. At 60 projection angles, compared to the classic uformer network, peak signal to noise ratio (PSNR) is 0.3178 dB higher, Structural Similarity (SSIM) is 0.002 higher, and Root Mean Square Error (RMSE) is 0.0005 lower. The experimental results show that the proposed TE-unet network reconstructs images with higher accuracy, preserves better image details, and can better suppress strip artifacts.
-
计算机断层成像(computed tomography,CT)[1]是当前应用最为广泛的医学成像模态。然而,过高的X射线剂量会对人体造成损害。因此,为了在减少对人体损害的同时满足临床诊断的需求,低剂量CT成为了研究的一个重点。当前,低剂量CT有两种实现方法,一种是降低每个投影角度下的辐射剂量,另一种是在保持每个投影角度下辐射剂量不变的前提下,减少投影角度个数。在稀疏角度下,减少了图像数据的采集和传输量,从而降低了辐射剂量。然而由于投影角度的不足,使用传统解析法稀疏重建的图像会产生严重的条状伪影,降低了图像的可用性。因此,稀疏重建对临床医学诊断有着非常重要的意义。
当前CT图像稀疏重建算法主要有两种,一种是以压缩感知(compressed sensing, CS)[2]为基础的迭代重建算法。迭代法重建精度高,但存在迭代时间长、速度慢和计算成本高等不足。自2006年以来,Sidky等[3-4]提出了扇束和锥束CT总变差(total variation,TV)最小化算法,实现了高精度的CT稀疏重建。随后,学者们在此基础上提出了自适应加权TV(adaptive-weighted total variation,AwTV)[5]、保边TV(edge-preserving TV,EPTV)[6]和高阶TV(high order TV,HOTV)[7]等算法,极大地推动了迭代法的发展。
另一种方法是深度学习法。近年来,基于深度学习的方法在图像恢复任务上取得了杰出的效果。卷积神经网络(convolutional neural network,CNN)由于局部感知、权重共享等优点占据主导地位多年。2017年Chen等[8]提出的(residual encoder-decoder convolutional neural network)网络,将残差连接运用于编码器和解码器之间,在稀疏重建方面取得了不错的效果。
Zhang等[9]提出的DnCNN(denoising convolutional neural network)网络强调了残差学习和Batch Normalization在图像复原中的作用,在较深网络条件下,依然可以较快的收敛并取得良好的性能。Jin等[10]提出的FBPConvNet将传统的滤波反投影(filtered back Projection,FBP)算法与残差U-net结合起来,可以很好地压制条状伪影。Wolterink等[11]将生成对抗网络(generative adversarial network,GAN)应用于低剂量CT图像重建任务,取得了良好的效果。2018年,Oktay等[12]提出的Attention U-Net在跳跃连接处加入Attention对信息进行过滤,使得效果得到了进一步提升。2022年,Chen等[13]提出的NAFnet(nonlinear activ-ation free network)为图像恢复任务提出了一个由CNN和通道注意力组成的基线(Baseline),同时通过SimpleGate替换激活函数,获得了性能的提升。
虽然CNN在图像恢复领域已经取得了令人瞩目的成果,但是CNN对长程依赖建模的效果并不是很理想。Transformer通过自注意力的方式捕获全局信息可以很好的解决以上问题。
2017年,Google团队首先在自然语言处理(natural language pro-cessing,NLP)中提出了Transformer[14],通过自注意力机制,缩短了训练时间,大幅提升了机器翻译的性能。2020年,Gulat等[15]提出的Conformer将Transformer结构中的前向反馈层替换为两个半步的前向反馈层,以提高网络的性能。同年Google团队提出Vision Transformer(ViT)[16],该网络模型首次将Transformer应用于计算机视觉领域中的图像分类任务,通过将图片划分为更小的图像块,然后将小图像块的线性序列作为输入进行训练,取得了很好地效果。ViT的开创性工作表明,纯粹的基于Transformer的架构也可以取得很好地结果。2021年Liu等[17]提出Swin Transformer网络架构,通过对图片进行划分窗口,将注意力的计算限制在一个窗口中,然后利用滑动窗口的操作实现与窗口外像素注意力的计算,在减少了计算量的同时实现了很好地效果。Liang等[18]提出的SwinIR将Transformer应用于图像恢复任务,在浅层阶段采用卷积块,随后在深度特征提取方面使用Transformer,取得了很好地效果。图像恢复任务通常依赖每个阶段的特征来获得更好的结果,因此在保持较低的计算成本的同时,有效的实现大接受域是非常重要的。2021年Wang等[19]提出的Uformer网络结构包括具有局部增强能力的Transformer模块,很好地提取了局部信息,同时使用跳跃连接机制将编码器的信息传递到解码器,取得了良好的图像恢复效果。
但是在计算机视觉中,Transformer的计算复杂度与图像分辨率息息相关。所以在医学图像任务中Transformer面临计算复杂度高的难题,同时Transformer有着提取细粒度局部特征能力较弱的缺点。针对此问题,本文在引入Transformer的同时,通过窗注意力的方式减少计算复杂度,通过耦合CNN和深度卷积弥补其在局部特征提取能力的不足。
综上所述,本文的主要工作如下:
(1)提出一个包含CNN、Transformer和多种注意力[20]的U型网络(transformer enhanced U-net,TE-unet),结合CNN的局部特征提取能力和Transformer的全局特征提取能力,并加入残差连接、特征融合和多种注意力机制,弥补传统CNN和Transformer在处理条状伪影时的一些不足,取得了良好的去条状伪影效果。
(2)设计一个耦合CNN、深度卷积、通道注意力和空间注意力的CCA块(CNN Coupled Attention Block)。
(3)将编码器传递的信息与完成上采样的信息拼接后,引入Transformer块处理拼接后的信息。利用Transformer可以很好地建模长程依赖的优点,对信息进行过滤,抑制无关信息的同时突出重要特征。
1. 本文方法
去条状伪影的本质是要从低质量图片中分离出条状伪影,保留有用信息。本文假定
$ {{\boldsymbol{I}}_{\mathrm{r}}} $ 表示恢复的高质量图片,${\boldsymbol{I}}$ 表示含条状伪影的图片,${\boldsymbol{A}}$ 表示条状伪影。那么${{\boldsymbol{I}}_{\mathrm{r}}}$ 和${\boldsymbol{I}}$ 的关系可以表示为:$$ {{\boldsymbol{I}}_{\mathrm{r}}} = {\boldsymbol{I}} - {\boldsymbol{A}}。 $$ (1) 当前大多数深度学习网络通过设计不同的网络结构直接学习
${\boldsymbol{I}}$ 到${{\boldsymbol{I}}_{\mathrm{r}}}$ 之间的复杂映射:$ {{\boldsymbol{I}}_{\text{r}}} = {f_1}({\boldsymbol{I}}) $ 。然而,研究表明,通过学习含条状伪影图像${\boldsymbol{I}}$ 与条状伪影${\boldsymbol{A}}$ 之间的映射关系,可以得到更好的效果[21]。${{\boldsymbol{I}}_{\text{r}}}$ 和${\boldsymbol{A}}$ 之间的关系可以表示为:$$ {\boldsymbol{A }}= {f_2}({\boldsymbol{I}}) \text{,} $$ (2) $$ {{\boldsymbol{I}}_{\mathrm{r}}} = {\boldsymbol{I}} - {\boldsymbol{A}} = {\boldsymbol{I}} - {f_2}({\boldsymbol{I}})。 $$ (3) 1.1 网络整体结构
本文提出的TE-unet总体结构如图1(a)所示。网络分为特征提取的编码器阶段和特征融合的解码器阶段。
具体过程为:给定含条状伪影图像
${\boldsymbol{I}} \in {R^{H \times W \times 1}}$ ,经过3$ \times $ 3卷积提取浅层特征为${{\boldsymbol{F}}_{\text{s}}} \in {R^{H \times W \times C}}$ ,其中$H \times W$ 是图像的大小,$C$ 是通道数。随后${{\boldsymbol{F}}_{\text{s}}}$ 将通过第一层编码器,编码器包含了若干个CCA块和下采样。CCA块首先利用深度卷积增强局部信息,再利用通道自注意力和空间注意力捕获全局信息。最后使用步长为2的4$ \times $ 4卷积核进行下采样,得到一级编码器的输出特征${{\boldsymbol{F}}_1} \in {R^{H/2 \times W/2 \times 2 C}}$ 。经过4层编码器提取特征后得到深层特征$ {F_{\text{d}}} \in {R^{H/16 \times W/16 \times 16 C}} $ ,随后经过中间转换层处理后,进入到4层解码器中,每一层解码器包含上采样层和多个CCA块。使用步长为2的2$ \times $ 2转置卷积进行上采样,与对应编码器传递的信息在通道维度拼接后得到特征$ {\boldsymbol{F}}_1' \in {R^{H/8 \times W/8 \times 16 C}} $ ,随后将${\boldsymbol{F}}_1' $ 输入到Transformer块中进行处理,包括层归一化(LayerNorm)、窗注意力(W/SW-MSA)、和前向反馈网络(FFN)。突出对图像恢复有帮助的特征,抑制不相关的特征。然后再通过若干CCA块恢复图像特征。在通过4级Transformer块和解码器的处理后,再利用一个3$ \times $ 3卷积得到条状伪影${\boldsymbol{A}} \in {R^{H \times W \times 1}}$ 。最终得到干净图像${{\boldsymbol{I}}_{\mathrm{r}}} ={\boldsymbol{ I}} - {\boldsymbol{A}}$ 。1.2 CCA块
CCA 块结构如图1(b)所示。对于退化图像来说,受损像素点的邻域像素可以被用来恢复图像,所以局部上下文信息在图像恢复中占据着非常重要的地位。因此,本文在CCA块中首先加入深度卷积提取局部特征。深度可分离卷积分为两部分,如图2所示。
首先是逐通道进行3
$ \times $ 3卷积,对输出进行拼接后使用逐点卷积(pointwise convolution)得到特征图${\boldsymbol{x}}'$ 。通过拆分空间维度和通道维度的相关性,减少卷积计算所需要的参数个数,提高卷积核参数的使用效率。然后通过一个简化的通道注意力强调不同通道间的重要性。简化的通道注意力主要分为压缩与恢复两部分。压缩部分使用全局平均池化对$ H \times W \times C $ 的特征图进行压缩得到$1 \times 1 \times C$ 的特征图。恢复部分对压缩后的特征图进行1$ \times $ 1的卷积,得到通道权重信息,用于对特征图进行加权。随后通过空间注意力得到特征图${\boldsymbol{x}}''$ ,空间注意力通过关注不同的空间位置来捕获重要区域的特征,使得网络关注更加重要的区域。最后,通过两个1$ \times $ 1卷积得到CCA块的输出为${\boldsymbol{x}}'''$ 。两个1$ \times $ 1卷积通过升维和降维,实现跨通道的信息交互。CCA块通过几种机制的综合运用,提高了网络学习能力和泛化能力。CCA块计算公式如下:
$$ {\boldsymbol{x}}' = {\text{dw}}{\mathrm{conv}}({\boldsymbol{x}}) \text{,} $$ (4) $$ {\boldsymbol{x}}'' = {\mathrm{SA}}\bigg({\mathrm{Conv}}\Big({\mathrm{CA}}({\boldsymbol{x}}')\Big)\bigg) + x \text{,} $$ (5) $$ {\boldsymbol{x}}''' = {\mathrm{Conv}}({\boldsymbol{x}}'') + {\boldsymbol{x}}'' \text{,} $$ (6) 其中,
${{{\mathrm{dwconv}}}}$ 表示深度卷积,${\mathrm{SA}}$ 表示空间注意力,${\mathrm{CA}}$ 表示通道注意力,${\text{Conv}}$ 表示卷积操作。1.3 Transformer Block
考虑到编码器传递的信息与上采样之后的信息中存在一些与图像恢复任务不相关的信息,本文将两者进行拼接后,送入Transformer块进行处理。利用其中的多头机制将特征表示映射到不同的特征子空间,增强模型的表达能力。通过自注意力机制捕获全局信息,对需要重点关注的区域投入更多资源的同时抑制其他区域的信息,以获取更重要的信息。
Transformer Block的结构如图1(c)所示,包括层归一化、多头自注意力和前馈层。由于Transformer中的全局自注意力机制与图像的分辨率呈二次方关系,导致在高分辨率图片中计算自注意力会带来巨大的计算复杂度。因此,本文将输入划分为
$M \times M$ 大小的不重叠的局部窗口,窗口总数为$HW/{M^2}$ ,则输入转化为$(HW/{M^2}) \times {M^2} \times C$ 。在窗口内进行自注意力${\mathrm{Attention}}$ 的计算(W-MSA),对于窗口特征$ {\boldsymbol{X}} \in {R^{{M^2} \times C}} $ 对应的${\boldsymbol{Q}}$ 、${\boldsymbol{K}}$ 、${\boldsymbol{V}}$ 矩阵计算公式为:$$ \left\{ {\begin{aligned} & {{\boldsymbol{Q}} = {\boldsymbol{X}}{{\boldsymbol{P}}_{\boldsymbol{Q}}}} \\ & {{\boldsymbol{K}} = {\boldsymbol{X}}{{\boldsymbol{P}}_{\boldsymbol{K}}}} \\ & {{\boldsymbol{V}} = {\boldsymbol{X}}{{\boldsymbol{P}}_{\boldsymbol{V}}}} \end{aligned}} \right. \text{,} $$ (7) 其中,
${{\boldsymbol{P}}_{\boldsymbol{Q}}}$ 、${{\boldsymbol{P}}_{\boldsymbol{K}}}$ 、${{\boldsymbol{P}}_{\boldsymbol{V}}}$ 是跨不同窗口的投影矩阵,且${\boldsymbol{Q}}$ 、${\boldsymbol{K}}$ 、$ {\boldsymbol{V}} \in {R^{{M^2} \times d}} $ ,其中d为${\boldsymbol{Q}}/{\boldsymbol{K}}$ 的维度。则自注意力矩阵在对应窗口内的计算公式为:$$ {\mathrm{Attention}} = {\text{soft max}}\left(\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\mathrm{T}}}}}{{\sqrt d }} + {\boldsymbol{B}}\right){\boldsymbol{V}}\text{,} $$ (8) 其中
${\boldsymbol{B}}$ 是可学习的相对位置编码。但是划分窗口会限制窗内外的信息交互,因此本文加入滑动窗口的操作实现窗内外元素的信息交互。传统前向反馈层为两层全连接层,并在其中加入激活函数。但是,这样利用局部上下文信息的能力有限。因此,本文将前向反馈层改为由卷积实现:即两个卷积块加深度卷积。第一个
$1 \times 1$ 卷积用于将通道扩大4倍,随后通过卷积核为$3 \times 3$ 大小的逐通道卷积和GELU(gaussian error linear unit)激活函数,最后用一个$1 \times 1$ 的卷积恢复通道数,融合通道信息。通过卷积提取图像的局部特征,可以更好地利用局部上下文信息,使得恢复图像细节信息更好。Transformer块通过自注意力机制对传递的信息进行处理和提取,自适应的调整不同特征的权重,抑制不相关的特征,突出重要特征。
Transformer块的计算公式如下:
$$ {{t}}' = {\mathrm{W/SW}} - {\mathrm{MSA}}\Big({\mathrm{LayerNorm}}({\boldsymbol{t}})\Big) + {\boldsymbol{t}} \text{,} $$ (9) $$ {\boldsymbol{t}}'' = {{{\mathrm{FFN}}}}\Big({{{\mathrm{LayerNorm}}}}({{t}}')\Big) + {{t}}'\text{,} $$ (10) 其中,
${\mathrm{W/SW - MSA}}$ 表示窗多头自注意力,${\text{LayerNorm}}$ 表示层归一化,${\mathrm{FFN}}$ 表示前馈层。2. 实验结果分析
2.1 数据集创建
实验所用数据来自TCIA数据集(https://www.cancerima-gingarchive.net)。本文从中选取了5600张256×256图像,包括头部、胸部和腹部的完备投影角度下的高精度图像。对高精度图像进行Radon变换得到其稀疏投影数据,再用FBP稀疏重建得到对应的含条状伪影图像。
本文从中选取5000对图像作为训练集,300对图像作为验证集,300对图像作为测试集。
2.2 网络训练超参数设定和实验平台
实验配置CPU是Inter(R) Xeon(R) CPU E5-2620v4 @ 2.10 GHz,GPU是NVIDIA Geforce GTX 3090,使用Pytorch库,在Python上进行训练。初始学习率lr=4.5×10-4,batch size=8,epoch=100。
2.3 评价指标
本文采用峰值信噪比(peak signal to noise ratio,PSNR)、结构相似性(structural similarity,SSIM)、均方根误差(root mean square error,RMSE)、参数量和训练时长这5个指标来评价网络性能。其中,PSNR是衡量重建图像质量的一个重要指标;SSIM是一种衡量两幅图像相似度的指标;RMSE则衡量两幅图像之间的偏差;参数量可以在一定程度上衡量网络大小;训练时长可以衡量网络训练速度。公式如下:
$$ {\mathrm{PNSR}}({\boldsymbol{x}},{\boldsymbol{y}}) = 10 \times \lg \left\{ {\frac{{{\mathrm{MA}}{{\mathrm{X}}^2}}}{{\displaystyle \frac{1}{{{N^2}}}\displaystyle \sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{{\Big({x_{i,j}} - {y_{i,j}}\Big)}^2}} } }}} \right\}\text{,} $$ (11) $$ {\mathrm{SSIM}}({\boldsymbol{x}},{\boldsymbol{y}})=\frac{\Big(2{\mu }_{x}{\mu }_{y}+{{{C}}}_{1}\Big)\Big(2{\sigma }_{xy}+{{{C}}}_{2}\Big)}{\Big({\mu }_{x}^{2}+{\mu }_{y}^{2}+{{{C}}}_{1}\Big)\Big({\sigma }_{x}^{2}+{\sigma }_{y}^{2}+{{{C}}}_{2}\Big)} \text{,} $$ (12) $$ {\mathrm{RMSE}}({\boldsymbol{x}},{\boldsymbol{y}}) = \sqrt {\frac{1}{{{N^2}}}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{{\Big({x_{i,j}} - {y_{i,j}}\Big)}^2}} } } \text{,} $$ (13) 其中,
${\mathrm{MAX}}$ 表示图像的最大灰度值,${\boldsymbol{x}}$ 表示经过网络训练得到的图像,${\boldsymbol{y}}$ 表示高质量图像;${\mu _x}$ 表示${\boldsymbol{x}}$ 的均值,${\mu _y}$ 表示${\boldsymbol{y}}$ 的均值,$\sigma _x^2$ 表示$x$ 的方差,$\sigma _y^2$ 表示$y$ 的方差,${\sigma _{xy}}$ 表示${\boldsymbol{xy}}$ 的协方差,${{\boldsymbol{C}}_1}$ 和${{\boldsymbol{C}}_2}$ 是常数。2.4 实验结果分析
在该实验中,输入是5000对[0,π]范围内等间隔采集60个角度下的投影数据进行稀疏重建的含条状伪影CT图像和对应的完备投影角度下的清晰图像。
2.4.1 不同重建算法对比分析实验
本文选取DnCNN[9]、RED-CNN[8]、SwinIR[18]、Uformer[19]4个经典网络进行对比实验,同时使用PSNR、SSIM和RMSE评估算法的去条状伪影能力和重建的稀疏CT图像的质量。
从测试集中随机的挑选一张腹部图片以展示不同算法的实验结果。由图3可见,DnCNN重建图像存在的条状伪影比较明显;RED-CNN重建图像仍存在肉眼可见条状伪影;SwinIR重建图像通过肉眼已经很难观察到条状伪影的存在,但某些图像细节恢复的不够好;Uformer重建图像已可以恢复部分局部组织的结构,细节信息保留的更多;TE-unet重建出图像局部组织的保留最多,细节恢复的更多,在上述网络中达到最好的效果。图4为图3的伪彩色显示,从图4中也可以看出TE-unet重建出的图像效果更好。
由表1可知,本文所提TE-unet在PSNR、SSIM和RMSE等多个指标上都优于其他模型。其中,PSNR比Uformer要高出0.3178 dB,SSIM高出0.002,RMSE降低0.0005。结果表明该模型可以在保留更多图像细节的同时有效去除条状伪影。
表 1 不同算法下测试集的实验结果Table 1. Experimental results of different algorithms网络 PSNR/dB SSIM RMSE 参数量/M 训练时长/h DnCNN 29.0412 0.8161 0.0359 6.73 2.07 RED-CNN 31.9144 0.8813 0.0255 10.41 8.05 SwinIR 35.1524 0.9427 0.0176 27.28 11.28 Uformer 38.2551 0.9563 0.0124 20.75 13.12 TE-unet 38.5729 0.9583 0.0119 53.55 14.13 2.4.2 不同稀疏角度下的实验结果
为了探索TE-unet在不同稀疏角度下恢复图像的能力,本文分别以15、30、60和90个稀疏角度下的含条状伪影图作为输入进行训练,最后对实验结果进行分析。
在测试集中随机挑选一张头部图片以展示网络在不同稀疏角度下的重建性能。如图5可见,在15个稀疏角度下恢复的图像质量很差,仍然可见明显的条状伪影。当稀疏角度为30时,可以恢复部分细节信息。当稀疏角度为60时,恢复的图像质量显著提高,细节信息保留的更多。当稀疏角度为90时,图像的结构与纹理信息大部分被保留下来,得到的图像质量最高。
表2中指标均为测试集中所得结果的均值。通过对比这些数值可知,当稀疏角度为15时,各个指标均为最低。与30个角度下的重建图相比,PSNR低3.5545 dB,SSIM低0.0493,RMSE高0.009;与60个角度下的重建图相比,PSNR低6.9832 dB,SSIM低0.0769,RMSE高0.0148;与90个角度下相比PSNR低7.8405 dB,SSIM低0.0827,RMSE高0.0159。实验结果表明,当稀疏角度增大时,网络恢复的图像效果在逐渐变好。
表 2 不同稀疏角度下测试集的实验结果Table 2. Experimental results of test sets under different sparse angles稀疏角度 PSNR/dB SSIM RMSE 15 31.8786 0.8954 0.0258 30 35.5670 0.9341 0.0169 60 38.5729 0.9583 0.0119 90 39.6324 0.9650 0.0106 2.5 网络内部规律探索
本小节讨论TE-unet内部机制对去噪能力的影响。在其他参数一致的情况下,使用PSNR、SSIM和RMSE 3个指标来评估去噪效果。
2.5.1 Transformer块的不同个数
如图6(a),将上采样后的信息直接输入编码器,而不经过Transformer块处理,也就是Transformer在跳跃连接处只处理编码器传递过来的信息的网络记为Only-Skip。如图6(b),在编码器与解码器的每一个阶段都加入Transformer块,并将网络标记为TE-unet+。
从测试集中随机抽取一张腹部图片以展示Transformer块的个数对网络重建结果的影响。如图7所示,Only-Skip可以恢复部分图形细节,但是效果不明显。TE-unet+与前者相比较而言,恢复的图像细节有所增加,纹理结构也更加明显,但仍有一些信息没有恢复。TE-unet则可以恢复更多的图像特征和纹理结构,在一些图像的细节信息上也恢复的更好。
表3为不同结构的网络在不同指标下的数值。定量比较表3中结果,可见TE-unet在PSNR和SSIM两个指标上达到了最高,RMSE达到了最小,同时网络参数量和训练时长也达到了一个较好的平衡状态。结果表明,本文所提网络可以更好地学习到图像特征,恢复的图像效果更好,细节更加明显。
表 3 不同数量Transformer块在测试集中的实验结果Table 3. Experimental results of different number of Transformer blocks不同连接方式 PSNR/dB SSIM RMSE 参数量/M 训练时长/h Only-Skip 38.2681 0.9571 0.0124 29.25 11.65 TE-unet+ 38.4930 0.9578 0.0121 63.94 15.98 TE-unet 38.5729 0.9583 0.0119 53.55 14.13 2.5.2 不同前馈层
前馈层对网络性能有着很大的影响,因此本小节讨论以不同方式构建的前馈层对网络性能的影响。
图8是网络使用不同前馈层重建出的测试集中一张腹部图像。可见,以多层感知机(multiLayer perception,MLP)作为前馈层重建出的图片在细节上仍旧有一些模糊;以Uformer中局部增强的前馈网络(locally-enhanced feed-forward,Leff)作为前馈层重建出的图片在细节上有所提高;同时可见使用Conv改进的前馈层,恢复的图像细节信息更多,质量最好。
从表4可见,使用卷积和深度卷积组成的前馈层在PSNR、SSIM和RMSE 3个指标上都达到了最优。实验结果表明,采用本文所使用的前馈层可以得到更好地重建结果。
表 4 不同前馈层在测试集中的实验结果Table 4. Experimental results of different feedforward layers不同前馈层 PSNR/dB SSIM RMSE 参数量/M 训练时长/h MLP 38.1269 0.9569 0.0126 53.29 14.17 Leff 38.5563 0.9569 0.0119 53.55 14.38 Conv 38.5729 0.9583 0.0119 53.55 14.13 2.6 消融实验
为了进一步探索TE-unet构成部件对CT图像稀疏重建的影响,取消Transformer块并标记为No-Trans。在保持其他参数不变的情况下,使用PSNR、SSIM、RMSE、参数量和训练时长作为评估指标,可以做出定量比较。
由图9可见,不在跳跃连接处加入Transformer块得到的实验结果图中,一些细节信息并未被很好地恢复,纹理结构有缺失,而本文方法则可以更好地恢复图像细节信息。
表5显示本文贡献所产生的性能改进。No-Trans网络的PSNR值比本文方法低了0.5158 dB,SSIM低了0.0023,RMSE高了0.0008。实验结果表明,在跳跃连接处加入Transformer块会极大地提升性能,可以更好地重建图像。
表 5 缺少Transformer块在测试集中的实验结果Table 5. Experimental results of missing Transformer block消融实验 PSNR/dB SSIM RMSE 参数量/M 训练时长/h No-Trans 38.0571 0.9560 0.0127 20.85 9.5 TE-unet 38.5729 0.9583 0.0119 53.55 14.13 3. 结语
本文提出的TE-unet,耦合了CNN的局部建模能力、Transformer的全局建模能力和多种注意力机制,使得网络可以获得很好的去条状伪影能力。首先,通过CNN、深度可分离卷积、通道注意力和空间注意力构建了一个CCA块,其中深度可分离卷积在减少了参数量的同时可以更好地提取局部特征,通道注意力计算出各个通道间的权重,提高特征表示能力,空间注意力使网络关注更感兴趣区域和更重要特征。随后在跳跃连接处加入Transformer块融合信息,通过Transformer块的处理,去除了一些冗余信息,保留了更加重要的信息。通过整个网络的训练,最终得到更清晰的CT重建图像。与现有4个经典网络相比,本文提出的TE-unet,可以在保留更多图像细节的同时去除更多的条状伪影。未来将基于TE-unet,引入更合适的机制,进一步探索更优的网络结构。
-
表 1 不同算法下测试集的实验结果
Table 1 Experimental results of different algorithms
网络 PSNR/dB SSIM RMSE 参数量/M 训练时长/h DnCNN 29.0412 0.8161 0.0359 6.73 2.07 RED-CNN 31.9144 0.8813 0.0255 10.41 8.05 SwinIR 35.1524 0.9427 0.0176 27.28 11.28 Uformer 38.2551 0.9563 0.0124 20.75 13.12 TE-unet 38.5729 0.9583 0.0119 53.55 14.13 表 2 不同稀疏角度下测试集的实验结果
Table 2 Experimental results of test sets under different sparse angles
稀疏角度 PSNR/dB SSIM RMSE 15 31.8786 0.8954 0.0258 30 35.5670 0.9341 0.0169 60 38.5729 0.9583 0.0119 90 39.6324 0.9650 0.0106 表 3 不同数量Transformer块在测试集中的实验结果
Table 3 Experimental results of different number of Transformer blocks
不同连接方式 PSNR/dB SSIM RMSE 参数量/M 训练时长/h Only-Skip 38.2681 0.9571 0.0124 29.25 11.65 TE-unet+ 38.4930 0.9578 0.0121 63.94 15.98 TE-unet 38.5729 0.9583 0.0119 53.55 14.13 表 4 不同前馈层在测试集中的实验结果
Table 4 Experimental results of different feedforward layers
不同前馈层 PSNR/dB SSIM RMSE 参数量/M 训练时长/h MLP 38.1269 0.9569 0.0126 53.29 14.17 Leff 38.5563 0.9569 0.0119 53.55 14.38 Conv 38.5729 0.9583 0.0119 53.55 14.13 表 5 缺少Transformer块在测试集中的实验结果
Table 5 Experimental results of missing Transformer block
消融实验 PSNR/dB SSIM RMSE 参数量/M 训练时长/h No-Trans 38.0571 0.9560 0.0127 20.85 9.5 TE-unet 38.5729 0.9583 0.0119 53.55 14.13 -
[1] BRENNER D J, HALL E J. Computed tomography: An increasing source of radiation exposure[J]. New England Journal of Medicine, 2007, 357(22): 2277−2284. DOI: 10.1056/NEJMra072149.
[2] DONOHO D L. Compressed sensing[J]. IEEE Transactions on Information Theory, 2006, 52(4): 1289−1306. DOI: 10.1109/TIT.2006.871582.
[3] SIDKY E Y, KAO C M, PAN X. Accurate image reconstruction from few-views and limited-angle data in divergent-beam CT[J]. Journal of X-ray Science and Technology, 2006, 14: 119−139.
[4] SIDKY E Y, PAN X. Image reconstruction in circular cone-beam computed tomography by constrained, total-variation minimization[J]. Physics in Medicine & Biology, 2008, 53(17): 4777−4807.
[5] LIU Y, MA J, FAN Y, et al. Adaptive-weighted total variation minimization for sparse data toward low-dose X-ray computed tomography image reconstruction[J]. Physics in Medicine & Biology, 2012, 57(23): 7923−7956.
[6] DAVID S, TONY C. Edge-preserving and scale-dependent properties of total variation regularization[J]. Inverse Problems, 2003, 19(6): 165−187. DOI: 10.1088/0266-5611/19/6/059.
[7] ZHANG Y, ZHANG W H, CHEN H, et al. Few-view image reconstruction combining total variation and a high-order norm[J]. International Journal of Imaging Systems and Technology, 2013, 23(3): 249−255. DOI: 10.1002/ima.22058.
[8] CHEN H, ZHANG Y, KALRA M K, et al. Low-dose CT with a residual encoder-decoder convolutional neural network[J]. IEEE Transactions on Medical Imaging, 2017, 36(12): 2524−2535. DOI: 10.1109/TMI.2017.2715284.
[9] ZHANG K, ZUO W, CHEN Y, et al. Beyond a gaussian denoiser: Residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3142−3155. DOI: 10.1109/TIP.2017.2662206.
[10] JIN K H, MCCANN M T, FROUSTEY E, et al. Deep convolutional neural network for inverse problems in imaging[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4509−4522. DOI: 10.1109/TIP.2017.2713099.
[11] WOLTERINK J M, LEINER T, VIERGEVER M A, et al. Generative adversarial networks for noise reduction in low-dose CT[J]. IEEE Transactions on Medical Imaging, 2017, 36(12): 2536−2545. DOI: 10.1109/TMI.2017.2708987.
[12] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: Learning Where to Look for the Pancreas[EB/OL]. (2018-04-11)[2023-02-28]. https://arxiv.org/pdf/1804.03999.
[13] CHEN L, CHU X, ZHANG X, et al. Simple baselines for image restoration[C]//Proceedings of the 2022 European Conference on Computer Vision. Cham: Springer, 2022: 17-33.
[14] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in neural information process systems. 2017, 30: 5998-6008
[15] GULATI A, QIN J, CHIU C C, et al. Conformer: Convolution-augmented transformer for speech recognition[EB/OL]. (2020-05-16)[2022-11-22]. https://arxiv.org/pdf/2005.08100.
[16] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[C]//Proceedings of the 9th International Conference on Learning Representations. Austria: OpenReview.net, 2021.
[17] LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision, Piscataway: IEEE, 2021: 9992-10002.
[18] LIANG J, CAO J, SUN G, et al. SwinIR: Image restoration using swin transformer[C]//Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision Workshops. Piscataway: IEEE, 2021: 1833-1844.
[19] WANG Z, CUN X, BAO J, et al. Uformer: A general u-shaped transformer for image restoration[C]//Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 17683-17693.
[20] WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the 2018 European conference on computer vision. Cham: Springer, 2018: 3-19.
[21] HAN Y, YOO J, YE J C. Deep residual learning for compressed sensing CT reconstruction via persistent homology analysis[EB/OL]. (2016-11-19)[2022-10-18]. https://arxiv.org/pdf/1611.06391.
-
期刊类型引用(1)
1. 张凯,郝康将,刘卓昆,彭甫镕,李国栋. 基于视觉监控的煤矿传送带防冻液自动喷洒系统. 煤炭工程. 2024(12): 169-175 . 百度学术
其他类型引用(2)