Image Quality Assessment for Deep Learning Image Reconstruction Algorithm: A Phantom Study
-
摘要: 目的:使用体模比较CT深度学习重建算法和迭代重建算法的图像质量。方法:使用GE Revolution Apex扫描ACR质量控制体模Gammex 464,分别测量module 1~module 4的5种物质CT值准确性、低对比度分辨率、图像均匀性和高对比度分辨率。通过指标比较高剂量下(20 mGy)深度学习重建算法TrueFedelity<sup<TM</sup<(TFI)3种等级(DL、DM及DH)和自适应统计迭代重建算法V(AV)3种等级(30%、60% 及90%)的图像质量。两种算法的各指标比较采用单因素方差分析。结果:所有6组图像的高/低分辨率均一致(高对比度分辨率:10 lp/cm;低对比度分辨率:6 mm);两种算法都轻微高估聚乙烯、空气以及丙烯酸的CT值,各物质间CT值差异不具有统计学意义。两种算法均低估骨和固态水的CT值,其中,TFI算法对固态水的CT值较AV更接近真实值,但各组图像间不具有统计学差异。6组图像中,TFIDH的图像均匀性最佳;同等级条件下,深度学习重建算法相较IR算法的图像均匀性更佳。结论:深度学习重建算法在高剂量水平下可以在保持图像空间分辨率和CT值准确性的基础上,进一步降低图像噪声。Abstract: Objective: To compare the image quality between the deep learning image reconstruction (DLIR) and iterative reconstruction (IR) algorithms via the dedicated phantom. Method: ACR quality assurance phantom (Gammex 464) was scanned by GE Revolution Apex. The CT value accuracy, low contrast resolution, image uniformity and high contrast resolution of five substances from module 1 to module 4 were measured respectively. Through the above indicators, the image quality of three levels (DL, DM and DH) of Truefedelitytm (TFI) and three levels (30%, 60% and 90%) of adaptive statistical iterative reconstruction-V (asir-V, hereinafter referred to as AV) under high dose (20 mgy) were compared. The comparison between the two algorithms for each parameter was tested by One-Way Anova. Results: The high/low-contrast resolution of the six image series were consistent (high-contrast resolution: 10 lp/cm; low-contrast resolution: 6 mm). The two algorithms both slightly overestimated the CT value of polyethylene, air and acrylic, and no statistically significant difference was found among the difference of CT values of the substances. Both algorithms underestimated the CT value of bone and the solid water; TFI showed better performance in evaluating the solid water which was closer to the real value, though statistical difference was not found between each group of images. Among the 6 groups of images, TFI DH showed the best image uniformity and at the same reconstruction level, TFI showed better uniformity than AV. Conclusion: DLIR can further reduced image noise while maintaining image spatial resolution and CT value accuracy at high dose level.
-
如何在满足诊断需求的情况下减小辐射剂量是CT技术发展的永恒主题。重建迭代(iterative reconstruction,IR)算法与传统的滤波反投影(filtered back-projection,FBP)算法的封闭式解决方案不同,通过匹配预设重建模型辅以渐进式迭代的方式,可以在相同剂量水平下减小图像噪声,改善图像质量,进而为剂量的进一步降低提供可能[1]。不同临床研究表明,IR算法的确有助于减小辐射剂量[2-6]。然而,IR算法有原理上的缺陷,首先,预设重建模型需要同时考虑到物理、统计、图像特性、工程特性以及患者等因素往往较为复杂,优化过程高度依赖专家经验;其次,非线形及非静止性的算法特性使得重建后的图像空间分辨率依靠于对比度和噪声;再者,IR算法会造成噪声纹理的改变,这就使得IR的图像看起来过于平滑或呈“塑料样”改变,造成视觉上的不自然[7-10]。
以深度学习为代表的人工智能目前广泛应用在医学图像领域。最近,在FBP算法的基础上开发的TrueFidelity™(TFI)深度学习重建算法被用来区分信号和噪声,以期可以解决常规IR算法的痛点。TFI算法使用卷积神经网络并行运算,在FBP的基础上,通过不断反馈优化匹配原始图像;这样,TFI在不改变图像纹理的基础上,实现低剂量、低噪声的重建图像[11]。
目前,比较IR算法和该深度学习算法对图像质量影响的研究较少,且都集中在低剂量领域[11-12]。本研究拟在体模的基础上,比较高剂量下混合IR算法——自适应统计迭代重建算法V(the adaptive statistical iterative reconstruction-V,ASIR-V,以下简称AV)与TFI算法对于图像质量的差异。
1. 资料与方法
1.1 体模
采用美国放射学会(American College of Radiology,ACR)质量控制(quality assurance,QA)体模Gammex 464作为扫描对象(图1)。该模直径20 cm,长16 cm,共包括4个模块(module)。
Module 1可以用来检测定位、机器校准、CT值准确性和层厚,嵌入5种物质,包括固态水(0 HU),聚乙烯(Polyethylene,-95 HU),骨(Bone,950 HU),空气(Air,-1000)和丙烯酸(Acrylic,120 HU)。Module 2主要用来检测机器的低对比度分辨率,分布有不同直径(2、3、4、5、6及25 mm),密度为6 HU(0.6% 对比浓度)的圆柱体。Module 3 用来检测CT值均匀性。Module 4用来测量机器的高对比度(即空间)分辨率,其包括4、5、6、7、8、9、10和12共8组线对(line pair)每厘米(lp/cm)。
1.2 扫描方法
通过GE Revolution Apex对ACR Gammex 464体模进行扫描。扫描参数:管电压120 kVp,管电流215 mA,扫描剂量20 mGy,重建层厚0.625 mm,旋转时间0.7 s,准直0.625×40 mm,螺距0.516,矩阵512×512,FOV 30 cm,采用标准重建KernelSTANDARD。
重建AV 30%,60%,90%(分别为A~C组)和深度学习重建算法TFI下low、medium和high(DL,DM,DH,分别为D-F组)3种图像优化算法。
1.3 图像分析
在GE Advantage Workstation工作站(version 4.4)上测量Gammex 464体模module 1~4的5种物质CT值准确性、低对比度分辨率、CT值均匀性和高对比度分辨率。CT值准确性的测量在module中心3个连续层面进行,选取面积为100 mm2的圆形ROI,记录各物质各层面下的平均CT值。低对比度分辨率的测量在module 2上进行,即记录0.6% 对比度下的最小孔径。均匀性的测量是在module 3的中心及3、6、9、12点方向分别放置面积为288 mm2的正方形ROI,记录各ROI下的SD值,与中心层面SD相差最大的边缘SD的差值即为该组图像的均匀性。
调整各组图像module 4的窗宽窗位,记录0.6% 浓度下可分辨的最小一组线对。高/低对比度分辨率的测量有两名在放射诊断领域5年(A)和7年(B)的医生完成,如两人有异议则由另一名高年资放射诊断医生(C,工作10年)作最终评判。CT值准确性和均匀性的测量由A独自完成。
1.4 统计方法
两名放射科医生对于高/低对比度分辨率的一致性采用Kappa检验。各物质CT值准确性的组间和组内比较采用单因素方差分析;组内的P值采用 FDR校正,设P<0.05差异具有统计学意义。
2. 结果
2.1 高/低对比度分辨率
各组图像的高/低对比度分辨率皆一致(高对比度分辨率:10 lp/cm;低对比度分辨率:6 mm)。两名放射科医生高/低对比度分辨率的Kappa一致性良好,分别为1和0.89,差异均具有统计学意义。
2.2 CT值准确性
对于聚乙烯,B组和D组均值(即AV 60% 和TFI DL)与理论值(95 HU)一致;但各组间差异不具有统计学意义,AV组(A~C组)及TFI组(D~F组)组内之间也无显著差异。各组图像对骨组织的测量相近(881.7~881.9),偏向于低估其CT值,与真实CT值误差为7.2%,各组图像组间及两种算法组内均无显著差异。
各组图像对空气和丙烯酸的测量亦比较接近(空气:-994.1~-994.4;丙烯酸:121.1~121.6),与真实值的0.6%与0.9%~1.3%左右;各组图像对两种物质的测量无显著差异;两种物质的各组图像之间均无显著差异。TFI相较AV对固态水的测量更准确,两者偏向于低估CT值(TFI:-1.7~-1.9;AV:-2.1~-2.2),各组图像之间及两种算法组内的测量差异不具有统计学意义(表1)。
表 1 各组图像5种物质CT值与图像均匀性测量结果Table 1. The measurment results of CT values of the five materials and image uniformnity物质/指标 A组(AV 30%) B组(AV 60%) C组(AV 90%) D组(TFI DL) E组(TFI DM) F组(TFI DH) P 聚乙烯 -94.9±0.3 -95.0±0.3 -94.9±0.3 -95.0±0.4 -94.9±0.3 -94.9±0.3 0.994 骨 881.8±0.7 881.8±0.6 881.7±0.6 881.9±0.7 881.9±0.7 881.8±0.8 0.999 空气 -994.1±0.8 -994.3±0.7 -994.3±0.6 -994.3±0.7 -994.3±0.6 -994.4±0.5 0.996 丙烯酸 121.5±0.8 121.6±0.4 121.6±0.4 121.1±0.7 121.1±0.5 121.1±0.4 0.640 固态水 -2.1±1.0 -2.0±1.0 -2.2±1.2 -1.9±0.7 -1.7±0.6 -1.7±0.7 0.979 均匀性 4.0 3.7 2.9 3.8 3.3 2.7 注:聚乙烯、骨、空气、丙烯酸和固态水的理论值分别为 -95、950、-1000 、120和0 HU,图像均匀性的单位是HU。 2.3 均匀性
同等级条件下,TFI算法相较AV算法的图像均匀性更佳,且随着等级的提升,其图像越均匀;6组图像中,TFI DH的图像最均匀(2.7 HU,表1)。
3. 讨论
FBP算法以其稳定和快速的特点被广泛应用于临床。在理想情况下,FBP可以在原始数据的情况下重建精准“副本”图像;但是,受软硬件及临床复杂情况等的影响,FBP重建的CT图像易被噪声、伪影和低对比度下的检出能力所影响,导致其为了满足诊断需求需要维持在一个较高的剂量水平。而开发的IR算法虽然在一定程度上可以降低噪声、保证图像质量,但其非线性的重建特点导致图像有一定的平滑和不自然,进而影响放射科医生的诊断。在这种情况下,TFI算法依赖于深度学习卷积神经网络强劲的计算能力,以FBP算法为基础,在不影响解剖和病理结构的情况下,还可以抑制图像噪声。
近期研究表明,TFI与IR算法相比,可以在不改变图像噪声纹理的基础上,进一步降低图像噪声,使其成为剂量优化的一种技术进步方案[11]。同时,临床研究也表明,TFI算法可以提高病灶的检出能力[12]。
本研究使用体模对比3种混合IR算法等级与深度学习3种等级下重建图像之间的差异。以往的研究发现,低剂量水平下,TFI的空间分辨率相较AV算法更高[13-15]。本研究证明,在高剂量水平下,两种算法6组图像的高/低对比度分辨率无区别;暗示剂量在图像质量中的显著作用。同时,本研究发现,3种TFI等级的均匀性均高于同水平下IR算法的图像均匀性,暗示其图像噪声更小,这与既往的研究相一致[11,13-17]。因此,在高剂量水平下,TFI算法可以在保持图像空间分辨率的基础上,改善图像噪声。
CT值准确性是衡量图像质量、影响诊断结果的另一个重要参数。在高剂量水平下,两种图像重建算法对于5种物质的CT值测量方面无明显差异。其中,两种算法均对聚乙烯(模拟脂肪组织)、空气以及丙烯酸(模拟增强组织)的CT值均有较准确的测量,且均处于轻度高估状态。对于骨组织和固态水,两种算法有一定的低估倾向,其中TFI算法对固态水的估计较AV算法更接近理论值。在CT值准确性方面,两种算法的表现比较接近。
本研究尚存在的不足:①本研究仅比较单一高剂量下两种图像重建算法的表现,在此过程中剂量因素可能占据主导地位,会进一步弱化两者图像质量之间的区别;②本研究仅是体模研究,其临床实用性尚需进一步验证;③本研究使用的是常规 CT图像,两种算法对于双能CT图像(如虚拟平扫、虚拟单能图像及碘图等)的影响尚需进一步探索。
总之,深度学习重建算法可以在保持图像空间分辨率的情况下,改善图像噪声;两种算法对各物质CT值的准确性方面的表现相当。
-
表 1 各组图像5种物质CT值与图像均匀性测量结果
Table 1 The measurment results of CT values of the five materials and image uniformnity
物质/指标 A组(AV 30%) B组(AV 60%) C组(AV 90%) D组(TFI DL) E组(TFI DM) F组(TFI DH) P 聚乙烯 -94.9±0.3 -95.0±0.3 -94.9±0.3 -95.0±0.4 -94.9±0.3 -94.9±0.3 0.994 骨 881.8±0.7 881.8±0.6 881.7±0.6 881.9±0.7 881.9±0.7 881.8±0.8 0.999 空气 -994.1±0.8 -994.3±0.7 -994.3±0.6 -994.3±0.7 -994.3±0.6 -994.4±0.5 0.996 丙烯酸 121.5±0.8 121.6±0.4 121.6±0.4 121.1±0.7 121.1±0.5 121.1±0.4 0.640 固态水 -2.1±1.0 -2.0±1.0 -2.2±1.2 -1.9±0.7 -1.7±0.6 -1.7±0.7 0.979 均匀性 4.0 3.7 2.9 3.8 3.3 2.7 注:聚乙烯、骨、空气、丙烯酸和固态水的理论值分别为 -95、950、-1000 、120和0 HU,图像均匀性的单位是HU。 -
[1] BEREGI J P, GREFFIER J. Low and ultra-low dose radiation in CT: Opportunities and limitations[J]. Diagnostic and Interventional Imaging, 2019, 100(2): 63−64. DOI: 10.1016/j.diii.2019.01.007.
[2] MACRI F, GREFFIER J, KHASANOVA E, et al. Minor blunt thoracic trauma in the emergency department: Sensitivity and specificity of chest ultralow-dose computed tomography compared with conventional radiography[J]. Annals of Emergency Medicine, 2019, 73(6): 665−670. DOI: 10.1016/j.annemergmed.2018.11.012.
[3] KIM H G, LEE H J, LEE S K, et al. Head CT: Image quality improvement with ASIR-V using a reduced radiation dose protocol for children[J]. European Radiology, 2017, 27(9): 3609−3617. DOI: 10.1007/s00330-017-4733-z.
[4] LARBI A, ORLIAC C, FRANDON J, et al. Detection and characterization of focal liver lesions with ultra-low dose computed tomography in neoplastic patients[J]. Diagnostic and Interventional Imaging, 2018, 99(5): 311−320. DOI: 10.1016/j.diii.2017.11.003.
[5] TANG H, LIU Z, HU Z, et al. Clinical value of a new generation adaptive statistical iterative reconstruction (ASIR-V) in the diagnosis of pulmonary nodule in low-dose chest CT[J]. British Journal of Radiology, 2019, 92(1103): 20180909. DOI: 10.1259/bjr.20180909.
[6] 仵腾辉, 查云飞, 杨峰. 不同螺距联合ASIR重建技术在COVID-19胸部低剂量CT扫描中的应用研究[J]. CT理论与应用研究, 2022,31(2): 194−201. DOI: 10.15953/j.1004-4140.2022.31.02.05. WU T H, ZHA Y F, YANG F. The application and study of different pitch combined with ASIR in low-dose chest CT screening on COVID-19[J]. CT Theory and Applications, 2022, 31(2): 194−201. DOI: 10.15953/j.1004-4140.2022.31.02.05. (in Chinese).
[7] VERDUN F R, RACINE D, OTT J G, et al. Image quality in CT: From physical measurements to model observers[J]. Physica Medica, 2015, 31(8): 823−843. DOI: 10.1016/j.ejmp.2015.08.007.
[8] OTT J G, BECCE F, MONNIN P, et al. Update on the non-prewhitening model observer in computed tomography for the assessment of the adaptive statistical and model-based iterative reconstruction algorithms[J]. Physics in Medicine and Biology, 2014, 59(15): 4047−4064. DOI: 10.1088/0031-9155/59/4/4047.
[9] SAMEI E, BAKALYAR D, BOEDEKER K L, et al. Performance evaluation of computed tomography systems: Summary of AAPM task group 233[J]. Medical Physics, 2019, 46(11): e735−e756. DOI: 10.1002/mp.13763.
[10] GEYER L L, SCHOEPF U J, MEINEL F G, et al. State of the art: Iterative CT reconstruction techniques[J]. Radiology, 2015, 276(2): 339−357. DOI: 10.1148/radiol.2015132766.
[11] GREFFIER J, HAMARD A, PEREIRA F, et al. Image quality and dose reduction opportunity of deep learning image reconstruction algorithm for CT: A phantom study[J]. European Radiology, 2020, 30(7): 3951−3959. DOI: 10.1007/s00330-020-06724-w.
[12] LYU P, NEELY B, SOLOMON J, et al. Effect of deep learning image reconstruction in the prediction of resectability of pancreatic cancer: Diagnostic performance and reader confidence[J]. European Journal of Radiology, 2021, 141: 109825. DOI: 10.1016/j.ejrad.2021.109825.
[13] FRANCK C, ZHANG G, DEAK P, et al. Preserving image texture while reducing radiation dose with a deep learning image reconstruction algorithm in chest CT: A phantom study[J]. Physica Medica, 2021, 81: 86−93. DOI: 10.1016/j.ejmp.2020.12.005.
[14] GREFFIER J, FRANDON J, Si-MOHAMED S, et al. Comparison of two deep learning image reconstruction algorithms in chest CT images: A task-based image quality assessment on phantom data[J]. Diagnostic and Interventional Imaging, 2021, S2211-5684(21): 00174−1. DOI: 10.1016/j.diii.2021.08.001.
[15] 温德英, 杨杰尹, 汪琴, 等. 深度学习重建算法在上腹部CT成像中的应用[J]. CT理论与应用研究, 2021,31(3): 329−336. DOI: 10.15953/j.ctta.2021-005. WEN D Y, YANG J Y, WANG Q, et al. Application of deep learning reconstruction algorithm in upper abdomen CT[J]. CT Theory and Applications, 2021, 31(3): 329−336. DOI: 10.15953/j.ctta.2021-005. (in Chinese).
[16] ICHIKAWA Y, KANII Y, YAMAZAKI A, et al. Deep learning image reconstruction for improvement of image quality of abdominal computed tomography: Comparison with hybrid iterative reconstruction[J]. Japanese Journal of Radiology, 2021, 39(6): 598−604. DOI: 10.1007/s11604-021-01089-6.
[17] PARK C, CHOO K S, JUNG Y, et al. CT iterative vs deep learning reconstruction: Comparison of noise and sharpness[J]. European Radiology, 2021, 31(5): 3156−3164. DOI: 10.1007/s00330-020-07358-8.
-
期刊类型引用(1)
1. 叶雄鑫,刘元芬,汤博荣,陈依林,郑莞怡,薛莉薇,张孝勇. 深度学习图像重建和能谱成像在低对比剂流速胸主动脉CTA中的价值. CT理论与应用研究. 2024(06): 683-691 . 本站查看
其他类型引用(0)