ISSN 1004-4140
CN 11-3017/P

X射线成像和深度学习的交叉融合

王革

王革. X射线成像和深度学习的交叉融合[J]. CT理论与应用研究, 2022, 31(1): 1-12. DOI: 10.15953/j.ctta.2021.053.
引用本文: 王革. X射线成像和深度学习的交叉融合[J]. CT理论与应用研究, 2022, 31(1): 1-12. DOI: 10.15953/j.ctta.2021.053.

X射线成像和深度学习的交叉融合

详细信息
    作者简介:

    王革: 男,博士,美国伦斯勒理工学院生物医学成像中心主任、Clark & Crossan讲席教授。致力于医学成像和人工智能,尤其是深度学习领域的研究。1991年他发表了第一个螺旋锥束CT重建方法,并在该领域发表了许多后续论文,锥束螺旋扫描已经成为当前临床CT最主要的扫描方式。2016年,他首次提出了深度学习断层成像的线路图,并在这一领域发表了一系列的论文。多年来,他在PNAS、Nature、Nature Machine Intelli-gence、Nature Communications和其他知名期刊上发表了500多篇期刊论文。他获得多项荣誉,包括IEEE EMBS学术生涯成就奖(2021年)、IEEE Region 1杰出教学奖(2021年)、SPIE Aden and Marjorie Meinel技术成就奖(2022年),是IEEE、SPIE、AAPM、OSA、AIMBE、AAAS和NAI的Fellow,E-mail: wangg6@rpi.edu

  • 中图分类号: O  242;TP  391.41

  • 摘要:

    作为人工智能(artificial intelligence,AI)的主流,深度学习在计算机视觉、图像多尺度特征提取领域已有所进展。2016年以来,深度学习方法在计算机断层成像(从积分特性,如线积分,实现内部结构的图像重建)方面也取得了进步。总体而言,在人工智能领域,尤其是基于人工智能的成像领域,令人兴奋的前景和挑战并存,包括准确性、鲁棒性、泛化性、可解释性等一系列问题。基于2021年8月2日SPIE Optics+Photonics上的大会邀请报告,本文介绍X射线成像和深度学习的背景,低剂量CT、稀疏数据CT、深度影像组学的代表性成果,讨论对于X射线CT、其他成像模式以及多模态成像而言,数据驱动和模型驱动方法融合带来的机会,以期显著促进精准医疗的进步。

  • 自1895年伦琴发现X射线以来(1901年获诺贝尔奖),X射线成像领域一直在稳步发展。Hounsfield和Cormack在X射线断层成像领域方面开拓性的工作(1979年获诺贝尔奖)对医学领域而言极为重要。2009年,伦敦科学博物馆邀请馆长们从馆藏中选出十件最重要的物品,然后邀请公众从中选出一件最有影响力的发明,X射线成像获得了5万投票中的9581票,排名第一[1]。如今,X射线摄影和断层成像技术已经应用于各种场景,成像分辨率和视野大小跨越6个数量级,包括了不同的成像模态,例如衰减、光子计数、相衬、暗场成像,以及圆轨道、螺旋轨道、机械臂扫描。生物医学成像是其最重要的应用领域。过去几年里,深度学习在一些领域已经取得了成功,包括生物医学成像,尤其是X射线断层成像[2-5]

    Kuhn在他的著作《科学革命的结构》中提出科学的进步是通过范式转移实现的。4种基本科学范式分别是:经验科学(描述自然现象)、理论科学(归纳和建立模型)、计算科学(模拟现象和过程)和数据驱动科学(通过深度网络和高性能计算技术从大数据中提取知识)。目前,我们正处在第4种科学范式阶段,也被称为数据科学、人工智能、机器学习和深度学习。

    让我们首先回顾一下深度学习的概念(图1)。深度学习是指利用深度人工神经网络进行机器学习,虽然人工神经网络有很多,但它们的构建模块都是简单的人工神经元。人工神经元是生物神经元的模型,在人工神经元中,很多输入信号分别被加权和相加,这个过程是一种内积形式的线性运算。内积通过阈值或非线性激活函数来决定神经元是否应该被激活,也即它应该取大值还是小值。有多种激活函数,如Sigmoid S(x)=1/(1+e-x),值域为(0,1),以及ReLU R(x)=max(0,x)。前馈网络是一种常见的网络结构,其中有输入层、输出层以及两者之间的隐藏层。输入向量被逐层处理(一层的输出作为下一层的输入),最后输出层给出结果。除了前馈网络,还有许多其他类型的结构可以使用。粗略来说,深度网络包含许多隐藏层,便于多尺度分析和知识表达(图1)。

    图  1  深度学习的基本思想。神经网络由相互连接的神经元组成,每个神经元先执行线性计算 (内积),再执行非线性运算(阈值化,如ReLU)。神经元之间的权重参数被随机初始化,并通过使用训练数据迭代更新以期损失函数最小化(例如上图迭代中显示为“4”的绝对误差),最终输出正确答案(在本例中为“5”)

    图1中的前馈网络只包含一个隐藏层,但它在数字识别方面已经做得很好了(给定一个手写数字的图像,网络可以识别它)。输入是一个矢量化的数字图像,输出层是所谓的“独热编码”,即有且只有一个元素将被激发到高于其他元素值的状态,且这个被激活的元素/神经元就代表输入数字的值(在独热编码中,每个数字被分配给唯一的神经元)。最初,网络的参数是随机初始化的。对于给定的输入图像,可以计算隐含层的输出结果以及网络的输出向量。通常,这个输出不太可能和我们想要的结果完全匹配,但我们可以通过反向传播方式的梯度下降法调整当前的权重参数,以减小误差。如果有许多隐藏层,上述前向计算和反向传播过程也是类似的。

    目前,已经有很多流行的深度学习平台,例如TensorFlow、Torch、Caffe、Keras和MatLab。在这些平台上,可以轻松地定义、训练、测试和部署网络结构,也就是说,在许多任务中使用深度学习技术并不困难。但需要注意的是,深度学习的理论仍在发展中,许多基本问题仍有待回答。从大局来看,深度学习涉及到新颖的算法设计、复杂的非凸优化问题,以及各种独特的挑战,例如鲁棒性、泛化性、不确定性、可解释性、正则化、隐私性、公平性等等。

    本文将专注于X射线成像和深度学习的交叉融合,这个领域有巨大的协同效应和无数的机会。一方面,深度学习在增强X射线成像性能方面具有显著的潜力;另一方面,X射线成像为深度学习的研究和应用提供了有趣的可能性。下一节将借助文献分析描述深度断层成像技术,并以X射线成像尤其是计算机断层成像(computed tomography,CT)为重点,介绍具有代表性的、有前景的深度成像成果。本文第3节将讨论当前深度学习领域与断层成像相关的一些挑战,主要是深度重建的不稳定性,以及深度影像组学中训练后的网络应用于分布外数据集时缺少泛化能力的难题。最后,我们提出一些研究方向,包括结合数据驱动和基于规则的机器学习,以及深度学习框架下各种高性价比的成像系统的集成。

    X射线摄影和CT作为主要的医学成像模式承担了大多数的临床检查任务。医学影像、人工智能和深度学习是公众高度关注的重要课题。“谷歌趋势”搜索显示,公众对医学成像的关注百分比在过去十年中一直相当稳定。相比之下,人工智能和深度学习在过去几年间迅速吸引了越来越多的关注,特别是2016年对深度学习的关注已经超过了对医学成像的关注(图2)。

    图  2  人们对医学成像的关注维持不变,但对人工智能及其主流方法“深度学习”的关注出现了激增。2016年,对深度学习的关注超过了医学成像

    2016年,我们写了一篇关于深度学习断层成像的前瞻性文章[6],这是人工智能和机器学习一个新的前沿。深度学习已经广泛应用于计算机视觉和图像分析,它可以处理现有图像并提取特征。而在基于深度学习的断层成像中,我们从积分或谐波系数等各种类型的外部测量数据出发,生成多维结构图像。简而言之,计算机视觉和图像分析是从图像到特征,而深度断层成像是从特征到图像。基于这一观点,我们于2016年申请了第一个深度断层成像的发明专利,并于2021[7]年获得授权。此外,我们在2019年出版了第一本介绍该新兴领域的书籍[8]

    传统的图像重建算法只有两类:解析算法和迭代算法。前者是基于解析解,后者是基于迭代的模型优化解。在新兴的基于深度学习的算法中,首先迭代地训练一个深度网络,然后将训练后的网络以前馈方式得到一个类似解析重建的解。目前,深度成像已成为断层成像研究的主流。2021年7月18日,在Scopus数据库使用TITLE-ABS-KEY规则A=(deep learning AND medical AND image AND reconstruct*)检索可得到944份出版物,使用规则B=A AND (X-ray OR CT OR computed tomography)检索可得到373份出版物,也就是说,在所有的深度断层成像论文中,近40%与X射线成像或CT有关。

    图3是在Scopus上使用规则B检索到的书目数据的快速分析。可以看出,深度X射线成像和CT已经广泛覆盖了一系列的深度网络和临床任务,而深度重建的研究主要集中在低剂量CT和稀疏数据重建上。此外,许多深度学习技术已被用于分割、检测、分类和减少伪影。

    图  3  使用TITLE-ABS-KEY规则=(deep learning AND medical AND image AND reconstruct*)AND(X-ray OR CT OR computed tomography)在Scopus进行检索的可视化结果

    在上述文献筛选的基础上,介绍一下我们最近的研究,包括基于深度学习的低剂量CT后处理、稀疏数据重建和深度放射组学方面的研究实例。当然,世界各地的同行也在这些课题和其他课题上取得了优秀的成果,相关更多细节,请参阅综述文章[2-5]

    第1个例子是低剂量CT去噪。X射线CT是肺癌筛查的首选方法,另外在进行任何重大手术之前,经常使用CT完成多种任务的检查。然而,X射线辐射可能诱发癌症和遗传损伤。因此,尽量减少辐射剂量是十分必要的,但是在CT扫描中,剂量的减少会降低图像信噪比与图像质量。我们与麻省总医院合作,设计了一个模块化的自适应处理深度网络,训练循环中还包括放射科医生,可以对去噪强度进行优化[9],如图4所示。我们的双盲研究表明:对于主要供应商的CT机,深度算法优于或可与商用的低剂量CT迭代算法媲美[9]

    图  4  模块化的深度去噪网络是在有放射科医生参与的闭环模式下训练的[9]。该网络生成不同程度的去噪图像,供放射科医生根据具体诊断任务决定最佳程度

    第2个例子是稀疏数据断层成像。具体来说,在C型臂CT、未来的静态CT或机器人CT系统中,只有有限数量的投影。如果不使用深度重建,现有的算法可以通过稀疏性提升(例如total variation(TV)最小化)在多于100个投影的情况下取得不错的结果。通过深度重建,可以针对应用领域的图像综合先验信息,在投影数据大量减少的情况下获得前所未有的图像质量。我们最近设计了一个深度重建网络“split unrolled grid-like alternative reconstruction”,简称为SUGAR[10]。在SUGAR网络中,我们从多个相互连接的角度进行深度学习。首先,学习从稀疏正弦图重建一个低分辨率的实际图像,然后使用上采样的低分辨率图像和正弦图来估计高分辨率图像。并且,我们进一步基于split Bregman方法迭代优化当前图像。对于极具挑战性的、只有36个投影的情况,SUGAR网络相比TV最小化方法以及现有的深度重建网络(详见文献[10])重建出令人激动的初步结果(图5)。

    图  5  我们最近设计的SUGAR网络针对相当稀疏的数据重建出很有潜力的初步结果[10]

    虽然低剂量CT主要用于肺癌筛查,我们还与麻省总医院合作分析了低剂量CT图像用以评估心血管疾病风险[11]。我们的深度学习模型处理了大量低剂量CT图像,获得了与放射科医生基于心电门控心脏CT报告相当的ROC曲线。也就是说,可以对低剂量CT图像进行深度分析,同时进行肺癌和心血管疾病风险的双重筛查。

    虽然以上3个例子都是关于X射线CT的,但其他模态深度断层成像的结果也是非常有希望的,包括MRI、核医学成像、超声、光学成像等。详情请查阅文献如综述文章[5]

    除了医学成像,深度成像在其他成像领域也带来了机遇。一个非常有趣的例子是,在同步辐射强束流照射下,一个如蛋白质分子的生物样本可以被立即击碎并发出散射波。如何从单发照射实现物体三维结构的重建,对生物研究和药物设计至关重要。已经有论文从采集的球面波前上的二维信息进行三维重建[12-14]。我们用多色辐射光源[14]代替了单色光源在这一方面做了一些工作。最近,AlphaFold网络以一个蛋白质序列为输入,重建这个蛋白质的三维结构[15]。事实上,AlphaFold网络代表了关于待重建蛋白质的最先进的生物先验信息。沿着这个思路,我们可以将深度重建和基于Alphafold的先验知识结合起来。如图6所示,在散射数据定义的解空间、稀疏图像空间和AlphaFold先验信息空间的交集处实现优异的图像重建。

    图  6  利用深度学习对如蛋白质分子的非晶体目标进行基于AlphaFold的X射线断层成像。由于超高分辨率所需的强辐射会立即摧毁目标,因此对于断层成像重建而言,只能采集到单次发射的散射波前数据,这是极具挑战性的极稀疏数据成像任务

    在上一节中,我们介绍了基于深度学习的断层成像技术中鼓舞人心的一面,现在我们介绍另一面,也就是现实世界成像应用中的挑战。

    首先,深层网络的不稳定性(也称为脆弱性或脆性)是一个主要的问题[16]图7是一个示例,中间图像是有意设计的细微噪声图像,它被添加到左边的数字图像“4”中,形成了右边的数字图像“4”。对于人眼来说,左右图像差别不大,但是我们训练的分类网络很容易被欺骗,将右侧图像误分类为高置信度的数字“2”,而将左侧图像正确分类为“4”。

    图  7  对抗性攻击使训练好的深度网络处于高度危险之中。虽然原始数字图像(左)被深度分类器正确分类,但是我们能设计一个微小的对抗噪声(中)并添加到原始图像中,形成视觉上差不多的图像(右),让该图像被同一分类器错误分类

    美国科学院院刊PNAS发表了一篇具有里程碑意义的论文,研究图像重建中深度学习的不稳定性[17]。在该研究中,描述了用于CT和MRI重建的深度重建网络的3种不稳定性。这3种不稳定性包括:①扰动产生的强伪影;②微小特征检测不到;③增加的数据降低了重建质量。这些不稳定性被认为是由于缺乏内核意识而“难以克服”,但压缩感知算法是稳定的因为具有内核意识[17]。前两种不稳定性是第Ⅰ类和第Ⅱ类错误:误报和漏报。第 Ⅲ 种类型的不稳定性在某种程度上类似于一个“过载”的问题(超重是不好的),也就是说,更多的数据会使一个经受过训练、用来处理一定数据量的网络困惑,导致该网络的性能比没有这些额外数据的时候更差,当然这一点有些违反直觉。

    如何解决上述不稳定问题?在我们前瞻性文章中给出了一个一般性的回答[6],其核心思想是集成互补算法,如基于模型的压缩迭代或压缩感知类算法,可以和深度网络结合在一起,实现图像重建的协同,例如,深度网络可以进一步改进最大似然法图像重建算法。同时,我们也有一个具体的答案来解决PNAS论文[17]中提出的问题,即解析、压缩、迭代深度网络(analytic,compressive,iterative deep network,ACID网络),它将解析重建、压缩感知、迭代优化和深度学习结合在一起,实现精确稳定的图像重建[18]

    让我们用图8简要解释ACID算法框架。首先,利用一个重建网络Φ,将原始测量数据(正弦图或k空间数据集)重建为初始图像,该图像反映了从大数据(CT或MRI数据)中提取的较强的图像先验知识,这个初始图像受到误差和不稳定性的影响。然后,利用基于压缩感知的稀疏性提升模块Θ对当前图像进行优化,输出稀疏化后的图像。此外,基于这张稀疏图像,可以利用系统模型A估计测量数据,并用估计数据与实测数据进行比较,计算出作为观测误差的残差数据,指示当前图像是否需要校正。任何显著的残差都被同一个深度重建网络Φ进一步处理,生成一个增量图像, 在当前图像基础上更新图像。然后,压缩传感模块Θ再次对更新后的图像进行处理,如此反复以逐步改进当前图像。

    图  8  解析、压缩、深度迭代(ACID)网络的总体思想示意图,用于整合解析重建、稀疏性提升、迭代优化和深度学习的优势

    此外,我们分析了ACID网络的收敛性[18]。我们的分析需要假设有界误差范数(BEN)性质,基本上,BEN性质意味着深度重建的误差小于L2范数意义上的真值。该性质是Lipschitz连续性的一种特殊情况,可以作为一个简单的模型来证明混合图像重建的可行性。假设BEN性质是有效的,ACID网络的收敛性变得非常清晰。初始深度重建网络的输出并不完美,但其误差分量小于真值。误差部分有可观测部分和不可观测部分,由于可观测部分的存在,预测数据集与实际数据集的值并不相同,它们的差异或者说数据残差可用来减少可观测误差分量。鉴于BEN性质,在ACID迭代之后,可观测误差分量将减少,这种基于残差的迭代优化可以重复。在极限情况下,最终重建中的可观测误差将以指数速度被消除,仅有不可观测误差保留。需要强调的是,如果深度网络设计得当,用大量且多样化的数据训练得很好,且输入不超出假定的分布范围,则输出图像的不可观测误差通常很小,这也是很多深度重建研究的结果。换句话说,ACID型深度重建方法就是在数据驱动解空间、稀疏解空间和观测数据解空间的交集处寻找最优解,这个想法和前面提到的利用AlphaFold来帮助重建蛋白质分子的三维结构是一样的。

    除了不稳定性问题之外,泛化能力在深度网络的应用中也很重要,这实际上也是与深度网络的不稳定性有关。最近发表在《自然医学》上一篇关于医疗AI设备如何通过FDA评估方面的论文有一些有趣的发现[19]。在一个关于分布外数据集潜在问题的著名案例研究中,一个用于检测气胸的AI模型分别被3个公开的大数据集单独训练。当该深度网络被其中任意一个数据集训练,然后使用另外两个数据集测试时,该深度模型的准确率都下降了约10%[19]。目前,我们正在积极研究这个问题。

    基于深度学习的断层成像研究势头强劲,如引言部分所述,有很多有前途的研究方向,包括鲁棒性、泛化性、不确定性、可解释性、正则化、隐私性、公平性等。

    在众多的研究方向中,对于人工智能、特别是基于深度学习的成像,我们强调可解释性是一个重要的方向。一个深度网络通常被认为是一个黑盒子,目前正在进行广泛的研究使黑盒子透明,即让盒子变“灰”或变“白”[20]。这些解释方法大多是探索性的[21-23],例如,可以探寻如果没有给定的训练样本,网络预测将如何变化?这将有助于识别哪些样本能对网络的预测提供有用信息。再比如, 可以探寻网络中重要的数据处理路径是什么?类激活映射是一个另外例子,它显示了与分类结果相关的特征。我们还可以将网络训练过程建模为不同方程形式的动态系统,或在极端条件如非常宽和/或非常深的网络层[22]的情况下进行网络训练建模。

    这里不评论网络解释的代表性方法,只介绍一些我们探索的结果。目前,几乎所有的深度网络都使用我们之前描述过的、依赖于线性运算(内积)的人工神经元。有趣的是,在生物学中有许多类型的神经元,它们具有不同的形式和功能,因此,我们可以通过引入新型人工神经元在细胞层面创新深层网络。具体来说,我们提出将传统人工神经元中的内积替换为二次运算,即对相同的输入向量的两个不同内积相乘,然后再加上该输入向量的一个二次函数[24-25],这种修改将使传统神经元的参数数量从n增加到 3 n。考虑二维逻辑函数情况,可以帮助理解这一设计的基本原理。众所周知,传统的神经元无法实现与或门。作为对比,上述二次神经元可以实现一个双曲函数从而直接实现与或门。事实上,二次神经元可以用于实现任何二维逻辑函数,沿着这个思路,我们相信也可以设计其他种类的人工神经元用以提升深度学习的性能。辛顿的“胶囊”构想与此类似,因为胶囊可以被视为一个复杂的神经计算单元。

    根据德摩根定律,非(P或Q)=(非P)且(非Q)。受到这种对偶性的启发,我们系统地分析了ReLU网络族,证明了无论是分类任务还是回归任务,ReLU网络的宽度和深度都是拟等价的。也就是说,对于给定的网络复杂性,我们可以有一个宽的网络,一个深的网络,以及在宽网络和深网络之间的许多网络变体,所有这些都可以执行本质上相同的分类或回归任务。如果感兴趣,请阅读我们的论文[27],了解数学上的细节,包括几个定理和证明。

    由于我们的二次神经元是连续的而不是二值的,我们倾向于把它们看作广义模糊逻辑门。因此,一个深层二次神经网络只不过是一个深层模糊逻辑系统[24]。在一个案例研究中,我们介绍了如图9所示的数字识别网络,二次神经元的大小表示其相对重要性,而其颜色显示了模糊逻辑操作的类型,例如通过谱分析[24]确定其双曲或抛物类形。模糊逻辑系统本质上是一个基于规则的系统,也就是说,在某种意义上我们可以用数据驱动的方式获得一个基于规则的系统。要想成为一个理想的基于规则的系统,在很多情况下,需要将一个由众多参数组成的深层模糊逻辑网络压缩或转换成一个相对紧凑的知识图谱,使其具有稀疏性或规则性。这个想法应该是将连接主义和符号主义联系起来的一种方式,如果是这样,这将为深度神经网络提供一个很好的解释(图9)。我们相信,在未来几年[28-29]里,知识图谱领域是极其重要的,如果能够开发出很好的算法,将数据驱动和基于规则的学习结合起来,并进行多任务学习、半监督和无监督学习,那就离通用人工智能或强人工智能又近了一大步。

    图  9  结合数据驱动和基于规则的方法,运用知识图谱技术进行深度模糊逻辑解释和知识提取

    强AI系统的行为应该更像人类。上个月,一种可以同时处理图像、文本和音频文件的深度全感知系统问世了[30]。这是通过基于标记的嵌入、多任务学习和图像-文本-音频多模态表示的多粒度集成来实现的,该系统获得了非常令人鼓舞的结果[30]。这项出色的全感知工作让我们想起了我们早期的全模态成像方案omni-tomography[31],该方案提出实现断层成像的多模态大融合,包括CT、MRI、PET/SPECT,通过这种融合,多模态系统集成到一个机器框架中,同时收集多种数据。因此,时空相关性可以被完美地捕获,互补信息也可以协同地用于心脏和癌症成像[32]。然而,考虑到单个成像系统的体积和硬件集成的物理限制,这种omni-tomography成像仪器在几年前是很有挑战性且相当昂贵的。

    由于医学影像和深度学习技术的快速发展,现在情况有了很大的不同。NanoX和其他公司报告了低成本的、用于断层成像的X射线成像仪,Hyperfine是一种低场强、移动式MRI扫描仪的品牌名称。此外,光子计数探测器可以记录X射线和γ射线信号,从而可能统一CT和SPECT。因此,在深度学习框架下,将这些高性价比的成像仪器集成到一个高性价比的omni-tomography系统中是可行的(图10)。这可能是医学成像的下一个亮点,其特点是便携性、现场医护,可用自动驾驶汽车乘载并随时随地提供成像服务,这将对不发达国家和偏远地区特别有帮助。

    图  10  构建性价比高的便携移动式混合成像仪器是可行的,方便现场医护

    图11中,左图展现了医学成像和放射治疗的当前发展,右图展示了全模态成像omni-tomography和图像引导治疗的未来,我们相信,更紧密的多模态成像融合会以一种更经济有效的方式演进。我们可以设想医疗成像的范式转变:从医院/诊所/中心主导变成去中心化的、智能化的集成服务。一种未来的可能性是“基于自动驾驶汽车的便宜的断层成像和分析机器人(auto-driving vehicle-based affordable tomograpgdhy-analytics robots,AVATAR)”[33],这将成为在自然灾害现场、恐怖袭击后和战场附近最受欢迎的机器人。此外,AVATAR在常规医疗成像(如癌症筛查)方面也很有优势,因为它显著降低了潜在成本,且具有全自动化的特点,极大地提高了便利性。

    图  11  在深度学习框架下更紧密更经济地融合成像模式和开发合成仪器

    铁路/公交车站在交通史上取得了里程碑式的成就,但很快就被私家车超过了。今天,Uber类型的出租车服务变得流行起来,自动驾驶汽车也即将来临。类似地,我们经常去超市/购物中心购物,但流行的趋势正向网上购物和送货上门转变,新冠疫情进一步加速了这一趋势。不久前,我们去电影院和剧院娱乐,然后,我们建造了家庭影院,现在,我们很多时间都用智能手机看电视。许多人相信区块链技术将给社会带来革命性的变化,甚至代替银行。继“信息网”之后,“物联网”正在迅速发展,而“服务网” 应该是下一个浪潮。信息、产品和服务的个性化和优化使用需要分散、互联和人工智能,特别是深度学习技术,以便提高生活质量。我们有幸得到许多面向未来影像服务的研究机会。

    在科幻小说《泰坦妖女》中,库尔特·冯内古特写道:“很久以前……有些生物一点也不像机器。这些可怜的生物痴迷于一种想法,即存在的一切都必须有一个目的,每次他们发现自己似乎有一个目的,……这些生物就会制造一台机器服务于它。” 显而易见,长寿和幸福是我们的目标,我们正在努力创造一个更光明的未来。如图12所示,X射线成像与深度学习的交叉融合是全球性的努力,这也意味着信息交流和国际合作。

    图  12  使用Scopus TITLE-ABS-KEY规则=("deep learning" AND medical AND image AND reconstruct*)AND(X-ray OR CT OR "computed tomography")获得的,关于X射线成像和深度学习的交叉研究的全球景观
  • 图  1   深度学习的基本思想。神经网络由相互连接的神经元组成,每个神经元先执行线性计算 (内积),再执行非线性运算(阈值化,如ReLU)。神经元之间的权重参数被随机初始化,并通过使用训练数据迭代更新以期损失函数最小化(例如上图迭代中显示为“4”的绝对误差),最终输出正确答案(在本例中为“5”)

    图  2   人们对医学成像的关注维持不变,但对人工智能及其主流方法“深度学习”的关注出现了激增。2016年,对深度学习的关注超过了医学成像

    图  3   使用TITLE-ABS-KEY规则=(deep learning AND medical AND image AND reconstruct*)AND(X-ray OR CT OR computed tomography)在Scopus进行检索的可视化结果

    图  4   模块化的深度去噪网络是在有放射科医生参与的闭环模式下训练的[9]。该网络生成不同程度的去噪图像,供放射科医生根据具体诊断任务决定最佳程度

    图  5   我们最近设计的SUGAR网络针对相当稀疏的数据重建出很有潜力的初步结果[10]

    图  6   利用深度学习对如蛋白质分子的非晶体目标进行基于AlphaFold的X射线断层成像。由于超高分辨率所需的强辐射会立即摧毁目标,因此对于断层成像重建而言,只能采集到单次发射的散射波前数据,这是极具挑战性的极稀疏数据成像任务

    图  7   对抗性攻击使训练好的深度网络处于高度危险之中。虽然原始数字图像(左)被深度分类器正确分类,但是我们能设计一个微小的对抗噪声(中)并添加到原始图像中,形成视觉上差不多的图像(右),让该图像被同一分类器错误分类

    图  8   解析、压缩、深度迭代(ACID)网络的总体思想示意图,用于整合解析重建、稀疏性提升、迭代优化和深度学习的优势

    图  9   结合数据驱动和基于规则的方法,运用知识图谱技术进行深度模糊逻辑解释和知识提取

    图  10   构建性价比高的便携移动式混合成像仪器是可行的,方便现场医护

    图  11   在深度学习框架下更紧密更经济地融合成像模式和开发合成仪器

    图  12   使用Scopus TITLE-ABS-KEY规则=("deep learning" AND medical AND image AND reconstruct*)AND(X-ray OR CT OR "computed tomography")获得的,关于X射线成像和深度学习的交叉研究的全球景观

  • [1]

    KERMELIOTIS T. X-ray voted top modern discovery[EB/OL]. Cable News Network, (2009-01-01). https://www.cnn.com/2009/WORLD/europe/11/04/xray.machine.science.museum/index.html.

    [2]

    WANG G, YE J C, DE MAN B. Deep learning for tomographic image reconstruction[J]. Nature Machine Intelligence, 2020, 2(12): 737-748.

    [3]

    LELL M M, KACHELEß M. Recent and upcoming technological developments in computed tomography: High speed, low dose, deep learning, multienergy[J]. Investigative Radiology, 2020, 55(1): 8−19. doi: 10.1097/RLI.0000000000000601

    [4]

    MAIER A, SYBEN C, LASSER T, et al. A gentle introduction to deep learning in medical image processing[J]. Journal of Medical Physics, 2018, 29(2): 86−101.

    [5]

    SAHINER B, PEZESHK A, HADJIISKI L M, et al. Deep learning in medical imaging and radiation therapy[J]. Medical Physics, 2019, 46(1): e1−e36. DOI: 10.1002/mp.13264.

    [6]

    WANG G. A perspective on deep imaging[J]. IEEE Access 4, 2016: 8914−8924.

    [7]

    WANG G, CONG W X, YANG Q S. Tomographic image reconstruction via machine learning: US 10, 970, 887 B2[P]. (2016-06-24)[2021-04-06]. https://patents.google.com/patent/US10970887B2/en?oq=10970887.

    [8]

    WANG G, ZHANG Y, YE X J, et al. Machine learning for tomographic imaging[J]. IOP Publishing Ltd, 2019.

    [9]

    SHAN H, PADOLE A, HOMAYOUNIEH F, et al. Competitive performance of a modularized deep neural network compared to commercial algorithms for low-dose CT image reconstruction[J]. Nature Machine Intelligence, 2019, 1(6): 269−276. doi: 10.1038/s42256-019-0057-9

    [10]

    WU W W, NIU C, EBRAHIMIAN S, et al. AI-enabled ultra-low-dose CT reconstruction[J/OL].(2021-01-01). https://arxiv.org/abs/2106.09834.

    [11]

    CHAO H, SHAN H, HOMAYOUNIEH F, et al. Deep learning predicts cardiovascular disease risks from lung cancer screening low dose computed tomography[J]. Nature Communications, 2021, 12(1): 2963. doi: 10.1038/s41467-021-23235-4

    [12]

    RAINES K S, SALHA S, SANDBERG R L, et al. Three-dimensional structure determination from a single view[J]. Nature, 2010, 463(7278): 214-217.

    [13]

    WEI H. Fundamental limits of ‘ankylography’ due to dimensional deficiency[J]. Nature, 2011, 480(7375): E1.

    [14]

    WANG G, YU H, CONG W X, et al. Non-uniqueness and instability of ‘ankylography’[J]. Nature, 2011, 480(7375): E2-3.

    [15]

    SENIOR A W, EVANS R, JUMPER J, et al. Improved protein structure prediction using potentials from deep learning[J]. Nature, 2020, 577(7792): 706-710.

    [16]

    AKHTAR N, MIAN A. Threat of adversarial attacks on deep learning in computer vision: A survey[J]. IEEE Access 6, 2018, 14410-14430.

    [17]

    ANTUN V, RENNA F, POON C, et al. On instabilities of deep learning in image reconstruction and the potential costs of AI[J]. Proceedings of the National Academy of Sciences, 2020, 117(48): 201907377.

    [18]

    WU W W, HU D L, CONG W X, et al. Stabilizing deep tomographic reconstruction networks[J/OL]. https://arxiv.org/abs/2008.01846 (v1, v2, and v3, 2020, v4, 2021).

    [19]

    WU E, WU K, DANESHJOU R, et al. How medical AI devices are evaluated: Limitations and recommendations from an analysis of FDA approvals[J]. Nature Medicine, 2021, 27(4): 582-584.

    [20]

    CHAN K H R, YU Y D, YOU C, et al. ReduNet: A white-box deep network from the principle of maximizing rate reduction[J]. 2021.

    [21]

    FAN F L, XIONG J J, LI M Z, et al. ReduNet: A white-box deep network from the principle of maximizing rate reduction[J]. IEEE Trans Radiat Plasma Med Sci, 10.1109/TRPMS.2021.3066428 (2021).

    [22]

    SHAMSHIRBAND S, FATHI M, DEHZANGI A, et al. A review on deep learning approaches in healthcare systems: Taxonomies, challenges, and open issues[J]. Journal of Biomedical Informatics, 2021, 113: 103627.

    [23]

    MONTAVON G, SAMEK W, MÜLLER K R. Methods for interpreting and understanding deep neural networks[J]. Digital Signal Processing, 2018, 73: 1-15.

    [24]

    FAN F L, WANG G. Fuzzy logic interpretation of quadratic networks[J]. Neurocomputing, 2020, 374: 10-21.

    [25]

    FAN F F, XIONG J J, WANG G. Universal approximation with quadratic deep networks[J]. Neural Networks, 2020, 124, 383-392.

    [26]

    SABOUR S, FROSST N, HINTON G E. Dynamic routing between capsules[J]. Adv Neural Inf Process Syst, 2017-Decem, 3857-3867.

    [27]

    FAN F L, LAI R J, WANG G. Quasi-equivalence of width and depth of neural networks[EB/OL]. (2020-01-01). https://arxiv.org/abs/2002.02515.

    [28]

    NICKEL M, MURPHY K, TRESP V, et al. A review of relational machine learning for knowledge graphs[J]. Proceeding of the IEEE, 2015, 104(1): 11-33.

    [29]

    WANG Q, MAO Z, WANG B, et al. Knowledge graph embedding: A survey of approaches and applications[J]. IEEE Trans Knowl Data Eng, 2017, 29(12): 2724-2743.

    [30]

    LIU J, ZHU X X, LIU F, et al. OPT: Omni-perception pre-trainer for cross-modal understanding and generation[EB/OL]. (2021-01-01). https://arxiv.org/abs/2107.00249.

    [31]

    WANG G, ZHANG J, GAO H, et al. Towards omni-tomography: Grand fusion of multiple modalities for simultaneous interior tomography[J]. PLoS One, 2012, 7(6).

    [32]

    WANG G, KALRA M, MURUGAN V, et al. Vision 20/20: Simultaneous CT-MRI-Next chapter of multimodality imaging[J]. Medical Physics, 2015, 42(10): 5879-5889.

    [33]

    DINELEY J. Tackling the silent crisis in cancer care[EB/OL]. (2018-01-01). https://www.lindau-nobel.org/blog-tackling-the-silent-crisis-in-cancer-care-with-innovation/.

  • 期刊类型引用(4)

    1. 汤戈,赵欣雨,王宇翔,冯鹏,魏彪. 工业CT技术在地球科学中的应用. CT理论与应用研究. 2024(01): 119-134 . 本站查看
    2. 郭惠,周诗文. 基于云班课翻转课堂X射线衍射教学的设计. 大学教育. 2024(01): 78-81 . 百度学术
    3. 张鹏程,侯瑞峰,刘祎,桂志国. 基于全变分展开的低剂量CT重建网络. 电子科技大学学报. 2024(04): 617-628 . 百度学术
    4. 徐方,刘文波,汪荣华,滕子煜. 基于轻量级网络的飞机蜂窝结构积水缺陷检测. 计算机测量与控制. 2023(08): 64-69+97 . 百度学术

    其他类型引用(5)

图(12)
计量
  • 文章访问数:  2206
  • HTML全文浏览量:  367
  • PDF下载量:  430
  • 被引次数: 9
出版历程
  • 收稿日期:  2021-11-30
  • 录用日期:  2021-11-30
  • 网络出版日期:  2021-12-02
  • 刊出日期:  2022-01-31

目录

/

返回文章
返回
x 关闭 永久关闭