医学图像分割综述

前言

本综述有两个独创之处,首先,与传统的调查方法直接将医学图像分割的文献划分为多个组,并对每个组详细介绍文献的方法相比,我们将目前流行的文献按照从粗到细的多层次结构进行分类。其次,本文重点研究了监督学习和弱监督学习方法,但未包括无监督方法,这种方法目前在医学图像领域并不流行。对于监督学习方法,我们从骨干网络的选择、网络块的设计和损失函数的改进三个方面对文献进行了分析。对于弱监督学习方法,我们分别根据数据增强,迁移学习和交互式分割研究文献。与已有的调查相比,本次调查的文献分类与以往有很大的不同,更便于读者了解相关的理论基础,并引导读者思考基于深度学习方法的医学图像分割的适当改进。
论文地址Medical Image Segmentation Using Deep Learning: A Survey

I. INTRODUCTION

医学图像分割旨在使图像中的解剖或病理结构变化更加清晰;由于诊断效率和准确性的大幅提高,它通常在计算机辅助诊断和智能医学中发挥关键作用。流行的医学图像分割任务包括肝脏和肝肿瘤分割[1][2]、大脑和脑肿瘤分割[3][4]、视盘分割[5][6]、细胞分割[7][8]、肺部分割和肺结节[9][10]等。随着医学成像设备的开发和普及,X光、计算机断层扫描(CT)、磁共振成像(MRI)和超声波已成为帮助临床医生诊断疾病、评估预后和规划医疗机构手术的四种重要图像辅助手段。在实际应用中,尽管这些成像方法各有优缺点,但它们对人体不同部位的医学检查很有用。
为了帮助临床医生做出准确的诊断,有必要分割医学图像中的一些关键对象,并从分割区域提取特征。早期的医学图像分割方法通常取决于边缘检测、模板匹配技术、统计形状模型、活动轮廓、和机器学习等。Zhao等人[11]提出了一种新的肺CT图像数学形态边缘检测算法。Lalonde等人[12]将基于Hausdorff的模版匹配应用于光盘检查,Chen等人[13]还使用模板匹配对脑CT图像中的心室进行分割。Tsai等人[14]提出了一种基于形状的方法,使用水平集对心脏MRI图像进行2D分割和前列腺MRI图像进行3D分割。Li等人[15]使用活动剖面模型从腹部CT图像中分割肝肿瘤,而Li等人[16]则提出了一个通过结合水平集和支持向量机(SVM)来分割医疗身体数据的框架。Hold等人[17]将马尔科夫随机场(MRF)应用于大脑MRI图像分割。尽管报告了大量方法,在某些情况下是成功的,但由于特征表示的困难,图像分割仍然是计算机视觉领域最具挑战性的话题之一。特别是,与普通RGB图像相比,从医学图像中提取识别特征更困难,因为前者经常存在模糊、噪音、对比度低等问题。由于深度学习技术的快速发展[18],医学图像分割将不再需要手工制作的特征和卷积神经网络(CNN)成功实现图像的分层特征表示,从而成为图像处理和计算机视觉中最热门的研究课题。由于用于特征学习的CNN对图像噪声、模糊、对比度等不敏感,它们为医学图像提供了出色的分割结果。
根据标记数据的数量,机器学习通常分为监督学习、弱监督学习和非监督学习。监督学习的优点是,我们可以根据仔细标记的数据训练模型,但很难获得大量医学图像的标记数据。恰相反,无监督学习不需要有标签的数据,但学习难度增加了。弱监督学习介于监督学习和非监督学习之间,因为它只需要标记一小部分数据,而大多数数据是无标签的。
在深度学习得到广泛应用之前,研究人员已经提出了许多基于模型驱动的医学图像分割方法。Masood等人[19]全面总结了医学图像分析中的许多模型驱动技术,包括图像聚类、区域生长和随机森林。在[19]中,作者根据不同的数学模型总结了不同的医学图像分割方法。近年来,基于模型驱动技术的医学图像分割研究较少,但基于数据驱动的医学图像分割研究越来越多。本文主要研究医学图像分割中深度学习模型的演变和发展。
在[20]中,Shen等人特别回顾了深度学习在医学图像分析中的应用。本文综述了机器学习和深度学习在医学图像配准、解剖学和细胞结构检测、组织分割、计算机辅助疾病诊断和程序设计等方面的研究进展。Litjens等人[21]报告了一项关于深度学习方法的调查,该调查涵盖了深度学习在图像分类、目标检测、分割、配准等任务中的应用。
最近,Taghanaki等人[22]讨论了语义和医学图像分割的发展;他们将基于深度学习的图像分割解决方案分为六组,即深度架构、基于数据合成、基于损失函数、序列模型、弱监督和多任务方法。为了对医学图像分割进行更全面的研究,Seo等人。[23]回顾了经典的机器学习算法,如马尔可夫随机场、k-均值聚类、随机森林,并回顾了最新的深度学习架构,如人工神经网络(ANN)、卷积神经网络(CNN)、递归神经网络(RNN)等。Tajbakhsh等人[24]综述了具有不完善数据集的医学图像分割的解决方案,包括两个主要的数据集限制:缺乏注释和弱注释。这些研究对医学图像分割技术的发展起着重要的作用。Hesamian等人[25]回顾了方法(网络结构)、培训技术和挑战的三个方面。网络结构部分描述了用于图像分割的主要、流行的网络结构。训练技术部分讨论用于训练深层神经网络模型的J数字成像技术。挑战部分描述了与使用深度学习技术进行医学图像分割相关的各种挑战。Meyer等人[26]综述了深度学习在放射治疗中的应用或潜在应用进展。Akkus等人[27]概述了当前基于深度学习的定量脑MRI图像分割方法。Eelbode等人[28]重点评估和总结了主要基于Dice分数或Jaccard指数的医学图像分割任务中使用的优化方法。
通过研究上述调查,研究人员可以了解医学图像分割的最新技术,进而为计算机辅助诊断和智能医疗做出更重要的贡献。然而,这些调查存在两个问题。一种是,他们大多是按时间顺序总结医学图像分割的发展,因此他们忽视了医学图像分割的深度学习技术分支。另一个问题是,这些调查只介绍了相关技术的发展,而没有关注医学图像分割的任务特点,如少样本学校、学习不平衡等,这限制了基于任务驱动的医学图像分割的改进。为了解决这两个问题,我们提出了一种基于深度学习的医学图像分割方法。在这项工作中,我们做出了以下贡献:

  • 1.我们总结了医学图像分割的深度学习技术分支,从粗到精,如图1所示。总结包括监督学习和弱监督学习两个方面。还讨论了神经结构搜索(NAS)、图卷积网络(GCN)和多模态数据融合在医学图像分析中的最新应用。与之前的调查相比,我们的调查遵循概念发展,相信更清晰。
  • 2.在监督学习方法方面,我们从三个方面对文献进行了分析:主干网络的选择、网络块的设计和损失函数的改进。这种分类方法可以帮助后续研究人员更深入地理解医学图像分割网络的动机和改进策略。对于弱监督学习,我们还从三个方面回顾了处理少量镜头数据或类不平衡数据的文献:数据扩充、迁移学习和交互式分割。该组织预计将更有利于研究人员寻找创新,以提高医学图像分割的准确性。
  • 3.除了全面回顾深度学习在医学图像分割中的发展和应用外,我们还收集了目前常用的公共医学图像分割数据集。最后,我们讨论了该领域未来的研究趋势和方向。
    本文的其余部分组织如下。在第二节中,我们回顾了应用于医学图像的监督学习的发展和演变,包括主干网络的选择、网络块的设计和损失函数的改进。在第三节中,我们介绍了无监督或弱监督方法在医学图像分割领域的应用,并分析了处理少量镜头数据或类不平衡数据的常用无监督或弱监督策略。在第四节中,我们简要介绍了一些最先进的医学图像分割方法,包括NAS、GCN应用、多模态数据融合等。在第五节中,我们收集了当前可用的公共医学图像分割数据集,并总结了当前深度学习方法的局限性和未来的研究方向。

Fig. 1. An overview of deep learning methods on medical image segmentation

II. SUPERVISED LEARNING

对于医学图像分割任务,监督学习是最常用的方法,因为这些任务通常要求较高的精度。在本节中,我们将重点回顾神经网络结构的改进。这些改进主要包括网络主干、网络块和损耗函数的设计。图2示出了基于监督学习的网络架构改进的概述。
Fig. 2. An overview of network architectures based on supervised learning.

A. Backbone Networks

图像语义分割的目的是实现图像的像素分类。为此,研究人员提出了编码器-解码器结构,这是最流行的端到端架构之一,如全卷积网络(FCN)[29]、U-Net[7]、Deeplab[30]等,编码器通常用于提取图像特征,而解码器通常用于将提取的特征恢复到原始图像大小并输出最终分割结果。虽然端到端结构在医学图像分割中是实用的,但它降低了模型的可解释性。Ronneberger等人[7]提出的第一种高冲击编码器-解码器结构U-Net已广泛用于医学图像分割。图3显示了U-Net体系结构。
Fig. 3. The U-Net architecture [7].
U-Net:U-Net解决了用于医学图像分割的普通CNN网络的问题,因为它采用了完美的对称结构和跳过连接。与普通图像分割不同,医学图像通常含有噪声,边界模糊。因此,仅依靠图像的底层特征很难检测或识别医学图像中的目标。同时,由于缺乏图像的细节信息,仅仅依靠图像的语义特征也无法获得准确的边界。然而,U-Net通过跳过连接将低分辨率和高分辨率特征映射结合起来,有效地融合了低级别和高级别图像特征,这是医学图像分割任务的完美解决方案。目前,U-Net已成为大多数医学图像分割任务的基准,并激发了许多有意义的改进。
3D Net:在实践中,由于CT和MRI图像等大多数医学数据都以3D体积数据的形式存在,因此使用3D卷积核可以更好地挖掘数据的高维空间相关性。基于这一思想,Çiçek等人[31]将U-Net体系结构扩展到3D数据的应用,并提出了直接处理3D医疗数据的3D U-Net。由于计算资源的限制,3du-Net只包含三次下采样,不能有效提取深层图像特征,导致医学图像分割精度有限。此外,Milleri等人[32]提出了一种类似的体系结构V-Net,如图4所示。众所周知,剩余连接可以避免梯度消失并加速网络收敛,因此设计更深层的网络结构可以提供更好的特征表示。与3D U-Net相比,V-Net采用剩余连接来设计更深的网络(4个向下采样),从而实现更高的性能。类似地,通过将剩余连接应用于3D网络,Yu等人[33]提出了Voxresnet,Lee等人[34]提出了3DRUNet,Xiao等人[35]提出了Res-UNet。然而,由于参数非常多,这些3D网络遇到了同样的高计算成本和GPU内存使用问题。
Fig. 4. The V -Net architecture [32].

递归神经网络(RNN):RNN最初设计用于处理序列问题。长短时记忆(LSTM)网络[36]是最流行的RNN之一。通过引入自环,可以长时间保持梯度流。在医学图像分割中,RNN被用来模拟图像序列的时间依赖性。Alom等人[37]提出了一种将ResUNet与RNN相结合的医学图像分割方法。该方法实现了递归剩余卷积层的特征积累,提高了图像分割任务的特征表示。图5示出了循环剩余卷积单元。Gao等人[38]联合LSTM和CNN对不同脑MRI切片之间的时间关系进行建模,以提高分割精度。Bai等人[39]将FCN与RNN相结合,挖掘主动脉序列分割的时空信息。显然,RNN可以通过考虑上下文信息的关系来捕获图像的局部和全局空间特征。
跳过连接:虽然跳过连接可以融合低分辨率和高分辨率信息,从而改进特征表示,但它存在低分辨率和高分辨率特征之间语义差距过大的问题,导致特征地图模糊。为了改善跳跃连接,Ibtehaz等人[40]提出了包含剩余路径(ResPath)的多重结果网,这使得编码器特征在与解码器中的相应特征融合之前执行一些额外的卷积操作。Seo等人[41]提出mUNet,Chen等人[42]提出FED Net。mU-net和FED-net都在跳转连接中加入了卷积运算,提高了医学图像分割的性能。
Fig. 5. The recurrent residual convolutional unitalom2018recurrent.
二维和三维级联:对于图像分割任务,级联模型通常训练两个或多个模型以提高分割精度。这种方法在医学图像分割中特别流行。级联模型可大致分为三类框架:粗-精分割、检测分割和混合分割。第一类是粗-精分割框架,使用两个2D网络级联进行分割,其中第一个网络执行粗分割,然后使用另一个网络模型根据先前的粗分割结果实现精细分割。Christ等人[43]提出了肝脏和肝脏肿瘤分割的级联网络。该网络首先使用FCN对肝脏进行分割,然后使用先前的肝脏分割结果作为第二个FCN的输入进行肝脏肿瘤分割。Yuan等人[44]首先训练了一个简单的卷积-反卷积神经网络(CDNN)模型(19层FCN),以在CT体积的整个图像上提供快速但粗略的肝脏分割,然后将另一个CDNN(29层FCN)应用于肝脏区域,以进行细粒度肝脏分割。最后,将直方图均衡化增强的肝脏分割区域作为第三个CDNN(29层CNN)的额外输入,用于肝脏肿瘤分割。此外,在[45][46][47]中可以找到使用粗-细分割框架的其他网络。同时,检测分割框架也很流行。首先,使用网络模型,如R-CNN[48]或You On Look Once(YOLO)[49]进行目标位置识别,然后使用另一个网络根据先前的粗分割结果进行进一步的详细分割。Al-Antari等人[50]提出了一种类似的方法,用于乳腺肿块的检测、分割和分类。在这项工作中,第一步是使用区域深度学习方法YOLO进行目标检测,第二步是将检测到的目标输入新设计的全分辨率卷积网络(FrCN)进行分割,最后,深卷积神经网络用于识别肿块并将其分类为良性或恶性。类似地,Tang等人[44]使用更快的R-CNN[51]和Deeplab[52]级联对肝脏进行定位分割。此外,Salehi等人[53]和Yan等人[54]都提出了一种用于全脑MRI和高分辨率乳房X光片分割的级联网络。这种级联网络利用第一个网络产生的后验概率比普通级联网络能有效地提取出更丰富的多尺度上下文信息。
然而,大多数医学图像都是三维体数据,但是二维卷积神经网络无法学习三维的时间信息,并且三维卷积神经网络通常需要较高的计算成本和严重的GPU内存消耗。因此,人们提出了一些伪三维分割方法。Oda等人[55]提出了一种级联三个网络的三平面方法,以从医学CT体积中有效分割腹部动脉区域。Vu等人[56]将相邻切片的叠加作为中央切片预测的输入,然后将获得的2D特征图输入标准2D网络进行模型训练。尽管这些伪三维方法可以从三维体数据中分割对象,但由于利用了局部时间信息,它们只能获得有限的精度提高。与伪三维网络相比,混合级联二维和三维网络更受欢迎。Li等人[57]提出了一种用于肝脏和肝脏肿瘤分割的混合密集连接U网络(H-Densuenet)。该方法首先利用一个简单的Resnet获得粗略的肝脏分割结果,利用2D Densuenet有效地提取2D图像特征,然后利用3D Densuenet提取3D图像特征,最后设计一个混合特征融合层来联合优化2D和3D特征。尽管与整个3D网络相比,H-Densuenet降低了模型的复杂性,但该模型非常复杂,并且仍然受到3D卷积的大量参数的影响。针对这个问题,Zhang等人[58]提出了一种轻量级混合卷积网络(LW-HCN),其结构与H-DenseUNet相似,但由于深度和时空分离(DSTS)块的设计以及3D深度分离卷积的使用,前者比后者需要更少的参数和计算成本。类似地,Dey等人[59]还设计了一个用于肝脏和肝脏肿瘤分割的二维和三维级联网络。
显然,在上述三种级联网络中,二维和三维混合级联网络可以有效地提高分割精度并减少学习负担。
与上述级联网络相比,Valanarasu等人[60]提出了一个完整的级联网络,即KiU-Net,用于执行大脑解剖分割。当检测具有模糊噪声边界的较小解剖结构时,vanilla U-Net的性能会大大降低。为了克服这一问题,作者设计了一种新的超完备结构Ki-Net,其中中间层的空间大小大于输入数据的空间大小,这是通过在编码器的每个转换层之后使用上采样层来实现的。因此,与U-Net相比,所提出的Ki网络具有更强的边缘捕获能力,并最终与普通U-Net级联以提高整体分割精度。由于KiU网络可以利用Ki-Net的低级精细边缘特征图和U-Net的高级形状特征图,因此它不仅提高了分割精度,而且对小的解剖标志点和模糊的噪声边界实现了快速收敛。
其他:生成对抗网络(GAN)[61]已广泛应用于计算机视觉的许多领域。在早期,GAN通常通过生成新样本来增加数据,这将在第三节中进行回顾,但后来研究人员发现,生成对抗的思想几乎可以用于任何领域,因此也可用于图像分割。由于医学图像通常显示低对比度,不同组织之间或组织与病变之间的边界模糊,以及带有标签的稀疏医学图像数据,基于U-Net的分割方法使用像素损失来学习像素之间的局部和全局关系不足以进行医学图像分割,使用生成性对抗网络正在成为改进图像分割的一个流行想法。Luc等人[62]首先将生成对抗网络应用于图像分割,其中生成网络用于分割模型,对抗网络作为分类器进行训练。Singh等人[63]提出了一种条件生成对抗网络(cGAN),用于在乳房X光片中分割目标区域(ROI)内的乳腺肿瘤。一般网络学习识别肿瘤区域并生成分割结果,而对抗网络学习从生成网络中区分基本事实和分割结果,从而强制生成网络获得尽可能真实的标签。当训练样本数量有限时,cGAN工作正常。Conze等人[64]利用级联预训练卷积编码器-解码器作为cGAN的生成器进行腹部多器官分割,并将对抗性网络视为鉴别器来强制执行模型以创建逼真的器官轮廓。
此外,结合器官形状和位置的先验知识对于改善医学图像分割效果可能至关重要,因为由于成像技术的限制,图像被破坏,因此包含人工制品。然而,关于如何将先验知识整合到CNN模型中的研究很少。作为该领域最早的研究之一,Oktay等人[65]提出了一种新的通用方法,将形状和标签结构的先验知识结合到医学图像分析任务的解剖约束神经网络(ACNN)中。通过这种方式,可以约束和引导神经网络训练过程,以进行更具解剖学意义的预测,特别是在输入图像数据信息不足或不够一致(例如,缺少对象边界)的情况下。类似地,Boutillon等人[66]将解剖先验知识纳入肩胛骨分割的条件对抗框架,将形状先验知识与条件神经网络相结合,以鼓励模型在形状和位置信息方面遵循全局解剖特性,并使分割结果尽可能准确。上述研究表明,由于在神经网络的训练过程中引入了先验知识约束,改进后的模型能够提供更高的分割精度,并且具有更强的鲁棒性。

B. Network Function Block

1) 稠密连接 :稠密连接 通常用于构造一种特殊的卷积神经网络。对于密集连接网络,每一层的输入来自前向传输过程中所有前一层的输出。受密集连接的启发,Guan等人[67]提出了一种改进的U型网络,将U型网络的每个子块替换为密集连接的形式,如图6所示。尽管密集连接有助于获得更丰富的图像特征,但它往往会在一定程度上降低特征表示的鲁棒性,并增加参数数量。
Zhou等人[68]将所有U-Net层(从一层到四层)连接在一起,如图7所示。这种结构的优点是,它允许网络自动学习不同层特征的重要性。此外,对跳跃连接进行了重新设计,使得具有不同语义尺度的特征可以在解码器中聚合,从而形成高度灵活的特征融合方案。缺点是由于采用密集连接,参数数量增加。因此,将剪枝方法集成到模型优化中以减少参数数量。同时,深度监督[69]也被用来平衡剪枝导致的分割精度下降。
Fig. 6. Dense connection architecture [67].
Fig. 7. The U-Net++ architecture [68].

2) 初始:对于CNN,深度网络通常比浅层网络具有更好的性能,但它们遇到了一些新问题,如消失梯度、网络收敛困难、需要大量内存使用等。初始结构克服了这些问题。它通过并行合并卷积核而不增加网络深度,从而提供更好的性能。该结构能够利用多尺度卷积核提取更丰富的图像特征,并进行特征融合以获得更好的特征表示。受GoogleNet[70][71]的启发,Gu等人[72]将初始结构引入医学图像分割,提出了CE网络。CE网络向每个并行结构添加阿托斯卷积,以在宽接收场上提取特征,并添加特征映射的1×1卷积,图8显示了初始结构。然而,初始结构复杂,导致模型修改困难。
Fig. 8. The inception architecture [72].

3) 深度可分性:为了提高网络模型的泛化能力,减少对内存使用的需求,许多研究人员致力于研究面向复杂医学三维体数据的轻量级网络模型。通过将深度可分离卷积扩展到3D网络的设计中,Lei等人[73]提出了一种轻型V-Net(LV-Net),用于肝脏分割的操作比V-Net少。通常,深度可分性将标准卷积分解为通道卷积和点卷积[74]。普通卷积运算的次数通常为DK×DK×M×N,其中M是输入特征映射的维数,N是输出特征映射的维数,DK是卷积核的大小。然而,信道卷积运算的数目为DK×DK×1×M,点卷积为1×1×M×N。与vanilla卷积相比,深度可分离卷积的计算量是vanilla卷积的(1/N+1/DK2)倍。此外,Zhang等人[58]和Huang等人[75]也提出了将深度可分离卷积应用于三维医学体数据的分割。轻量级深度网络的其他相关工作可在[76][77]中找到。

4) 注意机制:对于神经网络,注意块可以选择性地改变输入或根据不同的重要性为输入变量分配不同的权重。近年来,将深度学习与视觉注意机制相结合的研究主要集中在利用面具形成注意机制。掩模的原理是设计一个新的层,通过训练和学习,可以从图像中识别关键特征,然后让网络只关注图像中感兴趣的区域。

局部空间注意:空间注意块的目的是计算空间域中每个像素的特征重要性,并提取图像的关键信息。Jaderberg等人[78]早期提出了一种用于图像分类的空间变换网络(STNet),它利用空间注意将原始图像的空间信息转换到另一个空间,并保留关键信息。普通池相当于信息合并,这很容易导致密钥信息丢失。针对这个问题,设计了一个称为空间变换的块,通过执行空间变换来提取图像的关键信息。受此启发,Oktay等人[79]提出了关注U-Net。改进的U-Net使用注意块在融合来自编码器和相应解码器的特征之前改变编码器的输出。注意块输出选通信号以控制位于不同空间位置的像素的特征重要性。图9显示了该体系结构。该块通过1×1卷积组合Relu和sigmoid函数,以生成权重图,该权重图通过乘以编码器的特征进行校正。
Fig. 9. The attention block in the attention U-Net [79].

通道注意:通道注意块可以实现特征重新校准,它利用学习到的全局信息来强调选择性有用的特征并抑制无用的特征。Hu等人[80]提出SE-Net,将渠道注意力引入图像分析领域,并在2017年赢得ImageNet挑战赛。该方法分三步对通道进行注意加权;图10显示了该架构。第一种是压缩操作,对输入特征执行全局平均池,以获得1×1×通道特征映射。第二种是激励操作,其中通道特征相互作用以减少通道数量,然后将减少的通道特征重构回通道数量。最后,使用sigmoid函数生成[0,1]的特征权重图,将比例乘以原始输入特征。Chen等人[42]提出了使用SE块实现特征通道注意的FED网络。

混合注意:空间和通道注意机制是改善特征表示的两种常用策略。然而,空间注意忽略了不同通道信息的差异,对每个通道一视同仁。相反,通道注意直接聚集全局信息,而忽略每个通道中的局部信息,这是一个相对粗糙的操作。因此,结合两种注意机制的优点,研究人员设计了许多基于混合域注意块的模型。Kaul等人[81]提出了将空间注意和通道注意混合用于医学图像分割的focusNet,其中SE块用于通道注意,并设计了一个空间注意分支。此外,有关的其他工作可参阅[76][77]。
Fig. 10. The channel attention in the SE-Net [80].

为了改进网络的特征鉴别表示,Wang等人[82]在U网络的收缩路径和扩展路径之间的中心瓶颈中嵌入了一个注意块,并提出了SCLEASAGNET。此外,他们还比较了通道注意、空间注意以及两种注意的不同组合在医学图像分割中的性能。他们得出结论,以通道为中心的注意是提高图像分割性能的最有效方法。基于这一结论,他们最终赢得了巩膜分割基准竞赛(SSBC2019)的冠军。

尽管上述注意机制提高了最终分割性能,但它们只执行局部卷积运算。该操作关注于相邻卷积核的区域,但忽略了全局信息。此外,下采样操作会导致空间信息的丢失,这对生物医学图像分割尤其不利。一种基本的解决方案是通过叠加多个层来提取远距离信息,但由于参数较多且计算成本较高,因此效率较低。在解码器中,上采样、反卷积和内插也是以局部卷积的方式进行的。

非局部注意:最近,Wang等人[83]提出了一种非局部U网络,以克服局部卷积用于医学图像分割的缺点。非局部U-Net采用自注意机制和全局聚集块,在上采样和下采样两部分提取完整的图像信息,提高了最终的分割精度。图11示出了全局聚合块。非局部块是一种通用块,可以很容易地嵌入到不同的卷积神经网络中,以提高其性能。

可以看出,注意机制对于提高图像分割精度是有效的。事实上,空间注意力寻找有趣的目标区域,而通道注意力寻找有趣的特征。混合注意机制可以同时利用空间和通道。然而,与非局部注意相比,传统的注意机制缺乏利用不同目标和特征之间关联的能力,因此基于非局部注意的CNN在图像分割任务中通常表现出比普通CNN更好的性能。

5)多尺度信息融合:医学图像分割的一个挑战是对象之间的大尺度范围。例如,中晚期肿瘤可能比早期肿瘤大得多。感知域的大小大致决定了我们可以使用多少上下文信息。一般的卷积或池仅使用单个内核,例如,卷积使用3×3内核,池使用2×2内核。

金字塔池:多尺度池的并行操作可以有效改善网络的上下文信息,从而提取更丰富的语义信息。He等人[84]首先提出了空间金字塔池(SPP)来实现多尺度特征提取。SPP将图像从精细空间分割到粗糙空间,然后收集局部特征并提取多尺度特征。受SPP的启发,设计了一个多尺度信息提取块,命名为剩余多内核池(RMP)[72],它使用四个大小不同的池内核来编码全局上下文信息。然而,RMP中的上采样操作无法恢复由于合并而导致的细节信息丢失,这通常会扩大感受野,但降低图像分辨率。

atrus空间金字塔池:为了减少池操作造成的细节信息丢失,研究人员提出atrus卷积而不是轮询操作。与香草卷积相比,萎缩卷积可以在不增加参数数目的情况下有效地扩大感受野。结合Atrus卷积和SPP块的优点,Chen等人[52]提出了Atrus空间金字塔池模块(ASPP),以改进图像分割结果。ASPP对不同尺度的同一物体具有很强的识别能力。类似地,Lopez等人[85]将多尺度萎缩性卷积的叠加应用于脑肿瘤分割,从而实现了明显的准确性提高。

然而,ASPP在图像分割方面存在两个严重的问题。第一个问题是如图12所示的局部信息丢失,其中我们假设卷积核为3×3,三次迭代的膨胀率为2。第二个问题是,这些信息可能在很远的距离内是不相关的。如何同时处理不同尺度对象之间的关系,对于设计一个精细的atrus卷积网络具有重要意义。针对上述问题,Wang等人[86]设计了一种混合扩展卷积(HDC)网络。这种结构使用锯齿波式启发式分配膨胀率,因此可以访问更宽像素范围的信息,从而抑制网格效应。在[86]中,作者给出了几种使用可变膨胀率的萎缩卷积序列,例如[1,2,3]、[3,4,5]、[1,2,5]、[5,9,17]和[1,2,5,9]。

非局部和ASPP:萎缩卷积可以有效地扩大感受野以收集更丰富的语义信息,但由于网格效应,它会导致细节信息的丢失。因此,有必要添加约束或建立像素关联以提高阿托斯卷积性能。最近,Yang等人[87]提出了ASPP和非局部的组合块,用于人体部位的分割,如图13所示。ASPP使用多个具有不同规模的并行阿托斯卷积来捕获更丰富的信息,而非局部操作捕获广泛的依赖关系。该方法兼有ASPP和非局部的优点,在医学图像分割中具有良好的应用前景。

C. Loss Function


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!