您好, 訪客   登錄/注冊

輕量級卷積神經網絡研究

來源:用戶上傳      作者:劉忠旭,于延,吳昊謙

  摘要:現如今在視覺領域中卷積神經網絡模型在確保識別率不大幅降低的前提下正朝著更低的計算量;更少的參數;更小的存儲占用的輕量化趨勢發展。文章列舉了近年來經典的輕量級卷積神經網絡,總結歸納了各個網絡的特點和創新之處,為后繼相關學者提供參考。
  關鍵詞:卷積神經網絡;輕量級卷積神經網絡;深度學習;計算機視覺
  中圖分類號:TP393 文獻標識碼:A
  文章編號:1009-3044(2021)32-0006-03
  卷積神經網絡(CNN)是一類具有深度結構且包含卷積計算的前饋神經網絡,是深度學習代表算法之一。自1987年提出的時間延遲網絡開始,隨著數值計算設備的改進和深度學習理論的提出,卷積神經網絡在計算機視覺領域得到了迅猛發展,多次成為ImageNet[1]大規模視覺識別競賽的優勝算法,被廣泛應用在圖像分類、目標檢測、目標跟蹤等視覺任務中,取得了成功。然而卷積神經網絡模型通常包含數以百萬計甚至更多的參數,這些參數在帶來網絡模型性能提升的同時,也造成了網絡需要較大的運算量和內存占用等缺點,不利于模型向運算資源有限的設備和應用中嵌入。針對CNN參數嚴重冗余,計算量大、計算速率慢等問題,國內外研究學者們開展了一系列理論和技術上的創新研究,促使輕量級卷積神經網絡的產生和持續發展。本文列舉了近年來經典輕量級卷積神經網絡模型,對其特點和創新之處進行歸納總結方便相關學者了解輕量化卷積神經網絡的發展方向和研究重點。
  1 SqueezeNet
  SqueezeNet不同于傳統卷積,提出了Fire模塊,每個Fire模塊主要包含兩層卷積操作,一是采用1×1卷積核的squeeze層,二是混合使用1×1和3×3卷積核的expand 層。主要創新是:
 ?。?)在Fire模塊中將3×3卷積替換成1×1卷積,對特征矩陣的維數進行壓縮,一個卷積操作的參數數量減少了9倍,從而達到減少權值參數的目的;(2)減少3×3卷積的通道數,一個3×3卷積的計算量是3×3×M×N,將M,N減小以減少參數數量。
  2 MobileNet系列
  MobileNetV1[2]其核心思想主要以深度可分離卷積來替代標準卷積,減少參數量并且提升運算速度。深度可分離卷積是由深度卷積DW(depthwise convolution,DW)和逐點卷積PW(pointwise convolution, PW)組成的。深度卷積是特征圖的一個通道僅由一個卷積核進行卷積,卷積核的個數等于通道數。逐點卷積和普通卷積基本相同,只是將卷積核尺寸縮小為1×1。深度可分離卷積首先利用深度卷積提取每個通道的特征,再利用逐點卷積對通道進行特征關聯。
  MobileNetV2[3]提出了倒殘差結構即在每個瓶頸模塊中先使用1×1卷積升維后做深度卷積(DW)處理,使得DW在擁有更為豐富的語義信息的高維空間中提取特征,再使用PW降維度處理,并且在第二個PW后將非線性激活函數改為線性激活函數。
  MobileNetV3提供了MobileNetV3-small和MobileNetV3-large兩個版本,分別適用對資源不同要求的情況。在ImageNet分類任務上,Small版本較V2精度提高了大約3.2%,時間卻減少了15%, large版本較V2精度提高了大約4.6%,時間減少了5%,large版本與V2相比,在分割算法上也有一定的提高。MobileNetV3繼承了V1、V2版本的深度可分離卷積和線性瓶頸中的倒殘差結構同時在DW之后引入了SeNet通道注意力,使用了一種新的激活函數h-swish(x)代替Relu6,使用了Relu6(x + 3)/6來近似SeNet模塊中的激活函數。MobileNetV3首先使用一種自動移動神經體系結構搜索方法(MnasNet) 進行粗略結構的搜索,然后使用強化學習從一組離散的選擇中選擇最優配置。之后再使用適用于移動應用程序平臺感知型算法(NetAdapt) 對體系結構進行微調。
  3 Shufflenet系列
  ShuffleNetV1[4]提出了通道混洗(channel shuffle)操作,使得網絡可以盡情地使用分組卷積來加速,ShuffleNetV2提出通道滑櫻channel split)操作,在加速網絡的同時進行了特征重用,達到了很好的效果。ShuffleNet系列在ImageNet競賽和MSCOC數據集的競賽中均展現了優越的性能。
  ShuffleNetV1主要采用了逐點組卷積和通道混洗(channel shuffle)兩種操作,以減少模型使用的參數量。同時將各部分特征矩陣的通道進行有序地打亂,構成新的特征矩陣,解決組卷積帶來的“信息流通不暢”的問題。
  ShuffleNetV2主要貢獻是提出了應該使用更直接的效率度量方法,如速度、耗時等。在ShuffleNetV1的通道混洗的基礎上又提出了通道滑動(channel split),增強特征重用性的同時也減少了計算量,并且提出了4條高效網絡設計的方法建議:(1)使用輸入輸出通道相同的卷積;(2)了解使用分組卷積的代價、合理地設定分組格式;(3)降低網絡并行的分支;(4)減少逐點運算。ShuffleNetV2依據這4條準則設計,它的框架與V1版本基本一樣,不同的是多了一個1×1的卷積層。 對于每一層,它的第一個卷積模塊(block)是需要進行翻倍的,且步距都是2。
  4 IGCNet系列
  IGCNet系列網絡的核心是分組卷積的極致運用,將常規卷積分解成多個分組卷積,能夠減少大量參數,另外互補性原則和排序操作能夠在最少的參數量情況下保證分組間的信息流通。IGCNetV1[5]針對組卷積限制了組與組之間相互獨立的問題,提出用交錯的組卷積來代替普通卷積的策略,在減少參數的同時克服了組卷積結構中組與組之間相互的缺點。IGCNetV2交錯結構化稀疏卷積代替普通卷積,針對IGCNetV1中主分組卷積和次分組卷積在分組上是互補的,導致此卷積的分組數一般較小,每個分組的維度較大,次卷積核稠密的問題,提出交錯結構稀疏卷積(Interleaved Structured Sparse Convolution)。使用多個連續的稀疏分組卷積來替換原來的次分組卷積,使得每個分組卷積的分組數都足夠多,保證卷積核的稀疏性。IGCNetV3[11]結合低秩卷積和稀疏卷積構造交錯的低秩組卷積(Interleaved Low-Rank Group Convolutions)。使用低秩稀疏卷積核來擴展和輸入分組特征的維度以及降低輸出的維度,中間使用深度卷積提取特征。另外引入松弛互補性原則,類似于IGCV2的嚴格互補性原則,用來應對分組卷積輸入輸出維度不一樣的情況。在整體結構上和MobileNetV2十分接近,核心依然是稀疏分組卷積以及排序操作。

nlc202301131533



  5 ChannelNets
  ChannelNets[6]創新性地提出網絡輕量化的下一個核心在于改變輸入到輸出的稠密連接方式,將輸入輸出的連接進行稀疏化而非全連接,區別于分組卷積的嚴格分組,讓卷積在通道維度上進行滑動,能夠更好地保留通道間的信息交流。基于這一思想,提出了channel-wise深度可分離卷積。channel-wise深度可分離卷積是在深度卷積后面接一個channel-wise卷積以融合特征來降低參數量和計算量,并以該結構替換網絡最后的全連接層與全局池化的操作。
  6 ESPNet系列
  ESP模塊是ESPNet的核心組成部分,該模塊包含逐點卷積和空洞卷積金字塔,每層具有不同的膨脹率。在參數量不增加的情況下,能夠融合多尺度特征,相比于深度可分離卷積性價比更高。
  ESPNetV1[7]基于減少分割轉換合并(reduce split transform merge)的策略設計,由逐點卷積和基于空間金字塔的膨脹卷積兩部分組成?;诰矸e分解理論,ESP模塊首先通過1×1的逐點卷積對輸入特征進行降維,然后使用多個不同膨脹率的空洞卷積對低維特征進行特征提取,重新采樣低維特征。因為各個膨脹卷積核的感受野不同,從小到大都有,類似于空間金字塔,所以作者將其命名為ESP模塊。ESPNetV1被設計應用在有資源限制下的高分辨率圖片的快速語義分割領域,ESP模塊比其他卷積分解方法更高效,在GPU、筆記本、終端設備上分別達到112FPS、21FPS、9FPS的傳輸幀率。
  目前主要有三N減少網絡參數的方法:1)基于網絡壓縮的方法;2)基于低位表示的方法;3)分解卷積操作的方法。ESPNetv2正是使用第三種方法來實現網絡輕量化。 ESPNetV2在ESPNetV1的基礎上加入深度可分離空洞卷積進行拓展,相對于ESPNetV1擁有更高的精度,參數相比上一代少了約四倍。ESPNetv2在圖像分類、語義分割、目標檢測視覺任務上都有較好的準確率和較低的參數量的效果。
  7 EfficientNet系列
  在卷積神經網絡的設計中,能否設計一個標準化的卷積網絡擴展方法,既可以實現較高的準確率,又可以充分節省算力資源是研究者們所提出的思考問題?;谏鲜鏊伎糆fficientNetV1[8]對目前分類網絡的優化提出更加泛化的思想,認為加寬網絡模型、加深網絡深度和增加圖像分辨率這3種目前常用的提升網絡指標的方式之間不應該是相互獨立的,可以以相同比例的常數來進行擴展,通過構建數學模型的方式來解決這3個參數與網絡性能之間的權衡,其中約束條件是計算資源。EfficientNeV1是一種標準化的模型擴展結果,網絡基本結構與MobileNetV3相同,每個瓶頸模塊稱為MBConv,使用了SENet中的壓縮與激勵模塊(squeeze and excitation)中的方法對網絡結構進行了優化。同時增加網絡卷積核的個數、網絡的深度、增大輸入圖像的分辨率來提升網絡的性能。并且實現了在ImageNet上與歷史各種網絡做對比其效果達到最好。
  EfficientNetV1的訓練過程存在的3個問題分別是:訓練圖像的尺寸很大時,訓練速度非常慢;在網絡淺層中使用深度卷積(DW)速度會很慢;同等地放大每個卷積層(stage)是次優的。針對上述問題EfficientNeV2同時關注訓練速度以及參數數量,提出了改進的漸進學習方法,該方法會根據訓練圖像的尺寸動態調節正則方法,不僅能提升訓練速度,而且提升準確率。EfficientNetV2基本結構采用EfficientNeV1中的模塊(MBConv)和一種改進的MBConv模塊,即將其中的深度可分離卷積還原為標準卷積。
  8 GhostNet
  GhostNet[9]其核心理念是用更少的參數來生成更多特征圖,構建了新型端側神經網絡架構Ghost模塊代替普通卷積。Ghost模塊與標準卷積相比,在不更改輸出特征矩陣大小的情況下,其所需的參數總數和計算復雜度均可降低,且Ghost模塊即插即用。在ImageNet分類任務中,GhostNet優于MobileNet系列、ShuffleNet系列、IGCNetV3、MnasNet等。
  9 MicroNet
  MicroNet[10]由加州大學提出可以在極低計算量限制的場景中使用的輕量級神經網絡。MicroNet在MobileNet系列上進行改進和對比,提出了兩項改進方法:
 ?。?)將MobileNet中的逐點卷積以及深度卷積分解為低秩矩陣,從而使得通道數目和輸入輸出的連通性得到一個良好的平衡。
 ?。?)使用一種新的激活函數,通過最大化輸入特征圖與其循環通道偏移之間的多重動態融合,來增強非線性特征,之所以稱之為動態是因為融合過程的參數依賴于輸入特征圖。
  依據這兩項改進方法,MrcroNet的主要創新是通過分解卷積核,進一步壓縮網絡的連接性,使得網絡更加稀疏化,提高計算性能。設計了全新的動態激活函數,引入更多的非線性特征,增強模型表征能力。
  10 結束語
  傳統卷積神經網絡有著模型參數量大、內存需求大以及運算量大的特點導致無法在移動設備和嵌入式設備上運行。為了使所做研究脫離實驗室服務和應用于社會,輕量級卷積神經網絡的發展成為目前重要的研究方向和未來的發展趨勢。本文對近年來國內外提出的經典輕量級卷積神經網絡進行對比分析,歸納總結了各網絡模型所用卷積和提出的特殊創新結構如表1所示,可以為相關學者提供研究參考。
  參考文獻:
  [1] Russakovsky O,Deng J,Su H,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.

nlc202301131533



  [2] Howard A G,Zhu M L,Chen B,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL].2017:arXiv:1704.04861.https://arxiv.org/abs/1704.04861
  [3] Sandler M,Howard A,Zhu M L,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA.IEEE,2018:4510-4520.
  [4] Zhang X Y,Zhou X Y,Lin M X,et al.ShuffleNet:an extremely efficient convolutional neural network for mobile devices[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA.IEEE,2018:6848-6856.
  [5] Zhang T,Qi G J,Xiao B,et al.Interleaved group convolutions[C]//2017 IEEE International Conference on Computer Vision.Venice,Italy.IEEE,2017:4383-4392.
  [6] Gao H,Wang Z,Cai L,et al.ChannelNets:compact and efficient convolutional neural networks via channel-wise convolutions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(8):2570-2581.
  [7] Mehta S,Rastegari M,Caspi A,et al.ESPNet:efficient spatial pyramid of dilated convolutions for semantic segmentation[M]//Computer Vision - ECCV 2018.Cham:Springer International Publishing,2018:561-580.
  [8] Tan M X,Le Q V.EfficientNet:rethinking model scaling for convolutional neural networks[C]//International conference on machine learning. PMLR, 2019: 6105-6114.
  [9] Han K,Wang Y H,Tian Q,et al.GhostNet:more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle,WA,USA.IEEE,2020:1577-1586.
  [10] Li Y S,Chen Y P,Dai X Y,et al.MicroNet:improving image recognition with extremely low FLOPs[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal,QC,Canada.IEEE,2021:458-467.
  【通編輯:唐一東】

nlc202301131533




轉載注明來源:http://www.hailuomaifang.com/8/view-15444101.htm

相關文章

?
99久久国产综合精麻豆