日韩欧美视频一区-日韩欧美三区-日韩欧美群交P内射捆绑-日韩欧美精品有码在线播放免费-成人免费一区二区无码视频-成人免费一级毛片在线播放视频

樹人論文網(wǎng)一個專業(yè)的學(xué)術(shù)咨詢網(wǎng)站!!!
樹人論文網(wǎng)

結(jié)合注意力機(jī)制和特征融合的靜態(tài)手勢識別

來源: 樹人論文網(wǎng)發(fā)表時間:2021-05-15
簡要:摘 要:近年來,卷積神經(jīng)網(wǎng)絡(luò)在手勢識別領(lǐng)域有著越來越多的應(yīng)用。但現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)存在特征表征不足的問題,致使手勢識別精度較低。為此,本文提出了一種輕量級靜態(tài)手勢識別

  摘 要:近年來,卷積神經(jīng)網(wǎng)絡(luò)在手勢識別領(lǐng)域有著越來越多的應(yīng)用。但現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)存在特征表征不足的問題,致使手勢識別精度較低。為此,本文提出了一種輕量級靜態(tài)手勢識別算法 r-mobilenetv2,該算法首先將通道注意力和空間注意力串聯(lián)起來,并將二者輸出特征圖通過跳躍連接形式線性相加,得到一種全新注意力機(jī)制。然后,將高層特征經(jīng)上采樣與低層特征空間維度匹配,低層特征使用一維卷積調(diào)整通道維度與高層特征通道維度匹配,二者線性相加,其結(jié)果經(jīng)卷積操作與高層特征按通道維度連接而實現(xiàn)特征融合。最后,將所提出的注意力機(jī)制和特征融合結(jié)合起來,用于改進(jìn)后輕量級網(wǎng)絡(luò) MobileNetV2中,進(jìn)而得到r-mobilenetv2算法。實驗顯示r-mobilenetv2相較MobileNetV2減少27%的參數(shù)量,錯誤率降低1.82%。

結(jié)合注意力機(jī)制和特征融合的靜態(tài)手勢識別

  本文源自胡宗承; 周亞同; 史寶軍; 何昊, 計算機(jī)工程 發(fā)表時間:2021-05-14《計算機(jī)工程》簡介:《計算機(jī)工程》刊登內(nèi)容包括發(fā)展趨勢/熱點技術(shù)、博士論文、基金項目論文、專題論文、軟件技術(shù)與數(shù)據(jù)庫、安全技術(shù)、多媒體技術(shù)及應(yīng)用、網(wǎng)絡(luò)與通信、人工智能及識別技術(shù)、工程應(yīng)用技術(shù)與實現(xiàn)、開發(fā)研究與設(shè)計技術(shù)等。

  關(guān)鍵詞:注意力機(jī)制;特征融合;手勢識別;圖片分類;輕量級網(wǎng)絡(luò)

  0 概述

  手勢識別是人機(jī)交互的一個重要研究方向,在體感游戲和智能家居等場景有著廣泛應(yīng)用。LIAN[1]、 YANG[2]等人利用穿戴設(shè)備識別簡單手勢,但穿戴設(shè)備使用不便且不適合推廣。基于視覺的手勢識別憑借靈活便捷的優(yōu)勢,成為一個研究熱點。深度學(xué)習(xí)火熱前,基于視覺的手勢識別重大突破多屬于人工特征提取方法,如方向梯度直方圖[3-5](Histogram of oriented gradient, HOG)、SIFT[6](Scale-invariant feature transform)等。對特征分類多采用 SVM (Support Vector Machine),如文芳等人[7]提出一種基于 RGB-D 數(shù)據(jù)的手勢識別方法,首先分割手部區(qū)域,提取手勢特征,進(jìn)而使用 SVM 進(jìn)行分類。 TARVEKAR 等人[8]提出一種用于非接觸式的手勢識別系統(tǒng),該系統(tǒng)在多種顏色空間中檢測膚色信息,應(yīng)用皮膚閾值從分割圖像中分割手部區(qū)域,從中提取顏色和邊緣特征,利用 SVM 分類器對手勢進(jìn)行識別。緱新科等人[9]提出一種基于梯度方向直方圖與局部二值模式融合的手勢識別方法,該方法利用主成分分析對梯度方向直方圖特征描述算子進(jìn)行降維,降維后的數(shù)據(jù)與局部二值模式特征融合,最后利用 SVM 實現(xiàn)靜態(tài)手勢識別。

  隨著深度學(xué)習(xí)成為研究熱點,卷積神經(jīng)網(wǎng)絡(luò)逐漸被應(yīng)用在各種領(lǐng)域。吳曉風(fēng)等人[10]通過 Faster RCNN 深度網(wǎng)絡(luò)模型進(jìn)行手勢識別,能夠在識別手勢的同時進(jìn)行手勢檢測。張強(qiáng)等人[11]采用改進(jìn)的 YOLOV3(You Only Look Once)算法對靜態(tài)手勢進(jìn)行識別,該方法采用 Kinect 設(shè)備采集的四種信息,綜合四種圖片信息的優(yōu)勢,共同作用提高手勢識別精度,同時利用 K-Means 聚類算法對 YOLOV3 候選框 參 數(shù) 進(jìn) 行 優(yōu) 化 。 周 文 軍 等 人 [12] 在 DSSD (Deconvolutional Single Shot Detector)的上提出一種靜態(tài)手勢識別算法,DSSD 中的先驗框?qū)捀弑炔⒎鞘謩釉O(shè)定,使用 K-Means 聚類算法和手肘法共同決定先驗框?qū)捀弑龋瑫r還利用遷移學(xué)習(xí)解決數(shù)據(jù)量小的問題。CHAUDHARY [13]提出了一個用于光不變手勢識別系統(tǒng)的神經(jīng)網(wǎng)絡(luò)。利用方向直方圖提取手勢特征向量對六類手勢分類。極端光照強(qiáng)度變化環(huán)境總體精度達(dá)到 92.86%。ALNUJAIM 等人[14]利用手勢對天線阻抗產(chǎn)生變化進(jìn)行分類,將采集阻抗轉(zhuǎn)化為光譜圖,采集時變信號作為圖像,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,對于精細(xì)手勢識別仍需進(jìn)一步研究。

  針對現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型對手勢特征表征不足問題,本文提出了一種結(jié)合注意力和特征融合的靜態(tài)手勢識別算法。引入注意力機(jī)制對輸入特征圖進(jìn)行選擇性輸入,引入特征融合將高級特征經(jīng)上采樣與低級特征相結(jié)合增強(qiáng)特征表征能力,共同作用提高分類精度。本文主要工作如下:(1)引入注意力機(jī)制。采用通道注意力與空間注意力串聯(lián)的方式,提出 一 個 自 適 應(yīng) 卷 積 注 意 力 模 塊 ( Adaptive Convolution Attention Module,ACAM)。該模塊在增加模型復(fù)雜度的同時,對模型的特征表征能力帶來了明顯的改善。(2)引入特征融合,提出分類特征金字塔(Classification Feature Pyramid,CFP)將高層特征與低層特征結(jié)合,提高分類精度。(3)在不同 網(wǎng) 絡(luò) 模 型 上 驗 證 ACAM 的 適 應(yīng) 性 , 以 MobileNetV2 為例在不同注意力機(jī)制上驗證 ACAM 的有效性。通過消融實驗驗證驗證 ACAM 和 CFP 在網(wǎng)絡(luò)中的表現(xiàn)能力。(4)提出一種結(jié)合注意力和特征融合的靜態(tài)手勢識別算法 r-mobilenetv2。

  1 相關(guān)工作

  注意力機(jī)制研究源于 19 世紀(jì)的實驗室心理學(xué),2014 年 Google DeepMind 團(tuán)隊提出注意力機(jī)制并將其用在圖片分類中[15]。注意力機(jī)制本質(zhì)是對輸入數(shù)據(jù)特定選擇,使網(wǎng)絡(luò)模型更加關(guān)注輸入數(shù)據(jù)中的重要信息,抑制非重要信息。

  WANG 等人[16]提出殘差注意力網(wǎng)絡(luò),殘差學(xué)習(xí)機(jī)制由多個注意力模塊堆疊而成,注意力模塊內(nèi)部采用自底向上、自頂向下結(jié)構(gòu)與堆疊的沙漏網(wǎng)絡(luò)可以快速收集圖像全局信息,并將全局信息與原始特征圖結(jié)合,但存在計算量大的問題。HU 等人[17]提出 SENet(Squeeze-and-Excitation Networks),通過壓縮 -激勵方法使特征圖通道間建立相互依賴關(guān)系,自適應(yīng)調(diào)整特征圖通道權(quán)重。WOO 等人[18-19]提出 BAM ( Bottleneck Attention Module ) 及 CBAM (Convolutional Block Attention Module)兩種不同注意力模塊,同時考慮空間注意力和通道注意力。BAM 在深度神經(jīng)網(wǎng)絡(luò)下采樣前發(fā)揮作用,其中通道注意力模型和空間注意力模型采用并聯(lián)方式。CBAM 通道注意力模型和空間注意力模型采用串聯(lián)方式結(jié)合, 是一個輕量級注意力模塊。WANG 等人[20]提出一種有效的通道注意深度卷積神經(jīng)網(wǎng)絡(luò) ECA(Efficient Channel Attention),借鑒 SENet 思想,將全連接層替換為一維卷積,并且采用自適應(yīng)一維卷積對通道進(jìn)行特征提取,聯(lián)合相鄰?fù)ǖ佬畔ⅲm然實驗取得不錯結(jié)果,但是沒有引入特征圖空間關(guān)系。武茜等人[21]將多通道注意力機(jī)制用于人臉替換的鑒別任務(wù)中,在多通道注意力中融合了全局注意力和局部注意力。魯甜等人[22]提出了一種特征圖注意力用于超分辨率圖像重建,利用特征圖注意力機(jī)制獲取特征通道間依賴關(guān)系,自適應(yīng)調(diào)整特征圖通道權(quán)重。

  特征融合多用于目標(biāo)檢測、圖像分割中,很多工作通過融合多層特征提升檢測和分割能力。LIN 等人[23]提出目標(biāo)檢測的特征金字塔網(wǎng)絡(luò),采用具有橫向連接、自頂向下結(jié)構(gòu)將高層語義特征與低層語義特征結(jié)合,提高了小目標(biāo)檢測能力。LIU 等人[24] 提出了路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet),PANet 采用自底向上的路徑增強(qiáng)方法,以較底層的精確定位信號增強(qiáng)整個特征層,縮短較底層次與最上層間的信息路徑,并且提出自適應(yīng)特征池化,將特征網(wǎng)絡(luò)與各特征層連接。CAO 等人[25] 提出一種基于注意力引導(dǎo)的語義特征金字塔網(wǎng)絡(luò)(Attention-guided Context Feature Pynamid Network, ACFPN),該網(wǎng)絡(luò)利用注意力機(jī)制整合不同大規(guī)模區(qū)域信息。陳澤等人[26]提出了基于級聯(lián)的多層特征融合策略,將淺層特征圖與深層特征圖按通道維度連接,解決小目標(biāo)識別效果差的問題。李季等人[27]針對目標(biāo)尺度不同的問題,采用多尺度融合的思想,構(gòu)建三分支網(wǎng)絡(luò),然后對低層特征和高層特征進(jìn)行選擇性融合。李青援等人[28]為解決多尺度融合存在信息差異的問題,提出了一種新的特征融合方法,將兩種不同尺度特征圖結(jié)合,產(chǎn)生含有兩個特征圖信息的中間層,利用中間層表示不同尺度特征圖中間差異,然后將中間層與采樣后的特征圖再次融合,避免信息差異帶來的負(fù)面影響。

  2 本文算法

  本文算法創(chuàng)新點在提出了一種新的注意力機(jī)制 ACAM,和特征圖融合方式 CFP。ACAM 綜合了特征圖的通道和空間信息,CFP 融合了低層和高層特征有效提高了分類的準(zhǔn)確度。除了以上兩點外,本文將 ACAM、CFP 運用在改進(jìn)的 MobileNetV2 [29]上,提出了 r-mobilenetv2 網(wǎng)絡(luò)。

  2.1 注意力機(jī)制

  本文提出的注意力模塊 ACAM 如圖 1 所示。 ACAM 由兩部分組成,通道注意力模型和空間注意力模型。通道注意力模型采用自適應(yīng)一維卷積操作,且在通道注意力模型后添加跳躍連接,將通道注意力模型輸出特征圖 F1與空間注意力模型輸出特征圖 F2 線性相加。假設(shè)初始輸入特征圖 F 大小為 H W C ? ?,通過 ACAM 中的通道注意力模型可得大小為 1 1 C ? ?的一維通道注意力特征圖;通過 ACAM 中空間注意力模型可得大小為 H W 1 ? ?的二維空間注意力特征圖。

  其中:CA 為通道注意力模型,SA 為空間注意力模型,F(xiàn) 為輸入特征圖,F(xiàn)1 為經(jīng)過通道注意力模型處理后的特征圖,F(xiàn)2 為經(jīng)過空間注意力模型處理后的特征圖,F(xiàn)3為整體注意力模型處理后的重建特征圖。

  通道注意力模型采用一維卷積對特征圖通道信息處理,根據(jù)特征圖通道數(shù)動態(tài)選擇卷積核大小。通道注意力模型工作流程如圖 2 所示。首先對輸入特征圖進(jìn)行壓縮,即在空間方向進(jìn)行壓縮,得到大小為 1 1 C ? ?的特征圖。根據(jù)特征圖通道數(shù) C,自適應(yīng)選擇一維卷積核大小。根據(jù)卷積核大小一維卷積對相鄰?fù)ǖ捞卣鬟M(jìn)行處理,增加通道間相關(guān)性。再將一維卷積處理后的特征圖通過激活函數(shù)進(jìn)行重建。最后得到一維通道注意力特征圖與輸入特征圖 F 相乘輸出為通道注意力輸出特征圖 F1。

  根據(jù)特征圖共享卷積核的原則,可以推斷通道數(shù) C 與一維卷積核 kernel-size: k 必然存在某種聯(lián)系,即滿足 ( ) C ( ) 2 r k b ? k ? ?? ?。最基礎(chǔ)假設(shè)從簡單的線性映射驗證該函數(shù),即 C ? ? ? r k b ,但線性關(guān)系表達(dá)性有限。另一方面由于計算機(jī)是二進(jìn)制,而卷積神經(jīng)網(wǎng)絡(luò)中 batch-size、通道維度大多習(xí)慣設(shè)為 2 n,故設(shè) ( ) C ( ) 2 r k b ? k ? ?? ?。采用非線性表示通道數(shù) C 與一維卷積核 k 之間關(guān)系,相較線性關(guān)系有更強(qiáng)的表現(xiàn)型,如公式 2 所示: 2 lo g ( C ) ( C ) b k f r r ? ?? ? ? ? ? ? ? (2) 其中: k 為一維卷積核大小,C 為輸入特征圖通道數(shù), r 、b 為超參數(shù),這里分別取 r 為 2,b 為 1。

  空間注意力模型在通道注意力輸出特征圖 F1的基礎(chǔ)上進(jìn)行操作,如圖 3 所示。首先沿著通道所在維度方向進(jìn)行均值化處理,得到大小為 H W 1 ? ?的特征圖。然后對其進(jìn)行二維卷積操作,得到的特征圖經(jīng)激活函數(shù)輸出為二維空間注意力特征圖。最后二維空間注意力特征圖與通道注意力輸出特征圖 F1相乘得到空間注意力輸出特征圖 F2。

  2.2 特征融合

  本文借鑒特征金字塔的思想,提出分類特征金字塔 CFP。CFP 整體結(jié)構(gòu)如圖 4 所示,采用橫向連接、自頂向下與自底向上結(jié)合的連接方式。在 stage2 中高層特征 A 經(jīng)上采樣和 stage1中低層特征 B 經(jīng)一維卷積后得到的特征圖線性相加,得到特征圖 G,特征圖 G 經(jīng)二維卷積得到特征圖 D,特征圖 D 與高層特征 A 空間維度匹配后,在通道維度上連接,將得到新特征圖 E 送入后序網(wǎng)絡(luò)中分類。

  CFP 主要分為三部分 stage1、stage2、stage3,分別對應(yīng)特征提取、上采樣、特征融合三個方面。在 stage1 中,采用卷積神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)進(jìn)行特征提取,自底而上的特征圖每次空間維度減半,取最上兩層特征圖 A、B 作為最終特征融合所需特征圖。 stage2應(yīng)用 stage1中最上層高級語義特征 A 進(jìn)行上采樣,經(jīng)上采樣后的特征圖空間尺度變?yōu)樵瓉矶叮c stage1 中特征圖 B 在空間維度上匹配。stage1 中特征圖 B 經(jīng)過 1×1 卷積調(diào)整通道數(shù),使其與 stage2中特征圖 A 通道維度相匹配,兩者進(jìn)行簡單線性相加。 stage3將 stage2中高分辨率特征圖 G 經(jīng)卷積操作使空間維度與低分辨率特征圖 A 相匹配,在通道維度連接。最后將融合特征圖 E 送入后序網(wǎng)絡(luò)分類。

  2.3 r-mobilenetv2

  r-mobilenetv2 在 MobileNetV2 基 礎(chǔ) 上 引 入 ACAM 和 CFP 的同時,對原網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。具體為,去掉最后一個 Inverted Residuals 模塊即輸入為 7×7×160 的 Inverted Residuals 模塊,加入注意力機(jī)制 ACAM 和特征融合 CFP。

  MobileNet 系列[29-31]是由 Howard 等人提出的,一種有效的輕量級網(wǎng)絡(luò),雖然相較其他網(wǎng)絡(luò)犧牲部分準(zhǔn)確度,但在計算量和參數(shù)量上有著巨大優(yōu)勢。在 224×224 大小 RGB 圖片上 MobileNetV2 參數(shù)量是 VGG16 參數(shù)量的 1.72%,是 ResNet-18 參數(shù)量的 20.63%。故 MobileNet 系列及變體能夠有效的部署在移動端。本文主要針對 MobuleNetV2 進(jìn)行改進(jìn)。 r-mobileNetV2 的網(wǎng)絡(luò)結(jié)構(gòu)如表 1 所示:

  input 代表輸入特征圖大小,operator 代表對輸入特征圖的處理方式,C 代表通道數(shù),其中 class_num 代表類別數(shù),t 對應(yīng)擴(kuò)展因子,S 為 Strides 確定卷積步數(shù)。n 代表重復(fù)次數(shù)。當(dāng) n 大于 1 時,每組的第一個 bottleneck 中卷積 S 為表中的值,其他默認(rèn) S 取 1。一組 bottleneck 構(gòu)成一個 Inverted Residuals 模塊。

  r-mobilenetv2 在每個 Inverted Residuals 模塊中 Strides 等于 1、等于 2 時的共同部分后添加 ACAM,最后兩個 Inverted Residuals 模塊中引入 CFP。加入 ACAM 的位置如圖 5 所示。

  3 實驗與分析

  本文的實驗硬件環(huán)境為 Inter(R) Xeon(R) CPU E5-2640 v4@ 2.40GHz, GPU為一塊顯存11G的GTX 1080Ti。軟件環(huán)境為 Ubuntu16.04, Keras2.2.2。使用 RMSprop 對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率為 0.001,權(quán)重衰減系數(shù)為 1e-6。batch-size 設(shè)為 64,若 10 個 epoch 測試集準(zhǔn)確率沒有提升,學(xué)習(xí)率衰減為原來的十分之一,30 個 epoch 測試集準(zhǔn)確率沒有提升,程序停止。

  3.1 數(shù)據(jù)來源及預(yù)處理

  本文在 LaRED[32](large RGB-D extensible hand gesture dataset)數(shù)據(jù)集上進(jìn)行實驗測評,LaRED 數(shù)據(jù)集共有 27 種基礎(chǔ)手勢,含 242900 張圖片。27 種基礎(chǔ)手勢如圖 6 所示。每個基礎(chǔ)手勢取三個朝向,分別為基礎(chǔ)手勢、基礎(chǔ)手勢繞 X 軸旋轉(zhuǎn) 90 度、基礎(chǔ)手勢繞 X/Y 軸各旋轉(zhuǎn) 90 度的手勢。從數(shù)據(jù)集中選取部分手勢如圖 7 所示。

  原始數(shù)據(jù)集為按幀采集的連續(xù)序列,相鄰幀圖片近似。故每 15 幀取一張圖片,對數(shù)據(jù)集進(jìn)行篩選,同時只利用數(shù)據(jù)中的 RGB 信息。其訓(xùn)練集含 12955 張圖片,測試集含 3239 張圖片。對于處理好的圖片采取 RGB 的方式輸入,利用 ImageNet 中圖片均值進(jìn)行去均值。送到后續(xù)網(wǎng)絡(luò)中進(jìn)行分類。

  3.2 注意力機(jī)制 ACAM 實驗分析

  本文首先在不同網(wǎng)絡(luò)模型上驗證本文提出注意力機(jī)制的適用性,然后在 MobileNetV2 網(wǎng)絡(luò)的基礎(chǔ)上,添加不同注意力模型與本文提出的注意力模型對比,綜合驗證 ACAM 的有效性。

  網(wǎng) 絡(luò) 選 取 所 選 網(wǎng) 絡(luò) ResNet-18[33] , ShuffleNetV2[34],MobileNetV2。實驗結(jié)果由表 2 所示,表中顯示有網(wǎng)絡(luò)模型、參數(shù)量和 Top1 錯誤率。

  從表 2 可以看出,本文提出的 ACAM 雖然僅引入較少參數(shù),但在不同網(wǎng)絡(luò)模型的準(zhǔn)確率上均有百分之一左右的提升,證明了 ACAM 模塊的適用性。在 ResNet-18 上錯誤率降低 1.57%,參數(shù)量增加 214。在 ShuffleNetV2 上錯誤率降低 0.77%,參數(shù)量增加 864。在 MobileNetV2 上錯誤率降低 0.98%,參數(shù)量增加 892。

  對比三種不同網(wǎng)絡(luò)及加入 ACAM 的表現(xiàn), MobileNetV2不管從Top1 錯誤率還是參數(shù)量均有明顯優(yōu)勢。從 Top1 錯誤率看,MobileNetV2+ACAM 的 Top1 錯 誤 率 比 ResNet-18 降 低 0.31% , 比 ShuffleNetV2+ACAM 降低 0.92%;從參數(shù)量上看, MobileNetV2+ACAM 參數(shù)量僅為 RestNet-18 的 20.64%,為 ShuffleNetV2+ACAM 的 57.18%。綜合考慮在 MobileNetV2 基礎(chǔ)上進(jìn)行實驗。

  為驗證 ACAM 模塊的有效性,以 MobileNetV2 為例,在 BAM(bottleneck attention module)、CBAM ( convolutional block attention module )、 ECA (efficient channel attention)上與 ACAM 進(jìn)行對比。實驗結(jié)果由表 3 所示,表中顯示網(wǎng)絡(luò)模型、參數(shù)量和 Top1 錯誤率。從表 3 可以看出,在 MobileNetV2 上,不同注意力模型對于手勢識別結(jié)果均有貢。相較 MobileNetV2 基礎(chǔ)網(wǎng)絡(luò),MobileNetV2+BAM 參數(shù)量增加 157400,在 MobileNetV2 參數(shù)量的基礎(chǔ)上增加 6.81%。MobileNetV2+CBAM 參數(shù)量增加 60,286,在 MobileNetV2 參數(shù)量的基礎(chǔ)上增加 2.61%。 MobileNetV2+ECA 參數(shù)量僅增加 59,增加參數(shù)量相對 MobileNetV2 參數(shù)量可忽略不計。本文提出的 ACAM 與 MobileNetV2 結(jié)合后參數(shù)量為 2,311,703,相較 MobileNetV2 參數(shù)量增加 892,相當(dāng)于在 MobileNetV2 參數(shù)量基礎(chǔ)上增加 3.86e-4。不考慮錯誤率情況下,就引入?yún)?shù)量進(jìn)行比較,BAM 引入?yún)?shù)量最多,CBAM 次之,ACAM 和 ECA 引入?yún)?shù)量相對較少。綜合 Top1 錯誤率和模型參數(shù)量兩個衡量標(biāo)準(zhǔn)考慮,本文提出的 ACAM 結(jié)果更優(yōu)。

  3.3 改進(jìn)網(wǎng)絡(luò)實驗分析

  將本文提出的注意力機(jī)制與特征融合模塊加入 MobileNetV2 中,并對 MobileNetV2 進(jìn)行修改, mobilenetv2 為直接在 MobileNetV2 上修改后的網(wǎng)絡(luò)。實驗結(jié)果如表 4 所示。

  首先在 MobileNetV2 基礎(chǔ)上進(jìn)行刪減,刪減后 mobilenetv2 參 數(shù) 量 減 少 900,480 , 相 當(dāng) 于 MobileNetV2 參數(shù)量的 38.97%。mobilenetv2 在減少參數(shù)量的同時準(zhǔn)確率提升,Top1 錯誤率減少 0.3%。實驗說明刪減后的網(wǎng)絡(luò)更適合手勢識別。然后在 MobileNetV2 和 mobilenetv2 上添加 CFP 和 ACAM。添加 CFP 后兩種不同網(wǎng)絡(luò) MobileNetV2+CFP 和 mobilenetv2+CFP Top1 錯誤率均降低 1%左右,但參數(shù)量大幅上升,相較原基礎(chǔ)網(wǎng)絡(luò),參數(shù)量分別增加 58.96% 、 19.27% 。 添 加 ACAM 后 , mobilenetv2+ACAM 相較 MobileNetV2+ACAM Top1 錯誤率更低,在參數(shù)量更少情況下,Top1 錯誤率降低 0.53%。通過上述可得 CFP、ACAM 對手勢識別任 務(wù) 是 有 效 的 。 最 后 將 CFP 和 ACAM 加 入 MobileNetV2 和 mobilenetv2 中,形成 R-MobileNetV2 和 r-mobilenetv2。其中 R-MobileNetV2 以未經(jīng)刪減 MobileNetV2 為 基 礎(chǔ) , r-mobilenetv2 以 刪 減 后 MobileNetV2 為基礎(chǔ)。最終 R-MobileNetV2 相對 MobileNetV2 Top1 錯誤率降低 1.26%,參數(shù)量相對 MobileNetV2 增加 59.00%,達(dá)到了 3,674,263。 r-mobilenetv2 相對 mobilenetv2 Top1 錯誤率降低 1.52%,參數(shù)量相對 mobilenetv2 增加 11.79%,達(dá)到 1,682,849。r-mobilenetv2 相對 R-MobileNetV2 Top1 錯誤率降低 0.56%,參數(shù)量僅為 R-MobileNetV2 的 45.80%。r-mobilenetv2 相對 MobileNetV2 Top1 錯誤率降低 1.82%,達(dá)到 1.17%,參數(shù)量僅為 MobileNetV2 的 72.83%。綜上在對比實驗中充分驗證了 CFP 和 ACAM 及 r-mobilenetv2 的有效性。

  此外,在 r-mobilenetv2 網(wǎng)絡(luò)中,選取測試集數(shù)據(jù)制作混淆矩陣。結(jié)果如圖 8 所示,橫坐標(biāo)為預(yù)測類別,縱坐標(biāo)為真實類別。在 27 種手勢中,基本完全預(yù)測正確。從圖 8 可以看出,r-mobilenetv2 在手勢識別中有著優(yōu)異的表現(xiàn)。

  4 結(jié)束語

  本文結(jié)合注意力機(jī)制和特征融合,提出一種輕量 級 網(wǎng) 絡(luò) 靜 態(tài) 手 勢 識 別 算 法 r-mobilenetv2 。 r-mobilenetv2 能夠有效提取特征解決特征表征不足的問題,提高手勢識別精度。結(jié)合了空間注意力和通道注意力模型提出了自適應(yīng)一個自適應(yīng)卷積注意力模塊,對網(wǎng)絡(luò)提取特征進(jìn)行選擇性輸入;針對高級語義特征含有分類信息并不完全的現(xiàn)狀,提出分類特征金字塔。通過實驗證實自適應(yīng)卷積注意力模塊及分類特征金字塔的有效性。最后將自適應(yīng)卷積注 意 力 模 塊 和 分 類 特 征 金 字 塔 結(jié) 合 引 入 MobileNetV2 中 , 提 出 一 種 新 的 輕 量 級 網(wǎng) 絡(luò) r-mobilenetv2。相較為 MobileNetV2,r-mobilenetv2 參數(shù)量降低了 27.20%,Top1 錯誤率降低了 1.82%。準(zhǔn)確達(dá)到 98.83%。在后續(xù)工作可以從損失函數(shù)、卷積方式入手對網(wǎng)絡(luò)進(jìn)行改進(jìn),進(jìn)一步提高網(wǎng)絡(luò)識別精度及泛化性能。

主站蜘蛛池模板: 亚洲福利电影一区二区? | 欧美一区二区高清 | 国语自产二区高清国语自产拍 | 高清bblxx手机在线观看 | 白丝制服被啪到喷水很黄很暴力 | 国产一区二区波多野结衣 | 国产真实乱对白精彩 | 国产色婷亚洲99精品AV在 | 男助理憋尿PLAY灌尿BL出去 | 亚洲 欧美 制服 视频二区 | 国产99在线视频 | 美国一级大黄一片免费的网站 | 亚洲网站视频在线观看 | 欧美一区二区三区久久综 | 男人j进女人j一进一出 | 国产69精品久久久久无码麻豆 | 沦为公交两奶头春药高潮迭起 | 亚洲视频中文 | 亚洲AV精品无码成人 | 国产精品永久在线 | 色偷偷7777www| 中文字AV字幕在线观看 | 老色69久久九九精品高潮 | 校花在公车上被内射好舒 | www.狠狠色 | 国产系列在线亚洲视频 | 免费视频久久只有精品 | 世界上第一个得抑郁症的人是谁 | 啊好深啊别拔就射在里面 | 国产人成高清在线视频99 | 亚洲乱码高清午夜理论电影 | 丝袜美女被啪啪不带套漫画 | 精品国产乱码久久久久久人妻 | 4480YY旧里番在线播放 | 久久观看视频 | 免费国产足恋网站 | 草莓西瓜樱桃香蕉直播视频 | 在线视频av大全色久久 | 无限资源在线观看高清 | 簧片免费观看 | 日本高清不卡码无码v亚洲 日本福利片午夜免费观着 日本粉嫩学生毛绒绒 |