金屬表面缺陷檢測方法YOLOv3I

發布時間：2025-06-21 01:33:41 來源：心得體會點擊：

小中大

字號：

手機查看

劉浩翰,孫鋮,賀懷清,惠康華

(中國民航大學計算機科學與技術學院,天津 300300)

由于工業金屬零件在生產過程中產生的表面缺陷會影響機械設備的正常運行,因此能快速、準確、全面地檢測其表面缺陷具有重要意義.目前,軸承溝道表面缺陷檢測方法主要歸結為兩類: 標準的缺陷檢測和基于深度學習的缺陷檢測.軸承生產環境精細且復雜,所產生的缺陷大小形狀各異,同時與金屬表面有相似的紋理特性,因此檢測較困難.標準檢測方法通常需要相關領域質檢專家參與檢驗缺陷,成本較高,同時無法避免視覺疲勞導致的誤檢、漏檢,檢測效果得不到保證.基于深度學習的缺陷檢測方法主要有兩階段(two-stage)和單階段(one-stage)兩種.兩階段目標檢測算法包括生成候選框和使用卷積神經網絡(convolutional neural networks,CNN)[1]提取特征并進行分類回歸兩個階段,其代表性算法有R-CNN[2],SPP-Net[3],FastR-CNN[4],Faster R-CNN[5]和Mask R-CNN[6].單階段缺陷檢測算法是基于端到端回歸的方法,其典型代表有SSD(single shot multiBox detector)[7]和YOLO(you only look once)系列算法[8-10].兩階段目標檢測算法因其對每個候選框進行特征提取、分類和預測框回歸,因而具有較高的準確性,單階段目標檢測算法則具有更快的檢測速度.

基于深度學習的目標檢測算法依賴卷積神經網絡提取輸入圖像特征,效果越好的模型通常有越深的卷積神經網絡結構,同時網絡模型會產生更多的參數量和計算量.例如: 田強等[11]通過改進殘差模塊結構,加強模型正則化抑制網絡的過擬合,通過控制卷積核數量減少網絡冗余參數,加速了網絡訓練過程; 朱海琦等[12]使用殘差思想充分提取淺層特征信息,提高了淺層特征信息利用率; 黃鳳榮等[13]基于Faster R-CNN引入多級ROI(region of interest)池化層結構,提高了發動機零件表面缺陷檢測效率; 史文旭等[14]提出了融合和增強特征模塊的SSD遙感圖像目標檢測算法; 連麗容等[15]基于RetinaNet深度學習模型結合雙目機器視覺提高了路側行人檢測結果召回率,但檢測速度低于對比算法YOLOv3(you only look once v3); 許增等[16]提出了結合DenseNet的改進YOLOv3方法,將網絡的每層都與后面所有層連接,模型精度得到提升但顯著增加了參數量和計算量; 易三莉等[17]使用U-Net結合Inception模塊增加網絡寬度,但Inception模塊各分支卷積核大小相同,不能有效提取輸入的多尺度特征; 楊焰飛等[18]將Inception模塊放入特征融合支路因而降低了模型運行速率; 王雪[19]在U-Net基礎上使用空洞卷積提取多尺度特征,因為使用不同的擴張率導致感受野不連續,可能會丟失如邊緣之類的連續信息.上述方法有的通過增加網絡模型的深度、合并模型獲得模型在精度性能上的提升,缺點是引入了較多的參數,使模型運行緩慢,不能很好地兼顧檢測的精度和速度,模型參數使用率較低; 有的通過使用改進后的殘差模塊提取淺層特征,但網絡底層的維度變化,會丟失細節信息; 還有通過增加網絡各層之間的連接,改變感受野大小,但會導致模型復雜度增大或丟失一些連續性信息.本文綜合對比了YOLOv3,YOLOv4和YOLOv5[20]的最完全版YOLOv5x模型,經實驗證明YOLOv4,YOLOv5不適合本文復雜紋理背景工業缺陷檢測的研究,最終選擇YOLOv3作為基模型進行工業金屬表面缺陷檢測的研究.

為權衡網絡模型的精度和速度,本文基于YOLOv3提出一種改進的缺陷檢測方法YOLOv3I(you only look once v3 inception).為解決軸承等工業零件表面缺陷大小不一難以檢測、深度學習模型參數量大使用效率低的問題,將標準CNN結構使用單一固定大小的卷積核改進為使用多個不同尺度卷積核進行并行處理的結構,不同大小的卷積核有不同大小的感受野,可以適應和提取不同尺寸的缺陷特征,通過提取多尺度特征進行融合以提升網絡模型的特征提取能力.在使用1×1卷積大幅度減少多個卷積核并行導致的參數增加問題的同時,引入空間可分離卷積,將卷積核分解為不對稱卷積,增加網絡的寬度和深度,在不改變感受野的前提下進一步提升了網絡在精度上的性能,同時減少了模型參數量.標準CNN進行特征下采樣時通常先對輸入的多維特征進行維度提升使特征稀疏化,保留更多特征信息,升維表明需更高的計算開銷,本文使用升維與池化多路并行的方式完成高效率下采樣,同時在每個支路前使用1×1卷積降維,減小網絡參數量,提高模型的參數使用效率.

1.1 模型特征

兩階段檢測方法通常用產生的候選框進行訓練和預測,但產生候選框的過程會耗費很多時間,并重復對每個候選框使用分類器進行訓練和預測,計算量較大,其較低的檢測效率無法滿足生產實時性要求.

(1)

由式(1)可見,網絡特征提取能力的提高會增大每個預測網格是否存在物體的概率Pobject,從而使預測框進行分類預測時更“自信”.

同時每個網格會產生C個類別的條件概率PClassi|Object,即在預測網格存在物體的前提下產生的類別概率,預測框共享條件概率; 在預測階段每個網格會產生3個不同大小的預測框預測輸入圖像上的目標,預測框的信息包括(x,y,w,h,confobject),其中x和y是預測框歸一化位置,w和h分別為預測框歸一化的寬和高,confobject為預測框中包含目標的置信度,預測框預測的每個類別的概率PClassi為

(2)

1.2 骨架網絡

圖1 DarkNet-53的組成單元BlockFig.1 Composition unit Block of DarkNet-53

CNN定義的標準范式[21]: 多個卷積層與池化層交叉堆疊,再通過多個全連接層進行向量展平輸出.YOLOv3骨架網絡DarkNet-53由5個段堆疊構成,單個段的輸入輸出特征圖尺寸相同,段與段之間通過步長為2的卷積層進行下采樣.Block借鑒殘差模塊[22]設計思想并通過堆疊形成不同的段,Block的輸入輸出尺寸維度相同,其結構如圖1所示.

1.3 YOLOv3在金屬缺陷檢測中的問題分析

YOLOv3檢測頭部分使用多尺度網格劃分的方案仍無法滿足工業缺陷檢測背景復雜的使用需求.多尺度網格劃分在很大程度上緩解了同時檢測不同大小目標的問題,密集的網格劃分能更好地適應密集型目標的檢測場景,但YOLOv3骨架結構設計的簡潔特性,特征提取層僅使用單一卷積尺度,無法應對缺陷目標前景和背景紋理相似度高、區分度較差導致的誤檢和漏檢情況.假設網絡模型可學習到輸入樣本的多個尺度特征,就能更好地學習和理解輸入樣本特點,再結合YOLOv3多尺度目標檢測的優勢,可提高其對復雜背景下目標檢測的性能.

殘差模塊在對殘差分支進行擬合時只考慮了所擬合特征與底層輸入是否有差別,未考慮多尺度特征的表達,未充分利用網絡高層豐富的語義信息.殘差網絡對殘差分支進行擬合而非對整個底層輸入進行擬合,使模型在訓練階段能更快地收斂,恒等映射分支保留底層特征,具有特征復用的作用,最后兩個分支進行相加操作,同時保留輸入底層特征和學習到的特征.網絡高層已逐漸開始映射輸入數據的語義信息,如果網絡高層對輸入信息進行多尺度特征處理而不是簡單地擬合殘差信息,可提高網絡模型高層對多尺度語義信息的響應,提高復雜場景下識別大小不同目標的能力.假設網絡高層可使用不同大小感受野處理輸入的特征信息,在保留底層特征的同時融合多尺度特征,將提高網絡模型對多尺度特征的表達能力.

2.1 修正Inception

卷積操作通常是使卷積核在整個特征圖上滑動計算,每個卷積核將只對某種特征敏感,其中大部分的激活值為0,這種密集連接結構的計算浪費了許多計算資源,一種解決辦法是使用稀疏連接結構,現階段硬件的實現均以數學矩陣即密集運算為基礎而設計,可考慮在卷積層內部實現一種相對的稀疏結構,將稀疏的矩陣分解為密集的子矩陣進行計算,間接地利用矩陣的稀疏性、多支路并行的卷積結構以密集連接的形式實現稀疏計算,通過共享輸入特征計算獲取不同尺度的特征,將高度相關的特征聚集,下一層可同時提取不同尺度的特征,符合人類視覺信息的多尺度處理特點,對感受野中不同大小的物體都能進行正確的檢測.基于此,Inception使用多尺度處理的概念,使用多支路卷積結構模塊,1×1卷積提取局部信息,3×3和5×5是深度學習模型使用最多的卷積尺度,可以覆蓋更大的感受野,捕獲相距較遠的激活信息之間的依賴信息,提取較大范圍的空間信息,并且用這3種尺度的卷積可避免特征圖尺寸對齊問題,鑒于池化操作在卷積網絡中的成功應用,Inception模塊添加了一個并行的池化支路,結構如圖2所示.

較大的卷積尺寸如5×5會給模型帶來較大的計算量,池化支路輸出通道數與輸入通道數相同,則下一個計算模塊計算量加倍,例如: 假設對28×28×256維度的輸入進行處理,各分支處理后維度為28×28×256,池化層沒有參數,故不產生計算量,其中1×1,filters=128(filters指卷積核個數)卷積,3×3,filters=192卷積,5×5,filters=96卷積的計算量分別為28×28×128×1×1×256,28×28×192×3×3×256,28×28×96×5×5×256,共約8.54×108次乘加操作,若標準CNN卷積層單一大小卷積核為3×3,filters=256,則計算量為28×28×256×3×3×256,約為4.62×108次乘加操作,Inception模塊計算量為其1.8倍,模塊的堆疊將不可避免地使模型計算量急劇上升.

考慮到較大尺度卷積核可以聚合空間信息,因為特征圖鄰近單元有強相關性,相鄰感受野的輸出高度相關,因此在傳入大卷積核和感受野之前進行特征降維,信息的損失會很小; 同時,為提高模型的表示能力增加模型的深度和寬度,使用1×1卷積[23],在較大卷積核之前進行降維,降低模型計算量,限制網絡的大小,增加網絡的深度,并且增加Inception模塊層的卷積核數量,擴展了網絡寬度.重新設計的Inception如圖3所示.令符號#表示卷積層前面的1×1卷積層,則在較大卷積核前面分別使用#3×3,filters=64和#5×5,filters=96,池化層后面使用1×1,filters=64.

圖2 Inception初始設計思想Fig.2 Initial design idea of Inception

圖3 加入1×1卷積的Inception模塊Fig.3 Inception module with 1×1 convolution

添加1×1卷積層不會破壞Inception結構的稀疏性,同時使用修正線性激活函數ReLU[24]增加模型的非線性表達能力,仍用上例,總計算量減少為3.58×108次乘加操作,相比不加入1×1卷積的Inception模塊減少約60%的計算量,相比只有3×3卷積的標準CNN減少約22.5%的計算量,因此在堆疊Inception模塊時不會導致計算量爆炸.綜上,使用1×1卷積有3個作用: 1) 對多維度的特征進行升維、降維,減少模型參數量和計算量; 2) 增加模型非線性表達能力; 3) 增加模型深度和寬度.

2.2 引入空間可分離卷積

因為較大尺寸的卷積如5×5卷積計算量較大,減小其卷積核尺寸會縮小感受野大小,導致網絡表達能力下降,因此引入空間可分離卷積[25],也稱為不對稱卷積.在不改變卷積層感受野的同時減少參數量,參數量的減少通常意味著計算量的減少,結構如圖4所示.理論上,任何大小的卷積都能分解為不對稱卷積,本文使用文獻[18]的參數,設n=7.

空間可分離卷積是Inception模塊的一個升級變種,標準CNN結構的單一固定大小的n×n卷積可使用1×n和n×1的不對稱卷積替換,這樣可進一步節省參數量,并且感受野大小保持不變,假設輸入仍為28×28×256維,將3×3卷積分解為1×3卷積和3×1卷積的不對稱卷積后,計算量為28×28×256×3×1×256×2=3.08×108,相比3×3卷積計算量減少約33.3%.如圖5所示,將3×3卷積分解為1×3和3×1不對稱卷積后,最終一個像素的感受野仍等同于3×3卷積的感受野,感受野大小均為3×3.同理,將圖3中Inception的5×5卷積分解為兩個3×3卷積,其底層感受野也將保持不變,再將每個3×3卷積使用空間可分離卷積分解為1×3和3×1卷積,最終結構如圖4所示,然后將DarkNet-53段5的卷積結構替換為空間可分離卷積結構.

圖4 Inception空間可分離卷積Fig.4 Inception with spatial separable convolution

圖5 空間可分離卷積不改變感受野大小Fig.5 Spatial separable convolution won’t change receptive field size

2.3 使用池化與卷積并行結構的高效下采樣

為避免池化導致信息丟失,在CNN結構中,通常會先對特征通道進行升維以保留足夠多的稀疏特征.先升維將產生較大的計算量,先池化又將導致特征表示信息丟失,Inception使用池化與卷積并行結構的高效下采樣同時完成升維和池化,結構如圖6所示.

為提高對軸承等工業零件表面缺陷的特征提取能力,借鑒使用Inception[18,26]思想,不同于標準CNN卷積層使用單一固定大小的卷積核,使用多支路并行的多種規格卷積核對同一輸入進行處理,然后將提取到的多尺度特征進行融合處理,并通過實驗證明其有效性.

2.4 YOLOv3I網絡結構

空間可分離卷積使用填充對多支路卷積和池化操作的輸出進行尺寸對齊,文獻[25]通過實驗證明Inception模塊不宜放到網絡淺層,在特征圖尺寸介于12～20間效果最好,段5輸出特征圖尺寸為13×13,因此將YOLOv3骨架網絡DarkNet-53段5的Block使用空間可分離卷積進行改進,并保留DarkNet-53的殘差結構,改進后的網絡結構如圖7所示.

圖6 高效下采樣模塊Fig.6 Efficient downsampling module

圖7 使用空間可分離卷積改進后的BlockFig.7 Improved Block using spatial separable convolution

池化操作具有平移不變性[27],因此在標準CNN結構中,使用多個池化操作緩慢減小特征圖尺寸,降低模型的計算量,在一定程度上防止過擬合.單純使用池化會導致特征空間信息的丟失,所以通常在池化前先進行升維以保留更多稀疏特征.為避免升維增加的計算量和池化導致的信息丟失,使用卷積和池化并行的結構完成高效下采樣,結構如圖4所示.在DarkNet-53的段3和段4、段4和段5之間均使用高效下采樣結構.

3.1 實驗數據集

本文使用公開數據集檢驗所提方法的可行性,并在軸承生產企業提供的真實軸承表面缺陷數據集上驗證方法的實際效果.

公開數據集: 采用東北大學發布的鋼板表面缺陷數據集NEU[28],圖像分辨率為200×200,其中包括6種常見的典型金屬表面缺陷,缺陷類型包括軋入氧化皮缺陷、補丁狀缺陷、裂縫、麻點表面、夾雜質和劃痕,每種缺陷類型有300張帶有標注的缺陷圖像,共1 800張圖像.數據集NEU具有類內缺陷差距明顯的特點,例如: 缺陷大小差異較大、紋理角度隨機; 金屬材質及表面反光導致的灰度值不統一等; 工業制造生產環境復雜性導致的金屬制品復雜背景.這些特性使數據集NEU成為金屬表面缺陷的代表性樣本.

真實軸承溝道表面缺陷數據集: 從軸承制造工廠車間采集的約380張帶有表面缺陷的軸承溝道圖像,分辨率為640×480,其中包括短絲(short_wire)190張和砂輪花(wheel_flower)190張兩個類別.短絲類似于麻點,呈向內凹和向外凸狀; 砂輪花近似劃痕,由打磨時與雜質碰撞產生.

表面缺陷數據不易采集,而深度學習模型常需要大量的數據才能學習到數據共有的特征以提高泛化性,本文對數據集進行數據增強擴容,用有限的數據集生成更多且同樣有效的數據,使數據的分布更豐富,加強模型的魯棒性,分別將數據集擴大10倍,數據集NEU擴增為18 000張,軸承數據集擴增為3 800張,均按8∶2配置訓練集和測試集.

3.2 實驗環境

實驗平臺采用Intel(R) Xeon(R) Silver 4214 CPU,32 GB內存,Ubuntu 18.04.5 LTS的服務器,使用NVIDIA Quadro RTX 5000 GPU進行加速運算,在Pytorch框架下進行開發與調試.

3.3 基模型的確定

平均精度(average precision,AP)和平均準確率(mean average precision,mAP)是缺陷檢測最常用的衡量模型性能的指標,分別考察模型在數據集每個類別上的精度和模型在數據集所有類別上的綜合性能.YOLOv4,YOLOv5的數據預處理功能默認開啟,如馬賽克增強(Mosaic)、自動聚類錨框等,YOLOv3未使用數據預處理.本文選用YOLOv3,YOLOv4和YOLOv5的最完全版模型YOLOv5x進行實驗對比,以確定本文的基模型.

YOLO系列模型在對輸入圖像進行特征提取和劃分網格進行最終預測時均將圖像和特征圖處理為正方形.為增加實驗難度,使用圖像長寬比不同的軸承數據集測試各模型性能,在訓練過程中均使用多尺度訓練.測試階段為充分評估各模型檢測性能,采用黑邊填充,將輸入圖像按長邊等比縮放至分辨率640×640.對比模型的各類別平均精度、平均準確率、參數量和模型復雜度,對比結果列于表1.模型復雜度用每秒浮點運算次數(FLOPs)表示.

表1 YOLO系列模型在軸承數據集上的性能對比

工業缺陷檢測不同于自然生活場景下的目標檢測,對輸入樣本過度地預處理和改進網絡模型特征融合方式可能增加輸入樣本復雜背景對模型的擾動,導致模型“退化”.相比YOLOv3,YOLOv4通過增大感受野、集成多種注意力機制以及使用更多特征融合方式,模型顯得臃腫,使得在處理復雜背景下目標檢測問題時性能出現“退化”,YOLOv4之所以各類別平均精度較低,平均準確率仍可以達72.8%,是因為其仍有較好的召回率,為81.4%,說明了YOLOv4查找潛在缺陷的能力較強,但分類性能極差; YOLOv5發布已兩年,至今未向COCO[29]等權威性公開數據集服務器提交結果,目前存在較大爭議,本文測試了YOLOv5最完全版本YOLOv5x,其模型復雜度遠超YOLOv3和YOLOv4.

綜上,YOLOv3表現最好,因此本文選擇YOLOv3作為基模型.

3.4 模型訓練

用隨機梯度下降(stochastic gradient descent,SGD)優化器進行參數的優化,初始學習率設為0.01,用余弦學習率衰減(cosine learning rate scheduler,COS),動量設為0.937,權重衰減系數設為0.000 5,使學習率緩慢減小從而更好收斂,模型訓練300個周期(epochs).數據集增強擴容能有效防止過擬合現象.使用多尺度進行訓練,即一個訓練周期中每訓練10個batch就將輸入圖像的分辨率隨機加減n×32像素大小,數據集NEU輸入圖像分辨率保持在[224,416],軸承數據集輸入圖像分辨率保持在[480,640].圖8為損失函數曲線.由圖8可見,模型經過300個訓練周期后曲線變化趨于平緩,說明模型均已收斂.隨著訓練的進行,YOLOv3與改進后的YOLOv3I模型在增強后的數據集NEU上的平均準確率變化如圖9所示,由圖9可見,改進后的模型所減少的參數并未影響其性能,并且YOLOv3I在精度上性能更好.

圖8 模型損失函數曲線Fig.8 Loss function curves of models

圖9 模型測試集上精度曲線Fig.9 Accuracy curves of models on test datasets

3.5 實驗結果與對比分析

使用訓練好的改進模型對數據集中的圖像進行檢測,圖10和圖11分別為YOLOv3模型和改進后的YOLOv3I模型對軸承溝道表面缺陷數據集和數據集NEU的檢測效果.由圖10和圖11可見,改進后的模型對各類缺陷都有較好的檢測效果,可檢測出更多潛在的目標,并能以更高的置信度confobject檢測缺陷目標.

圖10 改進前后模型在真實軸承數據集上的檢測結果Fig.10 Detection results of models before and after improvement on real bearing dataset

圖11 改進前后模型在數據集NEU上的檢測結果Fig.11 Detection results of models before and after improvement on NEU dataset

由圖10可見,對于真實軸承數據集,第一組圖片由于雜質與目標缺陷顏色類似,YOLOv3誤將其檢測為缺陷目標,而YOLOv3I并未出現誤檢測; 第二組對比圖YOLOv3I檢測出更多潛在的缺陷,模型召回率更高; 第三組在數據集圖像較模糊時,YOLOv3I仍能保持較高的檢測性能,體現了更好的泛化性能.由圖11可見,改進后的模型對各類缺陷精度均有不同程度的提升.改進后的YOLOv3I模型參數量較原模型有一定程度下降,模型總參數量為4.76×107,而YOLOv3參數量為6.26×107,改進后的模型參數量減少24%,YOLOv3I模型復雜度有所降低.

為盡可能多地保留輸入圖像細節,模型測試階段使用圖像長邊進行等比縮放,且要符合YOLO輸入圖像分辨率為32倍數的條件,因此軸承數據集上模型測試使用分辨率640×640,數據集NEU上模型測試使用分辨率224×224,相比于YOLOv3,二者計算量FLOPs分別減少12 GB FLOPs和1.6 GB FLOPs,降低了模型復雜度.

上述實驗結果表明,改進后的YOLOv3I模型具有更強的多尺度特征提取能力,從而提高了模型預測框的置信度confobject,各類別的條件概率有提高,即提高了網絡模型的分類性能,因此具有更好的檢測性能,相比于YOLOv3,在均能檢測出缺陷時,YOLOv3I的分類精度更高,YOLOv3I可將YOLOv3漏檢的缺陷檢測出來,即檢測出更多的潛在缺陷,在工業缺陷檢測中具有較高的應用價值.因此,使用多支路并行的卷積結構替換單層固定大小的卷積可提高模型在具有多樣性缺陷類型數據上的性能,通過高效下采樣能使模型同時完成升維并減小特征圖尺寸,節省了模型參數,并且性能有一定提升.

本文使用單階段檢測方法SSD作為對比方法,并且SSD模型規模要大于YOLOv3,理論上SSD有更大的模型容量,模型特征表示能力應更強.表2和表3列出了YOLOv3,YOLOv3I和SSD在兩個數據集上的對比結果.SSD同屬于單階段檢測模型,使用VGG16作為骨架網絡,通過對比結果分析可知,因VGG比較繁瑣的設計,較高的計算量,在工業缺陷檢測較復雜的背景下其檢測精度不如YOLO模型.而本文改進方法減少了計算量,網絡模型更有效,模型精度也有一定提高.

表2 不同模型在軸承數據集上的性能對比

表3 不同模型在數據集NEU上的性能對比

3.6 消融實驗

為進一步說明改進模型的有效性,設置消融實驗,在軸承數據集和數據集NEU上分別驗證空間可分離卷積和高效下采樣結構對改進模型的正向作用.

表4 軸承數據集上的消融實驗

表5 數據集NEU上的消融實驗

由于軸承數據集圖像分辨率長寬比不同,因此為盡可能多地保留圖像細節,使用640×640分辨率進行測試,而數據集NEU圖像分辨率為200×200,為符合YOLOv3輸入圖像為32倍數的條件,使用224×224分辨率進行測試.由于二者使用不同分辨率進行測試,因此模型參數量規模相同時,在軸承數據集上的浮點計算量更高,因此模型在兩個數據集上復雜度不同.由表4可見,由于軸承數據集規模較小,因此原方法YOLOv3即可達到91.6%的平均準確率; 使用空間可分離卷積,模型調和平均值有所下降,而平均準確率小幅上升約0.8%,說明空間可分離卷積并未同時提升查準率和查全率,但相比原方法有所提高,并且模型參數量約下降18%; 使用高效下采樣后,調和平均值下降更多,反映了查準率、查全率二者提升不協調,平均準確率約提升1.5%,相比原方法降低了模型參數量和計算量; YOLOv3I參數量下降24%,模型復雜度減小12 GB FLOPs,模型容量減小的同時精度提升,提高了模型的參數利用率和計算效率.由表5可見,數據集NEU規模相比軸承數據集較大,在融合空間可分離卷積和高效下采樣后模型平均準確率提高5.5%,模型復雜度下降1.6 GB FLOPs,與軸承數據集上結果相同,提高了模型參數利用率,證明了本文方法的有效性.

綜上所述,本文通過修改YOLOv3骨架網絡DarkNet-53,使用多支路并行卷積替換其段5的標準CNN卷積模塊,增加了模型的寬度,對提取到的多尺度特征進行堆疊融合以更好地理解輸入數據; 通過1×1卷積進行升維、降維,緩解了并行支路卷積堆疊引起的參數量爆炸問題,具有跨通道信息交流的作用,并加深了模型的深度; 使用空間可分離卷積不但保留了多支路并行卷積提取多尺度特征的優點,將普通卷積分解為不對稱卷積,在保持感受野不變的前提下進一步減少參數量,在公開數據集NEU和企業提供的軸承數據集上通過實驗證明了改進后模型性能的提升,并且通過設置消融實驗進一步證明了本文方法的有效性.

猜你喜歡尺度卷積軸承軸承知識哈爾濱軸承(2022年2期)2022-07-22軸承知識哈爾濱軸承(2022年1期)2022-05-23基于3D-Winograd的快速卷積算法設計及FPGA實現北京航空航天大學學報(2021年9期)2021-11-02軸承知識哈爾濱軸承(2021年2期)2021-08-12軸承知識哈爾濱軸承(2021年1期)2021-07-21財產的五大尺度和五重應對內蒙古民族大學學報（社會科學版）(2020年2期)2020-11-06從濾波器理解卷積電子制作(2019年11期)2019-07-04基于傅里葉域卷積表示的目標跟蹤算法北京航空航天大學學報(2018年1期)2018-04-20宇宙的尺度太空探索(2016年5期)2016-07-129時代英語·高三(2014年5期)2014-08-26

相

關

案

例

今日頭條

2024年新訓消防員心得體會(通用)