趙 威,宋建輝,劉硯菊,劉曉陽
(沈陽理工大學自動化與電氣工程學院,沈陽 110159)
近年來,隨著信息科技逐漸進步,基于人工智能的文字識別技術運用于諸多領域。
文本圖像容易受拍攝設備和拍攝環境的影響,圖像分辨率較低,傳統的文字識別算法較難準確地識別出文本圖像中的信息,為文字識別工作帶來較大困難[1]。文本圖像分辨率的高低直接影響文字識別的準確度,從低分辨率(Low Resolution,LR)圖像中識別文本是重要的研究內容。
圖像超分辨率重建算法主要包括超分辨卷積神經網絡(SRCNN)算法[2]、加速的超分辨卷積神經網絡(FSRCNN)算法[3]、基于拉普拉斯金字塔結構的圖像超分辨率重建網絡(LapSRN)算法[4]、基于生成對抗網絡的超分辨率重建網絡(SRGAN)算法[5]、文本超分辨網絡(TSRN)算法[6]。SRCNN 算法首先利用雙三次插值的方式把LR圖像擴大到目標尺寸,然后經過超分辨率重建網絡擬合數據集中的真值圖像,最后輸出超分辨率(Super Resolution,SR)圖像。
該算法的網絡結構簡單,但應用于文本圖像時效果有限。
FSRCNN算法是SRCNN 算法的改進,主要在網絡中加入了反卷積層以擴大輸入圖像的尺寸,將LR 圖像直接作為網絡的輸入,省去了網絡之外擴大圖像尺寸部分,訓練時只需要微調反卷積層。
相較于SRCNN 算法,FSRCNN 算法在不降低重建效果的前提下訓練速度有了很大提升,但其對圖像特征的利用不夠充分。
LapSRN 算法可以實現測試集的實時SR 圖像生成,其骨干網絡是SRCNN,在此基礎上加入拉普拉斯金字塔結構,實現了一次運行過程中生成多張中間結果圖像作為不同倍數的SR 圖像,相比FSRCNN 算法,降低了計算的復雜性。
SRGAN 算法的最大特點是可以將LR 圖像重建出擁有高感知質量和多細節,即人肉眼感知舒適的SR 圖像,但SRGAN 算法在訓練和測試過程中的穩定性有待提高。
TSRN 算法骨干以SRGAN 網絡為基礎構成,相比SRGAN 算法,該網絡增加了一個中心對齊模塊解決訓練集和測試集中圖片不對齊問題,對文本圖像中不對齊的像素進行調整,還根據梯度輪廓先驗[7]提出了梯度先驗損失銳化文字邊緣,但該算法在提取圖像特征部分有待改進。
本文針對LR 文本圖像中文字的特點,提出基于改進TSRN 的圖像超分辨率重建算法。
在TSRN 的基礎上引入信息蒸餾塊(IDB)[8],在提取輸入圖像淺層特征后,通過疊加4 個IDB 加強特征圖在細節處的有用信息,從而輸出更為清楚的SR 圖像,實現對LR 文本圖像的準確識別。
本文算法可更充分地利用提取到的圖像特征,提升圖像的重建效果。
TSRN 算法把二進制掩模和彩色三通道(RGB)圖像連接起來構成RGBM 四通道圖像作為網絡的輸入。
針對數據集中高分辨率(High Resolution,HR)圖像和LR 圖像像素不對齊導致訓練時產生雙影和圖像失真的問題,TSRN 首先采用空間轉換網絡作為對齊模塊對文本圖像進行預處理,并實現端到端學習,校正后圖像中的偽影問題有所改善,圖像中的文字水平規范,文字區域位于圖像中央且對齊;
然后采用卷積神經網絡提取文本圖像中的淺層特征,將淺層特征輸入到5重序列殘差模塊(Sequential Residual Block,SRB)中進行高級特征信息提??;
最后通過上采樣模塊和卷積神經網絡生成SR 圖像。
本文在TSRN 的基礎上加入IDB 增強淺層特征信息,提出一種用于提高LR 文本圖像清晰度的超分辨率重建算法。
改進的TSRN 框架如圖1所示。
網絡的輸入是一張LR 文本圖像,經過對齊模塊實現圖像的像素對齊,再經過淺層特征提取模塊得到文本圖像的淺層特征,并輸入IDB 中進行特征增強。
本文通過疊加4 個IDB 處理后再經過5 個SRB 輸出殘差學習結果,最后經過上采樣模塊和卷積神經網絡生成SR 圖像。
圖1 改進的TSRN 框架圖
TSRN算法通過卷積神經網絡進行文本圖像淺層特征的提取,會導致后面模塊表達能力受限。因此,本文疊加4 個IDB 增強文本圖像淺層特征。
IDB 中包括增強單元和壓縮單元兩個部分[8]。
增強單元加強文本圖像的淺層特征,增加特征通道數量,使提取的淺層特征擁有更多有效的信息,如文本圖像的筆畫細節等,增強單元網絡如圖2 所示。
圖中F是增強單元的輸入,表示提取的淺層特征;
P表示圖像通道之間的分割操作;
S表示圖像通道之間的拼接操作。
增強單元為2個卷積神經網絡,每個卷積神經網絡包括3 個卷積層,每個卷積層后面連接一個激活層。F經過第一個卷積神經網絡后輸出短路徑特征,并經由P分為兩部分,分別是增強短路徑特征F1 和保留短路徑特征F2。F1 輸入到第二個卷積神經網絡得到長路徑特征F3,F2 和F經過圖像通道拼接操作輸出局部短路徑特征F4,將長路徑特征與局部短路徑特征合成,得到增強單元的輸出F5,其表達式為
圖2 增強單元網絡
式中A表示網絡的卷積和激活過程。
超分辨率重建算法的損失函數采用均方誤差,其計算式為[9]
式中:L1為均方誤差;
IHR為數據集中HR 文本圖像;
ISR為經過超分辨率重建算法得到的SR 文本圖像;
n為數據集中HR 文本圖像的數量。
文本圖像中文字色彩一般和背景有明顯差異,故采用圖像梯度損失函數,以加強文字的輪廓和線條,使輸出圖像中的文字更加清楚,圖像梯度損失函數LGP計算式為
式中:x為圖像中文字線條對應的像素;
Ex表示最小化操作,目的是使SR 圖像更加清晰;
?IHR(x)表示數據集中HR 文本圖像的梯度場;
?ISR(x)表示經過超分辨率重建算法得到SR 文本圖像的梯度場。
總損失函數L的表達式為
式中λ1和λ2分別為L1和LGP的自適應權重系數,本文設置為λ1=1、λ2=10-4。
本研究使用TextZoom 數據集。
TextZoom 數據集常用于LR 文本圖像的超分辨率重建,該數據集由數碼相機拍攝的圖像組成,相機在不同焦距下拍攝出不同分辨率的文本圖像,在短焦距下拍攝的圖像可作為LR 圖像,在較長焦距下拍攝的圖像作為HR 圖像[10]。
數據集包含約三萬張成對的LR 圖像和HR 圖像,選取70%作為本文的訓練集,30%作為測試集。
本文中HR 圖像作為訓練模型的真值。
當拍攝的圖像高度相同時,焦距越小的圖像越模糊,文字識別的難度也就越大。
將數據集按照識別難度分為三個子集:容易子集、中等子集和困難子集,本研究的主要目的是提高各子集中文本圖像的文字識別準確率。
數據集中各子集的部分圖像示例如圖3 所示。
圖3 數據集中各子集部分圖像示例
TextZoom 數據集中圖像像素偏移和部分圖像較模糊,存在LR 圖像和HR 圖像的像素不對齊現象,任何輕微的相機鏡頭移動都可能導致數十個像素的偏移,尤其是短焦距拍攝。
從圖3 可以看出,像素不對齊的變化無特定規律,隨著數據集子集難度的增加,圖像像素的偏移程度和圖像模糊程度也更加嚴重。
使用容易、中等和困難三個子集分別對本文的超分辨率重建算法進行訓練和測試,訓練集的圖像為兩兩對應的HR 圖像和LR 圖像,在訓練過程中,LR 圖像作為改進網絡的輸入,通過超分辨率重建生成SR 圖像。
為全面評估本文算法的重建效果,將本文算法與原始 TSRN 算法、SRCNN 算法、FSRCNN 算法、LapSRN 算法進行比較,上述算法均使用TextZoom 數據集進行訓練和測試。
幾種超分辨率重建算法輸出的SR 文本圖像如表1 所示。
表1 幾種算法輸出的SR 圖像
由表1 可以看出,相比其他算法,本文算法輸出SR 圖像中的文字線條更加清晰,文字與圖像背景的對比更加明顯。
本文算法能從模糊的LR 文本圖像中重建出更加清晰的SR 文本圖像,提高了LR 文本圖像的分辨率。
本文算法與TSRN 算法恢復的文本圖像細節如表2 所示。
表2 本文算法與TSRN 算法恢復的文本圖像細節
由表2 可以看出,通過本文算法重建后,左邊圖像可以比較清晰地看出字母a 的線條,右邊圖像中文字線條和圖像背景的對比也更加明顯。
相較于TSRN 算法,本文算法對文字細節處理更好,證明了本文算法的有效性。
不同的超分辨率重建算法對不同子集輸出圖像的峰值信噪比( PSNR) 和結構相似性(SSIM)[11]結果如表3 所示。
PSNR 為評定圖像質量的指標,其值越大,表示圖像質量越好。
由于使用對齊模塊導致輕微的像素偏移,故本文算法在中等子集得到的PSNR值相比SRCNN 算法稍低,在困難子集得到的PSNR 值比LapSRN 算法稍低。
因容易子集的圖像較清晰,圖像像素的偏移程度不高,故對齊模塊對容易子集的影響不大,本文算法在容易子集的PSNR 值較高。
SSIM 為評定兩張圖像一致程度的指標,SSIM 的值越接近1,代表兩張圖像的相似性越高。
本文評定數據集中的HR 圖像和重建算法輸出的SR 圖像的一致程度,由表3 可以看出,相比于其他算法,本文算法在各子集的SSIM 值均最高。
表3 不同算法的PSNR 和SSIM 結果
本文使用卷積循環神經網絡(CRNN)模型分別對TextZoom 數據集中容易、中等、困難三個子集的LR 圖像和HR 圖像進行文字識別,分析文字識別準確率。
數據集中圖像的內容均為字符串,文字識別的結果可能出現一個字符串中部分字符識別正確、部分字符識別錯誤的現象,文字識別準確率以識別正確的字符數占已識別字符數的比表示。
平均文字識別準確率為數據集中容易、中等、困難三個子集文字識別準確率的平均值。
針對TextZoom 數據集中圖像的文字識別準確率如表4所示。
表4 TextZoom 數據集中圖像的文字識別準確率 %
由表4 可知,數據集中LR 圖像的平均文字識別準確率僅為25.1%,HR 圖像的平均文字識別準確率為61.2%,可見文本圖像分辨率對文字識別準確率影響很大。
為進一步證明本文算法的有效性,使用卷積循環神經網絡對不同超分辨率重建算法生成的SR 圖像進行文字識別,由于數據集中LR 圖像被分為三個子集,故生成的SR 圖像也分為三個子集。
文字識別準確率的比較結果如表5 所示。
由表5 可以看出,本文算法生成SR 圖像的平均文字識別準確率達到41.9%,相較于LR圖像的平均文字識別準確率提高了16.8%,提高效果顯著。
相較于原TSRN 算法,本文算法生成SR 圖像的平均文字識別準確率提升了1.2%;
相較于SRCNN 算法、FSRCNN 算法和 LapSRN 算法,本文算法生成SR 圖像的平均文字識別準確率分別提升了14.9%、11.2%和9.4%。
說明本文算法的重建效果更好。
表5 不同算法生成SR 圖像的文字識別準確率比較 %
為提高LR 文本圖像的分辨率,本文對TRSN的網絡結構進行了改進,加入4 個疊加的IDB 提高圖像的分辨率。
通過TextZoom 數據集對本文算法進行訓練和測試,結果表明,改進的重建算法可將LR 圖像轉化為更清晰的SR 圖像,圖像中文字的線條更加分明、文字細節更加清楚。
使用CRNN 模型對LR 圖像和重建后的SR 圖像進行文字識別并計算文字識別準確率,結果表明,改進的重建算法生成SR 圖像的平均文字識別準確率達到41.9%,較LR 圖像的平均文字識別準確率顯著提高,相較于原TSRN 算法,平均文字識別準確率提升了1.2%。
本文提出的算法有效,重建效果更好。
猜你喜歡子集分辨率卷積拓撲空間中緊致子集的性質研究安慶師范大學學報(自然科學版)(2021年1期)2021-11-28基于3D-Winograd的快速卷積算法設計及FPGA實現北京航空航天大學學報(2021年9期)2021-11-02連通子集性質的推廣與等價刻畫阜陽師范大學學報(自然科學版)(2020年3期)2020-08-13關于奇數階二元子集的分離序列南京大學學報(數學半年刊)(2020年1期)2020-03-19EM算法的參數分辨率數學物理學報(2019年3期)2019-07-23從濾波器理解卷積電子制作(2019年11期)2019-07-04原生VS最大那些混淆視聽的“分辨率”概念家庭影院技術(2018年9期)2018-11-02基于傅里葉域卷積表示的目標跟蹤算法北京航空航天大學學報(2018年1期)2018-04-20基于深度特征學習的圖像超分辨率重建自動化學報(2017年5期)2017-05-14一種改進的基于邊緣加強超分辨率算法成都信息工程大學學報(2017年6期)2017-03-16