<ol id="ebnk9"></ol>
    1. 基于圖像識別的錯位圖書檢測技術研究

      發布時間:2025-07-20 08:40:30   來源:作文大全    點擊:   
      字號:

      大學的David Chen等人給出圖書書庫管理系統[2],通過智能手機對書架上的圖書進行采集圖像,經過識別之后,通過互聯網或者圖書館的數據庫,可以得到圖書的詳細信息,包括書名、作者、價格等。而方向感應器以及高速網絡訪問使得低成本的自動跟蹤成為可能[3]。本文主要針對錯位圖書檢測技術涉及到的圖書分割、圖書識別兩個方面進行了深入的研究,并且針對其中的難點提出了切實有效的解決方法。

      1 圖書分割

      1.1 顏色分割

      圖書館中的索書標簽存在單一的背景和前景(索書號),如白色的背景和黑色的文字,而且噪聲少,如圖1所示。

      由于索書標簽一般在圖書的底部,因此將感興趣區域定義在原圖像的下半部分,故需要處理的圖像大小減少一半,減少了處理的時間和計算量。在這種情況下,利用特定的顏色可以快速定位同一幅圖像中所有索書標簽的大致位置。但由于實際環境的復雜性,如光線變化,遮擋,智能手機攝像頭的限制,捕獲的圖像中出現圖書曝光過足,書架靠近地面的部分光線不足,索書標簽的白色區域亮度不足,書脊上除了索書標簽其他部分也存在白色區域等難題。

      由于書脊整潔程度不一,光線變化,有些區域即使是同種顏色,經過一段時間使用,也變化較大,二值化后的圖像存在面積小的噪聲點或區域,而圖書標簽分割關注的感興趣區域是比這些噪聲面積大得多的背景是白色的標簽,故可以利用圖像處理形態學中的腐蝕方法剔除這些噪聲[4],腐蝕核大小為5,得到的結果如圖2所示。

      由圖2可以看出,書脊之間存在黑色的細縫,而這些細縫把大部分圖書分割開來。再者在同一本書中索書標簽與其他區域有明顯的分割區域,故可以通過連通區域分析,把大部分索書標簽分別表示成單獨的連通區域。進一步分析,書脊上的一些字形成的連通區域,相對索書標簽小很多,因此可以通過限制連通區域的面積大小,去除一部分小的白色連通區域,實驗中,取面積閾值為30 000像素點,保留下的連通區域如圖3所示,不同的連通區域用不同的顏色表示,得到的連通區域個數為14。

      1.2 基于LSD的圖書分割

      經過顏色分割的局域主要是白色的部分,而這些局域可能不包括書脊邊緣的直線,為了更好地檢測到書本邊緣的直線,這里增寬顏色分割后的各個局域,增寬的規則是向左向右分別延寬15像素,對在捕獲圖像中最左或者最右的局域,延長的最大寬度是15像素與局域左右邊界到達相應圖像邊界的差值兩者之間的最大值。

      采用line segment detector檢測圖像中的直線??紤]到圖書館中的圖書一般豎直地擺放著,即使有些傾斜,傾斜的角度也不大,定義候選直線的傾斜角度范圍為([3π8,][5π8])。圖像中書脊邊緣保持一個主方向角度,即MainAngle,實驗中默認的值為[π2,]并且傾斜角度在主方向角度一定的范圍內,在實驗中,選擇在最左邊或者最右邊20像素的局域中的直線,這些直線中的兩個端點都在邊界20個像素的范圍內,再者另外一個條件是直線的傾斜角度與[π2]的差值要小于[π8,]則把這些符合條件的直線的傾斜角度定義為要進行直線檢測局域的主方向角度。

      得到主方向MainAngle之后,保留與主方向角度偏差[π16]的直線。書脊邊緣的直線相對書脊其他部分的直線如文字、圖形中的直線要長,即在圖像所占的比率大于某個閾值[2],通過實驗,定義候選直線占圖像高度的閾值為0.15。經過上述規則可以得到書脊的邊緣直線。根據得到的直線,用數組lines6表示,再將圖書分割出來。圖書的邊緣存在多條直線,但都聚集在很小的區間而且直線的傾斜角度差不多,再者圖書的厚度一般大于圖書間的間隔,故利用這些先驗知識,采用算法1可以得到一組組包含圖書書脊的局域。

      算法1:圖書分割

      輸入:[xb=0;][xl=0;]idx=0;[xr=]Width(輸入圖像的寬度);

      Vectorlines6(輸入圖像檢測到的直線數組,線段用兩個端點的左邊、長度、傾斜角度描述);Num(直線段的個數);

      VectorCBookLabel(顏色分割得到的一組矩形局域,包含單個的、完整的圖書標簽,以及多個標簽聚集的矩形區域)。

      輸出:VectorLabel(輸出一組矩形局域,用左上角坐標、高度、寬度描述,即候選的圖書)。

      (1) 如果第一條直線與圖像最左邊的間隔大于70,則將Rect(0,0,[x1,]Height)輸出到Label中。[x1]為該直線左端點的[x]坐標值。

      (2) 依次在圖像中從左到右搜索未處理的直線,如果找到,則在該直線附近的20個像素搜索類似的直線,并把20個像素范圍內最后的直線作為圖書起始的直線line1;如果未找到,則輸出Label結束。

      (3) 從第(2)步得到的圖書起始直線,接著往右搜索類似的直線,如果未搜索到,則將Rect(line1.[x,]0,Width, Height)輸出到Label。

      3 字符識別

      形狀上下文是一種描述形狀的方式,可用來評估形狀的相似性?;镜乃枷胧侨≥喞闲螤畹膎個點。對形狀上的每個點[pi,]考慮n-1維向量,它們將[pi]和所有其他的點連接起來。這些向量的集合是對形狀上那個點一種豐富的描述。關鍵的思想是基于相對位置的分布是一種魯棒、簡潔和有高度區別性的描述子。

      支持向量機SVM根據有限的訓練樣本仍然保證獨立測試集誤差保持在一個小的范圍。即由有限的樣本信息,在模型的學習能力和復雜性間尋求最佳契合點,以獲得最優的推廣能力。本文采用林智仁博士開發的SVM軟件包LIBSVM按照相應的格式對數據集進行標準化,對要處理的數據進行縮放操作,使用核函數RBF,[Kx,y=e-rx-y2]使用交叉驗證方法選擇最佳的參數[C]與[r;]使用LIBSVM的測試和訓練文件格式如下:

      其中

      對數據集進行縮放操作,一方面是為了避免特征值過小或過大;另外一方面是避免在訓練時為了計算核函數而導致計算內積的時候引起數值計算的困難。一般將數據縮放到[-1,1]或是[0,1]之間。進而利用svmtrain對訓練數據集進行訓練,得到SVM訓練模型,進一步根據訓練獲得的模型對未知數據集進行預測。

      4 實驗結果與分析

      為了評估圖書索書標簽分割和識別的結果,實驗采集了圖書書脊的樣本,并作為圖書分割和識別的數據集。采用Tesseract OCR引擎對僅僅包含字符和標點符號的索書標簽進行識別[7]。一般來說,圖書標簽第2行文字對圖書識別起到關鍵性的作用,如果第2行的文字被完整的識別,那么判斷該本書對應圖書館數據庫中的哪本書也就容易得多。

      如表1所示,實驗中從567本圖書中正確地分割出554本圖書,分割率為97.7%,超過結合顏色分割和Hough直線檢測的方法,分割率為89.77%。盡管如此,在圖書書脊分割中也有些失敗,原因是一些書脊太薄以致不能被檢測到或者曝光太足,書脊上的高亮造成在圖像中圖書的邊界區域直線根本不明顯。

      在本系統中,平均一個索書標簽有0.64個字符不能被識別,比UJI大學圖書館機器人索書標簽識別的方法效果要好。為了更好地評估識別的結果,采用f?measure作為評估的方法,實驗中,索書標簽識別的結果為f?measure88.66%,準確率為87.74%,召回率為89.59%。索書標簽識別如圖5所示。

      對于圖5(a),從左往右數第2本書及第6本書被識別為“TP391.4X3283”,“H6251.H3283”。第2本書由于字體的原因上端和下端都突出一部分,有點類似X,由于出現在局域的邊界受噪聲的干擾故識別為X。第6本書由于采集圖像時,受第7本書的遮擋,“TP391.41”顯示不完全,故造成識別錯誤。但是第2、第6本書第2行都識別正確,一般情況下同個書架同一行的圖書中索書標簽第1行的文字都類似,第2行對識別的結果有較大作用,故該圖像中所有圖書都能被識別。

      對于圖5(b),從右往左數第4本書被識別為“P391.41 3272”,其原因也是索書標簽的貼法不正確,“T”這個字母不在書脊上,故這種情況只能在開始貼索書標簽的時候確保正確無誤,不過“T”字母的缺少并不影響該書被正確的識別。從右往左數第1本書因為捕獲圖像時沒有捕獲圖書標簽,故為空。因此可認為該圖像中所有的圖書都被正確識別。

      對于圖5(c),從左到右第1本、第9本、第10本書都沒有被正確識別。原因是這三本書太薄,索書標簽在這三本書的書脊上不能完全顯示,因此也就不能被OCR識別。針對該情況可以結合射頻識別技術來識別太薄的圖書,以提高總的圖書識別率。

      根據實驗結果,可以得到基于索書標簽的分割與識別在圖書館自動化管理中有很大的用途,并且結合顏色分割與直線檢測的圖書分割,輪廓局域增長而實現的索書標簽的分割有效,而且更可行。在輪廓局域增長中,通過實驗也表明索書標簽候選局域進一步的優化過程,能包含不完整、斷裂的字符輪廓,因此能將索書標簽完整地分割出來。

      5 結 論

      本文深入研究了基于圖像識別的錯位圖書識別技術,主要包括圖書分割、標簽分割、索書標簽識別,錯位圖書檢測,并對其中涉及的技術和算法做了深入的闡述和調研。通過實驗證明所提出方法的有效性與可行性。重點研究了基于顏色分割和直線線段檢測相結合的圖書分割方法,將本文提出的方法和其他圖書分割,索書標簽識別的方法進行對比,通過定量和定性的分析,證明了本文提出的方法能夠得到更準確、更有效的實驗結果。下一步針對圖書太薄,索書標簽太舊、模糊不清的情況,結合射頻識別加以補充,將大大提高圖書識別的準確率。

      參考文獻

      [1] 康志亮,許麗佳.基于小波的紅外圖像去噪算法研究[J].計算機仿真,2011,28(1):265?267.

      [2] 游福成.數字圖像處理(Digital Image Processing)[M].北京:電子工業出版社,2011:67?68.

      [3] 匡金駿,熊慶宇,柴毅.基于核稀疏分類與多尺度分塊旋轉擴展的魯棒圖像識別[J].模式識別與人工智能,2013,26(2):129?135.

      [4] 劉波,梅瑛,李瑞琴.基于TRIZ理論的圖書分揀機的設計研究[J].機械設計與制造,2013(2):23?25.

      [5] CHEN D, TSAI S, HSU C H, et al. Mobile augmented reality for books on a shelf [C]// Proceedings of 2011 IEEE International Conference on Multimedia and Expo. 2011: 1?6.

      [6] 孟鋼,賀杰,鮑莉,等.基于遙感圖像分塊直線特征檢測的機場跑道檢測方法[J].航空學報,2014,35(7):1957?1965.

      [7] 趙眾,常燦,陳磊.基于圖像識別技術的煙包封條缺陷檢測[J].北京工業大學學報,2014,40(7):986?990.

      [8] 張會敏,謝澤奇,張云龍.紅外圖像報警系統的研究與實現[J].計算機測量與控制,2011,19(2):432?436.

      原创文章写作
      原创文章写作
      国产另类无码专区|日本教师强伦姧在线观|看纯日姘一级毛片|91久久夜色精品国产按摩|337p日本欧洲亚洲大胆精

      <ol id="ebnk9"></ol>