劉世鵬,張 碩,林曉然,李慧穎,高 帆,劉 軒,曾文獻(xiàn)(通訊作者)
(河北經(jīng)貿(mào)大學(xué) 河北 石家莊 050000)
為解決目前國內(nèi)市場盲人閱讀器的價格高昂、攜帶不便等問題,本文基于卷積神經(jīng)網(wǎng)絡(luò)研發(fā)了盲人無障礙閱讀輔助系統(tǒng)。本系統(tǒng)使用多種模型進(jìn)行建模,通過三維手勢識別技術(shù),有效捕捉待提取的文字與圖片,并通過語音的表現(xiàn)形式反饋給盲人用戶,使其獲取視覺信息,有效解決了目前國內(nèi)市場盲人閱讀器存在的問題,保障了閱讀困難群體的讀書需求。
德國雷伊·庫爾茲維爾在美國盲人聯(lián)合會的贊助下,開發(fā)了世界第一臺盲人閱讀器。隨著人工智能技術(shù)的不斷發(fā)展,世界上第一臺諾基亞便攜式盲人閱讀設(shè)備Knfb Reader Classic 成功上市,售價約為3 500 美元,由于售價較高導(dǎo)致未能在市場廣泛應(yīng)用。近年來,隨著計算機發(fā)展,盲人電子閱讀器有了更全面的進(jìn)步,但存貯空間大、成本較高等缺點未得到解決。國外市場相關(guān)的盲人閱讀系統(tǒng)沒有代表性產(chǎn)品,相關(guān)市場極為空缺。
目前我國視力障礙者共有1 700 余萬,另有閱讀障礙者5 500 余萬。近年來,市場上盲人閱讀相關(guān)產(chǎn)品及技術(shù)研發(fā)也有了較大進(jìn)步。
(1)2013 年,張子卿[1]設(shè)計出基于FPGA 的盲人閱讀器,整個系統(tǒng)共包括圖像收集、圖像緩存和圖像展示3種功能,用Verilog 的硬件描述語言完成,文字識別板塊則通過搭建的SOPC,在NiosII IDE 條件下則通過C 語言編程來完成。文字圖像處理分為預(yù)處理、特征提取和匹配識別。但是相比我們的盲人無障礙閱讀系統(tǒng),基于FPGA的盲人閱讀器不是實時進(jìn)行的,只能人工進(jìn)行圖片輸入,盲人自己不能完成該工作,大大降低了使用的方便性,且特征提取運算量遠(yuǎn)遠(yuǎn)大于mobilenet 小網(wǎng)絡(luò),不能便攜式攜帶,具有一定的局限性[1]。
(2)2020 年,湖北文理學(xué)院物理與電氣工程學(xué)院以STM32 單片機為主控核心,將OCR 模塊和TTS 模塊有效融合,通過雙攝像頭模塊實現(xiàn)文本信息的獲取,并使用OCR 程序來實現(xiàn)圖像輸入、預(yù)處理、二值化、消除噪聲、文本的傾斜校正、文本裁剪、字符識別、版面回府、后處理過程校對的功能。通過智能語言系統(tǒng)來識別手盲人的指令,并即時地將錄入信息輸出語音完成閱讀。但是以STM32 為控制核心的輔助視障人群的閱讀器將重心放在了預(yù)處理和數(shù)據(jù)庫對比上,設(shè)計的OCR 文字識別技術(shù)在性能上較差。
通過對近年來相關(guān)產(chǎn)品的調(diào)查及分析,我們了解到現(xiàn)有產(chǎn)品的技術(shù)大多存在攜帶不便、價格昂貴、輸入復(fù)雜、受眾單一和信息讀取不全等缺陷,本文的無障礙閱讀系統(tǒng)在使用OCR 文字識別和TTS 文字轉(zhuǎn)語音技術(shù)之外,還使用BlazePalm 手勢識別技術(shù)解決了需要人工輸入圖片信息的問題,盲人用戶可以自主完成閱讀,不需要人為參與[2]。此外,本文無障礙閱讀系統(tǒng)安裝APP 即可使用,產(chǎn)品成本低,在社會上有較好的普及。
本文盲人閱讀輔助系統(tǒng)作為用戶功能型產(chǎn)品,為以盲人為主體的視力障礙者,兼顧幼兒和中老年等一系列閱讀障礙人群打造。本系統(tǒng)借助機器視覺和深度學(xué)習(xí),最終呈現(xiàn)為智能閱讀眼鏡的形式。盲人用雙手觸摸書籍左上和右下的書角,眼鏡上的智能攝像頭即可通過捕捉盲人的手勢來確定所閱讀書本的位置,并利用文字識別對書本內(nèi)容進(jìn)行識別,識別后采用語音合成技術(shù)對內(nèi)容進(jìn)行語音輸出,做到讓視力障礙者可以無障礙閱讀不同的書目。同時智能眼鏡作為盲人服務(wù)型產(chǎn)品,與市面上其他產(chǎn)品相比更便攜,價格也更為低廉,滿足了困難群體、特殊群體的基本閱讀需求,系統(tǒng)主要優(yōu)勢如下。
圖像采集通過使用手勢關(guān)鍵點檢測技術(shù)來彌補當(dāng)前文字檢測技術(shù)不精準(zhǔn)和識別率低的問題,大大提高了文字識別的準(zhǔn)確性,能使盲人群體通過手勢來進(jìn)行精準(zhǔn)閱讀,提高了書本閱讀的普及性。
本系統(tǒng)融合文字轉(zhuǎn)語音和語音交互兩種技術(shù),語音提示功能和語音交互功能實現(xiàn)了盲人的數(shù)據(jù)可視化。
本系統(tǒng)采用的手勢關(guān)鍵點檢測、文字識別和語音交互模型均為小規(guī)模模型,可以減少大量運算,并且通過特征點的快速匹配可以實現(xiàn)實時檢測識別。
針對本文盲人閱讀系統(tǒng)的研究目標(biāo)、內(nèi)容和關(guān)鍵問題,擬在數(shù)據(jù)采集與預(yù)處理、手勢識別、OpenCv 幀數(shù)據(jù)截取、OCR 文字轉(zhuǎn)換和TTS 音頻轉(zhuǎn)換方面展開研究工作。采用網(wǎng)絡(luò)爬蟲、BlazePalm 手勢識別、OCR 技術(shù)、TTS 技術(shù)和ASR技術(shù)實現(xiàn)針對以盲人為主的多種用戶的多功能閱讀系統(tǒng),具體路線見圖1。
3.2.1 數(shù)據(jù)采集與預(yù)處理
收集日常生活、運動中最常見的手勢圖片以及Google、百度、京東等近年來比賽數(shù)據(jù),使用POINT CLOUD ANNOTATOR 工具人工對圖片中手勢進(jìn)行關(guān)節(jié)的關(guān)鍵點標(biāo)注,得到準(zhǔn)備好的訓(xùn)練數(shù)據(jù),見圖2。
3.2.2 BlazePalm 手勢識別
手勢識別通過目標(biāo)檢測、關(guān)鍵點檢測、手勢推導(dǎo)來實現(xiàn)[3]。使用BlazePalm 單鏡頭檢測模型進(jìn)行目標(biāo)檢測,檢測出手掌后使用Hand landmark 模型對已經(jīng)標(biāo)注好的數(shù)據(jù)進(jìn)行訓(xùn)練,最后使用Gesture Recogntion 手勢推導(dǎo)識別手勢的意思,若意思為1 則表示用戶確認(rèn)準(zhǔn)備好。三維手勢關(guān)鍵點識別見圖3。
3.2.3 OpenCv 幀數(shù)據(jù)截取
待手勢確認(rèn)后使用OpenCv 讀取一幀圖片,通過檢測出的兩個手指的位置截取出包含文字內(nèi)容的矩形,進(jìn)行5 次操作,截取出5 張圖片,最后將5 張圖片信息導(dǎo)入OCR 中。
3.3.1 獲取文字?jǐn)?shù)據(jù)庫
文字的數(shù)據(jù)集主要從Chinese Text in Wild (CTW)、Caffe-ocr 和近幾年OCR 比賽中下載進(jìn)行訓(xùn)練,通過在不同的數(shù)據(jù)集上挑選出合適漢字和英文兩種語言的大量數(shù)據(jù)集,進(jìn)行模型訓(xùn)練。“臨”字?jǐn)?shù)據(jù)集見圖4。
3.3.2 OCR 文字識別介紹
OCR(Optical Character Recognition)即光學(xué)文本辨識,又叫文字識別,是對漢字自動錄入的一種方式。它利用掃描和攝影等光學(xué)輸入方法獲得紙面上的文本圖形數(shù)據(jù),通過各種模式識別方法研究文本形狀特征,可以把票據(jù)、報紙、圖片、文件及其他印刷品轉(zhuǎn)換為圖形數(shù)據(jù),然后通過文本辨識技術(shù)把圖形數(shù)據(jù)轉(zhuǎn)換為能夠使用的計算機輸入技術(shù)。
(1)傳統(tǒng)文字識別模型卷積。伴隨著深度學(xué)習(xí)的發(fā)展,為了解決更多實際問題和提高精度,神經(jīng)網(wǎng)絡(luò)有著向深度和寬度兩個方向的發(fā)展,其中ResNet 通過殘差模塊加深網(wǎng)絡(luò)深度[4];Google Inceptionl 網(wǎng)絡(luò)通過Inception 模塊增加網(wǎng)絡(luò)寬度。雖然這些網(wǎng)絡(luò)可以得到很高的準(zhǔn)確率,但是其龐大的網(wǎng)絡(luò)層和巨大的運算量使其不能在普通平臺中實現(xiàn)實時的效果。圖5 為傳統(tǒng)卷積計算圖。
(2)深度可分離卷積。深度可分離卷積主要包括兩種過程,它們是DW 逐通道卷積計算(Depthwise Convolution)和PW 逐點卷積(Pointwise Convolution)。DW 逐通道卷積中的每個卷積核只與輸入特征圖中的一條通道發(fā)生卷積,輸出同樣大小的通道數(shù)。由于D W 逐通道卷積對每個通道進(jìn)行獨立的運算可以有效減少卷積計算量,但是這樣卻導(dǎo)致了不同通道相同位置的特征值[4],見圖6。
PW 逐點卷積的算法和常規(guī)卷積算法十分接近,它的特點是卷積核呈1×1×M×N 卷積,可以用來處理DW 逐通道卷積時不能獲得不同通道中同一區(qū)域的特征值的問題,通過PW 逐點卷積特征組合成新的特征圖,見圖7。
對圖像分別進(jìn)行了DB 文字檢測,把檢測出來的文字候選框轉(zhuǎn)入給CRNN 文字識別,將文字識別結(jié)果按照自上而下,由左至右的先后順序進(jìn)行了保存,并將文本識別結(jié)果使用NLP 語義矯正和識別準(zhǔn)確率的測評,選出5 張圖片中識別率最高的結(jié)果,將識別好的文字結(jié)果保存到數(shù)據(jù)庫中并標(biāo)注為頁數(shù),最后將文字結(jié)果導(dǎo)入到TTS 中。
3.4.1 語音和文本數(shù)據(jù)庫導(dǎo)入
語音數(shù)據(jù)集和文本數(shù)據(jù)集主要從數(shù)據(jù)堂和阿里云、華為云等比賽中進(jìn)行下載,其中數(shù)據(jù)堂中已經(jīng)采集到了普通話、地方方言和外語三大語言種類,主要使用普通話和英語兩種語言中特定的控制指令的數(shù)據(jù)集。
3.4.2 聲學(xué)模型和語言模型
使用小規(guī)模DNN-HMM 聲學(xué)模型對語音數(shù)據(jù)集進(jìn)行聲學(xué)訓(xùn)練,主要對控制指令的語音進(jìn)行訓(xùn)練;使用N-gram 語言模型對控制指令的語言數(shù)據(jù)集訓(xùn)練識別。
3.4.3 語音識別
對輸入的連續(xù)語音進(jìn)行特征提取到解碼器,解碼器與小規(guī)模DNN-HMM 聲學(xué)模型和N-gram 語言模型進(jìn)行識別控制指令,通過不同的控制指令來改變語音速度。
本文利用在計算機視覺領(lǐng)域的經(jīng)驗,研發(fā)的基于卷積神經(jīng)網(wǎng)絡(luò)的盲人無障礙閱讀系統(tǒng)已經(jīng)完成,系統(tǒng)運行效果見圖8。
十四五規(guī)劃綱要中明確提出深入推動全民讀書,積極構(gòu)建“書香中國”,突出了國家保障經(jīng)濟困難人群、特殊群體的基本閱讀需要,但對于盲人群體來講,由于沒有合適的閱讀工具,他們?nèi)悦媾R著難以閱讀的問題。本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的盲人無障礙閱讀系統(tǒng),主要通過盲人手指來確定所閱讀書本的位置,并利用文字識別技術(shù)對書本內(nèi)容進(jìn)行識別,之后采用語音合成技術(shù)對內(nèi)容進(jìn)行語音輸出,做到讓盲人可以像正常人一樣無障礙閱讀不同的書目,保障了困難群體基本閱讀需求。