劉永俊 ,劉 亞 ,茆壽允
(1. 常熟理工學(xué)院 計算機科學(xué)與工程學(xué)院,江蘇 常熟 215500;2. 東北大學(xué) 計算機科學(xué)與工程學(xué)院,遼寧 沈陽 110819)
目前醫(yī)院的臨床信息系統(tǒng)已經(jīng)相對較多,但近幾年在醫(yī)院信息化建設(shè)過程中,“數(shù)據(jù)孤島、服務(wù)割裂”的現(xiàn)象越來越明顯,各系統(tǒng)的數(shù)據(jù)不能得到很好的采集和整合[1-3]. 同時醫(yī)院同一科室在用設(shè)備種類繁多,有些比較陳舊,甚至不支持?jǐn)?shù)據(jù)對外輸出. 隨著醫(yī)院信息化建設(shè)的發(fā)展,臨床和管理信息系統(tǒng)積累了大量數(shù)據(jù),但由于信息系統(tǒng)的復(fù)雜性和多樣性,導(dǎo)致各系統(tǒng)間數(shù)據(jù)分散,標(biāo)準(zhǔn)不一致,難以實現(xiàn)交換和共享. 通過建立統(tǒng)一規(guī)范的數(shù)據(jù)采集平臺,可以解決醫(yī)院存在的這些問題. 為推進信息標(biāo)準(zhǔn)化工作,促進標(biāo)準(zhǔn)的規(guī)范和使用,實現(xiàn)分散數(shù)據(jù)資源的集成和利用,建立一體化的信息集成平臺成為迫切需要解決的問題.
統(tǒng)一的平臺符合國家衛(wèi)計委提出的各大信息系統(tǒng)互聯(lián)互通的原則,遵循HL7、DICOM等通信標(biāo)準(zhǔn),進行數(shù)據(jù)采集存儲[1]. 對于不支持對外輸出的設(shè)備,通過人工智能技術(shù),軟硬結(jié)合的方式,運用智能攝像頭,抓取設(shè)備數(shù)據(jù),進行數(shù)據(jù)識別存儲[4-11]. 該技術(shù)能解決業(yè)界信息化廠商無法獲取眾多設(shè)備數(shù)據(jù)的難題.
基于OCR(Optical Character Recognition)技術(shù)的醫(yī)療圖像數(shù)據(jù)采集平臺,采用OCR技術(shù)[4-8],直接從屏幕界面上抓取直觀數(shù)據(jù),不需要花費時間和成本集成設(shè)備、解析數(shù)據(jù). 可以統(tǒng)一解決醫(yī)療設(shè)備新舊不一、數(shù)據(jù)接口不一致等造成的數(shù)據(jù)提取難題. 通過統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)采集平臺采集醫(yī)院各大系統(tǒng)的患者臨床數(shù)據(jù),經(jīng)加工整理、歸檔及分析,再通過互聯(lián)網(wǎng)無縫對接數(shù)據(jù)分析應(yīng)用平臺,為科研、精準(zhǔn)醫(yī)療、藥廠制藥等提供有效的數(shù)據(jù)應(yīng)用.
在進行臨床急診時,醫(yī)護人員往往需要手寫醫(yī)囑、記錄病情并輸入醫(yī)院的信息系統(tǒng)中. 不僅浪費搶救時間,還可能會出現(xiàn)人為失誤. 而嵌入式語音識別系統(tǒng)可借助固定或便攜可穿戴設(shè)備進行語音識別,通過芯片中的語音處理及識別算法,將語音轉(zhuǎn)換為文字或指令進行記錄,并自動進行說話人識別(Speaker Identification)和說話人確認(rèn)(Speaker Verification)[12-16],而后進行語音電子簽名. 語音信息可被轉(zhuǎn)錄成文字并顯示在HIS系統(tǒng)、PACS系統(tǒng)、CIS系統(tǒng)等希望輸入文字的位置. 基于樹莓派的嵌入式語音識別系統(tǒng),可以解決由人工錄入而導(dǎo)致的醫(yī)囑信息錯誤,記錄耗時等問題. 本系統(tǒng)能夠減少人力資源的消耗,提高醫(yī)護人員的工作效率,產(chǎn)品成本可控,可移植性較強.
本系統(tǒng)分為3個模塊,圖像識別模塊、語音識別模塊、綜合數(shù)據(jù)集成模塊. 圖像識別模塊負(fù)責(zé)收集醫(yī)療設(shè)備的圖像數(shù)據(jù),而后對數(shù)據(jù)進行識別處理,再將識別的結(jié)果通過Http請求傳輸?shù)缴衔粰C中并顯示. 語音識別模塊則負(fù)責(zé)收集醫(yī)生護士的語音信息,進行語音識別和說話人身份確認(rèn),最后將講話的內(nèi)容轉(zhuǎn)錄成文字并顯示在HIS系統(tǒng)、PACS系統(tǒng)、CIS系統(tǒng)等希望輸入文字的位置.
視頻采集模塊負(fù)責(zé)對醫(yī)療設(shè)備圖像數(shù)據(jù)的采集,采用的是樹莓派自帶的 Pi Camera. 攝像頭插入到樹莓派的CSI Camera Port接口中,若安裝正確,在樹莓派系統(tǒng)的/dev目錄下便會出現(xiàn)video0節(jié)點,此時只要在樹莓派上打開攝像頭模塊,就可以使用攝像頭進行圖像的采集.
圖1 圖像識別流程圖
如圖1所示,技術(shù)方案依次包括以下步驟.
S1:由攝像頭采集醫(yī)療數(shù)據(jù)圖像,對采集的醫(yī)療數(shù)據(jù)圖像進行預(yù)處理;
S2:字符切割:將預(yù)處理的醫(yī)療數(shù)據(jù)圖像的前景與背景分割開,再將前景中待識別的字符串切割成一個個的待識別字符;
S3:將待識別字符的HOG描述子作為訓(xùn)練后的判別模型的輸入?yún)?shù)進行字符識別;
S4:將字符識別數(shù)據(jù)發(fā)送至上位機;
訓(xùn)練后的判別模型通過以下步驟進行訓(xùn)練.
S101:對采集的醫(yī)療數(shù)據(jù)圖像進行預(yù)處理;
S102:字符切割:按閾值i將預(yù)處理的醫(yī)療數(shù)據(jù)圖像前景與背景分割開,再將前景中待識別的字符串切割成一個個的樣本字符,所述樣本字符為0~9共10個字符,i取不同的值m次,共獲得10*m個樣本字符;
S103:對樣本字符以一度為步長分別進行左右各n次轉(zhuǎn)動,得到20*m*n個樣本;
S104:提取每個樣本的HOG描述子,將最終得到一個描述子集作為訓(xùn)練樣本來求SVM的判別模型.
上述待識別字符的HOG描述子以及樣本的HOG描述子通過以下方法得到:對圖像進行網(wǎng)格化,在每個單元格內(nèi)利用梯度方向直方圖統(tǒng)計梯度信息,每4個單元格為一塊,在塊內(nèi)4個單元格內(nèi)像素點進行加權(quán)投影得到4*9共36維的特征矢量,最終圖像內(nèi)所有塊內(nèi)特征矢量集合即為HOG描述子.
上述S1和S101的對采集的醫(yī)療數(shù)據(jù)圖像進行預(yù)處理是對醫(yī)療數(shù)據(jù)圖像進行傾斜校正,傾斜校正包括以下步驟.
S301:應(yīng)用canny算子進行邊緣檢測;
S302:計算傾斜角,通過霍夫變換公式將圖像空間中像素點變換到檢測參數(shù)空間中,參數(shù)空間中一個點還原到圖像空間中即為一條直線,圖像空間中每個像素點,經(jīng)過變換公式得到一條在參數(shù)空間中的曲線,同一條直線上的點在參數(shù)空間中的變換曲線相交于一點,在參數(shù)空間里統(tǒng)計每個位置上曲線相交次數(shù),相交次數(shù)最多的位置在還原后的圖中也就是最長的一條直線,由該直線的斜率獲得傾斜角;
S303:檢測出傾斜角后進行空間坐標(biāo)變換和插值運算,對圖像進行旋轉(zhuǎn)完成傾斜校正.
字符切割包括以下步驟.
S401:二值化,首先將圖片灰度化,灰度圖可以分為包含待識別字符串的前景和不包含待識別字符串的背景,根據(jù)類間最大方差準(zhǔn)則確定二值化閾值;
S402:形態(tài)學(xué)處理,通過腐蝕運算消除邊界點,使邊界向內(nèi)收縮;
S403:垂直投影,對經(jīng)過形態(tài)學(xué)處理的二值圖進行水平方向上的投影,據(jù)投影圖特征將字符串分割成一個個字符.
一般情況n不小于20.
本模塊采用獨立成分分析(Independent Component Analysis, ICA)[13-14]實現(xiàn)盲信號分離,結(jié)合PCA[15]做預(yù)處理. 并采用基于梅爾頻率倒譜系數(shù)(MFCC)+高斯混合模型(Gaussian Mixture Model,GMM)[16]的說話人識別算法,實現(xiàn)說話人識別及語音簽名. 如圖2所示,語音盲分離與說話人識別的處理流程如下.
圖2 語音信號分離與識別流程圖
S2:對采集到的觀測信號x(t)進行盲源分離;
S4:對分離后得到的S(t)進行說話人識別;
S5:最終得到目標(biāo)語音.
步驟2進行盲源分離的步驟如下.
S201:假設(shè)源信號彼此間獨立且是非高斯分布的,采用線性混合模型x(t)=As(t),其中A是未知的M*N混合矩陣. 分離源信號S=A?1x,為了方便書寫,用表示A的逆矩陣(或廣義逆矩陣),于是上式變成S=Wx.
S202:當(dāng)獨立成分的個數(shù)小于混合信號個數(shù)時,混合矩陣A不可逆使用主成分分析(Principal Component Analysis,PCA)降維,實際上就是降噪使得混合矩陣A可逆.
S203:白化,本質(zhì)上是去相關(guān)加上縮放,它要求信號經(jīng)過變換后具有單位方差,同時彼此之間不相關(guān).因此,以 PCA 形式展開可以得到
其中,E是以協(xié)方差矩陣Dy的單位范數(shù)特征向量為列的矩陣,D是以Dy的特征值為對角元素的對角矩陣.
對測試語音同樣進行特征提取,與系統(tǒng)訓(xùn)練時產(chǎn)生的模型進行比較,相似度最大的即判定為說話人.
采用獨立信息系統(tǒng)集成網(wǎng)關(guān),以存儲過程、視圖、Web Service及其他數(shù)據(jù)同步機制,按 需 訪 問HIS、PACS、RIS、LIS、EMR等服務(wù)器,選擇性同步患者住院信息、醫(yī)囑信息、檢查信息、檢驗信息、病歷等數(shù)據(jù)到數(shù)據(jù)庫服務(wù)器. 搭建綜合數(shù)據(jù)集成平臺(CDR),通過智能型數(shù)據(jù)采集平臺和OCR系統(tǒng)的配合,可以有效采集各科室信息系統(tǒng)數(shù)據(jù),并匯總到臨床數(shù)據(jù)中心,進行數(shù)據(jù)統(tǒng)一管理. 通過對數(shù)據(jù)的整理分析,可將有效數(shù)據(jù)進行輸出,返回供醫(yī)院醫(yī)生參考使用. 結(jié)構(gòu)圖如圖3所示.
圖3 基于綜合智能信息的醫(yī)療數(shù)據(jù)采集平臺整體結(jié)構(gòu)圖
利用從醫(yī)療設(shè)備顯示屏圖像中采集的數(shù)字字符集進行分類器的訓(xùn)練,調(diào)整Pi-camera角度使得字符傾斜角不超過20°,再利用訓(xùn)練好的分類器進行字符識別并傳輸至raspberry處于同一局域網(wǎng)內(nèi)的上位機,在上位機中查看當(dāng)前幀及其處理結(jié)果. 測試設(shè)備包括:樹莓派三代B+;800萬像素 Pi Camera;顯示器;華為雙頻無線路由器等.
如圖4所示,利用在醫(yī)院拍攝的一段視頻作為測試視頻. 以下表格的測試數(shù)據(jù)是從視頻中截取出來的一部分?jǐn)?shù)字圖像. 我們在同一設(shè)備上,將不同傾斜角度的字符的數(shù)據(jù)作為測試數(shù)據(jù). 以5°作為一個步長,以0°為基準(zhǔn),左右±20°,15°,10°,5°作為測試數(shù)據(jù). 圖5是以0°,-20°為例的測試情況.
圖4 圖像識別模塊工作圖
針對測試的視頻,從測試結(jié)果統(tǒng)計字符識別系統(tǒng)并未出現(xiàn)誤差. 但在攝像頭采集視頻有抖動時,“0.26”被錯誤識別為“2..2.6..”,“395”被錯誤識別成“.39.5”,“712”被錯誤識別為“712…”,這是由于在首幀進行鼠標(biāo)選區(qū)后,系統(tǒng)會對區(qū)塊內(nèi)各體征參數(shù)值進行定位,為提高OCR運行效率,后續(xù)幀直接根據(jù)首幀的定位進行字符的識別,而根據(jù)觀察發(fā)現(xiàn),由于攝像頭不穩(wěn)定導(dǎo)致的視頻抖動會使得對后續(xù)幀中體征參數(shù)的定位是錯的,最終造成上述錯誤的識別結(jié)果. 該系統(tǒng)需對攝像頭進行固定.
采集混合語音,3位說話人同時發(fā)聲,錄制的混合信號長度為3 s,選定其中一位為目標(biāo)說話人,首先進行盲源分離,得到單獨的恢復(fù)語音,然后做特征參數(shù)提取操作,分別與目標(biāo)說話人的參數(shù)模型進行匹配,最為相近的視為同一個人,并將對應(yīng)的恢復(fù)語音放大輸出. 這一部分的系統(tǒng)平均運行時間如表1所示.
從表1中可以看出,語音分離和識別部分總用時略小于語音信號本身的長度,基本滿足醫(yī)療信息化實時性需求.
表1 系統(tǒng)平均運行時間
圖5 0°和20°的測試
本系統(tǒng)方法不需要根據(jù)設(shè)備廠商協(xié)議去解析和集成數(shù)據(jù),可以自動采集集成數(shù)據(jù). 并且基于OCR技術(shù)的圖像數(shù)據(jù)在智慧醫(yī)療中的應(yīng)用通過圖像識別技術(shù)對數(shù)據(jù)進行智能化存儲識別,對傳輸?shù)絎eb端的數(shù)據(jù)有效集成,解決醫(yī)院信息化建設(shè)過程中,“數(shù)據(jù)孤島、服務(wù)割裂”的問題. 語音信息的識別存儲可以識別到具體的人,醫(yī)生可以進行語音簽名,口頭下達醫(yī)囑,并將之轉(zhuǎn)化成文字存儲. 避免了設(shè)備陳舊不支持對外輸出,醫(yī)護人員需要手動抄寫數(shù)據(jù)等弊端. 提高了醫(yī)護人員工作效率.
參考文獻:
[1]雷赫. 8500億牽動醫(yī)療信息化[J]. 中國計算機用戶, 2009,11(10):55-57.
[2]侯曉林,曹梅紅. 面向病人全生命周期醫(yī)療信息系統(tǒng)構(gòu)架和關(guān)鍵技術(shù)的研究[J]. 計算機工程與應(yīng)用, 2005,16(1):126-130.
[3]陳曉勐. 醫(yī)療信息系統(tǒng)中的網(wǎng)絡(luò)安全問題[J]. 紅外,2002,12(8):78-82.
[4]ABADPOUR A, KASAEI S. A new parametric linear adaptive color space and its implementation[C]. Rome∶ IEEE Computer Society, 2004.
[5]ANTANI S, CRANDALL D, KASTURI R. Robust extraction of text in video[C]. Barcelona∶ IEEE computer Society, 2000.
[6]ANANG HUDAYA M A. Recognising Patterns in Large Data Sets: A Distributed Approach[D]. Clayton∶ Clayton School of Information Technology, 2011.
[7]AI C, HOU H, LI Y,et al. Authentic delay bounded event detection in heterogeneous wireless sensor networks[J]. Ad Hoc Net,2009,7(3): 599-613.
[8]LAGANIERE R. Opencv 2 Computer Vision Application Programming Cookbook [M]. Birmingham: Packt Publishing Ltd,2011:5.
[9]白俊江,洪春勇. 基于Sobel的邊緣檢測方法[J].電腦知識與技術(shù),2009,5(21):5847-5849.
[10]邊肇祺,張學(xué)工.模式識別[M]. 北京:清華大學(xué)出版社,2000:16-30.
[11]朱偉,趙春光,歐樂慶,等. OpenCv圖像處理編程實例[M]. 北京: 電子工業(yè)出版社,2016:5.
[12]REYNOLDS D A. Speaker identification and verification using Gaussian mixture speaker models[J]. Speech communication, 1995, 17(1): 91-108.
[13]檀蕊蓮,劉建平,李哲,等.說話人識別技術(shù)及其應(yīng)用[J].信息技術(shù),2007(12):23-25,29. DOI:10.3969/j.issn.1009-2552.2007.12.008.
[14]HYV?RINEN A, OJA E. Independent component analysis: algorithms and applications[J]. Neural networks, 2000, 13(4): 411-430.
[15]梁勝杰,張志華,崔立林,等. 基于主成分分析與獨立成分分析的降維方法[J]. 系統(tǒng)工程與電子技術(shù),2011,9(8):2144-2148.
[16]REYNOLDS D A, ROSE R C. Robust text-independent speaker identification using Gaussian mixture speaker models[J].Speech and Audio Processing, IEEE Transactions on, 1995, 3(1): 72-83.