隨著衛(wèi)生信息化建設的快速推進,電子病歷(Electronic Medical Record,EMR)將逐漸取代傳統(tǒng)的手寫病歷文書,并成為記錄醫(yī)務行為和患者病情的主要信息載體。與手寫病歷不同,EMR的書寫需要醫(yī)生敲擊鍵盤并且借助拼音輸入法完成對醫(yī)務信息的錄入,但是通用的拼音輸入法并不能滿足醫(yī)生的需求,無法有效提升醫(yī)生的電子病歷錄入效率。如潘軍飛[1]等人利用“搜狗拼音輸入法”的基礎詞庫和細胞詞庫等輸入技巧,對臨床醫(yī)生開展了EMR書寫錄入培訓;肖輝等人[2]在廣泛使用的拼音輸入法基礎上,添加醫(yī)學信息代碼及國家標準代碼數(shù)據(jù)集的錄入和提示功能;陳琦[3]面向醫(yī)療領域設計開發(fā)了一套Android輸入法軟件系統(tǒng);李山[4]對EMR進行命名實體識別,提取病歷中重要的診療信息,構建了一套住院病歷錄入輔助系統(tǒng)。
評估拼音輸入法在中文EMR錄入任務中與常用文本錄入的輸入效率差異,分析內(nèi)在原因,對提升拼音輸入法的臨床工作效率具有研究意義。筆者借助已有的輸入法評估工具和評估指標,隨機選擇實驗文本,設計實驗,對比3種拼音輸入法在電子病歷錄入任務中的輸入效率差異。
為了評價不同拼音輸入法在電子病歷錄入中的效率差異,從常用拼音輸入法的選擇、實驗文本的選取、評價指標的構建以及輸入法評價工具的使用4方面闡述。
對“搜狗輸入法”“百度輸入法”以及“搜狗輸入法醫(yī)生版”3種常用拼音輸入法在電子病歷錄入中的輸入效率進行評價。用IME1、IME2和IME3指代的各輸入法的軟件信息如表1所示。
表1 各輸入法軟件信息
從全國知識圖譜與語義計算會議(CCKS)的電子病歷語料中隨機抽取文本長度分別為15、41和91個字符的3份病史相關文本,分別使用EMR-1、EMR-2和 EMR-3指代;從“人民日報2014”語料中,隨機抽取了長度分別為15、43和97個字符的3份新聞文本,分別使用News-1、News-2和News-3指代,并以15個字符長度的句子作為例句(表2)。對兩組實驗文本的字數(shù)分布做t檢驗 ,P>0.05(P=0.939),無統(tǒng)計學差異。
表2 實驗文本長度分布及例句
文本錄入效率評價實驗中,參與者完成文本錄入時存在3種文本語句。以“患者是老年男性”為例的3種語態(tài)形態(tài),如表3所示。
表3 文本輸入評估中的3種語句形態(tài)
注:1由研究人員選定的測試文本用P指代,2記錄參與者錄入過程的文本用I指代,3參與者最后錄入完成的文本用T指代,4參與者實際輸入的是拼音(簡拼、雙拼或全拼等,此處以全拼為例)
Soukoreff等人[5]圍繞文本錄入效率評價指標構建問題,以“錄入文本(I)”為分析對象,將I細化為表4所示的4個部分,提出了一系列量化指標以計算文本錯誤率。
結合表4對文本錯誤率的3個核心指標進行概述。
最小文本距離(Minimum String Distance,MSD)錯誤率:
(1)
據(jù)此可知表3的MSD錯誤率為0。
每個字符的擊鍵數(shù)(Key Strokes Per Character,KSPC):
(2)
表4 錄入文本(I)中的4個組成部分
據(jù)此可知表3的KSPC=1.25。
總錯誤率(Total Error Rate):
(3)
據(jù)此可知表3的總錯誤率為11%。
上述評估指標僅僅關注了輸入流文本而并沒有考慮輸入時間[6],但對輸入流文本的劃分可以詳細描述參與者使用輸入設備完成文本錄入實驗的內(nèi)在過程。
筆者開發(fā)了輸入法評價軟件TestIME[7],其主要功能模塊為實驗文本分配模塊(用于隨機向參與者分配實驗文本任務)、拼音輸入法自動切換模塊(用于自動切換需要測試的拼音輸入法)、文本輸入行為監(jiān)控模塊(用于記錄參與者的文本輸入流)。研究中,隨機招募4名參與者,利用TestIME對上述3種輸入法進行評價,評價流程如圖1所示。在相同實驗環(huán)境配置下,參與者在TestIME內(nèi)使用相應的輸入法完成實驗文本錄入任務,由軟件自動記錄參與者的輸入流以及輸入時間,全程無研究人員干預。
圖1 常用拼音輸入法的評價流程
問卷調(diào)查結果顯示,4名參與者均為醫(yī)學生,經(jīng)常使用拼音輸入法進行文字錄入工作,無EMR書寫經(jīng)歷。將4名參與者的輸入結果進行整理,計算各自的文本錯誤率和輸入速率,取平均值匯總(表5和表6)。本文將從輸入速率和文本錯誤率2個層面進行分析。
表5 4名參與者使用3種輸入法在3個EMR錄入中的文本錯誤率與輸入速率(mean±SD)
表6 4名參與者使用3種輸入法在3個新聞文本錄入中的文本錯誤率與輸入速率(mean±SD)
在3份EMR文本的錄入中,各輸入法的輸入速率如圖2所示。做單因素方差分析,P>0.05(P=0.961),說明各輸入法的輸入效率表現(xiàn)是基本一致的。IME1、IME2和IME3錄入3份EMR文本的輸入速率均值分別為39.98±3.31字/分鐘、39.08±3.89字/分鐘和40.02±6.12字/分鐘。
圖2 拼音輸入法在3份EMR錄入中的輸入速率
在3份新聞文本的錄入中,各輸入法的輸入速率如圖3所示。做單因素方差分析,P>0.05(P=0.834),說明各輸入法的輸入效率表現(xiàn)是基本一致的。IME1、IME2和IME3的輸入速率均值分別為51.37±2.18字/分鐘、50.34±2.66字/分鐘和51.96±4.50字/分鐘。
對各輸入法在EMR和新聞文本錄入中的平均速率做t檢驗,P<0.01(P=0.00),說明EMR的錄入速率比新聞文本的錄入速率低。相較新聞文本,各輸入法在EMR錄入中平均速率分別降低了22.17%、 22.37%和22.98%。
圖3 拼音輸入法在3份新聞文本錄入中的輸入速率
在3份EMR文本的錄入中,各輸入法的mean±SD錯誤率如圖4所示。做單因素方差分析,P>0.05(P=0.243)。各輸入法的總錯誤率如圖5所示。做單因素方差分析,P>0.05(P=0.303)。各輸入法的KSPC如圖6所示。做單因素方差分析,P>0.05(P=0.194)。從圖4、圖5和圖6可以看出,各輸入法在3份EMR文本上的MSD錯誤率、總錯誤率和KSPC這3個文本錯誤率指標是基本一致的。各輸入法在EMR錄入中的平均文本錯誤率如表7所示。
圖4 拼音輸入法在3份EMR錄入中的mean±SD錯誤率
圖5 拼音輸入法在3份EMR錄入中的總錯誤率
圖6 拼音輸入法在3份EMR錄入中的KSPC
表7 各輸入法在EMR錄入中的文本錯誤率均值
在錄入新聞文本時,對各輸入法的mean±SD錯誤率、總錯誤率和KSPC進行單因素方差分析發(fā)現(xiàn),各輸入法在mean±SD錯誤率和KSPC這2個文本錯誤率指標上均無統(tǒng)計學差異,P值分別為0.054和0.085;在總錯誤率指標上,IME3的最低,IME2的最高,均值分別為20.35±1.17%和43.20±13.17%,P值為0.04。各輸入法在新聞文本錄入中的文本錯誤率均值如表8所示。
表8 各輸入法在新聞文本錄入中的文本錯誤率均值
對各輸入法在EMR錄入中的各文本錯誤率和新聞文本錄入中的各文本錯誤率做t檢驗發(fā)現(xiàn),各輸入法在mean±SD錯誤率、總錯誤率和KSPC這3個文本錯誤率指標上均無統(tǒng)計學差異,P值分別為0.271、0.232和0.108。
實驗結果表明,各輸入法在同類型的3條實驗文本錄入中的輸入速率和文本錯誤率基本一致。相較新聞文本的錄入,3種輸入法在EMR錄入中的輸入速率平均下降了約22.51%,而各輸入法的文本錯誤率在不同類型文本上均較高。
為使實驗結果更加科學可信,實驗文本的選擇有待進一步完善。國外學者Paek等人[8]開發(fā)了一套用于從臉書和推特(Facebook和Twitter等)采集實驗文本的算法,Leiva等人[9]則基于統(tǒng)計學原理描述了一套文本采樣方法。然而,這些方法都局限于外文測試集的構建,面向輸入法測試任務的醫(yī)學專業(yè)中文文本和對比參照中文文本的選擇,構建測試集無偏性的評價,均有待進一步研究。本文采用隨機抽樣法,從CCKS開放病歷語料和人民日報新聞語料中隨機抽取字符長度不等的3條文本語句,語料文本選擇的合理性問題尚待后續(xù)的研究證明。此外,本次實驗的參與者較少,導致個別數(shù)據(jù)指標波動較大。4名參與者在測試系統(tǒng)使用和病歷書寫經(jīng)驗上的差異,可能存在系統(tǒng)誤差。
本文參照文本錯誤率評價指標,借助輸入法評價工具TestIME,分別從CCKS語料和人民日報中隨機選擇了3份長度不等的實驗文本,隨機招募4名參與者,初步設計實驗對比了常用的3種輸入法在不同類型的文本錄入任務的輸入效率。結果發(fā)現(xiàn),各輸入法在同類型的3條實驗文本錄入中的輸入速率和文本錯誤率基本一致。相較新聞文本的錄入,3種輸入法在EMR錄入中的輸入速率平均下降了約22.51%,而各輸入法的文本錯誤率在不同類型文本上均較高,說明當前拼音輸入法在電子病歷錄入中的輸入效率仍有提升空間。為使實驗結果更加科學可信,后續(xù)研究將進一步關注測試文本選擇的合理性,招募更多參與者設定清晰的納入和排除標準,優(yōu)化使用TestIME測試輸入法效率的實驗流程,為電子病歷拼音輸入法的改進提供有效的依據(jù)。