厐絪,鄭建立
(上海理工大學(xué)醫(yī)療器械與食品學(xué)院,上海 200093)
隨著我國人口老齡化進(jìn)程的不斷加速,社會(huì)對(duì)老年康復(fù)醫(yī)療的需求持續(xù)增長。然而我國康復(fù)產(chǎn)業(yè)起步較晚,康復(fù)資源十分緊缺,且存在康復(fù)信息化不足的問題??祻?fù)量表是康復(fù)信息的重要部分,是目前評(píng)估患者功能狀況的主要手段,但數(shù)據(jù)種類繁雜。2001年5月22日,世界衛(wèi)生組織(World Health Organization,WHO)在第54屆世界衛(wèi)生大會(huì)上頒布了國際功能、殘疾和健康分類(International Classification of Functioning,Disability and Health,ICF),其是用于人類健康功能分類的標(biāo)準(zhǔn)化框架,可與康復(fù)量表聯(lián)合應(yīng)用。2017年,WHO在“康復(fù)2030”國際大會(huì)上呼吁各國運(yùn)用ICF收集康復(fù)服務(wù)信息,加強(qiáng)健康信息系統(tǒng)建設(shè)。2020年,我國康復(fù)領(lǐng)域?qū)<姨岢鰳?gòu)建ICF的康復(fù)大數(shù)據(jù)平臺(tái),利用平臺(tái)記錄、存儲(chǔ)、統(tǒng)計(jì)和呈現(xiàn)被評(píng)定者的功能數(shù)據(jù)??梢?,康復(fù)信息管理正在得到重視,利用ICF構(gòu)建康復(fù)信息平臺(tái)是未來趨勢。
目前,關(guān)于ICF的應(yīng)用已有許多相關(guān)研究。例如,Cieza等首次提出將康復(fù)量表與ICF進(jìn)行鏈接,并提出基于量表概念提取的手動(dòng)鏈接方法;Prodinger等將健康功能信息轉(zhuǎn)化為ICF編碼的標(biāo)準(zhǔn)化報(bào)告,運(yùn)用Cieza提出的鏈接方法實(shí)現(xiàn)概念等價(jià),運(yùn)用Rasch模型實(shí)現(xiàn)評(píng)分等價(jià);Tuechler等利用448個(gè)研究樣本,開發(fā)了基于機(jī)器學(xué)習(xí)的隨機(jī)森林學(xué)習(xí)模型的翻譯工具,旨在由患者報(bào)告結(jié)局測量工具(Patient-Reported Outcome Measures,PROM)中收集的健康信息自動(dòng)鏈接到ICF分類;林楓等以ICF為框架,運(yùn)用ASP.NET、JavaScript、CSS和HTML等技術(shù)開發(fā)了基于康復(fù)科業(yè)務(wù)流程的康復(fù)信息化管理平臺(tái)。此外,為解決ICF因類目繁多(1 495條類目)而應(yīng)用困難的問題,WHO、國際物理醫(yī)學(xué)與康復(fù)醫(yī)學(xué)學(xué)會(huì)(International Society of Physical and Rehabilitation Medicine,ISPRM)、德國慕尼黑大學(xué)健康與康復(fù)科學(xué)研究所的ICF研究分中心等共同開發(fā)了ICF核心分類組合(ICFCore Sets)。
目前多數(shù)研究是基于一定規(guī)則在信息平臺(tái)應(yīng)用ICF,鮮有根據(jù)康復(fù)量表的文本語義將其自動(dòng)映射為ICF分類的研究。因此,本文以康復(fù)量表與標(biāo)準(zhǔn)ICF分類聯(lián)合應(yīng)用為思路,運(yùn)用文本相似度算法—詞移距離算法(Word Mover’s Distance,WMD),將腦卒中相關(guān)的康復(fù)量表映射為相應(yīng)的ICF編碼組合,并以ICF核心分類組合中的腦卒中綜合版作為標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià),以期為康復(fù)師使用康復(fù)量表時(shí)推薦合適的ICF編碼。
ICF提供了有關(guān)人類健康功能及其受限情況的描述,其將健康功能分為6個(gè)類別:身體功能(Body Functions)、身體結(jié)構(gòu)(Body Structures)、活動(dòng)和參與(Activities and Participation)、環(huán)境因素(Environment Factors)以及個(gè)人因素(Personal Factors)。ICF描述了類別之間的聯(lián)系與鑒別要素,使得人類健康功能之間的關(guān)系得以清晰表達(dá)。
ICF運(yùn)用字母、數(shù)字編碼系統(tǒng)表示各類目(Categories),字母b、s、d、e分別代表身體功能、身體結(jié)構(gòu)、活動(dòng)和參與、環(huán)境因素。字母之后的數(shù)字從左到右分別代表一級(jí)(1位數(shù)字)、二級(jí)(3位數(shù)字)、三級(jí)(4位數(shù)字)和四級(jí)水平類目(5位數(shù)字),具體示例如表1所示。此外,ICF需要限定值才算完整,限定值類似于量表評(píng)分,表示健康水平或出現(xiàn)問題的嚴(yán)重程度,如b7302.1表示單側(cè)身體肌肉力量輕度損傷。本文不考慮限定值,僅考慮編碼。
ICF共有1 495條類目,分類詳盡,應(yīng)用起來十分繁瑣。ICF核心分類組合在一定程度上改善了上述問題,其運(yùn)用嚴(yán)格的多維科學(xué)方法,按照人在不同時(shí)期(急性期、亞急性期以及慢性期)的特定健康狀況(如腦卒中、孤獨(dú)癥)對(duì)ICF進(jìn)行分組。ICF核心分類組合共計(jì)86個(gè),包括3個(gè)基本ICF組合:通用組合、功能障礙組合、環(huán)境因素的最小組合,以及4類疾病分組:肌肉骨骼系統(tǒng)疾病、心肺疾病、神經(jīng)系統(tǒng)疾病、其他疾病,每類疾病分組下包括具體疾病的綜合版和簡要版ICF核心分類組合。
Table 1 Examples of ICF category codes at different levels表1 不同水平ICF分類編碼示例
WMD是Kusner等于2015年提出的基于詞向量計(jì)算文本文檔之間距離的算法,是搬土距離(Earth Mover’s Distance,EMD)的一個(gè)應(yīng)用實(shí)例。EMD是Rubner等于1998年提出的解決線性規(guī)劃中運(yùn)輸問題的算法,被廣泛應(yīng)用于圖像和語音信號(hào)處理領(lǐng)域。EMD反映了通過移動(dòng)分布質(zhì)量將一個(gè)分布轉(zhuǎn)換為另一個(gè)分布所必須進(jìn)行的最小工作量。相應(yīng)的,WMD計(jì)算的即為一個(gè)詞轉(zhuǎn)換為另一個(gè)詞所必需的最小代價(jià)。
WMD的思想是求解兩個(gè)文本文檔之間的最短距離。在兩個(gè)文本文檔去除停用詞后,將其表示為加權(quán)詞向量的點(diǎn)云,其中權(quán)是通過最優(yōu)化算法得出。文本文檔A與B之間的距離為文檔A中所有詞與文檔B中所有詞完全匹配所需要移動(dòng)的最小累積距離,即加權(quán)詞向量點(diǎn)云之間的最小距離。圖1為WMD算法的示意圖,粗體字為去除停用詞后剩下的詞。
Fig.1 Illustration of WMD圖1 WMD示意圖
WMD算法具有以下幾個(gè)特性:①?zèng)]有超參數(shù),易于理解和使用;②具有高度可解釋性,兩個(gè)文檔之間的距離可以分解并解釋為幾個(gè)單詞之間的稀疏距離;③包括Word2vec空間的詞向量編碼,具有較高的檢索準(zhǔn)確性;④是一種基于文檔之間的非監(jiān)督算法。
WMD算法采用歸一化詞袋模型(Normalized Bag-ofwords,nBOW)的向量d∈R描述文檔。其中,詞i
在文檔中出現(xiàn)的次數(shù)表示為c
,刪除與類別無關(guān)的停用詞后,則向量d中的元素d
可表示為:i
與詞j
的歐式距離為:Fig.2 WMD algorithm diagram圖2 WMD算法示意圖
在中文環(huán)境下選取康復(fù)量表中的描述性文字以及ICF類目的相關(guān)中文文本,對(duì)這兩部分文本分別進(jìn)行預(yù)處理,運(yùn)用WMD算法進(jìn)行量表?xiàng)l目文本與ICF類目文本之間的匹配,其中量表文本為被匹配對(duì)象,ICF編碼為匹配結(jié)果。進(jìn)行文本匹配時(shí),選取WMD距離最小的ICF類目文本對(duì)應(yīng)的編碼作為單項(xiàng)量表?xiàng)l目的匹配項(xiàng),并以ICF核心分類組合中的腦卒中綜合版為標(biāo)準(zhǔn),對(duì)匹配結(jié)果進(jìn)行評(píng)估。康復(fù)量表映射為ICF的流程如圖3所示。
Fig.3 Process of mapping rehabilitation scales to ICF圖3 康復(fù)量表的ICF映射流程
ICF文本數(shù)據(jù)來自WHO發(fā)布的ICF瀏覽器中文版、Bioportal上的ICF本體文件。ICF核心分類組合的腦卒中綜合版編碼數(shù)據(jù)來自ICF Research Branch??祻?fù)量表文本數(shù)據(jù)來自《康復(fù)醫(yī)學(xué)》《康復(fù)評(píng)定常用量表》中關(guān)于腦卒中的6個(gè)康復(fù)量表,分別為格拉斯哥昏迷量表、美國國立衛(wèi)生研究院卒中量表(NIHSS量表)、Brunnstrom運(yùn)動(dòng)功能評(píng)定量表、簡化Fugl-Meyer評(píng)定量表、Berg平衡量表以及改良Barthel指數(shù)評(píng)分量表。停用詞表來自于GitHub上的公開項(xiàng)目。中文詞向量來自于Li等訓(xùn)練的SGNS(Skip-Gram with Negative Sampling)中文詞向量。
(1)文本獲取。ICF文本以及ICF核心分類組合編碼數(shù)據(jù)來自網(wǎng)頁,存在不需要的HTML標(biāo)簽。采用網(wǎng)絡(luò)爬蟲技術(shù),使用Python語言編寫的Requests請(qǐng)求庫、Beautiful Soup、Pyquery解析庫提取文本和編碼數(shù)據(jù)。
(2)構(gòu)建擴(kuò)展詞、停用詞表。向擴(kuò)展詞表中加入康復(fù)醫(yī)學(xué)領(lǐng)域的專業(yè)詞匯,如“腦白質(zhì)”“腘繩肌”等。向停用詞表中加入不影響文本匹配任務(wù)的詞語,如“確實(shí)”“缺少”“原因”等。
(3)中文分詞。在中文環(huán)境下,詞與詞之間沒有顯式分隔符,而WMD算法運(yùn)用詞向量計(jì)算詞間距離,因此需要對(duì)文本進(jìn)行中文分詞。支持Python語言的分詞工具包括HanLP、結(jié)巴(jieba)分詞、LTP等,本文選用jieba分詞。
(4)去停用詞。停用詞是自然語言中最常見的詞,但這些詞可能不會(huì)為文本含義增加太多價(jià)值。停用詞一般是標(biāo)點(diǎn)符號(hào)、連詞或代詞等,本文采用“3.2”項(xiàng)提及的停用詞表去停用詞。
(5)詞向量L范數(shù)正則化(L-Normalization)。Wilson等認(rèn)為詞嵌入的應(yīng)用本質(zhì)是得到詞嵌入之間的關(guān)系,如詞嵌入之間的余弦值或距離。詞嵌入的大多數(shù)應(yīng)用是以探索詞嵌入之間關(guān)系的方式解決詞與詞之間相似度計(jì)算和其他關(guān)系的問題,而使用正則化的詞向量可以提高算法解決這些問題的性能。因此,本文對(duì)中文詞向量進(jìn)行L范數(shù)正則化。
采用Python 3.6編寫實(shí)驗(yàn)代碼,使用Gensim模塊實(shí)現(xiàn)WMD算法;硬件環(huán)境為Intel Xeon Gold 6132,操作系統(tǒng)為Red Hat 4.8.5-16。
運(yùn)用準(zhǔn)確率(Accuracy)評(píng)估方法性能,計(jì)算公式為:
A
為準(zhǔn)確率;n
為匹配正確的量表?xiàng)l目數(shù)量,表示量表中有n
個(gè)條目映射的ICF編碼是腦卒中綜合版編碼組合的成員;N
為該量表的條目總數(shù)。腦卒中綜合版的類目數(shù)量為130,精確匹配難度較大,因此分別進(jìn)行top-1與top-5的準(zhǔn)確率評(píng)價(jià)。其中,top-1準(zhǔn)確率為距離最小候選答案為正確答案的比率,top-5準(zhǔn)確率為距離最小的前5個(gè)候選答案包含正確答案的條目所占的比率。為更直觀地體現(xiàn)top-5的評(píng)價(jià)性能,增加top-5的平均準(zhǔn)確數(shù)這一指標(biāo),用于檢驗(yàn)量表中平均每個(gè)條目的正確答案數(shù)量,表示為:
此外,文本匹配時(shí)需忽略定義過于寬泛的一級(jí)類目,只匹配ICF二級(jí)及以上類目,并將二級(jí)以上類目歸為對(duì)應(yīng)的二級(jí)類目,如b1100歸為b110。在實(shí)際應(yīng)用中,二級(jí)水平的精度已經(jīng)足夠。
采用WMD算法對(duì)康復(fù)量表?xiàng)l目和ICF類目中的中文文本進(jìn)行匹配,檢驗(yàn)匹配的ICF類目編碼是否為腦卒中綜合版編碼組合的成員。映射結(jié)果如表2所示,實(shí)驗(yàn)性能參數(shù)如表3所示。
Table2 Experimental results of rehabilitation scales mapping to ICF表2 康復(fù)量表ICF映射的實(shí)驗(yàn)結(jié)果
由表2-表3可以看出,各個(gè)量表top-1準(zhǔn)確率均大于0.6,平均值為0.9;top-5準(zhǔn)確率均為1,平均準(zhǔn)確數(shù)均≥3,即前5個(gè)候選編碼中,平均有3個(gè)為正確答案。實(shí)驗(yàn)結(jié)果表明,top-1需要精準(zhǔn)匹配,top-5范圍較top-1廣,更符合本文推薦ICF編碼的需求。
Table3 Experimental performance表3 實(shí)驗(yàn)性能
表4展示了top-5文本匹配的示例,即1個(gè)量表?xiàng)l目對(duì)應(yīng)5個(gè)候選ICF編碼。從語義來看,該條目評(píng)估的是患者能否在一定時(shí)間內(nèi)自主持續(xù)站立。詞移距離在前3位的b740、b730和b735描述的是肌肉耐力、肌肉力量、肌張力等內(nèi)容,與該條目的語義和主旨相關(guān),說明本文方法在top-5模式下具有較好的語義相關(guān)性。
Table 4 Examples of top-5 text matching表4 top-5文本匹配示例
本文提出運(yùn)用非監(jiān)督的文本相似度算法WMD,以公開的6個(gè)腦卒中康復(fù)量表和ICF中文文本數(shù)據(jù)為研究對(duì)象,結(jié)合詞向量對(duì)康復(fù)量表?xiàng)l目和ICF類目進(jìn)行文本匹配。在匹配結(jié)果中選取詞移距離最小的top-1和top-5編碼,并以ICF核心分類組合的腦卒中綜合版為標(biāo)準(zhǔn),進(jìn)行準(zhǔn)確率與準(zhǔn)確數(shù)的評(píng)價(jià)。實(shí)驗(yàn)結(jié)果顯示,腦卒中綜合版的top-5準(zhǔn)確率較高,表明利用文本相似度推薦編碼的方法能夠有效運(yùn)用于ICF編碼的映射問題中。該方法為康復(fù)師在臨床上便捷高效地利用ICF編碼提供了新思路。然而,本研究存在一定的局限性,由于缺乏ICF實(shí)際應(yīng)用數(shù)據(jù),該方法僅適用于輔助篩選ICF編碼,尚不能精準(zhǔn)運(yùn)用于實(shí)際臨床。在后續(xù)研究中,可以嘗試引入專業(yè)人士的標(biāo)注數(shù)據(jù)作為參考依據(jù),以提高ICF映射的準(zhǔn)確性。