張曉博,楊 燕*,李天瑞,陸 凡,彭莉蘭
(1.西南交通大學信息科學與技術學院,成都 611756;2.西南交通大學人工智能研究院,成都 611756;3.綜合交通大數(shù)據(jù)應用技術國家工程實驗室(西南交通大學),成都 611756)
(*通信作者電子郵箱yyang@swjtu.edu.cn)
目前,帕金森病已成為除老年癡呆癥以外最常見的神經(jīng)退行性和致殘性疾病,通常發(fā)生在老年人中,臨床表現(xiàn)主要包括靜止性震顫、運動遲緩、肌強直和姿勢性步態(tài)障礙[1-5]。帕金森病不僅影響患者的生活質(zhì)量,而且會給家庭和社會帶來沉重的負擔。
在我國,年齡65 歲以上人群帕金森病的患病率約占1.7%[6],年齡超過80 歲的患病率約占2.65%[7]。我國患病率與世界發(fā)達國家相近,目前全世界有大約1 000 萬帕金森病人,而我國的患者超過200萬人[8]。
帕金森病最主要的病理改變是中腦黑質(zhì)多巴胺能神經(jīng)元的變性死亡,由此而引起紋狀體黑質(zhì)多巴胺能神經(jīng)元含量顯著性減少而致病。導致這一病理改變的確切病因現(xiàn)階段仍不清楚,遺傳因素、環(huán)境因素、年齡老化、氧化應激等均可能參與帕金森病多巴胺能神經(jīng)元的變性死亡過程[9]。目前尚無有效的預防措施阻止疾病的發(fā)生和進展。當患者出現(xiàn)臨床癥狀時黑質(zhì)多巴胺能神經(jīng)元死亡至少在50%以上,紋狀體黑質(zhì)多巴胺能神經(jīng)元含量減少在80%以上。因此,早期借助人工智能技術預測并發(fā)現(xiàn)帕金森病臨床患者,有利于采取有效的措施阻止多巴胺能神經(jīng)元的變性死亡,以阻止疾病的發(fā)生與進展。本文基于一個國際上研究帕金森病進展指標的臨床研究平臺即PPMI(Parkinson’s Progression Markers Initiative)公開提供的臨床醫(yī)療檢查文本信息數(shù)據(jù)集[10],結(jié)合主成分分析(Principal Component Analysis,PCA)[11],5 種傳統(tǒng)的經(jīng)典聚類K均值(K-Means)[12]、K中心點(K-Medoids)[13]、高斯混合模型(Gaussian Mixture Model,GMM)[14]、親和力傳播(Affinity Propagation,AP)[15]、譜聚類(Spectral Clustering,SC)[16],以及基于聚類的相似性劃分算法(Cluster-based Similarity Partitioning Algorithm,CSPA)、元聚類算法(Meta-CLustering Algorithm,MCLA)、超圖分割算法(Hypergraph Partitioning Algorithm,HGPA)共3 種聚類集成方法[17],來分析并預測數(shù)據(jù)集中的多巴胺異常帕金森病患者、健康體和無多巴胺缺失患 者(Scans Without Evidence of Dopamine Deficiency,SWEDD)。該應用方法能夠輔助早預防、早發(fā)現(xiàn)與早治療,具有重要的臨床研究意義與實際應用價值。
本文的主要貢獻包括4個方面:
1)通過PPMI平臺提供的公開醫(yī)療文本信息數(shù)據(jù)集,采用聚類等機器學習技術預測并輔助診斷帕金森病。
2)主成分分析方法被應用到醫(yī)療文本信息數(shù)據(jù)集中來降維不同維度的維度空間,不僅解決了數(shù)據(jù)維度的復雜問題,同時也為聚類提供了多層次可比較的多維度數(shù)據(jù)集。
3)降維后的不同維度數(shù)據(jù)集被5 個傳統(tǒng)的經(jīng)典聚類模型和3 種不同的聚類集成方法聚類后,得出特征維度值取30 時GMM聚類效果最佳的結(jié)論。
4)應用不同維度數(shù)據(jù)集的實驗結(jié)果表明特征維度值小于40 時,高斯混合模型GMM 的聚類效果最佳;而當特征維度值大于40 時,譜聚類(SC)表現(xiàn)突出;3 種聚類集成方法中MCLA的聚類性能最好。
帕金森病的預測和輔助診斷不論是基于單模態(tài)的醫(yī)療數(shù)據(jù)還是多模態(tài)的數(shù)據(jù)集,都被不少學者和研究人員嘗試進行研究,應用于不同的數(shù)據(jù)集上的帕金森病輔助診斷也都有著重要的臨床研究意義。接下來,本文概述已有的帕金森病分類、預測工作以及在不同醫(yī)療數(shù)據(jù)集上的應用。
近年來,核磁共振成像(Magnetic Resonance Imaging,MRI)、功能磁共振成像(Functional MRI,F(xiàn)MRI)、經(jīng)顱超聲檢查(Transcranial Sonography,TCS)、單光子發(fā)射計算機斷層成像(Single-Photon Emission Computed Tomography,SPECT)、正電子發(fā)射斷層成像(Position Emission Tomography,PET)和定量磁化圖(Quantitative Susceptibility Mapping,QSM)等單模態(tài)醫(yī)療數(shù)據(jù)被用來對帕金森病的輔助診斷進行研究,并取得一些成果。文獻[18]開發(fā)了一種新穎的級聯(lián)多列算法框架,通過對單模態(tài)神經(jīng)影像學數(shù)據(jù)的分析來進行帕金森病輔助診斷。文獻[19]中提出了用于檢測帕金森病中形態(tài)學生物標記的基于多層次感興趣區(qū)域特征提取的機器學習方法,對帕金森病的形態(tài)計量生物標志物具有很好的識別能力。文獻[20]使用支持向量機技術和基于單光發(fā)射計算機斷層掃描腦圖像的體素特征方法制定了一種用于帕金森病輔助診斷的全自動計算解決方案。文獻[21]設計支持向量機方法結(jié)合胸帶重采樣技術進行非分層的多類分類,并依據(jù)帕金森病患者的氟脫氧葡萄糖正電子發(fā)射斷層掃描數(shù)據(jù),區(qū)分帕金森病和系統(tǒng)萎縮癥。文獻[22]采用機器學習的方法分析FMRI 數(shù)據(jù),根據(jù)認知狀態(tài)來區(qū)分帕金森病患者。
另外,不少針對醫(yī)療圖像數(shù)據(jù)特征提取并選擇的技術也被用來研究帕金森病的輔助診斷。文獻[23]定量比較了基于TCS數(shù)據(jù)的計算機輔助診斷和3種大小的感興趣區(qū)域性能,對原始數(shù)據(jù)提取特征和降維特征的實驗結(jié)果表明,覆蓋整個中腦區(qū)域的感興趣區(qū)域?qū)崿F(xiàn)了總體最佳的帕金森病診斷性能。文獻[24]中提出了通過核磁共振和擴散張量成像數(shù)據(jù)進行帕金森病診斷的聯(lián)合回歸和分類框架,并設計了統(tǒng)一的多任務特征選擇模型,以探索特征、樣本和臨床醫(yī)學病理知識之間的多種關系。文獻[25]通過MRI 數(shù)據(jù)輔助診斷帕金森病,實現(xiàn)了一種聯(lián)合特征樣本選擇方法,用于選擇樣本和特征的最佳子集。文獻[26]研究了一種用于帕金森病輔助診斷的迭代典型相關分析特征選擇方法,特點是以更全面的方式使用MRI數(shù)據(jù),并將不同類型的特征融合到一個公共空間中進行分析和選擇。文獻[27]使用定量磁化圖從黑質(zhì)中提取放射學特征,并采用傳統(tǒng)機器學習算法對帕金森病患者與正常人進行分類。
此外,還有深度學習方法也被用來對帕金森病的輔助診斷進行研究。文獻[28]中提出了一種深度神經(jīng)映射大幅度分布機器學習算法,該算法通過深度神經(jīng)網(wǎng)絡技術在大幅度分布中執(zhí)行核映射而非隱式核函數(shù)進行帕金森病輔助診斷,可以克服核選擇的困難,并進一步提高分類性能。文獻[29]通過卷積神經(jīng)網(wǎng)絡來自動識別帕金森病患者,該深度學習采用的數(shù)據(jù)是通過由一系列可以提取信息的傳感器組成的智能筆,從個人實驗測試期間的手寫動態(tài)中提取信號并學習特征。文獻[30]研究了一種用深度學習技術輔助診斷帕金森病嚴重程度的方法,并在帕金森病人的遠程監(jiān)控語音數(shù)據(jù)集上進行訓練和測試。文獻[31]開發(fā)了基于深度學習的多巴胺轉(zhuǎn)運蛋白成像解釋系統(tǒng),用來完善帕金森病的影像學診斷。該系統(tǒng)由帕金森病患者和正常人的影像數(shù)據(jù)訓練而成,能夠顯示出高分類精度,也可對帕金森病不確定的患者進行影像學診斷,并在進一步的臨床研究中提供客觀的患者組分類。文獻[32]中提出了一種深層神經(jīng)網(wǎng)絡分類器,其中包含堆疊的自動編碼器和Softmax 分類器,并在兩個有帕金森病患者語音障礙相關語音數(shù)據(jù)庫上進行了模擬實驗,驗證了深度神經(jīng)網(wǎng)絡分類器識別帕金森病患者的有效性。
隨著對帕金森病發(fā)展的不斷研究和臨床醫(yī)學數(shù)據(jù)的日益積累,研究者們也開始嘗試使用多模態(tài)的醫(yī)學數(shù)據(jù)對帕金森病進行智能診斷。文獻[33]中提出了一種深度學習方法,考慮到來自語音、手寫和步態(tài)的多模態(tài)數(shù)據(jù)信息,對開始或停止運動的困難進行建模,并使用這些轉(zhuǎn)換來訓練卷積神經(jīng)網(wǎng)絡模型,實現(xiàn)對帕金森病患者和健康受試者進行分類。文獻[34]實現(xiàn)了一種基于多模態(tài)神經(jīng)影像數(shù)據(jù)的新型特征選擇方法,可用于帕金森病檢測和臨床診斷預測。文獻[35]通過25名帕金森病患者和25 位健康對照受試者的核磁共振全腦T1加權、彌散張量成像數(shù)據(jù)和神經(jīng)心理學評估數(shù)據(jù)(含語言記憶測試和視覺空間記憶測試),發(fā)現(xiàn)了無癡呆的帕金森病患者的聲明性記憶障礙可以通過彌散張量成像分析檢測到的海馬結(jié)構的微結(jié)構改變率來預測。文獻[36]研究了一種統(tǒng)計方法,用于分析多種模態(tài)的神經(jīng)影像數(shù)據(jù),以確定可將帕金森病患者與健康受試者區(qū)分開的特征,該方法基于彈性網(wǎng),執(zhí)行正則化和變量選擇,同時引入以簡約性和可再現(xiàn)性為中心的附加條件,通過交叉驗證進行評估顯示出極高的準確性,成功分離出與帕金森病相關的大腦區(qū)域。文獻[37]展示了一種基于通用規(guī)范相關分析的多視圖表示學習的方法,用于學習從筆跡和步態(tài)等多模態(tài)數(shù)據(jù)中提取特征的表示形式,可以用作基于語音特征的補充,有效解決了帕金森病患者與健康對照的分類等問題。文獻[38]使用具有多種錄音類型的帕金森病相關語音數(shù)據(jù)集,并采用Softmax、神經(jīng)網(wǎng)絡、對數(shù)回歸和決策樹4 種技術對實驗數(shù)據(jù)集進行分類,得出神經(jīng)網(wǎng)絡方法識別帕金森病準確率最高的結(jié)論。文獻[39]設計了一種多類型的機器學習模型框架,用于捕捉并補充帕金森病患者的語音樣本類型,并使用均值投票和多數(shù)投票的評估標準進行了評估,表明了元音樣本具備帕金森病特征的補充信息。文獻[40]研究了如何通過個體持續(xù)的發(fā)聲和語音信號檢測帕金森氏病,依據(jù)持續(xù)性發(fā)聲和依賴文本的語音方式對帕金森病進行篩查的信號數(shù)據(jù),使用隨機森林技術作為機器學習算法,用于單個特征集和決策級融合,最后將基于隨機森林的鄰近矩陣非線性投影到2D空間中,豐富了醫(yī)療決策支持。
本文提出的基于醫(yī)療文本信息數(shù)據(jù)的帕金森病早期診斷預測研究,對單模態(tài)的醫(yī)療文本信息數(shù)據(jù)進行聚類分析。不僅有效利用了醫(yī)療檢查過程中產(chǎn)生的各項人體指標信息數(shù)據(jù),也在很大程度上挖掘了數(shù)據(jù)的特征信息。該應用方法可以根據(jù)醫(yī)療文本數(shù)據(jù)所具有的文字信息來判斷被檢查人是否患有帕金森病,也可以預測患病原因是否與其體內(nèi)黑質(zhì)多巴胺能神經(jīng)元含量多少有關。
本章主要介紹PCA、相關聚類算法和聚類集成等技術,并重點闡述了PCA 降維不同維度空間后結(jié)合聚類、聚類集成等方法處理數(shù)據(jù)的具體算法過程。
針對醫(yī)學文本數(shù)據(jù)特征維度數(shù)量多且復雜的情況,需對其數(shù)據(jù)維度進行降維處理。數(shù)據(jù)降維方法主要有兩種:無監(jiān)督降維和有監(jiān)督降維。對于無監(jiān)督的方法,數(shù)據(jù)的標簽不能被標記,這意味著只能通過學習樣本之間的相似特征來對數(shù)據(jù)樣本進行分類或聚類;而對于有監(jiān)督的方法,類標簽學習被認為可以獲得更穩(wěn)健分類或聚類結(jié)果??紤]到臨床實際和研究目標,本文選擇無監(jiān)督降維處理。無監(jiān)督降維技術有很多,如PCA、獨立成分分析和非負矩陣分解等。PCA 主要采用數(shù)學降維的方法,以綜合變量來代替原來眾多的變量,使得綜合變量能盡可能地代表原來變量的信息量,而且彼此之間互不相關。這種把很多個變量轉(zhuǎn)化為少數(shù)幾個互相無關的綜合變量的統(tǒng)計分析方法叫作主成分分析或主分量分析。對文本數(shù)據(jù)信息特征的降維處理,最佳的選擇是主成分分析即PCA 方法,因為PCA 降維能夠在保留數(shù)據(jù)集中大部分特征的同時降低數(shù)據(jù)的維數(shù)[11]。
1)K-Means 算法是聚類問題的基本方法之一。這是一種基于簇元素的重心表示簇的方法。K-Means 算法將用戶輸入系統(tǒng)的數(shù)據(jù)簇分為n個數(shù)據(jù)簇和K個用戶再次輸入的數(shù)據(jù)簇[12]。
2)K-Medoids算法只需計算一次距離矩陣,就可以在每次迭代中找到新的中心點,并使得中心和集群其他部分之間的距離之和最小化[13]。
3)GMM 主要用來估計樣本的概率密度分布,估計模型是幾個高斯模型的加權和,每個高斯模型代表一個簇。從樣本數(shù)據(jù)在高斯模型上的投影中分別得到每個類的概率,并選擇概率最大的類作為決策結(jié)果[14]。GMM被定義如下:
其中:參數(shù)K是模型個數(shù);πk是高斯權重;p(x|k)是高斯模型排序到k的概率密度。
4)AP方法將數(shù)據(jù)點對點之間的相似度作為輸入度量,在數(shù)據(jù)點之間交換實值消息,直到一組高質(zhì)量的示例和相應的集群逐漸出現(xiàn)[15]。置信度被定義如下:
其中:以點i和點k之間的相似度r(i,k)作為聚類中心的輸入,減去點i和其他所有候選聚類中心的最大相似度。
歸屬度a(i,k)被定義如下:
其中歸屬度a(i,k)設置為自吸引度r(k,k)與從其他點接收的候選聚類中心k點的正吸引度之和。
5)譜聚類(SC)是從圖論中演化出來的算法,后來在聚類中得到了廣泛的應用。它的主要思想是把所有的數(shù)據(jù)看作空間中的點,這些點之間可以用邊連接起來。距離較遠的兩個點之間的邊權重值較低,而距離較近的兩個點之間的邊權重值較高,通過對所有數(shù)據(jù)點組成的圖進行切圖,讓切圖后不同的子圖間邊權重和盡可能地低,而子圖內(nèi)的邊權重和盡可能地高,從而達到聚類的目的。由于本身使用了降維,因此相較于傳統(tǒng)聚類算法,該方法降低了處理高維數(shù)據(jù)聚類的復雜度[16]。
1)CSPA將每個數(shù)據(jù)點表示成一個頂點,兩個點被分在同一個圖中的次數(shù)占聚類集體中成員個數(shù)的比例為相應兩頂點間邊的權重,這樣根據(jù)一個聚類集體生成一個圖后,再利用圖形劃分算法來得到最終聚類結(jié)果,其時間復雜性是二次的[17]。
2)MCLA 則是將每個簇當成頂點,簇之間擁有的相同數(shù)據(jù)點數(shù)占所有數(shù)據(jù)的比例作為這兩個頂點間邊的權重,然后在此基礎上再利用圖形劃分算法將簇劃分成不同的組,最后每個點根據(jù)它在不同組中出現(xiàn)的次數(shù)來選擇它所在的組從而構成最終的聚類集成結(jié)果,其時間復雜性是一次的[17]。
3)HGPA 把聚類集體中的每個簇表示成一條超邊,它連接所有在此簇中的數(shù)據(jù)點,每條超邊權重一樣,然后利用超圖劃分算法得到最終聚類結(jié)果,其時間復雜性是一次的[17]。
1)聚類精確率(ACCuracy,ACC):ACC是聚類結(jié)果的近似值,可以用來評價聚類的準確性。ACC定義如下:
其中Nk是正確分類到每個類的數(shù)據(jù)項數(shù)。ACC越大,聚類性能越好[41]。
2)標準互信息(Normalized Mutual Information,NMI):互信息(Mutual Information,MI)是用來衡量兩個數(shù)據(jù)分布的吻合程度,并計算正確率。MI的定義如下:
NMI是MI的標準化,用熵作為分母將互信息調(diào)整到[0,1]內(nèi),可用于聚類評價,定義[41]如下:
3)F1 值是精確率和召回率的調(diào)和平均值,可以準確地評價聚類算法的性能。F1值的定義如下:
其中:P、R分別表示聚類算法的精確率和召回率[41]。
4)調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI):蘭德指數(shù)(Rand Index,RI)需要給出實際的類別信息C,假設K是聚類結(jié)果,a表示C和K中同一類別元素的對數(shù),b表示C和K中不同類別元素的對數(shù),RI指數(shù)公式如下:
ARI的取值范圍是[-1,1],值越大,聚類結(jié)果越符合實際情況。廣義上講,ARI是衡量兩個數(shù)據(jù)分布的匹配程度[41]。
本文醫(yī)療文本數(shù)據(jù)被處理的整個算法過程如下:
本文所用的實驗數(shù)據(jù)來源于PPMI 平臺提供的公開文本數(shù)據(jù)集,共1 783 條數(shù)據(jù)記錄,135 個特征。由于49 個特征存在數(shù)據(jù)缺失,最終選取了86 個有效特征,其中有代表性的10個特征說明如表1[10]所示。另外,針對表1 中特征gds 與p-tau之間的關系,樣本數(shù)據(jù)分布如圖1 所示,同樣,gds 與rem 特征聯(lián)系反映的樣本分布如圖2所示。
表1 特征變量說明Tab.1 Description of feature variables
圖1 基于腦脊液p-tau值與抑郁癥評分值的樣本分布Fig.1 Sample distribution based on ptau and gds
圖2 基于腦脊液p-tau值與睡眠行為障礙評分值的樣本分布Fig.2 Sample distribution based on ptau and rem
所有實驗均在一臺工作站(Intel Core i7-3337U CPU@1.80 GHz,內(nèi)存8 GB)上操作運行。首先,本文使用ActivePython-2.7.13.2716 軟件和Python 代碼來處理原始數(shù)據(jù)集,得到1 783 個數(shù)據(jù)樣本,并選擇了86 個有效特征;然后,應用PCA 方法將86 個特征分別降維到80、70、60、50、40、30、20 和10 共計8 個不同維度的維度空間;其次,選擇K-Means、K-Medoids、GMM、AP 和SC 共5 種不同聚類方法對8 個維度空間數(shù)據(jù)進行聚類,并采用CSPA、MCLA 和HGPA 共3 種聚類集成方法對前面5 種聚類算法進行聚類集成,同時采用ACC、NMI、F1 和ARI共4 個指標在Matlab R2014a 軟件平臺上評價聚類性能;最后,本研究比較了5 個聚類方法和3 個聚類集成的實驗結(jié)果。整體實驗設計流程如圖3所示。
圖3 實驗設計流程Fig.3 Flowchart of experimental design.
本節(jié)描述了不同維度的聚類實驗結(jié)果。
K-Means、K-Medoids、GMM、AP、SC 共5 種不同聚類方法及CSPA、MCLA 和HGPA 共3 種聚類集成在8 個不同維度即80、70、60、50、40、30、20和10的維度空間上的聚類結(jié)果如表2所示。從表2 可看出,5 個聚類和3 個聚類集成方法在不同維度上的ACC、NMI、F1 和ARI最佳性能值已被重點標注。不同維度上的評價指標最高值大小不同,不同維度范圍下對應評價性能最好的聚類算法也有所差異。當特征維度大于40 時,SC 的ACC和F1 值效果最好;當特征維度取70 時,ACC值達到0.614 1;當特征維度選擇小于40 時,GMM 的4 項評價指標都表現(xiàn)優(yōu)異;而當特征維度取30時,GMM 的4項指標性能最佳,其中ACC值達到0.891 2;在3 個聚類集成方法中,不論維度取多少,MCLA 的兩項指標ACC和F1 值均表現(xiàn)最好,當特征維度取80時,ACC值達到0.596 2。
8 個維度空間上GMM 與SC 聚類算法識別樣本數(shù)據(jù)準確度效果,比較結(jié)果如圖4 所示;3 個聚類集成方法在每個維度上的最高值表現(xiàn)如圖5所示。
圖4 GMM和SC在8個特征維度上的聚類性能比較Fig.4 Clustering performance comparison between GMM and SC on 8 feature dimensions
圖5 聚類集成方法在8個特征維度上的聚類性能比較Fig.5 Clustering performance comparison of clustering ensemble methods on 8 feature dimensions
從圖4 中分析得知,GMM 在維度取30 時,聚類準確度在所有維度上的5 個聚類算法中取值最大,明顯高于SC 在維度為70 時的準確度;從圖5 可看出,MCLA 聚類集成方法在3 個聚類集成中每個維度上的準確度值都是最大的。
本文進行了基于醫(yī)療文本數(shù)據(jù)聚類的帕金森病早期診斷預測研究。首先對PPMI 平臺提供的公開醫(yī)療文本數(shù)據(jù)集進行預處理后,選擇有效的86 個數(shù)據(jù)特征;為降低數(shù)據(jù)復雜度,結(jié)合PCA 方法分別對原始數(shù)據(jù)進行80、70、60、50、40、30、20和10 不同維度的降維;最后引用K-Means、K-Medoids、GMM、AP 和SC 聚類方法對8 個維度空間數(shù)據(jù)進行聚類,并使用了CSPA、MCLA 和HGPA 聚類集成方法。在ACC、NMI、F1和ARI聚類評估指標上的實驗結(jié)果顯示,得出醫(yī)療文本數(shù)據(jù)特征維度降維到30 時,GMM 聚類效果最佳的結(jié)論,準確度達到89.1%,能夠有效識別多巴胺異常帕金森病患者、健康體和無多巴胺缺失帕金森病患者。
表2 不同聚類方法在不同維度的實驗結(jié)果Tab.2 Experimental results of different clustering algorithms on different feature dimensions