尹 靜
(上海建橋?qū)W院信息技術(shù)學(xué)院,上海 201319)
基于帕金森的步態(tài)研究是當(dāng)前的熱點之一,但是很少有人從足底壓力入手來研究帕金森患者行走中的步態(tài)特點,更別說通過足底壓力信號的特征值來對健康人和帕金森患者進行分類。實質(zhì)上足底壓力信號包含的內(nèi)容非常豐富,且在某些參數(shù)上帕金森患者和健康人有著明顯的差異,將其用在帕金森病的診斷中將是未來醫(yī)學(xué)發(fā)展的趨勢之一。
如何尋找一個好的模式分類器是關(guān)鍵,它對模式識別的準確率有著重要的影響。傳統(tǒng)的一些分類算法雖然簡單,且易于實現(xiàn),但識別的準確率太低。支持向量機(SVM)是近年來在統(tǒng)計學(xué)理論基礎(chǔ)上發(fā)展起來的一種新的機器學(xué)習(xí)方法[1],具有理論相對完備、適應(yīng)性強、全局優(yōu)化、訓(xùn)練時間短、泛化性能好等優(yōu)點,已經(jīng)成為目前國內(nèi)外研究的熱點,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢。
本文重點研究基于支持向量機的帕金森患者足底壓力信號時空特征的分類器設(shè)計,以用來對帕金森患者和健康人進行分類。
通過健康人和帕金森患者的足底壓力信號的對比,可以發(fā)現(xiàn)壓力信號波形均呈明顯的雙峰一谷特點,但健康人的峰谷差要比帕金森患者的大;帕金森患者的谷底值對應(yīng)的時間更偏近于左峰值。以上特點將作為數(shù)據(jù)篩選的重要依據(jù)[2]。
本文采用的原始數(shù)據(jù)來源于現(xiàn)有的公共步態(tài)壓力信號數(shù)據(jù),即physiobank中的Gait in Parkinson’s Disease數(shù)據(jù)庫,選擇Ga組的原始數(shù)據(jù)作為研究數(shù)據(jù)。
原始數(shù)據(jù)篩選算法的具體過程如下:
a.搜尋波形的第一零點位置。鑒于原始數(shù)據(jù)的波形起始點未必就是步態(tài)周期的起始點,首先檢測第一個零點出現(xiàn)位置,記為zero1(i);此處的零點是指壓力值小于設(shè)定的less值,在一定程度上濾除因測量引起的誤差。
b.搜尋步態(tài)周期的起始位置。從第一零點位置開始,往后搜索第一個非零點位置,此點即為步態(tài)周期的起始位置,記為start(i)。
c.搜尋步態(tài)周期的結(jié)束位置。從start(i)開始,往后搜索第一個零點位置,此點即為步態(tài)周期的結(jié)束位置,記為over(i)。
d.令zero1(i+1)=over(i),重復(fù) a和 b兩步,直到原始數(shù)據(jù)末端。
e.檢測波形的最高峰值及其位置。利用max函數(shù)找到每個步態(tài)周期的最高點位置及其幅值。
f.搜索所有的非最高峰值的極大值點及其位置。利用極大值點大于相鄰點的特點,進行遍歷查找。
g.在f步所得幾個極大值中找最大的極值峰值及其位置。
h.確定左峰值和右峰值。比較最大值位置和g步所得的極值峰值的位置,位置小的為左峰值,位置大的為右峰值。
i.求谷底值及其位置。在兩峰值間,用min函數(shù)尋找最小值點及其幅值。
j.抽取噪聲小的有效數(shù)據(jù)。根據(jù)谷峰差及左峰值位置到谷底值位置的時間差篩選有效數(shù)據(jù)。
經(jīng)以上幾步,若f步搜索的極大值個數(shù)為零或j步的有效數(shù)據(jù)不存在,則本組數(shù)據(jù)不可用。
分別對帕金森患者和健康人的步態(tài)數(shù)據(jù)進行篩選,可得如圖1波形。
典型的壓力波形中包含了4個特征點,如圖2中已用平行于縱坐標軸的豎實線引出。
圖1 初步篩選后的壓力波形
圖2 一個步態(tài)周期的典型的壓力信號波形
利用得到的特征點序列計算每個人每個步態(tài)周期的如下特征參數(shù):起始點距左峰值點間的時間長度t1,起始點距左峰值點的壓力變化率tp1;左峰值點距谷底點間的時間長度t2,左峰值點距谷底點的壓力變化率tp2;谷底點距右峰值點間的時間長度t3,谷底點距右峰值點的壓力變化率tp3;右峰值點距結(jié)束點間的時間長度t4,右峰值點距結(jié)束點的壓力變化率tp4;t1,t2,t3,t4分別占總著地時間 tz=(t1+t2+t3+t4)的比例:p1,p2,p3,p4。
以上步驟計算出的是某一人的多個步態(tài)周期的特征值,為降低誤差,在使用時,取其均值作為一組最終特征值。
在算出一個步態(tài)周期的長度之后,再乘以步行速度就可以得到一個完整周期的步長。由于每個實驗對象的個體特征都不同,身高也存在差異,所以步長也會有所不同。為了有統(tǒng)一的比較標準,對步長進行歸一化處理,即用得到的一個周期的步長去除以身高。
因為要用到步行速度和身高,所以在原始數(shù)據(jù)篩選時,若這兩個值有缺省,則這組數(shù)據(jù)不可用,經(jīng)過篩選,選擇數(shù)據(jù)庫中Ga組的17組健康人有效步態(tài)數(shù)據(jù)和13組帕金森患者數(shù)據(jù)。
本文的目的是設(shè)計一個有效的分類器,從而能夠正確地區(qū)分健康人和帕金森患者。而分類的前提是能夠找出最具有分類信息的特征。通過上面的特征參數(shù)提取再進行T檢驗,可以選出步長L,t1,t4以及t1段的壓力變化率tp1共4個具有顯著差異的特征參量作為分類器的輸入。
支持向量機(SVM)是近年來在模式識別與機器學(xué)習(xí)領(lǐng)域中出現(xiàn)的新工具,它以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ),建立了一套完整的、規(guī)范的、基于統(tǒng)計的機器學(xué)習(xí)理論和方法,具有完美的數(shù)學(xué)形式、直觀的幾何解釋和良好的泛化能力;人為設(shè)定的參數(shù)少,便于使用;大大減少了算法設(shè)計的隨意性,在小樣本條件下存在其獨特的優(yōu)勢[3]。因此成為繼神經(jīng)網(wǎng)絡(luò)以來機器學(xué)習(xí)領(lǐng)域中研究的熱點[4]。
支持向量機的基本思想可以概括為:首先通過非線性變換將輸入空間變換到一個高空間,然后在這個新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)實現(xiàn)的[5]。
概括地說,支持向量機主要優(yōu)點的體現(xiàn)在以下幾個方面:
a.它是專門針對有限樣本情況的,其目標是得到現(xiàn)有信息下的最優(yōu)解,而不僅僅是樣本數(shù)趨于無窮大時的最優(yōu)值,能有效地避免過學(xué)習(xí)現(xiàn)象的產(chǎn)生。
b.算法最終轉(zhuǎn)化成為一個二次型尋優(yōu)問題,從理論上說,得到的將是全局最優(yōu)點,從而有效地解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題。
c.通過引入核技術(shù),將實際問題通過非線性變換轉(zhuǎn)換到高維的特征空間(featuresPace),在高維特征空間中構(gòu)造線性判別函數(shù)來實現(xiàn)輸入空間中的非線性判別函數(shù),同時也巧妙地解決了維數(shù)問題,其算法復(fù)雜度與樣本維數(shù)無關(guān)[6]。
本文使用林智仁教授開發(fā)的libsvm-3.1工具包,在MATLAB中調(diào)用時,需設(shè)置參數(shù)。
構(gòu)造訓(xùn)練樣本屬性時,設(shè)定的樣本屬性:對于健康人,設(shè)置為-1;對于帕金森病患者,設(shè)置為1。
關(guān)于SVM參數(shù)的優(yōu)化選取,國際上并沒有公認統(tǒng)一的最好方法,目前常用的方法就是讓c和g在一定的范圍內(nèi)取值,再把訓(xùn)練集作為原始數(shù)據(jù)集,利用K-CV方法得到在此組c和g下訓(xùn)練集驗證分類的準確率,最終取得訓(xùn)練集驗證分類準確率最高的那組c和g作為最佳的參數(shù)[7]。
建立向量機模型:
s取1,即選擇V-SVC;g取1.2058,c取0.5,是通過尋優(yōu)函數(shù)找到的較好的值;t取2,即選擇徑向基核函數(shù)。
統(tǒng)計識別率:
結(jié)果輸出:
識別率的大小用來評估最終訓(xùn)練得到的分類器的分類效果,由輸出結(jié)果可知,識別率可達到92.8571%,在一定誤差下,可以準確識別健康人和帕金森患者。
本文選取60%的有效數(shù)據(jù)作為訓(xùn)練樣本,40%的有效數(shù)據(jù)作為測試樣本,并用徑向基核函數(shù)的向量機模型進行訓(xùn)練和測試。測試結(jié)果表明:識別率較高,分類效果比較明顯。
從受試者行走時產(chǎn)生的足底壓力信號中提取出多個時空特征參數(shù),構(gòu)成一個特征空間,并利用SVM不斷進行訓(xùn)練,直至設(shè)計出一個穩(wěn)定、準確的分類器,可以自動區(qū)分出正常人和帕金森患者的步態(tài)信號,對于拓寬帕金森疾病的早期診斷手段具有應(yīng)用價值。
[1] 吳劍,李建設(shè).人體行走時步態(tài)的生物力學(xué)研究進展[J].中國運動醫(yī)學(xué),2002,21(3):305-307.
[2] 袁立偉,王健.帕金森患者的步態(tài)特征[J].中國康復(fù)醫(yī)學(xué),2010,25(6):586-588.
[3] 豐明聰,葛洪偉.基于SVM的步態(tài)識別研究[J].計算機應(yīng)用,2008(8):26-30.
[4] 孫嘉利,土桂清.步態(tài)分析[J].中國療養(yǎng)醫(yī)學(xué),2010(5):427-430.
[5] 王平平,王俊.基于DCCA和MF_DCCA的步態(tài)信號的分析與研究[D].南京:南京郵電大學(xué),2012.
[6] 史峰,王小川,郁磊,等.MATLAB神經(jīng)網(wǎng)絡(luò)30個案例分析[M].北京:北京航空航天大學(xué)出版社,2010.
[7] 陳達,曹先彬.基于進化SVM的行人檢測分類技術(shù)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2007.