于美亞
(浙江醫(yī)藥高等??茖W(xué)校 信息中心,浙江 寧波 315100)
心理障礙將出現(xiàn)抑郁、自傷、他傷等不良事件,目前,對社會各個領(lǐng)域人員的心理障礙預(yù)測十分關(guān)鍵[1]。如孕婦心理障礙、重大疾病患者的心理障礙、學(xué)生心理障礙等情況都是相關(guān)領(lǐng)域研究人士關(guān)注的核心問題[2]。文獻[3]、文獻[4]分別構(gòu)建基于文本情感特征的心理評估模型、基于速度與準確率權(quán)衡的心理測量學(xué)模型,2個模型雖然對心理狀態(tài)預(yù)測這一問題存在可利用性,但受到預(yù)測樣本數(shù)量約束,僅對小樣本存在應(yīng)用價值。
歷史數(shù)據(jù)驅(qū)動是通過某種數(shù)據(jù)處理方法獲取歷史數(shù)據(jù)中有價值數(shù)據(jù),合理應(yīng)用歷史數(shù)據(jù)后實施融合與提煉,建立合理的決策模型。本文應(yīng)用歷史數(shù)據(jù)驅(qū)動技術(shù),構(gòu)建基于歷史數(shù)據(jù)驅(qū)動的心理障礙預(yù)測模型,并引入隱馬爾科夫模型,從有價值數(shù)據(jù)提取、心理障礙預(yù)測兩方面雙管齊下,實現(xiàn)心理障礙預(yù)測。
1.1.1 整體框架
將被預(yù)測者的心理量表設(shè)成n×m的矩陣H,心理預(yù)測數(shù)據(jù)樣本j的屬性所構(gòu)建向量是Hj。心理障礙預(yù)測時,醫(yī)生會通過各式各樣的心理測試量表協(xié)助預(yù)測。本文使用FOAD(Fuzzy-Option based Attribute Discriminant method,基于模糊選擇的屬性判別方法)方法,在大量心理測試的歷史數(shù)據(jù)協(xié)助下,對心理狀態(tài)屬性實施排列,獲取具有核心屬性的有價值數(shù)據(jù),用于后續(xù)預(yù)測[5]。FOAD方法的操作流程如下。
(1)在心理預(yù)測數(shù)據(jù)里獲取心理測試數(shù)據(jù)集并實施清洗,數(shù)據(jù)集里各個參與者樣本存在大量身體癥狀屬性。
(2)約簡多余測試選項,留下核心選項,獲取具有核心屬性的有價值數(shù)據(jù)。
1.1.2 選擇保留選項
量表里某信息屬性的程度通過量表選項決定。選擇某些預(yù)測選項,不可以全部按照選項的樣本數(shù)目來決定,需要分析選項里某屬性程度的意義。所以需要分別留下一個程度顯著、程度不顯著的選項,剩下需保留的選項按照選項間距來決定[6-7]。選項間距是兩種選項具備的程度值之差的絕對值。選項的詳細選擇過程如下。
(3)把maxyL、maxyR導(dǎo)入選項集合P′里。
(4)在剩下選項里檢索剩下r-2個需要保留的選項。
(5)處理不在選項集合P′中選項。
(6)運算此選項和P′里全部選項的最小距離e(i)。
(7)得到e(i)里最大元素導(dǎo)進選項集合P′中,讓選項集合P′中預(yù)測元素間距為最大。
在選擇保留選項時,需要分析選項的意義與選項在整個數(shù)據(jù)集里的實際分布情況,所以留下的選項集必須具備主觀性與客觀性。
綜上所述,選擇保留選項的示意圖如圖1所示。
圖1 選擇保留選項的示意圖
1.1.3 模糊選項約簡
(1)
約簡步驟如下。
(1)設(shè)置P″為P′的補集,P″中具有需要刪除的選項。
(2)將某心理預(yù)測數(shù)據(jù)樣本里必須刪除的選項一一標記,標記內(nèi)容是此選項相應(yīng)的屬性值是否修改成保留選項。
(3)判斷各個保留的選項對此刪除選項的影響力。
(4)把影響力最大的選項設(shè)成pmax。
(5)運算全部保留選項的影響度之和。
(6)標記刪除項相應(yīng)屬性修改成pmax之外的選項。
(7)為了實現(xiàn)全部屬性值均被處理,把刪除選項相應(yīng)的屬性設(shè)成pmax。
(8)修改全部標記的需刪除選項,實現(xiàn)核心屬性提取。
1.2基于隱馬爾科夫模型的心理障礙預(yù)測模型
1.2.1 初始模型建立
基于隱馬爾科夫模型的心理障礙預(yù)測模型建立時,需要設(shè)置隱馬爾科夫模型的核心預(yù)測屬性。詳情如下。
(1)心理專家預(yù)測人們心理障礙時,預(yù)測結(jié)果分別是心理健康B1、心理亞健康B2、心理障礙BM。把此類預(yù)測結(jié)果設(shè)為隱馬爾科夫模型的隱狀態(tài),隱狀態(tài)集合描述為B={B1,B2,…,BM},心理狀態(tài)類型數(shù)量是M。
(2)將1.1小節(jié)獲取的心理預(yù)測數(shù)據(jù)中有價值數(shù)據(jù)設(shè)成心理障礙預(yù)測的核心要素,心理障礙預(yù)測的核心要素集描述成C={C1,C2,…,Cm},要素數(shù)量是m。以核心要素為基礎(chǔ)建立核心要素組合S為式(2)。
S=C1,C2,…,Cm
(2)
其中:
(3)
式中,i=1,2,…,m。S可看作隱馬爾科夫模型的可觀察狀態(tài)。設(shè)定可觀察序列集合是Q={S1,S2,…,Sm}。
(3)心理障礙初始中狀態(tài)轉(zhuǎn)移概率矩陣為式(4)。
(4)
(4)分析心理健康、心理亞健康、心理障礙三類狀態(tài)中每個評測因素的組合S,得到心理障礙狀態(tài)的概率O。
(5)設(shè)置心理障礙初始狀態(tài)概率分布是δ,構(gòu)建隱馬爾科夫初始模型θ=(δ,D,O)。
1.2.2 模型訓(xùn)練
隱馬爾科夫初始模型θ=(δ,D,O)使用Baum-Welch算法優(yōu)化后為θ′=(δ′,D′,O′)。模型參數(shù)的訓(xùn)練優(yōu)化流程如下。
(1)變量導(dǎo)入與融合為式(5)。
μt(i,j)=W(wt=Bi,wt+1=Bj|G,δ)=
(5)
式中,μt(i,j)表示在t時間段心理狀態(tài)Bi變成Bj的概率;φt(i)、φt(j)分別是心理狀態(tài)的前向變量與后向變量;t+1時間段中,心理狀態(tài)預(yù)測序列是Gt+1;wt、wt+1是t時刻、t+1時刻的心理狀態(tài);ξij、ζj是心理健康狀態(tài)的觀察概率矩陣、狀態(tài)轉(zhuǎn)移概率矩陣。如式(6)。
(6)
式中,ρt(i,j)是隱馬爾科夫模型θ和心理障礙觀察序列W里,t時間段心理狀態(tài)是Bi的概率。
融合成式(7)。
(7)
式中,T代表時間。
(2)心理健康觀察值概率分布的優(yōu)化如式(8)。
(8)
式中,Gt是t時間段心理狀態(tài)觀察序列。
(3)心理狀態(tài)概率分布的優(yōu)化方法如式(9)。
(9)
1.2.3 心理障礙預(yù)測
心理障礙預(yù)測步驟如下。
(1)t=1時,心理狀態(tài)局部概率o1(j)為式(10)。
(10)
(2)t>1時,心理狀態(tài)局部概率為式(11)。
oi+1(j)=maxi{oj(k)ot-1(i)ξij}
(11)
根據(jù)心理狀態(tài)局部概率o1(j)便可實現(xiàn)心理障礙預(yù)測。
在Eclipse平臺中,使用Java語言構(gòu)建本文模型。在測試本文模型應(yīng)用效果時,測試數(shù)據(jù)是某大學(xué)的大學(xué)生心理健康教育和咨詢部門兩年內(nèi)學(xué)生的心理狀態(tài)歷史記錄,隨機提取5 000條。按照本文模型的設(shè)置,使用隱狀態(tài)集合與可觀察序列集合對心理狀態(tài)歷史數(shù)據(jù)實施預(yù)測,獲取預(yù)測符號相應(yīng)隱狀態(tài)的記錄。將預(yù)處理后心理狀態(tài)歷史數(shù)據(jù)細分為訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù),依次用在模型訓(xùn)練與預(yù)測環(huán)節(jié)中。
使用本文模型預(yù)測該校大學(xué)生心理障礙時,所提取有價值數(shù)據(jù)主要分為父母教養(yǎng)模式、重大變故、競爭就業(yè)難、教工素質(zhì)和人際關(guān)系5種。此5種數(shù)據(jù)可作為心理障礙預(yù)測的核心要素。精確率能夠判斷模型對心理狀態(tài)預(yù)測時,核心要素提取結(jié)果的精確度τ1的計算方法為式(12)。
(12)
召回率屬于樣本集里被成功提取的信息比率,召回率τ2計算方法為式(13)。
(13)
其中,hq、gq分別是真陽值、假陽值;gm是真陰值。
在使用本文模型預(yù)測該校大學(xué)生心理障礙時,對心理障礙預(yù)測所用核心要素提取的精確率、召回率如圖2所示。由圖2可知,使用本文模型預(yù)測該校大學(xué)生心理障礙時,對父母教養(yǎng)模式、重大變故、競爭就業(yè)難、教工素質(zhì)和人際關(guān)系5種核心要素提取效果較好。分析圖2(a)可知,對5種核心要素的提取精確率高達0.98,由圖2(b)可知,召回率的最大值為0.98,均接近于1,表示本文模型對該校大學(xué)生心理狀態(tài)預(yù)測時,核心要素提取結(jié)果的精確度、召回率均滿足應(yīng)用需求。
(a)精確率測試結(jié)果
提取核心預(yù)測要素后,該校大學(xué)生心理障礙的實際情況如圖3所示。
測試本文模型在預(yù)測該校大學(xué)生心理障礙時,對該校大學(xué)生心理障礙的預(yù)測結(jié)果同圖3實際結(jié)果間的偏差情況,測試本文方法的預(yù)測性能,MSE、MAE的測試結(jié)果如圖4所示。由圖4可知,本文模型對該校大學(xué)生心理健康、心理亞健康和心理障礙三類人群的預(yù)測性能顯著。分析圖4(a)可知,對三類人群預(yù)測的均方誤差最高為0.019,由圖4(b)可知,平均絕對誤差小于0.02。由此驗證,本文模型可準確預(yù)測該校大學(xué)生心理障礙。
圖3 實際情況
(a)均方誤差
選擇以文獻[3]和文獻[4]的模型作為對比模型,測試3種模型在不同樣本數(shù)量下,大學(xué)生心理障礙預(yù)測的預(yù)測精度如表1所示。由表1可知,3種模型對比之下,本文模型預(yù)測結(jié)果和實際心理障礙人數(shù)具有1人之差,基于文本情感特征的心理評估模型、基于速度與準確率權(quán)衡的心理測量學(xué)模型預(yù)測結(jié)果和實際心理障礙人數(shù)存在多個偏差,預(yù)測偏差高于本文模型。對比之下,本文模型應(yīng)用價值最高。
表1 3種模型預(yù)測性能對比結(jié)果
為了處理心理障礙預(yù)測問題,通過參與者心理狀態(tài)預(yù)測的歷史數(shù)據(jù),構(gòu)建基于歷史驅(qū)動數(shù)據(jù)的心理障礙預(yù)測模型。相對于其他模型,該模型能夠在參與者心理狀態(tài)預(yù)測的歷史數(shù)據(jù)中提取有價值數(shù)據(jù),去除冗余信息數(shù)據(jù),這對本文模型的預(yù)測性能存在積極作用。研究結(jié)果表明,本文模型預(yù)測某校大學(xué)生心理障礙時,對父母教養(yǎng)模式、重大變故、競爭就業(yè)難、教工素質(zhì)和人際關(guān)系5種核心要素提取效果較好;對心理健康、心理亞健康和心理障礙三類人群的預(yù)測性能顯著;與基于文本情感特征的心理評估模型、基于速度與準確率權(quán)衡的心理測量學(xué)模型相比,本文模型預(yù)測精度最高。