• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多特征融合的抑郁傾向識別方法

      2019-08-01 01:35:23周瑩王紅任衍具胡曉紅
      計算機應用 2019年1期

      周瑩 王紅 任衍具 胡曉紅

      摘 要:近些年,抑郁傾向趨于年輕化和常態(tài)化,雖然相關(guān)研究已取得一定成果,但仍缺乏更為客觀、準確的抑郁傾向識別方法,也缺乏從不同角度研究抑郁傾向,因此,提出將心理健康自查表和眼動追蹤結(jié)合作為識別抑郁傾向的方法,并且創(chuàng)新地從多角度對抑郁傾向進行研究,即將眼動特征、記憶力特征、認知風格特征以及網(wǎng)絡行為特征多種類型特征融合。為了處理復雜的特征關(guān)系,提出掃描過程來處理復雜的特征關(guān)系,并將掃描過程與堆疊法結(jié)合提出抑郁傾向識別模型——掃描堆疊模型。為了全面客觀評價掃描堆疊模型的性能,對掃描過程和堆疊法的獨立貢獻進行了實驗。實驗結(jié)果顯示掃描過程獨立貢獻為0.03,堆疊法獨立貢獻為0.02,并且掃描堆疊模型與多種模型從參數(shù)R平方、均方誤差、平均絕對誤差進行比較,結(jié)果為掃描堆疊模型的預測效果較好。

      關(guān)鍵詞:眼動追蹤;抑郁傾向;多特征融合;掃描堆疊模型

      中圖分類號: TP181

      文獻標志碼:A

      Abstract: In recent years, the tendency of depression tends to occur at a younger age and affects more people. Although research on the topic has achieved some results, it still lacks a more objective and accurate method for identifying depressive tendencies, and research on depressive tendencies from multiple perspectives is lacking. Therefore, the combination of mental health self-check table and eye-tracking was proposed as a method for identifying depressive tendencies and was studied from multiple perspectives. The innovative features of eye movement, memory, cognitive style, and network behaviors were incorporated. In order to address complex feature relationship and extract more useful information, a scanning process with combining a stacking method was proposed to form a proposed recognition model for depressive tendencies called scanning stacking model. To comprehensively and objectively evaluate the performance of scanning and stacking model, the independent contributions of both scanning process and stacking method were evaluated in the experiment. The experimental results show that the independent contribution of scanning process is 0.03, and the independent contribution of stacking method is 0.02. In addition, the scanning stacking model was compared with several models from parameter R-squared, Mean Square Error (MSE) and average absolute error, and the results show that the scanning stacking model has better prediction effect.

      Key words: eye-tracking; depressive tendency; multiple feature fusion; scanning stacking model

      0 引言

      當今社會人們的壓力越來越大,過大的壓力容易使人產(chǎn)生抑郁傾向,嚴重影響人們的學習、工作和生活。目前我國抑郁傾向的現(xiàn)狀呈現(xiàn)“三高三低”,即高發(fā)病率、高復發(fā)率、高自殺率,低知曉率、低就診率、低治療率。抑郁傾向的主要表現(xiàn)為長時間情緒低落、記憶力下降、注意力下降、食欲以及睡眠等發(fā)生變化,嚴重表現(xiàn)為輕生。由于多數(shù)人對抑郁傾向了解較少以及考慮個人隱私等原因,當產(chǎn)生抑郁傾向時,人們一般很少主動尋求專業(yè)幫助,當必須尋求幫助時,問題往往已經(jīng)相當嚴重了。目前,抑郁傾向主要識別的方法為心理健康自查表結(jié)合心理專家問診,但是這種方法很容易受到心理專家等主觀因素的影響,缺乏客觀性和科學性。由于抑郁傾向?qū)ψ陨砗蜕鐣斐蓢乐氐挠绊?,同時現(xiàn)有抑郁傾向的識別方法存在一定問題,因此亟需一種能夠在保證個人隱私前提下客觀、準確識別抑郁傾向的方法。

      為了提高抑郁傾向識別方法的客觀性和準確性,本文從多角度對抑郁傾向進行深入研究。隨著眼動追蹤技術(shù)的不斷發(fā)展,越來越多的研究者將眼動追蹤技術(shù)應用于抑郁傾向的研究。眼動追蹤是指利用眼動設備記錄眼球軌跡,從中提取眼動信息進而分析人的心理健康等。利用眼動追蹤分析人的心理健康既能降低主觀因素的影響,又能夠真實、準確地反映個人的心理健康情況。隨著抑郁傾向研究的不斷深入,人們發(fā)現(xiàn)抑郁傾向與認知風格之間存在相關(guān)性,認知風格是指個體在認知過程中所表現(xiàn)出來的習慣化的行為模式,因此將認知風格作為研究抑郁傾向角度之一。抑郁傾向主要表現(xiàn)之一為記憶力下降,將記憶力作為抑郁傾向研究的另一角度。隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡與人們的生活緊密結(jié)合,網(wǎng)絡行為作為個人行為的重要部分,可以用來推測個人的心理健康等信息,因此可以從網(wǎng)絡行為角度研究抑郁傾向。從多角度研究抑郁傾向,會存在復雜的數(shù)據(jù)關(guān)系問題,深度神經(jīng)網(wǎng)絡在處理數(shù)據(jù)中表現(xiàn)出強大的性能,因此可以借鑒深度神經(jīng)網(wǎng)絡處理數(shù)據(jù)的原理來處理復雜的數(shù)據(jù)關(guān)系。

      抑郁傾向識別模型通常為單一機器學習模型,如支持向量機(Support Vector Machine, SVM)、BP神經(jīng)網(wǎng)絡(Back Propagation Neural Network, BPNN)等。分析SVM和BPNN發(fā)現(xiàn)兩個模型互補,SVM優(yōu)點之一是能夠避免陷入局部極值,缺點為對缺失數(shù)據(jù)敏感等;BPNN的優(yōu)點之一是對缺失數(shù)據(jù)不敏感,缺點為易陷入局部極值等。若將不同互補模型組合構(gòu)建識別抑郁傾向的模型,有利于提高抑郁傾向識別方法的準確性和科學性。

      本文從多角度對抑郁傾向進行研究,主要工作有以下四個方面:

      1)本文將心理健康自查表和眼動追蹤結(jié)合,提高抑郁傾向識別方法的客觀性和準確性;

      2)本文從多方面研究抑郁傾向,創(chuàng)新地將眼動特征、認知風格特征、記憶力特征以及網(wǎng)絡行為特征融合,進一步提高抑郁傾向識別方法客觀性和準確性;

      3)為了處理復雜的特征關(guān)系,從中提取有用信息,本文提出用掃描過程處理特征關(guān)系;

      4)本文基于堆疊法將多種模型組合,并將掃描過程與堆疊法結(jié)合提出了掃描堆疊模型。掃描堆疊模型為集成模型,性能強大。為了客觀、全面評價掃描堆疊模型的性能,本文既分析掃描過程和堆疊法獨立貢獻,又將掃描堆疊模型與多種分類模型進行了分析比較。

      1 相關(guān)工作

      目前,識別抑郁傾向的主要方法為心理專家問診結(jié)合心理健康自查表,常用的心理健康自查表有《伯恩斯抑郁狀況自查表》[1]、《狀況自評表SCL 90》[2]、《SDS抑郁自評量表》[3]等。近年來,越來越多的研究者將眼動追蹤技術(shù)應用于抑郁傾向的研究,Joorman等[4]研究發(fā)現(xiàn)抑郁傾向個體對消極刺激表現(xiàn)出明顯的注意偏向,注意偏向是指人對特定刺激和選擇性注意,而正常個體對積極刺激表現(xiàn)出明顯的注意偏向;Heller等[5]發(fā)現(xiàn),抑郁傾向的個體在眼動實驗中會花更多的時間瀏覽消極情緒的圖片;Fritzsch等[6]利用情緒面孔的Stroop范式對抑郁傾向個體和正常個體進行對比發(fā)現(xiàn),抑郁傾向個體易受到悲傷表情的干擾,并且反應時間明顯較長。為了提高抑郁傾向識別方法的客觀性和準確性,本文將心理健康自查表與眼動追蹤相結(jié)合。

      為了全面研究抑郁傾向,研究者從不同角度對抑郁傾向進行研究。任力杰等[7]研究發(fā)現(xiàn)抑郁傾向個體的白質(zhì)區(qū)域神經(jīng)纖維異常,即抑郁傾向損害記憶神經(jīng),造成記憶力下降;Kaviani等[8]研究發(fā)現(xiàn)抑郁傾向的個體記憶力下降,反應速度變慢。部分研究者從認知風格角度研究抑郁傾向,Major等[9]在研究中提出不同認知風格的人面對同一壓力會采取不同的應對方式;Eysenck[10]在研究中證實,抑郁傾向與認知風格之間存在相關(guān)性。部分研究者從網(wǎng)絡行為角度研究抑郁傾向,Brunswik[11]提出了“透鏡模型”理論,即通過個人的行為可以推測個人的心理健康等信息;Li等[12]使用社交平臺微博來預測用戶的個性;胡志海[13]發(fā)現(xiàn)網(wǎng)絡行為與抑郁傾向之間顯著相關(guān);Moreno等[14]在研究中提出抑郁傾向個體更傾向在社交平臺發(fā)布消極照片;Katikalapudi等[15]發(fā)現(xiàn)抑郁傾向的個體社交活動減少,社交圈縮小。

      隨著數(shù)據(jù)趨于高維化和多樣化,數(shù)據(jù)的處理過程越來越重要,深度神經(jīng)網(wǎng)絡在處理特征等方面性能強大[16],是處理復雜數(shù)據(jù)強有力的工具。神經(jīng)網(wǎng)絡最初由Pitts[17]提出,其模擬人腦的運作方式對復雜信息進行存儲與處理,可以并行分布處理數(shù)據(jù),從數(shù)據(jù)中挖掘更多有用信息;Zhou等[18]提出包發(fā)生器,其處理特征過程與深度神經(jīng)網(wǎng)絡類似。K近鄰(K-Nearest Neighbors, KNN)[19]、SVM[20]等模型常用于抑郁傾向的識別,不同模型均有各自的優(yōu)點和缺點,Granger等[21]在1992年提出組合模型的方法,即通過組合多種互補模型,提升整體模型的性能;常用的組合模型的方法有堆疊法(Stacking)[22]、套袋法(Bagging)[23]等;West等[24]研究發(fā)現(xiàn),組合模型要顯著優(yōu)于組合模型中的最佳的模型。

      以上研究者雖然從不同角度研究抑郁傾向,但沒有將不同角度結(jié)合。本文為了提高抑郁傾向識別方法的客觀性和準確性,將心理健康自查表和眼動追蹤結(jié)合,將不同角度結(jié)合研究抑郁傾向;同時,在處理特征關(guān)系方面,受到深度神經(jīng)網(wǎng)絡的啟發(fā),提出用掃描過程處理特征關(guān)系,并將掃描過程和堆疊法結(jié)合構(gòu)建抑郁傾向識別模型。抑郁傾向識別模型可以幫助心理專家分析判斷,從而降低誤診的概率,具有重要的現(xiàn)實意義。

      2 實驗設計

      為了保證實驗設計的科學性,本實驗在專業(yè)的心理學老師指導下完成。本章從實驗對象、數(shù)據(jù)采集兩方面描述實驗設計。數(shù)據(jù)采集由調(diào)查問卷、眼動實驗、網(wǎng)絡行為三部分組成。

      2.1 實驗對象

      本實驗共招募100名在社交平臺騰訊QQ上活躍的不同學校不同專業(yè)的大學生,年齡為20.05±1.08歲,男女比例為1∶1。所有測試者裸眼視力或矯正視力均正常,無眼部疾病,并在實驗前都簽署了書面知情同意書,實驗結(jié)束給予一定的獎勵。為了保證數(shù)據(jù)均衡,本文對測試者進行了篩選,測試者需要回答是否有抑郁傾向史等問題,其中41位測試者有抑郁傾向史。

      2.2 數(shù)據(jù)采集

      數(shù)據(jù)采集由調(diào)查問卷、眼動實驗、網(wǎng)絡行為三部分組成。調(diào)查問卷為伯恩斯抑郁狀況自查表(Burns Depression Checklist, BDC)、修訂的韋氏記憶量表、鑲嵌圖形測驗;眼動實驗從實驗素材、實驗設備、實驗過程四方面進行描述;網(wǎng)絡行為主要從社交互動性和公開發(fā)布的圖片兩方面研究。

      2.2.1 調(diào)查問卷

      1)伯恩斯抑郁狀況自查表。

      伯恩斯抑郁狀況自查表從個人感情、團體關(guān)系、生理癥狀、自殺傾向四個維度對情緒進行測量。伯恩斯抑郁狀況自查表使用之前需要檢驗信度,信度即同一表對同一測試者重復測量所得結(jié)果一致的程度,克隆巴赫系數(shù)法是目前研究中最常用的檢驗信度的方法,并且系數(shù)愈大,信度愈高。在基礎研究中,克隆巴赫系數(shù)至少要達到0.8,計算公式如下所示:

      其中:a為克隆巴赫系數(shù),n為測試者的人數(shù),k為表中題目數(shù),Sin2為每題各測試者得分的方差,Stk2這兩個變量對應上面的哪個變量名?請明確為所有測試者所得總分的方差。經(jīng)過計算,克隆巴赫系數(shù)為0.93,說明伯恩斯抑郁狀況自查表屬于高信度。

      伯恩斯抑郁狀況自查表共25題,每題5個評分等級:0分表示完全沒有;1分表示有一點;2分表示偶爾;3分表示經(jīng)常;4分表示極其頻繁,每位測試者根據(jù)過去兩周以上的感受進行評分。通過伯恩斯抑郁狀況自查表測量,將測試者分為正常組和抑郁傾向組兩個組,L為組標簽(即類標簽),若總評分大于10則為抑郁傾向組(L=1),說明測試者近兩周存在抑郁傾向,可能需要尋求專業(yè)幫助;若總評分小于等于10則為正常組(L=0),說明測試者近兩周情緒正常。

      2)修訂的韋氏記憶量表(Revised Wechsler Memory Scale, RWMS)。

      韋氏記憶量表從長時記憶、短時記憶、瞬時記憶多方面測驗記憶力,龔耀先等[26]對韋氏記憶量表進行修訂,增加了聽覺、視覺、觸覺等方面的內(nèi)容。修訂的韋氏記憶量表測驗內(nèi)容為:個人經(jīng)歷的記憶測驗、時間空間的定向記憶測驗、數(shù)字順序的記憶測驗、視覺再認、記圖、視覺再生、聯(lián)想學習、觸摸測驗、理解或邏輯記憶測驗、順背和倒背數(shù)字。

      每位測試者記憶力(memory)記分方法:首先將每項測驗的原始分按照式(4)換算成標準分(standard_score),然后將各分測驗的標準分相加即為記憶力得分。測試者年齡為20.05±1.08,年齡相近,所以不考慮年齡因素的影響:

      standard_score=10+3(x-)/SD(4)

      其中,每項測驗的均值為10,標準差為3,對于某項測驗來說,x表示測試者所得原始分,表示所有測試者原始分的均值,SD表示所有測試者原始分的標準差。

      3)鑲嵌圖形測驗(Embedded Figure Test, EFT)。

      鑲嵌圖形測驗是一種認知方式測驗,由美國心理學家Witkin等[27]設計,要求測試者在一系列復雜圖形中找出指定的簡單圖形,如圖1所示。Witkin等[27]經(jīng)過研究發(fā)現(xiàn),有些人很容易從復雜圖形中找出指定的簡單圖形,而有些人很難從中找出指定的簡單圖形,他將前者稱為場獨立性(Field Independence)的人,后者稱為場依存性(Field Dependence)的人。鑲嵌圖形測驗共20題,每題記1分,認知風格公式為:

      其中、sd分別表示均值和標準差。成年男性的、sd的值分別為9.86和4.45;成年女性的、sd值分別為9.69和4.89。若T值大于50,表示測試者的認知風格更傾向于場獨立性;反之,若T值小于50,表示測試者的認知風格更傾向于場依存性。

      2.2.2 眼動實驗

      眼動實驗從實驗素材、實驗設備、實驗過程方面進行描述。

      1)實驗素材。

      眼動實驗所用刺激材料來自The Japanese Female Facial Expression database(JAFFE),該數(shù)據(jù)庫中的情緒面孔識別率高,圖片大小、亮度、分辨率均相同,從該數(shù)據(jù)庫中抽取開心、悲傷、平靜情緒面孔圖片各10張。

      2)實驗設備。

      本實驗采用SMI RED眼動儀(Version 2.4),采樣頻率為120Hz,由德國普升科技公司開發(fā),安裝的軟件IViewX、Experiment Center和BeGaze用于記錄和分析眼動軌跡。

      3)實驗過程。

      眼動實驗過程中,眼動儀實時追蹤測試者的眼球運動情況,自動記錄測試者的眼動數(shù)據(jù)。實驗素材呈現(xiàn)于17寸的顯示屏上,測試者與屏幕距離大約50cm,實驗過程如下。

      1)檢測眼動水平,測試者雙眼追蹤屏幕上的小球運動軌跡,當軌跡均在規(guī)定范圍內(nèi),則開始實驗;2)測試者熟悉實驗流程,此過程不記錄眼動軌跡;3)測試者完成任務1,圖2(a)為任務1實驗素材圖之一。瀏覽9張圖,每張圖由3種情緒面孔組成,3種情緒面孔分別為開心、悲傷、平靜,并且3種情緒面孔以三角形分布。每張圖自動播放10s,圖之間空白1s;4)接下來測試者完成任務2,圖2(b)為任務2實驗素材圖之一,實驗過程和任務1相同,只有情緒面孔的分布方式不同,任務2的情緒面孔分布是以左右分布。

      2.2.3 網(wǎng)絡行為

      本文與測試者簽訂保密協(xié)議,保證不會將數(shù)據(jù)以任何形式公布,他們向我們分享社交平臺騰訊QQ數(shù)據(jù)。因為測試者是根據(jù)兩周以上的感受填寫了伯恩斯抑郁狀況自查表,所以將兩周作為研究網(wǎng)絡行為的時間長度,QQ數(shù)據(jù)主要包括照片、動態(tài)以及動態(tài)評論等。

      社交平臺用于分享個人的社交生活,因此能從社交平臺發(fā)布的照片中捕捉個人社交信息。研究表明,抑郁傾向的個人更傾向在社交平臺發(fā)布一些消極照片,因此將照片所反映的情緒作為研究網(wǎng)絡行為的內(nèi)容之一,為了客觀評價照片所反映的情緒,本文征集了20位志愿者對照片進行評估,志愿者未被告知照片來源等信息。志愿者只需對照片所反映的情感(emotion_photo)評分:1-3分表示消極情緒的照片,4-6分表示中性情緒的照片,7-9分表示積極情緒的照片,每張照片至少由三位志愿者進行評分,并將評分取均值。

      社交互動性是衡量抑郁傾向的重要指標之一,分析QQ數(shù)據(jù)發(fā)現(xiàn),動態(tài)數(shù)(dynamic_count)和動態(tài)評論數(shù)(comment_count)能夠很好地衡量社交互動性,因此它們可以作為衡量社交活動性的指標;同時,本文使用人臉檢測算法分析照片,并以照片中人臉數(shù)量(face_count)作為衡量社交活動性的另一個指標。為了保護測試者的信息,圖3為人臉檢測的示例圖片。

      3 數(shù)據(jù)處理分析

      本章主要內(nèi)容為情緒面孔分布定量分析、數(shù)據(jù)圖分析、數(shù)據(jù)集描述及數(shù)據(jù)預處理四方面。

      3.1 情緒面孔分布定量分析

      在處理數(shù)據(jù)之前,對任務1和任務2的注意效果進行分析,即對情緒面孔分布進行定量分析,首先將任務1和任務2根據(jù)不同情緒面孔劃分成興趣區(qū)(Area Of Interest, AOI)。在眼動研究中,常用的注意效果統(tǒng)計指標為AOI注視點個數(shù)、注視時長等,注視點為眼睛持續(xù)注視一個視覺度之內(nèi)的區(qū)域超過100ms。為了客觀、全面地分析,本文選擇評價指標時從注視點數(shù)和時長兩方面考慮,選擇AOI平均注視點數(shù)、AOI平均注視時長兩個指標來衡量注意效果,如表1所示,表中n為測試者人數(shù)。

      其中,n為測試者的人數(shù)。分析表1發(fā)現(xiàn),任務1的AOI平均注視點數(shù)的值大于任務2,并且任務1和任務2的每張圖播放時長相同,任務1的AOI平均注視時長的值大于任務2,綜合兩項指標說明測試者更專注于任務1,因此以下眼動數(shù)據(jù)分析均采用任務1得到的數(shù)據(jù)。

      3.2 數(shù)據(jù)圖分析

      眼動分析軟件BeGaze可生成可視化的數(shù)據(jù)圖,如Scan Path、Heat、KPI等數(shù)據(jù)圖。對可視化數(shù)據(jù)圖進行初步分析,為后續(xù)分析奠定基礎。圖4(a)為任務1的Scan Path數(shù)據(jù)圖,圖4(b)為Heat數(shù)據(jù)圖,圖4(c)為KPI數(shù)據(jù)圖,三種數(shù)據(jù)圖的左圖為抑郁傾向測試者示例圖,右圖為正常測試者示例圖。

      圖4 任務1的Scan Path、Heat和KPI數(shù)據(jù)圖對于正文中的“左圖為抑郁傾向測試者示例圖,右圖為正常測試者示例圖”表述,子圖這樣表示,符合表達嗎?請明確。若不符合表達,是否可將正文中“三種數(shù)據(jù)圖的左圖為抑郁傾向測試者示例圖,右圖為正常測試者示例圖”這句刪除?這是依據(jù)圖的規(guī)范而規(guī)避的

      分析Scan Path、Heat數(shù)據(jù)圖,抑郁傾向測試者對悲傷情緒面孔存在注意偏向,對平靜和開心情緒面孔不存在注意偏向;正常測試者則對開心情緒面孔存在注意偏向,對悲傷和平靜情緒面孔不存在注意偏向。

      KPI數(shù)據(jù)圖中包含dwell time(持續(xù)時間)、average fixation(平均注視時長)等重要指標,將KPI數(shù)據(jù)圖中的測試者注視每張圖中不同情緒面孔的時長與注視圖片總時長的比值作為第二部分眼動特征。本文利用第二部分眼動特征進一步分析注意偏向,采用2(組別:抑郁傾向類和正常類)×2(情緒面孔:開心和悲傷)的設計,結(jié)果如表2所示。

      其中:L為類標簽,1表示抑郁傾向類,0表示正常類;Mean表示均值,SD(Standard)表示標準差,MSE(Mean Square Error)表示均值的標準誤差。對于悲傷情緒面孔,從Mean、SD、MSE分析發(fā)現(xiàn),抑郁傾向類的值均比正常類的值大,說明抑郁傾向的測試者對悲傷情緒面孔存在注意偏向,同時對上述分析F檢驗結(jié)果F值為14.544,p-value為0.004小于顯著性水平0.05,t檢驗的結(jié)果p-value為0.008小于顯著性水平為0.05,表示對悲傷情緒面孔的分析具有統(tǒng)計意義;同理,對開心情緒面孔分析,正常測試者對開心情緒面孔存在注意偏向,F(xiàn)檢驗結(jié)果F值為0.138,p-value為0.010小于顯著性水平0.05,t檢驗的結(jié)果p-value為0.013小于顯著性水平為0.05,表示對開心情緒面孔的分析具有統(tǒng)計意義。

      3.3 數(shù)據(jù)集描述

      本文從多角度研究抑郁傾向,將眼動特征、認知特征、記憶力特征以及網(wǎng)絡行為特征融合。數(shù)據(jù)集包括:類標簽L通過伯恩斯抑郁狀況自查表測量得到;記憶力特征memory通過修訂的韋氏記憶量表測驗得到;認知風格特征cognition通過鑲嵌圖形測驗得到;網(wǎng)絡行為特征的emotion_picture表示照片所反映情緒的評分;dynamic_count表示兩周內(nèi)動態(tài)數(shù);comment_count表示兩周內(nèi)動態(tài)評論數(shù);face_count表示照片中人臉數(shù);KPI數(shù)據(jù)圖指標的happy_Ratio、sad_Ratio、calm_Ratio,分別表示注視每張圖中開心、悲傷、平靜情緒面孔與注視圖片總時長的比值;Event Statistics眼動特征的Revisits表示興趣區(qū)回訪次數(shù);Sequence表示視線落入AOI的順序;Blink_Count表示眨眼次數(shù);Fixation_Count表示注視點數(shù)等。由于Event Statistics眼動特征較多,本文只展示部分。

      3.4 數(shù)據(jù)預處理

      由于數(shù)據(jù)中存在缺失值、離群值等問題,本文對數(shù)據(jù)進行預處理,主要包括以下幾方面。

      1)缺失值處理。

      缺失值處理的方法多種多樣,如平均值填充法、多重插補等。比較多種處理方法,本文選擇填充效率高的平均值填充法來處理缺失值。

      2)離群值處理。

      離群值可能影響數(shù)據(jù)分析結(jié)果,箱形圖是一種分析離群值的方法,能直觀描述數(shù)據(jù)離散分布的情況并且不受異常值的影響,圖5為特征Blink_Count箱形圖。

      分析圖5可知,特征Blink_Count的第631、641等行數(shù)據(jù)為離群值。對于離群值,首先檢查是否為記錄錯誤、儀器故障等問題,若是則刪除離群值;反之,則將離群值刪除前后各作一次統(tǒng)計分析,若前后不矛盾,則保留該值。

      3)特征相關(guān)性分析。

      為了處理特征關(guān)系,利用Pearson相關(guān)性分析特征之間的相關(guān)性,Pearson相關(guān)系數(shù)r的計算公式如式(7)所示:

      其中:n為樣本數(shù),Xi和Yi為特征X和Y的樣本值,和為均值,SX和SY為標準差。r的絕對值越大,說明特征之間的相關(guān)性越強:r的絕對值為(0.8,1.0]此類約束條件不嚴謹,如在=0.8時,屬于哪個條件?請明確,為嚴謹起見,請用開閉區(qū)間來表示。表示極強相關(guān),(0.6,0.8]表示強相關(guān),(0.4,0.6]表示中度相關(guān),(0.2,0.4]表示弱相關(guān),[0,0.2]此處也應包含=0的情況吧,即用閉區(qū)間[0,0.2]來表示,準確吧?表示極弱相關(guān)。由于特征數(shù)量較多,圖6只展示部分結(jié)果。

      特征Blink_Count和Blink_Frequency的r的絕對值為0.97,說明兩特征之間極強相關(guān);特征Saccade_Count和Fixation_Count的r的絕對值為0.98,說明兩特征之間極強相關(guān)此處應該為“極強相關(guān)”吧?請明確等。綜合分析,許多特征之間存在相關(guān)性,為了從特征關(guān)系中獲得更多有用信息,本文提出用掃描過程處理特征關(guān)系,4.1節(jié)將描述掃描過程的具體過程。

      4 掃描堆疊模型

      本文基于堆疊法提出抑郁傾向識別模型——掃描堆疊模型,該模型由掃描過程和堆疊結(jié)構(gòu)兩部分構(gòu)成,掃描過程的作用為處理特征關(guān)系,從特征關(guān)系中獲得有用信息;掃描過程的輸出作為堆疊結(jié)構(gòu)的輸入,堆疊結(jié)構(gòu)是一種基于堆疊法的集成結(jié)構(gòu),就是將多種互補模型組合成一個性能更好的模型,接下來介紹掃描堆疊模型架構(gòu)以及實現(xiàn)過程。

      4.1 掃描過程

      深度神經(jīng)網(wǎng)絡目前在很多領域有著廣泛應用,在特征處理方面表現(xiàn)出色,特征處理是影響模型預測結(jié)果的重要因素。在3.4節(jié)數(shù)據(jù)預處理中,很多特征之間存在相關(guān)性。為了從中獲得這些有用信息,借鑒深度神經(jīng)網(wǎng)絡處理特征的原理,提出掃描過程處理特征關(guān)系,掃描過程的方法有多窗口掃描法和多步長掃描法兩種:多窗口掃描法是以相同的步長滑動不同大小的窗口來處理特征;多步長掃描法是以相同的窗口滑動不同的步長來處理特征。掃描過程作用為:1)從數(shù)據(jù)中獲得更多的有效信息;2)增強整體模型的學習能力;3)在一定程度上可以降低過擬合等。

      以多窗口掃描法為例介紹掃描過程,如圖7所示。輸入n維特征向量,分別以m維和2m維大小的窗口用步長1(默認)掃描特征向量,以m維大小的窗口用步長1掃描得到(n-m-1)個m維特征向量;特征向量經(jīng)過分類模型A1和B1,轉(zhuǎn)換成2(n-m-1)個2維類別概率向量;然后,將類別概率向量用拼接函數(shù)拼接成一個2(n-m-1)維轉(zhuǎn)換向量;同理,以2m維大小的窗口掃描后得到一個2(n-2m-1)維轉(zhuǎn)換向量;最后用拼接函數(shù)將轉(zhuǎn)換向量拼接成一個向量,并作為堆疊結(jié)構(gòu)的輸入。接下來將介紹堆疊結(jié)構(gòu)。

      4.2 堆疊結(jié)構(gòu)

      堆疊結(jié)構(gòu)是一種基于堆疊法的集成結(jié)構(gòu),集成結(jié)構(gòu)的思想為每個模型由其算法從數(shù)據(jù)集中產(chǎn)生,然后通過組合方法組合多個模型,最后得到一個預測結(jié)果,集成的一般結(jié)構(gòu)如圖8所示。按照集成結(jié)構(gòu)中模型類型將集成分為同質(zhì)集成和異構(gòu)集成:同質(zhì)集成是由相同類型的模型集成,如“神經(jīng)網(wǎng)絡集成”都是由神經(jīng)網(wǎng)絡集成等;異構(gòu)集成是由不同類型的模型集成,異構(gòu)集成應注意模型多樣化以及單個模型性能等問題。

      堆疊結(jié)構(gòu)是一種基于堆疊法的異構(gòu)集成,本文構(gòu)建兩層堆疊結(jié)構(gòu):第一層為基礎模型層,第二層為元模型層?;A模型層訓練多個不同類型的基礎模型,各基礎模型的輸出作為元模型層的輸入以訓練元模型,最后得到一個預測結(jié)果,其中最簡單的元模型為簡單投票模型。

      4.3 掃描堆疊模型

      圖9展示了掃描堆疊模型的架構(gòu),首先,對數(shù)據(jù)集進行預處理;然后,將預處理后的數(shù)據(jù)經(jīng)過掃描過程,得到的輸出結(jié)果作為堆疊結(jié)構(gòu)的輸入;最后,經(jīng)過兩層堆疊結(jié)構(gòu)——基礎模型層和元模型層,輸出一個預測結(jié)果。掃描堆疊算法為:首先,輸入n維特征向量,分別用m,2m,…,km(k值自定義)維特征大小的窗口以步長1掃描,并將掃描后的向量分別放入分類模型A和B中,得到多個2維的類別概率向量,因為本文為二分類問題,所以為2維的類別概率向量,將類別概率向量通過拼接函數(shù)拼接成轉(zhuǎn)化變量(Conversion Vector請補充CR的英文全稱, CR),并作為基礎模型層的輸入;其次,不同基礎模型層算法Ft生成不同基礎模型ht;各基礎模型ht的輸出作為元模型層的訓練集CR′;最后,元模型層算法F用訓練集CR′生成元模型h′,并輸出一個最終的預測結(jié)果。

      4.4 實現(xiàn)掃描堆疊模型

      掃描堆疊模型的實現(xiàn)過程包括:實現(xiàn)掃描過程,需要選擇合適的掃描方法和分類模型;堆疊結(jié)構(gòu)需要實現(xiàn)基本模型層和元模型層。

      4.4.1 實現(xiàn)掃描過程

      為了實現(xiàn)掃描過程,需要選擇合適的掃描方法,確定最佳的步長和窗口大小組合。經(jīng)過分析比較,最佳的掃描方法為多窗口掃描法,即分別以5維和10維特征大小的窗口用步長1掃描特征;同時,需要選擇性能好的分類模型,選擇了7種應用廣泛并且性能表現(xiàn)出色的模型,如KNN、SVM等,并在數(shù)據(jù)集上對模型進行測評,結(jié)果如表3所示。

      在表3中,梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)模型的準確率最高為0.875,梯度提升決策樹模型具有較強的泛化能力,在數(shù)據(jù)挖掘等方面表現(xiàn)出色,因此,選擇GBDT作為掃描過程的分類模型。分類模型A和B均選擇GBDT,其中分類模型A的損失函數(shù)為對數(shù)損失函數(shù),分類模型B的損失函數(shù)為指數(shù)損失函數(shù)。

      4.4.2 實現(xiàn)堆疊結(jié)構(gòu)

      本文構(gòu)建兩層堆疊結(jié)構(gòu):第一層為基礎模型層;第二層為元模型層。堆疊結(jié)構(gòu)實現(xiàn)時應注意泄漏問題,泄露問題即同一條數(shù)據(jù)既用于訓練又用于預測,易造成過擬合問題。為了解決泄露問題,可以采用交叉驗證的方法。

      1)實現(xiàn)基礎模型層。

      實現(xiàn)基礎模型層需要遵循兩個原則:1)單個模型的性能至少好于隨機預測[28],否則會影響模型組合后的性能;2)各基礎模型之間的相關(guān)性要盡可能地小,模型之間能更好地互補。

      在4.4.1節(jié)中,對7種分類模型分析結(jié)果為,梯度提升決策樹(GBDT)模型的準確率最高為0.875,樸素貝葉斯模型(Naive Bayes, NB)的準確率最低為0.705,7種模型的準確率均不低于0.50。為了使模型之間互補,探究了模型之間的相關(guān)性,結(jié)果如圖10所示。

      綜合分析表3和圖10,GBDT的準確率最高為0.875,因此選擇GBDT作為基礎模型h1;其次,選擇與GBDT相關(guān)性小并且準確率高的模型,其中BP神經(jīng)網(wǎng)絡BPNN與GBDT相關(guān)性最小為0.59,準確率為0.844,將BPNN作為基礎模型h2;同樣,選擇與GBDT和BPNN相關(guān)性均小并且準確率高的模型,KNN與BPNN的相關(guān)性最小為0.47,與GBDT的相關(guān)性也最小為0.49,準確率為0.801,因此選擇KNN作為基礎模型h3;最終,基礎模型層由GBDT、BPNN、KNN、SVM四種基礎模型構(gòu)成。

      2)實現(xiàn)元模型層。

      為了尋找最佳元模型,以召回率(Recall)、精確度(Precision)及F1值作為元模型性能的評價指標:Recall和Precision反映了模型性能的兩個方面,兩指標之間互相制約;F1作為綜合指標,是Recall和Precision的加權(quán)調(diào)和平均,能夠全面評價模型的性能。

      表4二分類混淆矩陣記錄了每類被正確和錯誤劃分的結(jié)果,L為類標簽,L為1表示抑郁傾向類,L為0表示正常類;TP(True PositiveTP、FN、FP和TN的英文全稱補充得正確嗎?請明確)表示被正確劃分的抑郁傾向類樣本的個數(shù),F(xiàn)N(False Negative)表示被錯誤劃分為正常類樣本的抑郁傾向樣本類的個數(shù),F(xiàn)P(False Positive)表示被錯誤劃分為抑郁傾向類的正常類樣本的個數(shù),TN(True Negative)表示被正確劃分的正常類樣本的個數(shù)。Recall、Precision、F1值的公式如式(8)、(9)、(10)所示:

      由表5可知,邏輯回歸(Logistic Regression, LR)模型犧牲了Recall,得到了最高的Precision和F1值,并且邏輯回歸模型穩(wěn)定性強,能夠有效地降低掃描堆疊模型過擬合的風險,因此將邏輯回歸模型作為元模型。

      綜上所述,本文基于堆疊法構(gòu)建掃描堆疊模型,實現(xiàn)過程為:首先,在對數(shù)據(jù)進行預處理之后,通過多步掃描方法處理特征關(guān)系;然后,將掃描過程的輸出作為基礎模型層的輸入,其中基礎模型層由GBDT、BPNN、KNN、SVM四種基礎模型構(gòu)成;最后,將各基礎模型層的輸出作為元模型層的輸入,并最終得到一個預測結(jié)果,其中元模型層由邏輯回歸模型構(gòu)成。

      4.5 評價掃描堆疊模型性能

      為了客觀、全面評價掃描堆疊模型的性能,既評價掃描堆疊模型的掃描過程和堆疊法獨立貢獻,又將掃描堆疊模型與多種模型進行比較。

      4.5.1 掃描過程和堆疊法獨立貢獻

      為了評價掃描過程和堆疊法獨立貢獻,將掃描堆疊模型與堆疊模型以及掃描投票模型之間進行分析比較,與堆疊模型比較的目的是探究掃描過程獨立的貢獻,而與掃描投票模型比較的目的是探究堆疊法對模型性能的影響,掃描投票模型和掃描堆疊模型的基礎模型層完全相同。

      ROC(Receiver Operating Characteristic)曲線[29]能夠直觀分析模型的性能,曲線的橫坐標為FPR(False Positive Rate請補充FPR和TPR的英文全稱),縱坐標為TPR(True Positive Rate),F(xiàn)PR表示實際為正常類的樣本中被預測為抑郁傾向類的比值;TPR表示實際為抑郁傾向類的樣本中被預測為抑郁傾向類的比值,ROC曲線較好地反映了FPR和TPR兩者之間的變化關(guān)系。一般來說,一個模型的ROC曲線越接近左上角,即曲線覆蓋面積AUC越大,說明模型的性能越強。圖11展示了堆疊模型(Stacking)、掃描堆疊(Scanning Stacking)模型以及掃描投票(Scanning Voting)模型的ROC曲線。

      由圖11分析得,掃描堆疊模型的準確率為0.93,堆疊模型的準確率為0.90,掃描投票模型的準確率為0.91,即掃描過程對掃描堆疊模型獨立貢獻為0.03,堆疊法對掃描堆疊堆疊模型獨立貢獻為0.02??傊瑨呙柽^程和堆疊法均提高了掃描堆疊模型的性能。

      4.5.2 多種模型比較

      為了全面評價掃描堆疊模型的性能,本文將掃描堆疊模型與多種模型從R平方(R-squared)、均方誤差(Mean Squared Error, MSE)、平均絕對誤差(Mean Absolute Error, MAE)三個參數(shù)進行對比分析,所有模型均采用十折交叉驗證,結(jié)果如表6所示,其中SVR(Support Vector Regression)為支持向量回歸機請補充SVR的中文全稱和英文名稱。

      R-squared一般取值范圍從0到1,R-squared值越接近1,說明模型的擬合度越好;MSE用來說明數(shù)據(jù)變化程度,MSE的值越小,表示模型的準確度越高;MAE是平均絕對誤差,能更好反映預測值誤差的情況,MAE的值越小,表示模型預測效果越好。綜合分析R-squared、MSE、MAE三個參數(shù),掃描堆疊(Scanning Stacking)模型的R-squared值為0.8080,與其他模型相比最接近1,表示掃描堆疊模型的擬合程度較好;MSE的值為0.8276,與其他模型相比值較小,表示掃描堆疊模型的準確度較高;MAE的值為0.0305,與其他模型相比值較小,表示掃描堆疊模型的預測效果較好。綜上分析,掃描堆疊模型與以上模型相比性能較好。

      5 結(jié)語

      本文通過將心理健康自查表和眼動追蹤結(jié)合、多角度結(jié)合研究抑郁傾向、融合多種類型特征,提高了抑郁傾向識別方法的客觀性和準確性?;诙询B法提出抑郁傾向識別模型——掃描堆疊模型,該模型由掃描過程和兩層堆疊結(jié)構(gòu)構(gòu)成,掃描過程和堆疊法均提高了模型的整體性能,與多種不同分類模型比較掃描堆疊模型的性能較好。掃描堆疊模型作為抑郁傾向識別模型,可以幫助心理醫(yī)生判斷分析,從而降低誤診的概率,具有一定的現(xiàn)實意義。

      未來工作可以從以下幾方面進行:擴大、均衡數(shù)據(jù)集;將其他類型的特征融合識別抑郁傾向,例如腦電特征等;利用眼動追蹤研究抑郁傾向與慢性肺阻病(Chronic Obstructive Pulmonary Diseases, COPD)等其他疾病之間的相關(guān)性。

      參考文獻 (References)

      [1] COOHEY C, EASTON S D. Distal stressors and depression among homeless men[J]. Health & Social Work, 2016, 41(2):111.

      [2] KATON W, VON KORFF M, LIN E, et al. Collaborative management to achieve treatment guidelines: impact on depression in primary care[J]. The Journal of the American Medical Association, 1995, 273(13):1026-1031.

      [3] ZUNG W W. A self-rating depression scale[J]. Archives of General Psychiatry, 1965, 12(12):63.

      [4] JOORMANN J, GOTLIB I H. Selective attention to emotional faces following recovery from depression[J]. Journal of Abnormal Psychology, 2007, 116(1):80-85.

      [5] HELLER W, ETIENNE M A, MILLER G A. Patterns of perceptual asymmetry in depression and anxiety: implications for neuropsychological models of emotion and psychopathology[J]. Journal of Abnormal Psychology, 1995, 104(2):327.

      [6] FRITZSCHE A, DAHME B, GOTLIB I H, et al. Specificity of cognitive biases in patients with current depression and remitted depression and in patients with asthma[J]. Psychological Medicine, 2010, 40(5):815-826.

      [7] 任力杰,陸兵勛,吳明祥,等.抑郁癥患者工作記憶損害與磁共振擴散張量成像部分各向異性值相關(guān)性的研究[J].中華行為醫(yī)學與腦科學雜志,2010,19(4):325-327.(REN L J, LU B X, WU M X, et al. Correlation between working memory impairment and partial anisotropy of magnetic resonance diffusion tensor imaging in patients with depression[J]. Chinese Journal of Behavioral Medicine and Brain Science, 2010, 19(4): 325-327.)

      [8] SAKI N, DEHGHANI FARD A, KAVIANI S, et al. Beta thalasemia: epidemiology, diagnostic and treatment approach in Iran [J]. Genetics in Millennium, 2012, 20(8):26-39.

      [9] MAJOR B, MUELLER P, HILDEBRANDT K. Attributions, expectations, and coping with abortion[J]. Journal of Personality & Social Psychology, 1985, 48(3):585.

      [10] EYSENCK H J. Cognitive styles: essence and origins[J]. Personality & Individual Differences, 1982, 3(1):103-103.

      [11] BRUNSWIK E. Perception and representative design of psychological experiments [J]. Philosophical Quarterly, 1958, 8(33):42-61.

      [12] LI L, LI A, HAO B, et al. Predicting active users personality based on micro-blogging behaviors[J]. PLoS One, 2013, 9(1): 84-97.

      [13] 胡志海.大學生互聯(lián)網(wǎng)使用行為影響因素分析[J].中國公共衛(wèi)生,2008,24(3):294-295.(HU Z H. An analysis of the influence factors of college students Internet use behavior [J]. Chinese Journal of Public Health, 2008, 24(3):294-295.)

      [14] MORENO M A, JELENCHICK L A, EGAN K G, et al. Feeling bad on Facebook: depression disclosures by college students on a social networking site[J]. Depression & Anxiety, 2011, 28(6):447-455.

      [15] KATIKALAPUDI R, CHELLAPPAN S, MONTGOMERY F, et al. Associating Internet usage with depressive behavior among college students [J]. IEEE Technology & Society Magazine, 2012, 31(4):73-80.

      [16] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553):436.

      [17] PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of Mathematical Biology, 1990, 52(1):99-115.

      [18] WEI X S, ZHOU Z H. An empirical study on image bag generators for multi-instance learning[J]. Machine Learning, 2016, 105(2):1-44.

      [19] GUO G, WANG H, BELL D, et al. KNN model-based approach in classification[C]// Proceedings of the 2003 OTM Confederated International Conferences “On the Move to Meaningful Internet Systems”. Berlin: Springer, 2003: 986-996.

      [20] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20(3):273-297.

      [21] BATES J M, GRANGER C W J. The combination of forecasts[J]. Journal of the Operational Research Society, 1969, 20(4):451-468.

      [22] WOLPERT D H. Stacked generalization[J]. Neural Networks, 1992, 5(2):241-259.

      [23] BREIMAN L. Bagging predictors[J]. Machine Learning, 1996, 24(2):123-140.

      [24] WEST D, DELLANA S, QIAN J. Neural network ensemble strategies for financial decision applications[J]. Computers & Operations Research, 2005, 32(10):2543-2559.

      [25] BLAND J M, ALTMAN D G. Cronbachs Alpha[J]. British Medical Journal, 1997, 314(7080):572.

      [26] 龔耀先,謝光榮,江達威,等.修訂韋氏記憶量表[C]//全國第四屆心理學學術(shù)會議.北京:[出版者不詳],1981:120-123.(GONG Y X, XIE G R, JIANG D W, et al. Revising Wechsler memory scale[C]// Proceedings of the Fourth National Conference on Psychology. Beijing: [s.n.], 1981: 120-123.)

      [27] WITKIN H A, MOORE C A, GOODENOUGH D R, et al. Field-dependent and field-independent cognitive styles and their educational implications[J]. ETS Research Bulletin, 1975, 1975(2):1-64.

      [28] 李珩,朱靖波,姚天順.基于Stacking算法的組合分類器及其應用于中文組塊分析[J].計算機研究與發(fā)展,2005,42(5):844-848.(LI H, ZHU J B, YAO T S. A combined classifier based on stacking algorithm and its application in Chinese chunk block analysis [J]. Journal of Computer Research and Development, 2005, 42(5):844-848.)

      [29] METZ C E. Basic principles of ROC analysis[J]. Seminars in Nuclear Medicine, 1978, 8(4):283.

      嘉黎县| 五台县| 古交市| 西藏| 枣庄市| 凤阳县| 郁南县| 冀州市| 义马市| 庆安县| 北京市| 东台市| 呼图壁县| 武邑县| 珲春市| 财经| 四川省| 宁蒗| 桐柏县| 柏乡县| 城市| 南宁市| 明溪县| 湖北省| 南通市| 灵石县| 无极县| 万盛区| 唐海县| 钟祥市| 建宁县| 泸州市| 南涧| 洪泽县| 北海市| 洞口县| 达州市| 周口市| 泽州县| 金沙县| 玛多县|