• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于詞向量的多維度正則化SVM社交網(wǎng)絡抑郁傾向檢測方法

      2022-03-18 06:17:46賈寶龍杜依寧
      計算機應用與軟件 2022年3期
      關鍵詞:博文分詞準確率

      王 垚 賈寶龍 杜依寧 張 晗 陳 響

      (北京世相科技文化有限公司 北京 100102)

      0 引 言

      微博是一種開放化的互聯(lián)網(wǎng)社交服務,人們可以通過微博分享自己的心情、經(jīng)歷或故事。微博提供的評論、超級話題等功能,使人們能快速找到志同道合的朋友。海量的微博文本中蘊含著大量的情感。微博的文本內(nèi)容成為抑郁傾向檢測的主要數(shù)據(jù)來源之一。

      國內(nèi)外對于社交媒體文本內(nèi)容的情感分析方法主要包括統(tǒng)計學方法和機器學習方法。統(tǒng)計學方法通過統(tǒng)計高頻詞,構建情感詞典來分析文本內(nèi)容的情感傾向。高一虹等[1]基于數(shù)據(jù)統(tǒng)計來分析抑郁癥患者在現(xiàn)實生活中和社交媒體上的表現(xiàn),發(fā)現(xiàn)抑郁癥患者在社交媒體上發(fā)微博的頻率更高,微博的文本內(nèi)容中的負向情感更明顯。林曄[2]對當時引起巨大轟動的“走飯”和“醒醒我們回家了”兩個微博賬號進行了統(tǒng)計分析,發(fā)現(xiàn)在實施自殺前,抑郁患者會反復、頻繁地表達自己的抑郁、痛苦和自殺意圖,糾結于生死之間。雖然基于統(tǒng)計的方法能夠一定程度上分析出微博用戶的情感,但是忽略了用戶信息,并且過分依賴分詞的好壞,因此不能準確地評價用戶的抑郁傾向。

      基于機器學習的方法是通過將微博文本、博主簡介和博主標簽等特征抽象為向量,構建分類器進行訓練。施志偉等[3]通過問卷調(diào)查得到有抑郁傾向的用戶,獲取他們的微博文本數(shù)據(jù),使用支持向量機模型進行有監(jiān)督學習,準確率達到82.35%。但是其訓練數(shù)據(jù)單一,只考慮了微博文本的內(nèi)容,沒有考慮發(fā)博人的性別、情感等因素。為了考慮更多的有效信息,Peng等[7]增加了發(fā)博人簡介、發(fā)博人行為等特征,對比了傳統(tǒng)支持向量機、樸素貝葉斯、決策樹和K-近鄰等算法后,提出一種多元支持向量機模型,準確率達到了83.5%,明顯高于其他幾種分類算法,但由于數(shù)據(jù)量較少,模型的泛化能力不足。Hao等[8]提出了一種基于兩種分類器的檢測方法,首先訓練樸素貝葉斯分類器,并生成一個抑郁患者的常用詞詞典,然后使用線性分類器加入更多的特征,得到了準確率較高的分類器。方振宇[9]提出了基于Word2vec詞向量的神經(jīng)網(wǎng)絡分類模型,將用戶情緒向量與微博內(nèi)容向量進行拼接作為用戶特征向量,準確率達到了86.5%,但是忽略了用戶的個人屬性信息。為了解決上述存在的問題,本文在使用微博文本作為樣本特征的基礎上,將用戶的情感、性別和發(fā)博頻率融入到SVM的目標函數(shù)中,提出了一種基于詞向量的多維度正則化SVM的社交網(wǎng)絡抑郁傾向檢測方法,并通過多組對比實驗驗證了該方法的有效性。

      1 相關工作

      1.1 抑郁癥

      抑郁癥[11]是一種心理障礙或情感障礙,是最常見的精神疾病之一,主要表現(xiàn)為興趣減退、認知功能受損和情緒紊亂。據(jù)統(tǒng)計,抑郁癥患者的終身患病率為13.2%[12],大約有25%的女性患過抑郁癥,大約有10%的男性患過抑郁癥[13]。由于基層醫(yī)療機構對抑郁癥的認識不充分,仍存在著普遍的一高兩低現(xiàn)象,即高患病率、低診斷率、低治愈率。

      1.2 數(shù)據(jù)的收集

      使用的數(shù)據(jù)來自新浪微博,選擇352位有明顯抑郁傾向的博主的35 962條微博文本作為正數(shù)據(jù),323位非抑郁癥患者博主的72 697條微博文本作為負數(shù)據(jù)。篩選后得到28 654條微博文本的正數(shù)據(jù),58 569條微博文本的負數(shù)據(jù)。經(jīng)過3位心理學系的碩士研究生進行交叉檢驗,僅有10位用戶存在爭議,說明數(shù)據(jù)的可信度較高。

      1.3 數(shù)據(jù)的清洗

      微博內(nèi)容數(shù)據(jù)形式多樣,包含大量“臟”數(shù)據(jù),所以需要對數(shù)據(jù)進行清洗,通過人工觀察或統(tǒng)計發(fā)現(xiàn)主要有以下形式的“臟”數(shù)據(jù):(1) 非文本信息(圖片和視頻等);(2) 廣告數(shù)據(jù)以及非原創(chuàng)數(shù)據(jù)(文本中包括投票、打榜、影響力和人氣演員等);(3) 部分干擾字符(@xxx,#xxx超話#等);(4) 長度小于7個字的微博文本;(5) 不規(guī)范表達方式(emoji表情、顏文字等)。

      清洗前和清洗后的數(shù)據(jù)如表1所示。

      表1 數(shù)據(jù)展示

      2 抑郁傾向檢測方法

      本文提出的抑郁傾向檢測方法主要包括兩部分,分別為構建用戶向量、構建多維度正則化SVM,如圖1所示。

      圖1 多維度正則化SVM檢測模型

      首先,微博文本的向量化主要包括:(1) 對微博文本的分詞;(2) 獲取每個詞語的騰訊詞向量;(3) 將詞向量進行特征加權計算句向量;(4) 根據(jù)句向量構建用戶向量。然后,進行多維度正則化SVM的有監(jiān)督學習。

      2.1 構建用戶向量

      2.1.1分詞與詞向量

      騰訊詞向量是騰訊AI實驗室在2018年開源的一個大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)集。該數(shù)據(jù)集在多個方面較現(xiàn)有公開數(shù)據(jù)集均有改善。在覆蓋率上,該數(shù)據(jù)集包含了超過800萬的中文詞匯,覆蓋了更多的短語,包含了近兩年的網(wǎng)絡用語。在準確性上,該訓練算法使用的是騰訊自研的Directional Skip-Gram(DSG)算法[14],它改進了被廣泛使用的如Word2vec詞向量模型中的詞向量訓練算法Skip-Gram(SG)[15],在文本窗口中詞對共現(xiàn)關系的基礎上,加入了詞對的相對位置的考量,以此提高詞向量語義表示的準確性。所以用它來作為微博內(nèi)容分詞后每個詞的詞向量[18]是合理有效的。

      由于微博文本包含大量網(wǎng)絡用語,而百度分詞比較善于針對網(wǎng)絡文本進行分詞,同時也能通過構建自定義詞典提高特殊詞匯的分詞效果,所以,首先利用百度分詞API進行分詞,然后獲得對應的騰訊詞向量。對于騰訊詞向量庫中不存在的抑郁詞,則選擇騰訊詞向量庫中與其最相近的詞作為替代。對于不在抑郁詞典中且騰訊詞向量未收錄的詞語,將其賦值為0向量,便于之后的計算。

      2.1.2構建微博文本向量

      首先使用TF-IDF[19]進行特征加權。特征權重Wij的計算式為:

      Wij=TFij·IDFij

      (1)

      式中:TFij表示特征詞ωi在文本dj中出現(xiàn)的次數(shù),IDFij表示特征詞ωi的逆文檔頻率。為了能夠一定程度上增強抑郁詞權重,IDFij通過大規(guī)模的微博文本數(shù)據(jù)集計算。

      為了提升抑郁詞對于整條微博文本的影響,賦予抑郁詞相對較大的權重值,賦予非抑郁詞權重1。即加權后的詞向量表示為:

      Vi=TVi·Wij·Wd

      (2)

      式中:TVi表示該詞的騰訊詞向量,Wij表示該詞的TF-IDF值,Wd表示該詞的抑郁詞權重。

      2.1.3構建用戶向量

      根據(jù)2.1.2節(jié)得到的加權詞向量,通過對應維度求均值的方式計算整條微博文本的向量表示,該向量表示為:

      cd=(xd1,xd2,…,xdt)

      (3)

      式中:xd1表示當前文本中所有詞向量第1維的均值。因為騰訊詞向量的緯度是200,所以由此得出的文本向量也是200維,進而可得到用戶的矩陣表示為:

      (4)

      式中:n表示用戶的微博總條數(shù)。最后,通過將矩陣Mi按行求均值得到用戶的向量。

      2.2 多維度正則化

      支持向量機[20]是一種優(yōu)秀的機器學習分類模型,在面對非線性以及高維度分類問題上,效果比其他二分類方法更好,因為SVM能夠接受高維特征空間和稀疏特征向量,所以在文本分類上有很好的效果。面對微博文本分類這個非線性問題,直接利用線性化的SVM是無法分類的,所以將決策函數(shù)的限制條件進行一定的放松,使它對于一些異?;驑O端樣本點有一定容錯空間,SVM模型表示為:

      yi·[(WT·xi)+b]≥1-ξi1≤i≤N,ξ≥0

      (5)

      (6)

      由于文本在經(jīng)過前期詞向量信息累加的處理后,所得到的數(shù)據(jù)的維數(shù)已經(jīng)較高,所以還需要進行變換,這也是SVM的一個優(yōu)勢,它通過構造可以將已有數(shù)據(jù)x映射到高維空間H的映射函數(shù),即φ(xi)。因為此類映射的維度理論上是可以無限維的,無法顯式求出,所以SVM引入核函數(shù)[21]來實現(xiàn)不需要知道映射向量就可以實現(xiàn)分類的目的。核函數(shù)形式如下:

      k(xi,xj)=φ(xi)Tφ(xj)

      (7)

      這里通過高斯核函數(shù)實現(xiàn)同等映射:

      (8)

      通過將式(6)轉化為對偶問題的方式,利用KKT條件,構造拉格朗日函數(shù),求得最終的分類函數(shù)如下:

      (9)

      式中:αj是拉格朗日乘子;x表示待分類文本。

      經(jīng)過前期相關研究工作,發(fā)現(xiàn)有抑郁傾向的用戶存在以下明顯特征:(1) 發(fā)微博頻率明顯高于正常用戶;(2) 有明顯消極情感;(3) 女性人數(shù)明顯高于男性用戶,比例大致為3 ∶1。因此將用戶發(fā)微博頻率、用戶文本情感和性別特征加入到目標函數(shù)中,使SVM學習到的超平面更加準確,因此在原本的目標函數(shù)上增加一項由發(fā)微博頻率、情感和性別組成的正則項,表示為:

      ωi=ωe·ei+ωs·si+ωf·fi

      (10)

      式中:ei表示用戶的負向情感概率;si表示用戶的性別分數(shù);fi表示用戶的發(fā)微博頻率分數(shù)。因此,改進后的目標函數(shù)為:

      (11)

      式中:W表示ωi的影響力權重。

      3 實 驗

      3.1 實驗設計及評價標準

      實驗包括以下四種算法:(1) 使用騰訊詞向量訓練SVM;(2) 使用騰訊詞向量訓練mSVM;(3) 用TF-IDF加權詞向量訓練mSVM;(4) 使用TF-IDF和抑郁詞加權詞向量訓練mSVM。為了便于描述,算法1用SVM表示,算法2用mSVM表示,算法3用mSVM-T表示,算法4用mSVM-TW表示。

      在四種算法上進行3組對比實驗,分別為:(1) 隨著迭代次數(shù)準確率的變化趨勢;(2) 隨著迭代次數(shù)召回率的變化趨勢;(3) 隨著迭代次數(shù)F1值的變化趨勢。準確率、召回率和F1值的計算公式如下:

      (12)

      (13)

      (14)

      (15)

      式中:TP表示真例判斷為正樣本;FP表示假例判斷為正樣本;FN表示假例判斷為負樣本;TN表示真例判斷為負樣本。

      3.2 實驗結果與分析

      為了能夠更準確地反映四種算法的準確率、召回率和F1值隨著迭代次數(shù)的變化情況,在當前迭代次數(shù)下的準確率、召回率和F1值均為獨立訓練10次取均值。四種算法的準確率隨迭代次數(shù)的變化趨勢如圖2所示。

      圖2 準確率變化趨勢圖

      由圖2可看出,mSVM-TW在140次迭代后收斂,達到最優(yōu)值0.89±0.05。SVM和mSVM-T在170次迭代后收斂,分別達到0.83±0.05和0.82±0.05,mSVM在180次迭代后收斂,達到0.85±0.05。在收斂速度和最優(yōu)值上,mSVM-TW均明顯優(yōu)于其他三種算法,主要原因有兩點,一是輸入向量通過TF-IDF和抑郁詞加權,改變了原始數(shù)據(jù)分布,使得數(shù)據(jù)的分布對于當前的任務更加清晰,因此更容易被分類;二是通過情感、性別和發(fā)博頻率使得目標函數(shù)的損失變得更小,因此收斂速度更快。

      召回率隨迭代次數(shù)的變化趨勢如圖3所示,從收斂速度和最優(yōu)值,mSVM-TW也明顯優(yōu)于其他三種算法。mSVM-TW的最優(yōu)召回率達到0.86±0.05。在迭代次數(shù)較低時,召回率異常偏高,甚至達到1.0。這是由于當?shù)螖?shù)較低時,分類器處于欠擬合狀態(tài),此時分類器將所有樣本判斷為正樣本,因此召回率會異常高。隨著迭代次數(shù)的增加,處于分類超平面較近的真負或假正樣本逐漸增多,因此召回率逐漸下降,并趨于穩(wěn)定。

      圖3 召回率變化趨勢圖

      F1值隨迭代次數(shù)的變化趨勢如圖4所示,從收斂速度和最優(yōu)值來看,mSVM-TW也明顯優(yōu)于其他三種算法,最優(yōu)F1值達到0.89±0.05。

      圖4 F1值變化趨勢圖

      綜合上述實驗結果,mSVM-TW在各評價指標上均有較大提升,說明通過詞向量加權和多種特征的正則化能夠有效提升傳統(tǒng)SVM在抑郁傾向檢測任務上的分類性能。

      4 結 語

      本文提出的基于詞向量的多維度正則化SVM方法,由于在傳統(tǒng)SVM的損失函數(shù)中融入情感、性別和發(fā)微博頻率,所以在SVM的監(jiān)督學習過程中,能夠根據(jù)用戶的多種特征約束損失函數(shù),使得學習到的分類超平面更加準確,泛化能力更強。因此,對于那些文本特征不夠明顯的用戶也能較好地分類。

      由于微博內(nèi)容的形式具有多樣性,除了文本,還有圖片、視頻、音頻等,所以只考慮微博的文本內(nèi)容會丟失用戶的大量有效信息。因此,下一步考慮加入用戶更多的有效信息,構建多模態(tài)的抑郁傾向檢測模型,進一步增強模型的性能。

      猜你喜歡
      博文分詞準確率
      第一次掙錢
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
      結巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      高速公路車牌識別標識站準確率驗證法
      誰和誰好
      值得重視的分詞的特殊用法
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      打電話2
      阜阳市| 静宁县| 黎平县| 马公市| 潍坊市| 兴城市| 乌拉特中旗| 宁晋县| 肇东市| 孝昌县| 汶上县| 寿光市| 睢宁县| 宜昌市| 闽侯县| 六枝特区| 桃江县| 昭觉县| 千阳县| 陕西省| 杭锦后旗| 抚宁县| 夹江县| 内乡县| 乌海市| 虹口区| 图木舒克市| 普格县| 正蓝旗| 凉山| 德惠市| 云安县| 海南省| 北票市| 九龙城区| 广州市| 德州市| 卓尼县| 安康市| 宜宾县| 北海市|