• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于微博文本的用戶人格分析模型研究

      2020-01-05 07:00舒曉敏馬曉寧
      軟件導(dǎo)刊 2020年11期

      舒曉敏 馬曉寧

      摘 要:傳統(tǒng)的微博用戶人格分析將人格分為五類,但未考慮人格類別之間潛在的關(guān)聯(lián)性。為此基于多標(biāo)簽集成分類方法(RAkEL)進行改進,構(gòu)建RAkEL-PA模型。RAkEL-PA模型使用標(biāo)簽集合中不同的隨機子集訓(xùn)練相應(yīng)的Label Powerset(LP)分類器,然后集成所有分類結(jié)果作為最終分類結(jié)果。在微博用戶文本消息數(shù)據(jù)上進行實驗,結(jié)果表明,RAkEL-PA模型的兩個不同策略對用戶人格分類準(zhǔn)確率較高。RAkEL-PA模型充分考慮多個人格之間的相關(guān)性,以提高用戶人格分類魯棒性。

      關(guān)鍵詞:大五人格;人格分析;多標(biāo)簽學(xué)習(xí);RAkEL-PA;微博文本

      DOI:10. 11907/rjdk. 201356?????????????????????????????????????? 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

      中圖分類號:TP303 ??? 文獻標(biāo)識碼:A?????? 文章編號:1672-7800(2020)011-0025-04

      Research on User Personality Analysis Model Based on Weibo Text

      SHU Xiao-min,MA Xiao-ning

      (College of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)

      Abstract:Traditional personality analysis of Weibo users divides personality into five categories without considering the potential correlation among personality categories. The multi-label ensemble classification method (RAkEL) is improved to construct the RAkEL-PA model. The RAkEL-PA model uses different random subsets in the label set to train the corresponding Label Powerset (LP) classifier, and then ensembles all the classification results as the final classification result. The effectiveness of RAkEL-PA in personality analysis has been verified experimentally on Weibo users text messages. The experimental results show that the accuracies of the two different strategies of RAkEL-PA are higher for user personality classification. RAkEL-PA fully considers the correlation between multiple personalities and improves the robustness of user personality classification.

      Key Words: big-five personality; personality analysis; multi-label learning; RAkEL-PA; Weibo text

      0 引言

      心理學(xué)把個體人格研究與社交網(wǎng)絡(luò)結(jié)合,用社交網(wǎng)絡(luò)中用戶行為數(shù)據(jù)對用戶人格進行分析與預(yù)測[1],如工作績效預(yù)測[2]、青少年網(wǎng)絡(luò)成癮誘因分析[3]、抑郁癥預(yù)測[4]、人格與情緒表達關(guān)系[5]等,價值巨大。

      文獻[6]統(tǒng)計地理位置、發(fā)布頻率等移動互聯(lián)網(wǎng)用戶特征,將人格分類看作三分類和五分類問題實驗;文獻[6,7,8]分別采用新浪微博、Facebook、Twitter和YouTube數(shù)據(jù)集進行人格識別;文獻[9,10]采用二進制粒子群算法和半監(jiān)督算法建立社交網(wǎng)絡(luò)用戶人格分析模型;文獻[11]將人格分類問題轉(zhuǎn)化為二分類問題;Rosen等[12]針對用戶個體網(wǎng)站內(nèi)容分析用戶人格;Ross等 [13]通過研究用戶數(shù)據(jù)得出外向型與組成成員個數(shù)關(guān)系密切。

      以上方法都是將五維人格看作不相干任務(wù)執(zhí)行,而事實上五個維度之間有一定關(guān)聯(lián)[1,6-8,11,14]。本文通過對多標(biāo)簽集成方法—隨機k標(biāo)簽集(Random k-LabELsets,RAkEL)[10]進行改進,構(gòu)建基于微博文本的RAkEL-PA(RAkEL-Personality Analysis)模型,綜合考慮五維人格相關(guān)性,彌補前人工作的空白。

      1 研究流程

      人格模型泛指大五人格模型(Big-Five Model),包括外向性(Extraversion,E)、神經(jīng)質(zhì)(Neuroticism,N)、宜人性(Agreeableness,A)、責(zé)任型(Conscientiousness,C)和開放性(Openness,O)五個維度[1]。

      本文研究流程:①獲取數(shù)據(jù):在微博上發(fā)放大五人格量表問卷,志愿者填寫問卷以及微博userID,采用userID通過爬蟲獲取志愿者微博文本數(shù)據(jù);②特征提?。簭奈⒉┪谋局刑崛∨c人格相關(guān)度高的特征,創(chuàng)建人格分析模型的特征屬性;③建立模型:構(gòu)建RAkEL-PA模型;④評估模型:采用分類準(zhǔn)確率Accuracy和損失函數(shù)Hammingloss兩個指標(biāo)進行評估。

      2 RAkEL-PA模型構(gòu)建

      2.1 數(shù)據(jù)獲取

      2.1.1 獲取用戶五維人格得分

      在問卷星網(wǎng)站上制作大五人格量表[1]作為調(diào)查問卷。制作5個分量表,每個分量表包括5個選項(非常不符合、不太符合、不確定、比較符合、非常符合)12個題目,分別記2、4、6、8和10分,其中有題目反向計分,滿分為100分。將問卷發(fā)放到微博,志愿者填寫問卷,根據(jù)得分標(biāo)注用戶五維人格標(biāo)簽。

      2.1.2 微博用戶數(shù)據(jù)獲取及數(shù)據(jù)預(yù)處理

      利用userID使用Python語言編寫微博爬蟲程序,爬取用戶3個月微博文本數(shù)據(jù)。刪除僅含圖片、表情等無用數(shù)據(jù)。

      2.2 特征提取

      本文使用CCPL開發(fā)的中文心理分析系統(tǒng)TextMind[14],產(chǎn)生已驗證的76個微博文本特征[14],如表1所示。另外,表情符號更能反應(yīng)用戶情緒,所以本文統(tǒng)計微博消息中含有的表情符號,并統(tǒng)計每條消息的影響力,如表2所示。

      由于特征量化為數(shù)值后差異巨大,必須對其先歸一化[11]。將每個特征進行[0,1]區(qū)間歸一化,如公式(1)所示。

      其中,[f]和[f*]分別為文本特征的原始值和歸一化值,[fmin]和[fmax]分別為所有用戶相應(yīng)特征的最小值和最大值。

      2.3 RAkEL-PA模型構(gòu)建

      2.3.1 多標(biāo)簽分類方法

      多標(biāo)簽學(xué)習(xí)方法主要有算法自適應(yīng)和問題轉(zhuǎn)換方法兩種[15]。前者主要包括支持向量機[7]和多標(biāo)簽[k]近鄰算法(ML-kNN)[16];后者主要有Binary Relevance(BR)[5]和Label Powerset(LP)。

      2.3.2 基于微博文本的RAkEL-PA模型構(gòu)建

      LP方法優(yōu)點是考慮標(biāo)簽相關(guān)性,但也存在不足[17],因此將大量標(biāo)簽的集合隨機分成很多小的標(biāo)簽集,采用LP為每個小標(biāo)簽集訓(xùn)練多標(biāo)簽分類器,將所有LP分類器決策集成得到RAkEL的最后結(jié)果。本文基于微博文本的用戶人格分析模型,構(gòu)建基于人格分析的不相交子集策略RAkELd-PA和基于人格分析的重疊子集策略RAkELo-PA。

      確定RAkELd-PA標(biāo)簽集[k]的大小,將標(biāo)簽集合[L]隨機分成[m=Mk]個不相交的[k]標(biāo)簽集[Rj],[j=1,2…m]。用LP學(xué)習(xí)[m]個多標(biāo)簽分類器[hj],[j=1,2…m]。每個分類器[hj]學(xué)習(xí)一個單標(biāo)簽分類任務(wù),包含訓(xùn)練集中所有[Rj]的子集類值。該策略中不同標(biāo)簽集中的標(biāo)簽不相交,所以標(biāo)簽數(shù)越多性能越好[18]。

      RAkELd-PA模型訓(xùn)練過程和分類過程分別如圖1和圖2所示。

      RAkELo-PA中[Lk]表示[L]中所有不同[k]標(biāo)簽集的集合。[Lk]大小由二項式系數(shù)[Lk=Mk]決定。與RAkELd-PA不同的是,已知標(biāo)簽集[k]的大小以及期望的分類器數(shù)量[m≤Lk],RAkELo-PA通過從[Lk]隨機采樣選擇[m]個[k]標(biāo)簽集[Ri],[i=1,2…m]。當(dāng)[mk>M]時標(biāo)簽集會重疊。

      在RAkELo-PA模型上訓(xùn)練過程和分類過程分別如圖3和圖4所示。

      3 實驗

      3.1 實驗數(shù)據(jù)集和特征提取

      本文共收到258份問卷,經(jīng)過篩選(如:每個問題答案相同)得到有效問卷169份。使用爬蟲得到用戶在微博上的文本消息。利用文心軟件提取文本特征,如表1和表2所示,并進行歸一化處理。標(biāo)簽數(shù)[M]為人格的五個維度。因此標(biāo)簽集界限是[25]=32,而實際標(biāo)簽集數(shù)量范圍為此邊界的5%~44%[17]。本文標(biāo)注的標(biāo)簽集中有8種標(biāo)簽集出現(xiàn)次數(shù)最多,將集中60%的數(shù)據(jù)作為訓(xùn)練集,其余作為測試集。

      3.2 模型評價指標(biāo)

      本文使用分類準(zhǔn)確度Accuracy(A)和Hammingloss(H)評估多標(biāo)簽分類效果。

      用[D]表示一個多標(biāo)簽數(shù)據(jù)集,[D]表示樣本個數(shù),[xi]表示第[i]個樣本,[yi?L]表示[xi]的標(biāo)簽集,[i=1,2…D]。本文通過學(xué)習(xí)一個多標(biāo)簽分類器[h]預(yù)測實例[xi]的標(biāo)簽集[zi],即[zi=h(xi)]。

      分類準(zhǔn)確度(A)[18]定義如下:

      3.3 實驗結(jié)果與分析

      3.3.1 RAkELd-PA模型實驗結(jié)果分析

      在RAkELd-PA實驗中,標(biāo)簽集[k]取2、3和4。[k]值不同模型數(shù)[m]也不同。

      如圖5所示:k=2時,模型的A值最高;k=3和k=4時,A值略低于k=2時,而LP的A值保持不變。原因是同時具有兩種人格特質(zhì)的人較多。隨著[k]值增大,[m]變小,參與訓(xùn)練的分類器個數(shù)變少,導(dǎo)致RAkELd-PA性能變差。

      如圖6所示:k=2時,模型H值最小;k=3和k=4時,H值略高,可見隨著[k]值增大,H值也在變大,而LP的H值不變。該模型的H最大值和LP的H值接近,說明隨著[k]值接近M,模型性能與LP性能相當(dāng)。

      3.3.2 RAkELo-PA模型實驗結(jié)果分析

      RAkELo-PA模型使用[k](2~4)的所有有意義值進行實驗。在k=2和k=3時,[m]范圍為1~10,k=4時,[m]范圍為1~5。RAkELo-PA模型的分類決策計算方式采用多數(shù)投票規(guī)則。

      如圖7所示:①k=2(同時具有兩種人格特質(zhì))時,A值在m=8時最高,與文獻[9]得出的結(jié)論一致,即A和C、C和E、C和O、O和E分別具有很強的相關(guān)性;②k=3時,A值在m=8時最高,文獻[11]也表明,C、A、E,E、C、O,O、A、C分別有強相關(guān)性;③k=4時,A值在m=4時最高,與k=2和k=3相比,同時具有4種人格特質(zhì)的人相對較少,所以A值略低于k=2和k=3時的A值,而LP的A值不隨[m]和[k]的改變而改變。

      如圖8所示:隨著[m]值增大,模型的H值在減小。k=2,m=7、8、9時,H值最小;k=3,m=8時,H值最小;k=4,m=3時,H值最小。LP分類器的H值不隨[m]和[k]的改變而改變??梢钥闯?,模型的H值均比LP小,說明該模型性能比LP好。

      4 結(jié)語

      針對傳統(tǒng)人格分析方法未考慮五個人格維度之間的潛在相關(guān)性導(dǎo)致個體人格分類準(zhǔn)確率較低問題,提出RAkEL的改進模型RAkEL-PA實現(xiàn)個體人格分類。實驗結(jié)果表明,具有雙重人格特質(zhì)和三重人格特質(zhì)的人較多,說明五維人格之間存在依賴性。該模型考慮了五維人格之間的相關(guān)性,提高了微博用戶人格分類的準(zhǔn)確率,從而驗證了RAkEL-PA模型對人格分類的有效性。后續(xù)考慮獲取更多微博用戶數(shù)據(jù),在更大數(shù)據(jù)集上進行實驗,以進一步驗證該模型的有效性。

      參考文獻:

      [1] 張磊,陳貞翔,楊波. 社交網(wǎng)絡(luò)用戶的人格分析與預(yù)測[J]. 計算機學(xué)報,2014,37(8):1877-1894.

      [2] JUDGE T A, ZAPATA C P. The person–situation debate revisited: effect of situation strength and trait activation on the validity of the big five personality traits in predicting job performance[J].? Academy of Management Journal, 2015, 58(4): 1149-1179.

      [3] ZHOU Y, LI D, LI X, et al. Big five personality and adolescent internet addiction: the mediating role of coping style[J].? Addictive behaviors, 2017, 64(8): 42-48.

      [4] ALLEN T A, CAREY B E, MCBRIDE C, et al. Big five aspects of personality interact to predict depression[J].? Journal of? personality, 2018, 86(4): 714-725.

      [5] 劉真亦.? 不同人格傾向微博用戶的情緒表達分析[D]. 杭州:浙江大學(xué),2019.

      [6] 孫啟翔. 基于移動互聯(lián)網(wǎng)社交行為的用戶性格分析和預(yù)測[D]. 北京:北京理工大學(xué),2016.

      [7] FARNADI G,SITARAMAN G,SUSHMITA S,et al. Computational personality recognition in social media[J]. User Modeling and User-Adapted Interaction, 2016, 26(2-3): 109-142.

      [8] 楊潔. 基于用戶情感和網(wǎng)絡(luò)關(guān)系分析的人格預(yù)測模型[D]. 上海:東華大學(xué),2016.

      [9] 毛雨. 基于社交網(wǎng)絡(luò)的用戶人格分析研究與實現(xiàn)[D]. 北京:北京郵電大學(xué),2019.

      [10] 鄭赫慈. 網(wǎng)絡(luò)空間中人格分析的研究與實現(xiàn)[D]. 北京:北京郵電大學(xué),2019.

      [11] XUE D, HONG Z, GUO S, et al. Personality recognition on social media with label distribution learning[J].? IEEE Access, 2017, 5(142): 13478-13488.

      [12] ROSEN P A, KLUEMEPER D H. The impact of the big five personality traits on the acceptance of social networking website[C]. AMCIS 2008 proceedings: AMCIS, 2008: 223-229.

      [13] ROSS C, ORR E S, SISIC M, et al. Personality and motivations associated with facebook use [J].? Computers in Human Behavior, 2009, 25(2): 578-586.

      [14] LIMA A C E S, DE CASTRO L N.? A multi-label, semi-supervised classification approach applied to personality prediction in social media[J].? Neural Networks, 2014, 58(12): 122-130.

      [15] BAI S, HAO B, LI A, et al. Predicting big five personality traits of microblog users[C]. Proceedings of the 2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT)-Volume 01. IEEE Computer Society, 2013: 501-508.

      [16] ZHANG M L, ZHOU Z H.? ML-KNN: a lazy learning approach to multi-label learning[J].? Pattern Recognition, 2007, 40(7): 2038-2048.

      [17] TSOUMAKAS G,KATAKIS I, VLAHAVAS I.? Random k-labelsets for multilabel classification[J].? IEEE Transactions on Knowledge & Data Engineering, 2011, 23(7): 1079-1089.

      [18] TSOUMAKAS G, VLAHAVAS I. Random k-labelsets: an ensemble method for multilabel classification[C]. European conference on machine learning, Springer, Berlin, Heidelberg, 2007: 406-417.

      (責(zé)任編輯:杜能鋼)

      收稿日期:2020-04-11

      基金項目:中央高?;究蒲袠I(yè)務(wù)費專項資金項目(3122014C018);中國民航大學(xué)科研啟動基金項目(09QD02X)

      作者簡介:舒曉敏(1992-),女,中國民航大學(xué)計算機科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向為輿情分析、文本分析、機器學(xué)習(xí);馬曉寧(1979-),男,博士,中國民航大學(xué)計算機科學(xué)與技術(shù)學(xué)院副教授、碩士生導(dǎo)師,研究方向為信息安全、網(wǎng)絡(luò)輿情分析、機器學(xué)習(xí)、文本分析。本文通訊作者:舒曉敏。

      师宗县| 会理县| 临武县| 延安市| 色达县| 顺昌县| 板桥市| 和硕县| 冀州市| 泗水县| 汝城县| 嘉鱼县| 南平市| 绿春县| 穆棱市| 苍溪县| 中阳县| 桐梓县| 张家港市| 河西区| 汪清县| 榆林市| 布拖县| 松原市| 巢湖市| 海林市| 苏州市| 清水县| 八宿县| 鲁甸县| 兴义市| 琼海市| 南澳县| 秦安县| 边坝县| 山阴县| 天峻县| 宁陵县| 沧州市| 隆子县| 宿州市|