• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)視角下數(shù)字社區(qū)用戶群體人格畫(huà)像

      2023-12-14 19:16:40符虔趙海騰趙小青帥懿芯
      貴州大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年6期

      符虔 趙海騰 趙小青 帥懿芯

      摘 要:人格特征是人類行為的關(guān)鍵驅(qū)動(dòng)因素,時(shí)刻影響人們的日常生活。尤其在突發(fā)公共事件情境下,這種影響機(jī)制可能更具有個(gè)體差異性。數(shù)字社區(qū)的出現(xiàn)使得基于用戶信息行為大數(shù)據(jù)自動(dòng)有效地進(jìn)行用戶群體人格畫(huà)像成為可能,但相關(guān)研究還相對(duì)較少。以Twitter用戶在COVID-19疫情期間發(fā)布的相關(guān)信息和其相關(guān)信息行為記錄為樣本,進(jìn)行用戶群體人格畫(huà)像。首先,邀請(qǐng)專業(yè)心理咨詢師基于自戀人格的定義和量表設(shè)定了數(shù)據(jù)標(biāo)注規(guī)則并對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注;其次,設(shè)計(jì)了13個(gè)潛在的用戶行為指標(biāo),構(gòu)建了Logit回歸模型,并評(píng)估了模型的分類性能(分類準(zhǔn)確率達(dá)到70.34%);再次,確定了一組與用戶群體自戀人格特征密切相關(guān)的信息行為指標(biāo)。這組指標(biāo)共有5項(xiàng),具體包括:用戶近三年發(fā)表的推文總數(shù)、負(fù)面情感傾向推文所占比例、推文中動(dòng)詞平均數(shù)、推文中話題標(biāo)簽平均數(shù)、推文中感嘆號(hào)平均數(shù)。從而,提出了一種針對(duì)特定情境(突發(fā)公共事件)基于用戶信息行為大數(shù)據(jù)分析的群體人格畫(huà)像的方法,為維護(hù)民眾心理健康和數(shù)字社區(qū)清朗空間提供了新的思路。

      關(guān)鍵詞:數(shù)字社區(qū);群體人格;自戀人格;人格畫(huà)像;Logit回歸

      中圖分類號(hào):TP18;B848

      文獻(xiàn)標(biāo)志碼:A

      人格是認(rèn)知、情感和行為的復(fù)雜組織,決定了人的行為模式[1]。自戀(narcissism)被認(rèn)為是元心理(metapsychology)結(jié)構(gòu)[2]和“黑暗人格三聯(lián)征”的主要特質(zhì)之一[3]。已有的研究主要關(guān)注用戶的自戀人格特征(personality profiles)[4]對(duì)其在數(shù)字社區(qū)中自我表露[5]、自我展示[6]和發(fā)布自拍貼[7]的影響。然而,關(guān)于在一些特定情境下,例如突發(fā)公共事件,用戶的自戀特征對(duì)其在數(shù)字社區(qū)中的信息行為的影響,以及如何根據(jù)用戶的信息行為對(duì)用戶群體人格(group personality)[8]特征進(jìn)行畫(huà)像(profiling)[9],還有待進(jìn)一步探索。

      對(duì)于自戀人格特征相對(duì)明顯的用戶來(lái)說(shuō),數(shù)字社區(qū)為他們提供了一個(gè)展現(xiàn)自我、贏得關(guān)注和贊賞的理想“舞臺(tái)”,他們借助各種數(shù)字技術(shù)來(lái)打造個(gè)人網(wǎng)絡(luò)形象并構(gòu)建其虛擬社交網(wǎng)絡(luò)[10]。Twitter作為全球最大的數(shù)字社區(qū)之一,其日均活躍用戶人數(shù)在2022年已經(jīng)突破2.5億。在COVID-19疫情期間,大量的Twitter用戶發(fā)表相關(guān)推文并對(duì)他人發(fā)布的相關(guān)推文進(jìn)行評(píng)論,從而提供了大量真實(shí)的數(shù)據(jù)。本文基于這些數(shù)據(jù)資源,探索在突發(fā)公共事件情境下影響用戶信息行為的主要自戀人格特征以及如何借助大數(shù)據(jù)技術(shù)為用戶群體人格畫(huà)像。

      1 數(shù)據(jù)收集與標(biāo)注

      如圖1所示,本文使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取了COVID-19疫情期間用戶在Twitter數(shù)字社區(qū)中發(fā)布的相關(guān)信息和其信息行為記錄,構(gòu)建了數(shù)據(jù)集;邀請(qǐng)富有經(jīng)驗(yàn)的專業(yè)咨詢師設(shè)計(jì)了自戀人格特征標(biāo)注規(guī)則并對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,然后采用Logit回歸對(duì)數(shù)據(jù)集進(jìn)行分析。

      1.1 Twitter數(shù)據(jù)爬取

      Selenium是一個(gè)自動(dòng)化測(cè)試工具,可以用來(lái)模擬用戶在網(wǎng)站上的行為。本文利用Chrome driver和Selenium模擬Twitter用戶登錄、瀏覽和搜索等行為,針對(duì)關(guān)鍵詞、評(píng)論和用戶這3個(gè)條目收集數(shù)據(jù)。

      1)爬取推文

      設(shè)置關(guān)鍵詞為“COVID-19”,從Twitter搜索爬取了10 231條推文。

      2)爬取評(píng)論

      針對(duì)關(guān)鍵詞爬取的10 231條推文,進(jìn)一步爬取了每條推文對(duì)應(yīng)的評(píng)論,共爬取到58 051條評(píng)論及對(duì)應(yīng)的評(píng)論者。

      3)爬取用戶歷史推文

      對(duì)評(píng)論者去重后共得到46 075位不重復(fù)的評(píng)論者。因?yàn)榘l(fā)文量較少的用戶所提供的信息過(guò)少以至于難以進(jìn)行相關(guān)分析,所以本文從46 075人中選擇發(fā)文量大于或等于5條的1 008名用戶,爬取到他們的歷史推文共10 373條。

      1.2 數(shù)據(jù)清洗與整理

      首先,清除商業(yè)營(yíng)銷賬號(hào)。由于從Twitter獲得的數(shù)據(jù)中,不可避免地會(huì)摻雜大量的商業(yè)營(yíng)銷賬號(hào),而商業(yè)營(yíng)銷賬號(hào)不具備人格特征,因此本文根據(jù)Twitter商業(yè)營(yíng)銷的特點(diǎn)(比如營(yíng)銷賬號(hào)內(nèi)容包含廣告、促銷信息等,其鏈接會(huì)指向某個(gè)產(chǎn)品,或其語(yǔ)言風(fēng)格會(huì)使用與品牌相關(guān)的風(fēng)格來(lái)增加辨識(shí)度)對(duì)上述爬取的3組數(shù)據(jù)都進(jìn)行了人工清理。其次,以評(píng)論者為“連接點(diǎn)”,將3個(gè)數(shù)據(jù)集整合為1個(gè)數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含推文,推文對(duì)應(yīng)的評(píng)論者,以及評(píng)論者的歷史推文。

      1.3 數(shù)據(jù)標(biāo)注

      邀請(qǐng)3位專業(yè)心理咨詢師(他們的從業(yè)時(shí)間均超過(guò)15年)瀏覽上述1 008名Twitter用戶的歷史推文后判斷其人格特征,即自戀人格特征相對(duì)明顯或自戀人格特征相對(duì)不明顯。對(duì)于標(biāo)注結(jié)果不一致的情況,3位標(biāo)注者進(jìn)行討論,通過(guò)多數(shù)表決的方式來(lái)確定最終的標(biāo)注結(jié)果。具體標(biāo)注流程如下:

      1)設(shè)定標(biāo)注規(guī)則

      根據(jù)Emmons[11]的定義,將自戀視為包括4個(gè)方面特征的一維結(jié)構(gòu),并基于Ames 的自戀量表[12]制定了以下標(biāo)注規(guī)則:

      (1)用戶覺(jué)得所有人都喜歡聽(tīng)他/她的故事(優(yōu)越/傲慢);

      (2)用戶覺(jué)得人們似乎總能意識(shí)到他/她的權(quán)威地位(領(lǐng)導(dǎo)/權(quán)威);

      (3)用戶覺(jué)得他/她比他人更能干(強(qiáng)勢(shì)/權(quán)力);

      (4)用戶覺(jué)得他/她是杰出的人(自我陶醉/自我欣賞)。

      當(dāng)用戶滿足上述一個(gè)或多個(gè)條件時(shí)均被判定為自戀人格特征相對(duì)明顯,并被標(biāo)注為1;反之,則被視為自戀人格特征相對(duì)不明顯,被標(biāo)注為0。最終得到了1 008名的Twitter用戶的人格標(biāo)注結(jié)果,其中自戀人格特征相對(duì)明顯的用戶為466名,自戀人格特征相對(duì)不明顯的用戶為542名。

      2)檢測(cè)標(biāo)注結(jié)果

      本文使用Fleiss’ kappa系數(shù)來(lái)分析不同標(biāo)注人員標(biāo)注結(jié)果的一致性。Fleiss’ kappa系數(shù)分布在-1到1之間。如果Fleiss’ kappa系數(shù)<0,則說(shuō)明觀察一致率小于機(jī)遇一致率;如果Fleiss’ kappa系數(shù)=0,則說(shuō)明結(jié)果完全由隨機(jī)因素導(dǎo)致;如果Fleiss’ kappa系數(shù)>0,則說(shuō)明研究對(duì)象之間存在一定的一致性。Fleiss’ kappa系數(shù)越接近1,一致性越大。經(jīng)過(guò)計(jì)算,F(xiàn)leiss’ kappa系數(shù)為0.637,表明本研究的標(biāo)注結(jié)果具有較好的一致性。

      2 用戶自戀人格特征分析

      2.1 指標(biāo)設(shè)計(jì)

      本文根據(jù)Twitter的功能和用戶在Twitter社區(qū)中的信息行為特點(diǎn),設(shè)計(jì)了13個(gè)指標(biāo),涉及的符號(hào)說(shuō)明見(jiàn)表1。

      1)用戶近三年發(fā)表的推文總數(shù)

      一個(gè)自戀人格特征相對(duì)明顯的用戶可能會(huì)經(jīng)常發(fā)布推文來(lái)展示自己的想法和行動(dòng)。

      x1=count(tweets)

      2)正面情感傾向推文所占比例

      一個(gè)自戀人格特征相對(duì)明顯的用戶可能會(huì)更傾向于發(fā)布積極情感傾向的信息(例如與自己成功、幸福感有關(guān)的事情)。

      x2=count(positive_tweets)x1

      3)負(fù)面情感傾向推文所占比例

      在突發(fā)公共事件情境下,一個(gè)自戀人格特征相對(duì)明顯的用戶可能會(huì)更傾向于發(fā)布與突發(fā)公共事件相關(guān)的負(fù)面情感信息以吸引更多人的注意并引起共鳴,從而提升自己的影響力;而且,可能會(huì)表達(dá)對(duì)政府機(jī)構(gòu)的不滿或?qū)π袨橹黧w的不認(rèn)可。

      x3=count(negative_tweets)x1

      4)推文中形容詞平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)用大量的形容詞來(lái)描述自己的外貌、成就和性格。

      x4=count(adjectives)x1

      5)推文中動(dòng)詞平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)強(qiáng)調(diào)自己的行動(dòng)和成就,以增強(qiáng)對(duì)他人的影響。

      x5=count(verbs)x1

      6)推文中名詞平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)經(jīng)常提到自己的名字、外貌、成就等等,以體現(xiàn)個(gè)人的重要性。

      x6=count(nouns)x1

      7)推文中副詞平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)使用副詞來(lái)描述自己的行動(dòng)和情感狀態(tài),以體現(xiàn)其影響力更大。

      x7=count(adverbs)x1

      8)推文中話題標(biāo)簽平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)使用話題標(biāo)簽來(lái)使自己的推文更加易于被發(fā)現(xiàn)和關(guān)注。

      x8=count(hashtags)x1

      9)推文中@他人平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)在推文中@自己的粉絲或其他關(guān)注者,以獲得更多的關(guān)注和回應(yīng)。

      x9=count(mentions)x1

      10)推文中插入圖片平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)發(fā)布大量的照片和自拍照,以展示自己的外貌和生活。

      x10=count(pictures)x1

      11)推文中問(wèn)號(hào)平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)在推文中使用問(wèn)號(hào)來(lái)引起關(guān)注和好奇心,以吸引更多的關(guān)注和回應(yīng)。

      x11=count(question_marks)x1

      12)推文中感嘆號(hào)平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)使用一個(gè)或多個(gè)感嘆號(hào)來(lái)強(qiáng)調(diào)自己的情感強(qiáng)烈程度和推文的重要性。

      x12=count(exclaimation_marks)x1

      13)推文中單詞平均數(shù)

      自戀人格特征相對(duì)明顯的用戶可能會(huì)發(fā)布大篇幅(單詞數(shù)量較多)的推文來(lái)描述自己的行動(dòng)、成就、想法和情感狀態(tài)。

      x13=count(words)x1

      隨后,本文利用Python的vader sentiment模塊獲得用戶推文的情感極性。其他指標(biāo)均使用Python的正則匹配方法計(jì)算。

      2.2 描述性統(tǒng)計(jì)及相關(guān)性分析

      為了量化樣本在各個(gè)指標(biāo)上的結(jié)構(gòu)特點(diǎn),本文計(jì)算了每個(gè)指標(biāo)的均值、標(biāo)準(zhǔn)差、最小值、25%分位數(shù)、50%分位數(shù)(中位數(shù))、75%分位數(shù)和最大值,對(duì)13個(gè)指標(biāo)進(jìn)行描述性統(tǒng)計(jì),見(jiàn)表2。

      從表2可以看出:用戶的最大推文數(shù)為50條,平均每個(gè)用戶發(fā)推文10條。從推文的正面(x2)、負(fù)面(x3)情感占比來(lái)看,兩種情感占比相近。此外,對(duì)vader sentiment模塊生成的正、負(fù)情感效價(jià)進(jìn)行從小到大排序后,25%至75%分位差的數(shù)值表明,推文正面情感在0.45范圍內(nèi)波動(dòng),而負(fù)面情感在0.60范圍內(nèi)波動(dòng),說(shuō)明負(fù)面情感的占比更離散。從每條推文的形容詞(x4)、動(dòng)詞(x5)、名詞(x6)、副詞(x7)使用量均值來(lái)看,平均每條推文中的名詞數(shù)量最高,為9.91;副詞數(shù)量最低,為1.59。話題標(biāo)簽(x8)、@他人(x9)的均值超過(guò)了1,說(shuō)明用戶習(xí)慣于在推文中加入話題以及和別人互動(dòng)。但是推文插入圖片的均值為0.28(x10),表明大多數(shù)用戶不習(xí)慣在推文中加入圖片。從推文標(biāo)點(diǎn)的使用情況來(lái)看,問(wèn)號(hào)(x11)和感嘆號(hào)(x12)的均值相近,但是感嘆號(hào)的最大值為10.33,遠(yuǎn)高于問(wèn)號(hào)的最大值2.67,說(shuō)明在表達(dá)強(qiáng)烈的情感時(shí),用戶更習(xí)慣使用感嘆號(hào)。從每條推文單詞的平均數(shù)(x13)來(lái)看,用戶平均每條推文的單詞數(shù)為31.59。標(biāo)準(zhǔn)差反映了用戶間的差異性。用戶每條推文的平均單詞數(shù)的差異性最大,用戶近三年發(fā)表的推文總數(shù)的差異性次之,負(fù)面情感傾向推文的占比差異最小。

      另外,本文使用相關(guān)性熱力圖反映各指標(biāo)的相關(guān)性,如圖2所示。從圖2右側(cè)的色譜可知:變量間相關(guān)系數(shù)越接近黑色(值越接近-1),表明變量之間負(fù)相關(guān)的程度越高;相關(guān)系數(shù)越接近白色(值越接近1),表明變量之間正相關(guān)的程度越高。圖2顯示x2與x3呈現(xiàn)顯著的負(fù)相關(guān)關(guān)系,x5、x6與x13呈現(xiàn)顯著的正相關(guān)關(guān)系。

      2.3 Logit回歸分析

      Logit回歸是一種用于分類問(wèn)題的統(tǒng)計(jì)學(xué)方法,常用于二分類問(wèn)題,即將樣本分為2個(gè)類別(如是或否、存在或不存在等)。其基本思想是通過(guò)一個(gè)邏輯函數(shù)(Sigmoid函數(shù))將線性回歸的輸出映射到[0,1]之間的一個(gè)概率值,表示樣本屬于某一類別的概率。

      2.3.1 模型建立

      本文將上述13個(gè)指標(biāo)作為L(zhǎng)ogit回歸模型的自變量。假設(shè)基于用戶行為指標(biāo)x1,x2,…,x13的觀察,判斷用戶“自戀人格特征相對(duì)明顯”的概率為p,則該事件不發(fā)生的概率就為1-p,發(fā)生概率與不發(fā)生概率之比為p1-p,記作“優(yōu)勢(shì)”odds,對(duì)odds取自然對(duì)數(shù),即得Logit函數(shù):

      Logit(p)=ln(odds)=ln(p1-p)

      稱為p的Logit 變換,則Logit回歸模型為

      Logit(p)=ln(p1-p)

      =β0+β1x1+β2x2+…+β13x13 (1)

      式中:β0為常數(shù)項(xiàng);β1,β2,…,β13為回歸系數(shù),反映了自變量每變化一個(gè)單位,幾率(odds)的對(duì)數(shù)的變化情況。

      從式(1)可以看出:當(dāng)p在(0,1)之間變化時(shí),對(duì)應(yīng)的Logit(p)在(-∞,+∞)之間變化,自變量x1,x2,…,x13則可在任何范圍內(nèi)取值。

      2.3.2 模型求解

      當(dāng)自變量很多時(shí),自變量之間可能會(huì)存在多重共線性,這會(huì)造成模型與實(shí)際不符,因此本文首先對(duì)數(shù)據(jù)進(jìn)行多重共線性診斷。而度量多重共線性嚴(yán)重程度的一個(gè)重要指標(biāo)是指標(biāo)矩陣條件數(shù)κ,其計(jì)算公式如下:

      κ(X)=‖X‖‖X-1‖

      其中:‖X‖=max1≤j≤n{∑mi=1xij},xij為指標(biāo)矩陣X的元素。

      從實(shí)際應(yīng)用的經(jīng)驗(yàn)角度來(lái)看:κ<100,被認(rèn)為多重共線性的程度很??;100≤κ≤1 000,被認(rèn)為存在中等程度或較強(qiáng)的多重共線性;若κ>1 000,則認(rèn)為存在嚴(yán)重的多重共線性[11]。經(jīng)過(guò)計(jì)算,研究的13個(gè)用戶行為指標(biāo)的矩陣條件數(shù)為108.92,說(shuō)明各指標(biāo)間存在中等程度的多重共線性。

      指標(biāo)間存在多重共線性會(huì)導(dǎo)致建模結(jié)果變差。因此,本研究利用逐步回歸的方法進(jìn)行指標(biāo)篩選,以保證在不損失重要指標(biāo)的前提下消除多重共線性問(wèn)題。首先用13個(gè)指標(biāo)作為自變量建立一個(gè)回歸模型,然后計(jì)算在剔除任意一個(gè)自變量后回歸模型的擬合度,模型的擬合度最優(yōu)時(shí)對(duì)應(yīng)的變量即要剔除的變量。依此類推,直至回歸模型剩余的p個(gè)變量中再任意剔除一個(gè)變量,模型的擬合度都會(huì)變差,此時(shí)已經(jīng)沒(méi)有可以繼續(xù)剔除的自變量,因此包含這p個(gè)變量的回歸模型就是最終確定的模型。

      本文使用AIC準(zhǔn)則(Akaike information criterion)來(lái)衡量模型擬合的優(yōu)劣,其計(jì)算公式如下:

      CAI=2k-ln(L^)

      式中:CAI為AIC值;k為模型中待估參數(shù)的數(shù)量;L^是該模型極大似然估計(jì)的最大值。

      AIC值越小,說(shuō)明該統(tǒng)計(jì)模型損失的信息越少,統(tǒng)計(jì)模型的建模效果越好。因此,在進(jìn)行逐步回歸求解時(shí),模型篩選變量的目標(biāo)是:第一,模型中的變量均為顯著;第二,模型整體顯著且AIC值最低。

      本文使用Python工具包statsmodels進(jìn)行模型求解,得到系數(shù)的顯著性,見(jiàn)表3。

      模型的p值反映了模型的顯著水平,其值為5.144 1e-43 (<0.05),表明模型顯著。從模型的回歸系數(shù)來(lái)看,用戶近三年發(fā)表的推文總數(shù)(x1)、負(fù)面情感傾向推文所占比例(x3)、推文中動(dòng)詞平均數(shù)(x5)、推文中話題標(biāo)簽平均數(shù)(x8)和推文中感嘆號(hào)平均數(shù)(x12)的p值小于0.05,說(shuō)明這5個(gè)行為指標(biāo)構(gòu)成的信息行為特征組與用戶群體自戀人格特征顯著相關(guān)。本文對(duì)逐步回歸分析后得到的變量進(jìn)行多重共線性檢驗(yàn),以上5個(gè)指標(biāo)的矩陣條件數(shù)為1.89,遠(yuǎn)小于100,說(shuō)明指標(biāo)間多重共線性問(wèn)題已經(jīng)得到很大程度改善。因此,本文得到的Logit回歸模型為

      Logit(p)

      =ln(p1-p)

      =1.847 5+0.073 9x1+0.736 8x3+

      0.089 9x5+0.116 4x8+0.791 3x12(2)

      2.3.3 結(jié)果分析

      從式(2)可以得出:在突發(fā)公共事件情境下的Twitter社區(qū)中,最能反映用戶自戀人格特征的信息行為指標(biāo)組合為:用戶近三年發(fā)表的推文總數(shù)、負(fù)面情感傾向推文所占比例、推文中動(dòng)詞平均數(shù)、推文中話題標(biāo)簽平均數(shù)和推文中感嘆號(hào)平均數(shù)。其中用戶近三年發(fā)表的推文總數(shù)的系數(shù)為0.073 9,這表明當(dāng)其他變量保持不變時(shí),用戶推文量每增加一個(gè)單位,用戶自戀人格特征相對(duì)明顯的概率將提升0.073 9。類似地,當(dāng)固定其他信息行為指標(biāo)不變時(shí),其余4個(gè)影響因素每增加一個(gè)單位,用戶自戀的概率分別增加0.736 8、0.089 9、0.116 4、0.791 3。

      2.3.4 模型評(píng)估

      針對(duì)二分類任務(wù)結(jié)果可以得到4個(gè)值:真陽(yáng)性(true positive,TP)、假陽(yáng)性(false positive,F(xiàn)P)、真陰性(true negative,TN)和假陰性(false negative,F(xiàn)N),這4個(gè)值構(gòu)成了圖3所示的混淆矩陣。

      在本文中,TP =431,表示自戀人格特征相對(duì)明顯用戶被正確分類的數(shù)量;FP =188,表示自戀人格特征相對(duì)不明顯用戶被錯(cuò)誤分類的數(shù)量;TN =278,表示自戀人格特征相對(duì)不明顯用戶被正確分類的數(shù)量;FN =111,表示自戀人格特征相對(duì)明顯用戶被錯(cuò)誤分類的數(shù)量。

      由上述4個(gè)值,本文得出準(zhǔn)確度A、精確度P、召回率R和F1-score值F1用以評(píng)估模型的分類效果。

      準(zhǔn)確度表示總體數(shù)據(jù)中,有多少數(shù)據(jù)被分類正確了。其計(jì)算結(jié)果為

      A=TP+TNTP+TN+FP+FN=0.703 4

      精確度表示分類為自戀人格特征相對(duì)明顯且分類正確的數(shù)量占實(shí)際為自戀人格特征相對(duì)明顯樣本數(shù)量的比例。其計(jì)算結(jié)果為

      P=TPTP+FP=0.696 3

      召回率表示分類為自戀人格特征相對(duì)明顯且分類正確的數(shù)量占全部分類為自戀人格特征相對(duì)明顯數(shù)量的比例。其計(jì)算結(jié)果為

      R=TPTP+FN=0.795 2

      F1值是精確度和召回率的調(diào)和均值。其計(jì)算結(jié)果為

      F1=2×P×RP+R=0.742 5

      準(zhǔn)確度值為0.703 4表明該模型的分類準(zhǔn)確性較好的。而且,精確度、召回率和F1值接近,表明模型的分類結(jié)果中正例和負(fù)例的比例是相近的,且分類結(jié)果與實(shí)際結(jié)果相符合的樣本數(shù)量和誤判樣本數(shù)量相近,說(shuō)明本文中自戀人格特征分類模型的性能較好。

      3 總結(jié)與展望

      本文通過(guò)對(duì)網(wǎng)絡(luò)爬蟲(chóng)獲取的大樣本數(shù)據(jù)構(gòu)建Logit回歸模型,證明了在突發(fā)公共事件情境下,用戶的4種群體自戀人格特征(優(yōu)越/傲慢、領(lǐng)導(dǎo)/權(quán)威、強(qiáng)勢(shì)/權(quán)力、自我陶醉/自我欣賞)中的一種或多種組合都與他們?cè)跀?shù)字社區(qū)中的信息行為特征(用戶近三年發(fā)表的推文總數(shù)、負(fù)面情感傾向推文所占比例、推文中動(dòng)詞平均數(shù)、推文中話題標(biāo)簽平均數(shù)和推文中感嘆號(hào)平均數(shù))相關(guān)組合。這表明針對(duì)突發(fā)公共事件,自戀人格特征相對(duì)明顯的用戶群體更傾向于在數(shù)字社區(qū)中發(fā)布更多的、負(fù)面情感傾向、有一定煽動(dòng)性、級(jí)聯(lián)性、情感效價(jià)較高的相關(guān)信息。同時(shí)也說(shuō)明,自戀人格特征相對(duì)明顯的用戶群體更渴望在數(shù)字社區(qū)中得到關(guān)注、認(rèn)可、贊賞、積極回應(yīng)以滿足其人格正常和諧發(fā)展的需要。

      上述研究結(jié)果為如何實(shí)現(xiàn)大數(shù)據(jù)賦能突發(fā)公共事件應(yīng)急響應(yīng)和維護(hù)民眾心理健康提供了2條思路:第一,通過(guò)大數(shù)據(jù)建模實(shí)現(xiàn)自戀人格畫(huà)像,更精準(zhǔn)地關(guān)注可能需要干預(yù)的用戶群體,預(yù)防網(wǎng)絡(luò)暴力、負(fù)面數(shù)字情緒感染、負(fù)面情感信息級(jí)聯(lián)的發(fā)生;第二,更為精準(zhǔn)地判斷不同用戶的自戀人格特征及其心理需求,從而更有針對(duì)性地為他們提供個(gè)性化的數(shù)字服務(wù)以促進(jìn)他們的心理健康??傊?,進(jìn)行用戶群體人格畫(huà)像研究對(duì)促進(jìn)數(shù)字社區(qū)健康發(fā)展,拓展大數(shù)據(jù)技術(shù)、人工智能技術(shù)應(yīng)用場(chǎng)景都具有重要意義。

      參考文獻(xiàn):

      PERVIN L A. 人格科學(xué)[M]. 上海: 華東師范大學(xué)出版社, 2001: 467.

      [2] RASKIN R, HOWARD T. A principal-components analysis of the narcissistic personality inventory and further evidence of its construct validity[J]. Journal of Personality and Social Psychology, 1988, 54(5): 890-902.

      [3] GEEL M V, ANOUK G, FATIH T, et al. Which personality traits are related to traditional bullying and cyberbullying? A study with the Big Five, Dark Triad and sadism[J]. Personality and Individual Differences, 2017, 106: 231-235.

      [4] MCCRAE R, ANTONIO T. Personality profiles of cultures: aggregate personality traits[J]. Journal of Personality and Social Psychology, 2005, 89(3): 407-425.

      [5] LEE J, JIHYE L, YOUNG S, et al. Self-disclosures on Facebook: the two faces of narcissism[J]. International Journal of Advanced Culture Technology, 2020, 8(2): 139-145.

      [6] HUANG L V, LIU S S. Presenting an ideal self on Weibo: the effects of narcissism and self-presentation valence on uses and gratification[J]. Frontiers in Psychology, 2020, 11:1310.1-1310.6.

      [7] CHRISTINA S, SCHWARTZ A M, RUDY A H, et al. I love my selfie! An investigation of overt and covert narcissism to understand selfie-posting behaviors within three geographic communities[J]. Computers in Human Behavior, 2020, 104(10): 106158.1-106158.11.

      [8] WILLCOX G, DAVID A, LOUIS R, et al. Measuring group personality with swarm AI[C]// 2019 First International Conference on Transdisciplinary AI (TRANSAI 2019), Laguna Hills, CA: IEEE, 2019: 10-17.

      [9] YANG Q, ALEKSANDR F, SERGEY N, et al. Do we behave differently on Twitter and Facebook: multi-view social network user personality profiling for content recommendation?[J]. Frontiers in Big Data, 2022, 5: 931206.1-931206.16.

      [10]LIU D, BAUMEISTER R F. Social networking online and personality of self-worth: a meta-analysis[J]. Journal of Research in Personality, 2016, 64: 79-89.

      [11]EMMONS R A. Factor analysis and construct validity of the narcissistic personality inventory[J]. Journal of Personality Assessment, 1984, 48(3): 291-300.

      [12]AMES D R, ROSE P, ANDERSON C P. The NPI-16 as a short measure of narcissism[J]. Journal of Research in Personality, 2006, 40(4): 440-450.

      (責(zé)任編輯:周曉南)

      Digital Community User Group Personality Profiling

      Through the Lens of Big Data

      FU Qian1, ZHAO Haiteng2, ZHAO Xiaoqing*1, SHUAI Yixin1

      (1.Mental Health Education & Consulting Center, Guizhou University, Guiyang 550025, China;2.Computer Science and Technology, Guizhou University, Guiyang 550025, China)

      Abstract:

      Personality profiles are key drivers behind human behaviors, and they influence people’s daily life all the time. In the context of public emergencies, there may be more individual differences in this influence mechanism. The emergence of digital communities makes it possible to automatically and effectively capture user group personality profiles by analyzing big data of user information behaviors. However, research efforts on this issue are relatively sparse. This study takes the relevant information released by Twitter users during the COVID-19 epidemic and their related information behavior records as samples to conduct user group personality profiling. First, professional counselors were invited to set labelling rules and label the data based on the definition and scale of narcissism personality. Then, this study designs 13 potential user behavior indicators, builds a logit regression model, and evaluates the classification performance of this model (the accuracy reaching 70.34%). Finally, this study identifies a set of information behavior indicators closely related to the narcissism personality profiles of user groups. There are five indicators in this constellation, including the total number of tweets published by users in the past three years, the proportion of negative sentiment tweets, the average number of verbs in tweets, the average number of hashtags in tweets, and the average number of exclamation marks in tweets. Thus, we propose a group personality profiling method based on big data analysis of user information behaviors for specific situations (e.g. public emergencies, etc.), which provides a new idea for maintaining users’ mental health and clear space for digital community.

      Key words:

      digital community; group personality; narcissism personality; personality profiling; Logit regression

      莱州市| 海丰县| 岢岚县| 天津市| 凤庆县| 昌黎县| 阳西县| 邓州市| 新绛县| 金堂县| 桃园市| 兴宁市| 汾阳市| 黄骅市| 陇西县| 同仁县| 东光县| 江川县| 个旧市| 梁河县| 怀安县| 新泰市| 思南县| 拉孜县| 麻栗坡县| 温泉县| 景谷| 扶风县| 洮南市| 淮南市| 灵璧县| 郧西县| 平乐县| 湖南省| 广元市| 凌海市| 敖汉旗| 新建县| 谷城县| 图们市| 西丰县|