娜迪熱 胡俊
摘要:隨著互聯(lián)網(wǎng)的發(fā)展,社交網(wǎng)絡(luò)在人們的工作生活中扮演著重要的角色,人們?cè)谏缃痪W(wǎng)絡(luò)中發(fā)布、分享信息和觀點(diǎn),這些社交行為產(chǎn)生大量的數(shù)據(jù),使得社交網(wǎng)絡(luò)成為蘊(yùn)含個(gè)人信息和情感的載體。該課題在已有相關(guān)研究的基礎(chǔ)上,提出并驗(yàn)證了一種根據(jù)用戶社交網(wǎng)絡(luò)數(shù)據(jù)對(duì)用戶的人格傾向進(jìn)行預(yù)測(cè)的方法。在實(shí)現(xiàn)過程中,利用爬蟲技術(shù)得到微博用戶的相關(guān)數(shù)據(jù),其中包括用戶在使用社交網(wǎng)絡(luò)時(shí)產(chǎn)生的文本信息,以及用戶的行為信息與社交關(guān)系信息,工作重點(diǎn)是通過提取采集數(shù)據(jù)信息的相關(guān)特征值,并對(duì)特征值進(jìn)行降維處理,在建立預(yù)測(cè)模型時(shí)采用了機(jī)器學(xué)習(xí)方法以提高準(zhǔn)確率。通過對(duì)比實(shí)驗(yàn),驗(yàn)證了提出的預(yù)測(cè)方法在人格預(yù)測(cè)的精確度上有顯著的提高。
關(guān)鍵詞:社交網(wǎng)絡(luò);特征抽??;機(jī)器學(xué)習(xí);人格傾向性分析
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)07-0006-06
Abstract: With the development of the Internet, the social networks start playing an important role in people's work and life. People publish and share information and opinions in social networks, and thus generate a large amount of data, making social networks a carrier of personal information and emotion. Based on the existing studies, this research proposes a method to predict personality tendency in the light of social network data. In the process of implementation, we use crawler technology to get the related data of micro-blog users, including the text information generated by users when using social networks, as well as their behavior information and social relationship information. The focus lies in extracting the relevant characteristics of the collected data and information and reducing the dimension of the eigenvalue. A machine learning method is adopted in the process of establishing the forecasting model to improve the accuracy. Through comparative experiments, it is verified that the proposed prediction method presents a significant improvement in the accuracy of personality prediction.
Key words: Social Network; Feature Extraction; Machine Learning; Personality Propensity Analysis
隨著各類社交網(wǎng)絡(luò)平臺(tái)的發(fā)展與興起,越來越多的人開始在社交網(wǎng)絡(luò)平臺(tái)上發(fā)布狀態(tài)、分享信息以及表達(dá)觀點(diǎn),從而產(chǎn)生大量的數(shù)據(jù),其中蘊(yùn)含著用戶個(gè)人情感、性格特征等信息。社交網(wǎng)絡(luò)改變了人類交流、通信及合作的方式,甚至可能影響我們對(duì)自身和社會(huì)的認(rèn)知。社交網(wǎng)絡(luò)的不斷發(fā)展與完善使其對(duì)人們生活的滲透作用日益增大,甚至影響著現(xiàn)實(shí)社會(huì)關(guān)系網(wǎng)絡(luò)的重建。
用戶在社交網(wǎng)絡(luò)使用過程中的行為和狀態(tài)可以通過信息技術(shù)等來記錄、獲取及分析。近年來,基于社交網(wǎng)絡(luò)數(shù)據(jù)的分析與應(yīng)用方法與技術(shù)成為了研究的熱點(diǎn)。在社會(huì)科學(xué)中,人格可以用于區(qū)分和衡量人們?cè)谏鐣?huì)交往中產(chǎn)生的個(gè)體差異。人格與行為息息相關(guān),社交網(wǎng)絡(luò)產(chǎn)生的信息在一定程度上反應(yīng)相應(yīng)用戶的情感,即其本質(zhì)上是受用戶人格傾向性的制約和影響的。通過對(duì)用戶在社交網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)進(jìn)行分析研究,可以對(duì)人格傾向性進(jìn)行相關(guān)的預(yù)測(cè)研究?;谏缃痪W(wǎng)絡(luò)用戶行為信息的人格分析和預(yù)測(cè)有著廣闊應(yīng)用前景。
Pang B, Lee L主要考慮句子間情感聯(lián)系,通過對(duì)詞特征進(jìn)行訓(xùn)練以對(duì)網(wǎng)絡(luò)文本進(jìn)行情感極性分析[1]。Hatzivassiloglou V提出一種貝葉斯分類器用相似性方法對(duì)網(wǎng)絡(luò)文本進(jìn)行主觀客觀識(shí)別[2]。Whelan S提出人格信息可用于商品個(gè)性化推薦[3],也可根據(jù)不同的人格特征進(jìn)行音樂個(gè)性化推薦[4]。通過對(duì)用戶人格特征分析得出用戶生活工作習(xí)性與習(xí)慣在商業(yè)上有著重要的應(yīng)用價(jià)值。國外相關(guān)研究主要基于Facebook和Twitter等社交網(wǎng)絡(luò)。Augustine等人對(duì)Facebook用戶產(chǎn)生的11種行為特征與用戶性格的相關(guān)性進(jìn)行了分析和驗(yàn)證[5]。Golbeck提出一個(gè)數(shù)學(xué)模型,根據(jù)5.8萬位美國Facebook用戶的“贊”記錄來預(yù)測(cè)用戶相關(guān)特征和偏好,通過將模型預(yù)測(cè)結(jié)果與志愿者的Facebook檔案信息,以及在線測(cè)試得出的智力、人格和生活滿意度等信息進(jìn)行比對(duì),發(fā)現(xiàn)該模型可以準(zhǔn)確地預(yù)測(cè)參與者的性別、種族出身和性傾向等,其中性別預(yù)測(cè)、黑人和白人識(shí)別,以及同性戀和異性戀判別的正確率分別達(dá)到93%、95%,以及88%。而對(duì)民主黨人和共和黨人、基督教徒和穆斯林進(jìn)行正確識(shí)別率均超過80% [6]。Youyou W提出,即時(shí)準(zhǔn)確的性格判斷來自人的社會(huì)認(rèn)知技能,而機(jī)器學(xué)習(xí)的發(fā)展顯示出計(jì)算機(jī)模型同樣可做出有效判斷,其通過使用86220位完成調(diào)查問卷的志愿者例子比較人和計(jì)算機(jī)對(duì)個(gè)性的判斷,得出計(jì)算機(jī)對(duì)人的判斷比其Facebook好友的判斷的準(zhǔn)確率高;計(jì)算機(jī)模型顯示出更高的評(píng)判者間的統(tǒng)一性;計(jì)算機(jī)對(duì)個(gè)性判斷有更高的外部真實(shí)性:在預(yù)測(cè)生活收入、物質(zhì)需求、政治態(tài)度及身體健康等方面,計(jì)算機(jī)模型比人做得更好[7]。
將社交網(wǎng)絡(luò)用戶的人格或內(nèi)在潛質(zhì)研究與社交網(wǎng)絡(luò)數(shù)據(jù)的分析相結(jié)合,其主要是在于是根據(jù)用戶產(chǎn)生的社交網(wǎng)絡(luò)數(shù)據(jù)對(duì)其人格傾向性進(jìn)行分析和預(yù)測(cè),并將分析和預(yù)測(cè)應(yīng)用到相關(guān)領(lǐng)域,包括商業(yè)領(lǐng)域等。根據(jù)用戶使用社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)來分析用戶的人格傾向存在其特有的困難,因?yàn)槿烁駜A向是個(gè)人潛層特質(zhì),這類數(shù)據(jù)的結(jié)構(gòu)復(fù)雜、噪聲多,與人格相關(guān)性較弱。
本文主要研究基于社交網(wǎng)絡(luò)數(shù)據(jù)的用戶人格傾向性分析以及模型建立的方法,并對(duì)其進(jìn)行驗(yàn)證。
首先是建立用戶的社交網(wǎng)絡(luò)數(shù)據(jù)與用戶的人格傾向性的關(guān)系,從而根據(jù)二者的關(guān)系建立人格預(yù)測(cè)模型,最后最預(yù)測(cè)模型的結(jié)果進(jìn)行驗(yàn)證。
1 人格傾向性的測(cè)量模型與測(cè)量方法
現(xiàn)階段關(guān)于社交網(wǎng)絡(luò)用戶分析的重點(diǎn)偏向?qū)ι缃挥脩裟撤N行為或者某類數(shù)據(jù)的分析,然而用戶在使用社交網(wǎng)絡(luò)時(shí)不同的行為會(huì)產(chǎn)生不同類型的數(shù)據(jù),所以現(xiàn)階段對(duì)社交用戶與用戶人格傾向性的關(guān)系的研究缺乏對(duì)于不同類型行為與數(shù)據(jù)的全面探索。對(duì)于基于中文社交網(wǎng)絡(luò)的用戶的性格或人格傾向分析更是處于起步階段。
1.1 人格傾向性測(cè)量模型
在人格心理學(xué)范疇內(nèi),對(duì)人格研究有著不同的流派,其中特質(zhì)流派提供了一種相對(duì)科學(xué)可靠的分析和量化方法。對(duì)社交網(wǎng)絡(luò)進(jìn)行人格傾向性預(yù)測(cè)研究中使用的人格量表、人格模型等一般來自此流派,其中主流模型是大五人格模型(Big-Five Model),五個(gè)方面的人格特質(zhì)分別為謹(jǐn)慎性(Conscientiousness)、神經(jīng)質(zhì)(Neuroticism)、開放性(Openness)、外傾性(Extraversion)以及友善性(Agreeableness)。通過這五個(gè)人格特質(zhì)可以描述一個(gè)個(gè)體的人格。大五人格特質(zhì)的描述如表1所示。
1.2 人格傾向性測(cè)量方法
人格測(cè)評(píng)一般分為主動(dòng)自我報(bào)告和被動(dòng)行為測(cè)量?jī)煞N方式[8]。傳統(tǒng)的自我報(bào)告法的形式有問卷與訪談等,其中訪談涉及專業(yè)問題,問卷法需要用戶自己按照實(shí)際情況回答問題。目前大多數(shù)對(duì)于社交網(wǎng)絡(luò)與用戶的研究都是使用自我報(bào)告法,從而得到用戶的人格數(shù)據(jù)。
標(biāo)準(zhǔn)大五人格量表包含60道單項(xiàng)選擇題,每個(gè)性格維度對(duì)應(yīng)12道單選題目,每道題有從非常不符合到非常符合等五種選項(xiàng)。
本文采用標(biāo)準(zhǔn)的大五人格量表(NEO-PI-R)作為評(píng)估目標(biāo)用戶人格傾向的標(biāo)準(zhǔn)。
2 社交用戶數(shù)據(jù)的獲取與分析處理
社交網(wǎng)絡(luò)用戶在使用社交網(wǎng)絡(luò)中產(chǎn)生相關(guān)數(shù)據(jù),因此可以通過這些數(shù)據(jù)信息來探索分析用戶的人格屬性。也可以說,就是從海量的數(shù)據(jù)中挖掘出能夠反映用戶人格的相關(guān)信息。
本文以中文社交社區(qū)新浪微博為例,對(duì)用戶在使用微博時(shí)產(chǎn)生的大量數(shù)據(jù)進(jìn)行數(shù)據(jù)篩選,進(jìn)而抽取出與用戶人格傾向相關(guān)聯(lián)的特征,主要特征包括兩方面:一是社交用戶的行為特征,二是用戶社交關(guān)系網(wǎng)絡(luò)特征。兩種特征分別從兩類數(shù)據(jù)中提取,一是社交用戶在社交過程中產(chǎn)生的數(shù)據(jù),二是用戶的社交關(guān)系網(wǎng)絡(luò)數(shù)據(jù),即用戶在使用社交網(wǎng)絡(luò)平臺(tái)過程中建立的網(wǎng)絡(luò)關(guān)系的數(shù)據(jù),如用戶與關(guān)注好友及用戶粉絲之間的關(guān)系網(wǎng)絡(luò)數(shù)據(jù)、用戶某條微博的轉(zhuǎn)發(fā)情況的關(guān)系數(shù)據(jù)等。對(duì)第一類數(shù)據(jù),將通過網(wǎng)絡(luò)爬蟲工具來獲取,根據(jù)用戶在填寫大五人格模型的問卷時(shí)提供的微博ID號(hào)得到對(duì)應(yīng)用戶微博主頁地址,利用爬蟲技術(shù)獲取該地址的內(nèi)容,再通過對(duì)腳本技術(shù)對(duì)網(wǎng)頁結(jié)構(gòu)的解析進(jìn)行匹配,使用正則表達(dá)式解析獲得用戶的信息和數(shù)據(jù),并存入用戶對(duì)應(yīng)的JSON文件中;對(duì)第二類數(shù)據(jù),主要通過用戶授權(quán)在新浪微博開放平臺(tái)獲得。
2.1用戶的社交行為數(shù)據(jù)分析
用戶在使用社交網(wǎng)絡(luò)過程中會(huì)產(chǎn)生大量不同類型數(shù)據(jù),本文工作將微博用戶的行為數(shù)據(jù)分為靜態(tài)屬性、行為特征及語言特征三方面,如表2所示。
2.2用戶的社交關(guān)系網(wǎng)絡(luò)數(shù)據(jù)分析
用戶社交關(guān)系網(wǎng)絡(luò)是指用戶在使用社交平臺(tái)時(shí)產(chǎn)生的社交關(guān)系網(wǎng)絡(luò),其與用戶個(gè)人相關(guān),具有不同的人格特征的用戶產(chǎn)生的社交關(guān)系網(wǎng)絡(luò)有其各自特征。用戶社交關(guān)系網(wǎng)絡(luò)對(duì)于分析預(yù)測(cè)用戶的人格特征有著很大價(jià)值。
本文用圖G表示用戶社交關(guān)系網(wǎng)絡(luò),N表示網(wǎng)絡(luò)中節(jié)點(diǎn)的個(gè)數(shù)。元素[yij]的值表示用戶[i]和[j]是否關(guān)聯(lián),若兩者之間有關(guān)聯(lián),則[yij=1];否則[yij=0]。
社交關(guān)系網(wǎng)絡(luò)特征指標(biāo)描述如下:
(1)網(wǎng)絡(luò)大小(Network size):表示社交關(guān)系網(wǎng)絡(luò)中包含的用戶個(gè)數(shù),即節(jié)點(diǎn)個(gè)數(shù)。
(2)網(wǎng)絡(luò)密切度(Closer degree):表示社交關(guān)系網(wǎng)絡(luò)中用戶之間的關(guān)聯(lián)度,記作:
[Cdegree=i,jyijN(N-1)]
(3)中介中心度(Betweenness centrality):值越高則該節(jié)點(diǎn)在圖中被通過率越高,映射到社交網(wǎng)絡(luò)中說明該用戶在社交關(guān)系網(wǎng)絡(luò)中具有的影響力越高,記作:
[Betweenness=i 其中,[Gjk]表示用戶[j]與[k]間的最短路徑的條數(shù)。[Gjk(i)]表示用戶[j]與[k]之間的所有最短路徑中經(jīng)過[i]的最短路徑的個(gè)數(shù)。 (4)中介者(Network size):表示社交關(guān)系網(wǎng)絡(luò)中不相關(guān)的節(jié)點(diǎn)的對(duì)數(shù)。 2.3特征值抽取及處理 采用特征提取的方法對(duì)數(shù)據(jù)進(jìn)行降維,以便有效地獲取數(shù)據(jù)所包含的有用信息。使用基于靜態(tài)詞庫的文本分析軟件及數(shù)據(jù)庫來進(jìn)行數(shù)據(jù)處理。采用文心(TextMind)中文心理分析系統(tǒng)對(duì)文本數(shù)據(jù)進(jìn)行特征值抽取,此系統(tǒng)可以針對(duì)中文文本進(jìn)行語言分析,能夠便捷地分析文本中使用的不同類別語言的程度與偏好等特點(diǎn)。 為對(duì)用戶的信息進(jìn)行更好的度量,對(duì)獲得的特征值進(jìn)行組合優(yōu)化,將用戶產(chǎn)生的信息與五大性格特征即人格傾向性相互對(duì)應(yīng),以便于對(duì)用戶人格傾向性進(jìn)行分析和預(yù)測(cè)。對(duì)于得到的特征還需要經(jīng)過篩選和降維以得到更好的訓(xùn)練效果。
本文重點(diǎn)在于對(duì)用戶特征與人格分值的相關(guān)性的分析,以及特征之間的冗余性的分析,為篩選出特征與人格相關(guān)性更高的特征值,本文通過相似性度量,選擇基于相關(guān)性分析的特征值選擇方法,對(duì)相關(guān)性較強(qiáng)的特征值進(jìn)行篩選,即達(dá)到特征值篩選與降維的目的。
由于本文的人格分值和用戶特征值都是數(shù)值,故利用皮爾森相關(guān)系數(shù)(Pearson correlation coefficient)進(jìn)行相似性度量,首先通過Pearson系數(shù)評(píng)估各用戶特征維度和五個(gè)人格分值的相關(guān)度,根據(jù)數(shù)據(jù)設(shè)定一定的閾值,提取出高于設(shè)定閾值用戶特征作為主要特征來預(yù)測(cè)用戶傾向[9]。Pearson系數(shù)的定義為兩個(gè)變量的協(xié)方差和標(biāo)準(zhǔn)差的比值:
其中[Cov(X,Y)]表示變量[X]和[Y]的協(xié)方差,[σx]和[σy]分別是X和Y的標(biāo)準(zhǔn)差,[X]和[Y]分別是X和Y的均值。
通過以上方法,便可計(jì)算出大五個(gè)人格模型的調(diào)查問卷得到的人格分值及對(duì)應(yīng)微博用戶的特征的相關(guān)系數(shù)。
對(duì)于特征冗余,即用戶特征與特征之間存在冗余,這個(gè)冗余也同樣可以通過Pearson系數(shù)得到。如果兩個(gè)特征間的相似性較強(qiáng),即有強(qiáng)相關(guān)性,那么這兩個(gè)特征互為冗余特征,則將二者中與人格分值的相關(guān)性較低的那個(gè)特征剔除掉。
3 社交網(wǎng)絡(luò)用戶人格傾向性預(yù)測(cè)模型
建立社交網(wǎng)絡(luò)用戶人格傾向性預(yù)測(cè)模型是本文的另一個(gè)重點(diǎn),主要是根據(jù)得到的數(shù)據(jù)并且選擇合適的機(jī)器學(xué)習(xí)算法。根據(jù)本文采用的數(shù)據(jù)類型以及期望預(yù)測(cè)結(jié)果,本文使用線性回歸(Linear Regression, LR)、高斯回歸(Gaussian process Regression, GP)和支持向量機(jī)(Support Vector Machine, SVM)三種方法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。
3.1 預(yù)測(cè)模型算法
選擇用線性回歸算法構(gòu)建用戶人格傾向性預(yù)測(cè)模型,要區(qū)分自變量和因變量,即將人格分值作為因變量,用戶特征作為自變量。經(jīng)過第二章節(jié)分析,篩選出與人格分值相關(guān)性較高的用戶特征,如粉絲數(shù)、微博數(shù)及表情數(shù)等,這些特征值可以表示為n個(gè)自變量,記作[(X1,X2,···,Xn)]。對(duì)某個(gè)用戶人格特征,可以用如下的回歸方程表示:
高斯回歸過程是由一系列符合高斯分布的隨機(jī)變量組成的隨機(jī)過程,且高斯回歸過程回歸基于貝葉斯分類方法。因?yàn)楦咚够貧w比較適用于小樣本非線性的復(fù)雜問題,根據(jù)本文的特征數(shù)據(jù),故采用高斯過程回歸。
支持向量機(jī)算法是一種監(jiān)督學(xué)習(xí)的方法,其特點(diǎn)是可以同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū),因此可以作為最大邊緣區(qū)學(xué)習(xí)分類器。選擇支持向量機(jī)算法時(shí),需要對(duì)用戶的人格測(cè)試結(jié)果進(jìn)行處理。本文大五人格的調(diào)查結(jié)果的人格分值的得分是介于1-100分之間的連續(xù)值,并不能直接用于用戶分類,需要將數(shù)據(jù)先進(jìn)行處理,處理之后的離散化結(jié)果如表3所示。
本文使用Weka機(jī)器學(xué)習(xí)軟件[10]對(duì)上述的機(jī)器學(xué)習(xí)算法進(jìn)行實(shí)現(xiàn)和使用。
4實(shí)驗(yàn)數(shù)據(jù)與結(jié)果分析
為建立基本事實(shí)數(shù)據(jù),本文利用大五人格理論作為用戶性格模型,主要方法是量表評(píng)估的方式,通過在線平臺(tái)發(fā)放調(diào)查問卷。
通過網(wǎng)絡(luò)爬蟲獲得用戶在社交網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù),采用爬蟲工具Python 2.7,爬蟲庫urllib,以及數(shù)據(jù)處理庫BeautifulSoup。數(shù)據(jù)分析及特征值抽取使用python實(shí)現(xiàn)算法并對(duì)數(shù)據(jù)進(jìn)行計(jì)算,通過Weka機(jī)器學(xué)習(xí)軟件實(shí)現(xiàn)預(yù)測(cè)模型。
4.1實(shí)驗(yàn)步驟及數(shù)據(jù)
人格傾向性分析及模型的建立,按以下步驟進(jìn)行:
(1)首先通過調(diào)查問卷得到用戶的人格分值,并且根據(jù)用戶在問卷中提供的微博ID得到用戶的微博主頁;
(2)根據(jù)網(wǎng)頁爬蟲技術(shù)得到用戶的微博數(shù)據(jù),對(duì)于用戶微博數(shù)據(jù)通過特征抽取及特征降維的方式得到與人格分值相關(guān)系較高的用戶特征;
(3)通過Weka機(jī)器學(xué)習(xí)軟件,對(duì)于步驟1)與2)得到的數(shù)據(jù)進(jìn)行訓(xùn)練,從而建立預(yù)測(cè)模型;
(4)通過不同的機(jī)器學(xué)習(xí)算法以及不同的數(shù)據(jù)集設(shè)計(jì)對(duì)比實(shí)驗(yàn)并且分析結(jié)果。
分析通過在線平臺(tái)得到87份調(diào)查問卷,將沒有填寫用戶微博ID或者未完成的問卷進(jìn)行剔除,得到76份有效問卷。對(duì)問卷結(jié)果進(jìn)行歸一化處理,并且修正對(duì)應(yīng)的人格分值。人格分值區(qū)間為[0,100],值越高說明在對(duì)應(yīng)人格特征上表現(xiàn)越明顯。表4為樣本案例。
通過網(wǎng)絡(luò)爬蟲獲得用戶在社交網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)。本文實(shí)驗(yàn)工作中,利用用廣度優(yōu)先搜索爬蟲算法獲得用戶2015年1月至2016年12月的微博數(shù)據(jù)。同時(shí)通過新浪微博開放平臺(tái)提供的API獲得用戶的社交關(guān)系網(wǎng)絡(luò)數(shù)據(jù),并計(jì)算得出對(duì)應(yīng)特征值。
對(duì)文本數(shù)據(jù),采用“文心(TextMind)”中文心理分析系統(tǒng),從用戶文本數(shù)據(jù)中挖掘出文本特征。
對(duì)得到的用戶數(shù)據(jù)首先進(jìn)行分類,計(jì)算用戶微博特征與人格分值的相關(guān)性,然后計(jì)算用戶微博特征之間的冗余性,以實(shí)現(xiàn)降維。相關(guān)性與冗余性都通過皮爾森系數(shù)[11]得出。特征篩選主要步驟如下:
(1)根據(jù)皮爾森系數(shù)計(jì)算公式分別得到微博用戶特征與人格分值的相關(guān)性。
其中:X為人格分值,Y為用戶微博特征,根據(jù)實(shí)驗(yàn)發(fā)現(xiàn),閾值絕對(duì)值定在0.15,從而對(duì)不相關(guān)和極弱相關(guān)的特征進(jìn)行去除,結(jié)果如表5所示。
(2)將表5所示的篩選出的特征值相互之間同樣用皮爾森系數(shù)來計(jì)算冗余度,將互相冗余的特征值其一舍去。其中:X為用戶微博特征,Y為與X不同的用戶微博特征。
(3)由步驟2除去冗余的用戶特征值,得到每個(gè)人格特征與對(duì)應(yīng)用戶特征之間的相關(guān)性。
表6所示,帶*的值表示兩者之間存在著有意義的關(guān)聯(lián)性。有許多相關(guān)度符合人們的直覺反應(yīng),如神經(jīng)質(zhì)人格維度與文本特征anger表現(xiàn)正相關(guān)[12][13],這表示神經(jīng)質(zhì)的用戶通常會(huì)更多地表現(xiàn)出anger特征;外傾性與網(wǎng)絡(luò)密切度Cdgree表現(xiàn)正相關(guān),說明用戶外傾性跟用戶與社交好友的密切程度表現(xiàn)正相關(guān),用戶越外向就與他們的社交好友關(guān)系越密切;嚴(yán)謹(jǐn)性與表情數(shù)表現(xiàn)負(fù)相關(guān),說明嚴(yán)謹(jǐn)?shù)挠脩粼谏缃换顒?dòng)中很少用表情。
4.2實(shí)驗(yàn)結(jié)果及分析
為了建立用戶人格傾向性預(yù)測(cè)模型,將全面分析評(píng)估預(yù)測(cè)模型。本文使用Weka機(jī)器學(xué)習(xí)軟件,將實(shí)驗(yàn)數(shù)據(jù)按軟件規(guī)范以Json的數(shù)據(jù)格式存入文件,對(duì)不同算法的結(jié)果進(jìn)行分析,最終以對(duì)比圖的方式展現(xiàn)實(shí)驗(yàn)結(jié)果。采用線性回歸(LR)、高斯回歸(GP)和支持向量機(jī)(SVM)三種機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)[14][15],并應(yīng)用交叉驗(yàn)證的測(cè)試方法對(duì)模型精度進(jìn)行計(jì)算。
第一組對(duì)比實(shí)驗(yàn):為驗(yàn)證特征降維后會(huì)獲得更好的預(yù)測(cè)結(jié)果,使用兩種算法分別對(duì)降維前的全部特征和降維后的特征進(jìn)行訓(xùn)練。如外傾性,降維前對(duì)應(yīng)的特征有:點(diǎn)贊數(shù)、表情數(shù)、@數(shù)量、Betweenness、swear、anger、Cdegree;降維后對(duì)應(yīng)的特征值有:點(diǎn)贊數(shù)、表情數(shù)、Betweenness、swear、anger。其他四個(gè)人格特質(zhì)也采用一樣的方法,最終得到五個(gè)維度人格特質(zhì)對(duì)應(yīng)的歸一化平均絕對(duì)誤差[16][17]。
如圖1所示,針對(duì)五個(gè)維度的人格特質(zhì)建立五個(gè)人格預(yù)測(cè)模型,可以看出使用篩選后的特征的結(jié)果比使用全部特征的結(jié)果有明顯下降,并且使用SVM的機(jī)器學(xué)習(xí)算法模型的精確度有明顯優(yōu)化,說明特征降維處理后預(yù)測(cè)模型效果更好。
第二組對(duì)比實(shí)驗(yàn):為對(duì)比不同算法的效果,使用不同算法對(duì)降維后的特征進(jìn)行訓(xùn)練,對(duì)比各個(gè)模型的歸一化平均絕對(duì)誤差。
從圖2可看出,支持向量機(jī)算法的歸一化平均誤差比其他算法的歸一化平均誤差小,這說明采用支持向量機(jī)預(yù)測(cè)模型得到的結(jié)果相對(duì)比較準(zhǔn)確。從圖中還可以看出,預(yù)測(cè)模型對(duì)于開放性的預(yù)測(cè)效果最好,說明社交網(wǎng)絡(luò)信息更能體現(xiàn)出用戶的開放的人格傾向。然而,神經(jīng)質(zhì)的人格傾向在社交網(wǎng)絡(luò)的體現(xiàn)不是很明顯,說明用戶在此方面會(huì)有所隱藏,不會(huì)輕易表露。
第三組對(duì)比實(shí)驗(yàn):本文的特征模型中不僅包含文本信息,還包含用戶行為信息及用戶社交關(guān)系網(wǎng)絡(luò)信息。經(jīng)篩選發(fā)現(xiàn),開放性人格特征維度都含有用戶社交關(guān)系網(wǎng)絡(luò)特征。為驗(yàn)證增加用戶社交關(guān)系網(wǎng)絡(luò)特征會(huì)對(duì)預(yù)測(cè)結(jié)果有貢獻(xiàn),開放性社交關(guān)系網(wǎng)絡(luò)特征去除,再分別用三種算法對(duì)模型進(jìn)行訓(xùn)練,對(duì)比未去除的特征得到模型效果。
從圖3可看出,去除社交關(guān)系網(wǎng)絡(luò)特征后開放性預(yù)測(cè)模型的效果有所下降,可以看出社交關(guān)系網(wǎng)絡(luò)特征對(duì)預(yù)測(cè)模型有比較顯著的貢獻(xiàn)。
5 總結(jié)
分析用戶在使用社交網(wǎng)絡(luò)時(shí)產(chǎn)生的數(shù)據(jù),并利用分析結(jié)果對(duì)用戶的人格傾向性進(jìn)行預(yù)測(cè),這在心理學(xué)方面或商業(yè)領(lǐng)域都著重要的價(jià)值。本文在已有研究基礎(chǔ)上,根據(jù)社交網(wǎng)絡(luò)數(shù)據(jù)對(duì)人格傾向性預(yù)測(cè)提出了一種新方法,通過提取相關(guān)特征值及降維處理,使用不同的機(jī)器學(xué)習(xí)方法進(jìn)行人格預(yù)測(cè)。本文采用了用戶在社交網(wǎng)絡(luò)時(shí)的文本特征,以及用戶行為信息與用戶社交關(guān)系網(wǎng)絡(luò)信息進(jìn)行人格分析預(yù)測(cè),并且驗(yàn)證這種方法對(duì)于預(yù)測(cè)結(jié)果的精確度有一定的優(yōu)化。不足之處是本文實(shí)驗(yàn)時(shí)采用樣本數(shù)量有限,在后續(xù)的研究中將加大實(shí)驗(yàn)數(shù)據(jù),以便進(jìn)一步優(yōu)化預(yù)測(cè)模型。
參考文獻(xiàn):
[1] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of the 42nd annual meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004: 271.
[2] Yu H, Hatzivassiloglou V. Towards answering opinion questions: Separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 conference on Empirical methods in natural language processing. Association for Computational Linguistics, 2003: 129-136.
[3] Whelan S, Davies G. Profiling consumers of own brands and national brands using human personality[J]. Journal of Retailing and Consumer Services, 2006, 13(6): 393-402.
[4] Rentfrow P J, Gosling S D. The do re mi's of everyday life: the structure and personality correlates of music preferences[J]. Journal of personality and social psychology, 2003, 84(6): 1236.
[5] Gosling S D, Augustine A A, Vazire S, et al. Manifestations of personality in online social networks: Self-reported Facebook-related behaviors and observable profile information[J]. Cyberpsychology, Behavior, and Social Networking, 2011, 14(9): 483-488.
[6] Golbeck J, Robles C, Edmondson M, et al. Predicting personality from twitter[C]//Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom), 2011 IEEE Third International Conference on. IEEE, 2011: 149-156.
[7] Youyou W, Kosinski M, Stillwell D. Computer-based personality judgments are more accurate than those made by humans[J]. Proceedings of the National Academy of Sciences, 2015, 112(4): 1036-1040.
[8] 張磊, 陳貞翔, 楊波. 社交網(wǎng)絡(luò)用戶的人格分析與預(yù)測(cè)[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(8):001877-1894.
[9] 萬丹琳. 基于中文微博的用戶傾向挖掘與分析[D]. 北京郵電大學(xué), 2015.
[10] Wald R, Khoshgoftaar T M, Napolitano A, et al. Using Twitter content to predict psychopathy[C]//Machine Learning and Applications (ICMLA), 2012 11th International Conference on. IEEE, 2012, 2: 394-401.
[11] 陳艷秋, 孫培立. 一種基于類別強(qiáng)信息特征和貝葉斯算法的中文文本分類器[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(8): 330-333.
[12] Quercia D, Kosinski M, Stillwell D, et al. Our twitter profiles, our selves: Predicting personality with twitter[C]//Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom), 2011 IEEE Third International Conference on. IEEE, 2011: 180-185.
[13] Amichai-Hamburger Y, Vinitzky G. Social network use and personality[J]. Computers in human behavior, 2010, 26(6): 1289-1295.
[14] Ortigosa A, Carro R M, Quiroga J I. Predicting user personality by mining social interactions in Facebook[J]. Journal of computer and System Sciences, 2014, 80(1): 57-71.
[15] Golbeck J, Robles C, Edmondson M, et al. Predicting personality from twitter[C]//Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom), 2011 IEEE Third International Conference on. IEEE, 2011: 149-156.
[16] Bachrach Y, Kosinski M, Graepel T, et al. Personality and patterns of Facebook usage[C]//Proceedings of the 4th Annual ACM Web Science Conference. ACM, 2012: 24-32.
[17] Kosinski M, Stillwell D, Graepel T. Private traits and attributes are predictable from digital records of human behavior[J]. Proceedings of the National Academy of Sciences, 2013, 110(15): 5802-5805.