張巖峰,陳長松,楊 濤,左俐俐,丁 飛
(1.公安部第三研究所,上海 200031;2.中石化管理干部學院,北京 100021)
近十年來,社交網(wǎng)絡經(jīng)歷了爆炸性的增長,據(jù)統(tǒng)計,推特(Twitter)的用戶數(shù)已超過5億,一天的數(shù)據(jù)增量大約為7 TB;臉書(FaceBook)的用戶數(shù)已超過10億,一天的數(shù)據(jù)增量超過10 TB。截至2012年12月底,新浪微博注冊用戶已超5億,日活躍用戶數(shù)達到4 620萬,用戶每日發(fā)博量超過1億條[1]。用戶在這些社交網(wǎng)絡上的活動,比如建立個人的資料、建立與他人的鏈接關系、發(fā)表個人觀點、共享照片、推薦內(nèi)容等,表露出大量關于該用戶的情感、喜好等因素。
理解個體的個性并對其進行描述,發(fā)展系統(tǒng)的個性測試方法,以及將個性的歸類應用到對職業(yè)發(fā)展、職業(yè)咨詢、團隊建議、婚姻教育等領域一直是心理學家研究的一項主題。傳統(tǒng)的個性分析方法主要是采用問卷的方式,這種問卷形式易于控制,并且對被調(diào)查者所處的環(huán)境依賴性弱,但是并不足以完整展示一個人的個性,正如Barker G和Wright H F在文獻[2]中提到的:只有對一個人日常的自然行為進行全面的分析,才能夠真正了解一個人的特性。
過去的研究表明,人類不可避免地要在他們所經(jīng)歷過的虛擬和真實環(huán)境下遺留下與個性相關的行為和思想痕跡[3],比如日常的會話[4]、Facebook賬號信息[5]以及用戶的寫作特性[6]等。微博用戶經(jīng)常用微博來記錄他們?nèi)粘5男袨橐约八枷?,有理由相信一個用戶的微博數(shù)據(jù),包括微博的用詞、語法以及語用特征,以及發(fā)表分享的內(nèi)容、賬號信息、朋友的關系中包含了許多有關其個性的信息。
本文介紹了一個通過分析用戶的微博數(shù)據(jù),包括微博的文本數(shù)據(jù)和非文本數(shù)據(jù),來對用戶的個性進行分類分析的數(shù)據(jù)挖掘系統(tǒng)。本文的組織如下:第2節(jié)介紹了本文中采用的個性分類指標—邁爾斯-布里格斯個性分類指標;第3節(jié)介紹了對用戶個性進行分類分析的系統(tǒng)結構;第4節(jié)是關于數(shù)據(jù)樣本的采集方式;第5節(jié)描述了微博數(shù)據(jù)的特征提?。坏?節(jié)主要是關于個性分類分析的機器學習模型;第7節(jié)分析了系統(tǒng)的分類分析結果,最后是結論以及將來進一步要做的工作。
邁爾斯-布里格斯個性分類指標MBTI(Myers-Briggs Type Indicator)[7]是個性分類理論模型的一種,經(jīng)過五十多年的發(fā)展,MBTI現(xiàn)已成為全球著名的個性測試之一,在教育界、雇員招聘及培訓、領袖訓練及個人發(fā)展等領域均有廣泛的應用[8,9],據(jù)估計在中國的外資企業(yè)中,80%以上利用這種個性分類指標來輔助個人的職業(yè)規(guī)劃發(fā)展。MBTI將人的個性用四個維度來表示,每個維度又通過一個對立面來呈現(xiàn),使用戶位于每一維度上的具體個性都可以歸結為一個二值分類問題。這四個維度表征的個性方面以及其對立面如表1所示。
(1)EI維度。該維度用以表示個體心理能量的獲得途徑和與外界相互作用的程度,即個體的注意力是較多地指向于外部的客觀環(huán)境還是內(nèi)部的概念建構和思想觀念,通過字母E(外傾)和I(內(nèi)傾)表示。外傾型個體經(jīng)常先行動后思考,而內(nèi)傾型個體經(jīng)常耽于思考而缺乏行動。
Table 1 MBTI personality indication
(2)SN維度。該維度又稱之為非理性維度或知覺維度,表示個體在收集信息時注意的指向。即傾向于通過各種感官去注意現(xiàn)實的、直接的、實際的、可觀察的事件,還是對事件將來的各種可能性和事件背后隱含的意義及符號和理論感興趣,通過S(感覺)和N(直覺)表示。感覺型的個體被視為較具有實際意識,而直覺型個體被視為較有改革意識。
(3)TF維度。該維度又稱之為理性維度或判斷維度。該維度用于表示個體在作決定時采用的方法,是客觀的邏輯推理還是主觀的情感和價值,通過字母T(思維)和F(情感)表示。情感型的個體期望自己的情感與他人保持一致,其理性判斷的依據(jù)是個人的價值觀。而思維型的個體通過對情境作客觀的、非個人的邏輯分析來做決定,他們注重因果關系并尋求事實的客觀尺度,因此較少受個人感情的影響。
(4)JP維度。該維度用以描述個體的生活方式。即傾向于以一種較固定的方式生活還是以一種更自然的方式生活,通過字母J(判斷)和P(知覺)表示。判斷型個體傾向于以一種有序的、有計劃的方式對其生活加以控制,他們期望看到問題被解決,習慣于并喜歡做決定。而知覺型個體偏好于知覺經(jīng)驗,他們不斷地收集信息以使其生活保持彈性和自然。
根據(jù)人在MBTI的四個維度對立面上的偏好,可將所有人的個性分為16個種類,并取每個維度偏好上的字母來表示,比如內(nèi)傾直覺思維知覺的個性類型以INTP表示,他的個性特點可以概括為對于自己感興趣的任何事物都尋求找到合理的解釋,喜歡理論性的和抽象的事物,熱衷于思考而非社交活動,安靜、內(nèi)向、靈活、適應力強,對于自己感興趣的領域有超凡的集中精力深度解決問題的能力。
MBTI的個性分析結果最主要的應用是反映個體相對穩(wěn)定的職業(yè)傾向,有助于個體對自己的職業(yè)進行規(guī)劃,每種個性類型都給出了常見的職業(yè)類型推薦,其他方面也助于提高個體對自己的認識,促進溝通,改善人際關系以及提高工作效率。
我們的目的在于使系統(tǒng)能夠根據(jù)微博用戶的微博文本和其他的微博特征,比如其在微博內(nèi)的社交行為,自動分類該用戶的MBTI的四個個性維度的歸屬。為了對微博用戶的MBTI個性特征進行分類和測試,首先需要設計一組能夠反映用戶個性的微博特征——微博用戶的個性特征空間。依據(jù)這一個性特征空間,每個微博用戶的信息可以通過其包含的特征及數(shù)量來表示。當給定若干預先分類的微博用戶(訓練樣本),個性分類模型(分類器)可以訓練出來,并可利用其對MBTI個性未知的微博用戶進行分類。
我們采用的面向微博用戶的個性分類系統(tǒng)流程圖如圖1所示,該系統(tǒng)主要分為兩大部分,第一部分是實現(xiàn)對個性模型的訓練,第二部分利用訓練的分類模型對新用戶進行個性分類分析。其具體流程可以分為以下幾個步驟:
(1)采集微博用戶樣本,其中包括微博用戶的微博ID、微博名稱以及該用戶的MBTI的四維標識。
(2)獲取微博用戶的微博數(shù)據(jù),包括微博用戶的微博文本內(nèi)容,也包括微博用戶其他的非文本信息。
(3)對每個微博用戶,自動完成特征提取,提取的特征包括文本特征,也包括非文本特征。對提取的特征最后還需要做規(guī)范化處理。
(4)建立和訓練個性分類模型,涉及到選擇合適的分類算法及其參數(shù),以及對模型的交叉驗證。
(5)對個性未知用戶進行個性分類,即將訓練的分類算法應用到MBTI值未知的微博用戶。
Figure 1 System flowchart of MBTI personality classification圖1 MBTI個性分類的系統(tǒng)流程圖
為了采集微博用戶的樣本,我們建立一個用于進行個性測試的Web服務器,用戶進入該Web服務器的主頁面,可以看到48道選擇題的MBTI個性測試題。當用戶回答完48道題后,該Web服務器會根據(jù)用戶的選擇,計算用戶的MBTI值并反饋給用戶,同時會請求用戶輸入其微博賬號。然后服務器的后臺會通過新浪微博接口驗證該賬號是否存在,如果驗證通過,服務器就會將該用戶的MBTI值和相應的微博賬號作為一個用戶樣本保留下來。部分樣本及其格式如圖2所示,其中第一列是樣本用戶的微博ID,第二列為樣本用戶的微博帳號,第三列是Web服務器根據(jù)測試題結果判定的樣本用戶的MBTI個性測試結果,最后一列是樣本用戶的測試時間。利用這一Web服務器,在三個月的時間內(nèi)一共得到了900多個有效的微博用戶樣本。
Figure 2 Example of collected micro-blog user samples圖2 采集的微博用戶樣本示例
然后根據(jù)這些樣本中的微博賬號,系統(tǒng)從新浪微博中讀取樣本用戶最新的200條微博,如果用戶的微博數(shù)量不足200條,則所有的微博內(nèi)容都將被讀取過來。另外,還需要讀取這些用戶微博的狀態(tài)(Statuses)信息,其中包括了該微博用戶與其他用戶的交互關系信息,比如:粉絲數(shù)、關注數(shù)、評論數(shù)等。
一個用戶的微博可以用兩方面的特征來表征,一種是微博的文本中包含的文本特征,它代表了微博用戶通過語言來表達自己的特征;另外一種是微博中包含的非文本的行為特征,它更多地表示了該用戶與其他用戶的交互信息,這兩部分特征都有助于體現(xiàn)一個用戶的個性特點。另外,一個用戶轉發(fā)的微博內(nèi)容因為沒有表達該用戶的主觀意愿,而被認為與該用戶的個性無關,所以處理該用戶的微博信息時,這部分轉發(fā)別人的微博的文本內(nèi)容首先被清洗掉。但是,該用戶轉發(fā)別人微博的數(shù)量是他與別的微博用戶交互的一個重要衡量指標,這個信息是作為該用戶微博的一個重要的非文本特征。概括起來,一個微博用戶的非文本的行為特征包括:
(1)平均微博長度,即一個用戶所有微博包含的字符數(shù)的均值。
(2)平均HashTag數(shù)量, 即微博中出現(xiàn)“#topic#”的平均數(shù)量,兩個“#”之間的內(nèi)容表示一個主題或者一個特定事件。
(3)平均鏈接數(shù)量, 微博中包含的超文本鏈接的數(shù)量,微博的瀏覽者可以通過點擊該鏈接進入Internet的其他位置。
(4)平均提到其他微博用戶的數(shù)量,微博中提到其他用戶時,在用戶名前加“@”來表示。
(5)該微博用戶的跟隨者(Follower)的數(shù)量,代表了對給定用戶微博感興趣的其他用戶的數(shù)量。
(6)該微博用戶跟隨(Follow)別人的數(shù)量,表明引起該用戶興趣的其他微博用戶的數(shù)量。
(7)該用戶平均每天發(fā)表的微博數(shù)量,不包含日均轉發(fā)別人微博的數(shù)量。
(8)該微博用戶平均每天轉發(fā)別人微博的數(shù)量。
(9)該微博用戶平均每天回答別人微博的數(shù)量。
以上微博用戶非文本方面的特征一部分可以通過該用戶微博的狀態(tài)(Status)信息獲取,另外一部分需要根據(jù)該微博用戶的微博屬性通過統(tǒng)計計算得到。
文本語言是人類以他人能夠理解的最普通和最可靠的用來表達內(nèi)心想法和情緒的方式,為了提取微博文本中的特征,我們用中文語言查詢和詞頻計算C-LIWC(Chinese-Linguistic Inquiry and Word Count)[10]詞庫來對微博的用詞類別及頻率特性進行統(tǒng)計。語言查詢和詞頻計算LIWC(Linguistic Inquiry and Word Count)[7]是進行英文有關個性或情感分析時,應用廣泛的一個文本分析工具。該工具從社會學和心理學的角度對語言的使用模式進行分類,其中包含了語法語用方面的用詞分類,也包含了情緒、認知、社交、感知等的分類。例如個性外向的人相對于個性內(nèi)向的人來講,更有可能使用長充短的詞,因為短而簡練的詞語中會表達更多的社交積極因素[4]。
C-LIWC[11]是臺灣中央研究院在英文LIWC2007的基礎上,通過翻譯并結合中文語言語法特點整理加工而成的,其中包括中文語法特性30類、心理特性42類,共有72類,總計6 862個中文詞,這六千多個詞在中文最常用的1 000詞中檢測率為83.5%,最常用的2 000詞中檢測率為76.2%,因此對于常用的詞語具有相當不錯的檢測率,圖3是C-LIWC的中文詞分類的例子,其中詞后面的數(shù)字表示該詞所屬的類別,比如19表示否定詞的類別,125代表感情詞匯類別。
Figure 3 An example of C-LIWC categories for Chinese words圖3 C-LIWC的中文詞分類示例
中文處理相對于英文處理的一個重要不同在于需要進行分詞,為了利用C-LIWC中的詞語分類模式,我們先將C-LIWC中包含的中文詞加入中科院的開源漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)的用戶詞典中;然后利用ICTCLAS對用戶的微博進行分詞并計算分完詞后的C-LIWC每個類別的詞頻的數(shù)量。
通過提出以上所述的用戶微博中的非文本特征和文本特征,每個微博用戶經(jīng)過特征提取可以通過一個81維的特征向量來表示。由于不同用戶的微博數(shù)量不同,需要對不同用戶特征值進行規(guī)范化計算,使所有的特征值處于0~1,式(1)是采用的規(guī)范化計算公式。
(1)
為了對微博用戶的個性進行分類,我們采用三種分類模型進行分類分析比較:提升決策樹(Adaboost Decision Tree)、貝葉斯邏輯遞歸(Bayesian Logistic Regression)[12]和支持向量機(Support Vector Machine)[13]。針對每個分類模型和微博用戶,采用了四個二項分類器來實現(xiàn)個性的分類。假設xi是訓練樣本集合中的一個微博用戶特征值組合,且xi可以表示為d維向量:xi=[xi1,xi2,…,xid]T, yi∈{+1,-1}是具體的個性分類結果標注,分別對應MBTI個性分類模型的四個維度中的某一個個性標注結果,這三種分類模型可以概括如下。
決策樹是基于信息增益測量形成的流程圖式樣的樹結構分類方法,在許多領域得到廣泛的應用[14]。在決策樹中,每個特征表示為樹的一個內(nèi)部節(jié)點,每次分類測試表示為樹的一個分支,分類的結果最后表示為樹的終端節(jié)點。給定一組特征屬性,從決策樹的樹根到終端節(jié)點的路徑表示了分類的依據(jù)。在微博用戶高可變特征的情況下,決策樹會帶來嚴重的過度擬合問題,為了克服這一現(xiàn)象,我們采納提升技術-Adaboost作為決策樹的組合學習方法。當Adaboost與決策樹組合用于分類問題時,給定一個訓練數(shù)據(jù),求一個比較粗糙的分類器(即弱分類器)要比求一個精確的分類器(即強分類器)容易得多。提升方法就是從弱分類器出發(fā),通過提高被錯誤分類的樣本的權值,反復學習,得到一系列弱分類器,然后組合這些弱分類器,構成一個強分類器。提升決策樹的基本步驟可以概括為:
(2) 在后面的m=1,2,…,M次迭代過程中,使用具有權值分布Dm的訓練數(shù)據(jù)集進行決策樹學習,分別得到第m次遞歸的決策樹弱分類模型Gm(x)→{+1,-1},并計算Gm(x)在訓練數(shù)據(jù)集上的分類誤差率和Gm(x)的系數(shù),分別如式(2)和式(3)所示。
(2)
(3)
(4)
(5)
(4)當訓練完M個基本的弱決策樹分類器,進一步對其進行線性組合,形成式(6)所示最終的決策樹分類器。
(6)
邏輯遞歸是線性遞歸基礎上的一種變化形式,適用于在一組獨立的特征變量基礎上進行分類預測,并且分類預測結果為二項輸出。當給定一組特征的向量,邏輯遞歸模型通過式(7)對屬于類yi的概率進行估計:
P(yi=+ 1|ω,xi) = ψ(ωTxi)
(7)
其中xi是訓練樣本集合D={(x1,y1)},(x2,y2)},…,(xn,yn)}中的一個微博用戶特征值組合,式(7)中的邏輯鏈接函數(shù)通過式(8)表示:
(8)
公式(7)估計的概率通過與預先設定好的門限值進行比較來確定預報結果的所在類。例如,當P(yi=+ 1|ω,xi)>Threshold時,分類結果為y=+1,否則,y=-1,在本文中,該門限值設定為0.5。
為了克服邏輯遞歸可能引入的過度擬合問題,我們通過貝葉斯方法對ω提供一個均值為0、方差為σj的先驗分布:
P(ωi|σj) =N(0,σj)
(9)
進一步設定σj的概率密度函數(shù)為式(10)所示的指數(shù)分布:
(10)
式(9)和式(10)經(jīng)積分得到如式(11)所示的雙指數(shù)(拉普拉斯)分布:
(11)
不失一般性,假設ω的元素相互獨立,則ω的先驗概率可以表示為:
(12)
根據(jù)貝葉斯理論,則ω的后驗概率可以通過式(13)表示:
L(ω)=P(ω|D)∝P(D|ω)P(ω)=
(13)
兩邊取對數(shù)并忽略其中的歸一化常數(shù),得到:
(14)
通過式(14),ω可以通過最小化-l(ω)獲得。因為-l(ω)是凸函數(shù),ω可以通過各種優(yōu)化算法獲得。在我們的實現(xiàn)中采用了一種一維優(yōu)化算法——CLG方法[13],在一次循環(huán)中更新所有的ωj(j=1,2,…,d),當更新ωj時,先對所有ωk(j≠k)進行固定,然后經(jīng)多次循環(huán)直到ω收斂。
支持向量機[15]同時能夠支持線性或者非線性分類,并能夠處理高維輸入。在給定訓練樣本集合時,當作為一個線性分類器,如果輸入的兩個類是線性可分的,SVM通過搜索最優(yōu)的線性分離超平面來實現(xiàn)分類的最優(yōu)化,即通過式(15)的優(yōu)化問題計算得到最優(yōu)的加權向量ω*:
且yi(ω·xi-b)≥1
(15)
對于線性不可分的情況,SVM通過引入松弛變量ξ來建立軟分界,而這時的目標函數(shù)需要增加一個函數(shù)來補償非零值的ξi,如果該補償函數(shù)是線性的,優(yōu)化問題就變成如式(16)所示:
且yi(ω*·φ(xi)-b)≤1-ξi,ξi≥0
(16)
其中,C是分錯項的懲罰因子。另外,還需要用核函數(shù)將特征空間X映射到高維空間φ(X),然后在這高維空間內(nèi),SVM搜索計算最大邊距分離超平面。應用最廣泛的核函數(shù)包括線性、多項式、徑向基函數(shù)和S函數(shù)(Sigmoid函數(shù)),在對微博用戶進行個性分類分析時,我們發(fā)現(xiàn)當核函數(shù)采用徑向基函數(shù)時,能夠輸出比較優(yōu)良的分類性能,如式(17)所示。
(17)
對于MBTI的四維個性問題,我們采用的相應的輸出分類標注,如表2所示,然后利用上面所述的分類分析模型,在開源的數(shù)據(jù)挖掘軟件Weka(WaikatoEnvironmentforKnowledgeAnalysis)[15]中采用如圖4所示的10倍交叉驗證流程來對分類模型的性能進行評測分析。
Table 2 Classification result indicationof different MBTI personality dimension
Figure 4 Cross-validation flowchart for personality classification prediction圖4 個性分類的交叉驗證流程
圖4的交叉驗證流程的各部分功能包括加載含有微博特征的ARFF數(shù)據(jù)文檔,指定數(shù)據(jù)中的類標注項,實現(xiàn)數(shù)據(jù)的訓練集和驗證集的分配,采用SVM或貝葉斯邏輯遞歸構建的分類器模型,以及最后的分類性能結果輸出和分析模塊。
交叉驗證的結果如圖5和圖6所示。圖5表示不同樣本數(shù)量對三種分類器的性能影響情況,隨著微博用戶樣本數(shù)量的增加,三種分類器的性能都有所提高,而樣本數(shù)量對提升決策樹的影響要高于其他兩種分類方法,而且支持向量機的分類效果在不同樣本數(shù)量等級上,都要優(yōu)于提升決策樹和貝葉斯邏輯遞歸。
Figure 5 Influence of sample number on two classification models圖5 樣本數(shù)量對兩種分類模型性能的影響
圖6表示采用900個微博用戶樣本,分別采用這三種分類器模型在四個個性維度上的分類正確度結果。從圖6中可以看出,支持向量機在MBTI四個個性維度上的分類正確率都要優(yōu)于貝葉斯邏輯遞歸和提升決策樹的分類模型。另外,對于不同的MBTI個性維度輸出結果,TF維度上的個性分類結果最準確,三種分類器的分類準確度都超過85%;其次是EI維度和JP維度,前者的支持向量機和提升決策樹的分類準確度都超過85%,而貝葉斯邏輯遞歸的分類準確度也趨近于85%;分類結果最差的是SN維度,三種分類器的分類準確度都在75%~80%。這種不同維度的分類準確率的差異主要來自于不同維度表達的個性角度不同,通過微博的特征,尤其是通過微博的文本特征所能夠表征的清晰度不同。對于TF維度,表達的是做決定時依賴的是感情還是邏輯,文本中表達情感和因果的詞匯的多寡直接決定了該維度個性的分類清晰度,也就決定了個性分類的準確度,所以分類的準確度較高。而對于SN維度,主要表達了人類認識世界的方式,即人如何處理接收的外界知識,屬于對外界的信息的吸收方式,不容易通過文本和語言表達出來,因此分類的準確度最低。EI和JP維度都包含了一些人與外界的交互,以及個人態(tài)度的表達,但又不能向FT維度那樣清晰地通過文本表征,因此它們的分類準確度要低于FT維度,而高于SN維度。
Figure 6 Performance of two classification models on different MBTI dimensions圖6 兩種分類器在MBTI不同維度上的性能結果
邁爾斯-布里格斯個性分類指標(MBTI)作為重要的個性理論分類模型,已成為重要的個人職業(yè)規(guī)劃發(fā)展的輔助工具。論文在傳統(tǒng)MBTI基于測試題的個性測評基礎上,提出了通過分析微博用戶的微博數(shù)據(jù)——包括文本數(shù)據(jù)和非文本數(shù)據(jù),利用機器學習中的分類分析模型實現(xiàn)用戶的MBTI的個性分類分析方法。實驗結果表明,采用上述的微博特征和分類算法可以實現(xiàn)理想的個性分析準確度。微博用戶樣本的數(shù)量會對個性分類模型的性能產(chǎn)生影響,其中對提升決策樹模型的影響最大,另外由于MBTI的不同維度表示的個性角度不同,通過微博信息表露出的強弱也有差異,帶來分類分析模型在不同MBTI維度上的性能差異。當然用戶的個性特征和其在社交網(wǎng)絡上的行為及留下的文字之間的關聯(lián)還需要從心理學上進一步分析;另外,用戶內(nèi)容的語義、線上行為與線下實際本體的關聯(lián)還需要我們做大量的研究工作。
[1] Business war between Weibo and Weixin is started[EB/OL].[2013-08-06].http://news.sina.com.cn/o/2013-08-06/150927877611.shtml.(in Chinese)
[2] Barker G, Wright H F. One boy’s day:A specimen record of behavior [M]. New York:Harper and Brothers Publishers, 1966.
[3] Gosling S D, Ko S J,Mannarelli T. et al. A room with a cue:Personality judgments based on offices and bedrooms [J]. Journal of Personality and Social Psychology, 2002, 82(3):379-398.
[4] Mehl M R, Gosling S D, Pennebaker J W. Personality in its natural habitat:Manifestations and implicit folk theories of personality in daily life [J]. Journal of Personality and Social Psychology, 2006, 90(5):862-877.
[5] Golbeck J, Robles C, Turner K. Predicting personality with social media [C]∥Proc of the 29th ACM Conference on Human Factors in Computing Systems (CHI), 2011:253-262.
[6] Peng F, Schuurmans D, Keselj V. Automated authorship attribution with character level language models [C]∥Proc of the 10th Conference of the European Chapter of the Association for Computational Linguistics, 2003:1.
[7] Myers-briggs type indicator[EB/OL].[2013-08-06].http://en.wikipedia.org/wiki/Myers-Briggs_Type_Indicator.
[8] Cohen Y,Ornoy H,Keren B.MBTI personality types of project managers and their success:A field survey [J]. Project Management Journal, 2013, 44(7):78-87.
[9] Chang Luo. The application of MBTI theory in hiring sales staffs [C]∥Proc of the 19th International Conference on Industrial Engineering and Engineering Management, 2013:703-709.
[10] LIWC:linguistic inquiry and word count[EB/OL].[2013-08-06].http://www.liwc.net/liwcdescription.php.
[11] C-LIWC [EB/OL]. [2013-08-10]. https://sites.google.com/site/taiwanliwc/home.
[12] Barber D. Bayesian reasoning and machine learning [M]. Cambridge:Cambridge University Press,2012.
[13] Genkin A, Lewis D. Large-scale Bayesian logistic regression for text categorization [J].Technometrics, 2006, 49(3):291-304.
[14] Safavian R, Landgrebe D. A survey of decision tree classifier methodology [J]. IEEE Transactions on Systems, Man and Cybernetics, 1991, 3(5):660-674.
[15] Cortes C, Vapnik V. Support-vector network[J]. Machine Learning, 1995, 20(3):273-297.
[16] Weka 3:Data mining software in Java.[EB/OL].[2013-08-01].http://www.cs.waikato.ac.nz/ml/weka/.
附中文參考文獻:
[1] 微博微信商業(yè)大戰(zhàn)烽煙起[EB/OL].[2013-08-06].http://news.sina.com.cn/o/2013-08-06/150927877611.shtml.