白朔天,袁 莎,程 立,朱廷劭
(1.中國科學(xué)院大學(xué)計(jì)算機(jī)與控制學(xué)院,100190北京;2.中國科學(xué)院聲學(xué)研究所,100191北京;3.生物信息學(xué)研究所新加坡科技研究局,138632新加坡;4.中國科學(xué)院心理研究所,100101北京)
多任務(wù)回歸在社交媒體挖掘中的應(yīng)用
白朔天1,袁 莎2,程 立3,朱廷劭4
(1.中國科學(xué)院大學(xué)計(jì)算機(jī)與控制學(xué)院,100190北京;2.中國科學(xué)院聲學(xué)研究所,100191北京;3.生物信息學(xué)研究所新加坡科技研究局,138632新加坡;4.中國科學(xué)院心理研究所,100101北京)
隨著社交媒體的迅速發(fā)展,針對網(wǎng)絡(luò)信息挖掘的研究成為互聯(lián)網(wǎng)領(lǐng)域備受關(guān)注的研究熱點(diǎn)之一.傳統(tǒng)的單任務(wù)回歸對各個(gè)任務(wù)分別建模,在多變量預(yù)測的場合中,無法合理利用變量之間的共享信息.因此,本文通過多任務(wù)回歸網(wǎng)絡(luò)挖掘方法,分析社交媒體用戶人格和網(wǎng)絡(luò)行為的關(guān)聯(lián)模式.實(shí)驗(yàn)通過在線被試邀請,采集了335個(gè)人人網(wǎng)用戶樣本和563個(gè)新浪微博用戶樣本.采用多任務(wù)回歸的算法,預(yù)測精度可達(dá)87%以上.實(shí)驗(yàn)結(jié)果表明多任務(wù)回歸對多變量建模效果要優(yōu)于單任務(wù)學(xué)習(xí)算法.
多任務(wù)回歸;社交媒體;網(wǎng)絡(luò)挖掘;特征提取
網(wǎng)絡(luò)挖掘是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用.網(wǎng)絡(luò)信息挖掘是從大量訓(xùn)練樣本基礎(chǔ)上得到數(shù)據(jù)對象間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息提?。?].以人人網(wǎng)(http://www. renren.com)和新浪微博(http://weibo.com)為首的社交媒體在國內(nèi)飛速發(fā)展.據(jù)《第31次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì),截止2012年底,人人網(wǎng)已擁有超過2億注冊用戶,新浪微博注冊用戶數(shù)已超過5億.社交媒體在快速改變傳統(tǒng)網(wǎng)絡(luò)輿論格局的同時(shí)也逐漸展現(xiàn)出其自身所具有的獨(dú)特優(yōu)勢.用戶在社交網(wǎng)絡(luò)中往往可以真實(shí)、自發(fā)地表達(dá)或分享自己的情感和觀點(diǎn).由于網(wǎng)絡(luò)實(shí)名制的推進(jìn),用戶的網(wǎng)絡(luò)行為和現(xiàn)實(shí)行為具備較強(qiáng)的一致性[2].這就為網(wǎng)絡(luò)用戶的行為分析研究提供大量真實(shí)、可靠的潛在數(shù)據(jù)源.針對網(wǎng)絡(luò)挖掘建模中的多個(gè)具有相關(guān)性的任務(wù)(如用戶大五人格預(yù)測[3])在同一訓(xùn)練集的同時(shí)學(xué)習(xí)問題,傳統(tǒng)方法(如回歸、神經(jīng)網(wǎng)絡(luò))是在訓(xùn)練集上對各個(gè)任務(wù)分別建模[4].這種方法雖然考慮了各個(gè)任務(wù)的特定信息,但是忽略了任務(wù)之間的相關(guān)性,沒有考慮到任務(wù)之間的某些共享信息.多任務(wù)學(xué)習(xí)不僅可以保留任務(wù)的特定信息,更可以計(jì)算出任務(wù)間的共享信息,建立更準(zhǔn)確的預(yù)測模式.最早的多任務(wù)學(xué)習(xí)方法由Caruana[5]提出,采用前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,打破每次訓(xùn)練只針對一個(gè)任務(wù)的限制.由此得來的訓(xùn)練結(jié)果使得輸入結(jié)點(diǎn)和隱藏層結(jié)點(diǎn)的連接權(quán)包含任務(wù)之間的共享信息,隱藏層結(jié)點(diǎn)和輸出結(jié)點(diǎn)之間包含了各個(gè)任務(wù)的特定信息.雖然該方法并不復(fù)雜,但這種思路啟發(fā)了學(xué)者們采用多任務(wù)學(xué)習(xí)的思路進(jìn)行建模,并在機(jī)械自動(dòng)化、醫(yī)療診斷等其他領(lǐng)域得到了應(yīng)用.
本文創(chuàng)新性地提出采用多任務(wù)回歸的方法在社交媒體中采集用戶行為數(shù)據(jù),并挖掘網(wǎng)絡(luò)用戶人格多維度與行為的相關(guān)模式[6].通過調(diào)查網(wǎng)絡(luò)用戶的大五人格,一方面分析不同人格用戶的行為模式,另一方面通過分析用戶的網(wǎng)絡(luò)行為進(jìn)行其大五人格的預(yù)測.由于人格的5個(gè)維度之間存在相關(guān)因素[7],因而建立了基于多任務(wù)回歸人格預(yù)測模型,并通過對被試用戶的人格進(jìn)行預(yù)測,驗(yàn)證了多任務(wù)回歸模型的預(yù)測效果要優(yōu)于其他模型.
1.1 實(shí)驗(yàn)平臺(tái)和網(wǎng)絡(luò)數(shù)據(jù)采集
為了高效采集被試樣本,開發(fā)一個(gè)基于人人網(wǎng)和新浪微博的在線問卷調(diào)查平臺(tái).本平臺(tái)以第三方應(yīng)用的形式接入到社會(huì)媒體中.用戶可以通過其人人網(wǎng)或新浪微博帳號登錄到平臺(tái)并授權(quán),在線填寫心理學(xué)普遍認(rèn)同的NEO大五人格問卷.在得到用戶授權(quán)后,平臺(tái)可以通過社交網(wǎng)站開放的API自動(dòng)下載用戶網(wǎng)上數(shù)據(jù)并保存到本地?cái)?shù)據(jù)庫.開放平臺(tái)提供API調(diào)用方式,允許被用戶授予權(quán)限的第三方應(yīng)用以社交媒體用戶的身份來讀寫社會(huì)媒體網(wǎng)站的資源(例如:用戶基本資料、好友關(guān)系、照片等).下載得到用戶數(shù)據(jù)后,平臺(tái)通過計(jì)算用戶填寫人格量表的結(jié)果可以得到用戶的大五人格得分,并最終用人格得分對用戶網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行標(biāo)注.平臺(tái)工作流程如圖1所示.
圖1 實(shí)驗(yàn)平臺(tái)流程圖
研究的用戶實(shí)驗(yàn)開展于2012年的1月至2月.在本次實(shí)驗(yàn)中,只保留了活躍的用戶數(shù)據(jù)進(jìn)行建模與分析,非活躍用戶被視為無效樣本.其中,人人網(wǎng)非活躍用戶定義為好友數(shù)少于50,狀態(tài)數(shù)少于20,并且日志數(shù)少于3的用戶;新浪微博的非活躍用戶定義為狀態(tài)數(shù)少于50,并且在實(shí)驗(yàn)開始前3個(gè)月內(nèi)有發(fā)布過微博.被試者通過社交媒體進(jìn)行招募,共有335個(gè)人人網(wǎng)用戶參與了實(shí)驗(yàn),其中209名用戶(141位男性,68位女性,平均年齡23.8歲)符合被試要求;共有563個(gè)新浪微博用戶參與了實(shí)驗(yàn),其中444名用戶(171位男性,273位女性,平均年齡23.8歲)符合被試要求.
1.2 網(wǎng)絡(luò)特征提取
本實(shí)驗(yàn)共設(shè)計(jì)86個(gè)用戶網(wǎng)上特征,并計(jì)算特征與用戶人格的相關(guān)度.發(fā)現(xiàn)在人人網(wǎng)和新浪微博環(huán)境中,分別有10個(gè)特征和用戶人格具有相對較高的關(guān)聯(lián)性.這些特征分別是,人人網(wǎng)狀態(tài)數(shù)、日志數(shù)、相冊數(shù)、留言數(shù)、評論數(shù)、好友數(shù)、評論人數(shù)、最近狀態(tài)數(shù)、男好友比例、好友評論比例;新浪微博狀態(tài)數(shù)、自我描述長度、是否默認(rèn)頭像、域名長度、關(guān)注數(shù)、互粉數(shù)、粉絲數(shù)、原創(chuàng)微博比例、互粉關(guān)注比例、互粉粉絲比例.
人人網(wǎng)支持用戶發(fā)布短文本狀態(tài)的功能,特征狀態(tài)數(shù)就是用戶所發(fā)表的全部狀態(tài)的總數(shù).用戶可以在人人網(wǎng)上發(fā)表長文本的日志,特征日志數(shù)指的是用戶發(fā)表日志的總數(shù).相冊數(shù)是用戶上傳的相冊總數(shù).不同的用戶可以在彼此頁面的留言板留言,特征留言數(shù)就是用戶留言的總數(shù).用戶所發(fā)布的狀態(tài)、日志可以被其他用戶評論,特征評論數(shù)就是所有用戶被評論的總數(shù).特征最近狀態(tài)數(shù)是最近一個(gè)月內(nèi)用戶發(fā)表的狀態(tài)數(shù).特征好友評論比例指的是所有評論中,來自該用戶好友的評論占總評論的比例.
新浪微博提供了發(fā)布短文本微博狀態(tài)的功能,特征狀態(tài)數(shù)指的是用戶發(fā)表的全部狀態(tài)總數(shù).自我描述長度指的是用戶自我描述中的字符數(shù).用戶可以根據(jù)自我偏好設(shè)置個(gè)性域名,特征域名長度指的是用戶個(gè)性域名的字符數(shù).新浪微博支持單向的好友關(guān)系構(gòu)建,這個(gè)人人網(wǎng)的雙向好友關(guān)系有所不同.微博用戶可以自由關(guān)注他人,也可被他人關(guān)注;因此特征關(guān)注數(shù)表示用戶關(guān)注其他微博用戶的總數(shù),特征粉絲數(shù)表示某用戶被其他用戶關(guān)注的總數(shù),特征互粉數(shù)表示既在關(guān)注列表又在粉絲列表的用戶數(shù).
1.3 特征評估
為驗(yàn)證特征的有效性,本實(shí)驗(yàn)通過計(jì)算特征和標(biāo)注之間的皮爾遜相關(guān)系數(shù)作為特征有效性的檢驗(yàn)指標(biāo).表1、2給出了用戶網(wǎng)絡(luò)特征集與其大五人格的皮爾遜相關(guān)系數(shù)ρ,及其對應(yīng)的顯著性p值.
其中ρ∈[-1,1]代表兩個(gè)變量之間的相關(guān)程度.若ρ>0,則隨著X的增長,Y也呈現(xiàn)增長趨勢,且ρ越大,這種趨勢越明顯,反之亦然.p值為顯著性水平,其值越小,表示相關(guān)結(jié)論偶然發(fā)生的可能性越小,結(jié)果的可靠性越高.
表1 人人網(wǎng)用戶網(wǎng)絡(luò)特征與大五人格的相關(guān)系數(shù)
表2 新浪微博用戶網(wǎng)絡(luò)特征與大五人格的相關(guān)系數(shù)
結(jié)果表明,人人網(wǎng)用戶大五人格中的宜人性和相冊數(shù)、評論人數(shù)、男性好友比例有著明顯的正相關(guān),和最近發(fā)表的狀態(tài)數(shù)有明顯的負(fù)相關(guān);微博用戶的宜人性則和狀態(tài)數(shù))有著顯著正相關(guān).宜人性低的個(gè)體,容易和他人產(chǎn)生矛盾,對他人冷漠麻木,容易在網(wǎng)絡(luò)的非面對面環(huán)境中產(chǎn)生過激的言行,激發(fā)網(wǎng)絡(luò)安全問題[8].
人人網(wǎng)用戶的盡責(zé)性和狀態(tài)數(shù)、相冊數(shù)和評論人數(shù)有著正相關(guān)的聯(lián)系;微博用戶的盡責(zé)性表現(xiàn)在域名長度和粉絲數(shù).盡責(zé)性可理解為自律,對他人、事物的責(zé)任心等.低盡責(zé)性的用戶容易和其他用戶因意見分歧而產(chǎn)生過激行為[9].
內(nèi)外向指的是個(gè)體自我魅力展示的程度,是社交能力的重要表現(xiàn).在人人網(wǎng)中,它和相冊數(shù)呈正相關(guān),和最近狀態(tài)數(shù)、好友評論比例呈明顯負(fù)相關(guān);在微博中,它和關(guān)注數(shù)呈現(xiàn)負(fù)相關(guān),與互粉數(shù)和原創(chuàng)微博比呈現(xiàn)正相關(guān)[10].外向人會(huì)上傳更多的私人照片來展示自我魅力.
人人網(wǎng)中神經(jīng)質(zhì)維度和相冊數(shù)、好友評論比例呈現(xiàn)明顯的正相關(guān);微博中神經(jīng)質(zhì)與互粉粉絲比呈現(xiàn)較弱的正相關(guān).在大五人格理論中,神經(jīng)質(zhì)被定義為情緒穩(wěn)定性.通常而言,神經(jīng)質(zhì)維度得分越高的人情緒越不穩(wěn)定.這樣的人容易喜怒無常,容易讓自己陷在抑郁或焦慮的狀態(tài)中[11].
人人網(wǎng)用戶開放性和狀態(tài)數(shù)、男好友比例、評論人數(shù)呈正相關(guān),和好友數(shù)、最近狀態(tài)數(shù)呈負(fù)相關(guān).微博中開放性和狀態(tài)數(shù)正相關(guān),同時(shí)高開放性的用戶更傾向使用個(gè)性頭像.開放性反映了個(gè)體想象力的豐富度,對新事物的好奇度[12].高開放性的用戶在網(wǎng)絡(luò)中會(huì)表現(xiàn)得較為隨和親切,不會(huì)因?yàn)槭悄吧硕a(chǎn)生怠慢、粗魯?shù)男袨?
嘗試兩種回歸方法:增量回歸和多任務(wù)回歸.
增量回歸是一種使用多個(gè)線性模式的組合,以擬合復(fù)雜的非線性問題的方法(算法1).
增量回歸首先對樣本集合進(jìn)行排序,選取少量點(diǎn)進(jìn)行局部建模.隨后用這個(gè)局部模型對新的訓(xùn)練樣本進(jìn)行測試.當(dāng)測試誤差超過閾值時(shí),則理解為模式的跳變,并把當(dāng)前模型保存重新執(zhí)行算法.此方法可將復(fù)雜的模式通過多個(gè)簡單的模型表達(dá)出來,在處理非線性問題時(shí)能顯示出極強(qiáng)的優(yōu)勢.然而在建模過程中,其參數(shù)需要嚴(yán)格控制.首先,面對排序策略的不同,模型的效果可能差距極大.通常情況下,根據(jù)歸一化樣本的模從小到大排序.其次建模的最小樣本數(shù)n也會(huì)對結(jié)果產(chǎn)生很大影響.若n的值過大,則模型退化為線性回歸;若n過小,則局部模型的準(zhǔn)確度降低.一般而言,可設(shè)置n的值為訓(xùn)練集樣本的維數(shù).例如一個(gè)在兩維空間中的回歸問題,n可設(shè)置為2.
增量擬合雖然可以處理非線性的問題,但它只能對各個(gè)任務(wù)分別建模.在處理多任務(wù)學(xué)習(xí)的過程中,無法考慮任務(wù)間的共享關(guān)系.多任務(wù)學(xué)習(xí)的主要目標(biāo)是在同一場景下采用多個(gè)任務(wù)學(xué)習(xí)的策略來提高性能以超越單任務(wù)學(xué)習(xí)的效果.假設(shè)有T個(gè)回歸任務(wù),對于每個(gè)任務(wù)t,都有一個(gè)獨(dú)立的訓(xùn)練集合{(xtn,ytn)},t=1,2,…,T,n=1,2,…,N.式中,(xtn,ytn)∈X×Y代表任務(wù)t中第n個(gè)實(shí)例標(biāo)簽對,N表示任務(wù)實(shí)例的個(gè)數(shù)(假設(shè)所有任務(wù)擁有相同的實(shí)例數(shù)目),x?Rd,y?RT.假設(shè)每個(gè)樣本表示為列向量,則
多任務(wù)學(xué)習(xí)的目標(biāo)是通過樣本來預(yù)測T×d的傳遞矩陣
其中yij=Wi··X·j=h·xhj.這種情況下,多任務(wù)學(xué)習(xí)的目標(biāo)就是通過訓(xùn)練模型,找到使預(yù)測值和標(biāo)注值之差最小的傳遞矩陣,也就是
W=argmin{L(x,y,W;1∶T)+λΩ(W)}.式中:L(x,y,W;1:T)代表訓(xùn)練樣本中預(yù)測的經(jīng)驗(yàn)損失函數(shù);Ω(W)是正則化函數(shù);λ為正則項(xiàng)系數(shù),通常為正.
實(shí)驗(yàn)采用最小平方損失和弗羅貝尼烏斯范數(shù)(Frobenius norm)的方法進(jìn)行建模計(jì)算.此時(shí)有
對應(yīng)于本文的多任務(wù)人格預(yù)測,T=5代表大五人格的五個(gè)維度,d=10代表本文提取的網(wǎng)絡(luò)特征;如果在人人網(wǎng)實(shí)驗(yàn)中,則N=209代表本實(shí)驗(yàn)采集的209個(gè)被試用戶.建立多任務(wù)人格預(yù)測模型的目標(biāo)就是找到一個(gè)5×10的傳遞矩陣和一個(gè)可靠的避免過擬合的正則系數(shù)λ.
上式進(jìn)行變形得到
主要探討人格在網(wǎng)絡(luò)社交圈中的行為表現(xiàn)模式,分析的目的是為建立人格計(jì)算模型選取準(zhǔn)確的特征.得到上述所有的分析結(jié)果后,開始用不同的機(jī)器學(xué)習(xí)算法進(jìn)行大五人格的計(jì)算.本文以高斯過程和線性回歸作為基準(zhǔn),以絕對平均誤差作為標(biāo)準(zhǔn),證明了本文提出的方法在人格預(yù)測方面具有較好的性能.
嘗試增量回歸和多任務(wù)回歸的學(xué)習(xí)方法,并根據(jù)預(yù)測精度將他們與高斯過程、線性回歸和M5P回歸做了對比.在增量回歸中,設(shè)置最小訓(xùn)練樣本數(shù)為11,誤差閾值為0.1,樣本集根據(jù)模的大小排序.在多任務(wù)回歸中,經(jīng)過對正則參數(shù)進(jìn)行窮舉計(jì)算,實(shí)驗(yàn)得到λ=0.097 3時(shí)模型預(yù)測效果最穩(wěn)定.采用5倍交叉驗(yàn)證,表3、4列出了采用不同算法對人人網(wǎng)和微博用戶大五人格預(yù)測的誤差率.
表3 人人網(wǎng)數(shù)據(jù)集上不同算法的大五人格預(yù)測誤差率%
表4 微博數(shù)據(jù)集上不同算法的大五人格預(yù)測誤差率%
從表5中數(shù)據(jù)表明高斯過程的平均預(yù)測誤差為15.67%,線性回歸平均誤差為15.81%,M5P平均預(yù)測誤差為15.43%.相比而言,高斯過程的預(yù)測效果略好.而增量回歸誤差率在14.98%,多任務(wù)回歸的平均誤差率為12.33%,預(yù)測精度好于其他經(jīng)典算法.
在表4中,將本文的模型和相關(guān)工作中的模型從樣本量、樣本獲取方式以及分析的方法進(jìn)行對比.在方法上,通過調(diào)用API批量化獲取用戶網(wǎng)絡(luò)數(shù)據(jù).這種方法克服了Kelly[13]模型數(shù)據(jù)樣本少,采集不夠客觀等局限;克服了Correa[6]模型中工作量巨大等問題.在目前的經(jīng)典研究中,研究者一般注重于網(wǎng)絡(luò)特征與人格的相關(guān)分析.本文在Gosling[14]工作的基礎(chǔ)上,進(jìn)一步用多種機(jī)器學(xué)習(xí)的方法建立了人格預(yù)測模型.
表5 本文工作與相關(guān)工作的對比
針對網(wǎng)絡(luò)挖掘中,單任務(wù)建模對多變量預(yù)測的低效性,提出了采用多任務(wù)回歸的思路預(yù)測社交媒體用戶的人格變量.新方法可以在建模過程中合理利用多任務(wù)之間的共享信息,其預(yù)測精度要顯著高于單任務(wù)算法.今后,本實(shí)驗(yàn)將會(huì)繼續(xù)擴(kuò)大實(shí)驗(yàn)范圍,大規(guī)模采集更多的社交網(wǎng)站用戶數(shù)據(jù).繼續(xù)設(shè)計(jì)并提取用戶網(wǎng)絡(luò)特征,進(jìn)一步考慮研究心理學(xué)中的心理健康、社會(huì)態(tài)度等心理屬性在社交網(wǎng)絡(luò)中的行為表現(xiàn)模式.同時(shí)考慮更多的多任務(wù)學(xué)習(xí)方法,修改預(yù)測模型.
[1]DOYD D,ELLISON N.Social network sites:definition,history,and scholarship[J].Journal of Computer-Mediated Communication,2007,13(1):210-230.
[2]GOBY V.Personality and online offline choices:MBTI profiles and favored communication modes in a Singapore study[J].Cyber Psychology and Behavior,2012,(9):5-13.
[3]KOSINSKIM,STILLWELL D,GRAEPEL T.Private traits and attributes are predictable from digital records of human behavior[J].Proceedings of the National Academy of Sciences,2013,110(15):5802-5805.
[4]SCHWARTZH,EICHSTAEDT J,KERNM,etal.Personality,gender,and age in the language of social media:the openvocabulary approach[J].PloSone,2013,8(9),e73791.
[5]CARUANA R.Multitask learning[J].Machine Learning,1997,(28):41-75.
[6]CORREA T,HINSLEY A,ZIGA H.Who interacts on the web?The intersection of users'personality and social media use[J].Computers in Human Behavior,2010,26(2):247-253.
[7]HAMBURGER Y,BENARTZIE.The relationship between extraversion and neuroticism and the different uses of the internet[J].Computers in Human Behavior,2000,(16): 441-449.
[8]LEIL,YANGY,LIUM.The relationship between adolescents’extraversion/agreeableness,internet service preference,and internet addiction[J].Psychological Development and Education,2007(3):42-48.
[9]PETER A,DONALDH.The impactof the big five personality traits on the acceptance of social networkingwebsite[J]. Americas Conference on Information Systems,2008,(1):1-10.
[10]KATHRYN W,WHITE K.Psychological predictors of young adults use of social networking sites[J].Cyberpsychology,Behavior,and Social Networking,2010,13(2):173-177.
[11]LUO T,DING D.Relationships among personality traits,motive of internet use,and tendency of internet addiction[J].Chinese Journal of Clinical Psychology,2006,14(4):365-367.
[12]NIE Y,JIANG P,WU Y,et al.Relationship between network communication and personality traits of teenagers[J].Nervous Diseases and Mental Health,2007,7(6):468-471.
[13]KELLY M,JAMES C.The influence of personality on Facebook usage,wall postings and regret[J]. Computers in Human Behavior,2012,(28):267-274.
[14]GOSLING S,AUGUSTINE A,VAZIRE S,et al.Manifestations of personality in online social networks:Self-reported facebook-related behaviors and observable profile information[J].Cyber-psychology,Behavior,and Social Networking,2011,14(9):483-488.
(編輯苗秀芝)
Application ofmulti-task regression in socialmedia m ining
BAIShuotian1,YUAN Sha2,CHENG Li3,ZHU Tingshao4
(1.School of Computer and Control Engineering,University of Chinese Academy of Sciences,100190 Beijing,China;2.Institute of Acoustics,Chinese Academy of Sciences,100191 Beijing,China;3.Bioinfomatics institute,Agency for Science,Technology and Research,138632 Singapore;4.Institute of Psychology,Chinese Academy of Sciences,100101 Beijing,China)
With the development of Social Media,web mining analysis has been regarded as one of hot research topics.Traditional single task regression builds models for each task,which ignores the sharing information among tasks in the occasion of multi-variable prediction.Therefore,this paper used multi-task regression mining method,and managed to analyze the pattern between user’s personality and network behavior.This study collected a sample set of 335 RenRen users and 563 Weibo users through online test invitation.Usingmulti-task regression,the final prediction accuracy is 87%or more.The resultmeans that multi-task regression works better then single task regression formulti-variablemodeling.
multi-task regression;socialmedia;Web mining;feature extraction
TP391.4
A
0367-6234(2014)09-0100-05
2013-12-10.
國家自然科學(xué)基金資助項(xiàng)目(61070115).
白朔天(1987—),男,博士研究生;朱廷劭(1971—),男,研究員,博士生導(dǎo)師.
白朔天,baishutian10@m(xù)ails.ucas.al.cn.