韓諾 關(guān)增達(dá) 楊莉 朱廷劭
摘?要?近年來(lái),隨著計(jì)算機(jī)自然語(yǔ)言處理以及機(jī)器學(xué)習(xí)技術(shù)的日愈成熟,利用網(wǎng)絡(luò)行為預(yù)測(cè)用戶(hù)的心理特征逐漸成為跨學(xué)科的研究熱點(diǎn),一些學(xué)者也隨之開(kāi)始研究利用人工智能方法建立文學(xué)人物心理預(yù)測(cè)模型。目前的文學(xué)智能分析使用微博數(shù)據(jù)建立的預(yù)測(cè)模型來(lái)對(duì)文學(xué)人物進(jìn)行分析,這與文學(xué)作品中的場(chǎng)景存在差異。本文將遷移學(xué)習(xí)引入文學(xué)智能分析,針對(duì)英國(guó)文學(xué)家毛姆筆下的文學(xué)人物的心理特征進(jìn)行預(yù)測(cè),結(jié)果發(fā)現(xiàn)遷移學(xué)習(xí)模型使文學(xué)人物的心理預(yù)測(cè)效果有所提升,表明了遷移學(xué)習(xí)在文學(xué)人物心理分析模型中的有效性。
關(guān)鍵詞?遷移學(xué)習(xí);文學(xué)人物心理預(yù)測(cè)模型;毛姆小說(shuō)
分類(lèi)號(hào)?TP391
DOI: 10.16842/j.cnki.issn2095-5588.2019.10.005
1?引言
文藝作品中的人物心理過(guò)程與人格形象塑造是文學(xué)創(chuàng)作、評(píng)價(jià)的核心,由于其主觀(guān)性和復(fù)雜性,以往研究大多以文學(xué)評(píng)論或哲學(xué)思辨為主。由于文學(xué)人物是虛擬的或理想化的,基于自我報(bào)告的測(cè)量方法難以對(duì)文學(xué)人物進(jìn)行施測(cè),而傳統(tǒng)的對(duì)文學(xué)人物進(jìn)行的性格分析以定性方法為主,本文提出利用機(jī)器學(xué)習(xí)方法,在既有研究的基礎(chǔ)上,提高對(duì)文學(xué)人物心理特征自動(dòng)識(shí)別的準(zhǔn)確度,從而達(dá)到預(yù)測(cè)文學(xué)人物心理的目的。
近年來(lái),隨著計(jì)算機(jī)自然語(yǔ)言處理以及機(jī)器學(xué)習(xí)技術(shù)的日愈成熟,利用網(wǎng)絡(luò)行為預(yù)測(cè)用戶(hù)的心理特征逐漸成為跨學(xué)科的研究熱點(diǎn),國(guó)內(nèi)外研究者基于社交媒體內(nèi)容與大五人格表的映射關(guān)系對(duì)Facebook用戶(hù)、Twitter用戶(hù)與微博用戶(hù)等進(jìn)行人格預(yù)測(cè)的技術(shù)也日愈成熟(Li,Li,Hao,Guan, & Zhu, 2014)。大五人格模型是研究者通過(guò)詞匯學(xué)方法,總結(jié)了可以涵蓋人格描述所有方面的五種特質(zhì)的人格模型,包含對(duì)宜人性(Agreeableness)、盡責(zé)性(Conscientiousness)、開(kāi)放性(Openness)、外向性(Extraversion)與情緒性(Neuroticism)五種特質(zhì)的分析(John, & Srivastava,1999)。
利用生態(tài)化行為數(shù)據(jù),使用機(jī)器學(xué)習(xí)方法對(duì)個(gè)體心理特征進(jìn)行自動(dòng)識(shí)別的方法稱(chēng)為生態(tài)化識(shí)別(ecological recognition,ER)(吳育鋒,吳勝濤,朱廷劭,劉洪飛,焦冬冬, 2018)。采用基于生態(tài)化識(shí)別的文學(xué)智能分析,對(duì)文學(xué)人物進(jìn)行心理分析被證實(shí)是有效的,然而也存在著一定的不足(Liu,Wu,Jiao,Wu, & Zhu, 2018)。由于文學(xué)智能分析系統(tǒng)建立在使用網(wǎng)絡(luò)海量數(shù)據(jù)進(jìn)行人格預(yù)測(cè)所搭建的模型之上,文學(xué)人物對(duì)白與當(dāng)代微博文本存在著語(yǔ)用和語(yǔ)言演變帶來(lái)的差異,而這些差異很難通過(guò)增加人格預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)來(lái)解決。因此,本文引入遷移學(xué)習(xí)的方法,嘗試對(duì)模型進(jìn)行優(yōu)化以達(dá)到更好的文學(xué)人物心理分析效果。
在早期的遷移學(xué)習(xí)研究中,Daume 等人提出將目標(biāo)領(lǐng)域和源領(lǐng)域共同的特征,領(lǐng)域間各自獨(dú)有的特征放到一個(gè)擴(kuò)展的特征向量中,再進(jìn)行訓(xùn)練的方法,此方法在自然語(yǔ)言處理問(wèn)題的解決上取得了較好的效果(Daume, 2007; Daume,Kumar, & Saha, 2010)。戴文淵(2009)提出一種TrAdaBoost算法,即給定一個(gè)很小的源訓(xùn)練數(shù)據(jù)集,大量的輔助訓(xùn)練數(shù)據(jù)與一些未標(biāo)注的測(cè)試數(shù)據(jù)集,使用Adaboost算法與Hedge算法分別增加源訓(xùn)練數(shù)據(jù)集的權(quán)重、降低輔助訓(xùn)練集的權(quán)重從而最終達(dá)到減少分類(lèi)器分類(lèi)誤差的目的。Gupta等人提出首先尋找源領(lǐng)域與目標(biāo)領(lǐng)域數(shù)據(jù)集合適的共同特征數(shù),再將源數(shù)據(jù)矩陣與目標(biāo)數(shù)據(jù)矩陣相乘求秩,以秩的大小來(lái)確定共同變量個(gè)數(shù)的思想(Gupta, Phung, Adams, Tran, & Venkatesh, 2010)。Pan等人提出將最大均值差異嵌入(Maximum Mean Discrepancy Embedding,MMDE)的方法,將源領(lǐng)域與目標(biāo)領(lǐng)域的數(shù)據(jù)變換至新的特征空間,之后使用降維后得到的共同變量來(lái)訓(xùn)練分類(lèi)器
(Pan, Kwok, & Yang, 2008)
。也可以在MMD方法中加入不同的內(nèi)核,如高斯核(Gaussian kernal),Louizos等曾采用此方法用于特征間的遷移學(xué)習(xí)(Louizos, Swersky, Li, Welling, & Zemel, 2015)。
在近期的研究中,Ganin等在域?qū)股窠?jīng)網(wǎng)絡(luò)(DANN)中引入梯度反轉(zhuǎn)層,從而達(dá)到使源領(lǐng)域與目標(biāo)領(lǐng)域更為相似的目的(Ganin & Lempitsky, 2015)。Tzeng等人提出對(duì)抗性判別域適應(yīng)(Adversarial Discriminative Domain Adaptation,ADDA)方法,目標(biāo)領(lǐng)域與源領(lǐng)域數(shù)據(jù)相互獨(dú)立,即不受權(quán)值約束,使用訓(xùn)練好的源領(lǐng)域數(shù)據(jù)集權(quán)重來(lái)建立目標(biāo)領(lǐng)域模型(Tzeng, Hoffman, Saenko, & Darrel, 2017)。
上述遷移學(xué)習(xí)的研究均有一個(gè)相同的思想,即試圖使源領(lǐng)域與目標(biāo)領(lǐng)域具有相同的數(shù)據(jù)分布。因?yàn)橐坏┱业搅藘蓚€(gè)領(lǐng)域間數(shù)據(jù)的映射關(guān)系,就可以使用源標(biāo)注領(lǐng)域的分類(lèi)器來(lái)劃分未標(biāo)記目標(biāo)域。因此模型性能關(guān)鍵在于如何尋找源域與目標(biāo)域數(shù)據(jù)間的映射關(guān)系。
由于本文對(duì)文學(xué)人物的對(duì)白處理與微博用戶(hù)數(shù)據(jù)的處理過(guò)程一致,特征空間相同,而數(shù)據(jù)分布不同,此時(shí)需要將源領(lǐng)域與目標(biāo)領(lǐng)域的數(shù)據(jù)集映射到一個(gè)共同的變量空間中。由于源領(lǐng)域數(shù)據(jù)集較為稠密,而目標(biāo)領(lǐng)域數(shù)據(jù)集過(guò)于稀疏,恰當(dāng)?shù)南∈杩梢允箤W(xué)習(xí)任務(wù)變得簡(jiǎn)單可行,并有助于提高預(yù)測(cè)模型的性能。本文選擇使用字典學(xué)習(xí)(Dictionary Learning)方法來(lái)尋找源域與目標(biāo)域間的數(shù)據(jù)映射關(guān)系,之后選擇合適的回歸學(xué)習(xí)方法來(lái)建立文學(xué)人物人格預(yù)測(cè)模型。因小說(shuō)人物無(wú)法進(jìn)行自我報(bào)告或者填寫(xiě)問(wèn)卷,也無(wú)法找到熟悉他的人來(lái)對(duì)其進(jìn)行評(píng)價(jià),為保證實(shí)驗(yàn)的準(zhǔn)確性,選取部分性格鮮明的文學(xué)人物作為心理分析對(duì)象,對(duì)模型進(jìn)行評(píng)價(jià)。
2?方法
本研究中,源領(lǐng)域數(shù)據(jù)為微博用戶(hù)文本數(shù)據(jù),包含用戶(hù)的在線(xiàn)微博文本數(shù)據(jù)與用戶(hù)的大五人格得分,以下稱(chēng)為源域數(shù)據(jù)。目標(biāo)領(lǐng)域數(shù)據(jù)為英國(guó)著名小說(shuō)家威廉·薩默塞特·毛姆的五部長(zhǎng)篇小說(shuō)《人性的枷鎖》、《月亮與六便士》、《刀鋒對(duì)話(huà)》、《面紗》與《尋歡作樂(lè)》中所出現(xiàn)的文學(xué)人物的所有對(duì)白內(nèi)容,以下稱(chēng)為目標(biāo)域數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,分別得到源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集。
2.1?數(shù)據(jù)預(yù)處理
源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)的預(yù)處理過(guò)程類(lèi)似,以目標(biāo)域數(shù)據(jù)預(yù)處理過(guò)程為例,數(shù)據(jù)的預(yù)處理過(guò)程如下:先提取各文學(xué)人物在小說(shuō)中的對(duì)白,建立為長(zhǎng)文本;再將SC-LIWC詞典作為分詞詞典,使用中文“結(jié)巴”分詞工具對(duì)長(zhǎng)文本進(jìn)行分詞處理操作;借助哈爾濱工業(yè)大學(xué)停用詞表進(jìn)行去停用詞處理;之后基于詞袋模型,根據(jù)SC-LIWC詞典的功能詞計(jì)算各類(lèi)功能詞的詞頻;最后基于上述一系列操作,得到分別針對(duì)各文學(xué)人物的詞向量。數(shù)據(jù)預(yù)處理流程如圖1所示。
2.2?模型建立
本文將遷移學(xué)習(xí)應(yīng)用于文學(xué)人物的心理分析,以期提高預(yù)測(cè)的準(zhǔn)確度。為此,本文首先建立基于微博文本數(shù)據(jù)的人格預(yù)測(cè)模型,使用此人格預(yù)測(cè)模型對(duì)文學(xué)人物對(duì)白進(jìn)行分析,得到文學(xué)人物的大五人格分?jǐn)?shù)。之后在此人格模型基礎(chǔ)上引入遷移學(xué)習(xí),得到遷移后的預(yù)測(cè)模型預(yù)測(cè)的大五人格分?jǐn)?shù)。最后將前后得到的分?jǐn)?shù)進(jìn)行比較,驗(yàn)證遷移學(xué)習(xí)是否在文學(xué)人物心理分析方面具有一定的有效性。
2.2.1?人格預(yù)測(cè)模型的建立
(1)過(guò)濾離群點(diǎn)
在進(jìn)行數(shù)據(jù)分析時(shí),本研究將那些明顯偏離其他數(shù)據(jù)、不滿(mǎn)足數(shù)據(jù)的一般行為或模式、與存在的其他數(shù)據(jù)不一致的點(diǎn)稱(chēng)為離群點(diǎn)。為保證模型的穩(wěn)定性與準(zhǔn)確性,在訓(xùn)練模型前首先進(jìn)行離群點(diǎn)過(guò)濾工作。
本次試驗(yàn)選擇K均值聚類(lèi)算法來(lái)過(guò)濾離群點(diǎn)。K均值聚類(lèi)算法是一種迭代求解的聚類(lèi)分析算法,首先選取N個(gè)對(duì)象(N=3)作為初始的聚類(lèi)中心,接著計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類(lèi)中心之間的距離,并把每個(gè)對(duì)象分配給距離它最近的聚類(lèi)中心。聚類(lèi)中心以及分配給它們的對(duì)象就代表一個(gè)聚類(lèi)。每分配一個(gè)樣本,聚類(lèi)的聚類(lèi)中心會(huì)根據(jù)聚類(lèi)中現(xiàn)有的對(duì)象被重新計(jì)算。本研究將離散點(diǎn)闕值定為2.0,即距離聚類(lèi)中心超出2.0的點(diǎn)為離散點(diǎn)。將離群點(diǎn)及其所對(duì)應(yīng)的標(biāo)注過(guò)濾后,得到新的源數(shù)據(jù)集。聚類(lèi)情況如圖2所示。
(2)逐步回歸降維
在現(xiàn)實(shí)任務(wù)中經(jīng)常會(huì)遇到維數(shù)災(zāi)難問(wèn)題,這是由于屬性過(guò)多造成的,如果可以從中選擇出重要的特征,使得后續(xù)學(xué)習(xí)過(guò)程僅需在一部分特征上進(jìn)行模型構(gòu)建,那么維數(shù)災(zāi)難問(wèn)題將會(huì)大為減輕。此外,去除不相關(guān)特征可以降低機(jī)器學(xué)習(xí)的難度(周志華, 2018)。
鑒于源數(shù)據(jù)集過(guò)濾離群點(diǎn)后,分析對(duì)象為1672個(gè),而特征項(xiàng)有76項(xiàng),此時(shí)特征項(xiàng)較多而數(shù)據(jù)量較少,易出現(xiàn)過(guò)擬合問(wèn)題。因此在分析對(duì)象過(guò)濾離群點(diǎn)后,對(duì)得到的新的帶標(biāo)注的源數(shù)據(jù)集進(jìn)行特征選擇。本次實(shí)驗(yàn)選擇線(xiàn)性逐步回歸法進(jìn)行特征選擇。各特質(zhì)所對(duì)應(yīng)的特征選擇的部分結(jié)果如表2所示。
(3)訓(xùn)練回歸預(yù)測(cè)模型
在過(guò)濾離群點(diǎn)與特征選擇后,開(kāi)始訓(xùn)練回歸預(yù)測(cè)模型。為使文學(xué)人物智能分析系統(tǒng)的預(yù)測(cè)效果更為準(zhǔn)確,同時(shí)排除最終結(jié)果對(duì)比時(shí)除遷移學(xué)習(xí)外其他因素影響,本研究先后使用線(xiàn)性回歸、高斯過(guò)程回歸、支持向量回歸(Support Vector Regression,SVR)、嶺回歸(Ridge Regression)、LASSO回歸等方法分別訓(xùn)練人格預(yù)測(cè)模型并使用五折交叉驗(yàn)證方法,通過(guò)求得各個(gè)模型五個(gè)特質(zhì)的平均均方根誤差RMSE來(lái)對(duì)各回歸方法建立的模型進(jìn)行評(píng)估,選擇效果最好的方法用于模型最終的建立。幾種回歸方法所建模型的均方根誤差如表2所示。
經(jīng)比較發(fā)現(xiàn),使用線(xiàn)性回歸方法訓(xùn)練人格預(yù)測(cè)模型的平均均方根誤差較小,即模型擬合效果更為良好。因此,此次實(shí)驗(yàn)使用逐步線(xiàn)性回歸法訓(xùn)練文學(xué)人物心理分析模型。各特質(zhì)預(yù)測(cè)值與真實(shí)值分布散點(diǎn)圖如圖3所示。
2.2.2?建立遷移學(xué)習(xí)模型
基于上述建立的人格預(yù)測(cè)模型,本文建立了基于遷移學(xué)習(xí)的文學(xué)人物人格預(yù)測(cè)模型。鑒于源域數(shù)據(jù)集較為稠密,而目標(biāo)域數(shù)據(jù)集過(guò)于稀疏,此時(shí)應(yīng)令數(shù)據(jù)集分布恰當(dāng)稀疏,從而可以使學(xué)習(xí)任務(wù)變得簡(jiǎn)單可行,并有助于提高預(yù)測(cè)模型的性能?;诖怂枷?,本文選擇使用字典學(xué)習(xí)方法來(lái)尋找源域與目標(biāo)域間的數(shù)據(jù)映射關(guān)系?;谶w移學(xué)習(xí)的文學(xué)人物心理預(yù)測(cè)模型建立過(guò)程如下:
(1)對(duì)源數(shù)據(jù)集進(jìn)行過(guò)濾離群點(diǎn)處理,得到不含離群點(diǎn)的源數(shù)據(jù)集;
(2)對(duì)源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集分別進(jìn)行特征選擇,去除冗余特征項(xiàng),得到源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集;
(3)使用源數(shù)據(jù)集進(jìn)行線(xiàn)性回歸,得到人格預(yù)測(cè)模型;
(4)基于源數(shù)據(jù)集進(jìn)行字典學(xué)習(xí),得到字典,之后使用稀疏編碼(Sparse Encoding)算法得到映射到源域的目標(biāo)數(shù)據(jù)集;
(5)使用人格預(yù)測(cè)模型對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行預(yù)測(cè),得到文學(xué)人物的大五人格分?jǐn)?shù)。
3?結(jié)果
通過(guò)閱讀各類(lèi)文學(xué)評(píng)論(李曉涵, 2018;蘇虹蕾, 2016;萬(wàn)麗君, 2017;王落茹, 2018;劉豆, 2016),本文選取毛姆的代表作《月亮與六便士》中,性格較為鮮明的主人公查理斯·思特里克蘭德、好友戴爾克·施特略夫以及第一任妻子思特里克蘭德太太為分析對(duì)象。
本研究所應(yīng)用的大五人格問(wèn)卷為O. John的44道題大五人格問(wèn)卷。其中,外向性、情緒性滿(mǎn)分為40分,當(dāng)?shù)梅中∮?2分時(shí),此特質(zhì)有偏弱的表現(xiàn),當(dāng)?shù)梅执笥?8分時(shí),此特質(zhì)有偏強(qiáng)的表現(xiàn);宜人性、盡責(zé)性滿(mǎn)分為45分,當(dāng)?shù)梅中∮?5分時(shí),此特質(zhì)有偏弱的表現(xiàn),當(dāng)?shù)梅执笥?1分時(shí),此特質(zhì)有偏強(qiáng)的表現(xiàn);開(kāi)放性滿(mǎn)分為50分當(dāng)?shù)梅中∮?1分時(shí),此特質(zhì)有偏弱的表現(xiàn),當(dāng)?shù)梅执笥?4分時(shí),此特質(zhì)有偏強(qiáng)的表現(xiàn)。