【摘要】情感分析技術(shù)是自然語言處理領(lǐng)域的重要分支。將文學(xué)語言視為自然語言,利用百度智能云平臺對貝婁早期作品中的女性書寫進(jìn)行情感分析是一次創(chuàng)新性嘗試。實驗表明,處于創(chuàng)作早期的貝婁整體上對女性人物呈正向情感傾向。利用百度智能云對文學(xué)語言進(jìn)行情感分析具有一定的可靠性,但絕對依靠機器將使文學(xué)研究失去人文屬性的本質(zhì),而單純的文本細(xì)讀會造成主觀臆斷的可能。機器與人工的結(jié)合是新文科建設(shè)背景下文學(xué)研究兼具科學(xué)與人文雙重屬性的有益嘗試。
【關(guān)鍵詞】索爾·貝婁;女性觀;情感分析;百度智能云
【中圖分類號】I107 ? ? ?【文獻(xiàn)標(biāo)識碼】A ? ? ?【文章編號】2096-8264(2023)28-0055-03
【DOI】10.20024/j.cnki.CN42-1911/I.2023.28.017
基金項目:本文系湖南工程學(xué)院青年科研項目“索爾·貝婁創(chuàng)作中期的女性觀研究”(項目編號:XJ1815)階段性成果;2022年湖南省教育廳科學(xué)研究項目(項目編號:22C0422)。
一、引言
美國諾獎作家索爾·貝婁歷來是國內(nèi)外研究者們的關(guān)注對象,其筆下的女性人物更是引發(fā)了不小爭議。有學(xué)者認(rèn)為,貝婁是一名厭女型作家,其筆下的女性人物大多為魔鬼化形象,與男性人物形成競爭關(guān)系。還有部分學(xué)者對此大加批判,認(rèn)為貝婁塑造的女性人物是敢于對抗男權(quán),追求自由平等的新女性。此類研究者大都采用文本細(xì)讀法單憑一部或幾部作品便斷定其整個創(chuàng)作生涯的女性觀積極與否,沒有以發(fā)展的眼光看待貝婁女性觀的演進(jìn),有失公允。貝婁的創(chuàng)作生涯長達(dá)近60年,學(xué)界普遍將其分為早、中、晚三個時期。在一次采訪中,貝婁公開宣稱:“我早期的作品沒有多大用處,《晃來晃去的人》和《受害者》可不是我的樂子”[1]。即便如此,貝婁早期作品中的女性書寫仍值得研究者們?nèi)ネ诰?,是綜合考量其女性觀演進(jìn)的前期基礎(chǔ)。此外,單純的文本細(xì)讀可能會因個體差異而產(chǎn)生不同的解讀,容易造成主觀臆斷。因此,為增強對貝婁女性人物研究的科學(xué)性,響應(yīng)新文科建設(shè)的呼喚,采用現(xiàn)代信息技術(shù)對貝婁作品進(jìn)行“遠(yuǎn)讀”嘗試已變得緊迫且必要。鑒于語言文字的固有情感意義會傳遞出作者自身的感受和態(tài)度,本文將運用自然語言處理領(lǐng)域的情感分析技術(shù)對索爾·貝婁早期作品中的女性人物書寫進(jìn)行情感傾向分析,以揭示貝婁在該時期的女性觀,進(jìn)而探討將文學(xué)語言視為自然語言進(jìn)行情感分析的可行性問題。
二、文學(xué)研究與情感分析技術(shù)
21世紀(jì)以來,信息技術(shù)的迅猛發(fā)展影響著社會生活的方方面面,也給人文社科研究帶來了巨大的機遇與挑戰(zhàn),國內(nèi)部分研究者正主動融入這場信息化革命。早在1949年,意大利神父羅伯托·布薩(Roberto Busa)就與IBM合作對神學(xué)家托馬斯·阿奎那(Thomas Aquinas)的全集做索引。自此,“人文計算”這一概念開始獲得廣泛關(guān)注和實踐,相繼出現(xiàn)了頗具影響力的研究協(xié)會與學(xué)術(shù)期刊。進(jìn)入到21世紀(jì),計算機技術(shù)與互聯(lián)網(wǎng)的迅猛發(fā)展使得大型數(shù)據(jù)庫的建設(shè)成為可能,學(xué)界逐步轉(zhuǎn)向?qū)Α皵?shù)字人文”這一概念的討論,但對于其概念定義和出現(xiàn)時間至今仍未達(dá)成共識。
在文學(xué)研究領(lǐng)域,弗朗哥·莫萊蒂(Franco Moretti)是這一時期引領(lǐng)世界文學(xué)研究朝數(shù)字人文邁進(jìn)的重要人物之一。2000年,他在《對世界文學(xué)的猜想》一文中,首次提出了“遠(yuǎn)距離閱讀”(distant reading)這一術(shù)語[2]。2010年,莫萊蒂又牽頭建立了斯坦福大學(xué)文學(xué)實驗室,致力于運用現(xiàn)代計算機技術(shù)對世界文學(xué)進(jìn)行研究,是該領(lǐng)域迄今為止最具世界影響力的項目。漢語世界中將信息技術(shù)與人文研究相結(jié)合的實踐始于20世紀(jì)下半葉,研究領(lǐng)域主要集中在計算語言學(xué)、地理信息系統(tǒng)與歷史信息系統(tǒng)、學(xué)術(shù)數(shù)據(jù)庫、檔案庫庫建設(shè)、大型商業(yè)數(shù)據(jù)庫建設(shè)等。具體到文學(xué)研究相對較少,美國紅學(xué)者陳炳藻在1980年首屆國際紅樓夢研討會上宣讀了論文《從詞匯上的統(tǒng)計論〈紅樓夢〉的作者問題》,率先利用計算機對《紅樓夢》后四十回的著作權(quán)屬進(jìn)行探析,與會者對他的創(chuàng)造性研究方法表示贊賞[3]。近年來數(shù)字人文在中國學(xué)界獲得了廣泛關(guān)注和發(fā)展,但真正踐行數(shù)字人文的研究者甚少。趙薇認(rèn)為數(shù)字人文有強烈的“實踐性”要求,需要用成果說話,把做數(shù)字人文研究變成“談?wù)摂?shù)字人文”,最終難逃曇花一現(xiàn)的結(jié)局[4]。情感分析技術(shù)應(yīng)用于文學(xué)研究既是對數(shù)字人文“實踐性”呼喚的有效回應(yīng),也是增強文學(xué)研究科學(xué)性的有效手段。
情感分析,也稱觀點挖掘。這一研究領(lǐng)域的目標(biāo)是從文本中分析出人們對于實體及其屬性所表達(dá)的觀點、情感、評價、態(tài)度和情緒[5]。2003年Nasukawa、Tetsuya和Jeonghee Yi在第二屆知識獲取國際研討會上公開發(fā)表論文《情感分析:運用自然語言處理捕獲好感度》。由此,這一術(shù)語開始進(jìn)入學(xué)界的視野,但與其相關(guān)的研究早些時候便已開展。時下,情感分析技術(shù)已被廣泛運用于電子商務(wù)、市場預(yù)測、輿情監(jiān)控、政治選舉等領(lǐng)域,與管理學(xué)、政治學(xué)、經(jīng)濟學(xué)、語言學(xué)呈現(xiàn)出跨學(xué)科交叉研究的繁榮景象。在文學(xué)研究領(lǐng)域,國內(nèi)外部分學(xué)者已開始嘗試將情感分析運用于文學(xué)計算批評實踐,并取得了高質(zhì)量成果。Yu Bei運用樸素貝葉斯(Na?ve Bayes)和支持向量機(SVM)兩種算法對美國早期小說進(jìn)行情感分類處理,以比較這兩種分類器在處理文學(xué)文本時的表現(xiàn)[6]。張璐以中國科幻文學(xué)作品《三體》為例,將Python情感分析運用于《三體》海外讀者的接受研究,從互聯(lián)網(wǎng)海量評論中以量化的方式挖掘出英語讀者對該書的情感態(tài)度和評價,總結(jié)該書在海外成功或失敗的原因[7]。石春讓和鄧林通過運用情感分析技術(shù),分析了西方讀者對莫言小說十一部英譯本發(fā)表的網(wǎng)絡(luò)評論,量化其情感態(tài)度并分類整理代表性的評論,探索西方讀者的接受程度[8]。
當(dāng)前,情感分析主要依靠機器學(xué)習(xí)、情感詞典以及借助第三方商業(yè)平臺實現(xiàn),三者各有其優(yōu)缺點。機器學(xué)習(xí)需要構(gòu)建機器學(xué)習(xí)模型,采用無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)兩種方法。無監(jiān)督學(xué)習(xí)依賴處理語料的領(lǐng)域范圍,由于語料沒有做過標(biāo)記,存在對基準(zhǔn)情感詞的依賴性問題,準(zhǔn)確率較低。而有監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)的常用手段,語料通常已被做過標(biāo)記,采用的算法包括樸素貝葉斯(Na?ve Bayes)、最大熵(Max Entropy)、決策樹(Decision Tree)、TF-IDF(term frequency-inverse document frequency)等。因其較高的準(zhǔn)確性,有監(jiān)督的機器學(xué)習(xí)現(xiàn)已成為國際上最常用的情感分析技術(shù)?;谇楦性~典的情感分析技術(shù)需要將事先已經(jīng)構(gòu)建好的情感詞典加載到Python語言,然后根據(jù)正負(fù)情感數(shù)的差值判定情感的正負(fù)傾向,但現(xiàn)有的情感詞典并未能收錄全部英文字詞。知網(wǎng)情感詞典(HowNet)和sentiwordnet是常見的可以處理英文文本的情感詞典。第三方商業(yè)平臺因技術(shù)門檻求低且部分功能免費試用,在處理小型數(shù)據(jù)集時具有得天獨厚的優(yōu)勢,包括百度智能云、訊飛開放平臺、斯圖飛騰(Stratifyd)等。
三、研究設(shè)計與流程
貝婁一生筆耕不輟,共創(chuàng)作出10部長篇小說,5部中篇小說,5部短篇小說和1部散文隨筆。本文將根據(jù)學(xué)界普遍接受的分類,選取其早期創(chuàng)作的兩部長篇小說作為研究對象,即《受害者》和《晃來晃去的人》?!妒芎φ摺分兴婕暗呐匀宋镏饕邪漳取旣?、艾琳娜的母親。《晃來晃去的人》中主要的女性人物有艾娃、基蒂、阿爾特施塔特夫人、埃特和多莉。
首先,數(shù)據(jù)獲取。通過文本細(xì)讀,抽取包含對各個女性人物描述的句子,其中有關(guān)艾琳娜的有24條,瑪麗7條,艾琳娜的母親16條,艾娃13條、基蒂7條、阿爾特施塔特夫人7條、埃特9條、多莉4條。
然后,基于百度智能云進(jìn)行情感分析。考慮到數(shù)據(jù)集較小,本次實驗將選擇技術(shù)要求較低且可以供用戶免費試用的第三方商業(yè)平臺—百度智能云?;赑ython語言, 用戶只需簡單的編程即可在該平臺獲得包含正向情感值、負(fù)向情感值、可信度等反饋結(jié)果。情感總值為1,當(dāng)情感值大于0.5時判定為正向,當(dāng)小于0.5時,判定為負(fù)向。
最后,人工標(biāo)注并進(jìn)行結(jié)果比對。與社會文本不同的是,小說文本包含了作者的復(fù)雜情感,文本表層之下的含義可能會受到其寫作技巧的影響。因此,有必要進(jìn)行人工標(biāo)注情感傾向,以驗證機器在小說文本情感分析中的準(zhǔn)確性與可靠性。實驗將邀請5位英美文學(xué)方向的研究生為數(shù)據(jù)集進(jìn)行人工標(biāo)注,統(tǒng)計正向情感和負(fù)向情感的占比,所得結(jié)果將與機器反饋的結(jié)果進(jìn)行比對。
四、實驗結(jié)果與分析
表1為百度智能云分析統(tǒng)計結(jié)果,記錄了各女性人物對應(yīng)的正負(fù)情感傾向條數(shù)。表2為5位研究生的人工標(biāo)注統(tǒng)計結(jié)果,記錄了各女性人物對應(yīng)的情感傾向條數(shù)在總條目數(shù)中的占比。經(jīng)對比分析得出如下結(jié)論:
第一、總體上看,兩種方法得出的結(jié)果具有一致性,都體現(xiàn)出了作家在描寫女性人物時較為積極的情感傾向。經(jīng)過對《受害者》中艾琳娜、瑪麗和艾琳娜的母親三位主要女性人物的分析,百度智能云得出的結(jié)果皆為正向,人工標(biāo)注的正向占比也皆大于負(fù)向。盡管在《晃來晃去的人》中,人工標(biāo)注法顯示艾娃、埃特和多莉所對應(yīng)的正向情感傾向占比小于負(fù)向,但埃特和多莉只是整部小說的配角,話語權(quán)重小。因此,綜合考量兩部作品中的主要女性人物,貝婁創(chuàng)作早期表現(xiàn)出了較為積極的女性觀。
第二、兩種方法在對同一人物進(jìn)行分析時具有相似趨勢。表一中艾娃和埃特首次出現(xiàn)負(fù)向情感傾向,分別為1條和2條,而表二中艾娃和埃特的負(fù)向情感傾向占比也皆大于正向。盡管兩種方法得出的最終結(jié)果不同,但都表明貝婁在書寫艾娃和埃特時開始出現(xiàn)負(fù)向情感傾向。
第三,兩種方法對第二部小說的分析結(jié)果完全一致。第一部小說《晃來晃去的人》中女性人物較豐富,兩種方法得出的結(jié)論略有不同,可能是因為貝婁在書寫女性人物時較為復(fù)雜的心理狀態(tài),讀者難以判定其正負(fù)情感傾向。針對第二部小說《受害者》,兩種方法得出的結(jié)論完全一致,正向情感傾向皆占主導(dǎo),表明貝婁對女性的態(tài)度由最初的復(fù)雜和不確定逐步走向成熟穩(wěn)定。
表一:百度智能云分析結(jié)果
表二:人工標(biāo)注結(jié)果
《晃來晃去的人》中的女主人公艾娃是典型的職業(yè)女性。盡管艾娃從未替自己發(fā)聲,但讀者卻可以從文本中看到一個經(jīng)濟獨立、追求自由的新型職業(yè)女性形象。約瑟夫在日記中寫道,“在此期間,我老婆艾娃一直供養(yǎng)著我。她聲稱,這不算什么負(fù)擔(dān),還勸我借此機會好生自由自在幾天,讀讀書,痛痛快快地玩一玩”??梢姡诩s瑟夫應(yīng)征入伍前的日子,艾娃取代了約瑟夫的位置,成為家里的唯一經(jīng)濟來源,擺脫了男權(quán)社會中女性在經(jīng)濟上完全依附于男性的傳統(tǒng)形象。此外,艾娃的內(nèi)心也充斥著對男權(quán)的反叛意識,甚至連反叛對象約瑟夫自己都認(rèn)為這合情合理?!鞍藓臀铱偸遣粔蚝湍?。這也不能全怪她。多年來,她一直由我擺布,現(xiàn)在,她有了反叛的能力……我期待著某種反抗?!盵9]自由之于艾娃與自由之于約瑟夫已變得同等重要。艾娃成為貝婁早期作品中謳歌女性追求獨立和自由的典范。
《受害者》中的瑪麗出場次數(shù)較少,但卻絲毫不影響其作為女主人公的重要性,貫穿著整部小說的始末。瑪麗完美的女性形象在她對母親的盡善盡孝中得到完美呈現(xiàn)。由于父親新逝,瑪麗立即前往巴爾的摩幫助母親搬家,前往位于查爾斯頓的弟弟家中居住,一個孝順的猶太女兒形象盡現(xiàn)在讀者眼前。此外,小說中貝婁并沒有安排代表“善”的瑪麗與代表“惡”的阿爾比相識,體現(xiàn)了他對瑪麗完美女性形象的保護,使她與“惡”保持著絕對的距離。在瑪麗離家的日子,“他天天都盼著聽到瑪麗要回來的消息。如果她在這種局面結(jié)束之前回來怎么辦呢?”盡管阿薩對妻子瑪麗望眼欲穿,也不愿在他與阿爾比的麻煩未解決之前就希望瑪麗歸來。甚至在小說的最后一章,當(dāng)阿薩攜瑪麗一起前往劇院觀劇時,盡管阿薩認(rèn)出了阿爾比,但貝婁并沒有安排瑪麗與阿爾比相識。
五、結(jié)語
作為自然語言處理領(lǐng)域的重要分支,情感分析技術(shù)在文本挖掘方面具有舉足輕重的地位和優(yōu)勢。在對貝婁早期兩部小說中的女性人物書寫進(jìn)行情感分析時,盡管基于機器的情感分析方法與人工文本細(xì)讀法所得出的結(jié)果在細(xì)節(jié)上略顯不同,但總體上保持著一致性,都體現(xiàn)出貝婁較為積極的女性觀。實驗結(jié)果也驗證了百度智能云在對文學(xué)語言進(jìn)行情感分析時具有一定的可靠性。但是,文學(xué)語言與自然語言的區(qū)別注定不能完全依靠機器解讀作家的觀點。在對文學(xué)文本進(jìn)行類似處理時,研究者們應(yīng)考慮將機器與人工兩種方法相結(jié)合,取長補短,以避免機器遠(yuǎn)讀的絕對性和人工細(xì)讀的主觀性。
本次實驗采取了人工細(xì)讀的方式來獲取測試樣本,雖可信度較高,但在處理大型文本語料時,便無法解決大量的未讀問題。此外,百度智能云適用于大多數(shù)的生活應(yīng)用場景,但在文學(xué)研究領(lǐng)域其可靠性仍待提升。因此,后續(xù)的研究將考慮設(shè)計基于特定主題的文本信息抓取模型,將更加可靠的機器學(xué)習(xí)方法應(yīng)用于文學(xué)文本的情感傾向研究中。
參考文獻(xiàn):
[1]Roudané Matthew C.,Saul Bellow.An Interview with Saul Bellow[J].Contemporary Literature,1984, 25(3):265-280.
[2]Moretti Franco.Conjectures on world literature[J].New Left Review,2000,(1):54-68.
[3]海炯.首屆國際紅樓夢研討會簡況[J].社會科學(xué), 1980,(5):156-157.
[4]趙薇.數(shù)字時代人文學(xué)研究的變革與超越——數(shù)字人文在中國[J].探索與爭鳴,2021,(6):191-233.
[5]劉兵.情感分析:挖掘觀點、情感和情緒[M].北京: 機械工業(yè)出版社,2017.
[6]Yu Bei.An evaluation of text classification methods for literary study[J].Literary and Linguistic Computing,2008,23(3):327-343.
[7]張璐.從Python情感分析看海外讀者對中國譯介文學(xué)的接受和評價:以《三體》英譯本為例[J].外語研究,2019,(4):80-86.
[8]石春讓,鄧林.基于情感分析技術(shù)的莫言小說英譯本在西方的接受程度研究[J].外國語文,2020,36(3):91-96.
[9]索爾·貝婁.索爾·貝婁全集[M].石家莊:河北教育出版社,2002.
作者簡介:
梁彪,男,湖南邵陽人,湖南工程學(xué)院外國語學(xué)院講師,主要從事英美文學(xué)、數(shù)字人文研究。