“計算機不理解任何人類語言,但是它有兩個好處,第一很快,第二很穩(wěn)定。你讓我看兩千萬字的小說,我看到后面就完全忘記前面?!?/p>
“用數(shù)
字史學的方式去研究歷史,人的價值或者個性怎么辦?”
南方周末記者 曹穎
南方周末實習生 杜嘉禧
發(fā)自上海、廣州
戰(zhàn)玉冰用12.5小時“讀”完了749部中國網(wǎng)絡小說,總字數(shù)七億兩千九百多萬字。即便按一天一部的速度閱讀,普通人要用兩年多時間才能讀完。戰(zhàn)玉冰只用了半天時間,因為他借助了一款大數(shù)據(jù)軟件。
軟件是上海作家走走開發(fā)的。2017年,走走辭去《收獲》雜志社的編輯職務,與鄭翔宇聯(lián)合創(chuàng)業(yè),新業(yè)務主要是為影視公司評估文學作品。當時,影視公司熱衷于購買網(wǎng)絡文學的作品版權。這些作品動輒幾百萬字,走走讀完一部就需要一周。這也是行業(yè)內(nèi)普遍的煩惱。走走暢想,如果有一個工具,能幫大家迅速看完小說,告訴大家情節(jié)是什么就好了。大數(shù)據(jù)軟件的雛形誕生了。
軟件研發(fā)不久,影視行業(yè)遭遇寒冬,走走和鄭翔宇的公司業(yè)務短缺,面臨轉(zhuǎn)型。2019年,《收獲》雜志復刊四十周年,雜志社得知走走的軟件,想用這款軟件做一個報告,分析過去四十年《收獲》刊載小說的風格變化。走走的軟件從此邁向人文學科。
報告由復旦大學博士生戰(zhàn)玉冰撰寫。戰(zhàn)玉冰的專業(yè)是中國現(xiàn)當代文學,學者們研究時也會用到統(tǒng)計,比如魯迅《狂人日記》里寫到了多少次“狂人”、多少次“吃人”?!巴ㄟ^統(tǒng)計數(shù)據(jù)來樹立小說的主題,這樣的研究很多。”戰(zhàn)玉冰的博士論文需統(tǒng)計民國時期偵探小說發(fā)表情況,他用了半年時間,才統(tǒng)計完這項龐大的數(shù)據(jù)。《收獲》四十年刊載的小說也是龐大的數(shù)據(jù),借助軟件,戰(zhàn)玉冰只用兩周就拿到了想要的數(shù)據(jù)。
數(shù)字文學只是“數(shù)字人文”的眾多分支之一,其他分支包括數(shù)字史學、數(shù)字哲學、數(shù)字藝術等等。據(jù)南京大學藝術學院副教授陳靜研究,中國學界2009年才開始廣泛關注數(shù)字人文。這一年,武漢大學王曉光教授發(fā)表科普文章《“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿》,在“科學網(wǎng)”上獲得上萬在線點擊。2011年,中國首家數(shù)字人文研究中心落戶武漢大學。
“數(shù)字人文不僅是量化的方式或者統(tǒng)計的方式,也可以用文本挖掘,用社會網(wǎng)絡信息,或者用可視化的方式呈現(xiàn)你的論文結(jié)果?!蹦暇┐髮W歷史系教授王濤告訴南方周末記者,他2014年就接觸到“數(shù)字史學”,但在他的世界史研究方向,至今仍然很少有人應用數(shù)字方法做研究。
和尿布一起購買
最多的商品是啤酒
根據(jù)大數(shù)據(jù)統(tǒng)計,在《收獲》復刊四十年來刊載的小說中,第一個十年最突出的高頻詞是“我要”。戰(zhàn)玉冰分析,“我要”意味著經(jīng)歷“文革”十年壓抑之后,個人主體意識的覺醒和自我表達欲望的急劇提升,這也與當時以控訴“文革”為主題的“傷痕文學”和書寫自我經(jīng)歷的“知青文學”的流行相互契合。從第二個十年開始,高頻詞變成了“我們”“他們”“自己”。文學創(chuàng)作逐漸恢復到了對日常生活的關注、描摹和書寫當中。
后來,戰(zhàn)玉冰又用軟件分析了48部茅盾文學獎獲獎作品,排名第一的高頻詞是“心里”。這個結(jié)果符合戰(zhàn)玉冰對“嚴肅文學”的想象和認知,但他找不到二者之間必然的因果關系。“能感覺到,但是我就是說不清楚,最后論文其實也沒有說清楚。”戰(zhàn)玉冰告訴南方周末記者,當時他認為學術研究就應該注重因果關系,因此感到痛苦。
為此,戰(zhàn)玉冰看了很多數(shù)字研究的書。他讀到沃爾瑪超市抓取交易數(shù)據(jù),發(fā)現(xiàn)和尿布一起購買最多的商品是啤酒。超市沒有追問為什么,只是根據(jù)這個結(jié)果,把啤酒跟尿布擺在一起。戰(zhàn)玉冰豁然開朗:“相關性本身是有價值的,不一定非要把它變成因果?!?/p>
王濤曾用軟件統(tǒng)計德國史研究,數(shù)據(jù)顯示,學者們最關心的問題是猶太人問題,最關注的時期是二戰(zhàn)時期。這一現(xiàn)象和王濤自己的經(jīng)驗一致,他在文中寫道:“此前,我們只能憑印象認識到德國史研究的流行度,現(xiàn)在借助大數(shù)據(jù)的定量分析,證實了我們的印象。這應該是數(shù)字人文最令人著迷的地方?!?/p>
高頻詞似乎成為研究者重點關注的對象,王濤反思:“我們把更多注意力投注在大樣本的數(shù)據(jù),丟棄了低頻率的內(nèi)容。對于歷史研究而言,這些被忽視的內(nèi)容可能同樣具有價值。”
2019年,李洱小說《應物兄》摘得茅盾文學獎。戰(zhàn)玉冰通過軟件分析意外地發(fā)現(xiàn),“心里”并非這部小說的高頻詞,但其余四十七部獲獎作品中,“心里”均是高頻詞?!稇镄帧匪坪醪环蠑?shù)據(jù)呈現(xiàn)的“嚴肅文學”的特征。
這個特例同樣有研究價值。戰(zhàn)玉冰發(fā)現(xiàn),李洱在小說里用了一種近乎冰冷的客觀敘事態(tài)度來取代主觀抒情和心理描寫,李洱常常使用“他問自己”“他聽見自己說”一類的表達方式,把人物的心理活動,變成一種主客體之間的對話。
上述分析與李洱的解讀不謀而合,“熟悉我的人都知道,我是很強調(diào)小說的對話性的。小說現(xiàn)代性的最重要的標志就是對話性,它包含著作者和讀者對話,作者和作品中人物的對話,作品中人物之間的對話,以及讀者和作品中人物的對話”,2019年12月13日,李洱在南方周末舉辦的N—TALK“文學之夜”現(xiàn)場表示,文學的使命就是表達差異,“所有的對話都伴隨著爭議、質(zhì)疑,而爭議和質(zhì)疑會打開小說的空間”。
《長安十二時辰》的
故事形狀是
“倒N型”
2019年,《思南文學選刊》揭曉了國內(nèi)首個AI文學榜單,評委是大數(shù)據(jù)軟件“一葉故事薈”(時稱“谷臻小簡”),二十種文學雜志提供了771部短篇小說供其評選。
2019年1月21日前,莫言的《等待摩西》始終最受“一葉故事薈”青睞,但1月21日新作品送到,它“變心”了。最終陳楸帆的《出神狀態(tài)》成為“一葉故事薈”評選出的年度最愛短篇小說。
“一葉故事薈”通過數(shù)據(jù)分析評判文學作品,包括判斷情節(jié)曲線、人物情緒糾結(jié)度等。在它的評判下,《出神狀態(tài)》的系數(shù)為0.998941,略高于《等待摩西》的系數(shù)0.998931。但開發(fā)這個軟件的走走說:“計算機跟人一樣,沒法評判語言的好壞,你沒法說閻連科的反諷質(zhì)量低于余華的零度敘事?!?/p>
情節(jié)曲線也應用于人文學科研究,通過分析文本,軟件描畫出沖突曲線模型,即用一條簡單的線條描繪一個故事的“形狀”,其中包含情緒情感、結(jié)構意義、節(jié)奏節(jié)拍等幾個維度的特征。走走向南方周末記者展示了六個模型:W型、N型、V型、M型、倒N型、倒V型,前三種是積極型結(jié)局,后三種是消極型結(jié)局?!爱敼适虑楣?jié)為積極向上或者沖突較為激烈時曲線呈現(xiàn)上升趨勢;當故事情節(jié)為消極向下時曲線呈現(xiàn)下降趨勢。當故事情節(jié)出現(xiàn)情況好轉(zhuǎn)或悲劇來襲時,曲線則呈現(xiàn)出拐點,曲線拐點越多即表明故事中大的情節(jié)、轉(zhuǎn)折越多?!边@六種模型是“一葉故事薈”分析了國內(nèi)近二十年間改編成影視的724部文學作品所得。
《長安十二時辰》的故事形狀是倒N型,《霸王別姬》的故事形狀是M型,“以《白鹿原》的故事形狀(W型)為例,情節(jié)較積極,但在故事走到約三分之一的時候,氛圍走入全文最低谷,雖然最后有所回升,但整體基調(diào)以悲涼為主?!弊咦咧钢娔X上的模型解釋。
走走與王濤在歷史研究領域合作,嘗試描繪口述史的故事形狀。“口述史本身,某種意義上就是一個故事,就是一個人的故事,我們可以從文學文本這個角度來理解口述史這個材料?!?/p>
《被改變的人生——南京大屠殺幸存者口述生活史》一書記錄了49位幸存者的回憶,軟件測繪出他們的情緒變化圖譜,初步結(jié)果顯示大部分口述者遵循著“甜-苦-甜”的V型情感模式,但走走對南方周末記者說:“應該更注意那些相反情緒,呈倒V型的敘述者,他們的人生可能過得并不好?!?/p>
沖突曲線模型的靈感來自美國作家馮內(nèi)古特?!八岢鲆粋€問題,我能不能用一條線畫出一個故事來,從開始到結(jié)束有一根線?!奔夹g負責人鄭翔宇受此啟發(fā),把故事里的事件、節(jié)奏、情節(jié)變化轉(zhuǎn)換成程序語言,讓計算機處理。“計算機不理解任何人類語言,但是它有兩個好處,第一很快,第二很穩(wěn)定。你讓我看兩千萬字的小說,我看到后面就完全忘記前面?!?/p>
戰(zhàn)玉冰用沖突曲線模型分析了茅盾文學獎獲獎作品,數(shù)據(jù)呈現(xiàn)的結(jié)果是,第一至四屆及第六屆的“明快-沉郁”作品數(shù)據(jù)比例普遍在0以上,其他五屆的數(shù)據(jù)則基本保持在0以下,歷屆獲獎作品似乎呈現(xiàn)逐漸偏向沉郁的特征。他分析,這與小說主題從宏大歷史敘事向日常生活敘事轉(zhuǎn)變相一致。
這些曲線也意外地勾勒出作者的寫作風格,走走向南方周末記者展示莫言《蛙》和余華《現(xiàn)實一種》兩部作品的故事曲線。莫言在描寫王仁美死亡事件時,“一尸兩命”情節(jié)的故事曲線情緒值接近0,余華在寫山崗被處以死刑時,數(shù)據(jù)分析出的曲線情緒值也一樣。“可能那些著名作家,尤其像余華、莫言這種,他寫死亡這種事情,反而不是大悲大喜的,反而特別冷靜。”走走表示“零度敘事”雖不是新鮮話題,但數(shù)據(jù)分析或許能發(fā)揮輔助作用。
海子自殺前的
文字情緒
比過去都低
接受采訪時,戰(zhàn)玉冰已經(jīng)使用數(shù)據(jù)分析完成四篇論文報告。寫到第三篇時,他心頭曾有過一絲負擔:這三篇文章的核心思路都是使用大數(shù)據(jù)來分析某一批中國當代小說,方法論上的相近性可能會造成論述觀點與行文結(jié)構的重復。
戰(zhàn)玉冰使用大數(shù)據(jù)分析發(fā)現(xiàn),國內(nèi)被影視改編的文學作品,故事曲線比較普遍的是“W”形和“N”形。戰(zhàn)玉冰在論述時強調(diào):“這一數(shù)據(jù)分析和研究的意義并非是要為作家提供寫作上的指導,或者告訴作家如何去迎合市場、如何才能更好地賣出自己小說的影視版權?!?/p>
美國“相對論傳媒”電影部門創(chuàng)始人瑞恩·卡瓦諾崇尚數(shù)據(jù),利用數(shù)據(jù)預測電影票房表現(xiàn)再決定是否投資。他的名言是“即使我同意拍了,模型不同意也不行”。他曾與索尼聯(lián)合出品了電影《百貨戰(zhàn)警》,票房大約是投資的十倍。后來,電影《點球成金》找到卡瓦諾投資,他經(jīng)過數(shù)據(jù)分析后認為這部電影不會賺錢。然而《點球成金》全球票房突破1億美元,并獲2012年奧斯卡金像獎最佳影片提名。卡瓦諾的電影部門最終在2015年宣布破產(chǎn)。
老師曾提醒戰(zhàn)玉冰,學術研究還是要回歸傳統(tǒng)方法,“數(shù)據(jù)相對淺表化,通過理論達成的研究對思維的鍛煉更深刻?!比缃?,戰(zhàn)玉冰的主要精力用在三個傳統(tǒng)研究方向上,新增的數(shù)字人文方向,被他排在第四位。曾有一句話讓戰(zhàn)玉冰深有感觸,他依稀記得其大意:“數(shù)據(jù)是不可能取代人類的,也不要通過人類排斥數(shù)據(jù)。只是從此以后,我們多了一個更加全面的、天眼一般的閱讀者?!?/p>
杭州師范大學心理科學研究院副研究員胡超和走走合作,研究寫作對心理治療的幫助,借用軟件來分析文本中的情緒表達?!耙酝芏嘈睦韺W研究重形式、輕內(nèi)容,而文字是人類心理內(nèi)容最重要的載體。一個現(xiàn)實因素是人工文本分析成本極高,這在快節(jié)奏發(fā)論文、申請基金的壓力下尤其突出。文本自動化分析技術可能是突破瓶頸的測量技術。”胡超告訴南方周末記者。
胡超目前發(fā)現(xiàn),海子等自殺的詩人在其自殺前的作品文字情緒比過去都低,且更多采用第一人稱視角的“我”進行敘述。但對于已有的數(shù)據(jù)分析結(jié)果,他也存疑:“專業(yè)作家和普通人群的表達方式可能不同,有正話反說的現(xiàn)象,文字所表達的情緒可能不代表他本人的真實情緒?!?/p>
“現(xiàn)在技術就是需要越高層次、越抽象的理解力的時候,機器和人差得越遠?!编嵪栌畋硎緳C器目前尚不能完全理解需要生命體驗的事情,如詩歌?!澳闳ズ瞬橐黄恼碌恼Z法是不是正確,這件事機器已經(jīng)超過人。詩歌需要一種經(jīng)驗,需要一種很抽象的理解力,同時需要人作為人的經(jīng)驗去理解?!?/p>
“用數(shù)字史學的方式去研究歷史,人的價值或者個性怎么辦?”這是王濤常常聽到的質(zhì)疑,對此他并不擔憂,“雖然數(shù)據(jù)庫是一樣的,算法是一樣的,甚至題庫都是一樣的,但是你給不同的人看,他基于他的見識,基于他的知識儲備,他對結(jié)果的認知可能是不一樣的?!?/p>