朱會(huì)鑫
我們知道DNA技術(shù)可以對(duì)人進(jìn)行親子鑒定,可你知道嗎,隨著科技的不斷進(jìn)步,AI已經(jīng)可以給文學(xué)作品做“親子鑒定”,進(jìn)而判定其作者是誰了。那么,AI是如何判定文學(xué)作品的作者呢?利用AI判定文學(xué)作品的作者是否準(zhǔn)確呢?
下面,我們就以利用AI判定英國(guó)著名戲劇文學(xué)《亨利八世》的作者是誰為例。與《紅樓夢(mèng)》究竟是誰寫的一樣,《亨利八世》也存在同樣的問題??梢哉f,在長(zhǎng)達(dá)一個(gè)世紀(jì)里,關(guān)于《亨利八世》作者是誰的爭(zhēng)論一直沒有停息,直到最近的一項(xiàng)研究才使這個(gè)問題的答案變得明朗起來。
拉格捷克科學(xué)院的研究員普列查奇最近使用了機(jī)器學(xué)習(xí)技術(shù)來識(shí)別《亨利八世》的作者,并取得了具有說服力的結(jié)果。那么,究竟是如何利用AI判定《亨利八世》的作者呢?
簡(jiǎn)單地說,就是從詞匯和節(jié)奏入手,辨別文本的來源。在了解了作者的風(fēng)格和常用的字詞與樣式后,再去辨別新作品中的文本習(xí)慣樣式,以判定它是不是出自同一個(gè)作者。即通過算法模型對(duì)文本常用詞、常用語句和節(jié)奏模式進(jìn)行分析,使算法學(xué)會(huì)辨別相關(guān)作者的寫作特征。
具體來說,就是先將劇本《亨利八世》細(xì)化到多個(gè)小場(chǎng)景,再使用支持向量機(jī)對(duì)《亨利八世》的各個(gè)場(chǎng)景進(jìn)行歸因分析和分類。其中,以500種最常見的節(jié)奏類型的頻率,以及500個(gè)最常見單詞的頻率作為分類器的功能集。鑒于作者在不同時(shí)期可能出現(xiàn)的風(fēng)格差異,普列查奇采用了同時(shí)期其他戲劇的場(chǎng)景(如《暴風(fēng)雨》《科里奧拉納斯》)作為訓(xùn)練樣本,對(duì)于可能的作者也同樣收集了訓(xùn)練樣本。
最終,普列查奇收集了53個(gè)莎士比亞訓(xùn)練樣本、90個(gè)弗萊徹訓(xùn)練樣本和46個(gè)馬辛格訓(xùn)練樣本。為了估計(jì)模型的準(zhǔn)確性,還通過交叉驗(yàn)證的方式進(jìn)行了檢驗(yàn)。完成訓(xùn)練學(xué)習(xí)后,在《亨利八世》的文本上運(yùn)行該模型,最后結(jié)合詞匯和多功能化的綜合分析,確定哪些作者參與了劇本的寫作,以及他們的具體貢獻(xiàn)。
最后的結(jié)果證明,這是區(qū)分莎士比亞、弗萊徹和馬辛格風(fēng)格非??煽康呐袚?jù)。尤其是使用常用詞和常用節(jié)奏的組合模型,在三位作者的風(fēng)格鑒定上,準(zhǔn)確率高于96%。當(dāng)模型應(yīng)用于《亨利八世》的分析時(shí),結(jié)果清楚地表明,莎士比亞和弗萊徹都參與其中,另一位傳聞的劇作家馬辛格在算法的層面上表明和劇本無關(guān)。
為了更可靠地了解具體作者承擔(dān)的份額,以超越特定場(chǎng)景的簡(jiǎn)單歸因,普列查奇采用滾動(dòng)歸因分析方法,確定了具體文本片段屬于某位作者的概率。滾動(dòng)歸因是一項(xiàng)針對(duì)涉及混合作者身份的案例技術(shù)。在滾動(dòng)歸因中,不對(duì)整個(gè)文本或其邏輯部分(章節(jié)、場(chǎng)景等)進(jìn)行分類,而是對(duì)其固定長(zhǎng)度的重疊部分進(jìn)行分類任務(wù)。該方法使用移動(dòng)窗口的概念,同時(shí)與標(biāo)準(zhǔn)的監(jiān)督分類技術(shù)相結(jié)合,旨在評(píng)估離散文本樣本之間的樣式差異,以測(cè)試其文本樣式的一致性。
結(jié)果表明,結(jié)合了詞匯特征的滾動(dòng)歸因方法是非??煽康模涸趨^(qū)分莎士比亞和弗萊徹時(shí),滾動(dòng)歸因的準(zhǔn)確率高達(dá)99.77%。
對(duì)于文學(xué)研究者和愛好者來說,利用AI對(duì)文學(xué)作品進(jìn)行“親子鑒定”,以破解名著的作者之謎,是一件很有價(jià)值的事情,同時(shí)也提供了一個(gè)數(shù)據(jù)維度的視角,去解決此類問題。