給文學(xué)作品做“親子鑒定”

2020-03-25 02:52:14朱會(huì)鑫

知識(shí)窗 2020年2期

朱會(huì)鑫

我們知道DNA技術(shù)可以對(duì)人進(jìn)行親子鑒定，可你知道嗎，隨著科技的不斷進(jìn)步，AI已經(jīng)可以給文學(xué)作品做“親子鑒定”，進(jìn)而判定其作者是誰了。那么，AI是如何判定文學(xué)作品的作者呢？利用AI判定文學(xué)作品的作者是否準(zhǔn)確呢？

下面，我們就以利用AI判定英國(guó)著名戲劇文學(xué)《亨利八世》的作者是誰為例。與《紅樓夢(mèng)》究竟是誰寫的一樣，《亨利八世》也存在同樣的問題?？梢哉f，在長(zhǎng)達(dá)一個(gè)世紀(jì)里，關(guān)于《亨利八世》作者是誰的爭(zhēng)論一直沒有停息，直到最近的一項(xiàng)研究才使這個(gè)問題的答案變得明朗起來。

拉格捷克科學(xué)院的研究員普列查奇最近使用了機(jī)器學(xué)習(xí)技術(shù)來識(shí)別《亨利八世》的作者，并取得了具有說服力的結(jié)果。那么，究竟是如何利用AI判定《亨利八世》的作者呢？

簡(jiǎn)單地說，就是從詞匯和節(jié)奏入手，辨別文本的來源。在了解了作者的風(fēng)格和常用的字詞與樣式后，再去辨別新作品中的文本習(xí)慣樣式，以判定它是不是出自同一個(gè)作者。即通過算法模型對(duì)文本常用詞、常用語句和節(jié)奏模式進(jìn)行分析，使算法學(xué)會(huì)辨別相關(guān)作者的寫作特征。

具體來說，就是先將劇本《亨利八世》細(xì)化到多個(gè)小場(chǎng)景，再使用支持向量機(jī)對(duì)《亨利八世》的各個(gè)場(chǎng)景進(jìn)行歸因分析和分類。其中，以500種最常見的節(jié)奏類型的頻率，以及500個(gè)最常見單詞的頻率作為分類器的功能集。鑒于作者在不同時(shí)期可能出現(xiàn)的風(fēng)格差異，普列查奇采用了同時(shí)期其他戲劇的場(chǎng)景（如《暴風(fēng)雨》《科里奧拉納斯》）作為訓(xùn)練樣本，對(duì)于可能的作者也同樣收集了訓(xùn)練樣本。

最終，普列查奇收集了53個(gè)莎士比亞訓(xùn)練樣本、90個(gè)弗萊徹訓(xùn)練樣本和46個(gè)馬辛格訓(xùn)練樣本。為了估計(jì)模型的準(zhǔn)確性，還通過交叉驗(yàn)證的方式進(jìn)行了檢驗(yàn)。完成訓(xùn)練學(xué)習(xí)后，在《亨利八世》的文本上運(yùn)行該模型，最后結(jié)合詞匯和多功能化的綜合分析，確定哪些作者參與了劇本的寫作，以及他們的具體貢獻(xiàn)。

最后的結(jié)果證明，這是區(qū)分莎士比亞、弗萊徹和馬辛格風(fēng)格非?？煽康呐袚?jù)。尤其是使用常用詞和常用節(jié)奏的組合模型，在三位作者的風(fēng)格鑒定上，準(zhǔn)確率高于96%。當(dāng)模型應(yīng)用于《亨利八世》的分析時(shí)，結(jié)果清楚地表明，莎士比亞和弗萊徹都參與其中，另一位傳聞的劇作家馬辛格在算法的層面上表明和劇本無關(guān)。

為了更可靠地了解具體作者承擔(dān)的份額，以超越特定場(chǎng)景的簡(jiǎn)單歸因，普列查奇采用滾動(dòng)歸因分析方法，確定了具體文本片段屬于某位作者的概率。滾動(dòng)歸因是一項(xiàng)針對(duì)涉及混合作者身份的案例技術(shù)。在滾動(dòng)歸因中，不對(duì)整個(gè)文本或其邏輯部分（章節(jié)、場(chǎng)景等）進(jìn)行分類，而是對(duì)其固定長(zhǎng)度的重疊部分進(jìn)行分類任務(wù)。該方法使用移動(dòng)窗口的概念，同時(shí)與標(biāo)準(zhǔn)的監(jiān)督分類技術(shù)相結(jié)合，旨在評(píng)估離散文本樣本之間的樣式差異，以測(cè)試其文本樣式的一致性。

結(jié)果表明，結(jié)合了詞匯特征的滾動(dòng)歸因方法是非?？煽康模涸趨^(qū)分莎士比亞和弗萊徹時(shí)，滾動(dòng)歸因的準(zhǔn)確率高達(dá)99.77%。

對(duì)于文學(xué)研究者和愛好者來說，利用AI對(duì)文學(xué)作品進(jìn)行“親子鑒定”，以破解名著的作者之謎，是一件很有價(jià)值的事情，同時(shí)也提供了一個(gè)數(shù)據(jù)維度的視角，去解決此類問題。