詩人密碼：唐詩作者身份識別

2022-08-02 03:57:08張益嘉魯明羽

中文信息學報 2022年6期

周愛，桑晨，張益嘉，魯明羽

(大連海事大學信息科學技術學院，遼寧大連 116026)

0 引言

作者身份識別(Authorship Attribution)，簡單地說，就是對人們各自的言語、寫作特點在統(tǒng)計量上的差異進行分析、處理、歸納和推理的過程[1]。其理論基礎是文本的語言結構特征表現(xiàn)了作者個人在寫作活動中的言語特征，是作者個人風格不自覺的深刻反映，這些特征可以在一定程度上進行量化并以此確定匿名文本的作者。作者身份識別最早源于1851年 Augustus De Morgan 使用詞長頻率統(tǒng)計方法分析、鑒別莎士比亞作品的研究[2]。隨后，字符、句法、語義等特征均被用于作者識別研究中，并取得了一些進展。目前，研究內容從傳統(tǒng)文學作品作者身份識別，拓展到恐怖分子身份識別[3]、遺書真?zhèn)悟炞C[4]，以及病毒源代碼作者身份識別[5]等方面。

作者身份識別相關研究可以大致分為數(shù)字人文和計算語言學兩種。在數(shù)字人文研究中，重點主要放在實際有爭議的作者身份或文學風格分析的案例上；而在計算語言學研究中，研究者則更多地關注現(xiàn)有作者身份數(shù)據(jù)集的表現(xiàn)以及確定最可靠的技術[6]。在研究方法方面，除了基于統(tǒng)計的多元統(tǒng)計分析[7-8]、文本距離[9]以及壓縮算法[10]，機器學習算法如隨機森林[11]、支持向量機[12]和樸素貝葉斯[13]等也已成功應用于作者身份識別任務。近年來，深度學習模型如 RNN[14]、CNN[15]膠囊網(wǎng)絡[16]等也開始應用于短文本作者身份識別，并取得了較高的識別率。作者身份識別在多種語言中都得到了廣泛的研究。然而，對中文而言，作者身份識別的研究仍處于起步階段，大部分研究者還是關注于傳統(tǒng)文學作品的作者身份識別[17]，目前，還沒有用于作者身份識別的公開的標準語料庫，最受關注的問題仍是《紅樓夢》的作者到底是誰[11]。

唐代是我國古典詩歌發(fā)展的全盛時期。唐詩不僅具有很高的文學和藝術價值，同時對中國乃至世界的文化和歷史也有很深遠的影響。作為一種特殊的文學體裁，大部分唐詩都非常短，即使是像《長恨歌》這種長篇敘事樂府詩，也只有840字，因此完全可以將唐詩作者身份識別任務歸為短文本作者身份識別。同時由于受到格律和字數(shù)的限制，唐詩在保證音節(jié)和諧的基礎上，既具有整體性，又具有跳躍性。唐詩的整體性體現(xiàn)為多個意象都為詩歌的同一個情感和主題服務，而唐詩的跳躍性則體現(xiàn)為文字的省略，這不僅導致了以字代詞，一字多義的現(xiàn)象非常常見，而且還存在部分如‘雞聲茅店月，人跡板橋霜。’這種只使用意象即只有名詞而缺乏動詞的詩句，或如‘香稻啄馀鸚鵡粒，碧梧棲老鳳凰枝?！@種為了押韻而造成的賓語前置，這些都導致了唐詩中存在一定數(shù)量的句法結構不完整或混亂。這也為我們的識別任務造成了一定的困難。由于現(xiàn)有的中文句法分析及分詞軟件都是針對現(xiàn)代漢語設計的，在唐詩文本上表現(xiàn)較差，因此，分類任務中常用的句法特征和詞匯特征并不適用于唐詩語料。唐詩的另一個特點是題材豐富多樣，并極具代表性。比如我們通常說王維和孟浩然是山水田園詩人，而岑參、高適則以邊塞詩聞名。因此，對唐詩作者身份識別而言，題材特征將可能成為一個有效的特征。

針對上述歸納的唐詩作者身份識別存在的問題和特點，本文構建膠囊網(wǎng)絡(Capsule)和Transformer的集成模型，用于分別提取唐詩的局部語義信息和全局語義信息。同時，由于沒有已標注題材的唐詩語料庫，我們使用文本主題模型(LDA)提取每首詩的主題作為唐詩的題材信息。本文的主要貢獻總結如下：

(1) 建立了用于作者身份識別的全唐詩語料庫——QuanTangShi，擴展了中文作者身份識別的應用范圍。

(2) 針對唐詩整體性與跳躍性統(tǒng)一的特點，提出了膠囊網(wǎng)絡和Transformer的集成模型 Cap-Transformer，更充分和全面地提升唐詩各個層面特征的捕獲能力。

(3) 提取唐詩的題材特征用于作者身份識別中，實驗表明該特征確實對提升作者身份識別準確率有一定作用。

(4) 對Cap-Transformer模型生成的錯誤輸出進行原因分析，揭示了模型的局限性，并針對唐詩文本的特殊性，提出了唐詩作者身份識別任務未來的研究方向及挑戰(zhàn)。

1 模型介紹

作為一種特殊的文學體裁，唐詩不僅具有跳躍性，而且還具有整體性。組成唐詩的各種文字符號本身及蘊含其中的不同要素共同營造了詩歌的意境。因此，不僅需要捕獲唐詩的細節(jié)信息，也需要整體把握唐詩的全局信息。Capsule模型將網(wǎng)絡層攜帶信息的最小單元由神經(jīng)元變?yōu)槟z囊，又使用動態(tài)路由機制代替池化，因此Capsule模型可以在提取特征的同時降低信息損失[18]。而Transformer[19]跟LSTM[20]一樣，可以作為全局特征提取器。將Transformer與Capsule模型通過雙通道的形式進行集成，可以兼顧兩個單通道模型各自的優(yōu)點，提升唐詩各個層面特征的捕獲能力。下面將分節(jié)詳細介紹本文所提出的作者身份識別模型及模型中的重要功能模塊。

1.1 整體框架

為了使表述更加清晰，本文引入了一些符號來描述作者身份識別任務。設所有可能的作者集合為A={a1,a2，…，an}，對于每一位作者ai∈A有訓練樣本集Ti={Ti1,Ti2Tim}，作者身份識別的任務是學習訓練集建立作者風格特征，并根據(jù)此模型對匿名文本t指定一個最可能的作者ak,(ak∈A)。圖1為本文提出的作者身份識別集成模型的整體框架，共有輸入層、嵌入層、網(wǎng)絡層、融合層和輸出層五個部分組成。

圖1 唐詩作者身份識別集成模型Cap-Transformer的基本框架

首先，對輸入的唐詩文本分別使用Word2Vec和BERT獲取輸入文本的詞向量特征矩陣Wnode和Bnode，同時使用LDA獲取唐詩的題材特征，并使用獨熱向量表示。將詞向量與題材向量拼接，分別輸入膠囊網(wǎng)絡和Transformer得到唐詩的文本特征表示。最后，將兩種特征表示拼接起來，送入全連接層進行降維，并使用softmax函數(shù)進行歸一化，得到最終的分類結果。

1.2 題材特征提取

題材是詩歌文本獨有的特征。唐詩題材豐富，通常包括送別、邊塞、詠史懷古、山水田園等。很多唐朝詩人都有自己擅長的詩歌題材。比如李商隱更擅長寫無題的愛情詩，而王昌齡則以邊塞詩聞名。因而題材特征是唐詩作者身份識別任務的重要特征之一。本文選擇使用LDA提取詩歌主題特征代替詩歌的題材特征。

LDA作為一種無監(jiān)督的聚類算法，首先需要解決的問題是確定唐詩題材的個數(shù)。但是，目前學界對于唐詩題材的總數(shù)沒有明確的定義。因此，我們需要對生成的LDA模型進行評估。根據(jù)Blei[21]的觀點，LDA模型最常用的評估方法是使用困惑度。然而，這里有一個有趣的現(xiàn)象：數(shù)學上嚴格的模型擬合計算如最大似然值和困惑度等，并不總是與人類對模型質量評估的看法一致[22]。因此，本文使用主題一致性指標(Coherence Score)來衡量主題詞在語料庫中出現(xiàn)的頻率，進而反映主題中高分詞之間的語義相似度。

具體的做法是，使用不同的主題數(shù)(K)，建立不同的LDA模型，計算主題一致性，最后選擇一致性得分最高的那個“K”作為唐詩的題材個數(shù)。選擇一個主題一致性得分達到峰值或快速增長的“K”值，通常意味著有意義或可解釋的主題。

因為中國古典詩歌沒有合適的外部語料庫來計算詞義的概率，所以本文選擇U-Mass[23]計算主題一致性。具體的計算如式(1)所示。

其中，vi,vj是一組主題詞，ε是平滑因子，用以保證最終返回的score是一個實數(shù)。

其中，D(vi,vj)表示包含vi,vj的文檔數(shù)，D(vi)表示包含vi的文檔數(shù)。

1.3 Cap-Transformer模型

唐詩文本既具有跳躍性，又具有整體性，因此傳統(tǒng)的針對淺層的單模型文本分類算法不能很好地提取到唐詩的深層語義特征。本文提出了一種Cap-Transformer 集成模型，分別利用膠囊網(wǎng)絡(Capsule)和Transformer來提取文本的局部特征和全局語義特征，通過集成的形式更全面地得到唐詩的多層次特征表示。

Capsule模型：Capsule模型是對傳統(tǒng)CNN模型中的最大池化操作做出的改進，最大池化操作只保留特征向量中的最大值，會造成特征損失。Capsule模型使用一組神經(jīng)元構成的膠囊代替CNN中的神經(jīng)元，改變了傳統(tǒng)神經(jīng)網(wǎng)絡標量與標量相連的結構。在各個網(wǎng)絡層中，每個膠囊攜帶的信息從1維增加到了多維，因此可以攜帶更多的具有跨越性的特征信息。相鄰兩個膠囊層之間通過動態(tài)路由算法(Dynamic Routing)將該層膠囊保存的計算結果傳遞給上層膠囊，從而實現(xiàn)在提取文本節(jié)點特征的同時降低底層特征的損失，也降低噪聲對分類結果的干擾。動態(tài)路由算法描述如式(3)～式(5)所示。

其中，sj為上層膠囊的輸入，u為下層膠囊的輸出，W為相鄰兩層之間的權值矩陣，cij為耦合系數(shù)，表示下層膠囊i激活上層膠囊j的可能性，bij的初始值設置為0，通過動態(tài)路由更新cij，進而更新bij，擠壓函數(shù)squash及更新bij的計算如式(6)～式(8)所示。

其中，vj為上層膠囊的輸出，由于膠囊輸出向量的模長代表類別的概率值，擠壓函數(shù)將向量的模長限定在[0，1]區(qū)間，輸出向量的模長越大，代表文本所屬該類的概率越大。

如圖1所示，膠囊網(wǎng)絡首先對輸入的字符向量矩陣做卷積運算，經(jīng)過擠壓函數(shù)后形成主膠囊層，經(jīng)過一次基于注意力機制的路由協(xié)議后連接分類膠囊層，得到唐詩的局部特征。

Transformer模型：Capsule模型在本質上是對CNN池化操作的改進，在N-gram卷積層依舊使用了多個卷積核進行卷積操作，因此只能捕獲文本序列的局部特征，提取不到全局語義信息。而Transformer則是對LSTM的改進，傳統(tǒng)的LSTM由于在序列化處理時依賴于前一時刻的計算，所以它們并行效率低，模型運行速度慢。Transformer模型通過多頭自注意力機制可以在并行計算的同時捕獲長距離依賴關系，充分學習到唐詩的全局語義信息。計算如式(9)所示。

Transformer模型主要用Seq2Seq，采用編碼器-解碼器結構，本文用于文本分類任務，因此只用到了其中的編碼器結構，通過增加單詞位置編碼、殘差連接、層歸一化處理、前向連接等操作，處理輸入序列并將序列信息壓縮成固定長度的語義向量。如圖1所示，字符向量輸入模型后先進行了位置編碼來填補注意力機制本身不能獲得單詞順序信息的缺陷。然后，模型依靠自注意力機制更有效地去捕獲對唐詩語義有重要作用的詞，并且消除干擾詞的影響。而多頭自注意力機制則可以學習不同子空間中的語義表示，最后將它們拼接到一起獲取長距離的語義信息。

模型集成：膠囊網(wǎng)絡在提取文本局部特征的同時減少了信息損失，Transformer則通過自注意力機制遍歷整個文本序列，從而提取到全局語義特征。本文采用的集成模型可以結合膠囊網(wǎng)絡和Transformer各自的優(yōu)勢，綜合考慮文本的局部語義信息和全局語義信息，提高分類效果。由于分類標簽數(shù)固定，膠囊網(wǎng)絡和Transformer具有相同的輸出維度，因此本文在模型集成階段采用合并拼接的方式，即拼接兩種網(wǎng)絡生成的特征向量，再通過一個全連接層映射到最終的分類向量中。假設膠囊網(wǎng)絡的輸出向量為HC=(hC1,hC2，…，hCn)，Transformer單元的輸出向量為HT=(hT1,hT2，…，hTn)，集成后的特征向量為H，計算如式(10)所示。

其中，Dense是一個映射到類別數(shù)上的全連接層。

最后，對集成后的特征向量H使用softmax分類器得到每個類別的概率值，選擇其中數(shù)值最大的作者類別為預測的詩歌作者。

2 實驗

在這一部分，我們首先介紹了用于作者身份識別的全唐詩語料庫——QuanTangShi的建設，然后介紹了參與模型性能評估的全唐詩數(shù)據(jù)集以及常用的評價指標，包括準確率(Acc),精確率(P),召回率(R)和Macro-F1值(F1)，并報告了模型在數(shù)據(jù)集上的性能評估結果，包括與現(xiàn)有基線的性能比較消融實驗以及錯誤分析。

2.1 QuanTangShi 語料庫

為了構建QuanTangShi語料庫(1)語料庫及相關代碼：https://github.com/zhouai9070/QuanTangshi-AA-，我們從網(wǎng)上收集了全唐詩的電子文本。但是這些原始的數(shù)據(jù)存在諸如重復、錯誤、亂碼，以及像《戲為六絕句》這種多首詩歌共用一個詩題而導致的多條數(shù)據(jù)被識別成為一條數(shù)據(jù)的現(xiàn)象。最重要的是，原始語料中存在905首無名氏或未標注作者的詩作，這些唐詩不適用于作者身份識別任務，所以將其刪除。以王維的《相思》為例，經(jīng)過預處理的數(shù)據(jù)形式如下：[‘王維’(作者) ‘相思’(詩題) ‘紅豆生南國，春來發(fā)幾枝。愿君多采擷，此物最相思?！痌。

經(jīng)過預處理之后的語料庫共包括2 300個作者的44 734首唐詩。表1給出了該語料庫的基本統(tǒng)計信息?？梢钥闯?，語料庫的數(shù)據(jù)是極不平衡的，近半數(shù)的唐代詩人只創(chuàng)作了1～2首詩。只有不到20位詩人，一生創(chuàng)作了超過500首詩。歸功于白居易對自己詩集的整理，全唐詩里共收錄了他創(chuàng)作的2 844首詩，成為收錄最多的詩人。

表1 全唐詩語料庫數(shù)據(jù)統(tǒng)計

2.2 數(shù)據(jù)集

從表1可以看出，全唐詩語料是極其不平衡的，而作為一個分類任務，作者身份識別的準確率受到作者個數(shù)和作者樣本數(shù)兩個因素的影響，因此，本文根據(jù)作者樣本數(shù)對作者排序，建立了“Top Num Group”數(shù)據(jù)集，并將其分成了5個小數(shù)據(jù)集 (TopNum2, TopNum5, TopNum10, TopNum20 and TopNum40) 對模型性能進行評估。這些數(shù)據(jù)集不論在作者個數(shù)還是作者樣本數(shù)上都有差異(表2)，能夠在不同的場景中測試我們的模型。

表2 Top Num Group數(shù)據(jù)集數(shù)據(jù)統(tǒng)計

2.3 實驗結果分析

本節(jié)主要介紹模型在Top Num Group數(shù)據(jù)集上的性能評估結果，包括涉及題材信息的LDA的參數(shù)選擇、與現(xiàn)有模型的性能比較以及消融實驗。

參數(shù)選擇：由于現(xiàn)有的唐詩語料庫沒有題材信息的標注，本文選用LDA提取的文本主題信息代替唐詩的題材信息。但是，LDA是一個無監(jiān)督的聚類模型，需要提前確定主題個數(shù)。目前學界對于唐詩題材的總數(shù)沒有明確的定義，因此，我們使用不同的主題數(shù)(K)，建立了不同的LDA模型，計算主題一致性，最后選擇一致性得分最高的那個“K”作為唐詩的題材個數(shù)。選擇一個主題一致性得分達到峰值或快速增長的“K”值，通常意味著有意義或可解釋的主題。圖2反映了主題一致性得分(C)隨不同數(shù)據(jù)集上主題個數(shù)(K)的增加而變化的趨勢。

圖2 Top Num Group數(shù)據(jù)集上的主題一致性得分

性能比較：為了驗證本文所提方法的有效性，我們將本文模型和現(xiàn)有方法在Top Num Group數(shù)據(jù)集上進行了比較，實驗結果如表3所示。本文所選取的當前先進的代表性研究包含了傳統(tǒng)的機器學習方法和深度學習方法兩個大類。2007年易勇等人[24]首次將樸素貝葉斯(NB)用于古典詩歌作者身份識別任務，并在區(qū)分李白和杜甫詩歌的二分類問題上取得了理想的結果。SVM則較廣泛地應用于長文本，特別是文學作品作者身份識別任務[12]。但是，機器學習算法需要依賴人工參與和大量的特征工程，在模型預處理成本和工作效率方面均不及深度學習方法。隨著網(wǎng)絡短文本的出現(xiàn)，CNN[15]開始廣泛應用于短文本作者身份識別領域并且與BiLSTM和RNN相比具有更好的魯棒性。2017年Transformer[19]提出了一種新的模型架構，不僅在機器翻譯任務中效果良好，而且由于編碼器端是并行計算的，訓練時間大大縮短。BERT[25]使用預訓練的語言模型，可以更準確地獲取上下文信息，在2018年在11項NLP任務中取得了最好的結果。

表3 本文模型與現(xiàn)有方法的性能對比 (單位： %)

續(xù)表

如表3所示，深度學習算法的效果要優(yōu)于機器學習算法。NB在二分類問題中可以獲得較好的結果，然而隨著作者人數(shù)的增加，準確率下降較快，相

比較而言，SVM的識別準確率更高也更穩(wěn)定。之前BERT在11項NLP任務中都取得了理想的效果，可是本文的實驗卻得到了相反的結果。只有部分數(shù)據(jù)集的識別準確率可以與CNN的基本持平。大部分數(shù)據(jù)集的結果遠不及CNN。主要原因是現(xiàn)有的BERT-Base Chinese預訓練模型是基于現(xiàn)代漢語訓練的，并不適用于像唐詩這樣的古漢語數(shù)據(jù)集。在各個數(shù)據(jù)集上，Transformer的效果要優(yōu)于CNN，這主要是因為Transformer能夠更好地獲取長距離的語義信息，這也體現(xiàn)了詩歌的整體性特點。與現(xiàn)有的模型相比，本文的模型不僅攜帶了更多的特征信息，還降低了噪聲的干擾，又可以有效地捕獲長距離信息，實現(xiàn)了更強的上下文提取能力，在整體性能上平均性能提升了1.1%。

消融實驗：為了驗證本文模型中各模塊的有效性，對模型進行了消融實驗。實驗結果如表4所示，-No表示去掉當前模塊后模型在Top Num Group數(shù)據(jù)集各類別中的性能表現(xiàn)。

表4 模型各組件的消融實驗結果對比 (單位： %)

由實驗結果可知模型的三個組成部分均能使模型性能有不同程度的提升，其中LDA的效果最為明顯，使模型的平均性能提升了0.97，但是隨著作者人數(shù)的增加，LDA的作用逐漸下降，可能是隨著作者人數(shù)的增加，題材特征的顯著程度逐漸降低。對比表3的Transformer和表4的-No Capsule對應數(shù)據(jù)也可以看出題材信息對模型性能提升的作用。

Transformer的多頭自注意力機制可以學習不同子空間中的語義表示，捕獲長距離語義信息。實驗表明，只使用Capsule模型并不能有效地獲取詩歌的長距離上下文信息，而在整體上理解詩歌。Transformer的引入使得模型的性能有了明顯的提升。

Capsule模型使用一組神經(jīng)元構成的膠囊傳遞信息，相較CNN可以做到在提取特征的同時降低信息損失。表3的CNN和表4的-No Transformer對應數(shù)據(jù)的差異，除了顯示LDA的作用外，也展示了和CNN相比，Capsule模型在特征提取上的優(yōu)勢。

2.4 錯誤分析

在前邊各節(jié)中，我們展示了Cap-Transformer 模型是如何進行作者身份識別的。但是，在某些情況下，模型無法完成任務并生成錯誤的輸出。分析錯誤原因可以揭示模型的局限性，并有助于確定下一步的研究方向。在本節(jié)中，我們對 TopNum10數(shù)據(jù)集進行錯誤分析，將其錯誤歸為4類，每一類錯誤所占的比重如圖3所示。需要說明的是，盡管本文進行的錯誤分析結果僅適用于 TopNum10 數(shù)據(jù)集，但類似的錯誤原因也是其他數(shù)據(jù)集的錯誤來源。

常識矛盾：詩歌內容或詩題中常常會出現(xiàn)一些常識性的外部知識，這些知識可以輔助作者身份識別，但是我們的模型忽略了對這些外部知識的表示，導致出現(xiàn)了一些簡單的識別錯誤。例如，劉禹錫那首著名的《酬樂天初逢席上見贈》，首先我們知道樂天是白居易的字，根據(jù)常識，這首詩不可能是白居易寫的。但是，模型卻錯誤地把這首詩分給了白居易。再比如說溫庭筠的《戲令狐相》，這里‘令狐相’指的是令狐绹，他在公元850年以后升任宰相，因此，這首詩不可能在850年以前創(chuàng)作，而模型則認為該詩的作者是杜甫(712—770)。

這種由于未能引用外部知識而造成的常識性矛盾是最常見的錯誤類別。如圖3所示，將近60%的錯誤都屬于這個類別，未來將嘗試引入外部知識，解決這一類錯誤。

圖3 錯誤類別分布

時代相同：唐詩屬于古漢語范疇，語言演變較慢，生活在同一時期的詩人大多使用相同的常用字、常用句式，甚至是常用的韻腳。因此，即使使用拼音、韻腳、平仄等更多樣的文本特征也很難區(qū)分。比如這類錯誤大部分都是白居易、元稹和劉禹錫三個人的詩互相識別錯誤。由于白居易和元稹共同倡導了新樂府運動，即使是專家也不能完全確定兩者的詩歌區(qū)別，更不用說神經(jīng)網(wǎng)絡模型了。因此，這類錯誤雖然占比不大，但其將成為今后研究的難點。

寫景抒情：這類錯誤主要針對寫景抒情詩的識別。這類詩一般只寫景，不敘事，題目和內容也是像王維的《山居秋暝》和杜甫的《絕句》這種完全沒有任何外部知識的內容。對于這樣的詩歌，即使我們引入外部知識也很難提升識別率。

其他：還有一些不好歸類的錯誤案例。這些案例導致錯誤的原因可能不止一個，比如像王維的《嘆白發(fā)》這種冒名頂替的詩作，或由于年代久遠在流傳過程中導致的遺失、錯漏的情況。這一類錯誤在圖3中被標為其他。

3 結論

針對唐詩文本跳躍性與整體性統(tǒng)一的特點，本文提出了一種雙通道的作者身份識別集成模型Cap-Transformer。首先，上通道Capsule可以在提取唐詩各個意象的局部語義特征的同時降低信息損失；下通道Transformer通過多頭自注意力機制提取唐詩各個意象共同指示的深層全局語義特征，將兩種特征融合，達到了唐詩的跳躍性和整體性的統(tǒng)一。此外，唐詩作為一種特殊的文學形式，題材特征確實提高了唐詩作者身份識別的準確率。在未來的工作中，我們計劃為唐詩作者身份識別引入更多的外部知識，并對其進行更恰當?shù)谋硎?，以提升作者身份識別的準確率。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看