基于聚類和雙向門控循環(huán)單元-條件隨機(jī)場(chǎng)的多類型流式文檔結(jié)構(gòu)識(shí)別

2021-07-20 02:07:02姜雨彤田英愛

科學(xué)技術(shù)與工程 2021年17期

王娟，李寧，姜雨彤，田英愛

(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字文化傳播重點(diǎn)實(shí)驗(yàn)室，北京 100101)

文檔結(jié)構(gòu)識(shí)別基于對(duì)文檔中單元角色的判斷，實(shí)現(xiàn)流式文檔的智能化理解，這在文檔自動(dòng)排版和優(yōu)化、信息檢索、智能問答系統(tǒng)等領(lǐng)域均有重要作用。中外已存在許多關(guān)于流式文檔結(jié)構(gòu)識(shí)別的研究，在這些已有的研究中，根據(jù)研究方法的不同可以分為基于規(guī)則、語法、機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)的方法。Han等[1]結(jié)合文檔格式特征及內(nèi)容特征，定義模板規(guī)則，進(jìn)而確定文檔單元的語義角色。Geng等[2]使用基于規(guī)則的方法識(shí)別文檔中參考文獻(xiàn)的著錄項(xiàng)，之后使用基于決策樹的方法判斷參考文獻(xiàn)的類型標(biāo)志。Lei等[3]分析流式文檔的特點(diǎn)，基于條件隨機(jī)場(chǎng)構(gòu)建文檔結(jié)構(gòu)識(shí)別模型，實(shí)驗(yàn)結(jié)果表明該算法能夠較好地識(shí)別論文類型的文檔，識(shí)別的單元角色種類較豐富，但其依賴手工特征，局限性較強(qiáng)。張真等[4]將文檔結(jié)構(gòu)識(shí)別任務(wù)看成序列標(biāo)注任務(wù)，提出基于神經(jīng)網(wǎng)絡(luò)構(gòu)建文檔結(jié)構(gòu)識(shí)別模型，該算法提高了論文類型文檔結(jié)構(gòu)識(shí)別準(zhǔn)確率，但對(duì)其他類型文檔結(jié)構(gòu)識(shí)別效果不理想。近年來，在自然語言處理(natural language processing, NLP)研究領(lǐng)域，序列標(biāo)注任務(wù)有大量成熟的研究成果。為能夠同時(shí)利用不同算法的優(yōu)勢(shì)，很多學(xué)者提出神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)算法結(jié)合的混合算法思想，從而得到最優(yōu)的序列標(biāo)注模型。Kadari等[5]首先將神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)結(jié)合起來，構(gòu)建雙向長短時(shí)記憶-條件隨機(jī)場(chǎng)(bi-directional long short-term memory-conditional random field，Bi-LSTM-CRF)的模型，這種混合的序列標(biāo)注模型在NLP領(lǐng)域的語義角色標(biāo)注、命名識(shí)別等諸多任務(wù)上取得顯著成績(jī)，因而逐漸取代單一的基于深度學(xué)習(xí)的模型成為主流的序列標(biāo)注模型。由于Bi-LSTM自身存在缺陷，Che等[6]提出基于雙向門控循環(huán)單元和條件隨機(jī)場(chǎng)(bidirectional gated recurrent unit-conditional random field,BiGRU-CRF)結(jié)合的混合序列標(biāo)注模型解決中文分詞序列標(biāo)記任務(wù)，實(shí)驗(yàn)證明該混合模型比LSTM神經(jīng)網(wǎng)絡(luò)更容易訓(xùn)練，效果最佳。與此同時(shí)，由于深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)能夠獲得局部特征，Guillaume等[7]將雙向長短期記憶單元、條件隨機(jī)場(chǎng)和卷積神經(jīng)網(wǎng)絡(luò)三者結(jié)合，構(gòu)建混合序列標(biāo)注模型，在命名實(shí)體識(shí)別領(lǐng)域取得很好的效果，但該模型不足之處在于，輸入長度的增加會(huì)導(dǎo)致性能下降。注意力機(jī)制的引入有助于克服這一缺點(diǎn)，同時(shí)注意力機(jī)制能避免神經(jīng)網(wǎng)絡(luò)模型中輸入順序不合理，計(jì)算效率較低等問題[8]。在智能問答領(lǐng)域，Nie等[9]構(gòu)建答案選擇模型，加入注意力機(jī)制，使其能夠重點(diǎn)關(guān)注答案的某些部分，并取得較好的效果。

目前，特殊設(shè)計(jì)的文檔結(jié)構(gòu)識(shí)別模型可以識(shí)別特定的文檔類型，但是對(duì)多種類型文檔結(jié)構(gòu)識(shí)別效果不好。為解決多類型文檔結(jié)構(gòu)識(shí)別問題，現(xiàn)借鑒相互獨(dú)立、完全窮盡(mutually exclusive collectively exhaustive,MECE)原則[10]和Rebsamen等[11]提出的方法，將不同類型或等級(jí)的數(shù)據(jù)分割視為單獨(dú)的任務(wù)，即把多類型文檔結(jié)構(gòu)識(shí)別任務(wù)通過文檔分類的方式將其分解成若干個(gè)單類型文檔結(jié)構(gòu)識(shí)別的子問題，每一個(gè)子問題都是一個(gè)小規(guī)模的局部模型。因此，多類型文檔分治模型的核心思想是構(gòu)建文檔分類器實(shí)現(xiàn)文檔的自動(dòng)分類，進(jìn)而將該問題分解成單類型文檔結(jié)構(gòu)識(shí)別。對(duì)于文檔分類，分為有監(jiān)督學(xué)習(xí)的分類和無監(jiān)督學(xué)習(xí)的聚類[12]。Twinandilla等[13]使用K-means方法預(yù)先定義聚類中心和聚類個(gè)數(shù)，通過調(diào)整損失函數(shù)，將文檔對(duì)象基于文檔語義信息劃分成多個(gè)互不相交的簇，目標(biāo)是正確地根據(jù)主題對(duì)文檔進(jìn)行聚類，K-means算法思想簡(jiǎn)單且效果較好，但聚類個(gè)數(shù)需要預(yù)先確定。Zendrato等[14]使用改進(jìn)的X-means算法，用戶只需指定聚類個(gè)數(shù)所屬的范圍，算法會(huì)自動(dòng)選擇最優(yōu)的K值。文檔聚類方法的輸入特征大部分是文檔的文本信息，往往忽略文檔結(jié)構(gòu)信息。馮健等[15]采用劃分聚類方法，基于文檔對(duì)象模型結(jié)構(gòu)進(jìn)行文檔聚類，分析釣魚網(wǎng)頁文檔，實(shí)驗(yàn)表明該方法準(zhǔn)確率較高，效果較好。

現(xiàn)擬使用語義信息和結(jié)構(gòu)信息來計(jì)算相似度，但為了盡可能減少主觀干預(yù)，未采用具有噪聲的基于密度的聚類方法(density-based spatial clustering of applications with noise，DBSCAN)，而采用X-means算法進(jìn)行文檔分類，實(shí)現(xiàn)了將大規(guī)模文檔集合分解成若干個(gè)小規(guī)模文檔集合的目標(biāo)后，嘗試將雙向門循環(huán)單元和條件隨機(jī)場(chǎng)結(jié)合的混合深度學(xué)習(xí)模型應(yīng)用到文檔結(jié)構(gòu)識(shí)別領(lǐng)域，并引入注意力機(jī)制，構(gòu)建各個(gè)小規(guī)模文檔集合的單類型文檔結(jié)構(gòu)識(shí)別模型，實(shí)現(xiàn)多類型文檔的結(jié)構(gòu)識(shí)別的目標(biāo)。

1 文檔的結(jié)構(gòu)及其表示

聚類算法將文檔聚類成簇后，針對(duì)每個(gè)簇，分析其語義，總結(jié)出對(duì)應(yīng)的段落角色集合，由于不同簇之間文檔類型差異較大，分析而得的文檔段落角色集合各不相同。隨后根據(jù)聚類得到的簇，分別構(gòu)建文檔結(jié)構(gòu)識(shí)別模型。

每類的輸出層，由統(tǒng)計(jì)文檔類別中存在的段落角色種類定義。當(dāng)前語料庫中段落角色集合為PC={份號(hào)、發(fā)文機(jī)關(guān)標(biāo)志、發(fā)文字號(hào)、標(biāo)題、發(fā)文機(jī)關(guān)、發(fā)文日期、正文標(biāo)題、一級(jí)標(biāo)題、二級(jí)標(biāo)題、抄送機(jī)關(guān)、印發(fā)機(jī)關(guān)與日期、表格、表題、題目、作者、三級(jí)標(biāo)題、班級(jí)、圖題、圖片、文本段落、導(dǎo)師姓名、落款日期、作者單位、郵箱、中文摘要、中文關(guān)鍵詞、英文摘要、英文關(guān)鍵詞、公式、程序代碼、封面題目、副題目、四級(jí)標(biāo)題、引言內(nèi)容、日期內(nèi)容、機(jī)構(gòu)、目錄內(nèi)容、說明}。初始K值為1～8，最終模型書目為K=4。文檔結(jié)構(gòu)識(shí)別模型各參數(shù)設(shè)置及輸出層定義如表1所示。

表1 簇類-模型參數(shù)設(shè)置及輸出層定義

2 基于X-means算法的文檔聚類與分類

劃分聚類算法是最基礎(chǔ)的聚類算法，該算法通過數(shù)據(jù)間簡(jiǎn)單的相似度計(jì)算即可將數(shù)據(jù)對(duì)象分組。該算法流程如圖1所示。主要包括三部分內(nèi)容，首先對(duì)輸入數(shù)據(jù)進(jìn)行特征提取和特征選擇，其次是數(shù)據(jù)對(duì)象相似度計(jì)算，最后是根據(jù)相似度結(jié)果將數(shù)據(jù)對(duì)象進(jìn)行分組。該方法最終將數(shù)據(jù)對(duì)象劃分到不同的類別或簇中，同一個(gè)簇中數(shù)據(jù)對(duì)象集合具有較高的相似度，而不同的簇中數(shù)據(jù)對(duì)象差別較大。

圖1 聚類算法基本流程

傳統(tǒng)的K-means 聚類算法是劃分聚類中較為基礎(chǔ)的算法，對(duì)于大規(guī)模的數(shù)據(jù)集有較好的聚類效果，其算法復(fù)雜度為O(mnkR)。其中,m為數(shù)據(jù)特征維數(shù)，n為數(shù)據(jù)規(guī)模，k為指定的聚類簇個(gè)數(shù)，R為總體迭代次數(shù)。雖然K-means 聚類算法高效簡(jiǎn)單，但也存在一定的局限性：算法中聚簇個(gè)數(shù)需要預(yù)先指定，同時(shí)每一輪迭代計(jì)算開銷較大且很容易陷入局部最優(yōu)解，鑒于此，文本選擇使用傳統(tǒng)K-means 的改進(jìn)算法即X-means 聚類算法。

X-means算法的主要思路是先對(duì)文檔集合實(shí)現(xiàn)聚類，針對(duì)每一個(gè)文檔聚類簇繼續(xù)進(jìn)行K=2的聚類。具體步驟如下。

(1)選擇特征集。選取的特征不同于其他文檔聚類方法，選取格式結(jié)合語義的特征集合完成文檔聚類，以實(shí)現(xiàn)對(duì)文檔按照領(lǐng)域及書寫格式劃分的目標(biāo)。

(2)文檔完成初始聚類。語料中的每行特征集合數(shù)據(jù)均代表一篇文檔，從下限值Kmin開始，從N個(gè)數(shù)據(jù)對(duì)象中隨機(jī)選擇Kmin個(gè)數(shù)據(jù)對(duì)象作為初始聚類中心，計(jì)算其余數(shù)據(jù)對(duì)象與聚類中心的歐式距離，根據(jù)歐氏距離的值，將數(shù)據(jù)對(duì)象分配到與其距離最短的聚類簇中，計(jì)算每一個(gè)聚類簇的數(shù)據(jù)對(duì)象的均值，作為新的聚類中心，然后計(jì)算誤差平方和(the sum of squares due to error，SSE)評(píng)價(jià)當(dāng)前聚類結(jié)果，若SSE發(fā)生了變化，則迭代計(jì)算歐式距離重新歸類并計(jì)算新的聚類中心，若SSE未發(fā)生變化保持穩(wěn)定，則當(dāng)前的聚類算法結(jié)束，輸出聚類結(jié)果。

(3)初始聚類完成后，針對(duì)每一個(gè)分類結(jié)果，完成二分聚類，得到最優(yōu)的聚類結(jié)果。本著各文檔聚類簇之間盡可能分開，各文檔聚類簇本身盡可能緊湊的原則，從范圍[Kmin=1，Kmax=10]內(nèi)找到最優(yōu)的聚類數(shù)K，即：針對(duì)每一個(gè)聚類簇，完成二分聚類，計(jì)算貝葉斯信息準(zhǔn)則(Bayesian information criterion，BIC)得分，決定是否進(jìn)行二分聚類，如果K值比指定的Kmax大或者不存在可分裂的聚類中心點(diǎn)，那么算法停止，否則迭代繼續(xù)分裂聚類。最終，得到最優(yōu)聚類數(shù)K和最優(yōu)的聚類結(jié)果。在得到的聚類結(jié)果中，文本會(huì)自動(dòng)給數(shù)據(jù)維度后增加一個(gè)新列Cluster{Cluster1, Cluster2,…}，用來標(biāo)注聚類類別，以支持后續(xù)的處理。

歐式距離計(jì)算公式如(1)所示。

(1)

式(1)中：data為數(shù)據(jù)對(duì)象;j為第i個(gè)聚類中心；m為數(shù)據(jù)特征維度；dataj、Ctij為data數(shù)據(jù)對(duì)象和Cti聚類中心的第j個(gè)屬性值。

此外，聚類結(jié)果由SSE評(píng)價(jià)，公式為

(2)

該評(píng)價(jià)方法計(jì)算的是data數(shù)據(jù)對(duì)象和Cti聚類中心對(duì)應(yīng)點(diǎn)誤差的平方和，SSE值越趨近零，越說明模型擬合得更好，數(shù)據(jù)預(yù)測(cè)結(jié)果越好。

選擇X-means 算法完成文檔聚類有如下優(yōu)點(diǎn)。

(1)在算法初始時(shí)不預(yù)先給出聚簇個(gè)數(shù)K, 只指定聚簇個(gè)數(shù)K的大概范圍[K1,K2],該算法會(huì)在指定的[K1,K2]范圍內(nèi)通過BIC 值的評(píng)價(jià)方法不斷調(diào)整聚類簇的個(gè)數(shù)，進(jìn)而找到一個(gè)最優(yōu)的聚簇個(gè)數(shù)K以實(shí)現(xiàn)聚類分組。

(2)針對(duì)局部最優(yōu)解問題，X-means 每一輪迭代均使用2-means 方法，2-means 對(duì)局部最優(yōu)解不敏感。

(3)該算法使用K-D樹分區(qū)，加速了K-means 的每一輪迭代。

3 基于BIGRU-CRF的文檔結(jié)構(gòu)識(shí)別方法

流式文檔的每個(gè)段落可以看成一個(gè)基本單元，流式文檔可以看作基于這些單元之上的序列，段落與段落間存在前后依賴關(guān)系，進(jìn)而文檔結(jié)構(gòu)識(shí)別可以看成是序列標(biāo)注問題。針對(duì)文檔結(jié)構(gòu)識(shí)別問題，提出BiGRU-CRF模型。BiGRU-CRF模型將神經(jīng)網(wǎng)絡(luò)與統(tǒng)計(jì)學(xué)習(xí)相結(jié)合，解決了文檔結(jié)構(gòu)識(shí)別針對(duì)小規(guī)模語料訓(xùn)練性能較差、識(shí)別準(zhǔn)確率較低等問題。循環(huán)神經(jīng)網(wǎng)絡(luò)可以很好地完成短序列任務(wù)，但針對(duì)長序列問題，RNN存在較大缺陷，它在訓(xùn)練中會(huì)頻繁出現(xiàn)梯度消失和爆炸等問題，導(dǎo)致訓(xùn)練中斷，使RNN無法記憶長距離信息。為避免RNN的缺點(diǎn)，相關(guān)研究人員提出了長短期記憶網(wǎng)絡(luò)LSTM，可以有效地利用長距離序列信息，有效彌補(bǔ)RNN的不足，較好地求解長序列任務(wù)。但是由于LSTM網(wǎng)絡(luò)參數(shù)較多，網(wǎng)絡(luò)訓(xùn)練開銷較大，導(dǎo)致LSTM在是使用中有一定的局限性，因此，相關(guān)研究者提出了GRU模型，該模型對(duì)LSTM進(jìn)行簡(jiǎn)化，減少了網(wǎng)絡(luò)參數(shù)，在解決長時(shí)序列任務(wù)時(shí)，既保持了LSTM的效果，同時(shí)又使結(jié)構(gòu)更加簡(jiǎn)單，有效地縮短模型訓(xùn)練的時(shí)間，同時(shí)模型訓(xùn)練更易于收斂，需要的數(shù)據(jù)更少，模型效果更好。BiGRU模型獲取自上而下和自下而上的長短距離信息，由于文檔段落較多，數(shù)據(jù)信息較復(fù)雜，所以在BiGRU模型中引入自注意力機(jī)制。BiGRU加入自注意力機(jī)制會(huì)更好地獲得段落特征序列中長距離相互依賴的特征，自注意力能夠?qū)⑿蛄兄腥我鈨蓚€(gè)段落的特征矩陣通過一個(gè)計(jì)算步驟直接聯(lián)系到一起，而不是按照序列依次計(jì)算，有效地縮短依賴特征之間的關(guān)系。因?yàn)闂l件隨機(jī)場(chǎng)有突出的序列標(biāo)注能力，所以將BiGRU層結(jié)合自注意力機(jī)制得到的文檔特征信息結(jié)果作為特征向量的最終表示，使用CRF模型聯(lián)合建模進(jìn)行標(biāo)注決策，可以獲得全局最優(yōu)的序列標(biāo)注。這時(shí)構(gòu)建的文檔結(jié)構(gòu)識(shí)別模型，不僅會(huì)更好地捕獲輸入的段落特征序列中長距離的相互依賴的特征，而且該模型經(jīng)過CRF層的兩個(gè)特征函數(shù)處理，能夠更好地完成上下文預(yù)測(cè)。

3.1 語料處理

語料主要來源于北京信息科技大學(xué)文檔資源庫，包括各個(gè)類型文檔資源共計(jì)約50 000篇，其中經(jīng)過標(biāo)注工具標(biāo)注的文檔約5 000篇。

基于Office Word Add-in 開發(fā)標(biāo)注工具輔助人工操作，采用半自動(dòng)化標(biāo)注模式通過插入文檔批注對(duì)語料進(jìn)行標(biāo)注；通過擴(kuò)展樣式表語言轉(zhuǎn)換(extensible stylesheet language transformations，XSLT)模板定義結(jié)構(gòu)，將帶有批注序列的流式文檔轉(zhuǎn)換成符合定義的XML文檔，便于機(jī)器讀取；最后基于Word對(duì)象模型，自動(dòng)提取文檔特征，并填充到XML文檔中。文檔語料構(gòu)建過程如圖2所示。

圖2 文檔語料構(gòu)建過程

3.2 特征選取

在構(gòu)建多類型文檔分治模型前，需要先提取特征。對(duì)于文檔結(jié)構(gòu)識(shí)別來說，除語義特征外的大部分特征均需要從文檔的底層抽取，而深度學(xué)習(xí)算法無法有效地自動(dòng)提取這些特征，因此需要采用人工提煉特征。通過分析寫作習(xí)慣及文檔的排版規(guī)則，從文檔中挖掘出多種特征。通過卡方檢驗(yàn)，最后選擇出18種特征，表2為特征選擇結(jié)果。

表2 特征選擇結(jié)果

3.3 文檔結(jié)構(gòu)識(shí)別模型架構(gòu)及實(shí)現(xiàn)

提出的BiGRU-CRF模型分為4個(gè)部分：采用Embedding降維進(jìn)行向量編碼作為輸入層、使用BiGRU結(jié)合CRF訓(xùn)練結(jié)構(gòu)識(shí)別模型、訓(xùn)練層加入自注意力模型，輔助調(diào)整模型參數(shù)。文檔結(jié)構(gòu)識(shí)別模型分為訓(xùn)練和測(cè)試兩部分，在訓(xùn)練階段，從第2節(jié)聚類結(jié)果中，選擇多篇文檔語料數(shù)據(jù)，其中在3.1節(jié)中論述的特征預(yù)處理后的文本格式即為當(dāng)前的輸入語料格式，并采用BiGRU-CRF模型進(jìn)行訓(xùn)練；最后，在測(cè)試階段，選擇多篇該類文檔的語料數(shù)據(jù)，使用上一步驟中訓(xùn)練好的文檔結(jié)構(gòu)識(shí)別模型進(jìn)行這些文檔單元角色的測(cè)試，得到最終的測(cè)試結(jié)果，并與預(yù)先標(biāo)注的結(jié)果對(duì)比，為分模型析和評(píng)價(jià)提供數(shù)據(jù)支撐?？傮w框架如圖3所示。

圖3 文檔結(jié)構(gòu)識(shí)別模型總體框架

文檔結(jié)構(gòu)識(shí)別模型的輸入層即將3.2節(jié)中經(jīng)特征選擇提取的特征輸入到Embedding層進(jìn)行降維，完成向量編碼，若輸入的是不等長樣本，對(duì)其進(jìn)行padding補(bǔ)零之后輸入到Embedding層，形成文檔特征的初始表示，傳遞給下一層的BiGRU神經(jīng)網(wǎng)絡(luò)訓(xùn)練。BiGRU層自主學(xué)習(xí)輸入的文檔特征信息，同時(shí)記憶上下文依賴信息，得到其權(quán)重關(guān)系分布，輸出新的特征向量。在此基礎(chǔ)上，引入自注意力機(jī)制層，該層對(duì)上一層輸出的特征向量計(jì)算注意力概率分布，通過該分布對(duì)特征向量進(jìn)行點(diǎn)積運(yùn)算，最后累加，其結(jié)果作為特征向量的最終表示。這時(shí)深度學(xué)習(xí)網(wǎng)絡(luò)會(huì)更好地捕獲輸入的段落特征序列中長距離的相互依賴的特征，然后將特征向量輸出到CRF層。該層將特征向量的最終表示使用CRF模型聯(lián)合建模進(jìn)行標(biāo)注決策，以獲得全局最優(yōu)的序列標(biāo)注。

以開題報(bào)告類型文檔為例，構(gòu)建BiGRU-CRF文檔結(jié)構(gòu)識(shí)別模型，表3為實(shí)驗(yàn)后確定的模型參數(shù)配置信息。

表3 模型參數(shù)配置信息

模型的具體算法流程如BiGRU-CRF混合神經(jīng)網(wǎng)絡(luò)算法迭代過程所示。

輸入：經(jīng)初始化的開題報(bào)告文檔特征矢量Dataset_a。

輸出：模型結(jié)構(gòu)和權(quán)重分布。

Function BiGRU_CRF_Train(Dataset_a):

Initialization特征變量設(shè)為零矩陣，初始化分類數(shù)num_class設(shè)置為13

For所有文檔特征集合Dataset_a do:

For每一篇文檔單元特征集合do:

以字典形式保存每一個(gè)離散型特征和所有連續(xù)型特征拼接成的一個(gè)連續(xù)型特征

以字典的形式保存檔單元角色標(biāo)簽

End For

獲取初始化的特征矩陣，對(duì)每一個(gè)特征降維

連接所有特征變量得到變量input_all

對(duì)input_all進(jìn)行變長序列處理，長序列切割，短序列填充零值，得到變量input_middle

將input_middle輸入到GRU 模型中

設(shè)置GRU 模型參數(shù)：

正則化dropout值設(shè)為0.2，輸出維度設(shè)為128，return_sequences設(shè)為True，得到變量x_gru

將x_gru輸入到GRU 模型中,設(shè)置相同的參數(shù)，得到變量x_bigru

將x_bigru輸入到自注意力機(jī)制模型中

設(shè)置自注意力模型參數(shù)：

注意力類型為multiplicative，注意力偏置設(shè)為false，得到變量x_atten,將x_atten輸?shù)紺RF 模型中

設(shè)置CRF 參數(shù)：

分類參數(shù)設(shè)num_class，得到變量crf_output

模型編譯，選擇Nadam 優(yōu)化算法

打印模型結(jié)構(gòu)，返回模型

防止過擬合，采用EarlyStopping 法

設(shè)置早停法參數(shù)：

監(jiān)測(cè)驗(yàn)證集的損失值，設(shè)置為min 模式，10 輪訓(xùn)練驗(yàn)證集損失值

停止減少后模型訓(xùn)練中止，加入tensorboard 可視化

模型訓(xùn)練

設(shè)置模型訓(xùn)練參數(shù)：

迭代25 次，訓(xùn)練集驗(yàn)證集分布設(shè)置為0.2，一次訓(xùn)練選取樣本量為8

保存模型結(jié)構(gòu)和模型權(quán)重到指定目錄，其中將save_best_only 設(shè)為true，保存驗(yàn)證集損失最小的模型權(quán)重

End Function

4 實(shí)驗(yàn)結(jié)果及分析

4.1 文檔聚類實(shí)驗(yàn)

選取語料庫3 000篇未標(biāo)注類型的文檔，其中混合了公文在內(nèi)的許多類型文檔。該部分?jǐn)?shù)據(jù)集因保密性要求，僅在GitHub(https://github.com/COSLab)上公布了68篇數(shù)據(jù)。

4.1.1 評(píng)價(jià)指標(biāo)

文檔結(jié)構(gòu)識(shí)別模型的評(píng)估指標(biāo)分為兩部分：段落單元的評(píng)估指標(biāo)和總體的評(píng)估指標(biāo)。

針對(duì)段落單元的評(píng)估指標(biāo)采用查準(zhǔn)率(Precision，P)、查全率(Recall，R)和F1值(F1-score)，通過這3項(xiàng)評(píng)估指標(biāo)對(duì)作者、題目、文本段落、圖片以及表格等各個(gè)段落單元進(jìn)行測(cè)評(píng)和分析。

查準(zhǔn)率是相對(duì)于預(yù)測(cè)結(jié)果而言的，其含義是在被所有預(yù)測(cè)為標(biāo)簽N的樣本中，實(shí)際為標(biāo)簽N的概率，計(jì)算公式為

(3)

式(3)中：TP為模型預(yù)測(cè)結(jié)果為N的集合中，實(shí)際為標(biāo)簽N的樣本數(shù)量；Ptotal代表模型預(yù)測(cè)結(jié)果為標(biāo)簽N的總樣本數(shù)量。

查全率是相對(duì)于樣本而言的，其含義是實(shí)際為標(biāo)簽N的樣本中，被預(yù)測(cè)為標(biāo)簽N的概率，計(jì)算公式為

(4)

式(4)中：Rtotal代表實(shí)際為標(biāo)簽N的總樣本數(shù)量。

F1值的計(jì)算公式為

(5)

針對(duì)總體的評(píng)估指標(biāo)，由于流式文檔中不同角色單元的數(shù)量差異較大，不同段落角色數(shù)量不平衡，正文的比重很大，遠(yuǎn)超過其他角色標(biāo)簽，因此不能簡(jiǎn)單采用上述3項(xiàng)指標(biāo)。采用上述3項(xiàng)指標(biāo)對(duì)應(yīng)的宏平均和微平均作為總體評(píng)價(jià)指標(biāo)。宏平均是指先對(duì)每一個(gè)標(biāo)簽統(tǒng)計(jì)上述3個(gè)指標(biāo)值，再對(duì)所有的標(biāo)簽求算術(shù)平均值。微平均指不區(qū)分標(biāo)簽進(jìn)行統(tǒng)計(jì)，將所有標(biāo)簽一次性全考慮進(jìn)來。在實(shí)驗(yàn)過程中，對(duì)各個(gè)深度學(xué)習(xí)模型的使用上述評(píng)估指標(biāo)，從而評(píng)價(jià)各個(gè)模型對(duì)文檔結(jié)構(gòu)識(shí)別的效果。這樣帶來的好處是可以更好地評(píng)價(jià)算法、模型在整個(gè)數(shù)據(jù)集上的性能。

4.1.2 實(shí)驗(yàn)結(jié)果及分析

文檔集合經(jīng)過聚類算法后，得到的聚類結(jié)果如圖4和圖5所示。

圖4 聚類模型實(shí)驗(yàn)結(jié)果1

圖5 聚類模型實(shí)驗(yàn)結(jié)果2

通過聚類算法發(fā)現(xiàn)，如果聚成4類，聚類的結(jié)果基本符合人工對(duì)文檔類型劃分的預(yù)期，大致分為論文類型、標(biāo)準(zhǔn)文本類型、公文類型和開題報(bào)告類型。其中論文類型文檔共1 512篇、標(biāo)準(zhǔn)類型文檔共575篇、公文類型文檔共586篇、開題報(bào)告類型文檔共488篇。因此可以實(shí)現(xiàn)分而治之的設(shè)想。

聚類算法得到的4類文檔的實(shí)驗(yàn)結(jié)果如表4、表5所示。

基于多個(gè)分類模型識(shí)別文檔，每一個(gè)識(shí)別模型均有其對(duì)應(yīng)的段落角色集合，同時(shí)每一個(gè)識(shí)別模型的準(zhǔn)確率均達(dá)到了92%以上，各個(gè)分類模型的識(shí)別結(jié)果如表4、表5所示，單模型和分治模型的結(jié)果總體比較如圖6所示，綜合4個(gè)模型得總體的算術(shù)平均值約為95%。

表4 模型1和模型2的實(shí)驗(yàn)結(jié)果

表5 模型3和模型4實(shí)驗(yàn)結(jié)果

圖6 單一模型與分治模型的實(shí)驗(yàn)結(jié)果對(duì)比

(2)用單模型去識(shí)別所有文檔，段落角色集合為第1節(jié)中論述的PC。得到的總體識(shí)別結(jié)果只有75%左右，效果較差，很明顯，例如中文摘要、引言這樣的段落角色很容易識(shí)別成文本段落。

由此可以得出，所提出的分治模型能夠有效地解決多類型文檔結(jié)構(gòu)識(shí)別問題。

4.2 文檔結(jié)構(gòu)識(shí)別實(shí)驗(yàn)

根據(jù)4.1中文檔聚類算法得到的論文、開題報(bào)告、公文、標(biāo)準(zhǔn)這4類文檔集合，構(gòu)建最優(yōu)的文檔結(jié)構(gòu)識(shí)別模型。每種類型的文檔語料分為訓(xùn)練集和測(cè)試集。

使用相同的語料庫，在相同環(huán)境配置的條件下，對(duì)不同模型分別進(jìn)行實(shí)驗(yàn)對(duì)比，實(shí)驗(yàn)采用4.1節(jié)中論述的查準(zhǔn)率、查全率和F1值，以及對(duì)應(yīng)的宏平均和微平均進(jìn)行評(píng)估。

以聚類結(jié)果中數(shù)據(jù)規(guī)模最小的開題報(bào)告類型為例，對(duì)模型進(jìn)行評(píng)估和分析。近年來，已有幾個(gè)性能較好的模型。張真等[4]使用LSTM模型對(duì)文檔段落進(jìn)行預(yù)測(cè)，現(xiàn)同樣選擇LSTM進(jìn)行對(duì)比實(shí)驗(yàn)。

表6展示了本文模型與文獻(xiàn)[4]提出的模型實(shí)驗(yàn)對(duì)比結(jié)果。

從表6中可以看出，同樣是處理序列標(biāo)注任務(wù)的模型，本文模型能夠更有效地完成文檔結(jié)構(gòu)識(shí)別的任務(wù)。此外，開題報(bào)告類型的數(shù)據(jù)規(guī)模較小是一個(gè)難點(diǎn)，本文模型的整體識(shí)別效果較語料豐富的論文類型差距不大，但是，針對(duì)分級(jí)標(biāo)題，級(jí)別越低，寫作自由度越高，導(dǎo)致識(shí)別效果較差，三級(jí)標(biāo)題的識(shí)別效果只能達(dá)到0.65左右。從最終預(yù)測(cè)結(jié)果中得出，標(biāo)題識(shí)別錯(cuò)誤的情況為，大部分被識(shí)別成二級(jí)標(biāo)題或一級(jí)標(biāo)題，少量被識(shí)別成正文，說明各個(gè)標(biāo)題之間的特征差異較小。

表6 不同文檔結(jié)構(gòu)識(shí)別模型效果對(duì)比

表7是不同模型的參數(shù)對(duì)照表。從表7中可以看出，本文的模型參數(shù)較少，迭代25次即趨于穩(wěn)定，而文獻(xiàn)[4]模型參數(shù)較多，迭代次數(shù)到40次才趨于穩(wěn)定，但仍上下波動(dòng)。在數(shù)據(jù)規(guī)模較少的開題報(bào)告類的文檔訓(xùn)練中，尤為明顯。

表7 模型參數(shù)對(duì)照

綜上，無論是識(shí)別效果上還是性能上，本文模型在文檔結(jié)構(gòu)識(shí)別上效果均好于文獻(xiàn)[4]模型。

方正飛翔是目前市面上書籍、科技排版效率最高的交互式排版軟件，word超強(qiáng)的兼容性，可以在導(dǎo)入時(shí)保留原版式。將本文模型識(shí)別結(jié)果與方正飛翔軟件進(jìn)行對(duì)比，結(jié)果如表8所示。在12類段落角色標(biāo)簽中，文本模型的識(shí)別結(jié)果除表題、表格以外，均高于方正軟件，其中作者、一級(jí)標(biāo)題、二級(jí)標(biāo)題、三級(jí)標(biāo)題均高出約0.2。而方正飛翔軟件在圖題、圖片、表格、表題等段落標(biāo)簽上的識(shí)別結(jié)果較好，本文模型與其結(jié)果持平，而圖題僅低0.05。

表8 與方正飛翔軟件的識(shí)別效果對(duì)比

5 結(jié)論

針對(duì)多類型文檔結(jié)構(gòu)識(shí)別問題，提出多類型文檔分治模型，把多類型文檔結(jié)構(gòu)識(shí)別分為三個(gè)步驟。第一步，基于改進(jìn)的X-means 聚類算法構(gòu)建文檔分類器。第二步，為每個(gè)分類訓(xùn)練文檔結(jié)構(gòu)識(shí)別模型，充分利用段落角色的序列化特點(diǎn)，將序列標(biāo)注方法結(jié)合到文檔結(jié)構(gòu)識(shí)別模型中去，結(jié)合雙向門控單元模型、條件隨機(jī)場(chǎng)模型并加入自注意力機(jī)制，構(gòu)建文檔結(jié)構(gòu)識(shí)別模型。第三步，對(duì)新文檔分類并調(diào)用相應(yīng)的文檔結(jié)構(gòu)識(shí)別模型。分治模型使得機(jī)器學(xué)習(xí)從大規(guī)模尋優(yōu)目標(biāo)轉(zhuǎn)化為小規(guī)模尋優(yōu)目標(biāo)，降低了文檔結(jié)構(gòu)識(shí)別模型的訓(xùn)練復(fù)雜度，實(shí)驗(yàn)結(jié)果表明，該方法能夠有效識(shí)別多類型文檔結(jié)構(gòu)，提高了模型的準(zhǔn)確性及方法的通用性，更符合實(shí)際應(yīng)用場(chǎng)景。

本文模型雖然取得良好的效果，但仍有問題值得進(jìn)一步改進(jìn)。

(1)數(shù)據(jù)集的拓展。使用的語料只是其中較少的一部分且涉及的種類較少，不夠全面，雖然提出的多類型文檔分治模型可以解決多類型文檔結(jié)構(gòu)的識(shí)別問題，但是如果能夠擴(kuò)充語料集，在獲得更豐富的語料的條件下，可以進(jìn)一步調(diào)整聚類的簇?cái)?shù)、特征的維度，對(duì)文檔進(jìn)行更精細(xì)的分類識(shí)別，以獲得更好的整體識(shí)別效果。

(1)段落角色的細(xì)粒度識(shí)別。目前作為研究目的，對(duì)于流式文檔的段落角色劃分還比較粗，一些段落角色未作識(shí)別，例如：頁眉、頁腳、腳注等，在實(shí)際應(yīng)用中，可以考慮增加更多的段落角色識(shí)別能力。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看