• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于構(gòu)件理解的文檔格式優(yōu)化方法

      2020-11-19 07:24:36郝海利
      關(guān)鍵詞:文檔構(gòu)件錯誤

      王 娟,李 寧,郝海利

      (北京信息科技大學 網(wǎng)絡文化與數(shù)字文化傳播重點實驗室,北京 100101)

      0 引言

      流式文檔在日常辦公和文獻出版等領(lǐng)域中應用廣泛,但流式文檔格式復雜,排版形式多樣,使用時難免會出現(xiàn)各種錯誤[1]。據(jù)統(tǒng)計,錯誤主要分為標題邏輯結(jié)構(gòu)錯誤、排版格式錯誤以及文檔構(gòu)件錯誤。其中,文檔構(gòu)件錯誤占了較大比重[2]。文檔構(gòu)件是指形如圖片、表格、文本段等具有相對獨立語義和獨立功能的文檔組成成分[3]。對文檔構(gòu)件進行糾錯有利于文檔的規(guī)范化,從而使其更好地被計算機理解[4]。文檔格式優(yōu)化,即在文檔理解的基礎上,根據(jù)排版要求,將文檔調(diào)整為規(guī)范化格式。以往通過手工對文檔進行格式調(diào)整的方法,工作量大且難以發(fā)現(xiàn)各種錯誤。因此,本文從文檔構(gòu)件的理解出發(fā),針對文檔構(gòu)件可能存在的多種錯誤情況,采取不同的查錯糾錯方法,以此達到文檔格式優(yōu)化的目的[5]。

      本文方法主要針對的是學術(shù)論文。學術(shù)論文等結(jié)構(gòu)性較強的文檔往往由多種基本單元組成,如標題、摘要、關(guān)鍵詞、章節(jié)、圖表等。要進行文檔格式優(yōu)化,首先需要計算機正確理解文檔結(jié)構(gòu),這是本文方法的前提。文檔結(jié)構(gòu)理解即基于文檔的格式和內(nèi)容來理解文檔各部分的作用[6],其包含兩方面內(nèi)容:首先,計算機需要識別出文檔的各個構(gòu)件,例如圖片、表格、文本段等;其次,計算機還要識別文檔中各構(gòu)件之間的邏輯關(guān)系,例如各級標題之間的嵌套關(guān)系。在文檔結(jié)構(gòu)理解中,典型的有基于規(guī)則的方法和基于機器學習的方法?;谝?guī)則的方法較多地使用規(guī)則(模板)對文檔的構(gòu)件和結(jié)構(gòu)進行識別[7]。通過將待測文檔與模板進行比較,識別出待測文檔的文檔構(gòu)件和結(jié)構(gòu)[8]。徐東風等[9]通過預先設定文檔標準格式,實現(xiàn)了本科生畢業(yè)論文格式與標準文檔的格式檢測和匹配。但是,基于規(guī)則的方法存在一定缺陷,例如,需要人工提取特征,未能充分利用文檔構(gòu)造規(guī)律等。機器學習的方法常采用序列標注模型,將文檔段落以及各個構(gòu)件的前后依賴關(guān)系看成序列數(shù)據(jù),通過序列標注模型進行邏輯標簽序列的識別。雷洋等[10]使用基于CRF(conditional random field)的序列標注方法,將文檔結(jié)構(gòu)理解看作序列標注問題,在特征模板之上建立CRF訓練模型,并通過監(jiān)督學習方法實現(xiàn)文檔結(jié)構(gòu)識別。基于序列的方法可以結(jié)合多種特征,特別是上下文特征,還可以在一定程度上實現(xiàn)容錯,但難以找到最優(yōu)結(jié)構(gòu)。除了序列標注方法外,還有基于神經(jīng)網(wǎng)絡的機器學習方法。張真等[11]根據(jù)流式文檔特點,提出一種基于雙向LSTM(long short-term memory)的文檔結(jié)構(gòu)識別方法,從文檔單元的格式、內(nèi)容與語義方面篩選關(guān)鍵特征,在此基礎上,使用雙向LSTM神經(jīng)網(wǎng)絡構(gòu)建識別模型,實現(xiàn)了18種邏輯標簽的識別。

      本文利用張真等[11]的文檔結(jié)構(gòu)識別的結(jié)果,實現(xiàn)基于構(gòu)件的文檔格式優(yōu)化方法。構(gòu)建了文檔糾錯語料庫,統(tǒng)計文檔結(jié)構(gòu)出錯的規(guī)律,針對不同的錯誤,采用不同的方法進行查錯分析,并給出相應的糾錯建議,從而達到文檔格式優(yōu)化的目的。

      1 排版錯誤的分類

      在研究基于構(gòu)件理解的文檔格式優(yōu)化方法之前,首先對流式文檔排版錯誤的規(guī)律進行分析。本課題所在的項目組標注了相當數(shù)量的文檔語料,這些文檔語料主要來自于多家學報的學術(shù)論文的初稿,本研究對語料的排版錯誤進行了統(tǒng)計。

      參照文檔結(jié)構(gòu)理解的方法,我們構(gòu)造了一個文檔構(gòu)件集合,將錯誤分為4種類別,即:構(gòu)件的缺失、冗余、亂序和誤用。缺失,即文檔中缺少必要的構(gòu)件;亂序,即文檔中的構(gòu)件順序錯誤;冗余,即文檔中出現(xiàn)多余的文檔構(gòu)件;誤用,即文檔中構(gòu)件使用錯誤。表1是文檔構(gòu)件序列中的錯誤類型及其正確示例。

      表1 錯誤類型及其正確示例

      對語料庫中的糾錯語料進行細分類及概率統(tǒng)計,結(jié)果如表2所示。

      表2 錯誤細分類及概率統(tǒng)計

      對文檔構(gòu)件的特點進行分析,發(fā)現(xiàn):除了中文論文名稱、作者姓名、單位等構(gòu)件只會在論文頭部出現(xiàn)之外,其余的文檔構(gòu)件都會在正文中多次出現(xiàn);不同位置的文檔構(gòu)件錯誤表現(xiàn)形式往往不同。針對文檔構(gòu)件錯誤的特點,本文采取不同的方法進行處理。例如文檔局部構(gòu)件的結(jié)構(gòu)錯誤采用語法規(guī)則與統(tǒng)計相結(jié)合的方法處理;文檔列表、標題、公式等構(gòu)件的編號內(nèi)容采用規(guī)則的方法處理。

      2 排版格式的查錯與糾錯

      2.1 基于XML的文檔排版規(guī)則描述

      本文使用XML Schema語法來描述文檔構(gòu)件組成文檔的規(guī)則[12]。主要研究針對學術(shù)論文的格式優(yōu)化,所設計的Schema反映了學術(shù)論文的排版規(guī)范。

      假設文檔結(jié)構(gòu)識別后的文檔構(gòu)件序列為C={中文論文名稱,姓名,單位,中文摘要,…,一級標題,圖片,圖題,文本段},將該序列與文檔的Schema進行有效性驗證,從而發(fā)現(xiàn)不規(guī)范的文檔構(gòu)件。除標題之外,還設計了每個構(gòu)件的Schema,描述相關(guān)的元素以及關(guān)系約束。利用Schema對各個構(gòu)件進行檢查,得到錯誤信息后,再采用統(tǒng)計與規(guī)則相結(jié)合的方法提供糾錯建議,修改完成后,對文檔構(gòu)件序列再次進行驗證檢查。

      2.2 基于統(tǒng)計的局部內(nèi)容查錯與糾錯

      對文檔的構(gòu)件進行劃分,將中文論文名稱、姓名、單位、中文關(guān)鍵詞、中文摘要、英文論文名稱、英文摘要、英文關(guān)鍵詞、文本段以及郵箱等歸類為頭部元素;將一級標題、文本段、列表、圖片、圖題、表題、表格、公式、二級標題、三級標題等歸類為正文元素。

      在Schema驗證后得到錯誤的構(gòu)件時,針對這兩種類型的元素所產(chǎn)生的錯誤情況,采用不同的方法來進行處理。頭部元素采用基于統(tǒng)計與規(guī)則相結(jié)合的方法,為其構(gòu)造備選項集合,從中選擇備選項后繼續(xù)進行驗證;正文元素中的文檔局部構(gòu)件采用自然語言處理中的接續(xù)關(guān)系的思想進行查錯,并采用規(guī)則的方法進行糾錯。除此之外,還采用規(guī)則的方法處理文檔中的標號錯誤。

      2.2.1 備選項集合

      建立備選項集合主要針對的是頭部元素的糾錯。本研究參考了文本校對技術(shù)中的概率統(tǒng)計方法,將其應用到流式文檔構(gòu)件的查錯和糾錯之中。

      假設P(Ui|U1U2…Ui…UN)表示文檔構(gòu)件序列C=U1U2…Ui…UN中某個構(gòu)件Ui出現(xiàn)的概率,概率值越大就表明該構(gòu)件Ui出現(xiàn)在其位置的可能性越大。分析已有的糾錯語料庫,將其中常見的文檔構(gòu)件的錯誤類型利用極大似然規(guī)律對概率值進行求解[13]。首先計算先驗概率:

      (1)

      則條件概率P(Ui|C)的極大似然估計為

      (2)

      利用上述方法將文檔中存在的錯誤構(gòu)件替換為另一構(gòu)件。替換的準則為替換后的文檔構(gòu)件序列需符合Schema規(guī)范。首先,構(gòu)建備選項集合(Aset,alternative set)。一個文檔構(gòu)件序列中的某一構(gòu)件Ui所對應的備選項集合A(V)由文檔理解的結(jié)果和其在文檔語料庫中所對應的統(tǒng)計概率經(jīng)過排序后所得,如式(3)所示。

      (3)

      式中vi為某一構(gòu)件Ui的備選項。例如,A(中文關(guān)鍵詞)={文本段,英文關(guān)鍵詞,郵箱,二級標題,三級標題}中,等式左側(cè)是錯誤構(gòu)件,在本例中是中文關(guān)鍵詞,等式右側(cè)為其對應的備選項集合。本文所使用的備選項集合如表3所示。

      表3 備選項集合

      2.2.2 基于接續(xù)關(guān)系的構(gòu)件查錯

      基于接續(xù)關(guān)系的構(gòu)件查錯方法主要應用于正文元素。本文采用N-Gram模型(N=2),如式(4)所示[14]。

      wt-2,wt-1)

      (4)

      通過統(tǒng)計文檔糾錯語料庫中符號wi-1和符號串wi-1wi的出現(xiàn)次數(shù)R(wi-1)、R(wi-1wi)來估計條件概率[15],如式(5)所示。

      (5)

      將上述理論應用于文檔構(gòu)件查錯糾錯中。對待檢測的文檔構(gòu)件序列C=U1U2…Ui…UN,通過計算構(gòu)件之間的條件概率來體現(xiàn)接續(xù)關(guān)系。根據(jù)語料統(tǒng)計得出閾值,超過閾值則說明構(gòu)件之間存在接續(xù)關(guān)系,否則,則認為構(gòu)件之間不存在接續(xù)關(guān)系,即構(gòu)件可能出現(xiàn)錯誤。本文得到的構(gòu)件之間的條件概率如表4所示,所設定的閾值為0.8。

      表4 部分構(gòu)件條件概率

      表4中,圖片構(gòu)件在前、圖題構(gòu)件在后時,轉(zhuǎn)移概率大于0.8,說明兩者存在接續(xù)關(guān)系。本文將此方法與基于概率統(tǒng)計的方法相結(jié)合,對文檔構(gòu)件序列進行綜合判斷。

      2.2.3 統(tǒng)計與規(guī)則相結(jié)合的糾錯方法

      綜合上述方法,首先將流式文檔進行結(jié)構(gòu)識別以及構(gòu)件識別,得到一個文檔構(gòu)件序列C=U1U2...Ui...UN,將該序列對應的XML文件與2.1節(jié)所定義的Schema進行有效性驗證,再分析得到的錯誤信息。其中,若錯誤為2.2.1節(jié)中備選項集合中出現(xiàn)的屬于頭部元素的文檔構(gòu)件Ui,則嘗試用備選項集合中的構(gòu)件進行替換;若錯誤為2.2.2節(jié)中屬于正文元素的具有接續(xù)關(guān)系的文檔構(gòu)件,則使用規(guī)則的方法進行糾錯;糾錯完成后,再次進行Schema驗證,若仍存在錯誤信息則繼續(xù)對文檔構(gòu)件進行糾錯,直至到達所設置的循環(huán)次數(shù),或者驗證通過,則算法結(jié)束。

      2.3 基于規(guī)則的編號查錯方法

      2.3.1 編號分類

      文檔中經(jīng)常出現(xiàn)編號錯誤,與其他構(gòu)件不同,編號錯誤比較適合采用基于規(guī)則的方法進行糾錯。將編號種類分為標題標號、公式編號以及列表編號。各類編號的典型形式如表5所示。

      表5 三類編號的一般形式

      2.3.2 編號獲取

      要對編號進行查錯,首先要獲取編號。而文檔中編號方式分為兩種:手動編寫編號與自動編寫編號。不同的編號方式需要采用不同的方式獲取編號。本文通過Word對象模型中的列表項屬性來判斷編號的編寫形式。如果是手動編寫的編號,可以利用正則表達式來匹配編號信息;如果是自動編寫的編號,則可以通過列表項屬性將編號的各項信息提取出來。部分編號的正則表達式如表6所示。

      2.3.3 編號查錯算法

      獲取到編號信息后,首先要對信息進行整理。為此定義了兩個用于描述編號信息的集合。

      定義1編號集合(NS,number set),是編號描述信息的集合。其中,ns∈NS為編號項。編號擁有一個屬性集合,為NP(number property)。

      表6 編號正則表達式

      定義2編號屬性集合NP,主要描述所獲得的編號的各種屬性信息。表7為編號屬性集合中的概念及其含義。

      表7 編號屬性

      在獲取到編號后,將編號列表作為編號查錯算法的輸入,通過判斷編號的類型,決定采用哪種編號查錯方法。例如,若編號類型為公式編號,則采用公式編號的查錯方法;若編號類型為列表編號,則采用列表編號的查錯方法;而對于標題編號,當存在多個層級的編號時,需要將各級編號進行分割,逐一判斷。例如,對于標題編號1.2.3,存在三級編號,需要將三級編號分割為3個數(shù)值1、2、3后再依次判斷。對編號的檢查完畢后,輸出編號的錯誤信息。

      3 實驗

      3.1 實驗數(shù)據(jù)及評測方法

      本文的文檔語料庫收集了100篇來自某學報已經(jīng)發(fā)表的學術(shù)論文的初稿。實驗采用的評價指標為準確率、召回率和F度量,三者的定義如下:

      (6)

      (7)

      (8)

      除此之外,本研究還根據(jù)查錯結(jié)果進行了一定程度的糾錯,糾錯以批注的方式在原文檔中給出相應建議。對糾錯建議進行評價的指標使用的是糾錯準確率(CorrectingRate),定義如下:

      (9)

      3.2 實驗結(jié)果及分析

      以一篇文檔為例,圖1為文檔構(gòu)件查錯糾錯示例,圖2為編號查錯示例。

      表8為文檔構(gòu)件查錯糾錯實驗結(jié)果。除內(nèi)容構(gòu)件誤用錯誤類型糾錯準確率為90%外,其他6種錯誤類型的糾錯準確率可以達到100%。

      表8 文檔構(gòu)件查錯糾錯實驗結(jié)果 %

      表9為文檔構(gòu)件編號查錯實驗結(jié)果。在針對5種錯誤類型的編號查錯中,除標題編號順序錯誤的糾錯率為80%外,其他錯誤類型的糾錯準確率都可以達到100%。

      表9 文檔構(gòu)件編號查錯實驗結(jié)果 %

      本文方法在各種錯誤類型的查錯中,糾錯準確率都可以達到80%以上,但絕大部分召回率偏低。針對召回率偏低的原因進行分析可知:首先,學術(shù)論文格式多樣,可能無法檢查到不在規(guī)則范圍內(nèi)的錯誤;其次,本研究的實驗語料庫是基于文檔結(jié)構(gòu)識別的結(jié)果,文檔結(jié)構(gòu)識別的差錯會影響糾錯的結(jié)果。例如文檔結(jié)構(gòu)識別可能將表題識別成文本段,這將影響后續(xù)對表題的查錯與糾錯,降低召回率。

      4 結(jié)束語

      本文提出了一種文檔構(gòu)件查錯糾錯方法:利用Schema對文檔局部構(gòu)件進行語法檢查,根據(jù)得到的錯誤信息,采用統(tǒng)計與規(guī)則相結(jié)合的方法得出糾錯建議;針對文檔局部構(gòu)件,采用統(tǒng)計與規(guī)則相結(jié)合的方法進行糾錯;針對文檔標題、公式以及列表的編號采用規(guī)則的方式進行糾錯。該方法在100篇的實驗數(shù)據(jù)集上總體準確率接近100%,F(xiàn)度量總體可以達到70%以上。

      本文方法只針對文檔的局部構(gòu)件查錯,針對文檔全局邏輯結(jié)構(gòu)的查錯與糾錯,采用了基于語法的方法,不在本文展開。針對目前本方法存在的召回率較低的問題,將嘗試構(gòu)造更多的規(guī)則應用于文檔構(gòu)件的查錯中,例如,針對不同類型的文檔構(gòu)建針對性的糾錯規(guī)則;同時采用更好的文檔結(jié)構(gòu)識別模型。

      猜你喜歡
      文檔構(gòu)件錯誤
      在錯誤中成長
      有人一聲不吭向你扔了個文檔
      建筑構(gòu)件
      建筑構(gòu)件
      基于RI碼計算的Word復制文檔鑒別
      建筑構(gòu)件
      建筑構(gòu)件
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      不犯同樣錯誤
      《錯誤》:怎一個“美”字了得
      短篇小說(2014年11期)2014-02-27 08:32:41
      阳朔县| 秀山| 阿荣旗| 康马县| 阿勒泰市| 珠海市| 建阳市| 柏乡县| 金昌市| 罗田县| 宁晋县| 邳州市| 华池县| 阳东县| 昌都县| 定结县| 缙云县| 会宁县| 南宁市| 苏尼特左旗| 东丽区| 泽库县| 宁武县| 平武县| 克什克腾旗| 韩城市| 浠水县| 浦北县| 正镶白旗| 长乐市| 金秀| 天等县| 左贡县| 鄂伦春自治旗| 安吉县| 沅江市| 延吉市| 正阳县| 罗平县| 蓝田县| 同德县|