• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多模態(tài)公文的結(jié)構(gòu)知識(shí)抽取與組織研究

      2022-06-25 13:16:48徐瑞麟耿伯英劉樹衎
      關(guān)鍵詞:知識(shí)結(jié)構(gòu)文檔模態(tài)

      徐瑞麟, 耿伯英, 劉樹衎

      (1. 海軍工程大學(xué)電子工程學(xué)院, 湖北 武漢 430033; 2. 中國(guó)人民解放軍91001部隊(duì), 北京 100036;3. 東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 江蘇 南京 211189)

      0 引 言

      目前,以司法機(jī)器人等為代表的面向規(guī)范性文本的智能問答應(yīng)用實(shí)踐中,最普遍使用的方式是針對(duì)常見問題(frequently asked questions, FAQ)構(gòu)建問答對(duì),但所構(gòu)建的問答對(duì)難以涵蓋所有的問題。同時(shí),基于知識(shí)庫(kù)問答(knowledge based question answering, KBQA)的方法也存在解答效率低的問題。由于法律法規(guī)和政策文件等文檔數(shù)據(jù)條目清晰,法理邏輯和思想路線等內(nèi)涵蘊(yùn)藏于文檔結(jié)構(gòu)中,因此針對(duì)文檔的結(jié)構(gòu)知識(shí)抽取和組織研究成為了一個(gè)值得探索的方向。然而,此類文檔數(shù)據(jù)一般通過網(wǎng)頁(yè)、電子文檔、掃描件等非結(jié)構(gòu)化的形式被獲取到,如何將此類非結(jié)構(gòu)化文檔轉(zhuǎn)換成為結(jié)構(gòu)化的、層次邏輯清晰的文檔,成為了一個(gè)重要的研究課題。

      以知識(shí)圖譜為代表的知識(shí)網(wǎng)絡(luò)是最通用的知識(shí)結(jié)構(gòu)化表示形式,例如FreeBase、DBpedia和YAGO等。這些大規(guī)模知識(shí)庫(kù)一般通過實(shí)體識(shí)別和關(guān)系抽取等技術(shù),從文本中大量抽取“實(shí)體,關(guān)系,實(shí)體”的三元組知識(shí)而構(gòu)建。然而,此類知識(shí)圖譜往往存在關(guān)系稀疏、結(jié)構(gòu)上缺乏層次性等特點(diǎn),難以形成與人類知識(shí)組織相似的知識(shí)體系,無法針對(duì)智能問答等下游任務(wù)提供技術(shù)支撐。為解決三元組知識(shí)結(jié)構(gòu)邏輯性不強(qiáng)的問題,本文對(duì)文檔的結(jié)構(gòu)知識(shí)抽取與組織展開研究,將文檔各級(jí)標(biāo)題、摘要、作者、成文時(shí)間、文檔編號(hào)等要素稱為文檔的知識(shí)結(jié)構(gòu)要素。通過將上述文檔知識(shí)結(jié)構(gòu)要素按照文檔的結(jié)構(gòu)邏輯組織起來,更有利于厘清文檔知識(shí)的層次邏輯,并建立知識(shí)體系。

      在文檔的結(jié)構(gòu)信息抽取任務(wù)中,傳統(tǒng)方法大多面向文本單一模態(tài),采用基于規(guī)則的方法或基于自然語言處理(natural language processing, NLP)的方法實(shí)現(xiàn)。文獻(xiàn)[8]利用正則表達(dá)式實(shí)現(xiàn)對(duì)金融公告文檔中章節(jié)標(biāo)題的抽取。文獻(xiàn)[9]針對(duì)法律裁判文書構(gòu)建規(guī)則,將非結(jié)構(gòu)化的裁判文書轉(zhuǎn)換成結(jié)構(gòu)化的XML格式文檔。文獻(xiàn)[10]提出了一種基于雙向長(zhǎng)短記憶(bidirectional long short-term memory, BiLSTM)網(wǎng)絡(luò)和條件隨機(jī)域(conditional random field, CRF)模型的端到端模型,以從庭審筆錄中抽取證據(jù)信息。文獻(xiàn)[11]研究了利用命名實(shí)體識(shí)別和關(guān)系抽取方法從病歷中抽取結(jié)構(gòu)信息的方法。文獻(xiàn)[12]設(shè)計(jì)了一種結(jié)合規(guī)則和NLP模型的文檔結(jié)構(gòu)信息抽取方法。文獻(xiàn)[13]提出了一種基于隱馬爾可夫模型方法和深度神經(jīng)網(wǎng)絡(luò)的文檔版面分析方法。然而,這些文本模態(tài)的方法沒有考慮文檔的視覺特征,無法有效利用文檔標(biāo)題等視覺特征明顯的關(guān)鍵要素。

      視覺豐富文檔分析(visually-rich document analysis, VRDA)任務(wù)旨在對(duì)文檔頁(yè)面圖像或PDF文檔進(jìn)行分析,以識(shí)別文檔中的標(biāo)題、插圖、表格、公式等各類結(jié)構(gòu)要素。該任務(wù)與文檔的知識(shí)結(jié)構(gòu)抽取具有相似性。為了實(shí)現(xiàn)對(duì)視覺豐富文檔(visually-rich documents, VRDs)的結(jié)構(gòu)信息抽取,文獻(xiàn)[14]針對(duì)銀行文檔頁(yè)面提出了一種先進(jìn)行光學(xué)字符識(shí)別(optical character recognition, OCR),再通過NLP模型抽取文檔結(jié)構(gòu)信息的方法;文獻(xiàn)[15]提出了一種從VRDs中提取信息的通用方法,將文檔頁(yè)面分割為不同語義區(qū)域進(jìn)行信息抽取;文獻(xiàn)[16]提出了一種端到端的多模態(tài)全卷積網(wǎng)絡(luò);文獻(xiàn)[17]提出了結(jié)合文檔中文本與視覺信息的圖卷積模型;文獻(xiàn)[18]提出了大規(guī)模預(yù)訓(xùn)練語言模型與圖神經(jīng)網(wǎng)絡(luò)相結(jié)合的抽取方法。LayoutLM及其改進(jìn)模型則將文本模態(tài)和圖像模態(tài)結(jié)合起來,以更好地抽取文檔結(jié)構(gòu)信息。

      上述模型和方法大多聚焦于商業(yè)領(lǐng)域文檔,對(duì)公文這一具有規(guī)范成文規(guī)則且應(yīng)用廣泛的文檔類型鮮有研究。并且,目前的研究和應(yīng)用局限于抽取知識(shí)結(jié)構(gòu)要素,而沒有將知識(shí)結(jié)構(gòu)要素按照文檔的結(jié)構(gòu)邏輯組織起來。因此,為了解決知識(shí)結(jié)構(gòu)要素的抽取和組織中存在的問題,本文以公文為研究對(duì)象,構(gòu)建文本和圖像多模態(tài)公文文檔數(shù)據(jù)集,在文本模態(tài)通過構(gòu)建規(guī)則抽取知識(shí)結(jié)構(gòu)要素,在圖像模態(tài)利用目標(biāo)檢測(cè)和OCR抽取知識(shí)結(jié)構(gòu)要素;并提出多模態(tài)知識(shí)結(jié)構(gòu)要素抽取模型,將文本和圖像兩個(gè)模態(tài)的抽取結(jié)果綜合考慮,得到最終的抽取結(jié)果。本文利用所抽取出知識(shí)結(jié)構(gòu)要素的層次結(jié)構(gòu)特征,將非結(jié)構(gòu)化的公文文檔按結(jié)構(gòu)邏輯組織形成文檔結(jié)構(gòu)樹并構(gòu)建結(jié)構(gòu)化的文檔網(wǎng)絡(luò)。實(shí)驗(yàn)驗(yàn)證了對(duì)多模態(tài)文檔知識(shí)結(jié)構(gòu)要素抽取和組織的有效性。

      本文的主要貢獻(xiàn)如下:① 針對(duì)目前鮮有研究的公文結(jié)構(gòu)知識(shí)要素抽取問題,提出一個(gè)多模態(tài)公文結(jié)構(gòu)知識(shí)要素抽取模型;② 設(shè)計(jì)文檔結(jié)構(gòu)樹(document structure tree, DST)模型,將抽取的知識(shí)結(jié)構(gòu)要素組織形成結(jié)構(gòu)化圖網(wǎng)絡(luò);③ 構(gòu)建多模態(tài)公文文檔數(shù)據(jù)集,填補(bǔ)了多模態(tài)公文文檔的數(shù)據(jù)空白。

      1 多模態(tài)公文知識(shí)結(jié)構(gòu)要素抽取

      本文以公文為例(本文所稱公文,是指依據(jù)文獻(xiàn)[21-22]中的規(guī)定所擬制的機(jī)關(guān)公文),從文本和圖像兩個(gè)模態(tài)分析抽取公文知識(shí)結(jié)構(gòu)要素的方法。由于書籍、論文、技術(shù)報(bào)告和法律法規(guī)文檔中的知識(shí)結(jié)構(gòu)要素同樣具備與公文類似的規(guī)律性特征,因此也可以采用相同方法實(shí)現(xiàn)抽取。

      1.1 文本模態(tài)的知識(shí)結(jié)構(gòu)要素抽取

      文本模態(tài)的公文文檔知識(shí)結(jié)構(gòu)要素抽取,即從無結(jié)構(gòu)的公文文本中抽取“正文標(biāo)題、一級(jí)標(biāo)題、二級(jí)標(biāo)題、三級(jí)標(biāo)題、密級(jí)、緊急程度、發(fā)文機(jī)關(guān)標(biāo)志、發(fā)文字號(hào)、主送機(jī)關(guān)、抄送機(jī)關(guān)”等要素。由于公文文檔具有嚴(yán)格的成文標(biāo)準(zhǔn),因此可以通過建立規(guī)則實(shí)現(xiàn)知識(shí)結(jié)構(gòu)要素的抽取。

      1.1.1 公文知識(shí)結(jié)構(gòu)要素的規(guī)則分析

      文獻(xiàn)[21-22](以下簡(jiǎn)稱“《標(biāo)準(zhǔn)》”)對(duì)公文的各級(jí)標(biāo)題進(jìn)行了規(guī)定,這些標(biāo)題具備典型的上下級(jí)層次關(guān)系,且按照“數(shù)詞+特殊符號(hào)”的方式進(jìn)行編號(hào)。因此,通過分析這些編號(hào)模式并建立詞典(見表1),可以實(shí)現(xiàn)對(duì)一級(jí)、二級(jí)、三級(jí)標(biāo)題的識(shí)別。

      表1 公文各級(jí)標(biāo)題的編號(hào)方法

      此外,依據(jù)機(jī)關(guān)公文的行文和用語習(xí)慣,可以得到表2所示的公文常用的其他形式的各級(jí)標(biāo)題編號(hào)方法。

      表2 公文各級(jí)標(biāo)題的其他編號(hào)方法

      類似地,對(duì)于密級(jí)、緊急程度、發(fā)文字號(hào)、主送機(jī)關(guān)等其他各類結(jié)構(gòu)要素,從文本的角度看,可以分析和歸納為表3所示的識(shí)別規(guī)則。

      表3 公文知識(shí)結(jié)構(gòu)要素的抽取規(guī)則

      1.1.2 公文知識(shí)結(jié)構(gòu)要素的抽取流程

      (1) 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理包括文本清洗和文本分句兩個(gè)部分。文本清洗,即清除不符合格式規(guī)范的換行符、空符、縮進(jìn)和英文標(biāo)點(diǎn)等字符的過程。文本分句,首先以換行符為標(biāo)志,將文本所成自然段進(jìn)行分割并賦予標(biāo)簽,隨后在分段的基礎(chǔ)上,以中文常用句終標(biāo)點(diǎn)(如句號(hào)、感嘆號(hào)、省略號(hào)等)為標(biāo)志對(duì)段落進(jìn)行語句分割并賦予標(biāo)簽。數(shù)據(jù)預(yù)處理算法如算法1所示。

      算法 1 數(shù)據(jù)預(yù)處理輸入 公文文本數(shù)據(jù)Document輸出 賦標(biāo)簽的句子集Sentences1 lines ← readlines(Docunment)2 for line in lines do3 Paragraph ← line.strip(‘tab’)4 end for5 for para in Paragraph do6 Sentences←Paragraph[para].cut(punctuation)7 end for8 return Sentences

      通過數(shù)據(jù)預(yù)處理,使得整篇數(shù)據(jù)文本轉(zhuǎn)化為以句子為單位、每個(gè)句子由標(biāo)簽索引的自由文本集合={(,),(,),…,(,)},其中(,)表示文中每一個(gè)句子所被賦予的唯一標(biāo)簽,也即該句位于文中第自然段的第句。

      (2) 建立抽取規(guī)則

      由于《標(biāo)準(zhǔn)》在文本層級(jí)上對(duì)各級(jí)標(biāo)題的規(guī)定嚴(yán)格到了具體的字符級(jí)別,因此可以簡(jiǎn)單地認(rèn)定,對(duì)文本中的每個(gè)語句,僅需遍歷前文所構(gòu)建的標(biāo)題詞典,若存在匹配的文本對(duì)象,則記錄其所處級(jí)別和語句的坐標(biāo)位置。各級(jí)標(biāo)題識(shí)別算法如算法2所示。

      算法 2 各級(jí)標(biāo)題識(shí)別輸入 賦標(biāo)簽的句子集Sentences輸出 Sentencse中各級(jí)標(biāo)題的位置坐標(biāo)Position1 for paragraph in Sentences do2 for sentence in paragraph do3 for heading in Dictionary do4 if heading in sentence then5 Position←[Index(paragraph),Index(sentence)]6 end if7 end for8 end for9 end for

      算法2中Dictionary代表前述的5類標(biāo)題詞典;Index(·)函數(shù)的功能是返回當(dāng)前對(duì)象所在列表的標(biāo)號(hào)。

      在上述過程中,將識(shí)別得到的各級(jí)標(biāo)題整理得到兩種基本類型:一是具有明顯級(jí)別特征的一級(jí)、二級(jí)、三級(jí)和四級(jí)標(biāo)題,分別記錄于表Position_1,Position_2,Position_3,Position_4中;二是其他難以確定級(jí)別的標(biāo)題,記錄于表Position_0中。

      通過分析《標(biāo)準(zhǔn)》的具體規(guī)定,以及給出的若干樣例,分析考慮單署公文、聯(lián)署公文、信函、通知、命令等各類格式的盡可能多的成文情形,以及可能出現(xiàn)的識(shí)別歧義情況。因此,從標(biāo)點(diǎn)符號(hào)、縮進(jìn)、句長(zhǎng)、相對(duì)位置等方面入手,歸納建立文檔描述要素的識(shí)別規(guī)則。知識(shí)結(jié)構(gòu)要素的抽取算法如算法3所示。

      算法 3 知識(shí)結(jié)構(gòu)要素的抽取輸入 賦標(biāo)簽的句子集Sentences輸出 知識(shí)結(jié)構(gòu)要素集合{密級(jí)、緊急程度、發(fā)文字號(hào)、主送機(jī)關(guān)、抄送機(jī)關(guān)、正文標(biāo)題}1 for paragraph in Sentences do2 for sentence in paragraph do3 if “×密” in sentence then4 密級(jí) ← sentence5 end if6 if “×急” in sentence then7 緊急程度 ← sentence8 end if9 if “〔 ” in sentence and “〔 ” in sentence do

      10 if “簽發(fā)人:” in sentence do11 發(fā)文字號(hào) ← sentence[: sentence.find(“號(hào)”)]12 elif sentence.endswith(“號(hào)”) do13 發(fā)文字號(hào) ←sentence[sentence.rfind(“”)+1:]14 elif “” in sentence:15 發(fā)文字號(hào) ← sentence[: sentence.find(“”)]16 else 發(fā)文字號(hào) ← sentence17 end if18 end if19if (sentence.endswith(“:”) and Index(paragraph)<=8) or (“主送:” in sentence) do20 主送機(jī)關(guān) ← sentence21 end if22 if “抄送:” in sentence do23 抄送機(jī)關(guān)← sentence24 if 發(fā)文字號(hào) and 主送機(jī)關(guān) do # 判斷是否存在25 ifIndex(paragraph[Index(發(fā)文字號(hào))])

      算法3中find(·)函數(shù)的功能是返回左起第一個(gè)與對(duì)象字符匹配字符的標(biāo)號(hào),endswith(·)函數(shù)的功能是判斷字符串是否以對(duì)象字符結(jié)尾,rfind(·)函數(shù)的功能是返回右起第一個(gè)與對(duì)象字符匹配字符的標(biāo)號(hào),“”表示空格符。

      通過前述算法構(gòu)建的規(guī)則,對(duì)以句子為單位的公文字符串進(jìn)行操作,即可實(shí)現(xiàn)對(duì)符合《標(biāo)準(zhǔn)》規(guī)定的文檔知識(shí)結(jié)構(gòu)要素的抽取。

      1.2 圖像模態(tài)的知識(shí)結(jié)構(gòu)要素抽取

      人在判斷所閱讀的文本屬于何種類別時(shí),除了從語義上分析外,人的視覺也在文本閱讀中起到了直接作用。計(jì)算機(jī)在模擬人的閱讀過程時(shí),也可以模擬人的視覺角度對(duì)文檔進(jìn)行分析。

      在文本模態(tài),基于規(guī)則的抽取方法依賴于規(guī)范性的文本數(shù)據(jù),容錯(cuò)性能有限,尤其對(duì)于識(shí)別規(guī)則復(fù)雜的文檔描述要素,在文本數(shù)據(jù)存在不規(guī)范性的情況下,所構(gòu)建的規(guī)則無法保證知識(shí)結(jié)構(gòu)要素抽取的準(zhǔn)確性。同時(shí),文檔的字體、字號(hào)、文字顏色和相對(duì)位置特征無法通過文本表現(xiàn)出來,也就需要考慮在語義分析之外,加入視覺分析手段,以提升知識(shí)結(jié)構(gòu)要素抽取的容錯(cuò)能力。

      基于計(jì)算機(jī)視覺(computer visualization, CV)的知識(shí)結(jié)構(gòu)要素抽取,是OCR與目標(biāo)檢測(cè)兩類計(jì)算機(jī)視覺任務(wù)的組合應(yīng)用。具體而言,就是先通過目標(biāo)檢測(cè),判斷找到要素所在區(qū)域并判斷要素的類別,再?gòu)倪@些區(qū)域中識(shí)別出文檔要素所對(duì)應(yīng)的文本內(nèi)容。

      圖1是圖像模態(tài)的知識(shí)結(jié)構(gòu)要素抽取模型的基本結(jié)構(gòu),該模型由目標(biāo)檢測(cè)模塊和OCR模塊兩部分構(gòu)成。對(duì)于圖像模態(tài)的文檔數(shù)據(jù),例如文檔的掃描件或PDF格式的文檔,將其轉(zhuǎn)化為圖像處理。目標(biāo)檢測(cè)模塊使用目標(biāo)檢測(cè)算法YOLO v4網(wǎng)絡(luò)模型。YOLO v4充分借鑒了深度殘差網(wǎng)絡(luò)(deep residual network, ResNet)、稠密卷積網(wǎng)絡(luò)(dense convolutional network, DenseNet)和特征金字塔(featur pyramid networks, FPN)的思想,在識(shí)別準(zhǔn)確性和識(shí)別速度上都達(dá)到了目前目標(biāo)檢測(cè)領(lǐng)域的領(lǐng)先水平。OCR模塊使用經(jīng)漢字符和拉丁字符預(yù)訓(xùn)練的Tesseract-OCR開源識(shí)別引擎。

      圖1 圖像模態(tài)的知識(shí)結(jié)構(gòu)要素抽取模型Fig.1 Structural elements of knowledge extraction in image modal

      當(dāng)圖像模態(tài)的文檔數(shù)據(jù)輸入后,目標(biāo)檢測(cè)模塊進(jìn)行多目標(biāo)識(shí)別,輸出圖像中各目標(biāo)(文檔要素)的視覺特征向量=(,,,,,),其中表示目標(biāo)的要素類型標(biāo)簽,表示目標(biāo)屬于該類要素的概率,,,,是目標(biāo)所在位置的邊界框坐標(biāo),分別表示中心點(diǎn)(,),寬度和高度。隨后,OCR模塊將根據(jù)向量中的邊界框坐標(biāo)分割圖像區(qū)域,并按區(qū)域進(jìn)行OCR識(shí)別,讀出各要素的具體內(nèi)容。通過上述兩個(gè)模塊的操作,即得到了圖像模態(tài)的文檔數(shù)據(jù)中知識(shí)結(jié)構(gòu)要素的類型和文本內(nèi)容。

      1.3 多模態(tài)知識(shí)結(jié)構(gòu)要素抽取

      由于單一模態(tài)的抽取在面對(duì)不同類知識(shí)結(jié)構(gòu)要素時(shí)的效果表現(xiàn)存在優(yōu)劣差異,因此需要從兩個(gè)模態(tài)出發(fā),同時(shí)考慮兩個(gè)模態(tài)的抽取結(jié)果,補(bǔ)足單一模態(tài)抽取的容錯(cuò)性問題,以改善知識(shí)結(jié)構(gòu)要素的抽取質(zhì)量。

      圖2是基于跨模態(tài)分析的知識(shí)結(jié)構(gòu)要素抽取模型的總體結(jié)構(gòu),其中兩類知識(shí)結(jié)構(gòu)要素抽取模型分別對(duì)兩個(gè)模態(tài)的文檔數(shù)據(jù)進(jìn)行抽取,隨后綜合兩類模型對(duì)不同文檔要素的抽取能力,對(duì)兩類模型的抽取結(jié)果進(jìn)行綜合考量,通過訓(xùn)練得到?jīng)Q策表,利用決策表在不同情況下?lián)駜?yōu)采納,優(yōu)化知識(shí)結(jié)構(gòu)要素抽取結(jié)果。

      圖2 多模態(tài)的知識(shí)結(jié)構(gòu)要素抽取模型Fig.2 Multi-modal document knowledge structural elements extraction model

      對(duì)于知識(shí)結(jié)構(gòu)要素,設(shè)文本模態(tài)的抽取結(jié)果為One-Hot表示的向量_text,圖像模態(tài)的抽取結(jié)果為One-Hot表示的向量_image,若文檔知識(shí)結(jié)構(gòu)要素的總數(shù)為,要素類別總數(shù)為,則兩個(gè)模態(tài)抽取結(jié)果的所有可能組合共種。若設(shè)×2矩陣為決策矩陣,=[1,2]×2,其中每行表示一種抽取結(jié)果組合。設(shè)中第行表示“文本模態(tài)對(duì)要素的抽取結(jié)果為第類,圖像模態(tài)對(duì)同一要素的抽取結(jié)果為第類”的情況,其中=×。若文本模態(tài)的抽取結(jié)果正確而圖像模態(tài)的抽取結(jié)果不正確,則令1=1,2=0,反之則令1=0,2=1,若兩個(gè)模態(tài)的抽取結(jié)果均正確,則令1=2=05這樣,對(duì)于要素,兩個(gè)模態(tài)最終的抽取結(jié)果為=1_text+2_image。經(jīng)過一定樣本訓(xùn)練后得到后,對(duì)于輸入的兩個(gè)模態(tài)的抽取結(jié)果(第類和第類),只需查矩陣的第×行,加權(quán)求和即得最終的抽取結(jié)果。

      2 公文知識(shí)結(jié)構(gòu)要素的組織

      2.1 公文知識(shí)結(jié)構(gòu)要素組織問題分析

      前文構(gòu)建的知識(shí)結(jié)構(gòu)要素抽取模型實(shí)現(xiàn)了對(duì)文檔知識(shí)結(jié)構(gòu)要素類別的識(shí)別,但是并沒有明確要素之間,尤其是各級(jí)標(biāo)題之間的并列關(guān)系和包含關(guān)系,沒有形成層次性的文檔結(jié)構(gòu)。

      從人的行文和閱讀習(xí)慣出發(fā),要解決各級(jí)標(biāo)題之間的相互關(guān)系問題,僅需考慮各級(jí)標(biāo)題在全文中的出現(xiàn)順序。在屬于“包含”關(guān)系的各級(jí)標(biāo)題間,先出現(xiàn)的標(biāo)題級(jí)別一定高于后出現(xiàn)的標(biāo)題級(jí)別;在屬于“并列”關(guān)系的同級(jí)標(biāo)題間,在文中出現(xiàn)的先后順序亦可反映其關(guān)系。概括地說,就是通過各級(jí)標(biāo)題在文中出現(xiàn)的先后順序,解決屬于“包含”關(guān)系的各級(jí)標(biāo)題間的分級(jí)問題和屬于“并列”關(guān)系的各級(jí)標(biāo)題間的排序問題。

      算法1實(shí)現(xiàn)了將自由文本集合轉(zhuǎn)換成為具有“段落標(biāo)號(hào)+段內(nèi)分句標(biāo)號(hào)”標(biāo)簽結(jié)構(gòu)的句子集合。段落標(biāo)號(hào)越小,說明該句所在段落在前;段內(nèi)分句標(biāo)號(hào)越小,說明該句在段內(nèi)的順序在前。這種分句方式體現(xiàn)著明顯的先后關(guān)系,也就為解決文本結(jié)構(gòu)化問題提供了參考和依據(jù)。

      2.2 公文知識(shí)結(jié)構(gòu)要素組織的數(shù)學(xué)模型

      樹是不包含簡(jiǎn)單回路的無向或有向連通圖。有根樹是一個(gè)頂點(diǎn)被指定為根,每一條邊都指向遠(yuǎn)離或趨近根的方向的樹。排序有根樹是每個(gè)分支節(jié)點(diǎn)的所有子節(jié)點(diǎn)按照從左至右排序的有根樹。

      精確子圖枚舉樹(exact subgraph enumeration tree, ESU-Tree)是為解決網(wǎng)絡(luò)模體識(shí)別問題所設(shè)計(jì)的結(jié)構(gòu)模型。該模型用于搜索網(wǎng)絡(luò)中指定規(guī)模的子圖。由于ESU-Tree的結(jié)構(gòu)設(shè)計(jì)能夠較好地反映層次和結(jié)構(gòu)關(guān)系,因此在ESU-Tree的基礎(chǔ)上,本文針對(duì)文檔的層次化表示問題設(shè)計(jì)了一種樹形結(jié)構(gòu),該結(jié)構(gòu)在本文中稱為DST,如圖3所示。

      圖3 DST模型Fig.3 DST model

      DST是一顆有向有根樹,其特點(diǎn)如下:

      (1) 每個(gè)子代節(jié)點(diǎn)都指向各自的親代節(jié)點(diǎn);

      (2) 根節(jié)點(diǎn)位于第0層,全樹層數(shù)為4,深度為4,高度為5;

      (3) 第4層全為葉子結(jié)點(diǎn);

      (4) 節(jié)點(diǎn)具有權(quán)重而邊沒有權(quán)重,且節(jié)點(diǎn)權(quán)重由(前權(quán),后權(quán))兩部分組成,比較權(quán)重時(shí)優(yōu)先比較前權(quán),前權(quán)相等時(shí)比較后權(quán);

      (5) 左節(jié)點(diǎn)權(quán)重小于右節(jié)點(diǎn),親代節(jié)點(diǎn)權(quán)重小于子代節(jié)點(diǎn)。

      將一個(gè)節(jié)點(diǎn)的親代節(jié)點(diǎn)的同層右節(jié)點(diǎn)定義為該節(jié)點(diǎn)的右親節(jié)點(diǎn)。類似地,將一個(gè)節(jié)點(diǎn)的親代節(jié)點(diǎn)的同層左節(jié)點(diǎn)定義為該節(jié)點(diǎn)的左親節(jié)點(diǎn)。

      用表示親節(jié)點(diǎn),表示子節(jié)點(diǎn),LP標(biāo)志左親節(jié)點(diǎn),RP表示右親節(jié)點(diǎn),ST表示子樹,DST表示整顆DST,RST表示相對(duì)于ST的右子樹,表示標(biāo)題級(jí)別,用“←”表示“賦值為”weight(·)表示節(jié)點(diǎn)權(quán)重。顯然,分析DST的特點(diǎn),可以歸納出以下3條基本性質(zhì)。

      在DST的任意一顆子樹內(nèi),存在如下的權(quán)重關(guān)系:

      weight()

      對(duì)DST中的任意節(jié)點(diǎn)node,存在?node∈DST,?ST?DST,←Root(ST),RP←Root(RST)。若weight()

      對(duì)DST中的任意節(jié)點(diǎn)node,其層級(jí)歸屬滿足?node∈DST,?,,且=+1;若min weight()

      DST的建立順序和遍歷順序與中文閱讀順序一致,基本按照“根節(jié)點(diǎn)→相對(duì)左節(jié)點(diǎn)→相對(duì)右節(jié)點(diǎn)”的順序進(jìn)行。其建立問題可以抽象為下述的表示形式。

      已知:① 部分節(jié)點(diǎn)(各級(jí)標(biāo)題的節(jié)點(diǎn))所屬層;② 各節(jié)點(diǎn)權(quán)重。

      求解:① 各節(jié)點(diǎn)的親子關(guān)系;② 部分節(jié)點(diǎn)(其他標(biāo)題的節(jié)點(diǎn))歸屬。

      根據(jù)性質(zhì)1和性質(zhì)2所述規(guī)則,通過比較節(jié)點(diǎn)權(quán)重的大小關(guān)系,可以完成各級(jí)節(jié)點(diǎn)之間并列和歸屬關(guān)系的確定。需要注意的是,在比較權(quán)重時(shí),應(yīng)當(dāng)按照定義,優(yōu)先比較節(jié)點(diǎn)的前權(quán),也即節(jié)點(diǎn)標(biāo)簽的第一個(gè)坐標(biāo)值,當(dāng)前權(quán)相同時(shí),再比較第二個(gè)坐標(biāo)值。

      實(shí)際上,一個(gè)DST就是結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)的一個(gè)子網(wǎng),或是知識(shí)結(jié)構(gòu)要素圖譜(網(wǎng)絡(luò))中的一個(gè)子圖。在大量文檔數(shù)據(jù)支持的情況下,結(jié)合主題識(shí)別和關(guān)鍵詞抽取,通過DST(文檔子圖)的聚類,就具備了構(gòu)建大規(guī)模文檔知識(shí)網(wǎng)絡(luò)的基礎(chǔ)。

      2.3 公文知識(shí)結(jié)構(gòu)要素組織的數(shù)據(jù)結(jié)構(gòu)

      使計(jì)算機(jī)實(shí)現(xiàn)對(duì)文檔知識(shí)結(jié)構(gòu)要素的組織,需要考慮對(duì)前述DST模型的數(shù)據(jù)結(jié)構(gòu)進(jìn)行設(shè)計(jì)。而進(jìn)行設(shè)計(jì)的主要問題是要在計(jì)算機(jī)中實(shí)現(xiàn)“親節(jié)點(diǎn)<子節(jié)點(diǎn)<右親節(jié)點(diǎn)”的關(guān)系判定。要完成這一任務(wù),需要從左至右、自頂向下地訪問每個(gè)節(jié)點(diǎn),判斷左右級(jí)、上下級(jí)節(jié)點(diǎn)(子樹)之間的并列和包含關(guān)系。

      對(duì)于不等式“親節(jié)點(diǎn)<子節(jié)點(diǎn)<右親節(jié)點(diǎn)”,考慮條件不完備的情況,由于采用自頂向下遍歷,因而親節(jié)點(diǎn)一定在子節(jié)點(diǎn)之前得到訪問,即不等式左端一定成立,故僅需考慮右端條件不完備的情況,即右親節(jié)點(diǎn)(右子樹)不存在的情況。

      顯然,若采用分類討論方法,單獨(dú)為右親節(jié)點(diǎn)不存在的情況追加補(bǔ)充規(guī)則的成本較高,因此,考慮構(gòu)造使得不等式右端恒成立的條件以適應(yīng)原規(guī)則,而非建立新規(guī)則。為此引入絕對(duì)右子樹(absolute right subtree, ARS)的概念。

      ARS是根節(jié)點(diǎn)權(quán)重為充分大數(shù),子節(jié)點(diǎn)為空的DST。其實(shí)際上是所在層最右端的一個(gè)權(quán)重充分大的葉子節(jié)點(diǎn),只參與權(quán)重比較,但不會(huì)被訪問。

      由于第4層屬于四級(jí)標(biāo)題項(xiàng),均為葉子結(jié)點(diǎn),子樹為空,因此僅需在第1、2、3層建立ARS。并且,通過設(shè)置遍歷條件,可以使得ARS參加權(quán)重比較而不被訪問,這就解決了右親節(jié)點(diǎn)不存在的情況。

      例如,圖4所示的節(jié)點(diǎn)權(quán)重是2019年政府工作報(bào)告的文檔結(jié)構(gòu)要素所建立的DST的一部分。顯然,對(duì)于節(jié)點(diǎn)的所有子節(jié)點(diǎn)到,都沒有右親節(jié)點(diǎn),而使得性質(zhì)1不再成立。為了確保性質(zhì)1恒成立,則weight(ARS)應(yīng)當(dāng)是一個(gè)充分大數(shù)。本文將16進(jìn)制數(shù)0×3F3F3F3F設(shè)置為該充分大數(shù),該數(shù)值既避免了數(shù)據(jù)溢出,又與32位整型數(shù)據(jù)最大值0×7FFFFFFF同處于10量級(jí)。由于ARS的引入,使得子節(jié)點(diǎn)到的右親節(jié)點(diǎn)成為了,權(quán)重為充分大數(shù)0×3F3F3F3F;而其左親節(jié)點(diǎn)的權(quán)重為38;進(jìn)而使不等式38

      圖4 ARSFig.4 ARS

      因此,DST的最小數(shù)據(jù)單元就是一個(gè)包含根節(jié)點(diǎn)屬性和所有子節(jié)點(diǎn)屬性的結(jié)構(gòu)體,并通過遞歸定義,即可實(shí)現(xiàn)DST的構(gòu)建。

      3 多模態(tài)公文數(shù)據(jù)集構(gòu)建

      在VRDA任務(wù)中,目前已經(jīng)公開的單模態(tài)和多模態(tài)數(shù)據(jù)集主要集中在商業(yè)文檔和科學(xué)文獻(xiàn)數(shù)據(jù)上。文獻(xiàn)[29]構(gòu)建了一個(gè)圖像模態(tài)的大規(guī)模文檔數(shù)據(jù)集PubLayNet,文獻(xiàn)[30]構(gòu)建了一個(gè)多模態(tài)的科學(xué)文獻(xiàn)數(shù)據(jù)集DocBank。文獻(xiàn)[31]和文獻(xiàn)[32]中分別使用了各自獲得的圖像模態(tài)公文文檔,但并沒有將數(shù)據(jù)公開。因此,目前針對(duì)公文的公開多模態(tài)文檔數(shù)據(jù)集仍是一個(gè)空白。

      為了填補(bǔ)多模態(tài)公文文檔分析任務(wù)中的數(shù)據(jù)空白,并驗(yàn)證本文提出模型的有效性,本文從國(guó)務(wù)院政策文件庫(kù)以網(wǎng)頁(yè)文本格式獲取公文文檔,經(jīng)數(shù)據(jù)清洗后,設(shè)計(jì)符合《標(biāo)準(zhǔn)》規(guī)定的LaTeX模板并將無格式的網(wǎng)頁(yè)文本批量排版編譯為PDF文檔,隨后轉(zhuǎn)換為圖像模態(tài)的文檔數(shù)據(jù)。本文將構(gòu)建的多模態(tài)公文文檔數(shù)據(jù)集命名為GovDoc-CN,并將該數(shù)據(jù)集開源發(fā)布。流程如圖5所示。

      圖5 GovDoc-CN數(shù)據(jù)集的數(shù)據(jù)處理流程Fig.5 Data processing flow of GovDoc-CN

      本文共標(biāo)注了6 816個(gè)文檔頁(yè)面,“發(fā)文機(jī)關(guān)標(biāo)志、發(fā)文字號(hào)、正文標(biāo)題、主送機(jī)關(guān)、一級(jí)標(biāo)題、二級(jí)標(biāo)題、三級(jí)標(biāo)題、發(fā)文機(jī)關(guān)、成文日期和正文”10類共29 942個(gè)文檔知識(shí)結(jié)構(gòu)要素。數(shù)據(jù)集統(tǒng)計(jì)信息如表4所示。

      表4 數(shù)據(jù)集統(tǒng)計(jì)信息

      4 實(shí)驗(yàn)與分析

      4.1 公文知識(shí)結(jié)構(gòu)要素抽取

      本文中基于計(jì)算機(jī)視覺的文檔要素實(shí)體抽取,將YOLO v4模型的學(xué)習(xí)率設(shè)置為2e-5,Batchsize設(shè)置為64,迭代次數(shù)26 000,訓(xùn)練集包括4 090個(gè)文檔頁(yè)面,驗(yàn)證集包括2 045個(gè)文檔頁(yè)面,測(cè)試集包括690個(gè)文檔頁(yè)面。

      為評(píng)價(jià)模型的抽取效果,用TP表示“實(shí)際為正例,預(yù)測(cè)為正例”的數(shù)量;用FP表示“實(shí)際為負(fù)例,預(yù)測(cè)為正例”的數(shù)量;用FN表示“實(shí)際為正例,預(yù)測(cè)為負(fù)例”的數(shù)量;用TN表示“實(shí)際為負(fù)例,預(yù)測(cè)為負(fù)例”的數(shù)量。

      于是,定義模型的精確率為

      Precision=TP/(TP+FP)

      (1)

      定義模型的召回率為

      Recall=TP/(TP+FN)

      (2)

      模型的精確率反映了模型預(yù)測(cè)結(jié)果的準(zhǔn)確性,因此也稱查準(zhǔn)率。模型的召回率反映了模型預(yù)測(cè)全面性,因此也稱查全率。

      為了使用一個(gè)綜合考慮“查準(zhǔn)”與“查全”的指標(biāo),本文使用1分?jǐn)?shù)評(píng)估抽取模型的效果,其計(jì)算方法為

      (3)

      在同一測(cè)試集下,基于規(guī)則的知識(shí)結(jié)構(gòu)要素抽取方法和基于計(jì)算機(jī)視覺的知識(shí)結(jié)構(gòu)要素抽取方法取得的結(jié)果如表5所示。

      表5 知識(shí)結(jié)構(gòu)要素抽取結(jié)果

      在表5中,A表示方法1為基于規(guī)則的抽取方法;B表示方法2為基于計(jì)算機(jī)視覺的抽取方法;C表示方法3為方法1與方法2的組合運(yùn)用。

      通過表5可知,基于規(guī)則的抽取方法(文本模態(tài))和基于計(jì)算機(jī)視覺的抽取方法(圖像模態(tài))在知識(shí)結(jié)構(gòu)要素抽取上的效果表現(xiàn)互為補(bǔ)充。在1分?jǐn)?shù)表現(xiàn)上,多模態(tài)抽取方法相比文本或圖像單一模態(tài)的抽取方法分別提升了10.80%和10.83%,各類要素的抽取效果也為最優(yōu),證明了本文所提出的多模態(tài)文檔知識(shí)結(jié)構(gòu)要素抽取方法的有效性,與單一模態(tài)的抽取方法相比具有明顯的效果提升。

      4.2 公文知識(shí)結(jié)構(gòu)要素的組織與管理

      本文從GovDoc-CN數(shù)據(jù)集中隨機(jī)選擇了1 000篇公文文檔,利用第2節(jié)提出的知識(shí)結(jié)構(gòu)要素組織方法,將每篇文檔抽取的知識(shí)結(jié)構(gòu)要素組織形成DST,再將DST利用“發(fā)文機(jī)關(guān)”建立文檔關(guān)聯(lián),最后存儲(chǔ)至Neo4j數(shù)據(jù)庫(kù)中,得到了如圖6所示的結(jié)構(gòu)化文檔知識(shí)網(wǎng)絡(luò)。該網(wǎng)絡(luò)共包含22 377個(gè)節(jié)點(diǎn)(要素實(shí)體), 22 621條邊(要素實(shí)體間關(guān)系)。

      利用圖數(shù)據(jù)庫(kù)管理系統(tǒng),可以對(duì)構(gòu)建的結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)進(jìn)行管理。例如,用戶使用Cypher語句:

      MATCH (:發(fā)文機(jī)關(guān){name:“科技部”}) RETURN

      其中,為“發(fā)文機(jī)關(guān)”。即可查詢到圖7所示的共33篇科技部發(fā)文。類似地,利用Neo4j等圖數(shù)據(jù)庫(kù)管理系統(tǒng),可以通過創(chuàng)建、刪除、合并實(shí)體和關(guān)系等操作,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)中結(jié)構(gòu)要素實(shí)體以及它們之間關(guān)系的管理。

      圖6 大規(guī)模DSTs構(gòu)建的文檔網(wǎng)絡(luò)Fig.6 Document network built from large scale DSTs

      圖7 以“科技部”為關(guān)鍵詞檢索到的文檔Fig.7 Documents retrieved with the keyword “Ministry of Science and Technology”

      綜上所述,本文通過對(duì)文檔知識(shí)結(jié)構(gòu)要素的抽取、組織和管理設(shè)計(jì)并進(jìn)行實(shí)驗(yàn),證明了本文提出的多模態(tài)抽取方法的有效性;通過構(gòu)建公文文檔的結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò),分析了本文提出的DST模型在知識(shí)組織和管理方面進(jìn)行應(yīng)用的可行性和有效性。

      5 結(jié) 論

      本文以公文為例,提出了從多模態(tài)文檔中抽取知識(shí)結(jié)構(gòu)要素并組織生成結(jié)構(gòu)化知識(shí)圖的方法。在文本模態(tài),本文針對(duì)公文文檔的擬制標(biāo)準(zhǔn)和行文特點(diǎn),提出了公文知識(shí)結(jié)構(gòu)要素的抽取規(guī)則,實(shí)現(xiàn)了對(duì)公文文檔中知識(shí)結(jié)構(gòu)要素的抽取。在圖像模態(tài),本文利用目標(biāo)檢測(cè)和OCR方法,對(duì)基于規(guī)則抽取方法的短板弱項(xiàng)進(jìn)行補(bǔ)足。同時(shí),本文提出了一個(gè)多模態(tài)文檔知識(shí)要素抽取框架,利用決策表實(shí)現(xiàn)多模態(tài)知識(shí)結(jié)構(gòu)要素抽取結(jié)果的擇優(yōu)。經(jīng)實(shí)驗(yàn)驗(yàn)證,多模態(tài)抽取方法在1分?jǐn)?shù)上從單一模態(tài)的0.835 0和0.834 7提升到了0.943 0。同時(shí),本文提出了DST模型,按照文檔的結(jié)構(gòu)邏輯實(shí)現(xiàn)了對(duì)知識(shí)結(jié)構(gòu)要素的組織,并將得到的結(jié)構(gòu)化文檔輸入圖數(shù)據(jù)庫(kù)進(jìn)行管理。實(shí)驗(yàn)結(jié)果證明,本文提出的知識(shí)結(jié)構(gòu)要素抽取與組織方法具有良好的效果表現(xiàn),在解決目前基于三元組知識(shí)構(gòu)建的知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)邏輯性弱的問題,以及文檔智能問答、公文自動(dòng)化管理等方面具有重要的研究和應(yīng)用價(jià)值。

      猜你喜歡
      知識(shí)結(jié)構(gòu)文檔模態(tài)
      有人一聲不吭向你扔了個(gè)文檔
      把握核心概念 優(yōu)化知識(shí)結(jié)構(gòu)
      物理之友(2020年12期)2020-07-16 05:39:18
      我國(guó)正當(dāng)防衛(wèi)研究的網(wǎng)絡(luò)知識(shí)結(jié)構(gòu)與核心脈絡(luò)
      法大研究生(2019年2期)2019-11-16 00:39:26
      概率統(tǒng)計(jì)知識(shí)結(jié)構(gòu)與方法拓展
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      基于九因子模型的新手教師TPACK知識(shí)結(jié)構(gòu)分析
      國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
      由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
      吉木乃县| 丹凤县| 淮南市| 梨树县| 镇巴县| 新化县| 永春县| 英吉沙县| 罗源县| 视频| 团风县| 山西省| 梓潼县| 乌恰县| 聂拉木县| 丹江口市| 霸州市| 长宁区| 海淀区| 六盘水市| 政和县| 常熟市| 临沧市| 武功县| 八宿县| 台中市| 安新县| 西青区| 中江县| 酉阳| 屯昌县| 漠河县| 临泽县| 新巴尔虎右旗| 沧州市| 南投市| 淮滨县| 勐海县| 准格尔旗| 石台县| 田东县|