摘 要:電力標準規(guī)范是電力行業(yè)知識和信息的主要載體,也是豐富的知識寶庫。對標準的有效處理與深度挖掘對于電力知識管理和決策支持具有至關重要的作用。為了順應標準數(shù)字化的潮流,對于電力行業(yè)標準進行結構化的技術研究勢在必行。另一方面,電力行業(yè)標準文檔具有結構明確、內容清晰,用語簡介等特點,適合進行結構化加工、信息抽取和知識工程的加工處理。因此,本文面對行業(yè)標準特征和電力業(yè)務的具體需求,提出了電力行業(yè)標準規(guī)范的自動結構化加工的技術,并針對網絡安全領域進行結構化加工的訓練和驗證。
關鍵詞:技術標準,結構化加工
0 引 言
文檔結構化技術是指通過對文檔內容進行分析和處理,將無結構的文檔轉化為結構化數(shù)據的一種技術。它可幫助我們更好地理解文檔的內容和關系,提供更高效、準確的信息檢索和管理功能。對于電力標準文檔而言,文檔的結構化指的是通過對標準的PDF文件進行識別、抽取、標注等信息加工,生成分類明確、結構清晰、索引規(guī)范的結構化信息。
相比于非結構化文本,結構化后的信息具有兩個主要優(yōu)勢:增強人類閱讀理解和實現(xiàn)機器可讀。對讀者來說,結構化可以降低理解難度,簡化檢索過程,增進閱讀效率;對機器來說,通過對各種信息的分類、標注和抽取,來實現(xiàn)各種模型于數(shù)據的對接;同時,結構化也使得進一步的利用加工成為可能,包括但不限于文本處理、機器學習,以及大模型訓練和知識圖譜構建。
電力領域的專用工具缺失是目前電力行業(yè)業(yè)界面臨的主要問題,通用的結構化工具并不能滿足電力行業(yè)對結構化加工的具體需求。另一方面,為了數(shù)據安全和技術獨立,應減少對“黑盒”網絡服務平臺和相關API的依賴,開發(fā)自研的、可以本地離線運行、可以獨立部署的結構化工具。因此本文提出了針對電力行業(yè)標準的結構化加工實現(xiàn)方案。
1 研究現(xiàn)狀
結構化知識抽取研究主要包括實體識別、版式識別。
版式識別方面,比較常見的有基于連通域的版面分割算法、游程碼平滑分割算法、基于圖像背景的分割算法、紋理分析算法[1-4]。
實體識別方面Zhang 等人[5]首先提出了一種名為Lattice-LSTM 的結構用于中文命名實體識別任務,該模型對 LSTM 進行了改進,將單一字符匹配的詞語編碼為有向無環(huán)圖,利用了詞匯信息,在各個數(shù)據集上取得了較為不錯的結果;Ma 等人[6]借鑒了 Lattice-LSTM 中結合詞匯的思想,在嵌入層引入詞匯集合,融合了詞級信息,減少信息損失,進一步提升了結果;Li 等人[7]將 Transformer 結構應用于中文命名實體識別任務中,利用其位置編碼重構 Lattice 結構,因此融合詞匯信息的 Transformer結構既能憑借全連接自注意力結構捕捉上下文中的長距離依賴信息,又能借助全新的位置編碼方式更高效地定位實體邊界。隨著以 BERT[8]為代表的預訓練語言模型的發(fā)布,其已在諸多下游任務中取得了極佳的結果。
2 系統(tǒng)設計
2.1 總體思路
本文結合版式識別、模式識別與語義標注技術,通過將標準文檔的結構化過程視為對文檔內容組件的識別與標注任務,構建了電力專業(yè)標準結構化加工模型。該模型以電力行業(yè)標準的pdf文檔為輸入,通過對文檔的內容識別與標注,形成結構化、語義化信息,并最終以XML、JSON、Markdown等形式輸出。
2.2 系統(tǒng)框架設計
本文設計的結構化加工工具主要流程包括以下幾個部分:(1)PDF文檔信息提取,(2)文本信息處理,(3)多模態(tài)信息的提取和處理:包括圖片信息和表格信息,(4)對不同元素的結構功能識別,(5)知識加工與信息再組織,(6)以XML為例的結構化信息輸出。系統(tǒng)整體流程如圖1所示。
2.3 系統(tǒng)關鍵技術
2.3.1 文本信息處理
本文設計的文本信息處理方法主要包括3個部分,段落結構識別、標題識別、標題與正文的對應關系識別。
(1)段落結構識別
在PDF文件中,每個單獨的字都被視為一個獨立單元,因此,文本信息加工的第一步是將獨立單元的文字根據位置信息組成“行”,再組成“段”。
1)行結構判定
本文中行結構判定的實現(xiàn)邏輯為,針對相鄰的一組字符元素,進行“一組文字是否給構成一行”的判別任務。通過基于規(guī)則或機器學習的方式,判斷一組文字的排列方式(表現(xiàn)為每個文字的橫坐標和縱坐標的特征)是否滿足篇章排版中作為一行文字的判斷標準。本文中使用的判斷規(guī)則為:①文字的上邊界和下邊界分別在相同的橫坐標上(誤差不超過3dpi)。② 縱坐標的差值統(tǒng)一且小于某一閾值。
2)段落結構判別
本文采用了基于規(guī)則的判別方法,即針對每一行文字,判斷該文字是否具有首行、末行以及中間行特征,并根據首行、末行以及中間行的判定組成段落結構。具體規(guī)則為:①是否由首行的4字符長度的縮進;②是否由句號或分號結尾;③行右端是否達到了頁面排版范圍的邊界。
(2)標題識別
本文的采用了基于內容的判斷方式。
1)通過目錄頁抽取一級標題,形成一級標題列表,并逐項進行比對。
2)二級及以上的標題通過內容的正則表達進行判斷:即是否由【數(shù)字-點-數(shù)字】(如3.3)的形式開頭,且該行結尾沒有標點。
3)通過【數(shù)字-點】的數(shù)量判斷標題等級。
(3)標題與正文的對應關系識別
本文中標題與正文的對應關系識別通過被識別為標題的段落塊的坐標信息與被識別為正文的段落塊信息之間的相對位置關系進行對應關系識別。即,縱坐標在第一個標題下,和第二個標題之上的段落塊被認定為第一個標題下的正文內容。
2.3.2 表格信息提取
在本文中表格信息提取分為表格識別和表頭識別。
(1)表格識別
本文使用pdfplumber和tabula工具進行表格信息的抽取。抽取的邏輯是:對于任何給定的PDF頁面,找到(a)明確定義和/或(b)由頁面上的單詞對齊所暗示的行。然后找到合并重疊或幾乎重疊的線,并求出所有這些直線的交點。再根據交點找到使用這些交點作為頂點的最細粒度的矩形集合(即單元格),最后將連續(xù)的單元格分組到表中。
(2)表頭識別
對表格前后的文本進行正則判斷:利用表頭的特殊格式,即“表+編號+空格”,以及特殊格式(居中)進行抽取。同時考慮了跨頁處理。
(3)表格內容識別
分塊識別表格內的文字并統(tǒng)一輸出成表格型數(shù)據進行儲存。
2.3.3 圖片信息提取
本文設計的圖片提取方法包括圖片提取和圖片名稱提取兩個部分。
(1)圖片提取
本文使用spire.pdf和pymupdf工具進行提取。通過對每一頁應用圖片提取算法,按順序抽取出pdf的圖片及其坐標。
(2)圖片采用類似表頭識別的判定方法,對與表格相距最近的段落塊進行判定。
2.3.4 元數(shù)據識別
本文根據各類元數(shù)據信息的內容特征、位置信息和字體格式信息進行綜合判斷及抽取。表1所示是封面、前言涉及到的元數(shù)據信息的內容特征。
2.3.5 結構功能識別
對每一頁中的每一個元素進行結構功能識別的各項判定,根據不同的信息在文檔中的位置信息和內容特征、以及抽取的字體信息,進行“學習”的方式,判定其結構功能,并通過標簽的形式,將該元素/信息單元在篇章結構中的版式功能進行標注。在完成所有頁的所有元素的結構功能識別后,再根據各元素的標簽進行整理和再組織。具體如圖2所示。
2.4 系統(tǒng)驗證和應用
本文選取了網絡安全領域的4個標準PDF文檔進行加工實驗:Q/GDW 10597-2022《應用軟件系統(tǒng)通用安全技術要求及測試規(guī)范》、Q/GDW11445-2022《管理信息系統(tǒng)安全基線要求》、Q/GDW 10929.5-2018《信息系統(tǒng)應用安全 第5部分:代碼安全檢測》和Q/EPRI 075-2016《國家電網公司移動應用軟件安全技術要求及測試方法》。具體測試結果如表2所示。
從實驗結果可以看出,在結構化加工各功能模塊的準確率均在85%以上,其中圖片提取準確率達到100%。
3 總 結
標準文本數(shù)據是標準數(shù)字化研究的樣本基礎,有了詳實有效的數(shù)據才能更好地開展標準數(shù)字化研究,本文根據電力技術標準的特點設計了一種結構化加工工具,該工具為后續(xù)標準數(shù)字化的研究提供了有效的標準文本數(shù)據支撐。
參考文獻
參考文獻
[1]Mi n g Y U,Q ia n G , D on g z hu a n g W, et a l . I mpr ove d connectivity-based layout segmentation method[J ].Computer Engineering&Applications,2013.
[2]O Mccallister W,Hung C C.Image segmentation using dynamic run-length coding technique[J].2003.
[3]Yong Z,Jianzheng Y,Hongzhe L,et al. GrabCut image segmentation algorithm based on structure tensor[J].The Joournal of China Universitites of Posts and Telecommunic ations,2017(02):42-51.
[4]Argenti F,Alparone L .Benelli G.Fast algorithms for texture analysis using co-occurrence matrices[J].IEE Processing,1990,137(6):443
[5]Zhang Y, Yang J. Chinese NER Using Lattice LSTM[C].Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).2018:1554-1564.
[6]Ma R, Peng M, Zhang Q, et al. Simplify the Usage of Lexicon in Chinese NER[C].Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2020: 5951-5960.
[7]Li X, Yan H, Qiu X, et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C].Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2020: 6836-6842.
[8]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirect iona l Tra nsfor mer s for L a ng ua ge Understanding[C]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,Volume 1 (Long and Short Papers). 2019: 4171-4186.
基金項目:本文是國家電網有限公司指南項目“標準文本資源及關鍵要素統(tǒng)一構建技術研究”(項目編碼5216A624000B)研究成果。