• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種面向自動(dòng)化標(biāo)檢的文本分類方法

      2020-11-26 07:41:56郭澤焦倩倩
      現(xiàn)代防御技術(shù) 2020年5期
      關(guān)鍵詞:貝葉斯段落文檔

      郭澤,焦倩倩

      (北京電子工程總體研究所,北京 100854)

      0 引言

      文檔是用戶與產(chǎn)品之間最直接的橋梁,它有助于軟件人員設(shè)計(jì)程序,有助于管理人員監(jiān)督和管理產(chǎn)品,有助于維護(hù)人員進(jìn)行有效的修改和改進(jìn),更是用戶對(duì)產(chǎn)品功能、使用方式等各方面進(jìn)行了解的最主要方式,其質(zhì)量十分重要。在軍用領(lǐng)域,研試文件、設(shè)計(jì)文件、軟件文件等等一系列文檔貫穿整個(gè)產(chǎn)品周期,其質(zhì)量的好壞對(duì)產(chǎn)品的研制、試驗(yàn)等過程有著極其重要甚至決定性作用[1]。同時(shí),文檔作為向用戶展示成果的最直接窗口,其質(zhì)量更是反映了一個(gè)企業(yè)的文化。一份完美的文檔能夠讓人看出企業(yè)工作的嚴(yán)謹(jǐn)態(tài)度,而一份錯(cuò)漏百出的文檔甚至?xí)钣脩羰?duì)企業(yè)的信心。

      文檔的質(zhì)量已經(jīng)引起各軍工企業(yè)的重視,對(duì)文檔質(zhì)量開展的各類評(píng)審、審查等工作使文檔的質(zhì)量大幅提高。然而目前對(duì)文檔的格式、內(nèi)容的審查均完全依靠人工進(jìn)行審查,審查效率不高,且受審查人水平、勞累程度等主觀因素影響較大。文檔的質(zhì)量即使經(jīng)過審查,也往往出現(xiàn)質(zhì)量參差不齊的情況。開展自動(dòng)化標(biāo)檢技術(shù)研究,降低人力資源消耗,提高文檔產(chǎn)品質(zhì)量十分重要。對(duì)文檔的自動(dòng)化標(biāo)檢實(shí)際是一種大規(guī)模文本的處理技術(shù),其過程可分解為文本識(shí)別、文本標(biāo)檢和文本處理,其中最為核心的技術(shù)在于對(duì)文本的識(shí)別,即文本分類技術(shù)[2]。

      1 基于機(jī)器學(xué)習(xí)的文本分類方法

      文本分類是處理和組織大規(guī)模文本數(shù)據(jù)的關(guān)鍵技術(shù),目前正廣泛的應(yīng)用于搜索引擎、快速資料分檢、自動(dòng)文摘、信息資料推送等領(lǐng)域[3]。自20世紀(jì)90年代以來,隨著信息存儲(chǔ)技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展,機(jī)器學(xué)習(xí)逐漸取代了傳統(tǒng)的知識(shí)工程,成為文本分類的主流技術(shù)?;跈C(jī)器學(xué)習(xí)的文本分類方法一般采用向量空間模型[4],該模型包含3個(gè)關(guān)鍵技術(shù):特征選擇、特征權(quán)重估算和文本分類器。特征選擇是從原始特征集合中選擇一部分特征組成分類集合,最終得到原始特征集合的一個(gè)真子集,從而達(dá)到降低原始特征空間維度的目的。特征的權(quán)重反映了該特征對(duì)于標(biāo)識(shí)文本內(nèi)容的貢獻(xiàn)度和文本之間的區(qū)分度。分類器則用于依據(jù)特征的權(quán)重,采用一定的模型對(duì)文本實(shí)施分類。常用的分類器包括樸素貝葉斯[5]、最近鄰分類算法(K-nearest neighbor,KNN)[6]和支持向量機(jī)(support vector machine,SVM)[7],這幾類分類器在特定的領(lǐng)域均有較好的應(yīng)用。

      與傳統(tǒng)的文本分類問題不同,自動(dòng)化標(biāo)檢領(lǐng)域的文本分類的基本單位為段落,特征向量除了文本外,段落的格式同樣是決定其分類的重要特征[8]。其各類格式特征和文本特征均是相互獨(dú)立的,這使得其非常適合采用樸素貝葉斯算法作為分類器[9]。由于需要進(jìn)行分類的樣本往往具有極強(qiáng)的樣本傾斜性,某一類的數(shù)量(如正文)十分多,因此KNN算法不適用。此外,文本的編寫中容易出現(xiàn)較多低級(jí)問題,使得某些特征具有一票否決的特性,支持向量機(jī)的核函數(shù)構(gòu)造較為困難。綜合考慮,采用樸素貝葉斯算法作為自動(dòng)化標(biāo)檢的段落分類器。

      2 分類模型與特征選取

      設(shè)計(jì)一種改進(jìn)的樸素貝葉斯分類算法用于段落分類。定義事件Ai為段落為第i類,事件Bj表示段落有特征j,則段落可用特征向量X={B1,B2,…,Bj}表示。已知段落全部特征B1到Bj時(shí),根據(jù)貝葉斯公式,段落具有B1到Bj特征的條件下為類型i的概率為

      由于各個(gè)特征相互獨(dú)立,根據(jù)全概率公式,得到

      不失一般性,對(duì)于任意一個(gè)段落,在不添加任何前置條件的情況下,P(X)對(duì)于所有類為常數(shù),公式進(jìn)一步變?yōu)?/p>

      可以看出,任意段落為某一類型的概率與以下2類概率直接相關(guān)。

      (1) 段落為類型i的先驗(yàn)概率[10]P(Ai);

      (2) 段落為類型i時(shí)具有特征Bj的概率P(Bj|Ai)。對(duì)于任意一個(gè)段落,在書寫過程中均可能出現(xiàn)特征與預(yù)期不符的情況。將P(Bj|Ai)拆分為類型i的特征符合要求和不符合要求2種情況。

      定義P0表示先驗(yàn)概率,Pj表示特征j符合類型i的值。假設(shè)某段落的特征2不符合類型i,其余特征均符合,則段落為類型i的概率為

      根據(jù)上述公式,段落的分類概率與P0到Pj直接相關(guān),選取合理的特征將大幅提升識(shí)別的準(zhǔn)確性。將特征分為格式特征和文本特征2類,其中格式特征表示段落的格式,文本特征表示段落文字中隱含的特征屬性。段落為類型i的概率為

      格式特征為通用特征,即每個(gè)段落都具備的特征,是進(jìn)行分類的基礎(chǔ)特征。文本特征為特有特征,當(dāng)某些段落具備特殊的文本特征時(shí),該段落屬于某一類型的概率提升,屬于其他類型的概率降低。任意段落具備類型k的文本特征時(shí),屬于不同類型的概率進(jìn)一步分解為

      根據(jù)上述推導(dǎo),我們選取了19個(gè)特征的概率值作為訓(xùn)練參數(shù),選取參數(shù)如表1所示。

      3 基于遺傳算法的參數(shù)訓(xùn)練模型

      各個(gè)特征對(duì)于最終文本分類結(jié)果的貢獻(xiàn)度由其權(quán)重直接決定,單純的依賴經(jīng)驗(yàn)難以獲取較好的分類結(jié)果,直接影響最終的標(biāo)檢質(zhì)量。本文采用一種基于遺傳算法的參數(shù)訓(xùn)練模型對(duì)19個(gè)特征的權(quán)重(概率)進(jìn)行訓(xùn)練,采用一種有監(jiān)督[11]的機(jī)器學(xué)習(xí)的算法,使得機(jī)器的分類結(jié)果盡可能的接近人工分類結(jié)果,各個(gè)特征的權(quán)重由樣本數(shù)據(jù)決定,隨著樣本量的增大,其分類的準(zhǔn)確性將有效提升。

      3.1 基因設(shè)計(jì)

      由于19個(gè)特征相互獨(dú)立,且均為概率值,本文采用一種一維線性基因,每個(gè)特征的權(quán)重作為其中的一個(gè)編碼,可以較為便捷的進(jìn)行交叉和變異操作。

      表1 訓(xùn)練參數(shù)選擇情況Table 1 The choice of training parameters

      3.2 算子設(shè)計(jì)

      選擇算子采用錦標(biāo)賽算子[12],交叉算子[13]采用單點(diǎn)交叉和兩點(diǎn)交叉算子,變異算子采用單點(diǎn)變異和位置變異算子[14]。

      3.3 適應(yīng)度設(shè)計(jì)

      考慮到文檔的段落類型的傾斜度,適應(yīng)度函數(shù)以文檔為單位計(jì)算分類參數(shù)的準(zhǔn)確度,機(jī)器分類的結(jié)果與人工分類的結(jié)果越接近,則適應(yīng)度越高。設(shè)p表示單份文檔中的段落個(gè)數(shù),q表示機(jī)器分類與人工分類相同的段落個(gè)數(shù),則適應(yīng)度計(jì)算函數(shù)為

      依據(jù)以上設(shè)計(jì),本文采用傳統(tǒng)遺傳算法,在適應(yīng)度計(jì)算階段將交叉、變異后的基因解析為特征權(quán)重并帶入到文本分類算法中,對(duì)樣本進(jìn)行分類計(jì)算,將分類結(jié)果與人工結(jié)果進(jìn)行自動(dòng)比對(duì),計(jì)算適應(yīng)度并執(zhí)行選擇操作,判斷是否滿足準(zhǔn)確度要求或迭代次數(shù)要求,不滿足則繼續(xù)進(jìn)行下一代遺傳,滿足則輸出特征權(quán)重至文本分類模型中作為最終參數(shù)?;谶z傳算法的分類模型如圖1所示。

      圖1 基于遺傳算法的分類模型Fig.1 Classification model based on genetic algorithm

      4 基于識(shí)別結(jié)果的自動(dòng)化標(biāo)檢模型

      自動(dòng)化標(biāo)檢的目的是找出用戶編寫的文檔中格式錯(cuò)誤或文本錯(cuò)誤的文本,其關(guān)注的重點(diǎn)是用戶編寫錯(cuò)誤的情況。因此在文本分類時(shí)需要考慮到錯(cuò)誤較為嚴(yán)重的例子,例如用戶將圖題、表題的格式完全寫錯(cuò)的時(shí)候,由于段落緊跟圖或表,仍應(yīng)當(dāng)識(shí)別為圖題或表題,否則將直接影響后續(xù)標(biāo)檢結(jié)果。為了解決該類問題,在上面的訓(xùn)練和分類模型的基礎(chǔ)上補(bǔ)充一種基于圖表位置的圖題表題識(shí)別算法優(yōu)化文本分類結(jié)果。本文采用的標(biāo)檢流程如下。

      (1) 檢查文件載入:將參數(shù)配置文件載入模型中;

      (2) 特征提取與篩選:提取段落的主要格式特征,剔除空段落、無效段落等干擾數(shù)據(jù);

      (3) 段落分類:為了進(jìn)一步提高識(shí)別準(zhǔn)確率,本方法加入了基于經(jīng)驗(yàn)的先驗(yàn)識(shí)別算法;

      圖題表題識(shí)別算法(算法1)。首先利用文字處理程序提供的api函數(shù)獲取其中所有的圖和表位置,初步識(shí)別出為表題和圖題的段落;

      通用識(shí)別算法(算法2)。然后采用基于改進(jìn)貝葉斯算法的分類算法計(jì)算所有段落的分類結(jié)果,記錄概率最高的3個(gè)類型;

      最后將2種識(shí)別算法結(jié)果進(jìn)行融合。由于圖題和表題通常緊跟圖或表,因此通過api函數(shù)獲取的圖題表題結(jié)果可信度較高。因此,算法1識(shí)別為圖題或表題時(shí),直接采用算法1結(jié)果。算法1識(shí)別為非圖題或非表題時(shí),從算法2的結(jié)果中選取與不違背算法1結(jié)果的概率最高的結(jié)果。

      (4) 錯(cuò)誤檢查:基于識(shí)別結(jié)果對(duì)各段落進(jìn)行錯(cuò)誤比對(duì),記錄所有的錯(cuò)誤位置,并生成錯(cuò)誤提示字串;

      (5) 錯(cuò)誤輸出:自動(dòng)統(tǒng)計(jì)錯(cuò)誤情況,將所有錯(cuò)誤在對(duì)應(yīng)的位置直接以批注的形式輸出錯(cuò)誤提示字串[15]。

      標(biāo)檢完成后將自動(dòng)打開文檔便于標(biāo)檢人員查看錯(cuò)誤情況,同時(shí)還將在文檔中標(biāo)注出錯(cuò)誤統(tǒng)計(jì)情況,用于直觀判斷文檔的編寫質(zhì)量。

      5 實(shí)驗(yàn)

      定義文檔的識(shí)別準(zhǔn)確率如下:

      識(shí)別準(zhǔn)確率=識(shí)別正確的段落數(shù)/總段落數(shù)×100%.

      為了驗(yàn)證本文算法的效果,分別采用傳統(tǒng)KNN算法、樸素貝葉斯算法和本文的改進(jìn)樸素貝葉斯算法進(jìn)行實(shí)驗(yàn)。選取質(zhì)量技術(shù)處提供的實(shí)際文檔作為樣本,共計(jì)5 150個(gè)段落,樣本主要選取了最常見的需要標(biāo)檢的4類文檔,包括

      (1) 設(shè)計(jì)文件:正確樣本率100%;

      (2) 研試文件:正確樣本率80%;

      (3) 軟件文檔:正確樣本率:60%;

      (4) 三大規(guī)范:正確樣本率:40%。

      除了模板,針對(duì)這4類文檔,各隨機(jī)選取了一份真實(shí)文件進(jìn)行檢查。

      1) 模板文件識(shí)別準(zhǔn)確率分析

      各算法的模板文件的識(shí)別比較情況如圖2~5所示。

      可以看出,傳統(tǒng)的KNN和樸素貝葉斯算法在處理正確率較低的樣本效果較差,而本文提出的算法在各個(gè)不同正確率的樣本集中均取得了95%以上的識(shí)別準(zhǔn)確率。

      2) 隨機(jī)選取文件識(shí)別準(zhǔn)確率分析

      對(duì)4類文檔隨機(jī)選取的樣本進(jìn)行識(shí)別準(zhǔn)確率分析,結(jié)果如表2所示。

      可以看出,隨機(jī)選取的文檔識(shí)別準(zhǔn)確率均能達(dá)到95%左右的水平。

      為了驗(yàn)證錯(cuò)誤提示的正確性,設(shè)計(jì)《測試文檔.doc》,植入不同的錯(cuò)誤格式。植入的錯(cuò)誤包括:段前行距錯(cuò)誤、字號(hào)錯(cuò)誤、首行縮進(jìn)錯(cuò)誤、段后行距錯(cuò)誤、字體錯(cuò)誤、對(duì)齊方式錯(cuò)誤、右側(cè)縮進(jìn)錯(cuò)誤、左側(cè)縮進(jìn)錯(cuò)誤。將部分縮進(jìn)進(jìn)行組合放在同一自然段,且最后2個(gè)自然段為正確格式,用于檢查是否誤報(bào)。

      圖2 設(shè)計(jì)文件識(shí)別準(zhǔn)確率Fig.2 Identification accuracy result of design documents

      圖3 研試文件識(shí)別準(zhǔn)確率Fig.3 Identification accuracy result of research & experiment documents

      圖4 軟件文檔識(shí)別準(zhǔn)確率Fig.4 Identification accuracy result of software documents

      圖5 三大規(guī)范識(shí)別準(zhǔn)確率Fig.5 Identification accuracy result of standards

      表2 隨機(jī)文件識(shí)別準(zhǔn)確率Table 2 Identification accuracy result of random documents

      植入的錯(cuò)誤在各段落末尾標(biāo)注出設(shè)計(jì)測試文檔,植入錯(cuò)誤的分布情況如圖6所示。使用工具進(jìn)行格式檢查后,自動(dòng)生成錯(cuò)誤批注,檢查結(jié)果如圖7所示。

      圖6 測試文檔設(shè)計(jì)情況Fig.6 Design of test document

      圖7 格式檢查結(jié)果Fig.7 Result of format check

      所有植入的錯(cuò)誤均被工具自動(dòng)識(shí)別且標(biāo)注出,標(biāo)注的段落位置正確。正確的段落未出現(xiàn)誤報(bào),預(yù)埋錯(cuò)誤的識(shí)別率達(dá)到100%,工具的基本格式檢查功能滿足設(shè)計(jì)要求。

      6 結(jié)束語

      本文首先對(duì)基于機(jī)器學(xué)習(xí)的文本分類算法進(jìn)行了介紹,在此基礎(chǔ)上選取了面向自動(dòng)化標(biāo)檢的特征向量,進(jìn)而提出改進(jìn)的樸素貝葉斯分類算法和基于遺傳算法的分類模型。然后,在實(shí)際的數(shù)據(jù)集中分別采用KNN算法、傳統(tǒng)樸素貝葉斯算法和本文的算法進(jìn)行了分類。實(shí)驗(yàn)結(jié)果表明,本文提出的分類模型能夠有效處理段落數(shù)多、錯(cuò)誤多的情況,正確的將段落進(jìn)行分類。能夠有效地提高自動(dòng)化標(biāo)檢的正確率,從而提高標(biāo)檢質(zhì)量。

      猜你喜歡
      貝葉斯段落文檔
      有人一聲不吭向你扔了個(gè)文檔
      【短文篇】
      心理小測試
      夏天,愛情的第四段落
      散文詩(2017年17期)2018-01-31 02:34:11
      貝葉斯公式及其應(yīng)用
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      弄清段落關(guān)系 按圖索驥讀文
      讀寫算(下)(2016年11期)2016-05-04 03:44:07
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      昌宁县| 深泽县| 深水埗区| 额济纳旗| 墨脱县| 岳普湖县| 荔浦县| 邵阳县| 平顺县| 聊城市| 靖州| 铅山县| 邻水| 奉节县| 子洲县| 青河县| 荣成市| 潞城市| 喀喇沁旗| 霍林郭勒市| 镇远县| 横山县| 龙口市| 兴文县| 绵竹市| 瓮安县| 娱乐| 银川市| 侯马市| 定南县| 桂阳县| 德阳市| 安达市| 清丰县| 北碚区| 闽侯县| 鹤山市| 双牌县| 景泰县| 昭觉县| 竹溪县|