• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于檢索重排序模型的文本差異化研究

      2023-01-18 09:08:22門業(yè)堃錢夢(mèng)迪于釗滕景竹陳少坤顏旭
      電測(cè)與儀表 2023年1期
      關(guān)鍵詞:保護(hù)裝置排序檢索

      門業(yè)堃,錢夢(mèng)迪,于釗,滕景竹,陳少坤,顏旭

      (1. 國(guó)網(wǎng)北京市電力公司電力科學(xué)研究院,北京 100075; 2.北京恒華龍信數(shù)據(jù)科技有限公司,北京 100088)

      0 引 言

      電力行業(yè)在設(shè)備質(zhì)量評(píng)估中會(huì)大量使用種類、版本眾多的行業(yè)標(biāo)準(zhǔn)規(guī)范文件,業(yè)務(wù)人員在實(shí)際使用中需要根據(jù)文件內(nèi)容判斷采購(gòu)設(shè)備時(shí)應(yīng)遵循的具體標(biāo)準(zhǔn),以人工方式瀏覽查詢大量標(biāo)準(zhǔn)規(guī)范文件,效率低,準(zhǔn)確性有待提升。然而,目前國(guó)內(nèi)外對(duì)標(biāo)準(zhǔn)差異化梳理技術(shù)的研究還處于專家總結(jié)經(jīng)驗(yàn)的形式。面對(duì)種類、版本眾多的行業(yè)標(biāo)準(zhǔn)規(guī)范文件,僅靠專家經(jīng)驗(yàn)的形式已不能滿足目前的標(biāo)準(zhǔn)差異化梳理的要求,建立自動(dòng)化、信息化、智能化的標(biāo)準(zhǔn)差異化梳理技術(shù)是現(xiàn)階段電力企業(yè)迫切需要的技術(shù)。

      標(biāo)準(zhǔn)差異化梳理技術(shù)的本質(zhì)是通過自然語言處理技術(shù),完成對(duì)行業(yè)標(biāo)準(zhǔn)規(guī)范文件的語義相似度計(jì)算。文本相似度計(jì)算主要可分為基于詞共現(xiàn)向量的文檔模型方法[1]、基于語料庫(kù)的方法[2-5]、混合方法和基于描述性特征的方法[6-8]。文本挖掘作為數(shù)據(jù)挖掘[9-11]的一個(gè)分支,能夠充分挖掘信息的潛在價(jià)值。國(guó)內(nèi)學(xué)者在文本相似度方面取得了一定的進(jìn)展,其中文獻(xiàn)[12]在知網(wǎng)語義相似度的基礎(chǔ)上,將基于語義理解的文本相似度計(jì)算推廣到段落、篇章范圍。文獻(xiàn)[13]通過將文本的特征詞相似度為基礎(chǔ),來計(jì)算文本間的相似度。在國(guó)外方面,文獻(xiàn)[14]通過將基于相似性度量和字向量的文檔模型方法用于信息檢索系統(tǒng)。潛在語義分析(LSA)[15]通過高維的線性關(guān)聯(lián)模型,生成文本相似性。

      然而,目前在國(guó)內(nèi)外,對(duì)技術(shù)文檔差異性內(nèi)容檢索的研究依然是空白。事實(shí)上,與普通內(nèi)容檢索和相似度計(jì)算相比,差異性內(nèi)容檢索難度更大,主要原因在于具有差異的內(nèi)容往往句式不同,而句式不同的語句所表達(dá)內(nèi)容有可能相同。建立文本差異化模型,解決方法有兩種:(1)字面相似度模型:編輯距離等從字面意義上判斷句子的相似度,方法簡(jiǎn)單,容易出現(xiàn)無法識(shí)別文本描述內(nèi)容相同但說法不同的情況;(2)判別式算法:通過判別式機(jī)器學(xué)習(xí)算法,直接對(duì)兩個(gè)句子是否描述同一實(shí)體的概率進(jìn)行建模分析識(shí)別。因?yàn)榕袆e式機(jī)器學(xué)習(xí)算法能夠利用上下文(包括標(biāo)題、子標(biāo)題、上下文句子)等特征,綜合考慮句子的相似度,因此文中使用判別式算法來建立差異性檢索召回模型。

      文中主要圍繞標(biāo)準(zhǔn)差異化梳理技術(shù),以判別式算法為基礎(chǔ),通過基于檢索重排序模型的信息檢索模型,建立完善的自動(dòng)化、信息化、智能化的標(biāo)準(zhǔn)差異化梳理技術(shù)系統(tǒng),能夠快速識(shí)別同一領(lǐng)域不同標(biāo)準(zhǔn)文件的檢索比對(duì),以及不同部門發(fā)布的同類標(biāo)準(zhǔn)文件中存在差異的內(nèi)容,并針對(duì)不同部門發(fā)布的標(biāo)準(zhǔn)文件中對(duì)相同設(shè)備技術(shù)要求卻不同的、需要技術(shù)人員著重注意的差異內(nèi)容進(jìn)行檢索,便于標(biāo)準(zhǔn)使用人員選擇合適的標(biāo)準(zhǔn)規(guī)范,提升業(yè)務(wù)效率,起到降低工作量,提高準(zhǔn)確性,有利于對(duì)技術(shù)要求的管控的作用。模型具有較強(qiáng)的實(shí)用性,還可以廣泛應(yīng)用于電力設(shè)備質(zhì)量評(píng)估,供應(yīng)商評(píng)價(jià)標(biāo)準(zhǔn)檢索等領(lǐng)域。

      1 理論基礎(chǔ)

      1.1 TF-IDF

      TF-IDF[16](Term Frequency-Inverse Document Frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF-IDF通過詞頻和逆文檔頻率來評(píng)估一字詞對(duì)一個(gè)文件集合或語料庫(kù)中的某文檔的權(quán)重。

      詞頻(TF)表示詞條(關(guān)鍵字)在文本中出現(xiàn)的頻率。即:

      (1)

      逆文檔詞頻(IDF):某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語的文件的數(shù)目,再將得到的商取對(duì)數(shù)得到:

      (2)

      TF-IDF=TF×IDF。詞匯的TF-IDF重要性隨著詞匯在單個(gè)文件中出現(xiàn)的次數(shù)的增多而增多,同時(shí)也會(huì)隨著它在總體語料庫(kù)中出現(xiàn)的次數(shù)增多而減小。一般來說,在某一篇文章中出現(xiàn)頻率大,但在其他文章中出現(xiàn)次數(shù)少的詞語,更有可能是這篇文章的關(guān)鍵詞。因此,TF-IDF利用這一規(guī)律通過詞頻和逆文檔頻率來對(duì)每一個(gè)詞打分。

      TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。如果某個(gè)詞比較少見,但是它在這篇文章中出現(xiàn)多次,那么它很可能就反映了這篇文章的特征,正是我們需要的關(guān)鍵詞。

      1.2 word2vec詞嵌入

      word2vec(word to vector)是一種基于文本上下文,將詞語映射到低維實(shí)數(shù)空間的文本向量化算法。word2vec通過雙層神經(jīng)網(wǎng)絡(luò),擬合用來表示詞對(duì)詞之間的關(guān)系的向量。這種通過算法將非實(shí)數(shù)空間的實(shí)體映射到實(shí)數(shù)空間算法,又叫做嵌入技術(shù)。嵌入技術(shù)產(chǎn)生的向量被稱為嵌入,因此文中的word2vec產(chǎn)生的向量稱為word2vec詞嵌入。

      1.3 LambdaMART排序?qū)W習(xí)模型[17]

      傳統(tǒng)的搜索引擎排序問題,通常會(huì)涉及到很多的排序策略。這些策略根據(jù)不同的特征,在不同的適用范圍中起作用。因此,一個(gè)傳統(tǒng)的排序算法,至少涉及到兩方面的內(nèi)容:策略的制定,以及不同策略的組合。策略的組合需要考慮策略分析適用的特征,以及相應(yīng)策略的適用情況。根據(jù)這些內(nèi)容,通過人工或者半機(jī)器半人工的方式組合起來,才能組成一個(gè)實(shí)用的排序算法。

      LambdaMART算法主要基于MART算法。MART是梯度提升決策樹算法,是一種集成學(xué)習(xí)算法(將幾種機(jī)器學(xué)習(xí)技術(shù)組合成一個(gè)預(yù)測(cè)模型的算法,以達(dá)到減小方差、偏差,以及改進(jìn)預(yù)測(cè)的效果),MART的原理通過擬合上一輪分類器產(chǎn)生的殘差,更新下一輪學(xué)習(xí)的樣本權(quán)重。

      LambdaMART基于梯度提升決策樹,通過優(yōu)化λ梯度來得到最優(yōu)排序函數(shù)。對(duì)于一個(gè)列表中任意的一對(duì)文章i和j,有:

      (3)

      式中C為損失函數(shù);σ為控制損失函數(shù)形狀的參數(shù),一般設(shè)為1。|Δzij|表示交換i和j的位置產(chǎn)生的評(píng)價(jià)指標(biāo)差值,si和sj分別代表文章i和j的模型打分,z可以是NDCG(正規(guī)化累計(jì)收益折扣)或者ERR(期望倒數(shù)排名)等。累加其他所有排序項(xiàng),可得:

      (4)

      式中λi為累加排序項(xiàng)后的值,因此其損失函數(shù)梯度為:

      (5)

      其中:

      (6)

      然后可以得到:

      (7)

      所以我們可以用下面的公式計(jì)算第n棵樹的第k個(gè)葉子節(jié)點(diǎn)上的值:

      (8)

      如表1所示,LambdaMART算法流程如下:k表示算法當(dāng)前執(zhí)行到的樹的個(gè)數(shù),i表示第i篇文章。算法第3行計(jì)算出了λ梯度,在第4行計(jì)算出了λ二階梯度。算法在第6行通過擬合λ梯度,得到一棵葉子數(shù)為L(zhǎng)的樹,并在第7行中計(jì)算出牛頓法葉子權(quán)重,第8行將當(dāng)前的樹與上一棵樹整合。算法不斷循環(huán)N次,最后將每次得到的樹相加,即得到最終的模型。

      表1 LambdaMART算法流程

      1.4 編輯距離

      編輯距離[18]是一種常見的字符串距離衡量公式。編輯距離由俄羅斯科學(xué)家Vladimir Levenshtein在1955年提出,因此也得名叫Levenshtein距離。在自然語言處理中,編輯距離是用來度量?jī)蓚€(gè)變量相似度的指標(biāo)。通俗來講,編輯距離指的是在兩個(gè)單詞(ω1,ω2)之間,由其中的一個(gè)詞ω1轉(zhuǎn)化為另一個(gè)詞ω2所需要的最少的單字符編輯操作的次數(shù)。其中,編輯操作有三種:插入、 刪除、 替換。一般來說,兩個(gè)字符的編輯距離越小,則他們?cè)较嗨啤?/p>

      2 研究方法

      主要針對(duì)同一領(lǐng)域的電力標(biāo)準(zhǔn)文件做檢索比對(duì),即針對(duì)不同部門發(fā)布的描述主體相同、技術(shù)要求卻不同的標(biāo)準(zhǔn)進(jìn)行檢索并預(yù)警提示。差異性檢索與信息檢索技術(shù)之間存在方法上的通用性,但差異性檢索對(duì)檢索內(nèi)容的要求更高:與檢索出最相關(guān)內(nèi)容的目標(biāo)不同,差異性檢索的目的是檢索出內(nèi)容最相關(guān)但描述方式存在差異的文本信息。由于二者之間存在一定的相似性及通用技術(shù),因此,文中在普通的信息檢索模型基礎(chǔ)上,引入排序?qū)W習(xí)算法對(duì)初步檢索出的內(nèi)容進(jìn)行重排序,并選擇top-k置信度內(nèi)容(即檢索最理想的前k個(gè)內(nèi)容)作為最終檢索結(jié)果,實(shí)現(xiàn)了精度的進(jìn)一步提高,以滿足差異化查詢的要求。其中k為兩篇文章預(yù)期差異內(nèi)容數(shù),可根據(jù)實(shí)際需要進(jìn)行調(diào)整。提出的模型主要分為三大部分:數(shù)據(jù)處理、差異性檢索召回和top-k檢索重排序。

      數(shù)據(jù)處理,即通過基礎(chǔ)的自然語言處理技術(shù),對(duì)待檢索文本進(jìn)行處理,將其轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的數(shù)值形式,主要技術(shù)如TF-IDF、word2vec詞嵌入等。

      在使用word2vec詞嵌入同時(shí),為了避免一些與預(yù)測(cè)無關(guān)的詞對(duì)預(yù)測(cè)結(jié)果帶來影響,文中利用TF-IDF指標(biāo)選取出電力行業(yè)技術(shù)標(biāo)準(zhǔn)數(shù)據(jù)的關(guān)鍵詞,利用TF-IDF對(duì)詞嵌入進(jìn)行加權(quán),得到句子的關(guān)鍵詞嵌入。

      編輯距離可以度量?jī)蓚€(gè)變量的相似度指標(biāo),將兩個(gè)字符串a(chǎn)和b的編輯距離表示為lev{a,b}(|a|,|b|),其中|a|和|b|分別對(duì)應(yīng)a和b的長(zhǎng)度,用i和j分別代表a的前i個(gè)字符和b的前j個(gè)字符,那么,兩個(gè)字符串a(chǎn),b的編輯距離即lev{a,b}(|a|,|b|)可以用如下的數(shù)學(xué)語言描述:

      (9)

      應(yīng)用判別式算法構(gòu)建差異性檢索召回模型的主要步驟有兩點(diǎn):(1)為了保證檢索結(jié)果是最具有差異性的內(nèi)容,引入top-k檢索重排序;(2)在普通的信息檢索模型的基礎(chǔ)之上,通過使用排序?qū)W習(xí)算法對(duì)top-k置信度的檢索內(nèi)容進(jìn)行重排序,使其精度能夠進(jìn)一步提高,以滿足差異化查詢的要求。文中使用LambdaMART算法來進(jìn)行重排序處理,技術(shù)路線圖見圖1。

      圖1 技術(shù)路線

      差異性檢索召回模型一共包括三層:(1)第一層為數(shù)據(jù)處理層,計(jì)算出對(duì)檢索有巨大幫助的文本特征;(2)第二層為差異性檢索召回層,通過將數(shù)據(jù)處理層的特征,輸入到具體分類模型中計(jì)算,得到分類結(jié)果;(3)第三層為檢索重排序?qū)樱ㄟ^將差異性檢索召回層傳入的前k項(xiàng)(top-k)的候選句子對(duì),根據(jù)它們所處的上下文信息等特征,統(tǒng)一進(jìn)行排序操作。

      文中引入的檢索重排序?qū)犹岣吡宋恼虏町愋詸z索的效果與準(zhǔn)確度,主要原因在于:(1)差異性檢索召回層僅僅考慮了句子之間的匹配程度,沒有考慮到從標(biāo)準(zhǔn)文件整體角度進(jìn)行匹配;(2)檢索結(jié)果往往無法明確地區(qū)分語義“完全一致”和“存在部分差異”之間的區(qū)別。因此,通過引入檢索重排序?qū)?,能夠既保留差異性檢索召回層召回候選能力強(qiáng)的特點(diǎn),也能夠引入檢索重排序?qū)泳_性高的優(yōu)點(diǎn)。

      3 模型分析

      3.1 實(shí)驗(yàn)設(shè)置

      為了得到模型所需的效果,額外搜集了多篇電力行業(yè)不同領(lǐng)域的技術(shù)標(biāo)準(zhǔn)文檔,對(duì)模型進(jìn)行訓(xùn)練,用20余篇進(jìn)行驗(yàn)證,均得到較好的效果。文中以三篇變壓器相關(guān)的技術(shù)標(biāo)準(zhǔn)文檔進(jìn)行說明,分別是2012年由國(guó)家能源局發(fā)布的DL/T 770-2012《變壓器保護(hù)裝置通用技術(shù)條件》[19]、2002年由中華人民共和國(guó)國(guó)家經(jīng)濟(jì)貿(mào)易委員發(fā)布的DL/T 770-2002《微機(jī)變壓器保護(hù)裝置通用技術(shù)條件》[20]和2016年由中華人名共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局和中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)共同發(fā)布的《1000 kV變壓器保護(hù)裝置技術(shù)要求》[21]。其中DLT 770-2012《變壓器保護(hù)裝置通用技術(shù)條件》為待查詢差異的文章。

      3.2 實(shí)驗(yàn)結(jié)果

      3.2.1 數(shù)據(jù)處理層

      (1)預(yù)處理。

      對(duì)文本的預(yù)處理是自然語言處理的基礎(chǔ),也是能否達(dá)到符合預(yù)期目標(biāo)效果的基礎(chǔ)和核心。預(yù)處理包括去除無關(guān)內(nèi)容、分詞、去除停用詞等。去除無關(guān)內(nèi)容,就是將數(shù)據(jù)中與差異化檢索無關(guān)的內(nèi)容(如HTML標(biāo)簽、Word格式和因字符集編碼解析錯(cuò)誤導(dǎo)致的亂碼)去除。分詞,就是將中文的句子、文章從句子切分為詞語。分詞是中文自然語言處理的必要一步。一般來說,分詞在機(jī)器學(xué)習(xí)中可以歸結(jié)到序列標(biāo)注問題,屬于有監(jiān)督學(xué)習(xí)。分詞的實(shí)現(xiàn)方法有很多,文中采用的是最大概率法與隱馬爾科夫模型的結(jié)合,對(duì)研究目標(biāo)進(jìn)行分詞處理。去除停用詞,就是將與文章內(nèi)容無關(guān)的停用詞(例如“的”、“了”、數(shù)字等)去除,以避免該類詞對(duì)后續(xù)處理和訓(xùn)練所造成的影響。文中通過使用電力停用詞詞典對(duì)研究文本數(shù)據(jù)進(jìn)行了去停用詞預(yù)處理。

      (2)特征生成。

      使用的特征主要包括編輯距離、TF-IDF和word2vec。文中采用編輯距離和TF-IDF作為文本特征。表2為節(jié)選的DLT 770-2012《變壓器保護(hù)裝置通用技術(shù)條件》與DLT 770-2002《變壓器保護(hù)裝置通用技術(shù)條件》中的句子計(jì)算出兩文本數(shù)據(jù)的編輯距離。

      表2 編輯距離計(jì)算示例

      在得到了分詞后的結(jié)果后,一方面通過TF-IDF計(jì)算每一個(gè)句子的TF-IDF向量,另一方面可以通過使用Word2vec,生成每一個(gè)詞的詞嵌入。電力行業(yè)技術(shù)數(shù)據(jù)中存在一些在詞嵌入中不存在的生僻詞,需要對(duì)這一部分詞進(jìn)行單獨(dú)處理。常見的處理方法有丟棄、占位符、均值填充等。丟棄即直接將生僻詞丟棄,這種方法容易損失信息;占位符則是將生僻詞轉(zhuǎn)化為特殊的詞嵌入,如全零或其他向量表示,這種方法在數(shù)據(jù)量大時(shí)有一定效果;均值填充即將生僻字利用上下文中的其他詞的均值替代,這種方法效果較好,文中主要通過均值填充法對(duì)生僻詞進(jìn)行計(jì)算。

      文中利用TF-IDF指標(biāo)選出電力行業(yè)技術(shù)標(biāo)準(zhǔn)數(shù)據(jù)的關(guān)鍵詞,利用TF-IDF對(duì)詞嵌入進(jìn)行加權(quán),得到句子的關(guān)鍵詞詞嵌入。具體方法為先計(jì)算出每一個(gè)詞在所在所在句子中的詞頻,再統(tǒng)計(jì)每一個(gè)詞在文章中出現(xiàn)的次數(shù),然后利用TF-IDF公式計(jì)算得到詞的逆文檔頻率。

      3.2.2 差異性檢索召回

      針對(duì)模型訓(xùn)練中差異性檢索召回部分,將兩篇文章中的任意句子兩兩配對(duì),形成句對(duì),分析每個(gè)句子對(duì)是否為待檢索內(nèi)容,并進(jìn)行0-1標(biāo)記,即二分類打分,然后將結(jié)果傳入到檢索重排序?qū)?。差異性檢索召回層所用到的模型為二分類機(jī)器學(xué)習(xí)模型。在此用正類表示兩個(gè)輸入句子為相似且存在差異的句子,即文中需要檢索的句對(duì),負(fù)類表示兩個(gè)輸入句子為不相似句子。

      為了使二分類模型能夠精確有效判斷出輸入句子是否為正類、負(fù)類,需要先為模型提供一批人工審核的相似、不相似樣本,分別作為模型的正樣本和負(fù)樣本。

      差異性檢索召回正樣本為模型提供相似句對(duì)的樣例,提供模型遇到類似的句對(duì)時(shí)能夠自動(dòng)判斷是否相似。文中將待查詢差異的文章與其他文章相似的句子兩兩配對(duì),形成正樣本。例如 <待查詢差異文章句子1,其他文章句子1>為相似句子,則該句子構(gòu)成一個(gè)正樣本。

      與差異性檢索召回正樣本相反,差異性檢索召回負(fù)樣本為模型提供不相似句對(duì)的樣例,文中隨機(jī)挑選不相關(guān)句子,作為負(fù)樣本。例如 <待查詢差異文章句子1,其他文章句子1>為不相似句子,則該句子構(gòu)成一個(gè)負(fù)樣本。負(fù)樣本中還包括兩種類型的樣本:(1)語義相同但表述方式不同的句對(duì),即邏輯完全相同句對(duì);(2)語義不同的句對(duì),即邏輯完全不同句對(duì)。兩種類型的樣本需要區(qū)別對(duì)待,其原因是邏輯完全相同的樣本與正樣本之間往往更難分割,因此需要分類器著重分析。文中將邏輯完全相同的樣本進(jìn)行過采樣,在采樣過程中對(duì)此類句對(duì)多次重復(fù)有放回抽取,對(duì)邏輯完全不同的樣本進(jìn)行欠采樣,在采樣過程中對(duì)此類句對(duì)隨機(jī)丟棄。

      上文得到的正樣本、負(fù)樣本均為人工審核的小數(shù)據(jù)量的準(zhǔn)確樣本,為了能對(duì)現(xiàn)存的海量待查詢文章進(jìn)行差異化檢索召回,必須通過一種具有泛化能力的模型進(jìn)行處理。GBDT模型是一種目前業(yè)界常用、性能優(yōu)異的分類模型。文中利用GBDT模型,自動(dòng)分析差異化檢索召回的正負(fù)樣本,來擬合二分類概率,以達(dá)到泛化的能力,這一過程又稱為學(xué)習(xí)或訓(xùn)練。

      差異性檢索召回層通過查找數(shù)據(jù)處理層中句子的特征,對(duì)句對(duì)特征進(jìn)行拼接,形成完整的差異性檢索召回層的特征,然后送入到GBDT模型中進(jìn)行訓(xùn)練。

      經(jīng)過了差異性檢索召回層處理后,輸出的候選句對(duì)已經(jīng)能夠達(dá)到基本的查詢目標(biāo)。在兩篇待查詢文章上進(jìn)行實(shí)驗(yàn)后發(fā)現(xiàn),DL/T 770-2012《變壓器保護(hù)裝置通用技術(shù)條件》與《1000 kV變壓器保護(hù)裝置技術(shù)要求》之間的差異性檢索正確率(AUC指標(biāo))能達(dá)到0.874。DL/T 770-2012《變壓器保護(hù)裝置通用技術(shù)條件》與DL/T 770-2002《變壓器保護(hù)裝置通用技術(shù)條件》之間的差異性檢索正確率(AUC指標(biāo))達(dá)到0.937。差異性檢索對(duì)檢索出的結(jié)果不僅要求整體正確率高,還需要保證top-k的準(zhǔn)確率(即最先展現(xiàn)給用戶的前k個(gè)差異檢索)。例如,僅僅通過差異性檢索召回,在k=300時(shí),DL/T 770-2012《變壓器保護(hù)裝置通用技術(shù)條件》與《1000 kV變壓器保護(hù)裝置技術(shù)要求》之間的差異性檢索正確率(即AUC指標(biāo))僅有0.476,DL/T 770-2012《變壓器保護(hù)裝置通用技術(shù)條件》與DL/T 770-2002《變壓器保護(hù)裝置通用技術(shù)條件》之間的差異性檢索正確率(即AUC指標(biāo))也僅僅只有0.512。檢索重排序?qū)拥囊?,正是為了提高top-k的檢索正確率,為用戶直接提供最優(yōu)質(zhì)的差異檢索。

      3.2.3 檢索重排序?qū)?/p>

      檢索重排序?qū)拥妮斎胧遣町愋詸z索召回層輸出的二分類概率top-k的句對(duì),輸出為排序后的結(jié)果。檢索重排序?qū)油ㄟ^使用LambdaMART算法,得到全局最優(yōu)的排名和打分結(jié)果。

      文中主要針對(duì)于提高top-k的精度,因此檢索重排序?qū)油ㄟ^對(duì)top-k的樣本進(jìn)行訓(xùn)練,將top-k中的正樣本和負(fù)樣本的特征輸入到LambdaMART模型中進(jìn)行訓(xùn)練。雖然差異性檢索召回層的預(yù)測(cè)概率結(jié)果并不一定正確,但其仍然能夠?yàn)闄z索重排序?qū)犹峁┹^為正確、豐富的預(yù)測(cè)幫助,因此檢索重排序模型的特征與差異性檢索召回層的特征相比,增加了一項(xiàng)由差異性檢索召回層提供的二分類概率。另外,從集成學(xué)習(xí)的角度可以認(rèn)為這實(shí)際上是一種更強(qiáng)大的層疊(stacking)學(xué)習(xí)。因此文中將其預(yù)測(cè)結(jié)果同樣作為檢索重排序?qū)拥奶卣鳎M(jìn)一步提高模型的整體效果。驗(yàn)證結(jié)果如圖2所示。

      圖2 五輪交叉驗(yàn)證的實(shí)驗(yàn)效果

      在經(jīng)過檢索重排序的學(xué)習(xí)后,top-k(k=300)檢索正確率(AUC)在DL/T 770-2012《變壓器保護(hù)裝置通用技術(shù)條件》與《1000 kV變壓器保護(hù)裝置技術(shù)要求》之間的差異性檢索正確率(AUC指標(biāo))能達(dá)到0.928,DL/T 770-2012《變壓器保護(hù)裝置通用技術(shù)條件》與DL/T 770-2002《變壓器保護(hù)裝置通用技術(shù)條件》之間的差異性檢索正確率(AUC指標(biāo))能達(dá)到0.954??梢钥闯觯瑱z索重排序?qū)拥囊?,?duì)提高top-k的檢索正確率、提高用戶使用便捷程度有非常巨大的幫助。

      為了更魯邦的驗(yàn)證模型的效果,文中在數(shù)據(jù)集上進(jìn)行了交叉驗(yàn)證,圖2為在五輪交叉驗(yàn)證的實(shí)驗(yàn)效果??梢钥闯?,使用了檢索重排序后,檢索正確率已經(jīng)能夠均勻達(dá)到0.95以上。

      對(duì)檢索重排序模型與其他目前主流方法:TF-IDF、編輯距離、word2vec與檢索重排序模型的AUC指標(biāo)進(jìn)行了對(duì)比,實(shí)驗(yàn)發(fā)現(xiàn)檢索重排序模型效果較其他方法具有巨大的提升(如圖3):TF-IDF、編輯距離這類不考慮語義相似度的方法效果最差,AUC指標(biāo)最高僅為0.47。word2vec方法考慮了詞匯的語義特征,但其并不能準(zhǔn)確判斷文章是否具有差異性,AUC指標(biāo)也僅有0.61。文中提出的檢索重排序模型,既能夠利用word2vec提供的語義特征,又能夠通過檢索重排序有效判斷是否具有差異性,效果最好,AUC指標(biāo)達(dá)到0.95。

      圖3 檢索重排序模型與主流方法效果對(duì)比

      4 結(jié)束語

      標(biāo)準(zhǔn)差異化研究是自然語言處理的重要組成部分,廣泛應(yīng)用于各個(gè)領(lǐng)域,相比常見的文本差異查詢,文中主要針對(duì)電力行業(yè)中同一領(lǐng)域的不同標(biāo)準(zhǔn)文件做檢索比對(duì),檢索出不同部門發(fā)布的文件中對(duì)同一技術(shù)不同要求的差異性內(nèi)容并預(yù)警提示。模型在研究上主要針對(duì)差異性檢索,提出了在普通的信息檢索模型的基礎(chǔ)之上,使用排序?qū)W習(xí)算法對(duì)top-k置信度的檢索內(nèi)容進(jìn)行重排序,使其精度能夠進(jìn)一步提高的模型,以滿足差異化查詢的要求。

      文中提出的電力行業(yè)技術(shù)標(biāo)準(zhǔn)差異化研究模型主要分為三大部分:數(shù)據(jù)處理、差異性檢索召回和top-k檢索重排序,并在真實(shí)的電力行業(yè)技術(shù)標(biāo)準(zhǔn)文檔上進(jìn)行了系統(tǒng)魯邦的交叉驗(yàn)證,驗(yàn)證了模型效果的優(yōu)異,結(jié)果表明模型具有非常高的差異性檢索正確率(AUC指標(biāo)),說明檢索模型是有效的,檢索輸出結(jié)果是準(zhǔn)確的,經(jīng)過綜合分析得出所采用的模型是可行的。

      基于文本特征的檢索重排序模型可應(yīng)用于電網(wǎng)設(shè)備供應(yīng)商績(jī)效評(píng)價(jià)體系中的供應(yīng)商名稱匹配領(lǐng)域,能夠提高供應(yīng)商名稱匹配效果,提高數(shù)據(jù)治理質(zhì)量。此外還可以廣泛應(yīng)用于電力設(shè)備質(zhì)量評(píng)估,電力行業(yè)標(biāo)準(zhǔn)檢索、評(píng)價(jià)標(biāo)準(zhǔn)檢索等領(lǐng)域。

      猜你喜歡
      保護(hù)裝置排序檢索
      排序不等式
      恐怖排序
      2019年第4-6期便捷檢索目錄
      節(jié)日排序
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      電力系統(tǒng)微機(jī)保護(hù)裝置的抗干擾措施
      翻車機(jī)人行通道光電安全保護(hù)裝置
      火電廠熱控自動(dòng)化保護(hù)裝置的維護(hù)策略初探
      河南科技(2014年5期)2014-02-27 14:08:33
      基于單片機(jī)的低壓馬達(dá)保護(hù)裝置
      玛纳斯县| 宁南县| 八宿县| 始兴县| 奈曼旗| 滕州市| 镇康县| 镇宁| 红安县| 遂溪县| 和顺县| 邯郸县| 达尔| 沾益县| 满城县| 广饶县| 延川县| 兰坪| 贵港市| 汶上县| 天台县| 余干县| 黄大仙区| 久治县| 嘉义市| 资中县| 新巴尔虎右旗| 蒙山县| 庆安县| 天峨县| 泾阳县| 新郑市| 萨嘎县| 德兴市| 昌宁县| 理塘县| 逊克县| 新乡县| 饶平县| 年辖:市辖区| 洛阳市|