• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融入Attention機制改進Word2vec技術(shù)的水利水電工程專業(yè)詞智能提取與分析方法

      2020-09-08 05:56:42李明超JonathanShi
      水利學(xué)報 2020年7期
      關(guān)鍵詞:分詞水利水電準(zhǔn)確率

      李明超,田 丹,沈 揚,Jonathan Shi,韓 帥

      (1.水利工程仿真與安全國家重點實驗室 天津大學(xué),天津 300350;2.中國長江三峽集團有限公司,北京 100038;3.College of Engineering,Louisiana State University,Baton Rouge,LA 70803,USA)

      1 研究背景

      在水利水電工程建設(shè)過程中,產(chǎn)生了大量對水利水電工程施工過程反饋、管理評估、質(zhì)量驗證等具有重要作用的文本,增加了文本管理與分析的難度[1-2]。在文本管理與分析中,自然語言處理(Natural Language Processing,NLP)技術(shù)具有較高的應(yīng)用率與可靠性,能夠?qū)崿F(xiàn)海量文本數(shù)據(jù)的系統(tǒng)管理。雖然NLP技術(shù)在文本分析中取得較大發(fā)展,但現(xiàn)有的NLP術(shù)語研究主要針對日常生活用語,較少涉及具體專業(yè)領(lǐng)域?;诖?,不同領(lǐng)域的學(xué)者目前都針對自己的領(lǐng)域發(fā)展專業(yè)性較強的NLP技術(shù),增強NLP技術(shù)在專業(yè)領(lǐng)域的應(yīng)用能力[3]。然而,針對水利水電工程專業(yè)的NLP技術(shù)尚處于起步階段,未形成具體的專業(yè)文本識別提取與分析體系。

      采用NLP技術(shù)分析水利水電工程專業(yè)文本最關(guān)鍵的環(huán)節(jié)之一是專業(yè)詞識別,在海量的多源文本中準(zhǔn)確提取專業(yè)詞,有利于提高專業(yè)文本信息分析的準(zhǔn)確率?,F(xiàn)有NLP技術(shù)缺乏完善的水利水電工程專業(yè)詞識別方法,難以直接用于水利水電工程專業(yè)詞提取,同時已有水利水電工程專業(yè)詞典無法囊括所有專業(yè)詞,隨著施工技術(shù)的進步,大量的水利水電工程新工藝、新技術(shù)被開發(fā),同時產(chǎn)生許多新的專業(yè)詞[4]。水利水電工程專業(yè)詞智能識別能有效提高水利水電工程管理信息的理解與分析效率,便于在工程各階段快速查找與反饋工程內(nèi)容,完成海量工程信息檢索,增強工程管理效率,提高對施工現(xiàn)場的管理效果,對于水利水電工程質(zhì)量、進度、成本、安全等管理與評價具有重要意義。因此,建立實現(xiàn)水利水電工程專業(yè)詞識別體系,智能化識別提取文本中的新舊專業(yè)詞,構(gòu)建豐富水利水電工程專業(yè)詞庫,是當(dāng)前亟待解決的問題,對于水利水電工程文本分析尤為重要。

      已有的專業(yè)詞識別方法主要分為有監(jiān)督方法與無監(jiān)督方法兩種[5]。有監(jiān)督方法以統(tǒng)計學(xué)為基礎(chǔ),主要包含經(jīng)典統(tǒng)計學(xué)、隱馬爾可夫、袋決策樹、信息熵、條件隨機場等模型。經(jīng)典統(tǒng)計學(xué)主要以專業(yè)文本為對象,利用SPSS 等統(tǒng)計軟件,統(tǒng)計文本中關(guān)鍵詞、主題詞的出現(xiàn)頻率,獲取詞語共現(xiàn)矩陣,確定文本專業(yè)詞匯,闡述文本主題[6-7];隱馬爾可夫模型將專業(yè)詞提取問題轉(zhuǎn)化為序列標(biāo)記問題,集成詞匯信息與專業(yè)詞句法信息[8];袋決策樹模型是以詞頻為基礎(chǔ),提取文本中的專業(yè)詞;信息熵模型結(jié)合詞頻與共現(xiàn)頻率,計算詞語間的關(guān)聯(lián)度,實現(xiàn)專業(yè)詞的識別[9];條件隨機場模型考慮詞語上下文信息與位置關(guān)系,從單詞本身、單詞在組合型術(shù)語中的位置、詞頻等多個角度出發(fā),完成專業(yè)詞識別[10]。上述有監(jiān)督方法主要從統(tǒng)計學(xué)的角度實現(xiàn)專業(yè)詞的識別,對文本中語義分析不足,使得專業(yè)詞識別的準(zhǔn)確性降低。與有監(jiān)督方法不同,無監(jiān)督方法將統(tǒng)計學(xué)與神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合,關(guān)注文本內(nèi)容與詞語語義,將專業(yè)詞與文本內(nèi)容相結(jié)合,進而提高專業(yè)詞提取的準(zhǔn)確性[11]。無監(jiān)督方法主要通過語義分析、主題提取、序列標(biāo)記、文本分類等方式,識別文本中的專業(yè)詞[12]。Cui 等[13]針對短文本語義分析問題,提出了深度Hashing模型,從語義層面獲得文本中的關(guān)鍵術(shù)語;Wei 等[14]以文本主題為標(biāo)準(zhǔn),提出了一種基于條件共現(xiàn)度的語義主題生成方法,提取語義相關(guān)的組合詞,形成文本主題;陳睿等[15]提出使用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)和條件隨機場進行專業(yè)詞實體識別問題的序列標(biāo)記過程,實現(xiàn)實體詞語的標(biāo)記與分類;Hu 等[16]利用RNN提取文本中詞語特征,利用詞語反映文本信息,實現(xiàn)詞語與文本的分類。然而,現(xiàn)有的無監(jiān)督專業(yè)詞識別方法所能識別的專業(yè)詞多為系統(tǒng)提前定義,或結(jié)巴(Jieba)分詞庫中定義的詞語,且在日常出現(xiàn)頻率較高,對于水利水電工程專業(yè)領(lǐng)域的詞語識別能力較弱。同時,對于詞語間相關(guān)性的計算,多是從統(tǒng)計角度出發(fā),缺乏對詞語間關(guān)系的量化分析[17]。

      基于上述分析,本文引入Attention機制對Word2vec技術(shù)加以改進,以詞向量為基礎(chǔ),計算詞語間相關(guān)性,提取文本中的專業(yè)詞,結(jié)合專業(yè)文本,驗證所提取專業(yè)詞的準(zhǔn)確性,構(gòu)建水利水電工程專業(yè)詞智能識別提取與分析方法,并結(jié)合實際的水利水電工程施工管理文本進行應(yīng)用分析,為水利水電工程建設(shè)與運行智能化管理提供新的技術(shù)方法和手段。

      2 基于NLP的詞向量計算方法

      文本量化的主要手段是詞向量的計算,詞向量計算是NLP的重要基礎(chǔ)環(huán)節(jié),現(xiàn)有詞向量計算方法大多是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,進行計算結(jié)構(gòu)與輸入模式的改進。

      2.1 基于神經(jīng)網(wǎng)絡(luò)的詞向量計算技術(shù)在NLP中存在許多基于神經(jīng)網(wǎng)絡(luò)的詞向量計算技術(shù),如:神經(jīng)網(wǎng)絡(luò)語言模型(Nerual Network Language Model,NNLM)、Word2vec 等,其中,Word2vec是由Miko?lov T 在2013年提出[18],在詞向量計算中被廣泛應(yīng)用[19]。在Word2vec計算詞向量之前,需要對文本進行分詞。在目前已有的中文分詞系統(tǒng)中,Jieba分詞具有較高普遍性與可靠性,能夠?qū)崿F(xiàn)基礎(chǔ)詞匯的識別與標(biāo)注[20]。

      在詞向量計算方法中,應(yīng)用最普遍的是Word2vec技術(shù)[21]。根據(jù)語言表達習(xí)慣,以Jieba分詞結(jié)果為導(dǎo)向,Word2vec技術(shù)的主體理念是根據(jù)句子中詞語間相互作用關(guān)系,定義語句中第n個單詞的出現(xiàn)概率受前面n-1個單詞的影響,如下式:

      式中:P(wn)為語句中第n個單詞出現(xiàn)的概率;w為語句中的單詞。

      Word2vec技術(shù)中包含了2種不同的詞向量計算模型:CBOW(Continuous Bag-of-Words)模型與Skip-gram模型[22]。由于Skip-gram模型的預(yù)測次數(shù)多于CBOW模型,訓(xùn)練時間比CBOW模型要長,適合數(shù)據(jù)量較少的計算,對于文本量較大的數(shù)據(jù)計算復(fù)雜度較高,與Skip-gram模型不同,CBOW模型適合文本數(shù)量較大的運算,具有較高的計算精度。因此本文采用CBOW模型,其核心思想是利用文本中上下文內(nèi)容來預(yù)測句子中某位置可能出現(xiàn)的文字,是一種根據(jù)歷史詞語信息預(yù)測當(dāng)前詞語出現(xiàn)概率的模型,框架結(jié)構(gòu)如圖1所示[23]。

      CBOW模型主要采用三層神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量,處理詞之間的關(guān)系,模型輸入是某個特征詞上下文相關(guān)詞的詞向量,模型輸出是該特定詞的詞向量,隱含層主要通過輸入詞向量訓(xùn)練并預(yù)測特定詞的向量[24]。在CBOW模型中訓(xùn)練目標(biāo)是最大化對數(shù)似然函數(shù)L[25]:

      式中:D(w)表示語句中除詞語w以外的其他詞語;w為語料庫C中的任意一個詞語。

      圖1 Word2vec神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      以對數(shù)似然函數(shù)為導(dǎo)向,計算語料庫中詞w 在文中出現(xiàn)概率,實現(xiàn)特定詞的預(yù)測;以預(yù)測特定詞與實測特定詞相似度最大為目標(biāo),反饋修正輸入詞的詞向量,得到最終詞向量Vword。

      2.2 Attention機制隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的逐步發(fā)展,Attention機制廣泛應(yīng)用于NLP技術(shù)中,對提高文本分析準(zhǔn)確度具有重要作用[26]。Attention機制的本質(zhì)主要來自于人類的視覺注意力機制,人們在觀察認(rèn)知事物時,不是從頭到尾的關(guān)注,而是對有注意的部分關(guān)注,當(dāng)遇到相似場景時,也會將注意力放到該部分上,進而實現(xiàn)對事物的認(rèn)知[27]。Attention機制主要用于提升神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的效果,經(jīng)常與編碼-解碼模型結(jié)合使用,將編碼的數(shù)據(jù)通過Attention機制進行篩選,再輸入解碼模型中,提高數(shù)據(jù)計算的準(zhǔn)確性[28]。與傳統(tǒng)的編碼-解碼過程不同,融合Attention機制的編碼-解碼過程主要采用動態(tài)的語義編碼,實現(xiàn)不同文本環(huán)境下的語義解碼。因此,在文本分析過程中,Attention機制的實質(zhì)主要是實現(xiàn)不同文本語句環(huán)境下的權(quán)重學(xué)習(xí),將學(xué)習(xí)權(quán)重與編碼后的輸出相關(guān)聯(lián),作為解碼的輸入,進而有針對性地實現(xiàn)文本的解碼。在Attention機制計算過程中,主要是實現(xiàn)一個查詢到一系列鍵值對的映射,如下式所示[29]:

      式中:g(Q,R)為一個查詢到一系列鍵值對的映射函數(shù);Q為一個查詢的值;L為Attention機制中的一個鍵值;M為鍵值集合R中的一個值。

      通過式(3)可以看出,Attention機制計算主要分三階段:第一階段是將查詢值Q與每個鍵值L 求相似度;第二階段是使用softmax函數(shù)(Normalized exponential function)對相似度進行歸一化;第三階段是將鍵值M與相應(yīng)權(quán)重進行加權(quán)求和,得到最后注意力值。

      3 水利水電工程專業(yè)詞智能識別提取與分析方法

      3.1 改進Word2vec技術(shù)的詞向量計算模型建立水利水電工程專業(yè)文本中包含許多專業(yè)詞,目前常用的Jieba分詞無法準(zhǔn)確識別;而且文本資料整理人員語言描述規(guī)范性問題,使文本中常存在專業(yè)詞與口語混雜的現(xiàn)象,嚴(yán)重影響文本提取分析的準(zhǔn)確性。Word2vec技術(shù)是基于Jieba分詞基礎(chǔ)上進行,分詞的準(zhǔn)確性直接影響詞向量的準(zhǔn)確性[22]。同時,文本語言上的不規(guī)范,易出現(xiàn)意思相近句子在語言表達上的差異,加之口語化詞匯以及文本中停用詞(如“的”“了”等)的干擾,使得詞向量計算難度增大。

      為避免文本中的干擾詞的影響,結(jié)合中文文本的行文規(guī)范,從主謂賓三個主要句子成分出發(fā),提取文本語句中的關(guān)鍵詞,減少文本中無關(guān)詞的干擾。Attention機制能夠快速定位文本中的焦點信息,依據(jù)少量文本信息做出準(zhǔn)確判斷,從海量文本信息中過濾無效信息[24]。因此,為提高水利水電工程文本詞向量計算精度,在Word2vec技術(shù)中引入Attention機制,在Word2vec的輸入層與隱含層之間,加入Attention機制,如圖2所示,實現(xiàn)對文本中口語化表達與干擾詞的過濾,完成對關(guān)鍵詞的提取。

      圖2 Word2vec+Attention機制網(wǎng)絡(luò)結(jié)構(gòu)

      經(jīng)過Attention機制處理后的Word2vec輸入可表示為:

      式中:V′k為Attention機制處理后第k個詞的Word2vec輸入;Vj為第j個詞的one-hot向量,one-hot 向量是文本單詞量化的一種形式,以0-1表示詞語在文本中是否出現(xiàn),進而將每個詞表征為一個多維向量,以便于文本計算;ωjk為計算第k個詞向量時第j個詞的權(quán)重,計算式如下:

      式中:Wk、Uk是由文本中單詞共現(xiàn)性確定;Zk為注意力模型中需要訓(xùn)練的參數(shù)。

      在Word2vec+Attention機制中,Attention機制的輸出為Word2vec 隱含層輸入,經(jīng)過隱含層計算后,得到文本處理后的第n個單詞的詞向量,計算式如下所示:

      式中 f(V′1,V′2,…,V′n-1)為Word2vec中隱含層函數(shù)。

      3.2 基于詞向量的水利水電工程文本專業(yè)詞識別提取在水利水電工程文本中,受中文表達規(guī)則與習(xí)慣的影響,存在許多不同形式的標(biāo)點符號與停用詞,在進行專業(yè)詞提取中,需要刪除文本中的停用詞、阿拉伯?dāng)?shù)字、標(biāo)點符號與特殊符號等,以提高文本分析的準(zhǔn)確率,減小系統(tǒng)的計算負(fù)荷[30-32]。

      在水利水電工程建設(shè)與運行中,受專業(yè)對象的限制,工程文本中許多專業(yè)詞會重復(fù)出現(xiàn),以保證文本內(nèi)容描述的準(zhǔn)確性與豐富性。在專業(yè)詞的提取過程中,常常會出現(xiàn)以下三類問題:(1)部分專業(yè)詞僅出現(xiàn)在特定的文本部分,具有一定針對性,在文本中出現(xiàn)頻率較低,無法通過統(tǒng)計頻數(shù)的方式獲取;(2)受Jieba分詞庫的限制,部分專業(yè)詞無法準(zhǔn)確識別,導(dǎo)致許多專業(yè)詞可能被分割為多個詞組成。因此,在統(tǒng)計專業(yè)詞時,會出現(xiàn)許多單個詞不是專業(yè)詞,但組合在一起就形成了專業(yè)詞的現(xiàn)象;(3)在文本表達過程中,由于語言表達規(guī)范問題,部分專業(yè)詞可能出現(xiàn)表達上的口語化現(xiàn)象(如安全的管理、質(zhì)量的控制等),導(dǎo)致在分詞過程中,專業(yè)詞組成詞無法相鄰,專業(yè)詞組成詞之間出現(xiàn)其他詞語,使得專業(yè)詞無法直接被識別。

      為解決上述問題,融合詞向量計算過程,分析水利水電工程文本中詞語關(guān)系,發(fā)現(xiàn)如下規(guī)律:(1)頻率低專業(yè)詞的組成詞之間共現(xiàn)頻率較高,但與其他詞之間的共現(xiàn)頻率較低;(2)無論專業(yè)詞的組成詞是否相鄰,專業(yè)詞的組成詞在同一句話中的共現(xiàn)頻率較高;(3)文本中詞之間共現(xiàn)頻率越高,詞語間相似度較高[33]?;谏鲜鋈齻€特征,結(jié)合文本詞向量,計算詞語之間的相似度,利用相似度判別詞語間的相關(guān)性大小,發(fā)掘文本中的低頻專業(yè)詞,處理文本中的口語化表達,將相關(guān)性較大的詞進行組合形成初始專業(yè)詞。詞語相似度計算公式如下:

      式中:Ski為文本中詞i與詞k之間的相似度;V′為詞向量。

      在文本中不是每個詞都能組成專業(yè)詞,因此,為減小專業(yè)詞提取工作量,將某個詞的相似度進行降序排列,取每個詞相似度最大的前m個詞進行組合,公式如下:

      式中S ′k為詞k 相似度最大的前m個詞集合。

      在集合S ′k中,當(dāng)詞k與詞i 具有較高相似度時,以詞k為主體,詞i組合在詞k的右邊,逐步提取專業(yè)詞,形成初始專業(yè)詞集合T。

      3.3 識別提取可信度驗證可信度是指初始專業(yè)詞集合中專業(yè)詞的可信程度,即判斷專業(yè)詞的專業(yè)性與獨立應(yīng)用性。以詞間相似度為衡量指標(biāo),在初始專業(yè)詞集合中,每個詞都有m個相關(guān)詞與之組合,詞語的組合形式存在以下兩個問題:(1)由于文本詞語眾多,專業(yè)詞的組成詞較少,存在許多干擾詞,在專業(yè)詞的提取過程中,干擾詞也會逐一組合,成為初始專業(yè)詞集合T中的元素;(2)以相似度為衡量標(biāo)準(zhǔn),組合專業(yè)詞的組成詞,會出現(xiàn)兩種組合結(jié)果,但專業(yè)詞只滿足其中一種組合,因此,初始專業(yè)詞集合T中存在專業(yè)詞組合錯誤的元素。因此,需構(gòu)建專業(yè)詞評判標(biāo)準(zhǔn)文本,對組合的專業(yè)詞進行進一步判斷,驗證專業(yè)詞的正確性。在水利水電工程建設(shè)與運行過程中,為規(guī)范工程管理過程,理清管理思路,構(gòu)建標(biāo)準(zhǔn)工程建設(shè)體系,存在許多專業(yè)書籍、國家標(biāo)準(zhǔn)和行業(yè)規(guī)范等,包含了大量規(guī)范的專業(yè)詞。基于這些標(biāo)準(zhǔn)文本,判別初始專業(yè)詞集合中的元素是否在標(biāo)準(zhǔn)本中出現(xiàn),統(tǒng)計初始專業(yè)詞集合中元素在標(biāo)準(zhǔn)文本中的出現(xiàn)頻率,歸納出現(xiàn)頻率大于0的詞,驗證初始專業(yè)詞集合T中的詞是否在標(biāo)準(zhǔn)文本中出現(xiàn);如果出現(xiàn)頻率等于0,則表明該詞屬于干擾詞與錯誤組合詞,應(yīng)將該詞剔除,進而判斷該詞是否被標(biāo)準(zhǔn)文本使用,排除初始專業(yè)詞集合T中的干擾詞及錯誤組合,實現(xiàn)專業(yè)詞的識別。

      文本中的專業(yè)詞并非只包含兩個組成詞,存在多個組成詞的情況,對于標(biāo)準(zhǔn)文本驗證后的專業(yè)詞,可能屬于某個專業(yè)詞的組成詞。因此,標(biāo)準(zhǔn)文本驗證后的專業(yè)詞存在以下兩個問題:(1)文本中詞的組合主要涉及的是兩個詞的組合,在實際分詞過程中,部分詞可能被分成三個或者三個以上的組成詞,進而導(dǎo)致兩兩組合出現(xiàn)誤差;(2)當(dāng)一個專業(yè)詞有多個組成詞,無法判斷專業(yè)詞組成詞是否屬于專業(yè)詞。如果某詞被標(biāo)準(zhǔn)文本驗證后的專業(yè)詞只能作為其他專業(yè)詞組成詞,不能被獨立使用,但由于專業(yè)詞組成詞與專業(yè)詞會同時出現(xiàn)標(biāo)準(zhǔn)文本中,會被標(biāo)準(zhǔn)文本驗證,從而造成專業(yè)詞識別錯誤的情況。

      針對文本中多個詞語組合問題,將已識別的專業(yè)詞導(dǎo)入Jieba分詞庫,多次迭代專業(yè)詞識別流程,進而識別多個詞語組合的專業(yè)詞;針對專業(yè)詞的組成詞是否是專業(yè)詞的問題,存在兩種不同的情況:一種是驗證后的專業(yè)詞屬于獨立專業(yè)詞,可以單獨使用;另一種是驗證后的專業(yè)詞不屬于專業(yè)詞,不能單獨使用,僅僅是其他專業(yè)詞的組成詞。結(jié)合上述兩種情況,可以得到詞語獨立性是判斷專業(yè)詞組成詞是否是專業(yè)詞的關(guān)鍵。詞語獨立性是通過對比專業(yè)詞組成詞與專業(yè)詞在標(biāo)準(zhǔn)文本中的出現(xiàn)頻率來實現(xiàn),如果專業(yè)詞組成詞與專業(yè)詞具有相同的出現(xiàn)頻率,專業(yè)詞組成詞不是專業(yè)詞;如果專業(yè)詞組成詞與專業(yè)詞具有不同的出現(xiàn)頻率,專業(yè)詞組成詞是專業(yè)詞。具體如下式所示:

      式中:詞語A是專業(yè)詞AB的組成詞,兩者屬于真包含關(guān)系;F (A)與F (AB)分別表示詞語A與專業(yè)詞AB 在標(biāo)準(zhǔn)文本中的詞頻。

      當(dāng)某兩個詞在標(biāo)準(zhǔn)文本中的詞頻相同時,且一個詞是另一個詞的組成詞,則表示該組成詞在標(biāo)準(zhǔn)文本中不能獨立應(yīng)用,只能以組成詞的形式出現(xiàn),無法定義其為專業(yè)詞。

      綜上所述,水利水電工程專業(yè)詞識別提取的驗證過程如圖3所示。

      3.4 方法實現(xiàn)結(jié)合水利水電工程專業(yè)詞提取與可信度驗證過程,其方法實現(xiàn)流程如圖4所示,具體操作步驟如下:

      (1)預(yù)處理水利水電工程專業(yè)文本,收集權(quán)威書籍、標(biāo)準(zhǔn)規(guī)范等標(biāo)準(zhǔn)文本,對文本進行分詞;(2)利用標(biāo)準(zhǔn)文本進行識別,篩選出現(xiàn)有Jieba分詞能夠直接識別的專業(yè)詞;

      圖3 專業(yè)詞識別驗證流程

      圖4 水利水電工程專業(yè)詞識別提取實現(xiàn)流程圖

      (3)計算文本中詞語間的相似度,將文本中的詞兩兩組合,形成初始專業(yè)詞集合,利用標(biāo)準(zhǔn)文本進行提煉,實現(xiàn)專業(yè)詞識別;

      (4)將已識別的專業(yè)詞導(dǎo)入Jieba分詞庫,對文本進行Jieba分詞,組合形成的專業(yè)詞詞向量為組成詞詞向量加權(quán)平均,計算分詞后詞間相似度,利用標(biāo)準(zhǔn)文本,驗證專業(yè)詞的可信度;

      (5)統(tǒng)計已識別的具有真包含關(guān)系專業(yè)詞,即專業(yè)詞與專業(yè)詞組成詞,計算專業(yè)詞在標(biāo)準(zhǔn)文中的出現(xiàn)頻率,利用式(10)進一步提煉專業(yè)詞;

      (6)重復(fù)步驟(4)和步驟(5),直到最終沒有新的專業(yè)詞被識別為止。

      4 實例應(yīng)用與分析

      某混凝土大壩施工周期為54個月,期間由監(jiān)理單位監(jiān)督管理整個工程施工進度、質(zhì)量、安全、環(huán)保等,總共獲得施工監(jiān)理周報229期,包含工程進度、工程質(zhì)量、工程安全、環(huán)??刂?、設(shè)計管理、施工資源和監(jiān)理管理等主要內(nèi)容,詳細(xì)記錄了施工過程中各個工程管理細(xì)節(jié)、施工工藝等,每期約10 000字(不包含圖片),文本信息豐富,含有大量的專業(yè)詞,采用所提出的方法對專業(yè)文本進行智能識別提取與分析。

      4.1 專業(yè)文本詞向量計算在進行專業(yè)詞識別之前,需預(yù)訓(xùn)練文本的詞向量。為保證文本詞向量的準(zhǔn)確性,在詞向量計算過程中,無須預(yù)處理文本,盡量保持文本結(jié)構(gòu)完整。以原有Word2vec技術(shù)中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),構(gòu)建Word2vec+Attention機制計算網(wǎng)絡(luò),定義向量維度為128,計算文本的詞向量,得到每個詞的詞向量。為驗證所得詞向量的準(zhǔn)確性,以Word2vec+Attention機制計算得到的詞向量為基礎(chǔ),對比Word2vec得到的詞向量。將模型迭代20次,計算Word2vec與Word2vec+Attention機制的損失值,如圖5所示。

      圖5 Word2vec+Attention機制損失值與準(zhǔn)確率

      以損失值與準(zhǔn)確率為評價指標(biāo),據(jù)圖可知當(dāng)?shù)?、3次時,Word2vec+Attention機制的損失值大于Word2vec,當(dāng)?shù)螖?shù)大于4次時,Word2vec+Attention機制的損失值小于Word2vec。Word2vec與Word2vec+Attention機制準(zhǔn)確率隨著迭代次數(shù)的增加逐漸增加,最終趨于穩(wěn)定,Word2vec的準(zhǔn)確率為86.78%,Word2vec+Attention機制的準(zhǔn)確率為89.73%,驗證得到Word2vec+Attention機制在詞向量的計算結(jié)果優(yōu)于Word2vec。

      4.2 專業(yè)詞識別提取監(jiān)理周報內(nèi)容信息來源于施工現(xiàn)場,真實反映水利水電工程施工現(xiàn)場進度、質(zhì)量、安全、環(huán)境等問題。在監(jiān)理周報中,存在許多結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)混合的表格,為充分分析文本內(nèi)容,需要提取表格中的文本信息。同時,對于文本中的一些標(biāo)點符號與特殊符號需要進行清洗,以減少數(shù)據(jù)運算壓力。在水利水電工程專業(yè)詞識別過程中,由于阿拉伯?dāng)?shù)字與計量單位在專業(yè)詞中的出現(xiàn)頻率較低,在文本預(yù)處理過程中,將施工管理文本中的阿拉伯?dāng)?shù)字、計量單位、標(biāo)點符號、特殊符號、停用詞去除,進而減少計算難度,保證專業(yè)詞提取精度。

      為驗證所提取專業(yè)詞的準(zhǔn)確性,以水利水電工程施工監(jiān)理管理工作為基礎(chǔ),收集行業(yè)內(nèi)權(quán)威的書籍、標(biāo)準(zhǔn)規(guī)范、部門規(guī)定、管理手冊等,作為驗證專業(yè)詞的標(biāo)準(zhǔn)文本。結(jié)合該工程監(jiān)理報告編寫依據(jù)與行業(yè)相關(guān)的專業(yè)書籍,收集了相關(guān)專業(yè)書籍、國家標(biāo)準(zhǔn)和行業(yè)規(guī)范[34-39],將提取的專業(yè)詞與上述標(biāo)準(zhǔn)文本進行匹配,實現(xiàn)專業(yè)詞的識別。

      利用Jieba分詞處理預(yù)處理后的文本,分詞后的文本中包含10 541個詞,經(jīng)過標(biāo)準(zhǔn)文本過濾后,得到136個專業(yè)詞詞云與頻率,如圖6所示。

      圖6 水利水電工程專業(yè)詞詞云與頻率

      水利水電工程監(jiān)理周報中存在大量專業(yè)詞,Jieba分詞無法準(zhǔn)確識別,因此,為解決這個問題,將136個專業(yè)詞導(dǎo)入Jieba分詞庫,對文本進行二次分詞,在Word2vec技術(shù)中引入Attention機制,將詞向量維度定義為128,計算每個詞的詞向量,依據(jù)式(8),計算得到詞之間的相似度。定義每個詞最相關(guān)的前8個詞作為專業(yè)詞組成詞,最終得到如表1所示的詞語間相似度及相關(guān)性較強的詞語。

      表1 相關(guān)性較強詞語

      利用標(biāo)準(zhǔn)文本對每個專業(yè)詞進行驗證,得到最終的專業(yè)詞。將已識別的專業(yè)詞導(dǎo)入Jieba分詞庫,對監(jiān)理周報進行再分詞,專業(yè)詞的詞向量等于其組成詞詞向量加權(quán)平均,根據(jù)詞向量計算詞語間相似度,利用標(biāo)準(zhǔn)文本驗證專業(yè)詞,進一步識別提取新的專業(yè)詞。逐步重復(fù)專業(yè)詞生成過程,直到新生成專業(yè)詞在標(biāo)準(zhǔn)文本中的出現(xiàn)次數(shù)為0為止。在新生成的專業(yè)詞中,存在一些常規(guī)語言表達、不完全描述、專業(yè)術(shù)語組成詞等,這些詞都屬于干擾詞。常規(guī)語言的表達結(jié)構(gòu)不屬于專業(yè)名詞,可以獨立表達句子含義,如“近期陰雨天氣較少”“留待日后統(tǒng)一處理”等;不完全描述主要包含兩個方面,一方面是還未描述完全的句子,如“監(jiān)理對表面質(zhì)量”“使用情況進行”等,另一方面是由于在預(yù)處理階段,刪除了數(shù)字與特殊符號,進而形成的不完全描述,如“完成量占設(shè)計量”“本周投入運行”“累計生產(chǎn)混凝土約”等。將新生成專業(yè)詞中的干擾詞剔除,統(tǒng)計剔除干擾詞后的專業(yè)詞數(shù)量,計算專業(yè)詞提取準(zhǔn)確率。與專業(yè)詞提取可信度不同,專業(yè)詞可信度檢驗是一種判斷流程,主要是為判斷初始專業(yè)詞集合中詞語的專業(yè)性與獨立應(yīng)用性,準(zhǔn)確率則是表達在經(jīng)過專業(yè)詞智能提取后,所形成專業(yè)詞的準(zhǔn)確程度,如下式:

      以229份監(jiān)理報告為對象,最終經(jīng)過3輪迭代,在第4輪迭代時,通過標(biāo)準(zhǔn)文本檢驗的單詞數(shù)為0,因此,只需3輪迭代計算完成專業(yè)詞的識別,各輪次的識別結(jié)果如表2所示。

      經(jīng)過3輪專業(yè)詞識別提取,采用融入Attention機制的Word2vec技術(shù)得到9034個專業(yè)詞,以專業(yè)文本為依據(jù),逐一判別所提取專業(yè)詞的正確性,準(zhǔn)確提取的專業(yè)詞為7912個,準(zhǔn)確率為87.58%,總體識別精度較高;加上Jieba分詞直接識別的專業(yè)詞,總共得到有效水利水電工程施工管理專業(yè)詞8048個。

      通過對比Word2vec+Attention機制與單獨采用Word2vec技術(shù)的專業(yè)詞識別準(zhǔn)確率,可以得到單獨采用Word2vec技術(shù)專業(yè)詞數(shù)為8575個,其中準(zhǔn)確提取的專業(yè)詞數(shù)為7085個,準(zhǔn)確率為82.62%,低于Word2vec+Attention機制的專業(yè)詞識別精度。單獨采用Word2vec技術(shù)無法識別一些語言表達上的誤差,例如工程質(zhì)量的評定、齒槽混凝土的質(zhì)量、細(xì)骨料中石粉含量的合格率等,進而導(dǎo)致專業(yè)詞識別數(shù)量與準(zhǔn)確率降低。同時對比識別提取過程中的準(zhǔn)確率,可以看到Word2vec+Attention機制在各迭代輪次的準(zhǔn)確率比單獨采用Word2vec技術(shù)有較大提升,進一步驗證了融入Attention機制的Word2vec技術(shù)的有效性。對比Word2vec技術(shù)與Word2vec+Attention機制的計算時間,Word2vec技術(shù)完成3輪迭代所需時間為276 min,Word2vec+Attention機制完成3輪迭代所需時間為384 min,由于Attention機制突出強調(diào)了各個句子中重點詞,從而增加了計算步驟,所以時間會增長,但相較于Word2vec技術(shù),Word2vec+Attention機制計算時間增加值較小,且有效的提高了專業(yè)詞提取準(zhǔn)確率與計算精度,因此從運行效率的層次說明了Word2vec+Attention機制的可操作性。此外,無論是Word2vec技術(shù)還是Word2vec+Attention機制,各輪次準(zhǔn)確率的變化趨勢基本相同,隨著輪次的增加,專業(yè)詞識別的準(zhǔn)確率逐步降低。這是因為,Jieba分詞直接識別的專業(yè)詞主要屬于基礎(chǔ)專業(yè)詞,第一輪識別提取的專業(yè)詞組成詞多為基礎(chǔ)專業(yè)詞,組成詞個數(shù)較少,詞語組合的復(fù)雜度較低,專業(yè)詞識別的準(zhǔn)確度較高;在第二、三輪識別提取過程中,專業(yè)詞的組成詞個數(shù)增加,詞語的組合形式及表達形式更為復(fù)雜多樣;同時,隨著專業(yè)詞組成詞數(shù)量的增加,專業(yè)詞應(yīng)用頻率較低,導(dǎo)致專業(yè)詞判別出現(xiàn)誤差,進一步影響專業(yè)詞識別的準(zhǔn)確率。

      表2 各輪迭代專業(yè)詞識別提取結(jié)果

      5 結(jié)論

      本文將Attention機制融入Word2vec技術(shù),計算了專業(yè)文本詞語相似度,實現(xiàn)了水利水電工程專業(yè)詞的智能識別提取與分析,得到以下結(jié)論:

      (1)在已有Word2vec技術(shù)的基礎(chǔ)上,引入Attention機制,關(guān)注專業(yè)文本語句中的重點詞匯,構(gòu)建了Word2vec+Attention機制的改進算法,計算文本詞向量;以詞向量為基礎(chǔ),計算詞語之間的相似度,獲得相關(guān)性較強詞語組合,依據(jù)專業(yè)文本判斷專業(yè)詞的正確性,提出了水利水電工程專業(yè)文本智能分析方法,實現(xiàn)專業(yè)詞的識別提取。

      (2)以實際水利水電工程監(jiān)理周報為實例,根據(jù)所建立的專業(yè)詞識別體系,計算監(jiān)理周報詞語間相似度,提取監(jiān)理周報中的專業(yè)詞;引入與監(jiān)理管理相關(guān)的專業(yè)文本,驗證專業(yè)詞的準(zhǔn)確性,實現(xiàn)專業(yè)詞進一步提煉;經(jīng)過3次專業(yè)詞識別,獲得專業(yè)詞9034個,識別準(zhǔn)確率為87.58%,驗證了所提出方法的有效性和準(zhǔn)確性。

      (3)專業(yè)詞的識別能夠提高文本分詞質(zhì)量,提升水利水電工程信息的分析效率,為水利水電工程文本智能管理奠定基礎(chǔ)。但是,在水利水電工程施工管理專業(yè)詞識別過程中,存在大量的標(biāo)準(zhǔn)文本,標(biāo)準(zhǔn)文本的深度與廣度影響著專業(yè)詞識別的準(zhǔn)確率。因此,需收集更多水利水電工程專業(yè)文本,進一步提高專業(yè)詞識別提取的準(zhǔn)確率。同時,在準(zhǔn)確率的判斷過程中,還存在人工判斷過程,可能出現(xiàn)人工誤差,在后期需要進一步修正,提高計算精度。

      因此,結(jié)合專業(yè)詞識別方法,在下一步研究中,以已識別專業(yè)詞為基礎(chǔ),利用深度學(xué)習(xí)算法,分析文本信息間的相互依存關(guān)系與語義結(jié)構(gòu),提取水利水電工程文本中的關(guān)鍵知識與重要信息,構(gòu)建面向文本數(shù)據(jù)分析的水利水電工程文本信息的智能分類與檢索體系。實現(xiàn)文本數(shù)據(jù)的深度挖掘,增強水利水電工程文本分析管理效率,為水利水電工程信息化與智能化管理提供新的手段。

      猜你喜歡
      分詞水利水電準(zhǔn)確率
      水利水電工程
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      農(nóng)村水利水電
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      值得重視的分詞的特殊用法
      MD4-1000在水利水電工程中的應(yīng)用
      水利水電工程趕工索賠闡述
      茶陵县| 襄垣县| 芒康县| 五家渠市| 安阳市| 芜湖市| 睢宁县| 海原县| 平谷区| 梓潼县| 武义县| 城步| 东明县| 阿克苏市| 武汉市| 宜兰县| 通城县| 永和县| 新龙县| 衡水市| 平安县| 林口县| 洱源县| 浦东新区| 涪陵区| 邢台市| 衡东县| 长寿区| 五常市| 莱州市| 凌云县| 永昌县| 井研县| 谢通门县| 大庆市| 舟山市| 和顺县| 辰溪县| 甘孜县| 积石山| 通辽市|