• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本相似度算法在核電廠備件管理上的應用

      2022-05-07 11:15:34周自強王文浩李政翰姜久超
      河北水利電力學院學報 2022年1期
      關鍵詞:特征詞壓力表余弦

      周自強,王文浩,李政翰,姜久超

      (1.遼寧紅沿河核電有限公司儀控處,遼寧省大連市中山區(qū)南山路127號 116000;2.中海油田服務股份有限公司,中國天津市塘沽海洋高新技術開發(fā)區(qū)海川路1581號 300459;3.廣西科技大學電氣電子與計算機科學學院,廣西省柳州市官塘大道19號 545106;4.河北水利電力學院電氣自動化系,河北省滄州市黃河西路49號 061001)

      核電廠設備紛繁復雜,各類備品備件種類多、數(shù)量大,備品備件的管理工作直接影響企業(yè)的效益和生產(chǎn)任務的保障。由于核電機組的建設維護中用到了數(shù)以萬計的備品備件,用科學的方法對備件進行管理對于控制企業(yè)庫存資金占用、降低采購成本、提高機組保障水平有重要意義。

      現(xiàn)代企業(yè)備件管理一般采用信息系統(tǒng)來完成,通過備件的描述和數(shù)字編碼將不同的備件進行區(qū)分,在備件信息錄入管理系統(tǒng)之前將備件進行去重、分類等前期工作,對后續(xù)的備件管理大有裨益。技術人員進行備件分類、去重等工作時,主要根據(jù)設備名稱、規(guī)格等文字信息,可以將名稱、規(guī)格等文字描述組成描述特定備件的文本,這類問題就可以通過文本相似度計算來解決[1]。例如在重復備件識別中,第一步要做的是從備件清單中篩選出名稱相近的備件,例如壓力表[Y-100BF 0-1.6MPa 1.6級m20*1.5]和壓力表[Y-100B-FZ 0~1.6MPa m20*1.5],這兩塊壓力表的量程、接口及部分型號信息相同,有較大的的可能是相同設備,之后通過查詢設備說明書或對庫存設備進行檢查就可以判斷出二者是否為同一設備。相同備件識別開始于對相似描述的篩選,該任務可轉換為在自然語言處理(Natural Language Processing,NLP)中的文本相似度的計算問題。計算文本相似度的計算步驟包括:將目標文本碎片化;創(chuàng)建文本集合的詞向量空間并將目標文本向量化;通過文本距離、TF-IDF、LSI以及深度學習相關算法計算相似度值。

      1 常用文本相似度算法介紹

      1.1 基于詞袋模型的文本余弦距離算法

      在比較多個文本之間的相似程度時,可將其中的詞語映射到空間中,將文本以空間向量的形式表示[2],通過計算向量的相似程度得到文本的相似度。用S表示某段文字,組成這段文字的特征詞用W表示,則文字的向量空間表示為S(W1,W2,…Wk…,Wn),其中Wk是文本中的第k個特征詞,由x1,x2,x3,x4,x5這5個特征詞組成的一段文字,可以用S(a,b,c,d,e)表示,其中a,b,c,d,e是各個特征詞出現(xiàn)的次數(shù)。為了將向量歸一化,將需要進行相似度比較文本的特征詞并集作為分母,將各個文檔以特征詞的權重進行表示,則有

      S=S(T1,T2,…Tk…,Tn)

      (1)

      其中Tk是Wk的權重。

      圖1 二維空間向量Fig.1 Two dimensional space vector

      兩個文本S1,S2的余弦相似度公式Similarity(S1,S2)為

      (2)

      式中Ai,Bi表示文本S1,S2中第i個特征詞的權重。從式中得出,兩個文本的余弦相似度就是多維空間兩點與所設定的點形成夾角的余弦值,把向量看成從原點[0,0……,0]開始的兩條線段,它們的余弦值在[-1,1],文本相似度比較轉化成比較兩個向量的長度和夾角。若向量之間角度為0且長度相同,則兩段文字越接近;相反若角度為180度余弦為-1,則表示兩段文字差異越大。這種計算方法簡單易懂,能對文字進行統(tǒng)計比較,在實際工作中有較多的應用。

      為了將文本相似度算法應用在備件管理中,需要對設備名稱、規(guī)格等文字描述進行碎片化處理,從而得到特征詞,該過程可通過自然語言處理的分詞過程來實現(xiàn)[3],如對表1中的5種壓力表的名稱利用詞袋模型進行相似度計算時,首先需要將文字描述碎片化,將描述分割成詞語、數(shù)字或符號的集合,找出設備特征詞的字典。碎片化后描述中有無意義的符號如“[“、"]"、“-"等,因此在確定詞語的字典時需要將這些符號剔除,最后得到5種設備描述的字典為[“*”,“1Mpa”,“MPa”,“150B”,“1.0”,“Y”,“1.6”,“不銹鋼”,“FZ”,“YBFZ”,“級”,“1.5”,“150”,“100BF”,“60B”,“壓力表”,“0”,“0.4”,“F”,“m20”,“ ”]。

      表1 描述分割

      在得到備件描述的字典模型后,將設備描述分別用向量進行表示,之后計算向量的余弦值。表2是5種壓力表的向量表示和“壓力表[Y-60B-FZ 0-1.0MPa 1.6級]”與5種壓力表描述的余弦相似度。

      表2 余弦相似度

      通過上述介紹的基于詞袋模型的文本余弦距離算法進行計算,可以得到幾種備件的相似度。從中可以看出“壓力表[Y-60B-FZ 0-1.0MPa 1.6級]”與“壓力表[Y-60B-FZ 0-0.4MPa 1.6級]”相似度很高,兩者只是量程范圍不同。

      1.2 基于TF-IDF模型的文本相似度算法

      一個詞語在文章中出現(xiàn)的頻率越高,那么這個詞語與文章主題越接近,出現(xiàn)頻率越低,則與文章的主題關系越小[4],因此詞頻TF(Term Frenquency)是反映文章主題的重要標志。逆向文檔頻率IDF(Inverse Document Frequency)指的是在不同的文章庫中,包含某個特定詞語的文章越少,則該特定詞語對區(qū)別文章的作用越大,是詞語對于整個文章集重要性的判斷依據(jù)。在文章或者其他語料中,包含某個詞語的文章越少,則IDF值越大[5]。一個詞語在一篇文章中出現(xiàn)的頻率(TF)高而在其他文章中出現(xiàn)頻率(IDF)低,那么這個詞語就有較高的區(qū)分度,能夠以此為依據(jù)對文章進行識別。

      在文本Sj里詞語wi出現(xiàn)的頻率可以表示為:

      (3)

      式中nij表示詞語wi在文章Sj中出現(xiàn)的次數(shù),分母表示文章Sj中所有詞語出現(xiàn)的總次數(shù)。例如在文章中詞語出現(xiàn)了25次,文章中所有詞語一共出現(xiàn)了250次,則TF為25/250=0.10。

      對于特定詞的IDF,由文章集合或文本集合中包含對象的數(shù)量除以包含該詞語的文章數(shù)來表示,為了防止在實際統(tǒng)計中出現(xiàn)某文章中不包含特定詞語而導致分母為零的情況,可在實際統(tǒng)計時將分母加1,之后對上述結果取對數(shù),表示為

      加強對土壤的監(jiān)測和科技管理,是提高土壤耕地地力水平的重要措施。相關部門必須要明確自身的職責,加強土壤監(jiān)測力度。同時還需要加強對土壤監(jiān)測過程中的科技投入,成立專門的監(jiān)測調查小組,加強對土壤質量的調查和監(jiān)測,形成長期跟蹤監(jiān)測機制。一旦發(fā)現(xiàn)土壤出現(xiàn)被污染的情況,要及時對土壤進行治理,減少土壤的耕作量,等到土壤條件恢復之后再進行耕作。

      (4)

      式中{S}表示文檔庫中包含文章的篇數(shù),分母為含有指定特征詞的文章篇數(shù)。在某個文檔集合中有500篇文章,其中包含某個特征詞的文章數(shù)為39,則這個特征詞的IDF值為ln(500/40)=2.526。

      基于TF-IDF的向量空間相似度計算是以詞頻TF和逆向文檔頻率IDF的乘積來衡量不同文章的相似度,它與該詞出現(xiàn)的頻率成正比,與在文章集合中出現(xiàn)的次數(shù)成反比[6]。一個詞在不同文章中出現(xiàn)的頻率越低,它來區(qū)別不同文章的意義越強。通過TF-IDF方法,可以得出文章中詞語的重要性,找出文章的特征項,通過計算詞頻,建立權重向量空間,最后通過計算權重向量的余弦值判斷文本的相似性[7]。

      同樣以上述5種壓力表的描述進行TF-IDF相似度計算得到表3。

      表3 TF-IDF相似度

      2 文本相似度在備件管理上的應用

      2.1 相似備件的識別

      由于核電廠大量設備從國外采購,在后期倉儲管理時同一備品備件普遍存在多個相似名稱,給設備采購和現(xiàn)場使用帶來諸多不便,也給倉儲管理、成本控制等帶來挑戰(zhàn)。為了解決該問題,需要備件管理人員花費大量的精力去對備件的名稱和詳細信息進行篩選,應用文本相似度算法對相似備件進行篩查,能極大降低人員工作量。

      把某工廠倉庫中部分壓力表清單進行相似度比較,基準對象為“壓力表[Y-60B-FZ 0-1.0MPa 1.6級]”,相似度見表4,序號1為對象本身相似度約等于1,與其相似度最高的為序號21。通過比較相似度不難發(fā)現(xiàn)相似度接近的設備是相同設備的可能性越高。

      表4 壓力表描述相似性排列

      2.2 備件的分類及檢索

      文本相似度算法還可應用于備件分類及檢索。通過計算庫存清單中備件之間的相似性后設定相應的分類區(qū)間閾值,就可以完成對備件清單的分類任務,文本相似度算法實現(xiàn)備件分類的流程如圖2。

      圖2 備件分類流程圖Fig.2 Flow chart of spare parts classification

      備件的檢索功能與分類類似,通過將要搜索的設備名稱信息與庫存總清單進行切分,構成全體集合的空間向量集合,之后通過計算目標設備名稱與庫存總清單各項設備的相似度并進行排序,將檢索對象依據(jù)相似度由高到低依次排列從而實現(xiàn)了備件的檢索功能,如圖3。

      圖3 備件檢索流程圖Fig.3 Flow chart of spare parts retrieval

      3 結論

      核電廠的備件管理是一項復雜的系統(tǒng)工程,對海量備件進行去重、分類等細化管理無疑能夠有效提高管理效率。文章中詳細介紹了備件去重、分類及檢索的原理和實現(xiàn)方法[8-9],將語言文字問題和工程技術問題轉換成數(shù)學計算,能夠拓寬計算機在企業(yè)管理中的應用,對提高人員效率有較大幫助,對于優(yōu)化工廠備品備件數(shù)據(jù)庫,解決倉儲管理問題有一定價值。而在遇到復雜設備時,僅依靠名稱特征詞描述難以有效識別,需要將設備的具體參數(shù)加入識別特征詞當中,或者考慮將相似設備的說明書加入相似識別過程中,從而提高設備的準確度。

      猜你喜歡
      特征詞壓力表余弦
      彈性元件式一般壓力表檢定過程中幾個問題的探討
      壓力表在煉化裝置上的應用
      基于改進TFIDF算法的郵件分類技術
      產(chǎn)品評論文本中特征詞提取及其關聯(lián)模型構建與應用
      兩個含余弦函數(shù)的三角母不等式及其推論
      壓力表半自動化檢定系統(tǒng)的組建及應用
      分數(shù)階余弦變換的卷積定理
      圖像壓縮感知在分數(shù)階Fourier域、分數(shù)階余弦域的性能比較
      自來水電子壓力表的設計
      面向文本分類的特征詞選取方法研究與改進
      渝中区| 万荣县| 当雄县| 汕尾市| 商水县| 视频| 垦利县| 青浦区| 高阳县| 榆中县| 油尖旺区| 陆河县| 图木舒克市| 佳木斯市| 丰台区| 达州市| 黄浦区| 墨竹工卡县| 陆河县| 图木舒克市| 梁河县| 娱乐| 东莞市| 防城港市| 泰宁县| 新竹市| 新宁县| 德清县| 云和县| 休宁县| 海淀区| 新野县| 公主岭市| 怀安县| 双江| 鲁甸县| 东平县| 石柱| 峨眉山市| 博兴县| 冀州市|