• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      計(jì)量檢定裝置智能運(yùn)維知識(shí)庫(kù)的構(gòu)建與應(yīng)用研究

      2021-01-11 10:12:54陳雅倫高銘澤趙興旺
      自動(dòng)化與儀表 2020年12期
      關(guān)鍵詞:詞頻分詞知識(shí)庫(kù)

      陳雅倫,凌 璐,高銘澤,趙興旺

      (南瑞集團(tuán)(國(guó)網(wǎng)電力科學(xué)研究院)有限公司,南京210000)

      近年來(lái),在省級(jí)計(jì)量中心智能化建設(shè)的推進(jìn)下,各省公司基本建成了計(jì)量自動(dòng)化生產(chǎn)系統(tǒng),有效支撐了計(jì)量器具和用電信息采集設(shè)備的集中檢定工作[1]。目前主要運(yùn)維方式是人工巡檢,以人工方式開展、事后彌補(bǔ)手段為主,然而隨著大量新型、先進(jìn)自動(dòng)化設(shè)備的廣泛應(yīng)用,系統(tǒng)規(guī)模大、專業(yè)性強(qiáng)、復(fù)雜度高,傳統(tǒng)依靠人工處理故障的方式滿足不了低成本高效率的要求,無(wú)法做到精益化科學(xué)管理[2]。因此,為了加快設(shè)備故障的處理速度,提升運(yùn)維水平和運(yùn)維質(zhì)量,需要通過(guò)分析線下歷史運(yùn)維日志以及故障處理方法相關(guān)材料建立一個(gè)能夠?qū)崿F(xiàn)智能應(yīng)答的知識(shí)庫(kù)[3-8]。

      國(guó)內(nèi)現(xiàn)有的運(yùn)維知識(shí)庫(kù)檢索方式主要采用知識(shí)檢索匹配方式,通過(guò)基于文本分析計(jì)算詞頻(term frequency,TF)和逆文本頻率指數(shù)(inverse document frequency,IDF) 確定文章關(guān)鍵詞,TF-IDF 值越大表明單詞在文章中的重要程度越高,就越可能是關(guān)鍵詞。然而,考慮到搜索語(yǔ)句常常包含“一詞多義”和“一義多詞”的情況,現(xiàn)有的脫離語(yǔ)義的文本分析方法會(huì)造成檢索結(jié)果不夠精確[9-10],導(dǎo)致計(jì)量檢定裝置故障處理過(guò)程中出錯(cuò)風(fēng)險(xiǎn)增大,不利于智能運(yùn)維工作的開展。

      本文在歷史運(yùn)維數(shù)據(jù)的基礎(chǔ)上構(gòu)建智能運(yùn)維知識(shí)庫(kù)模型,輸入查詢數(shù)據(jù)時(shí)通過(guò)相似度計(jì)算,得到相似度排序,排序靠前的作為最優(yōu)方案。同時(shí)根據(jù)用戶反饋進(jìn)行不斷地完善,構(gòu)建了能夠智能推薦處理方法并能通過(guò)用戶使用反饋進(jìn)行自學(xué)習(xí)的智能運(yùn)維知識(shí)庫(kù),幫助運(yùn)維人員提升故障響應(yīng)速度、運(yùn)維水平和運(yùn)維質(zhì)量。

      1 LDA 模型

      1.1 模型理論

      LDA 模型是基于語(yǔ)義分析的文檔主題生成模型,它深入挖掘語(yǔ)義的方法為對(duì)每個(gè)文本提煉該文本的主題分布,即在文本(document,已知)和文本中詞(word,已知)中間加入一個(gè)隱變量主題(topic,未知)。在LDA 模型中,給定文檔dj,詞wi出現(xiàn)的概率P(wi∣dj)是確定的,而P(wi∣dj)=ΣkP(wi∣tk)P(tk∣dj)中的P(wi∣tk)和P(tk∣dj)由于含有隱變量是需要學(xué)習(xí)的項(xiàng)。

      對(duì)于LDA 模型來(lái)說(shuō)一個(gè)文檔的形成是先確定某個(gè)位置的主題,然后才選擇這個(gè)主題下的某個(gè)詞,即先確定主題后選詞。圖1 為L(zhǎng)DA 模型結(jié)構(gòu)流程,模型中出現(xiàn)的參數(shù)如表1 所示。

      圖1 LDA 模型流程Fig.1 Flow chart of LDA model

      表1 LDA 模型符號(hào)說(shuō)明Tab.1 Description of LDA model symbol

      LDA 模型將變量分為3 個(gè)層級(jí):α→,β→為文檔集層級(jí)變量(corpus-level),一個(gè)模型內(nèi)部文檔集層級(jí)變量一樣;θ→d為文檔層級(jí)變量(document-level),一個(gè)文檔內(nèi)部文檔層級(jí)變量一樣;wd,n為文檔d的第n詞,zd,n為文檔d第n詞的主題類型,它們均為詞層級(jí)變量(word-level),詞層級(jí)變量隨著位置的不同而不同。

      通過(guò)極大似然估計(jì)最大化概率,似然函數(shù)如式(1)所示:

      根據(jù)給定的限制條件為Σn zd,n=1,Σn wd,n=1,Σθd=1。參數(shù)估計(jì)(zd,n,wd,n)極大化似然函數(shù)。

      采用最大期望(expectation-maximum algorithm,EM) 算法進(jìn)行迭代求解,EM 算法是適用于帶有隱變量的參數(shù)估計(jì)的求解方法。每次迭代求解分為兩步,期望步(E-step)和極大步(M-step),在E-step 中求解隱變量的期望,在M-step 中使用隱變量的期望代替隱變量的值,求解模型參數(shù)。每次E-step 輸入,計(jì)算似然函數(shù)。M-step 最大化該似然函數(shù),算出不斷迭代直到收斂。

      1.2 模型評(píng)價(jià)標(biāo)準(zhǔn)

      困惑度(perplexity)是評(píng)價(jià)語(yǔ)言模型好壞的方法,其基本思想是:給測(cè)試集的句子賦予較高概率值的語(yǔ)言模型,當(dāng)語(yǔ)言模型訓(xùn)練完之后,測(cè)試集中的句子都是正常的句子,那么訓(xùn)練好的模型就是在測(cè)試集上的概率越高越好。

      困惑度表達(dá)式如式(2)所示:

      式中:P(w)=ΣΣP(d)P(z∣d)P(w∣z)。其中困惑度越小代表模型效果越好。

      本文首先利用Python 程序代碼塊對(duì)幾種常用模型進(jìn)行困惑度評(píng)價(jià)。表2 列出各個(gè)模型所能達(dá)到的最小困惑度,從表2 可知經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的LDA模型困惑度最小,模型表現(xiàn)效果較好。因此本文通過(guò)分析線下運(yùn)維日志以及故障處理方法相關(guān)材料,基于自然語(yǔ)言預(yù)處理技術(shù)和LDA 模型構(gòu)建主題分布矩陣,從而構(gòu)成知識(shí)庫(kù)模型。

      表2 不同模型困惑度比較Tab.2 Model perplexity

      2 知識(shí)庫(kù)構(gòu)建

      2.1 數(shù)據(jù)預(yù)處理

      2.1.1 文本清洗

      根據(jù)運(yùn)維得到的歷史數(shù)據(jù),采用文本清洗方法排除噪聲詞匯對(duì)文本相似度的影響。由于本身報(bào)警描述中的語(yǔ)言較為規(guī)整,不存在錯(cuò)別字、習(xí)慣用語(yǔ)等,文本清洗主要從以下兩步入手:

      1)去除標(biāo)點(diǎn)符號(hào)

      由于標(biāo)點(diǎn)符號(hào)本身并不帶有文本的特征信息,去除標(biāo)點(diǎn)符號(hào)有利于減小模型輸入的維數(shù)、及其帶來(lái)的對(duì)文本相似度的干擾。

      2)去除逆文本頻率指數(shù)較低的詞匯

      逆向文件頻率(inverse document frequency,IDF)是一個(gè)詞語(yǔ)普遍重要性的度量,第i個(gè)詞匯wi逆文本頻率指數(shù)表示如式(3)所示:

      式中:∣D∣為文本個(gè)數(shù)。若wi∈dj則δdj(wi)=1,若wi?dj則δdj(wi)=0。

      逆文檔頻率指數(shù)較低,意味著該詞匯在較多的文檔中出現(xiàn),因此判斷該詞匯為常用詞匯即不能反映文本的特征。通過(guò)該方法去除非特征詞匯不僅能降低維度,還能提升文本匹配算法的準(zhǔn)確度。

      2.1.2 文本分詞

      對(duì)去除非特征詞匯的文本使用JIEBA 分詞工具,基于不同的算法,通過(guò)大量的語(yǔ)料訓(xùn)練,實(shí)現(xiàn)中文分詞。圖2 給出了分詞過(guò)程示例。

      圖2 分詞過(guò)程示例Fig.2 Example diagram of word segmentation process

      2.1.3 文本向量化

      分詞后形成文檔集的“詞袋”并對(duì)“詞袋”中的詞匯進(jìn)行編碼。通過(guò)計(jì)算每篇文檔的詞頻將文本向量化,得到文檔集的詞頻矩陣,作為構(gòu)建知識(shí)庫(kù)模型的輸入。圖3 給出了將分詞結(jié)果向量化過(guò)程示例。

      圖3 向量化示例圖Fig.3 Example diagram of vectorization

      2.2 主題分布矩陣

      對(duì)訓(xùn)練的LDA 模型,將Topic-word 分布文檔轉(zhuǎn)換成字典,方便查詢概率,即計(jì)算困惑度perplexity中的P(w),其中P(z∣d)表示一篇文檔中每個(gè)主題出現(xiàn)的概率,P(w∣z)是詞典中的每個(gè)單詞在某個(gè)主題下出現(xiàn)的概率。對(duì)于不同的主題數(shù)量的模型,計(jì)算困惑度,畫出折線圖,確定每篇文章的主題向量維數(shù)。根據(jù)原始文本預(yù)處理后形成的詞頻矩陣,對(duì)于不同主題所訓(xùn)練出來(lái)的模型,計(jì)算它的困惑度,最小困惑度所對(duì)應(yīng)的就是最優(yōu)的主題數(shù)。

      2.3 相似度計(jì)算

      LDA 模型最終輸出每個(gè)文檔的主題分布矩陣,構(gòu)成知識(shí)庫(kù)模型。假設(shè)有K個(gè)主題,M篇文章,主題矩陣為M×K維矩陣ti,j[ ]M×K,其中Σti,j=1,ti,j[ ]為第i篇文章的主題分布。通過(guò)計(jì)算關(guān)鍵詞在文章中出現(xiàn)的詞頻,計(jì)算詞頻向量并計(jì)算余弦相似度,使用選擇出來(lái)的關(guān)鍵詞,計(jì)算這些關(guān)鍵詞的詞頻。計(jì)算兩個(gè)詞頻向量的文本匹配度,通過(guò)余弦相似度,越接近1 的就表明相似度越高。

      將知識(shí)庫(kù)中故障原因的主題分布矩陣與用戶輸入的主題分布向量進(jìn)行相似度計(jì)算,得到要匹配的內(nèi)容與知識(shí)庫(kù)原有文章的相似度排序,選擇排序靠前的故障原因及相應(yīng)的處理方法提供給用戶。

      2.4 迭代調(diào)優(yōu)

      知識(shí)庫(kù)應(yīng)用過(guò)程中,根據(jù)用戶反饋進(jìn)行不斷完善使得知識(shí)庫(kù)和智能應(yīng)答功能可根據(jù)多變的現(xiàn)實(shí)情況不斷調(diào)整,進(jìn)行深度自學(xué)習(xí),從而實(shí)現(xiàn)知識(shí)庫(kù)的迭代優(yōu)化,如圖4 所示。

      圖4 迭代調(diào)優(yōu)流程Fig.4 Iterative optimization flow chart

      用戶反饋來(lái)源于兩個(gè)方面:一是用戶在故障現(xiàn)象匹配結(jié)果中的選擇;二是原因排查后用戶反饋原因是否在推薦列表中。第一部分的反饋所體現(xiàn)的是文本匹配的精準(zhǔn)度。最終的匹配結(jié)果是以用戶輸入的故障現(xiàn)象和知識(shí)庫(kù)中故障現(xiàn)象的相似度排序后的列表,用戶自主選擇列表中的故障現(xiàn)象以查看解決方法。如果用戶選擇的故障現(xiàn)象在排序列表中較后的位置說(shuō)明對(duì)于此次匹配來(lái)說(shuō)精確度較差,應(yīng)通過(guò)將本次輸入加入到對(duì)應(yīng)知識(shí)庫(kù)故障現(xiàn)象的描述中調(diào)整模型內(nèi)部主題詞分布的方式完善模型。第二部分的反饋所體現(xiàn)的是知識(shí)庫(kù)解決方法的完善度。若用戶原因排查后發(fā)現(xiàn)解決方法不在知識(shí)庫(kù)中,應(yīng)添加進(jìn)知識(shí)庫(kù)中方便下次故障解決。圖5 為知識(shí)庫(kù)構(gòu)建流程。

      3 應(yīng)用實(shí)例

      3.1 關(guān)鍵技術(shù)驗(yàn)證

      圖5 知識(shí)庫(kù)構(gòu)建流程Fig.5 Knowledge base construction flow chart

      原始數(shù)據(jù)來(lái)自于由線下運(yùn)維日志整理成的處理方法編碼表,主要數(shù)據(jù)是報(bào)警原因描述以及處理方法描述。在實(shí)際應(yīng)用中,選取2015年至2019年的某省級(jí)計(jì)量中心單相一號(hào)線運(yùn)維日志,通過(guò)文字識(shí)別技術(shù)掃描并形成線下運(yùn)維檔案,部分日志記錄如圖6 所示。

      圖6 單相一號(hào)線運(yùn)維日志記錄圖Fig.6 Operation and maintenance log record of single-phase line one

      通過(guò)分析得知,2015~2019年期間,有效報(bào)警原因描述共1525 條。根據(jù)數(shù)據(jù)預(yù)處理的4 個(gè)步驟對(duì)文本進(jìn)行處理,如圖7 所示。由于故障描述中出現(xiàn)了較多的專有名詞,在梳理文本過(guò)程中,將設(shè)備專有名詞,如:RGV,RFID,PLC,主控等,加入詞典,通過(guò)設(shè)置用戶自定義詞典提高分詞的準(zhǔn)確率。

      圖7 數(shù)據(jù)預(yù)處理流程Fig.7 Flow chart of data pre-processing

      根據(jù)文本預(yù)處理后形成的詞頻矩陣,設(shè)置不同的文本主題個(gè)數(shù)進(jìn)行訓(xùn)練,訓(xùn)練得到的困惑度曲線如圖8 所示,橫坐標(biāo)表示不同的主題個(gè)數(shù),縱坐標(biāo)表示對(duì)應(yīng)的困惑度值。

      圖8 模型困惑度曲線Fig.8 Confusion curve of model

      根據(jù)圖8 所示,當(dāng)主題數(shù)K=129 時(shí)困惑度達(dá)到最低值79.93,因此確定了LDA 模型的輸出,從而確定了運(yùn)維知識(shí)庫(kù)的主題分布矩陣。當(dāng)某個(gè)設(shè)備發(fā)生故障后,輸入故障現(xiàn)象為“機(jī)器人抓表異?!?,推薦解決措施經(jīng)過(guò)余弦相似度計(jì)算,篩選得到的結(jié)果,列出值最接近于1 的前三條數(shù)據(jù),如表3 所示。

      表3 余弦相似度計(jì)算結(jié)果表Tab.3 Result of cosine similarity calculation

      根據(jù)現(xiàn)場(chǎng)情況,選擇適合的文檔內(nèi)容,查看建議的故障處理方法,進(jìn)行故障處理。由此可見,當(dāng)輸入相應(yīng)故障現(xiàn)象時(shí),可以根據(jù)余弦相似度在已構(gòu)建的知識(shí)庫(kù)中檢索出相似文本,推薦合適的處理方法。

      3.2 系統(tǒng)應(yīng)用成效

      系統(tǒng)利用運(yùn)維過(guò)程積累的大量數(shù)據(jù),實(shí)現(xiàn)計(jì)量平臺(tái)知識(shí)庫(kù)的搭建,對(duì)日常運(yùn)維工作給予智能計(jì)算和指導(dǎo)。以某省電力公司計(jì)量中心現(xiàn)場(chǎng)室內(nèi)檢定室應(yīng)用情況為例,針對(duì)單相電能表、三相電能表、采集終端、低壓電流互感器的檢定生產(chǎn)和設(shè)備的運(yùn)維工作,對(duì)智能運(yùn)維知識(shí)庫(kù)部署以來(lái)的2019年10月~12月每個(gè)月運(yùn)維數(shù)據(jù)進(jìn)行了統(tǒng)計(jì),設(shè)備發(fā)生故障后由知識(shí)庫(kù)推薦的故障處理方法,能夠極大程度上解決問題,使設(shè)備恢復(fù)正常運(yùn)行。根據(jù)統(tǒng)計(jì),計(jì)量檢定裝置知識(shí)庫(kù)應(yīng)用后,在檢定能力不變的情況下,平均故障處理時(shí)間下降了50%以上,極大地提升了故障處理速度,應(yīng)用效果良好。

      4 結(jié)語(yǔ)

      本文構(gòu)建了以計(jì)量檢定運(yùn)維場(chǎng)景為載體的知識(shí)庫(kù)體系,方便了運(yùn)維故障處理的知識(shí)存儲(chǔ)與檢索,通過(guò)知識(shí)推理、智慧推薦知識(shí)的方式,自動(dòng)匹配故障描述來(lái)提供故障解決措施,從而解決問題。且知識(shí)庫(kù)本身具有“自學(xué)習(xí)”能力,可不斷擴(kuò)充、完善和提煉。經(jīng)驗(yàn)證,通過(guò)智能知識(shí)庫(kù)的運(yùn)用,能夠提升計(jì)量檢定裝置運(yùn)維工作中的效率、 節(jié)省人工成本、增強(qiáng)知識(shí)傳遞。

      猜你喜歡
      詞頻分詞知識(shí)庫(kù)
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      結(jié)巴分詞在詞云中的應(yīng)用
      基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
      值得重視的分詞的特殊用法
      高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
      基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      乌审旗| 平原县| 沂南县| 岑溪市| 潢川县| 色达县| 松桃| 镇赉县| 阳江市| 固安县| 景泰县| 阳信县| 监利县| 湾仔区| 观塘区| 醴陵市| 若尔盖县| 柳河县| 东光县| 苗栗市| 大悟县| 吉安县| 叙永县| 凌源市| 德钦县| 博爱县| 汽车| 沭阳县| 米易县| 拉萨市| 浑源县| 乌拉特后旗| 铜鼓县| 平山县| 和田县| 连山| 平阳县| 吉安市| 博罗县| 新建县| 开江县|