• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Bi-LSTM和TFIDF的工單事件提取

      2020-04-14 04:54:29范華翁利國(guó)周艷姜川孫濤
      電腦知識(shí)與技術(shù) 2020年4期
      關(guān)鍵詞:詞頻

      范華 翁利國(guó) 周艷 姜川 孫濤

      摘要:電網(wǎng)工單數(shù)據(jù)是電網(wǎng)運(yùn)行情況以及客戶滿意程度的主要信息來(lái)源,近年來(lái),有學(xué)者將深度學(xué)習(xí)的方法應(yīng)用于工單數(shù)據(jù)的關(guān)鍵信息提取,但是提取出的關(guān)鍵詞、詞還不足以完整描述工單反映的具體情況。本文提出了一種事件抽取模型,先通過(guò)一定的方式進(jìn)行文本預(yù)處理,確定標(biāo)簽體系和特征模板,再用Bi-LSTM和CRF相結(jié)合的模型進(jìn)行實(shí)體識(shí)別和標(biāo)注,最后通過(guò)TFIDF模型提取出事件表達(dá),將該模型用于電網(wǎng)工單數(shù)據(jù)的事件抽取,用準(zhǔn)確率、召回率和F1得分作為模型的評(píng)價(jià)標(biāo)準(zhǔn),證明了該模型在工單數(shù)據(jù)分析中的可用性。

      關(guān)鍵詞:雙向長(zhǎng)短期記憶網(wǎng)絡(luò);條件隨機(jī)場(chǎng);詞頻-逆文件頻率算法;電網(wǎng)工單;事件抽取

      中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2020)04-0291-03

      收稿日期:2019-10-15

      作者簡(jiǎn)介:范華(1971—),男,浙江杭州人,浙江中新電力工程建設(shè)有限公司,高級(jí)工程師,碩士,配網(wǎng)自動(dòng)化;翁利國(guó)(1982—),男,浙江杭州人,國(guó)網(wǎng)浙江杭州市蕭山區(qū)供電有限公司,高級(jí)工程師,碩士,配網(wǎng)自動(dòng)化。

      Event Extraction of Power Customer Service Order Based on BiLSTM-CRF and TFIDF

      FAN Hua',WENG Li-guo',ZHOU Yan',JIANG Chuan',SUN Tao'

      China)

      Abstract:Power Customer Service Order data is the main source of information on grid operation and customer satisfaction.In recent years,some scholars have applied the method of deep learning to the key information extraction of work order data.However,the extract-ed keywords and words are not enough to fully describe the specific situation reflected by the work order.This paper proposes an event extraction model,which firstly performs text preprocessing in a certain way,determines the label system and feature template,and then uses Bi-LSTM and CRF model for entity recognition.Finally,the event expression is extracted by TFIDF model.This paper uses the :model for the event extraction of the power customer service order.This paper chooses the accuracy,recall rate and F1 score as the eval-uation criteria of the model,and prove the availability of the model in the analysis of work order data.

      (1.Zhongxin Power Engineering Construction Corporation of Zhejiang,Hangzhou 3 10000,China;2.Power Supply Construction Corporation of Hangzhou Xiaoshan District of Zhejiang State Grid,Hangzhou 310000,China;3.Shanghai University of Electric Power,Shanghai 201300,

      Key words:Bi-LSTM;CRF;TFIDF ;Power Customer Service Order;Event Extraction

      工單數(shù)據(jù)包含了各類客戶投訴信息以及供電局員工的解決方式和最后的處理結(jié)果。然而,這些數(shù)據(jù)都是非結(jié)構(gòu)化的文本信息,傳統(tǒng)的分析數(shù)據(jù)的方式依賴大量的人工閱讀和整理,對(duì)工作人員的經(jīng)驗(yàn)也較高要求[1]。

      事件抽取是信息抽取任務(wù)中的一種,旨在從非結(jié)構(gòu)化信息中抽取一個(gè)完整事件的事件表達(dá)和關(guān)鍵要素,并以結(jié)構(gòu)化數(shù)據(jù)的形式傳遞給用戶。事件抽取的結(jié)果包含表示事件類型的觸發(fā)詞以及事件要素,觸發(fā)詞是可以表示事件的關(guān)鍵詞,常常是.動(dòng)詞或者名詞,事件要素根據(jù)事件類型的不同有不同的定義方式[2-3]。本文將事件抽取技術(shù)應(yīng)用于工單數(shù)據(jù)分析,以客戶反應(yīng)的問(wèn)題作為事件表達(dá),并提取出時(shí)間、事發(fā)地點(diǎn)、工作人員作為事件要素。

      本文做出的貢獻(xiàn)有:

      1)提出將事件抽取應(yīng)用到工單數(shù)據(jù)分析中,不僅降低了對(duì)人工的依賴性,也保證了事件表達(dá)的完整性;

      2)將TFIDF應(yīng)用于事件觸發(fā)詞的提取,擴(kuò)大了事件類型的范圍,準(zhǔn)確描述每個(gè)工單所反映的問(wèn)題。

      1 模型構(gòu)建

      本文提出的模型由三個(gè)部分組成,工單數(shù)據(jù)預(yù)處理、基于Bi-LSTM和CRF的實(shí)體識(shí)別以及基于TFIDF的事件表達(dá)提取。

      工單數(shù)據(jù)預(yù)處理部分將對(duì)原始數(shù)據(jù)進(jìn)行分詞,對(duì)于電氣專有名詞等構(gòu)建詞典,并且通過(guò)word2vec將文本轉(zhuǎn)化成詞向量。

      實(shí)體識(shí)別部分對(duì)預(yù)處理過(guò)的工單數(shù)據(jù)進(jìn)行序列標(biāo)注,通過(guò)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)捕獲句子級(jí)特征,將提取到的特征輸入softmax,層,計(jì)算當(dāng)前的詞對(duì)應(yīng)每個(gè)標(biāo)簽的置信度,最后將置信度分?jǐn)?shù)輸入條件隨機(jī)場(chǎng)模塊中進(jìn)行序列標(biāo)注,得到每個(gè)詞的最大可能的標(biāo)簽。

      事件表達(dá)抽取部分,將條件隨機(jī)場(chǎng)標(biāo)注出來(lái)的名詞、動(dòng)詞集中到一起,計(jì)算每個(gè)詞的詞頻-逆文檔頻率,得分最高的詞即為該工單中最為重要的詞,可以作為事件表達(dá)。

      從輸入到實(shí)體識(shí)別部分的模型結(jié)構(gòu)如圖所示:

      1.1 工單數(shù)據(jù)預(yù)處理

      電網(wǎng)的工單處理經(jīng)過(guò)包含了客戶反應(yīng)的問(wèn)題,故障發(fā)生的時(shí)間和地點(diǎn),核實(shí)情況的單位,處理問(wèn)題的工作人員,以及處理的大致過(guò)程。一般的分詞方式無(wú)法準(zhǔn)確識(shí)別如“頻繁停電”“開(kāi)關(guān)故障”“令克掉落”這種電氣專有詞匯[4],因此針對(duì)工單數(shù)據(jù),建立了分詞詞典。

      采用jieba分詞工具,選用精確分詞模式,導(dǎo)入建立的分詞詞典,以保證分詞結(jié)果的準(zhǔn)確性。

      1.2基于Bi-LSTM和CRF的實(shí)體識(shí)別

      LSTM(Long Short Term Memory),長(zhǎng)短期記憶網(wǎng)絡(luò)是對(duì)序列數(shù)據(jù)進(jìn)行操作的一種神經(jīng)網(wǎng)絡(luò)。LSTM加入了一個(gè)記憶單元能夠捕捉到長(zhǎng)期的依賴信息。同時(shí)加入了門控單元,用于控制輸入信息的哪部分將被送人記憶單元,歷史信息的哪部分將被遺忘[5]。采用雙向LSTM,將左右側(cè)的輸出拼接起來(lái)得到最終的詞向量表示,最終的詞向量將包含該詞的上下文信息。

      將分好詞的工單數(shù)據(jù)輸入word2vec模型訓(xùn)練成詞向量,并傳人Bi-LSTM中,從而獲得對(duì)實(shí)體標(biāo)注有效的特征。但是,Bi-LSTM捕獲到的特征只能表示當(dāng)前的詞對(duì)標(biāo)簽結(jié)果的影響,對(duì)于整個(gè)序列的標(biāo)注而言這是不夠的,條件隨機(jī)場(chǎng)可以解決這個(gè)問(wèn)題。

      條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)是一種 條件概率分布模型,由兩組隨機(jī)變量組成,是給定一組輸入隨機(jī)變量條件下另一組輸出隨機(jī)變量的條件概率分布模型"。相比傳統(tǒng)的基于規(guī)則的模型,CRF不需要設(shè)置規(guī)則,也就不需要考慮規(guī)則所帶來(lái)的局限性;相比同為基于模型的HMM,CRF模型可以捕捉序列元素中相鄰元素的影響,不局限于任何時(shí)刻觀察值。對(duì)于工單數(shù)據(jù)這樣的非結(jié)構(gòu)化文本,每一條客戶投訴內(nèi)都包含了大量的信息,關(guān)鍵信息之間也存在絲絲縷縷的關(guān)系,因此,CRF是更好的選擇,考慮到精度足夠而訓(xùn)練復(fù)雜度最低,選擇BIO(B-begin,I-inside,O-outside)標(biāo)簽體系來(lái)做序列標(biāo)注。

      Bi-LSTM部分輸出的是一個(gè)可以表述當(dāng)前位置特征的得分,CRF模塊將詞組成序列,考慮標(biāo)簽之間的依賴關(guān)系,找到得分最高的標(biāo)簽序列。

      選擇人民日?qǐng)?bào)2014年的標(biāo)注語(yǔ)料訓(xùn)練模型[9],該語(yǔ)料庫(kù)對(duì)純文本進(jìn)行了詞語(yǔ)切分和詞性標(biāo)注,此外,將專有名詞人名標(biāo)注為nr,地名標(biāo)注為ns,機(jī)構(gòu)名標(biāo)注為nt,可以針對(duì)其標(biāo)注提取出想要的關(guān)鍵詞。

      對(duì)于工單數(shù)據(jù)而言,需要提取出的主要是地名、時(shí)間和人名,而許多標(biāo)注對(duì)沒(méi)有幫助,所以需要先對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理:

      1)姓名的合并:需要將人名中的姓和名兩部分合并;

      2)時(shí)間類合并:需要將連續(xù)的年、月、日合并到一起;

      3)語(yǔ)料中有中括號(hào)括起來(lái)的詞,該部分表示大粒度分詞,是有代表性的名詞,也需要合并。

      選用sklearn_crfsuite工具包中的CRF模塊訓(xùn)練模型,采用lbfgs算法,懲罰系數(shù)設(shè)置為0.1,迭代次數(shù)設(shè)置為100次。選用準(zhǔn)確率、召回率和F1分作為評(píng)估標(biāo)準(zhǔn),訓(xùn)練結(jié)果如下:

      1.3 基于TFIDF的事件提取

      從事件抽取的定義來(lái)看,事件的概念相對(duì)寬泛,沒(méi)有明確的定義,而事件表達(dá)可以通過(guò)動(dòng)詞或者名詞來(lái)表達(dá),因此,可以通過(guò)提取出重要性最高的名詞、動(dòng)詞集合,從而提取出事件的觸發(fā)詞。

      TFIDF(term frequency-inverse document frequency,詞頻-逆向文件頻率),是一種用于信息檢索與文本挖掘的常用加權(quán)技術(shù),計(jì)算詞的詞頻和逆向文件頻率之差,作為其重要性的評(píng)價(jià)。字詞的重要性與它在文件中出現(xiàn)的次數(shù)成正比,與它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比[7]。因此,如果某個(gè)詞在一篇文檔中出現(xiàn)的頻率很高,并且在其他同批文檔中很少出現(xiàn),則認(rèn)為該詞或者短語(yǔ)具有很好的類別區(qū)分能力。

      本文中,每個(gè)詞條的詞頻表示的是該詞條在對(duì)應(yīng)的一條工單信息中出現(xiàn)的頻率,詞條的逆向文件頻率的計(jì)算則是用工單中信息的總條數(shù)除以包含特定詞條的文章數(shù)加1,并取對(duì)數(shù)。通過(guò)這樣的設(shè)計(jì),可以保證像“頻繁停電”“開(kāi)關(guān)故障”這樣的具有代表性的詞可以被重視起來(lái),又可以保證其不會(huì)被“客戶”“用戶”這樣 的詞取代,而且不同的工單情況會(huì)被有效區(qū)分開(kāi)來(lái)。

      2 實(shí)驗(yàn)結(jié)果;

      將185條 工單數(shù)據(jù)按專業(yè)人員的要求進(jìn)行了事件要素和事件表達(dá)的標(biāo)注,經(jīng)過(guò)運(yùn)行后將結(jié)果保存,并統(tǒng)計(jì)準(zhǔn)確率,結(jié)果如下:

      工單事件抽取的示例如下:

      工單數(shù)據(jù)事件提取的結(jié)果可以總結(jié)為以下幾點(diǎn):

      1)模型成功地提取出了工單中事件的完整表達(dá),包括事件的類型以及事件發(fā)生的時(shí)間、地點(diǎn)和相關(guān)人物,將非結(jié)構(gòu)化的工單數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的文本,結(jié)果顯示的都是需要了解的關(guān)鍵問(wèn)題,大幅度減少了人工閱讀和整理;

      2)采用Bi-LSTM捕獲工單文本的上下文信息,提取出句子級(jí)特征,保證了特征提取工作的可靠性;采用CRF進(jìn)行序列標(biāo)注,相比HMM的提取效果更加準(zhǔn)確;采用TFIDF進(jìn)行事件類型的提取,根據(jù)每條工單處理過(guò)程的描述找到最關(guān)鍵的詞作為事件表達(dá),提取結(jié)果的準(zhǔn)確率在75%以上,召回率在69%以上,F(xiàn)1分在0.72以上,說(shuō)明了模型的可行性。

      3 總結(jié)

      本文通過(guò)Bi-LSTM、CRF和TFIDF算法進(jìn)行工單的事件抽取,將非結(jié)構(gòu)化的工單數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的信息,提取出了工單處理過(guò)程中的時(shí)間地點(diǎn)、負(fù)責(zé)該工單處理的人員和客戶反應(yīng)的問(wèn)題,大幅度減少了人工閱讀的工作。實(shí)驗(yàn)表明,模型可以準(zhǔn)確提取出大部分工單數(shù)據(jù)的事件要素和事件類型,對(duì)于沒(méi)有準(zhǔn)確識(shí)別出來(lái)的要素,可以通過(guò)擴(kuò)展詞典和增加人工標(biāo)注來(lái)提高對(duì)事件類型的識(shí)別能力和范圍,此外,事件抽取也可以為工單分類、情感分析提供方便。

      參考文獻(xiàn):

      [1]鄒云峰,何維民,趙洪瑩,等.文本挖掘技術(shù)在電力工單數(shù)據(jù)分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016,39(17):149-152.

      [2]丁麒,莊志畫(huà),劉東丹.基于文本數(shù)據(jù)挖掘技術(shù)的95598業(yè)務(wù)工單主題分析應(yīng)用[J].電力需求側(cè)管理,2016,18(S1):55-57.

      [3]吉久明,,陳錦輝李楠,等.中文事件抽取研究文獻(xiàn)之算法效果分析[J].現(xiàn)代情報(bào),2015,35(12):3-10.

      [4]邱奇志,周三三,劉長(zhǎng)發(fā),等.基于文體和詞表的突發(fā)事件信息抽取研究[J].中文信息學(xué)報(bào),2018,32(9):56-65,74.

      [5]朱顥東,楊立志,丁溫雪,等.基于主題標(biāo)簽和CRF的中文微博命名實(shí)體識(shí)別[J].華中師范大學(xué)學(xué)報(bào):自然科學(xué)版,2018,52(3):316-321.

      [6]徐靜,楊小平.基于CRF模型的網(wǎng)絡(luò)新聞主題線索發(fā)掘研究[J].中文信息學(xué)報(bào),2017,31(3):94-100.

      [7]孔秋強(qiáng),賀前華.基于TFIDF與分類樹(shù)的工程文本信息分類法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(6):174-176,191.

      [8]李靜月,李培峰,朱巧明.一種改進(jìn)的TFIDF網(wǎng)頁(yè)關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(5):25-27.

      [9]張永偉,顧日國(guó).基于大規(guī)模語(yǔ)料庫(kù)的情感與修辭互動(dòng)研究[J].當(dāng)代修辭學(xué),2018(3):38-54.

      [通聯(lián)編輯:唐一東]

      猜你喜歡
      詞頻
      語(yǔ)言產(chǎn)生中詞頻效應(yīng)老化的神經(jīng)基礎(chǔ)與時(shí)間進(jìn)程*
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      基于詞頻比的改進(jìn)Jaccard系數(shù)文本相似度計(jì)算
      詞匯習(xí)得中的詞頻效應(yīng)研究
      亞太教育(2018年5期)2018-12-01 04:58:23
      漢語(yǔ)閱讀中詞頻與注視時(shí)間、跳讀的關(guān)系
      25年來(lái)中國(guó)修辭研究的關(guān)鍵詞詞頻統(tǒng)計(jì)*——基于國(guó)家社科與教育部社科課題立項(xiàng)數(shù)據(jù)
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      儒法兩家經(jīng)典的共詞分析與研究*
      儒家經(jīng)典詞頻及共現(xiàn)分析
      404 Not Found

      404 Not Found


      nginx
      浑源县| 铜鼓县| 克拉玛依市| 澄迈县| 金平| 京山县| 霍州市| 高州市| 南陵县| 靖宇县| 珠海市| 北流市| 宜兰市| 合山市| 霞浦县| 湘阴县| 青海省| 邯郸市| 中江县| 宾川县| 昭觉县| 卢氏县| 辰溪县| 昭觉县| 北川| 泽普县| 潜江市| 穆棱市| 呼伦贝尔市| 确山县| 太仓市| 阳泉市| 永靖县| 黄陵县| 锡林浩特市| 茶陵县| 丰都县| 卢龙县| 万盛区| 晴隆县| 简阳市|