• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于模式匹配的技術競爭事件抽取研究*

      2020-07-03 02:49李銳張麗瑋
      科學與信息化 2020年13期
      關鍵詞:模式識別

      李銳 張麗瑋

      摘 要 文章旨在采用事件抽取方式對新聞中的技術威脅事件進行結構化表達,為進一步情報挖掘提供參考,為企業(yè)決策提供依據(jù)。本文闡述了識別競爭事件元素,對事件的時間、地點、結果、語言表現(xiàn)進行抽取,獲取多方面多層次競爭情報等內(nèi)容。

      關鍵詞 模式識別;技術競爭事件;事件抽取

      緒論

      隨著技術水平的不斷提高,企業(yè)搜集競爭情報的方式也在發(fā)生著變化。面對新聞中描述的企業(yè)各類事件都可以看作競爭情報的來源,因此,本文對新聞文本進行事件抽取,重點識別對高新技術企業(yè)構成技術威脅的事件,從而有效規(guī)避企業(yè)技術研發(fā)過程中的技術風險。

      1相關研究理論

      1.1 基于模式匹配的事件抽取

      事件抽取分為兩個核心步驟,事件類別的識別和事件元素的識別,抽取方式分為基于模式匹配的抽取和基于機器學習的抽取。基于模式匹配的抽取方式是指根據(jù)規(guī)則設計模板,根據(jù)觸發(fā)詞識別事件類別,依據(jù)模板進行抽取事件元素。姜吉發(fā)[1]提出一種基于概念知識庫的自動獲取模式的方式。鑒于模式匹配抽取方式在特定領域的優(yōu)異表現(xiàn),本文定義事件模式,依據(jù)模式抽取事件信息,獲取技術威脅事件。21.2技術威脅事件

      形式上,技術威脅事件可表示為TRE,定義為一個六元組:TRE=,其中,技術威脅事件六元組中的元素被稱之為技術威脅事件要素,分別為“技術威脅動作”、“技術威脅對象”、“技術威脅時間”、“技術威脅環(huán)境”、“技術威脅結果”以及“技術威脅語言表現(xiàn)”[2]。本文借鑒TRE六元組定義一個競爭事件七元組:<時間,地點,主體,動作,對象,結果,語言表現(xiàn)>,并根據(jù)該元組進行競爭事件抽取

      2事件元素的識別

      事件元素識別是事件抽取的又一關鍵任務,由觸發(fā)詞識別競爭事件句,對競爭事件句按定義的模式進行元素識別。事件由基本元素進行描述,在競爭事件句中根據(jù)<時間、地點、主體、動作、對象、結果、語言表現(xiàn)>一一匹配各元素。首先對每條新聞進行分句、分詞、詞性標注、依存句法分析、語義角色標注。一方面,基于語義角色標注的結果進行事件主體、對象、時間、地點的抽取。另一方面,為每個詞建立依存句法關系字典。當語義角色標注結果為空時,根據(jù)事件觸發(fā)詞和依存句法關系抽取事件主體和對象,事件的時間、地點和語言表現(xiàn)再單獨抽取。事件結果的抽取范圍擴大到整條新聞。對抽取的時間、地點進一步處理,規(guī)范化時間格式為年-月-日,規(guī)范化地點格式為省-市-區(qū)??傮w的技術路線圖如圖1。

      本實驗依托哈工大開發(fā)的語言技術平臺(Language Technology Platform,LTP)有分詞、詞性標注、命名實體識別、依存句法分析、詞義消歧、語義角色標注的功能。LTP采用了條件隨機場(Conditional Random Field,CRF)進行分詞;用支持向量機加入偏旁部首特征進行詞性標注;使用高階特征采用基于圖的方法和基于柱狀搜索的解碼算法,進行兩階段依存句法分析[3],LTP3.3.0版則加入了聚類特征和優(yōu)化算法[4];使用最大熵分類器和整數(shù)線性規(guī)劃的方法進行語義角色標注[3],LTP3.4.0版則在其中加入了Bi-LSTM模型[4]。pyltp是LTP的Python封裝,可以進行分詞,詞性標注,命名實體識別,依存句法分析,語義角色標注[5]。本文運用pyltp對新聞進行分詞,詞性標注,依存句法分析,語義角色標注的處理。

      在新浪滾動新聞科技板塊中手動收集了共303篇2020年3月份的新聞,以此新聞集進行實驗。采用前文的方法抽取得到合同類、會議類、政策類、研發(fā)類、生產(chǎn)類和經(jīng)營類6大類38小類事件,共347條記錄,詳情見表1。

      從數(shù)據(jù)庫中可以發(fā)現(xiàn),如合同類事件抽取結果有“拜騰汽車與多家銷售及服務合作伙伴簽約”,會議類事件抽取結果有“美圖公司舉行2019全年業(yè)績發(fā)布會”,政策類事件抽取結果有“阿里本地生活服務公司宣布組織架構調(diào)整”,研發(fā)類事件抽取結果有“格力開發(fā)測溫儀的模具”,生產(chǎn)類事件抽取結果有“蘋果供應商生產(chǎn)新的入門級AirPodsPro”,經(jīng)營類事件抽取結果有“阿里巴巴影業(yè)收購天津銀河酷娛”。根據(jù)各類事件,各類企業(yè)可以結合自身戰(zhàn)略,業(yè)務和經(jīng)營方面有效識別“拜騰汽車”,“美圖公司”,“阿里本地生活服務公司”,“蘋果供應商”,“阿里巴巴影業(yè)”為競爭對手,并了解競爭事件的時間、地點、結果、語言表現(xiàn)等。企業(yè)可以根據(jù)具體的競爭對手進一步收集競爭情報滿足情報需求。抽取的實證結果,如表2所示。

      通過新聞文本的實際內(nèi)容與抽取的結果相比較,準確率較高,從而驗證模型的有效性。

      4結束語

      企業(yè)對競爭情報的需求日益上升,本文提出了一個情報獲取的新思路。利用事件抽取技術從新聞中抽取出企業(yè)的各類事件,從事件中得到所需的情報。還簡單介紹了對收集到的情報數(shù)據(jù)庫,進行數(shù)據(jù)挖掘。本文提出了新思路但是在實際應用中還有許多要完善的部分,比如收集更多的新聞,提高事件抽取的準確性,同一企業(yè)名稱的統(tǒng)一化處理實現(xiàn)對單個企業(yè)的競爭情報全面挖掘。

      參考文獻

      [1] 姜吉發(fā).自由文本的信息抽取模式獲取的研究[D].北京:中國科學院研究生院(計算技術研究所),2004.

      [2] 張麗瑋.基于專利分析的高新技術企業(yè)技術威脅識別研究[M].北京:科學技術文獻出版社,2016:59.

      [3] Bao S,Yu Y,Cao Y,et al.Competitor Mining with the Web[J].IEEE Transactions on Knowledge and Data Engineering,2008,20(10):1297-1310.

      [4] 許鑫,郭金龍,姚占雷.基于Web文本挖掘的行業(yè)態(tài)勢分析——以2011上海車展為例[J].圖書情報工作,2012,56(16):25-31.

      [5] 劉挺,車萬翔,李正華.語言技術平臺[J].中文信息學報,2011,25(6): 53-62.

      作者簡介

      李銳(1995-),男,安徽宣城人;學歷:碩士;現(xiàn)就職單位:首都經(jīng)濟貿(mào)易大學管理工程學院,研究方向:競爭情報、文本挖掘研究。

      張麗瑋(1981-),女;學歷:博士,職稱:副教授,碩士生導師;現(xiàn)就職單位:首都經(jīng)濟貿(mào)易大學管理工程學院,研究方向:科技管理,文本挖掘研究。

      猜你喜歡
      模式識別
      輕身調(diào)脂消渴片的指紋圖譜建立、化學模式識別及含量測定
      基于MBP算法和深度學習的人臉識別
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      基于視頻的帶電作業(yè)中組合間隙的智能檢測
      基于特征化字典的低秩表示人臉識別
      汽車外觀造型創(chuàng)新設計遺傳算法的應用
      基于Matlab的人臉檢測實驗設計
      自動潔地機器人的設計
      珠寶科技進步對珠寶鑒定的影響
      分布式光纖傳感邊坡工程檢測設計
      淳安县| 汝州市| 曲麻莱县| 海门市| 东至县| 依安县| 册亨县| 宜阳县| 拉萨市| 滁州市| 大安市| 黄石市| 安远县| 高清| 呼图壁县| 花垣县| 栖霞市| 达拉特旗| 平昌县| 商都县| 获嘉县| 曲水县| 大悟县| 涡阳县| 郧西县| 肇州县| 邯郸县| 佛冈县| 嘉兴市| 芮城县| 大邑县| 道真| 巴东县| 金山区| 富蕴县| 卫辉市| 北辰区| 洛阳市| 柯坪县| 方城县| 东山县|