• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      實體一屬性抽取簡介

      2019-01-08 03:16:09劉媛媛
      電腦知識與技術 2019年33期
      關鍵詞:模式匹配機器學習

      劉媛媛

      摘要:本文介紹了實體一屬性抽取的相關概念,分析了規(guī)則抽取的方法,模式匹配的抽取方法,基于關系分類的抽取方法和基于聚類的抽取方法,最后對幾種抽取方法進行了比較,為后續(xù)數(shù)據(jù)結(jié)構(gòu)化的研究奠定基礎。

      關鍵詞:屬性抽取;模式匹配;機器學習

      中圖分類號:TP311 文獻標識碼:A

      文章編號:1009-3044(2019)33-0234-01

      1信息抽取簡介

      隨著云計算、大數(shù)據(jù)、移動互聯(lián)網(wǎng)等信息技術的飛速發(fā)展,互聯(lián)網(wǎng)上保存了海量的數(shù)據(jù)。信息抽取就是對海量的,非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)進行處理,從而根據(jù)一定的目的結(jié)構(gòu)化的抽取出相關的實體和屬性。所謂實體也就是事物或者對象,屬性就是事物或者對象的特征或者特性。通過實體一屬性抽取從網(wǎng)絡中海量的非結(jié)構(gòu)化信息中獲得事物對象及其特征,從而利用和理解這些非結(jié)構(gòu)化信息。目前實體一屬性抽取已經(jīng)成為理論研究者和產(chǎn)業(yè)實踐者關注的熱點領域。

      2基于規(guī)則匹配的實體一屬性抽取方法

      基于模式匹配的抽取方法也叫基于規(guī)則的抽取方法,顧名思義就是基于事先構(gòu)造一系列規(guī)則來抽取文本中實體一屬性的方法。這種方法首先定義相關抽取規(guī)則,如,在網(wǎng)頁中定義相關的規(guī)范的tag標記,或人工編寫正則表達式,然后將這些規(guī)則與文本進行匹配,通過匹配的結(jié)果得到抽取的實體及其屬性?;谝?guī)則的抽取方法接近于人的思維方式,其對知識的表示方法看起來相對直觀?;谝?guī)則的抽取系統(tǒng)一般由兩部分組成,一個是一系列關于抽取規(guī)則的集合,第二是一系列定義匹配策略的集合?;谝?guī)則的抽取系統(tǒng)運行速度比較快,維護和優(yōu)化相對比較容易。

      3基于模式匹配的實體一屬性抽取方法

      基于模式匹配的方法根據(jù)其定義模式的方法可以分成三種:基于手工定義的抽取、基于有監(jiān)督學習的抽取和基于迭代的抽取。基于手工定義方式就是具有通過相關領域?qū)I(yè)知識的人員進行人工的定義一系列模式?;趯W習的方式就是,首先收集相關語料組成大規(guī)模的語料庫,然后通過人工標準的非結(jié)構(gòu)化例子訓練自動獲得模式,構(gòu)建具有大量實體一屬性的知識庫?;诘姆椒ㄊ鞘紫榷x模板元組,讓后對這些模板元組進行迭代,自動產(chǎn)生模式,從而進行對實體一屬性的抽取。

      4基于關系分類的實體一屬性抽取方法

      基于關系分類的方法就是將屬性抽取問題轉(zhuǎn)化成關系分類問題。首先將抽取的兩個實體視為一個樣本,實體直接的關系視為標簽,然后通過手工的方式構(gòu)建樣本特征,最后依據(jù)這些特征對樣本進行分類,分類的結(jié)果便是實體之間的關系,也就是屬性?;陉P系的抽取方法通常借助機器學習的方法來進行,如支持向量機(SVM)、神經(jīng)網(wǎng)絡等,通過對大量語料庫的訓練來學習分類模型,從而對實體一屬性進行抽取?;陉P系分類的方法按照其語料庫的建設方式可以分為遠程監(jiān)督的方法和全監(jiān)督的方法?;谶h程監(jiān)督的方法基本由機器構(gòu)建語料庫,而基于全監(jiān)督的方法則由人工構(gòu)建語料庫。由于由人工來構(gòu)建語料庫耗費大量的時間和精力,因此通常目前更熱衷于使用遠程監(jiān)督的方法構(gòu)建語料庫。

      5基于聚類的實體一屬性抽取方法

      基于聚類的方法就是將屬性抽取問題轉(zhuǎn)化成聚類問題。首先構(gòu)建實體特性向量,然后基于相關方法對這些特征特征向量進行聚類,最后得到的聚類就是實體的屬性。例如對于類別屬性可以采用弱監(jiān)督的聚類方法,對應產(chǎn)品屬性可以采用無監(jiān)督的聚類方法等。不過聚類的方法需要首先構(gòu)建聚類的中心點,所以用來構(gòu)建初始化中心點的種子實體一屬性的選擇好壞直接影響到抽取的結(jié)果。

      6各個方法的比較

      從當前的應用廣泛程度來看,基于規(guī)則的方法是早期使用的方式,由于其理解簡單,易于操作,準確率高,一直到現(xiàn)在都比較流行。但是這種方法需要專業(yè)的人員來定義規(guī)則,隨著技術的發(fā)展慢慢正被其他方法取代。基于模式匹配的抽取方法和基于關系分類的抽取方法是當前應用比較廣泛的方法。基于模式匹配的方法可以看作基于規(guī)則的升級方法,既可以人工構(gòu)建模式,也可以借助機器構(gòu)建模式,所以既擁有準確率高的有點,也在一定程度上克服了召回率低的缺點?;陉P系分類和聚類的方法不需要專業(yè)人員或太多的背景知識,但是需要構(gòu)建用來訓練的語料庫支持,在大數(shù)據(jù)時代,這種方式能充分利用數(shù)據(jù),減少人工,保證準確率和召回率,是未來實體一屬性抽取的發(fā)展方向。

      【通聯(lián)編輯:梁書】

      猜你喜歡
      模式匹配機器學習
      儲氫場景與氫氣儲運系統(tǒng)的多維度模式匹配優(yōu)化研究
      太陽能學報(2024年6期)2024-08-12 00:00:00
      基于模式匹配的計算機網(wǎng)絡入侵防御系統(tǒng)
      電子制作(2019年13期)2020-01-14 03:15:32
      具有間隙約束的模式匹配的研究進展
      移動信息(2018年1期)2018-12-28 18:22:52
      OIP-IOS運作與定價模式匹配的因素、機理、機制問題
      基于詞典與機器學習的中文微博情感分析
      基于機器學習的圖像特征提取技術在圖像版權(quán)保護中的應用
      基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      科教導刊(2016年26期)2016-11-15 20:19:33
      基于支持向量機的金融數(shù)據(jù)分析研究
      機器學習理論在高中自主學習中的應用
      都兰县| 崇文区| 高阳县| 潼南县| 龙江县| 项城市| 泸州市| 准格尔旗| 台南市| 凭祥市| 昭平县| 靖安县| 望谟县| 蒙阴县| 靖安县| 崇礼县| 闽清县| 上思县| 仁化县| 孟州市| 永清县| 绥宁县| 乡宁县| 宁远县| 登封市| 大田县| 百色市| 斗六市| 垦利县| 山阳县| 上蔡县| 江孜县| 太湖县| 伽师县| 南宫市| 政和县| 沂源县| 凤冈县| 贵阳市| 闻喜县| 镇宁|