• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主動學習的本體概念關(guān)系判斷

      2013-10-15 01:38:30張桂平李文博王裴巖
      中文信息學報 2013年4期
      關(guān)鍵詞:樣例反例本體

      張桂平,李文博,王裴巖

      (沈陽航空航天大學 知識工程中心,遼寧 沈陽,110136)

      1 引言

      本體可以促進各種領(lǐng)域之間的交流,這種交流實現(xiàn)了給定領(lǐng)域中不同知識的重用和共享。在人工智能界,Gr uber[1]給出了本體的一個最為流行的定義,即“本體是概念模型的明確的規(guī)范說明”。目前本體的構(gòu)建方法主要分為三種:自動構(gòu)建、半自動構(gòu)建和手工構(gòu)建。自動構(gòu)建會產(chǎn)生大量的噪聲數(shù)據(jù)而且所得本體的可信度得不到保障[2];手工構(gòu)建需要領(lǐng)域?qū)<业膮⑴c,費時、費力。因此如何利用知識獲取技術(shù)半自動地構(gòu)建本體是一個重要研究方向[3],半自動構(gòu)建也稱輔助構(gòu)建。

      近年來,本體輔助構(gòu)建的研究有很多。David等人[4]采用基于模板的方法無監(jiān)督地構(gòu)建領(lǐng)域術(shù)語樹來構(gòu)建領(lǐng)域本體。Tao Jiang等人[5]首先對文本語料進行語法分析得到本體概念以及它們之間的關(guān)系,然后利用關(guān)聯(lián)規(guī)則算法確定概念關(guān)系是否正確。文獻[6 先構(gòu)建核心領(lǐng)域本體,然后利用通用本體Wor d Net來擴展領(lǐng)域本體。雖然半自動構(gòu)建本體取得了很好的效果,但是人工標注的問題仍然是本體構(gòu)建中不小的瓶頸。

      本文提出基于主動學習的本體關(guān)系輔助構(gòu)建方法,對邊緣采樣、熵采樣、最不確信采樣等主動學習查詢生成策略進行了比較研究,并討論了在三種不同樣本初始情況下主動學習技術(shù)的應用,從而實現(xiàn)了在概念關(guān)系判定過程中對用戶反饋信息的有效利用,使得在較少的訓練樣例的情況下可獲得較高的本體關(guān)系推薦結(jié)果。

      2 相關(guān)研究

      對于本體概念關(guān)系的判斷,常用的方法有:基于模板、詞典和關(guān)聯(lián)規(guī)則挖掘的方法等。基于模板的方法往往準確率低,且模式的獲取是否完備對結(jié)果影響較大。Kavalec[7]等人利用關(guān)聯(lián)概念動詞出現(xiàn)的頻率來挖掘概念間的非分類關(guān)系,但該方法未考慮句子的結(jié)構(gòu)信息,效果并不理想。Faure等人[8]用聚類方法獲取概念間關(guān)系,但該方法只能劃分出概念所屬關(guān)系的集合,不能明確給出概念間的確切關(guān)系。文獻[9]采用改進的BM25相似度計算方法為用戶提供參考文本,并提出基于概念最短距離的分類樣本提取方法,進而為用戶提供概念關(guān)系的推薦。該方法能有效地輔助用戶判斷概念間關(guān)系,但用戶對系統(tǒng)每次給出的推薦結(jié)果都要做出決策,當需要判斷大量概念關(guān)系時,人為工作量仍很大。

      主動學習,也稱 “query lear ning”,是機器學習領(lǐng)域中的一個分支領(lǐng)域[10],它用于那些標注樣例較難獲取或者代價昂貴,而未標注樣例較容易獲取的情況。很多研究中都有主動學習的應用:Settles和Craven[11]分析了主動學習方法在序列標注任務中的應用;車萬翔等人[12]在中文依存句法分析中加入主動學習來減少人工的標注量;陳榮等[13]在圖像分類任務中加入了主動學習方法,使得系統(tǒng)提高了圖像分類問題中訓練樣本選擇的效率。文獻[14]采用基于字的CRF模型獲取候選術(shù)語集合,并利用主動學習方法從候選術(shù)語集合中選擇概念推薦給用戶來獲取領(lǐng)域本體概念。

      本文針對文獻[9]的研究做了進一步擴展,利用航空百科詞典作為數(shù)據(jù)源,把主動學習技術(shù)加入到本體概念關(guān)系判斷任務中,使得在關(guān)系的輔助判斷中進一步減少人為工作量。并且本文還對主動學習中不確定性采樣的各個算法做了詳細的對比分析,驗證了不確定性采樣在本體概念關(guān)系判斷中的有效應用。

      3 概念關(guān)系輔助判斷方法

      3.1 基于知識獲取技術(shù)的本體概念關(guān)系判斷

      文獻[9]針對非領(lǐng)域人員在沒有領(lǐng)域背景知識的情況下,采用改進的BM25相似度算法為用戶提供參考文本,還利用概念的最短距離信息提取分類樣本,并利用KNN分類算法為用戶提供概念關(guān)系的推薦。本文利用KNN的分類結(jié)果,在概念關(guān)系判斷中加入主動學習技術(shù),使系統(tǒng)選取那些有潛在價值的樣例予以標注,期望能在較小訓練集合的情況下獲得較高的關(guān)系推薦準確率。

      3.2 主動學習方法

      不確定性采樣(Uncertainty Sampling)是主動學習算法中應用最普遍的查詢策略[10],它選取當前分類器最不確定的樣例進行標注。本文選取不確定性中的最不確信采樣、基于閾值的采樣、邊緣采樣和基于熵的采樣,并與隨機采樣對比,以下介紹這幾種采樣算法。

      1)隨機采樣(rando m sa mpling):不考慮類別的后驗概率,隨機選取樣例。

      2)基于閾值的采樣(t hreshold sampling):選取類別后驗概率在0.4到0.6之間的樣例。

      3)最不確信采樣(least confident sampling):僅標注結(jié)果中最不確信樣例,如式(1)所示。

      4)邊緣采樣(margin sampling):基于邊緣采樣的主動學習公式如式(2)所示。

      這里的Pθ(|x)和Pθ|x)表示類別分值最高的前兩類的后驗概率。

      5)基于熵的采樣(entr opy sa mpling):基于熵采樣主動學習樣本選擇準則如式(3)所示。

      其中,yi代表KNN計算結(jié)果中的各個類別。

      以上幾種采樣的實際應用中,基于閾值采樣與最不確信采樣在二分類問題上獲得了很好的結(jié)果[15],并且研究者驗證了邊緣采樣和基于熵的采樣在多分類情況下的有效性[16-17]。

      4 主動學習在本體關(guān)系輔助判斷中的應用

      本文在本體概念關(guān)系判斷中加入了主動學習技術(shù),使得系統(tǒng)能最大限度地減少人為工作量,提高本體的構(gòu)建速度。根據(jù)航空本體概念間類別的劃分體系,“部件關(guān)系”、“屬性關(guān)系”等這樣的類別稱為正例,而在劃分體系之外或者根本沒有關(guān)系的類別稱為反例。經(jīng)分析得到,初始樣例集合可分為表1中的幾種情況。

      表1 不同的初始樣例規(guī)劃

      根據(jù)表1中初始樣例的不同情況,概念的關(guān)系判斷就是一個多分類問題,對于初始正反樣例充足的情況,可以直接多分類。Sophia Katrenko等人[18]認為,關(guān)系抽取可以看作是具有兩個步驟的過程:識別存在關(guān)系的證據(jù)和檢查是否存在關(guān)系。那么針對本文的問題,可以先進行二分類,判斷概念間有沒有關(guān)系,如果有關(guān)系,則可以再多分類,看看兩個概念間是哪種關(guān)系。本文針對不同的初始樣例,提出了A、B、C三種策略,將主動學習技術(shù)應用到本體概念關(guān)系半自動構(gòu)建中,這三種策略具體描述如下。

      策略A:針對初始樣本正反例充足的情況,首先利用3.2節(jié)中的主動學習方法生成查詢,進行多分類。然后對語料進行二分類,去除反例后對剩余的有關(guān)系概念對進行多分類,以此判斷有關(guān)系的概念具體屬于哪類關(guān)系。策略A的主動學習方法偽代碼如圖1所示。

      圖1 策略A 中主動學習偽代碼

      策略B:針對初始樣本僅有正例的情況,首先采用相似度策略的主動采樣方法,從未標注集合中選取反例,每次選取最不相似的5個樣例作為反例集合加入到初始樣本中,當反例集合達到與策略A中的反例相當?shù)臄?shù)目時停止采樣,然后重復A中的實驗。策略B的主動學習偽代碼如圖2所示。

      圖2 策略B 中主動學習偽代碼

      策略C 針對缺乏初始樣例的情況,根據(jù)詞對共現(xiàn)文檔的信息以及詞對在共現(xiàn)文檔中的距離信息選取正反例,選取的規(guī)則如下:

      1.共現(xiàn)文檔多,并且在文檔中距離近的詞對作為正例集;

      2.共現(xiàn)文檔少,并且在文檔中距離遠的詞對作為反例集;

      當采用上述策略標注的正反例集合達到與策略A、B中的正反例集合數(shù)目相當時停止標注,然后重復A中的實驗。

      5 實驗結(jié)果與分析

      5.1 實驗設置

      實驗采用《航空百科詞典》作為數(shù)據(jù)源,共7892篇文檔。預定義5類概念關(guān)系,它們?yōu)椋翰考P(guān)系、材料關(guān)系、用途關(guān)系、制造與工藝關(guān)系和屬性關(guān)系。人工標注1300對概念。基于《航空百科詞典》抽取的樣例說明如表2所示。

      表2 抽取樣例的說明

      本文在文獻[9]的基礎(chǔ)上加入主動學習技術(shù),選取標注語料的30%作為測試概念關(guān)系集,把剩余70%語料分為兩部分:1.為基礎(chǔ)(f oundation)語料;2.為查詢(query)語料。其中f oundation與quer y語料的比例為1∶3。策略A、B、C利用不同的主動學習策略分別進行六分類、二分類和五分類。其中六分類與二分類迭代次數(shù)為60,因為過濾了沒有關(guān)系的類別,所以剩余的五分類的迭代次數(shù)為50。實驗中每種主動學習策略每次采樣10對概念,并且三種策略均進行5次交叉驗證。

      其中,三種策略在二分類時均采用基于閾值和最不確信的采樣算法,得到二分類的最好結(jié)果,去除其中被分為反例的部分,剩余語料利用邊緣采樣和基于熵采樣再進行五分類。衡量結(jié)果的準確率定義如式(4所示。

      5.2 實驗結(jié)果與分析

      5.2.1 實驗結(jié)果

      策略A正反例充足的情況下,得到的六分類與二分類如圖3、4所示。

      圖3 策略A的六分類結(jié)果

      圖4 策略A的二分類結(jié)果

      從圖3中看到,六分類中邊緣采樣得到了最高結(jié)果,最高準確率為74.5%。從圖4看到,策略A的二分類中基于閾值的采樣要比最不確信的結(jié)果好,最高準確率達到了84.9%,選取此時關(guān)系推薦結(jié)果中的正例進行五分類,結(jié)果如圖5所示。

      圖5 策略A的五分類結(jié)果

      通過圖5看到,邊緣采樣在迭代30次時,分類準確率達到了83.6%,并且邊緣采樣的效果要優(yōu)于基于熵的采樣。策略B在缺少反例的情況下,得到的六分類與二分類的結(jié)果如圖6、7所示。

      圖6 策略B的六分類結(jié)果

      圖7 策略B的二分類結(jié)果

      圖8 策略B的五分類結(jié)果

      從圖6看到,策略B的六分類中,最不確信采樣與邊緣采樣取得了優(yōu)于其他采樣的效果,最高準確率達到了78.8%。從圖7看到,二分類中最不確信采樣的效果要明顯優(yōu)于閾值采樣,算法在迭代到30次后收斂,準確率最高接近94%。從圖8看到,在策略B的五分類中,基于邊緣采樣與熵采樣的效果相當,準確率在迭代35次后就達到90%以上,曲線在迭代45次后收斂。策略C在缺少標注樣例情況下,根據(jù)詞對共現(xiàn)文檔的信息及詞對在共現(xiàn)文檔中的距離信息選取正反例,再重復策略A的實驗,得到的六分類與二分類的結(jié)果如圖9、10所示。

      圖9 策略C的六分類結(jié)果

      圖10 策略C的二分類結(jié)果

      策略C的六分類結(jié)果曲線相對平緩,最高關(guān)系推薦準確率在52.7%。二分的準確率結(jié)果在迭代25次后下降,其中最不確信采樣的結(jié)果好于閾值采樣的結(jié)果,最高準確率達到了75.1%。策略C的五分類結(jié)果如圖11所示。將本文三種策略實驗語料用文獻[9中的方法求出準確率,并與這三種策略去除反例后的準確率對比,其中文獻[9]的方法用“Z”表示,結(jié)果如圖12所示。

      圖11 策略C的五分類結(jié)果

      圖12 三種策略與Z方法對比

      策略C的五分類中基于熵采樣的結(jié)果好些,最高準確率達到了70.4%。說明策略C的方法對于沒有任何初始樣例的情況起到了一定的作用。圖12中,縱坐標表示標注樣例的數(shù)目,橫坐標表示三種方法與Z的方法比較,其中策略A的語料用Z方法實驗得出的準確率為83.2%,策略B為94.1%,策略C為66.7%。通過圖12的對比看到,三種策略在取得相同準確率的同時,人標注的樣例明顯減少,從而驗證了主動學習技術(shù)在本體概念關(guān)系判斷中的有效性。

      5.2.2 實驗分析

      對于策略A與策略B,兩者不同的是反例的選取方法,分別計算策略A、B中正、反例的相似度,相似度計算采用余弦相似度計算方法,結(jié)果如表3所示。

      表3 策略A、B中正反例集相似度

      通過結(jié)果可以看出,策略B的反例集與正例集的相似度結(jié)果只有1.3%,而策略A卻達到了40%以上,這樣在二分類過程中,策略A對于測試集合的正例和反例的區(qū)分能力明顯不如策略B好,所以策略B的二分類優(yōu)于策略A。也正是由于策略B中二分類有效地過濾了反例,所以策略B的五分類結(jié)果的準確率要高于策略A。綜合上述,策略A中的反例是人工給出的,具有一定的不確定性和隨機性,而策略B中通過最小相似度的主動學習策略選取的反例具有一定指導性,所以策略B的效果很理想。

      策略C中,雖然取得了一定效果,但是當主動學習算法迭代到一定次數(shù)后,曲線出現(xiàn)了下降。分析得到策略C的反例中,例如,[機輪:殲擊轟炸機]、[減震器:殲擊機]、[機輪:強擊機、[機輪:轟炸機]等幾組概念,它們共現(xiàn)在同一文檔中,并且概念間的距離遠,根據(jù)策略C中的規(guī)則他們被認為沒有任何關(guān)系,但是它們共現(xiàn)的句子是舉例說明這幾種飛機及其組成的部件,顯然它們之間應該是“部件關(guān)系”,在選取的反例集合中這樣的例子還有很多。

      6 結(jié)語

      本文依據(jù)關(guān)系判斷任務特點,并從實際應用角度出發(fā),討論了在三種不同樣本初始情況下主動學習技術(shù)的應用,對比分析了三種策略實驗結(jié)果。實驗驗證了主動學習在本體關(guān)系輔助判斷任務中的有效性,并且實現(xiàn)了在概念關(guān)系判定過程中對用戶反饋信息的有效利用,在本體關(guān)系構(gòu)建任務中,利用較少的訓練樣例獲得了較高的關(guān)系推薦準確率。

      在未來的研究中,可以針對策略C的方法做進一步改進,不僅是通過統(tǒng)計信息,還可以加入一些啟發(fā)式知識來指導選取樣例,這樣可以在大大減少人為工作量的同時提高本體的構(gòu)建效率。

      [1]Thomas R Gruber.A translation approach to portable ontologies[J].Knowledge Acquisition,1993,5(2):199-220.

      [2]何琳,侯漢清.基于統(tǒng)計自然語言處理技術(shù)的領(lǐng)域本體半自動構(gòu)建研究[J].情報學報,2009,28(2):201-207.

      [3]杜小勇,李曼,王珊.本體學習研究綜述[J].軟件學報,2006,17(9):1837-1847.

      [4]David Sanchez,Antonio Moreno.Patter n-based Automatic Taxono my Lear ning fr om the Web[J].AI Co mmunications.2008,21(1):27-48.

      [5]Tao Jiang,Ah-Hwee Tan,Ke Wang.Mining Generalized Associations of Semantic Relations fr o m Textual Web Content[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(2):164-179.

      [6]徐力斌,劉宗田,周文,等.基于 Wor d Net和自然語言處理技術(shù)的半自動領(lǐng)域本體構(gòu)建[J].計算機科學,2007,34(6):219-222.

      [7]Kavalec M,Svate K V.A study on auto mated relation labeling in ontology learning[J].Buitelaar P,Cimiano P,Magnini B,eds.Ontology Lear ning fro m Text:Methods,Evaluation and Applications.Amster dam:IOS Press,2005.

      [8]Faure D Nedellec C.A cor pus-based conceptual clustering method f or verb frames and ontology acquisition[C]//Velardi P,ed.Proc.of the LREC Workshop on Adapting Lexical and Cor pus Resources to Sublanguages and Applications Granada:LREC,1998:5-12.

      [9]張曉瑩,張桂平,王裴巖.領(lǐng)域本體構(gòu)建中關(guān)系輔助判

      斷技術(shù)研究[C]//中國計算語言學研究前沿進展(2009-2011).中國:中文信息學會,2011:276-282.

      [10]Burr Settles.Active Lear ning Literature Survey[R].Co mputer Sciences Technical Report,University of Wisconsin-Madison,2009.

      [11]B Settles,M Craven.An analysis of active learning strategies for sequence labeling tasks[C]//Proceedings of the Conference on Empirical Met hods in Natural Language Processing (EMNLP),USA:ACL Press,2008:1070-1079.

      [12]車萬翔,張梅山,劉挺.基于主動學習的中文依存句法分析[J].中文信息學報,2012,26(2):18-22.

      [13]陳榮,曹永鋒,孫洪.基于主動學習和半監(jiān)督學習的多類圖像分類[J].自動化學報,2011,37(8):954-962.

      [14]Guiping ZHANG Xiaoying ZHANG Peiyan WANG,et al.Study on Assistant Concept Acquisition in Domain Ontology Construction for Chinese Texts[C]//Proceedings of 7t h Inter national Conference on Natural Language Processing and Knowledge Engineering.Japan:2011:177-182.

      [15]A Culotta,A Mc Callum.Reducing labeling effort f or stuctured prediction tasks [C]//Proceedings of the National Conference on Artificial Intelligence(AAAI),USA:AAAI Press,2005:746-751.

      [16]T Scheffer,C Deco main,S Wrobel.Active hidden Markov models f or inf or mation extraction[C]//Proceedings of the International Conference on Advances in Intelligent Data Analysis(CAIDA).Springer-Verlag,2001:309-318.

      [17]R Hwa.Sample selection for statistical parsing[J].Computational Linguistics,2004,30(3):253-276.

      [18]Katrenko S,Adriaans P.Learning Relations from Bio medical Cor pora Using Dependency Tree Levels[C]//Proceedings of the BENELEARN conference.Springer-Verlag,2007:61-80.

      猜你喜歡
      樣例反例本體
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      樣例復雜度與學習形式對不同數(shù)量樣例學習的影響
      幾個存在反例的數(shù)學猜想
      樣例呈現(xiàn)方式對概念訓練類別表征的影響
      心理學探新(2022年1期)2022-06-07 09:15:40
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      “樣例教學”在小學高年級數(shù)學中的應用
      活用反例擴大教學成果
      利用學具構(gòu)造一道幾何反例圖形
      《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      樣例教學法回歸課堂教學之新認識
      漯河市| 德昌县| 原阳县| 宝坻区| 天气| 丹东市| 秭归县| 志丹县| 措勤县| 鄂托克前旗| 徐闻县| 水城县| 宜兰市| 西吉县| 和平区| 美姑县| 广宗县| 锡林郭勒盟| 贡山| 宁陕县| 探索| 措勤县| 祁东县| 灵山县| 湘潭县| 临朐县| 江永县| 谷城县| 岱山县| 乌拉特前旗| 沧源| 绵竹市| 万载县| 南汇区| 台东县| 曲水县| 汝阳县| 南陵县| 金塔县| 固镇县| 永川市|