• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Tri—training的柬埔寨語組織機(jī)構(gòu)名識別

      2018-06-21 11:46:28謝俊嚴(yán)馨王若蘭周楓李思遠(yuǎn)
      軟件導(dǎo)刊 2018年5期
      關(guān)鍵詞:特征選擇

      謝俊 嚴(yán)馨 王若蘭 周楓 李思遠(yuǎn)

      摘 要:隨著我國與柬埔寨的交流合作日益頻繁,柬埔寨語的自然語言處理工作變得更為重要,針對柬埔寨語語料庫資源有限、柬埔寨語組織機(jī)構(gòu)名標(biāo)注語料稀缺的問題,提出了一種基于半監(jiān)督Tri-training的柬埔寨語組織機(jī)構(gòu)名識別方法。該方法利用改進(jìn)的Tri-training算法,結(jié)合柬埔寨語的語言特點(diǎn)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,準(zhǔn)確率和召回率分別達(dá)到了65.68%、67.83%,表明該方法能有效利用大量未標(biāo)注語料得到準(zhǔn)確率較高的標(biāo)注語料。

      關(guān)鍵詞:半監(jiān)督學(xué)習(xí);三體訓(xùn)練法;標(biāo)注語料;特征選擇

      DOI:10.11907/rjdk.172833

      中圖分類號:TP319

      文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)005-0127-05

      Abstract:With the increasingly frequent exchanges and cooperation between China and Cambodia, natural language processing of Cambodian becomes more and more important. Due to the scarcity of corpus resources of Cambodian, the tagging corpus of the names of Cambodian organizations are also rare.A new method based on semi supervised Tri-training and combined with the Cambodian characteristics was suggested; it was confirmed that the accuracy and recall rate reached 65.68% and 67.83% respectively, which indicated that the method could effectively use a large number of untagged data to get a higher accuracy.

      Key Words:semi-supervised learning; Tri-training; tagged corpus; feature selection

      0 引言

      作為現(xiàn)今自然語言處理工作的重要組成部分,命名實(shí)體識別技術(shù)是對文本語料理解、處理的基礎(chǔ),而其中對組織機(jī)構(gòu)名的識別是較為困難的部分。組織機(jī)構(gòu)名分為簡單組織機(jī)構(gòu)名和復(fù)雜組織機(jī)構(gòu)名。簡單組織機(jī)構(gòu)名是由一個詞組成的;一個復(fù)雜組織的名稱由組織的一個或多個前言加上組織的名字組成。

      針對組織機(jī)構(gòu)名的研究,周波等[2]提出一種基于條件隨機(jī)場的字詞模型相結(jié)合的組織機(jī)構(gòu)名識別方法,針對組織機(jī)構(gòu)名的特點(diǎn)利用知網(wǎng)進(jìn)行字、詞兩方面的特征選擇,結(jié)果表明字詞模型之間存在互補(bǔ)差異性,相結(jié)合后取得了比單一模型更好的效果;馮麗萍等[3]提出基于最大熵模型的中文組織機(jī)構(gòu)名識別方法,在大規(guī)模數(shù)據(jù)集上對比了不同特征選擇方法對模型的影響,結(jié)果表明改變其特征選擇方法以及采用不同的參數(shù)估計(jì)方法雖然會在一定程度上影響模型的大小和訓(xùn)練速度,但對模型預(yù)測效果影響不大;胡萬亭等[4]提出一種基于詞頻統(tǒng)計(jì)的組織機(jī)構(gòu)名識別方法,主要是在百度詞條名的基礎(chǔ)上對組織機(jī)構(gòu)名進(jìn)行詞頻統(tǒng)計(jì),識別結(jié)果與實(shí)際情況無大差距,可以滿足一定的科學(xué)研究和實(shí)際應(yīng)用;Ling、Yang等[5]提出基于多特征的中文組織機(jī)構(gòu)名識別,使用核心特征詞庫和左邊界規(guī)則集提取候選中文組織機(jī)構(gòu)名,然后根據(jù)中文組織機(jī)構(gòu)名的行為特征和調(diào)試結(jié)構(gòu)模式對候選中文組織機(jī)構(gòu)名進(jìn)行評估和完善,結(jié)果表明很好地完成了對中文組織機(jī)構(gòu)名的識別,特別是對嵌套組織機(jī)構(gòu)名的識別。這些研究者提出的方法都是基于大規(guī)模的標(biāo)注語料,在一定程度上對組織機(jī)構(gòu)名的識別達(dá)到了較好的效果。

      對于柬埔寨語組織機(jī)構(gòu)名識別的研究較少,潘華山等[6]提出了融合實(shí)體特性的柬埔寨語命名實(shí)體識別方法,利用條件隨機(jī)場學(xué)習(xí)算法,采用詞形、詞性及其組合等特征以及融入柬語實(shí)體的特性進(jìn)行命名實(shí)體的識別;黃淑慧[7]提出了一種融入柬埔寨語實(shí)體特征的約束條件隨機(jī)場的命名實(shí)體識別方法,利用整數(shù)線性規(guī)劃的方法結(jié)合柬埔寨語實(shí)體詞上下文邏輯關(guān)系約束,計(jì)算得到最短路徑的標(biāo)注序列,從而實(shí)現(xiàn)命名實(shí)體的識別。上述研究方法對于組織機(jī)構(gòu)名的識別效果都不是很好,因此本文針對柬埔寨語組織機(jī)構(gòu)名進(jìn)行研究。

      由于柬埔寨語組織機(jī)構(gòu)名的標(biāo)注語料匱乏,雖然可以輕易獲取大量未標(biāo)注語料,但對這些語料進(jìn)行標(biāo)注需要耗費(fèi)大量人力和物力,如何有效利用大量未標(biāo)注語料改善學(xué)習(xí)性能成為目前研究中最為關(guān)注的問題。半監(jiān)督學(xué)習(xí)[8-10]試圖讓學(xué)習(xí)器自動地對大量未標(biāo)記數(shù)據(jù)進(jìn)行利用以輔助少量的有標(biāo)記數(shù)據(jù)進(jìn)行學(xué)習(xí)。Blum和Mitchell[11]提出的協(xié)同訓(xùn)練法(Co-training)在使用時,存在著要使數(shù)據(jù)集上有兩個充分冗余視圖的前提,而充分的含義是所給出的每個屬性集都可以說明這個問題,且如若給出的訓(xùn)練例子很大,那么對于每一個屬性集是一個強(qiáng)學(xué)習(xí)器;冗余的含義在于對所轉(zhuǎn)儲的標(biāo)記文件,每兩個屬性集之間都是相互獨(dú)立的,然而在現(xiàn)實(shí)問題中充分冗余視圖的要求很難滿足?;谏鲜龇椒ǖ牟蛔悖琙hou Z H和Li M[12]提出了三體訓(xùn)練法(Tri-training),不同于前文算法中的要求該算法適用3個分類器,實(shí)現(xiàn)了簡便處理標(biāo)記置信度估計(jì),還解決了對未標(biāo)記例子的預(yù)測問題,同時將此算法與集成學(xué)習(xí)結(jié)合在一起能夠?qū)崿F(xiàn)泛化能力的提高。李心磊等[13]提出關(guān)于Tri-training算法中分類器組合的改進(jìn)方法,由原先單一的分類器換成兩個不同分類器的組合作為Tri-training算法中的3個分類器構(gòu)成分類器模型,結(jié)果表明使用分類效果較為接近,且分類算法不同的分類器,以獲得較高的分類準(zhǔn)確率;Cai Y H、Cheng X Y[14]提出了基于Tri-training的生物醫(yī)學(xué)命名實(shí)體識別方法;Chou C L和Chang C H[15]提出一種通過自動標(biāo)注、利用未標(biāo)注數(shù)據(jù)和含有已知命名實(shí)體結(jié)構(gòu)化資源的半監(jiān)督Tri-training學(xué)習(xí)算法的命名實(shí)體識別方法;陳霄[16]等提出了利用支持向量機(jī)結(jié)合主動學(xué)習(xí)策略的中文組織機(jī)構(gòu)名識別方法;鐘志農(nóng)[17]等提出了基于條件隨機(jī)將主動學(xué)習(xí)與自學(xué)習(xí)相結(jié)合的中文命名實(shí)體識別方法。上述研究表明,利用Tri-training算法不僅能有效利用大量未標(biāo)注語料和少量標(biāo)注語料提高算法的泛化能力,還可以利用不同分類器各自的優(yōu)點(diǎn),達(dá)到更好的識別效果。

      針對柬埔寨語組織機(jī)構(gòu)名研究中存在的問題,本文提出一種基于半監(jiān)督學(xué)習(xí)的Tri-training算法的柬埔寨語組織機(jī)構(gòu)名識別方法。利用Tri-training學(xué)習(xí)算法使用條件隨機(jī)場(Conditional Random Fields,CRFs)、支持向量機(jī)(Support Vector Machines,SVMs)和最大熵模型(Maximum Entropy Model,ME)3個分類器組合成一個分類體系,并依據(jù)最優(yōu)化樣本選擇策略對新加入的樣本進(jìn)行選擇,結(jié)合柬埔寨語的語言特點(diǎn),利用少量標(biāo)注語料和大量未標(biāo)注語料進(jìn)行研究。

      1 基于Tri-training的算法

      Tri-training算法是在Co-training算法基礎(chǔ)上改進(jìn)的半監(jiān)督學(xué)習(xí)算法。通過使用3個分類器解決柬埔寨組織名稱的識別,還有未標(biāo)注的學(xué)習(xí)和其它問題的例子。該算法通過對標(biāo)記樣本集的可重復(fù)采樣(bootstrap sampling)啟動,以獲得3個已進(jìn)行標(biāo)記的訓(xùn)練集,并訓(xùn)練來自每個訓(xùn)練集的分類器。在協(xié)同訓(xùn)練過程中,每個分類器獲得的新標(biāo)簽樣本由兩個其它分類器提供,若這兩個分類器對于同一未標(biāo)記的樣本是相同的預(yù)測,則這個樣本就會被標(biāo)記為較高的置信水平,且在被標(biāo)記之后會將其加到第三個分類器上的已被標(biāo)記的訓(xùn)練文本當(dāng)中。另外在處理未被標(biāo)記的文本時,此算法采用的是少數(shù)服從多數(shù)的方法,將3個分類器組成一個組進(jìn)行算法應(yīng)用。

      1.1 三個基分類器簡單介紹

      條件隨機(jī)場是由Lafferty J等[18]于2001年提出,是一個概率化的結(jié)構(gòu)模型,主要作用是用來標(biāo)注和劃分序列結(jié)構(gòu)數(shù)據(jù),同時,也可以將條件隨機(jī)場看作為一個無向圖模型或者馬爾科夫隨機(jī)場。由于條件隨機(jī)場的條件隨機(jī)性,只需考慮當(dāng)前已經(jīng)出現(xiàn)的觀測狀態(tài),所以能夠非常有效地避免其它模型中所存在的標(biāo)記偏差的問題,因此近幾年在自然語言處理領(lǐng)域得到了很好的應(yīng)用并取得到了較為滿意的結(jié)果。

      支持向量機(jī)由Cortes和Vapnik[19]在1995年提出,作為一種機(jī)器學(xué)習(xí)的方法,它是在統(tǒng)計(jì)學(xué)的理論基礎(chǔ)之上產(chǎn)生的。作為一種二類分類模型,支持向量機(jī)最初應(yīng)用于處理二值分類等問題。對于柬埔寨文本中組織機(jī)構(gòu)名的識別問題,需采用多值分類的思想,有必要對支持向量機(jī)進(jìn)行改進(jìn),建議采用Hideki提出的將多值問題轉(zhuǎn)化為二值問題的思想。為了解決支持向量機(jī)二值分類器僅接受數(shù)字化的值的限制,將詞及詞性特征等非數(shù)字化特征轉(zhuǎn)化為數(shù)字特征。這種方法在自然語言處理、圖像識別等很多領(lǐng)域得到了成功應(yīng)用。

      最大熵原理由Jaynes[20]于1957年最早提出,1996年被應(yīng)用于自然語言處理[21]。最大熵模型基本原理是:對于未知信息,在只學(xué)習(xí)了其中一部分的前提下,跟已知知識相符的概率分布可能不止一個,此時有一個概率分布的熵值最大,那么這個概率分布最接近原有事件所反映的真實(shí)分布情況。由于熵在只掌握關(guān)于未知分布的部分信息的情況下,符合已知知識的概率分布可能有多個,但使熵最大的概率分布最真實(shí)地反映了事件的分布情況,因?yàn)殪囟x了隨機(jī)變量的不確定性。當(dāng)熵最大時,隨機(jī)變量最不確定,最難準(zhǔn)確地預(yù)測其行為,即在已知部分信息的前提下,關(guān)于未知分布最合理的推斷應(yīng)該是符合已知信息最不確定或最大隨機(jī)的推斷。最大熵模型的一個最為顯著的特點(diǎn)是不要求選用的特征相互獨(dú)立,因此可以選用對分類效果好的任意特征而忽略各個特征之間是否相互影響。

      1.2 改進(jìn)的Tri-training算法流程

      因?yàn)樽铋_始的Tri-training算法是運(yùn)用可重復(fù)采樣的方法給予最開始處于相同狀態(tài)的3個分類器不同的初始樣本進(jìn)行處理,從而使得3個分類器不同,但這種算法的弊端在于它無法實(shí)現(xiàn)分類器的多樣性,使得分類器在進(jìn)行協(xié)同訓(xùn)練時有可能會被減化為單分類器的自訓(xùn)練(self-training),因此本文采用3個不同的分類器實(shí)現(xiàn)Tri-training算法分類器的差異性。

      1.3 標(biāo)注方法

      本文標(biāo)注方法采用BISO標(biāo)注法,組織機(jī)構(gòu)名的開始用大寫字母B表示;組織機(jī)構(gòu)名的中間用大寫字母I表示;組織機(jī)構(gòu)名的結(jié)束用大寫字母S表示;用O表示詞語不屬于組織機(jī)構(gòu)名。此時組織機(jī)構(gòu)名的識別問題便能轉(zhuǎn)成序列化的標(biāo)注問題。標(biāo)注類型分為{B_ORG,I_ORG,S_ORG,ORG,PER,LOC,O},其中ORG代表該詞為單個組織機(jī)構(gòu)名,PER代表該詞為人名,LOC代表該詞為地名。

      1.4 特征選擇

      根據(jù)條件隨機(jī)場和最大熵模型依據(jù)對特征模板的構(gòu)建進(jìn)行實(shí)驗(yàn),根據(jù)柬埔寨語的以下特點(diǎn):在柬埔寨語中組織機(jī)構(gòu)名書寫的順序跟漢語是相反的,如“昆明理工大學(xué)”對應(yīng)的柬語為“大學(xué)理工昆明”;柬埔寨語的組織機(jī)構(gòu)名一般是定中結(jié)構(gòu),且定語為后置,前綴表明組織機(jī)構(gòu)所屬類型,絕大多數(shù)的機(jī)構(gòu)名指示詞均以前綴的形式出現(xiàn)在機(jī)構(gòu)名中;根據(jù)柬埔寨語組織機(jī)構(gòu)名的特點(diǎn),左邊界為機(jī)構(gòu)名指示詞,人工收集實(shí)體指示詞并構(gòu)建實(shí)體指示詞庫如:(公司)、(黨)、(組織)、(隊(duì))、(教堂)、(寺廟)、(醫(yī)院)、(大學(xué))、(部)等,因此識別的重點(diǎn)放在右邊界,能否正確識別出右邊界對構(gòu)造實(shí)體特征模塊具有重要意義。其中基本特征模板描述了當(dāng)前詞及其上下文中若干個詞的詞性如表1所示。

      復(fù)合特征模板就是將基本特征模板中的特征進(jìn)行組合,利用依存關(guān)系和豐富的上下文信息,本文采用由兩個基本特征模板構(gòu)成的復(fù)合特征模板,在表2中列出的是本文符合特征模板的一部分。

      根據(jù)柬埔寨語言的特點(diǎn),結(jié)合實(shí)體指示詞庫,提取出的實(shí)體特征模板如表3所示。

      1.5 最優(yōu)化樣本選擇策略

      2 實(shí)驗(yàn)描述與分析

      2.1 實(shí)驗(yàn)語料

      本文實(shí)驗(yàn)語料從柬埔寨新聞網(wǎng)站上爬取。首先將爬取的新聞篇章語料切分為句子,由于柬埔寨語和中文一樣是連續(xù)書寫的,一般詞與詞之間沒有明顯的分隔符,因此應(yīng)先對柬埔寨語進(jìn)行分詞。在本文中,為實(shí)現(xiàn)柬埔寨語的分詞以及詞性標(biāo)注,采用了潘華山[23]提出的基于層疊條件隨機(jī)的柬埔寨語分詞及詞性標(biāo)注方法,該方法最終以詞語為粒度,結(jié)合上下文信息與柬埔寨語的構(gòu)詞特點(diǎn)、柬埔寨語中命名實(shí)體的構(gòu)成特點(diǎn)以及柬埔寨語豐富的詞綴信息構(gòu)建特征模板,實(shí)現(xiàn)對柬埔寨語中句子的分詞和詞性標(biāo)注;然后通過人工校對提高句子分詞和詞性標(biāo)注的準(zhǔn)確率,得到的語料規(guī)模為5 000句,含有2 863個組織機(jī)構(gòu)名,其中通過人工標(biāo)注獲得2 000句的標(biāo)注語料,1 000句用于訓(xùn)練語料,另外1 000句用于測試語料,其余3 000句為未標(biāo)注語料用于Tri-training訓(xùn)練。

      2.2 評測方法

      衡量命名實(shí)體識別系統(tǒng)性能的主要性能指標(biāo)包括準(zhǔn)確率P、召回率R以及綜合反映兩者的綜合指標(biāo)F值。具體定義為:

      2.3 實(shí)驗(yàn)結(jié)果及分析

      在運(yùn)用Tri-training算法時,首先需要建立3個初始分類器,為了使初始的分類器具有一定的差異性,本實(shí)驗(yàn)在Tri-training中采用的分類器分別是CRF++(v0.58)、MaxEnt及SVM-light。本文采用兩組對比實(shí)驗(yàn),第一組實(shí)驗(yàn)進(jìn)行3個基分類器的識別結(jié)果與Co-training算法和Tri-training算法通過10輪迭代后的識別結(jié)果的比較,第二組實(shí)驗(yàn)對比經(jīng)過Tri-training算法10輪迭代的識別結(jié)果,實(shí)驗(yàn)結(jié)果如表4、5所示。

      從表4可以發(fā)現(xiàn)利用Tri-training算法的識別結(jié)果相比3個基分類器的效果有明顯提升,相比Co-training算法識別效果也要一定的提升,但由于Co-training算法要求數(shù)據(jù)具有兩個充分冗余且滿足條件獨(dú)立性的視圖,此要求在現(xiàn)實(shí)情況下很難達(dá)到,所以實(shí)驗(yàn)效果不是很好,因此證明采用該方法進(jìn)行柬埔寨語組織機(jī)構(gòu)名的識別達(dá)到了更好的效果。其中3個基分類器的識別效果中,條件隨機(jī)的準(zhǔn)確率和召回率最高,因此F值最高的是條件隨機(jī)模型。由于3個基分類器的識別效果不同,表明不同特征對3個基分類器的影響各不同。

      表5顯示了Tri-training算法在每輪迭代后的結(jié)果,在第一輪訓(xùn)練結(jié)束后,準(zhǔn)確率最高,與基分類器的準(zhǔn)確率較高有關(guān),召回率相對較低,通過多輪的訓(xùn)練,準(zhǔn)確率有所下降,召回率逐漸提升,F(xiàn)值一直在增加,但隨著迭代次數(shù)的增加,F(xiàn)值增加的幅度逐漸減小,趨于一致。實(shí)驗(yàn)表明能有效地識別出組織機(jī)構(gòu)名的左邊界,對于復(fù)雜組織機(jī)構(gòu)名的右邊界的識別效果有待進(jìn)一步提高。

      3 結(jié)束語

      本文提出了一種基于半監(jiān)督Tri-training的柬埔寨語組織機(jī)構(gòu)名識別方法,選取3個基分類器,即CRFs、ME及SVMs,通過N輪迭代對未標(biāo)注語料進(jìn)行標(biāo)注以擴(kuò)充語料庫,減輕了人工標(biāo)注大量語料的工作,對于命名實(shí)體識別研究具有重要影響,但整體識別效果不太理想,對于基分類器的識別效果也可以進(jìn)一步提高。希望在下一步工作中,繼續(xù)擴(kuò)大組織機(jī)構(gòu)名語料庫,通過本實(shí)驗(yàn)擴(kuò)展到對柬埔寨語命名實(shí)體識別的研究,擴(kuò)充實(shí)體指示詞庫,結(jié)合柬埔寨語言的特點(diǎn),更有效地識別實(shí)體的左右邊界,以達(dá)到更高的準(zhǔn)確率和召回率;也可以利用中柬雙語對齊的句子,通過中文組織機(jī)構(gòu)名來識別柬埔寨組織機(jī)構(gòu)名。

      參考文獻(xiàn):

      [1] 黃德根,李澤中,萬如.基于SVM和CRF的雙層模型中文機(jī)構(gòu)名識別[J].大連理工大學(xué)學(xué)報(bào),2010,50(5):782-787.

      [2] 周波,蔡東風(fēng).基于條件隨機(jī)場的中文組織機(jī)構(gòu)名識別研究[J].沈陽航空航天大學(xué)學(xué)報(bào),2009,26(1):49-52.

      [3] 馮麗萍,焦莉娟.基于最大熵的中文組織機(jī)構(gòu)名識別模型[J].計(jì)算機(jī)與數(shù)字工程,2010,38(12).

      [4] 胡萬亭,楊燕,尹紅風(fēng),等.一種基于詞頻統(tǒng)計(jì)的組織機(jī)構(gòu)名識別方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(7):2014-2016.

      [5] LING Y J, YANG J, HE L. Chinese organization name recognition based on multiple features[M]. Intelligence and Security Informatics. Springer Berlin Heidelberg,2012:136-144.

      [6] 潘華山,嚴(yán)馨,余正濤,等.融合實(shí)體特性的柬埔寨語命名實(shí)體識別方法[C].第26屆中國控制與決策會議論文集.2014.

      [7] 黃淑慧.基于約束條件隨機(jī)場的柬埔寨語命名實(shí)體識別研究[D].昆明:昆明理工大學(xué),2015.

      [8] CHAPELLE O, SCHOLKOPF B, ZIEN A. Semi-supervised learning[M].Cambridge, MA: MIT Press,2006.

      [9] ZHOU Z H, LI M.Semi-supervised learning by disagreement.[J]. Knowledge & Information Systems,2010,24(3):415-439.

      [10] 周志華.基于分歧的半監(jiān)督學(xué)習(xí)[J].自動化學(xué)報(bào),2013,39(11):1871-1878.

      [11] BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training[C]. Proceedings of the eleventh annual conference on Computational learning theory. ACM,2000:92-100.

      [12] ZHOU Z H, LI M. Tri-training: exploiting unlabeled data using three classifiers[J]. Knowledge & Data Engineering IEEE Transactions on,2005,17(11):1529-1541.

      [13] 李心磊,楊思春,彭月娥.Tri-training算法中分類器組合的改進(jìn)[J].蘇州科技學(xué)院學(xué)報(bào):自然科學(xué)版,2014(2):52-56.

      [14] CAI Y H, CHENG X Y. Biomedical named entity recognition with tri-training learning[C]. Biomedical Engineering and Informatics, 2009. BMEI '09. 2nd International Conference on IEEE,2009:1-5.

      [15] CHOU C L, CHANG C H. Named entity extraction via automatic labeling and tri-training: comparison of selection methods[M]. Information Retrieval Technology. Springer International Publishing,2014:244-255.

      [16] 陳霄,劉慧,陳玉泉.基于支持向量機(jī)方法的中文組織機(jī)構(gòu)名的識別[J].計(jì)算機(jī)應(yīng)用研究,2008,25(2):362-364.

      [17] 鐘志農(nóng),劉方馳,吳燁,等.主動學(xué)習(xí)與自學(xué)習(xí)的中文命名實(shí)體識別[J].國防科技大學(xué)學(xué)報(bào),2014(4):82-88.

      [18] LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C].Proceedings of the eighteenth international conference on machine learning, ICML.2001(1):282-289.

      [19] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning,1995,20(3):273-297.

      [20] JAYNES E T. Information theory and statistical mechanics[J]. Physical Review,1957,106(4):620.

      [21] BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational Linguistics,1996,22(1):39-71.

      [22] STEEDMAN M, HWA R, CLARK S, et al. Example selection for bootstrapping statistical parsers[C]. Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, Association for Computational Linguistics,2004.

      [23] 潘華山.基于條件隨機(jī)場的柬埔寨語詞法分析方法研究[D].昆明:昆明理工大學(xué),2014.

      (責(zé)任編輯:江 艷)

      猜你喜歡
      特征選擇
      二進(jìn)制登山隊(duì)優(yōu)化算法及其在特征選擇中的應(yīng)用
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于實(shí)例學(xué)習(xí)和協(xié)同子集搜索的特征選擇方法
      基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于GA和ELM的電能質(zhì)量擾動識別特征選擇方法
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
      非線性電路多軟故障的智能優(yōu)化遞階特征選擇診斷方法
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      洛浦县| 永和县| 蓝山县| 高安市| 洛扎县| 和林格尔县| 孟津县| 仙桃市| 咸丰县| 莫力| 绩溪县| 南昌县| 拜城县| 正镶白旗| 贺州市| 松阳县| 灯塔市| 内丘县| 吉木萨尔县| 绍兴县| 汝城县| 大足县| 七台河市| 乐平市| 赣州市| 澄迈县| 孝昌县| 五家渠市| 益阳市| 青冈县| 江永县| 泸州市| 安图县| 永平县| 湾仔区| 察隅县| 武隆县| 楚雄市| 宁南县| 嘉祥县| 芮城县|