朱 臻,孫 媛
(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 中央民族大學(xué) 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心少數(shù)民族語(yǔ)言分中心,北京 100081)
?
基于SVM和泛化模板協(xié)作的藏語(yǔ)人物屬性抽取
朱 臻1,2,孫 媛1,2
(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 中央民族大學(xué) 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心少數(shù)民族語(yǔ)言分中心,北京 100081)
該文提出了一種基于SVM和泛化模板協(xié)作的藏語(yǔ)人物屬性抽取方法。該方法首先構(gòu)建了基于藏語(yǔ)語(yǔ)言規(guī)則的模板系統(tǒng),收集了包括格助詞、特殊動(dòng)詞等具有明顯語(yǔ)義信息的特征建設(shè)模板并泛化。針對(duì)規(guī)則方法的局限性,該文在模板的基礎(chǔ)上,采用SVM機(jī)器學(xué)習(xí)方法,設(shè)計(jì)了一種處理多分類問(wèn)題的層次分類器結(jié)構(gòu),同時(shí)對(duì)多樣化的特征選取給予說(shuō)明。最后,實(shí)驗(yàn)結(jié)果表明,基于SVM和模板相結(jié)合的方式可以對(duì)人物屬性抽取的性能有較大提高。
人物屬性抽取;藏語(yǔ)語(yǔ)言處理;SVM;層次分類器
隨著互聯(lián)網(wǎng)的快速普及,特別是發(fā)展中國(guó)家互聯(lián)網(wǎng)用戶的快速增加,網(wǎng)絡(luò)上非英語(yǔ)文本資源數(shù)量急速增長(zhǎng),其增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超過(guò)了十年前的速度,并且越來(lái)越多的網(wǎng)上信息以多語(yǔ)言的形式發(fā)布。
據(jù)中央民族大學(xué)國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心少數(shù)民族語(yǔ)言分中心調(diào)查,截止到2013年12月底,大陸少數(shù)民族語(yǔ)言文字的網(wǎng)站總量在1 250個(gè)左右,其中維吾爾文網(wǎng)站840個(gè)、藏文網(wǎng)站146個(gè)、蒙古文網(wǎng)站136個(gè)?!芭c全國(guó)網(wǎng)民增長(zhǎng)速度相比,少數(shù)民族網(wǎng)民的增速較為突出,例如,藏族網(wǎng)民增幅達(dá)86%,遠(yuǎn)遠(yuǎn)高于全國(guó)平均增長(zhǎng)速度”[1]。
Web內(nèi)容的爆炸式增長(zhǎng),使得對(duì)Web的社會(huì)網(wǎng)絡(luò)研究已經(jīng)不再局限于對(duì)Web結(jié)構(gòu)的分析,而是轉(zhuǎn)向以Web內(nèi)容為研究對(duì)象的分析[2],其中知識(shí)圖譜(Knowledge Graph)成為大數(shù)據(jù)時(shí)代自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。知識(shí)圖譜以結(jié)點(diǎn)代表實(shí)體或者概念,邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系,其中實(shí)體知識(shí)的抽取是主要研究?jī)?nèi)容之一。
知識(shí)圖譜以全面、完整的知識(shí)體系為信息檢索、問(wèn)答系統(tǒng)、知識(shí)庫(kù)構(gòu)建等領(lǐng)域的研究提供了資源和支撐,而目前已有的Google(超過(guò)5.7億實(shí)體,18億關(guān)系),DBpedia(超過(guò)1 900萬(wàn)實(shí)體,1億關(guān)系),Wiki-links(4 000萬(wàn)排除歧義的關(guān)系),Wolframalpha(10萬(wàn)億關(guān)系),Probase(超過(guò)265萬(wàn)實(shí)體),百度知心,搜狗知立方等知識(shí)圖譜只提供英、漢、法等語(yǔ)言的相關(guān)知識(shí)[3],少數(shù)民族語(yǔ)言知識(shí)圖譜的構(gòu)建才剛剛起步。
因此,本文針對(duì)藏語(yǔ)語(yǔ)言的特點(diǎn),提出了一種基于SVM和泛化模板協(xié)作的藏語(yǔ)人物屬性抽取方法。藏語(yǔ)人物屬性抽取的研究,是藏語(yǔ)知識(shí)圖譜構(gòu)建的基礎(chǔ),為藏語(yǔ)知識(shí)問(wèn)答、信息檢索、信息抽取等領(lǐng)域研究提供支撐,對(duì)提高少數(shù)民族地區(qū)的社會(huì)管理科學(xué)化水平、維護(hù)民族團(tuán)結(jié)和國(guó)家統(tǒng)一、構(gòu)建和諧社會(huì)具有重要意義。
人物屬性抽取是信息抽取領(lǐng)域的一個(gè)重要研究對(duì)象[4],該概念在2009年的國(guó)際TAC KBP會(huì)議開始引入[5]。人物屬性抽取是指自動(dòng)從無(wú)結(jié)構(gòu)或者半結(jié)構(gòu)的文本語(yǔ)料中抽取特定的人物屬性,其中包括人物性別、出生年月、出生地、所屬機(jī)構(gòu)等。但是人物屬性抽取一直面臨著兩大問(wèn)題[6],即人物屬性識(shí)別問(wèn)題和人物屬性關(guān)系判別問(wèn)題。人物屬性一般為命名實(shí)體,例如,人名、地名和組織機(jī)構(gòu)名。命名實(shí)體識(shí)別在自然語(yǔ)言處理領(lǐng)域仍是一件尚未完全解決的工作。因此,在人物屬性抽取工作前,需要準(zhǔn)備高準(zhǔn)確度命名實(shí)體標(biāo)注語(yǔ)料[7]。
為了實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的信息抽取,很多機(jī)器學(xué)習(xí)算法被引入到信息抽取領(lǐng)域。Freitag采用HMM結(jié)構(gòu)進(jìn)行信息抽取[8],Laffery使用條件隨機(jī)場(chǎng)抽取數(shù)據(jù)[9],Kambhatla把多種特征用于最大熵模型并取得了較好的抽取效果[10]。而應(yīng)用最廣的是支持向量機(jī)方法[11-12]。作為信息抽取領(lǐng)域的一個(gè)分支,把統(tǒng)計(jì)的方法運(yùn)用于人物屬性抽取,通常采用基于特征向量的方式[13]。其中,經(jīng)典的基于特征向量的機(jī)器學(xué)習(xí)方法包括最大熵模型[14]和支持向量機(jī)[15]。另外,特征選取對(duì)于基于特征向量的方式至關(guān)重要。Miler構(gòu)建了一種語(yǔ)義解析樹,樹中整合了概念間關(guān)系的多種語(yǔ)義信息,包括詞性標(biāo)注,命名實(shí)體識(shí)別標(biāo)記和其他一些語(yǔ)言上的強(qiáng)特征,這些特征給分類器提供了很好的依據(jù)[16]。Culotta根據(jù)依存樹構(gòu)建了核函數(shù),并將其用于機(jī)器學(xué)習(xí)算法[17]。Zelenko引入了一種樹核的方法[18]。
但是,目前針對(duì)藏語(yǔ)的實(shí)體知識(shí)抽取領(lǐng)域的研究較少,主要研究集中于藏語(yǔ)的命名實(shí)體識(shí)別方法[19-21],而對(duì)于實(shí)體關(guān)系抽取特別是人物屬性抽取的研究尚未有成熟的成果。歸納原因,藏語(yǔ)任務(wù)屬性抽取存在的困難如下: (1)訓(xùn)練語(yǔ)料匱乏;(2)藏語(yǔ)在句子和篇章級(jí)的信息處理研究還處于起步階段,因此,英、漢實(shí)體關(guān)系抽取中的核函數(shù)方法無(wú)法被直接應(yīng)用于藏語(yǔ)實(shí)體關(guān)系抽取中。
因此,本文針對(duì)藏語(yǔ)的特點(diǎn),構(gòu)建了一定規(guī)模的訓(xùn)練語(yǔ)料,提出一種基于SVM和泛化模板的藏語(yǔ)人物屬性關(guān)系抽取方法。其中,模板構(gòu)建重點(diǎn)選取包括藏語(yǔ)后置謂詞,相關(guān)的格信息等主要特征。此外,針對(duì)模板方式的局限性,本文采用SVM機(jī)器學(xué)習(xí)方法,設(shè)計(jì)了一種處理多分類問(wèn)題的層次分類器進(jìn)行屬性關(guān)系抽取。最后,本文分別采用模板、SVM以及模板和SVM結(jié)合的方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,通過(guò)模板和SVM結(jié)合的方式有效提高了人物屬性抽取的正確性。
通過(guò)可配置的爬蟲系統(tǒng)從多個(gè)藏文網(wǎng)站獲取語(yǔ)料,從中篩選出關(guān)于人物介紹的文章并對(duì)這些句子做預(yù)處理,包括分詞、詞性標(biāo)注和命名實(shí)體識(shí)別。首先,根據(jù)訓(xùn)練語(yǔ)料構(gòu)建模板系統(tǒng)。此外,為了應(yīng)對(duì)開放語(yǔ)料的多樣性問(wèn)題,引入了SVM方法進(jìn)行預(yù)測(cè),而模板中的語(yǔ)言規(guī)則作為輔助工具。最終將處理完成的數(shù)據(jù)裝入人物-屬性庫(kù)中,具體過(guò)程如圖1所示。
一定量的訓(xùn)練語(yǔ)料標(biāo)注之后,可以進(jìn)入模板系統(tǒng)建設(shè)階段,本節(jié)將分別介紹藏語(yǔ)特征選擇,模板建設(shè)和泛化過(guò)程。
圖1 基于SVM和泛化模板相結(jié)合的藏語(yǔ)人物屬性關(guān)系抽取方法
4.1 主要藏語(yǔ)特征選擇
不同于漢語(yǔ)和英語(yǔ),藏語(yǔ)是謂語(yǔ)后置型語(yǔ)言,動(dòng)詞是句子的核心。動(dòng)詞附近的格標(biāo)記含有豐富的語(yǔ)義角色信息,格標(biāo)記在一定程度上反映出句子中謂詞與主體詞之間的關(guān)系,而且這些格標(biāo)記的出現(xiàn)存在一定的規(guī)律。因此,對(duì)格標(biāo)記做了整理,這些格標(biāo)記對(duì)藏文人物屬性抽取起到重要的作用,如表1所示。
表1 藏語(yǔ)格標(biāo)記的類型與作用
4.2 模板建設(shè)
與漢語(yǔ)和英語(yǔ)不同,模板建設(shè)中更加注重藏語(yǔ)特有的格標(biāo)記和周圍的動(dòng)詞,在語(yǔ)料標(biāo)注的基礎(chǔ)上構(gòu)建特征模板,如例1-4。
詞性標(biāo)記采用“國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心少數(shù)民族語(yǔ)言分中心”的《信息處理用現(xiàn)代藏語(yǔ)詞類標(biāo)記集規(guī)范》,其中,“/nh”表示人名、“/t”表示時(shí)間、“/ns”表示地名、“/k”表示格標(biāo)記、“/v”表示動(dòng)詞。
4.3 泛化
在語(yǔ)料模板建設(shè)完成后,發(fā)現(xiàn)眾多模板具有相似性,我們整合、修改并泛化模板使其能應(yīng)用于更廣泛的語(yǔ)料。對(duì)于微小區(qū)別模板,例如,僅是動(dòng)詞的差別,只需將不同的動(dòng)詞添加的集合來(lái)合并模板。對(duì)于模板中不重要的修飾性成分,將其從模板中刪除,模板樣式如例5-8。
雖然基于特征模板的方法在特定的測(cè)試語(yǔ)料中可以取得較高的準(zhǔn)確度,但是它需要很多人工的介入,并且對(duì)于模板系統(tǒng)尚未覆蓋的內(nèi)容無(wú)能為力。因此,對(duì)于不同的語(yǔ)料,準(zhǔn)確率和召回率差別很大,特別是對(duì)于模板系統(tǒng)比較生疏的語(yǔ)料,基于模板的抽取系統(tǒng)召回率非常低。因此,本文引入了基于特征向量的SVM方法,并設(shè)計(jì)了層次分類器。
5.1 特征選取
特征選擇至關(guān)重要。一定程度上,特征的質(zhì)量決定了分類效果。本文的特征向量主要選取關(guān)鍵詞特征、標(biāo)注組合特征、實(shí)體詞周圍標(biāo)記特征。
5.1.1 關(guān)鍵詞特征
5.1.2 基于多種標(biāo)記的組合特征
5.1.3 實(shí)體詞周圍標(biāo)記特征
實(shí)體詞周圍標(biāo)記特征是指在實(shí)體詞周圍的詞標(biāo)記構(gòu)成的特征,包括詞性標(biāo)記和命名實(shí)體標(biāo)記。本文認(rèn)為離實(shí)體詞越近的標(biāo)記越重要,而離實(shí)體詞距離越遠(yuǎn)的標(biāo)記則較不重要。因此,選取實(shí)體詞向前兩個(gè)詞距和向后一個(gè)詞距內(nèi)的詞性標(biāo)注標(biāo)記和前后三個(gè)詞距內(nèi)的命名實(shí)體標(biāo)記。
5.2 構(gòu)造層次分類器
SVM目前是信息抽取領(lǐng)域應(yīng)用較為成功的分類器之一。SVM通過(guò)在高維空間上尋找最優(yōu)超平面,從而達(dá)到分類目的。對(duì)于非線性可分的樣本集,一般是通過(guò)升維實(shí)現(xiàn)樣本空間映射,從而轉(zhuǎn)變成線性可分的問(wèn)題。為了使問(wèn)題可計(jì)算,即避免出現(xiàn)維度災(zāi)難問(wèn)題,引入了核函數(shù)的方法,從而達(dá)到把計(jì)算在低維空間完成的目的。對(duì)于人物屬性抽取問(wèn)題,一個(gè)關(guān)鍵問(wèn)題是構(gòu)建高性能的SVM分類器。SVM最初被設(shè)計(jì)用來(lái)解決二分類問(wèn)題,但是屬性抽取往往都是復(fù)雜的多分類問(wèn)題。例如,人物屬性可以分為出生年月,出生地,性別等多個(gè)類別。那么,如何組織這些分類器則是多分類問(wèn)題必須解決的問(wèn)題。
目前主流的分類器組織形式分為兩種:
(1) 一對(duì)多的方式。假如一共有k個(gè)屬性類別,那么需要構(gòu)建k個(gè)分類器,并且確實(shí)每個(gè)屬性平均需要進(jìn)行k/2次預(yù)測(cè),此方式分類效果欠佳。
(2) 一對(duì)一的方式。同樣如果存在k個(gè)屬性類別,那么需要構(gòu)建k(k-1)/2個(gè)分類器,然后通過(guò)k(k-1)/2次預(yù)測(cè),再計(jì)算累加權(quán)重,獲得累加值最大的類別則為所屬類別。這種方式比前者好,但是分類器數(shù)量過(guò)多,對(duì)于屬性抽取等類別數(shù)量較多的問(wèn)題適用性較差。
因此,本文引入了一種層次分類器的構(gòu)造方法。該方法結(jié)合兩種傳統(tǒng)方法的長(zhǎng)處,同一層面采用一對(duì)一的方式,逐層向下。同時(shí),利用模板系統(tǒng)中獲取的語(yǔ)言規(guī)律建設(shè)快速通道,從而進(jìn)一步優(yōu)化層次分類器的分類效果和分類速度。具體構(gòu)造如圖2所示。
(1) 過(guò)濾器: 在進(jìn)入層次分類器系統(tǒng)之前需要對(duì)語(yǔ)料做篩選,將沒(méi)有任何屬性實(shí)體存在的部分干擾句直接剔除,可以一定程度上減少層次分類器工作負(fù)荷從而提高效率。
(2) 逐層向下: 進(jìn)入層次分類器系統(tǒng)后,標(biāo)準(zhǔn)的分類模式是從第一層分類器開始逐層向下直至類別葉節(jié)點(diǎn),中間的分類器會(huì)將一些無(wú)關(guān)類別的數(shù)據(jù)剔除。這一步驟對(duì)于屬性抽取過(guò)程中大量負(fù)樣本的處理是非常重要的。
圖2 層次分類器的構(gòu)造
(4) 快速通道: 本文設(shè)計(jì)了根據(jù)實(shí)體-屬性標(biāo)注構(gòu)造的快速通道,這些快速通道可以有效地提高層次分類器的分類效果和速度。因?yàn)樵趯傩猿槿∪蝿?wù)中,屬性實(shí)體本身往往帶有明顯的區(qū)分性。例如,當(dāng)出現(xiàn)時(shí)間為第二個(gè)實(shí)體詞時(shí),只可能出現(xiàn)出生年月屬性而不會(huì)是父親或出生地的屬性。因此可以通過(guò)快速通道直接跳至關(guān)于出生年月類別和無(wú)關(guān)類別的分類決策器。
6.1 語(yǔ)料來(lái)源
6.1.1 數(shù)據(jù)爬取及篩選
本文語(yǔ)料來(lái)源于七家藏語(yǔ)網(wǎng)站,如表2所示。我們研究關(guān)注的人物屬性主要包括:
人名-出生日期 人名-出生地
人名-父親 人名-母親
我們從大量網(wǎng)頁(yè)文本中選取2 400句包含人物屬性的句子。其中,1 975句是包含上述四種人物屬性關(guān)系的句子,剩余425句為其他人物屬性關(guān)系的句子。我們將1 600句作為訓(xùn)練語(yǔ)料,其余800句作為測(cè)試語(yǔ)料。
表2 語(yǔ)料來(lái)源
6.1.2 語(yǔ)料預(yù)處理
我們對(duì)選取的2 400句進(jìn)行分詞、詞性、命名實(shí)體識(shí)別,并標(biāo)注了實(shí)體之間的關(guān)系。
人物-出生地(e1,e2)
人物-出生年月(e1,e2)
6.2 實(shí)驗(yàn)分析與評(píng)價(jià)
首先使用基于模板的方法在1 600句訓(xùn)練語(yǔ)料集上做測(cè)試(共包含1 705個(gè)屬性),實(shí)驗(yàn)結(jié)果如表3所示。
表3 基于模板的藏語(yǔ)人物屬性抽取在封閉訓(xùn)練集上的結(jié)果
屬性類別數(shù)量/個(gè)百分比/%總數(shù)識(shí)別數(shù)正確數(shù)準(zhǔn)確率召回率F1值出生年月45243240393.2989.1691.18出生地 45844340791.8788.8690.34父親 36335933192.2091.1891.69母親 43242540194.3592.8293.58
但是,把這些模板應(yīng)用于800句測(cè)試語(yǔ)料集(共846個(gè)屬性)時(shí),實(shí)驗(yàn)結(jié)果如表4所示。
表4 基于模板的藏語(yǔ)人物屬性抽取在開放測(cè)試集上的結(jié)果
屬性類別數(shù)量/個(gè)百分比/%總數(shù)識(shí)別數(shù)正確數(shù)準(zhǔn)確率召回率F1值出生年月2191629156.1741.5547.77出生地 2231687846.4334.9839.90父親 1841447350.6939.6744.51母親 2201718750.8839.5544.50
上述實(shí)驗(yàn)結(jié)果表明,基于模板的方法應(yīng)用在模板系統(tǒng)不熟悉的語(yǔ)料中性能下降明顯。主要原因在于,基于模板的方式缺少學(xué)習(xí)能力而必須通過(guò)一些人工參與構(gòu)建,雖然通過(guò)不停的泛化和修正,性能會(huì)逐漸提升,但是過(guò)多的人工介入和較大的工作量成為該方法的瓶頸。此外,不同藏語(yǔ)地區(qū)或不同風(fēng)格網(wǎng)站的語(yǔ)言會(huì)有一些區(qū)別,考慮語(yǔ)言的豐富性,難以通過(guò)基于模板的方式做到完備。
下面,我們采用基于SVM的層次分類器進(jìn)行人物屬性抽取,本文采用層次分類器在分類速度上較之一對(duì)一的分類器有較大提升,而兩種方法的準(zhǔn)確性相差不大。此外,通過(guò)語(yǔ)言規(guī)則構(gòu)建的快速通道使分類性能更好。在實(shí)驗(yàn)中,我們對(duì)比常見(jiàn)的核函數(shù)方法,最終選型為RBF(徑向基函數(shù))并設(shè)置參數(shù)γ=1/k,k為類別個(gè)數(shù)。同時(shí)考慮到語(yǔ)料普遍存在不均衡性,負(fù)樣本大大多于正樣本,因此,對(duì)正負(fù)樣本分別設(shè)置了不同的懲罰因子C+和C-。其中,C-為3,正樣本滿足C+=(Num-/Num+)×C-。Num-為負(fù)樣本數(shù),Num+為正樣本數(shù),我們通過(guò)增大正樣本的懲罰因子,從而減少因?yàn)閿?shù)據(jù)傾斜造成的影響。實(shí)驗(yàn)結(jié)果如表5所示。
表5 基于SVM的藏語(yǔ)人物屬性抽取在開放測(cè)試集上的結(jié)果
屬性類別數(shù)量/個(gè)百分比/%總數(shù)識(shí)別數(shù)正確數(shù)準(zhǔn)確率召回率F1值出生年月21920210350.9947.0348.93出生地 2232119444.5542.1543.32父親 1841768347.1645.1146.11母親 22020810148.5645.9147.20
實(shí)驗(yàn)結(jié)果表明,相比于模板的方法,SVM方法提高了人物屬性抽取的召回率,但是準(zhǔn)確率并沒(méi)有提高。主要原因在于,SVM的結(jié)果在對(duì)于一些不明顯的分類,通過(guò)多樣化的特征向量反而可以取到較好的預(yù)測(cè)效果。但是對(duì)于一些非常明顯的分類問(wèn)題卻判斷錯(cuò)誤,我們認(rèn)為,部分原因在于訓(xùn)練語(yǔ)料不足和訓(xùn)練語(yǔ)料不均勻造成的。
最后,本文采用基于模板和SVM相結(jié)合的方式進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表6所示。
表6 基于SVM和泛化模板協(xié)作的藏語(yǔ)人物屬性抽取在開放測(cè)試集上的結(jié)果
屬性類別數(shù)量/個(gè)百分比/%總數(shù)識(shí)別數(shù)正確數(shù)準(zhǔn)確率召回率F1值出生年月21920113165.1759.8262.38出生地 22320913363.6459.6461.57父親 18416110867.0858.7062.61母親 22020112863.6858.1860.81
首先對(duì)前期建設(shè)的模板系統(tǒng)精心篩選,只保存在抽取實(shí)驗(yàn)中準(zhǔn)確率接近100%的這部分模板。雖然這樣會(huì)使召回率在模板系統(tǒng)部分急劇下降,但是,隨后我們就將所有模板沒(méi)有抽取出屬性所剩下的所有句子數(shù)據(jù)化并交給SVM預(yù)測(cè)。這樣,對(duì)于那些模板并未抽取的屬性可以通過(guò)SVM預(yù)測(cè)出,保護(hù)了一些原本特征明顯的屬性句子不被SVM誤判。所以在整體上并未影響召回率,同時(shí)還提高了抽取的效果。
由圖3可以看出,采用模板和SVM相結(jié)合的方式比只采用SVM的方式,性能上有較大的提高。
6.3 實(shí)驗(yàn)結(jié)果的展示
通過(guò)SVM和模板結(jié)合的人物屬性抽取后的結(jié)果如表7所示。通過(guò)人物屬性抽取,把屬性放入人物-屬性庫(kù)中,為藏語(yǔ)人物收集、藏語(yǔ)知識(shí)圖譜建設(shè)等應(yīng)用提供數(shù)據(jù)支撐。
圖3 基于SVM和泛化模板協(xié)作和基于模板的藏語(yǔ)人物屬性抽取比較
表7 關(guān)于人物(松贊干布)的屬性抽取結(jié)果
通過(guò)對(duì)上述實(shí)驗(yàn)結(jié)果的分析,我們發(fā)現(xiàn)對(duì)于人物屬性關(guān)系抽取的問(wèn)題采用SVM和模板相結(jié)合的方式,比僅采用SVM或者僅采用模板的方式性能更好。部分原因在于彼此對(duì)于不同情況的分類問(wèn)題具有各自的優(yōu)勢(shì),通過(guò)整合兩者方法,讓它們協(xié)同工作,從而使實(shí)驗(yàn)方法性能提高。通過(guò)該方法提取的屬性可以廣泛應(yīng)用于專門數(shù)據(jù)庫(kù)的建設(shè)、知識(shí)圖譜構(gòu)建和智能問(wèn)答等領(lǐng)域。在將來(lái)的工作中,需要擴(kuò)充語(yǔ)料庫(kù)并增加人物屬性的類別,從而提升成果的價(jià)值。
[1] 李光,鐘雅瓊.大陸研擬藏維文網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)監(jiān)控分裂風(fēng)險(xiǎn)[N].鳳凰周刊, 2012(18).
[2] Bizer C,Heath T,Berners-Lee T. Linked data-the story so far [J].International Journal on Semantic Web and Information Systems (IJSWIS),2009,5(3): 1-22.
[3] 張靜,唐杰.下一代搜索引擎的焦點(diǎn): 知識(shí)圖譜[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2012,9(4):64-68.
[4] Kong Fang, Zhou Guodong, Zhu Qiaoming. Survey on Coreference Resolution [J]. Computer Engineering, 2010, 36(8): 33-36.
[5] Bikel D, Castelli V, Florian R. Entity linking and slot filling through statistical processing and inference rules[C]//Proceedings of the TAC 2009 Workshop 2009.
[6] Burman A, Jayapal A, Kannan S.Entity linking, slot filling and temporal bounding[C]//Proceedings of the KBP,2011.
[7] Axel Bernal, Koby Crammer, Artemis Hatzigeorgiou. Global discriminative learning for higher-accuracy computational gene prediction[J]Computational Biology, 2007, 3(3):488-497.
[8] Freitag D, McCallum A. Information extraction with HMM structures learned by stochastic optimization[C]//Proceedings of the AAAI Press,2000: 584-589.
[9] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conf. on Machine Learning,2001: 282-289.
[10] Kambhatla N. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C]//Proceedings of 42th Annual Meeting of the Association for Computational Linguistic,2004: 21-26.
[11] Zhou G, Su J, Zhang J, Zhang M. Combining Various Knowledge in Relation Extraction[C]//Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics,2005.
[12] Zelenko D, Aone C, Richardella. Kernel methods for relation extraction[J]. Journal of Machine Learning Research, 2003: 1083-1106.
[13] Nadia Ghamrawi, Andrew McCallum. Collective multi-label classification[C]//Proceedings of the Conference on Information and Knowledge Management (CIKM), 2005.
[14] Nanda Kambhatla. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C]//Proceedings of ACL, 2004: 178-181.
[15] Zhao S B, Grishman R. Extracting relations with integrated information using kernel methods[C]//Proceedings of ACL,2005: 419-426.
[16] Miller S, Fox H, Ramshaw L, et al. A novel use of statistical parsing to extract information from text [C]//Proceedings of 6th Applied Natural Language Processing Conference,2000.
[17] Culotta A, Sorensen J.Dependency tree kernels for relation extraction[C]//Proceedings of 42th Annual Meeting of the Association for Computational Linguistics,2004: 21-26.
[18] Zelenko D, Aone C, Richardella. Kernel methods for relation extraction[J]. Journal of Machine Learning Research, 2003: 1083-1106.
[19] 加羊吉,李亞超,宗成慶,等.最大熵和條件隨機(jī)場(chǎng)模型相融合的藏文人名識(shí)別方法 [J].中文信息學(xué)報(bào),2014:28(1):107-112.
[20] 才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別 [J].中文信息學(xué)報(bào),2009,23(1): 35-37.
[21] Sun Yuan, Zhao Xiaobing. Research on automatic recognition of Tibetan personal names based on multi-features[C]//Proceedings of International Conference on Natural Language Processing and Knowledge Engineering 2010.
Tibetan Person Attribute Extraction Based on SVM and Pattern
ZHU Zhen1,2, SUN Yuan1,2
(1. School of Information Engineering, Minzu University of China,Beijing 100081, China;2. Minority Languages Branch, National Language Resource and Monitoring Research Center, Minzu University of China, Beijing 100081, China)
This paper proposes an SVM and pattern based approach to Tibetan person attribute extraction. The pattern system is built with language rules on Tibetan language features with clear semantic information, such as case-auxiliary words, particular verb and etc. Then, a machine learning approach via SVM is introduced to build a a hierarchy classifier strategy. Experiment results indicate a significant improvement in person attributes extraction.
person attributes extraction; tibetan language processing; SVM; hierarchy classifier
朱臻(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、信息檢索、數(shù)據(jù)挖掘。E-mail:18957736389@163.com孫媛(1979—),通信作者,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、信息抽取。E-mail:tracy.yuan.sun@gmail.com
1003-0077(2015)06-0220-08
2015-08-17 定稿日期: 2015-10-20
國(guó)家自然科學(xué)基金(61501529,61331013),北京青年英才資助計(jì)劃(YETP1291),國(guó)家語(yǔ)委項(xiàng)目(ZDI125-36,YB125-139),中央民族大學(xué)自主科研項(xiàng)目(2015MDQN11),中央民族大學(xué)國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心少數(shù)民族語(yǔ)言分中心項(xiàng)目(CML15B02)
TP391
A