劉 倩 伍大勇 劉 悅 程學(xué)旗 龐 琳
1(中國(guó)科學(xué)院計(jì)算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室 北京 100190)2(中國(guó)科學(xué)院大學(xué) 北京 100049)3(國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心 北京 100029)(liuqian1104@126.com)
結(jié)合全局特征的命名實(shí)體屬性值抽取
劉倩1,2伍大勇1劉悅1程學(xué)旗1龐琳3
1(中國(guó)科學(xué)院計(jì)算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室北京100190)2(中國(guó)科學(xué)院大學(xué)北京100049)3(國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心北京100029)(liuqian1104@126.com)
摘要關(guān)注非結(jié)構(gòu)化文本中命名實(shí)體屬性值的抽取問(wèn)題.當(dāng)前主流有監(jiān)督屬性值抽取方法僅使用局部特征,抽取效果有限,開(kāi)展了利用文本全局特征改善屬性值抽取的研究.通過(guò)適用于中文屬性值抽取的全局特征,用局部特征以外的有價(jià)值信息提高抽取效果.據(jù)此,提出結(jié)合全局特征的感知機(jī)學(xué)習(xí)算法,該算法能夠方便地融合文本全局特征,并將全局特征和局部特征統(tǒng)一結(jié)合到模型學(xué)習(xí)過(guò)程中,使模型具有更好的特征表示能力.實(shí)驗(yàn)結(jié)果表明,所提出方法的整體抽取效果高于僅使用局部特征的CRF模型和平均感知機(jī)模型.該方法適用于開(kāi)放領(lǐng)域的屬性值獲取,具有較好的泛化能力.
關(guān)鍵詞實(shí)體屬性;屬性值抽??;命名實(shí)體;全局特征;平均感知機(jī)
命名實(shí)體是文本中承載信息的重要語(yǔ)言單位,命名實(shí)體識(shí)別一直是信息抽取和自然語(yǔ)言處理的重要研究領(lǐng)域之一.隨著大量應(yīng)用對(duì)文本深層次信息獲取需求的增加,僅識(shí)別出實(shí)體的名稱已經(jīng)不足以滿足需求,越來(lái)越多的研究工作開(kāi)始關(guān)注命名實(shí)體的屬性,如人物的籍貫、出生日期、黨派;手機(jī)的內(nèi)存容量、屏幕尺寸、攝像頭像素等.命名實(shí)體的屬性具有重要應(yīng)用價(jià)值,在互聯(lián)網(wǎng)搜索領(lǐng)域,利用已獲取的實(shí)體屬性能夠識(shí)別諸如“iPhone6的屏幕尺寸”、“李娜退役時(shí)間”、“??怂购挠汀边@類查詢的意圖,從而給出精確結(jié)果[1];在問(wèn)答領(lǐng)域,實(shí)體屬性作為普通知識(shí)的一種特例,預(yù)先獲取這類知識(shí)能夠提高通用問(wèn)答系統(tǒng)的效果[2];在電商領(lǐng)域,商品的屬性信息是傾向性分析、商品自動(dòng)文摘[3]、推薦系統(tǒng)等許多應(yīng)用的重要數(shù)據(jù)來(lái)源.如何獲取命名實(shí)體的屬性及其取值是一項(xiàng)具有重要意義卻充滿挑戰(zhàn)的工作,在本文中我們重點(diǎn)關(guān)注命名實(shí)體屬性值的抽取問(wèn)題.
命名實(shí)體的屬性值抽取是指自動(dòng)識(shí)別給定命名實(shí)體在其所具有屬性上的取值[4].由于屬性值的類型和構(gòu)成形式較為復(fù)雜,現(xiàn)有研究工作為了降低抽取復(fù)雜度多在限定條件下展開(kāi),例如面向電商[5]、醫(yī)療[6]等特定領(lǐng)域,人物[7]等特定實(shí)體類型,數(shù)量型[4,8]、實(shí)體型[9]等特定取值類型進(jìn)行屬性值的抽取.這些方法的實(shí)驗(yàn)性能達(dá)到了較高水平,但是擴(kuò)展性具有較大的局限.本文的研究目標(biāo)是開(kāi)放式屬性值抽取,即從開(kāi)放領(lǐng)域的互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中識(shí)別給定命名實(shí)體的屬性值,為構(gòu)建實(shí)體-屬性知識(shí)庫(kù)提供基礎(chǔ)數(shù)據(jù).
從非結(jié)構(gòu)化文本中抽取屬性值通常使用有監(jiān)督的機(jī)器學(xué)習(xí)方法,利用最大熵(maximumentropymodel,MaxEnt)、條件隨機(jī)場(chǎng)(conditionalrandomfield,CRF)、支持向量機(jī)(supportvectormachine,SVM)等判別式模型進(jìn)行識(shí)別.相對(duì)于隱馬爾可夫(hiddenMarkovmodel,HMM)等產(chǎn)生式的模型而言,判別式模型能夠靈活地結(jié)合各種特征.但是為了可求解,這些模型僅能夠使用局部特征.局部特征能夠利用的信息有限,例如,對(duì)于某個(gè)實(shí)體的同一屬性而言,在單個(gè)語(yǔ)句中不可能出現(xiàn)2個(gè)不同的取值,這一特點(diǎn)使用局部特征無(wú)法很好地進(jìn)行表示.本文提出了結(jié)合全局特征的感知機(jī)學(xué)習(xí)算法,該算法能夠在模型訓(xùn)練和預(yù)測(cè)過(guò)程中靈活地使用各種全局信息.
此外,命名實(shí)體的屬性值抽取還與處理的具體語(yǔ)言相關(guān),目前的研究工作主要集中在國(guó)外,通常面向英語(yǔ)語(yǔ)言,針對(duì)中文的屬性值抽取工作比較欠缺.中、英文之間的差異導(dǎo)致許多英文上行之有效的方法不適用于中文,有必要針對(duì)中文研究屬性值的抽取方法.本文的主要貢獻(xiàn)如下:
1) 首次將全局特征引入到屬性值抽取問(wèn)題中,該類特征能夠捕獲屬性值邊界分布、屬性值與屬性名依賴關(guān)系等全局信息.與僅使用局部特征的基線系統(tǒng)相比,F(xiàn)值顯著提升.
2) 提出結(jié)合全局特征的感知機(jī)學(xué)習(xí)算法,使得模型在加入全局特征的同時(shí)仍然可以使用維特比算法有效求解,降低了模型的計(jì)算成本,提高了實(shí)用性.
3) 提出一種通用的中文屬性值抽取方法,該方法不限定領(lǐng)域,具有較好的泛化能力.
1相關(guān)工作
現(xiàn)有的屬性值抽取方法大致可分為無(wú)監(jiān)督、有監(jiān)督和弱監(jiān)督3類.
基于詞匯-句法模式的屬性值抽取方法是無(wú)監(jiān)督方法的典型代表.其中“attributeofentityisvalue”模式(如“populationofChinais1.37billion”)是目前使用最廣泛的抽取模式[10-12].此外還有一些面向特定領(lǐng)域的抽取模式,例如針對(duì)查詢?nèi)罩镜摹癢hyisentity attribute”模式[13]、針對(duì)微博的“myattributeis”模式[14]等.Davidov等人[8]提出了抽取數(shù)量型屬性值的“實(shí)體+系動(dòng)詞+量詞+屬性名”模式(如“KobeBryantis1.98mtall”),對(duì)于無(wú)法直接匹配到的屬性值,通過(guò)相似實(shí)體的取值分布進(jìn)行近似估計(jì).目前主流的屬性值抽取模式主要面向英文,在中文上無(wú)法使用.為了克服精確匹配導(dǎo)致的數(shù)據(jù)稀疏問(wèn)題,基于模式的方法往往借助搜索引擎從大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)中獲取結(jié)果,搜索引擎對(duì)于查詢次數(shù)的限制成為制約其實(shí)際應(yīng)用的瓶頸.
從非結(jié)構(gòu)化文本中抽取屬性值的另一類方法是基于監(jiān)督學(xué)習(xí)模型.Ye等人[7]首先從《知網(wǎng)》提取屬性的觸發(fā)詞,然后利用觸發(fā)詞對(duì)語(yǔ)句進(jìn)行分類,最后針對(duì)每個(gè)屬性分別訓(xùn)練SVM模型,從而識(shí)別出包含屬性值的語(yǔ)句并進(jìn)行抽取.Huang等人[6]首先使用SVM將描述屬性的語(yǔ)句和普通語(yǔ)句區(qū)分開(kāi),然后利用CRF從描述屬性的語(yǔ)句中識(shí)別屬性值.Putthividhya等人[9]對(duì)比分析了HMM,MaxEnt,CRF,SVM在屬性值抽取上的效果.實(shí)驗(yàn)結(jié)果表明,除HMM的效果較差外,其余模型在使用相同特征時(shí)無(wú)明顯優(yōu)劣.Li等人[3]提出了skip-treeCRF模型,對(duì)連詞2端屬性的關(guān)系和句法樹(shù)結(jié)構(gòu)進(jìn)行建模,在產(chǎn)品評(píng)論類數(shù)據(jù)中取得了較好的效果.
監(jiān)督學(xué)習(xí)方法在實(shí)際應(yīng)用中的局限是需要人工標(biāo)注大量數(shù)據(jù).為了降低標(biāo)注數(shù)據(jù)的成本,一些研究工作提出了弱監(jiān)督的屬性值抽取方法.Wu等人[15]借助Wikipedia自動(dòng)構(gòu)建訓(xùn)練數(shù)據(jù).該方法以信息框中的屬性作為種子,利用啟發(fā)式方法在正文中自動(dòng)標(biāo)注對(duì)應(yīng)的語(yǔ)句,從而訓(xùn)練CRF模型識(shí)別屬性值.Probst等人[5]將屬性值抽取建模成詞的分類問(wèn)題,并提出co-EM的方法提高分類效果.該方法首先利用啟發(fā)式方法和詞的互信息從二元語(yǔ)法(bigram)中抽取形如“屬性值+屬性名”的文本片段,然后結(jié)合預(yù)定義的屬性值詞典對(duì)無(wú)標(biāo)注數(shù)據(jù)進(jìn)行匹配,從而獲得標(biāo)注數(shù)據(jù).
此外,還有一些屬性值抽取方法借助網(wǎng)頁(yè)中的半結(jié)構(gòu)化信息(如列表、表格、字體等)抽取命名實(shí)體的屬性值[16-18].網(wǎng)頁(yè)的半結(jié)構(gòu)化信息具有很大的靈活性和語(yǔ)義不確定性,這將影響所抽取屬性值的質(zhì)量,該類方法處理的數(shù)據(jù)類型有限,不適用于非結(jié)構(gòu)化文本.
2結(jié)合全局特征的屬性值抽取方法
2.1問(wèn)題定義
本文解決的問(wèn)題是,給定一篇命名實(shí)體相關(guān)的描述文本,從中識(shí)別出感興趣的該實(shí)體屬性的取值,形式化描述如下:
已知命名實(shí)體集合E={e1,e2,…,en}和待抽取的屬性集合A={a1,a2,…,am}.對(duì)于任意一篇描述ei的文本Ti={ei∈Ti∧obj(ei,Ti)=true}(obj(ei,Ti)表示ei是否為Ti描述的主要實(shí)體),我們的目標(biāo)是識(shí)別出Ti中ei的所有屬性值V={vj|vj=value(ei,aj)∧aj∈A}(value(ei,aj)表示實(shí)體ei在屬性aj上的取值).
Ti中除ei以外的實(shí)體不予考慮,因?yàn)橐黄枋鲂晕谋驹谔峒岸鄠€(gè)命名實(shí)體時(shí)總會(huì)有一個(gè)更側(cè)重.ei以外實(shí)體的屬性可以在它們對(duì)應(yīng)的描述文本中獲取.命名實(shí)體的描述性文本較易獲得,例如在線百科*中文在線百科有維基百科(http://www.wikipedia.org)、百度百科(http://baike.baidu.com)、互動(dòng)百科(http://www.baike.com)等.、某些介紹性網(wǎng)站等.
2.2加入全局特征后的模型求解
我們將屬性值抽取問(wèn)題轉(zhuǎn)化成序列標(biāo)注問(wèn)題,對(duì)每個(gè)待抽取的屬性分別訓(xùn)練模型.目前主流的序列標(biāo)注模型(如CRF)應(yīng)用于屬性值抽取時(shí)效果并不理想,其主要原因是:為使模型易求解,僅使用了局部特征.我們引入屬性值的全局特征用于捕獲局部特征以外的重要信息.關(guān)于局部特征和全局特征的含義及其在屬性值抽取問(wèn)題上的具體內(nèi)容將在2.3節(jié)進(jìn)行詳細(xì)闡述.加入全局特征后的模型難以求解,通常的解決方法是n-best重排序.該方法仍然使用局部特征訓(xùn)練模型,但預(yù)測(cè)階段分為2步:1)保留前n個(gè)較優(yōu)的候選結(jié)果;2)利用全局特征對(duì)候選結(jié)果重新排序,選擇重排后最優(yōu)的候選作為最終結(jié)果.重排序的過(guò)程往往是無(wú)監(jiān)督的,全局特征相關(guān)參數(shù)的確定需要人工干預(yù).本文基于平均感知機(jī)模型,提出了結(jié)合全局特征的模型學(xué)習(xí)算法,將全局特征和局部特征的求解同時(shí)完成.
2.2.1平均感知機(jī)
平均感知機(jī)是由Collins[19]提出的可用于序列標(biāo)注的判別式模型.序列標(biāo)注的目標(biāo)是輸入一個(gè)語(yǔ)句x=[w1,w2,…,wm]∈X,輸出其相應(yīng)的標(biāo)注結(jié)果y=[t1,t2,…,tm]∈Y,其中wi為x的第i個(gè)詞,ti為詞wi對(duì)應(yīng)的標(biāo)注.具體而言,對(duì)于一個(gè)待標(biāo)注語(yǔ)句x,尋找一個(gè)滿足下式的標(biāo)注結(jié)果z:
(1)
其中,Φ是特征映射函數(shù),它將(x,y)映射成特征向量Φ(x,y)=(φ1(x,y),φ2(x,y),…,φd(x,y))∈d,α∈d是特征向量對(duì)應(yīng)的權(quán)重向量,“·”是向量?jī)?nèi)積.權(quán)重向量α是需要被學(xué)習(xí)的模型參數(shù).
Collins提出一種在線方式學(xué)習(xí)模型的參數(shù),具體過(guò)程為
令D={(x(1),y(1)),(x(2),y(2)),…,(x(n),y(n))}為訓(xùn)練語(yǔ)句集合,初始化α全為0.遍歷D,對(duì)于每個(gè)訓(xùn)練語(yǔ)句x(i),使用模型當(dāng)前的參數(shù)求出最優(yōu)的標(biāo)注結(jié)果z.如果z與正確答案y(i)不同,則按照下面的方法更新參數(shù):
(2)
上述過(guò)程迭代T輪后,對(duì)所有參數(shù)取平均值:
(3)
該模型學(xué)習(xí)方法已被證明是收斂的[19].平均感知機(jī)的一個(gè)關(guān)鍵問(wèn)題是如何求解式(1).在實(shí)際應(yīng)用中限定Φ(x,y)為局部特征,因此可以使用動(dòng)態(tài)規(guī)劃的方法進(jìn)行求解,例如維特比算法、A*算法等.但是,當(dāng)Φ(x,y)中包含全局特征時(shí),這些算法不再適用,求解代價(jià)變得非常高,尤其對(duì)于詞語(yǔ)數(shù)量較多的長(zhǎng)句,求解過(guò)程甚至無(wú)法忍受.為了降低加入全局特征后模型的求解復(fù)雜度,提高方法的實(shí)用性,我們對(duì)平均感知機(jī)進(jìn)行了改進(jìn).
2.2.2結(jié)合全局特征的感知機(jī)
假設(shè)Φ(x,y)包含全部的特征,其中局部特征記為ΦL(x,y),全局特征記為ΦG(x,y),它們的向量形式分別為
Φ(x,y)=ΦL(x,y)+ΦG(x,y)=
參數(shù)向量α=αL+αG也可以表示成相同的向量形式.顯然,遍歷所有可能的結(jié)果求解式(1)是不可行的.CRF在訓(xùn)練時(shí)所有可能的候選結(jié)果都需要計(jì)算,而平均感知機(jī)一次只考慮一個(gè)樣本,每個(gè)樣本只計(jì)算最優(yōu)的一個(gè)候選結(jié)果,這一特性使全局特征求解變得可行.
通過(guò)實(shí)驗(yàn)分析我們發(fā)現(xiàn),對(duì)于屬性值抽取而言,模型的整體最優(yōu)解在局部特征上也不會(huì)很差.換言之,對(duì)局部特征求解出的結(jié)果排序,排在前面的候選結(jié)果往往包含整體最優(yōu)解.如果只對(duì)排在前面的這部分候選結(jié)果應(yīng)用全部特征(局部特征和全局特征),則能夠有效縮小搜索空間.因此,我們首先放寬求解目標(biāo),求出在局部特征上較優(yōu)的前k個(gè)候選結(jié)果:
(4)
該步驟使用維特比算法可快速實(shí)現(xiàn).
然后,我們?cè)谶@k個(gè)候選結(jié)果中選擇一個(gè)在全部特征上最優(yōu)的結(jié)果作為式(1)的最終輸出:
(5)
該步驟只需在k種可能的結(jié)果中搜尋.
最后,利用式(5)求解的結(jié)果按照式(2)對(duì)局部特征參數(shù)αL和全局特征參數(shù)αG同時(shí)進(jìn)行更新.我們的方法與傳統(tǒng)n-best重排序方法的不同在于,式(5)的結(jié)果是全部特征上的最優(yōu)解,且全局特征的權(quán)重由訓(xùn)練得出,無(wú)需人工干預(yù).算法1是模型求解的詳細(xì)過(guò)程.
算法1. 融合全局特征的感知機(jī)學(xué)習(xí)算法.
輸入:訓(xùn)練語(yǔ)料D={(x(1),y(1)),(x(2),y(2)),…,(x(n),y(n))}、迭代輪數(shù)T;
輸出:模型參數(shù)α=(α1,α2,…,αd).
① 初始化α←0;
②fort←1toTdo
③fori←1tondo
④ 對(duì)于語(yǔ)句x(i),根據(jù)ΦL(x(i),y)·αL求出前k個(gè)候選標(biāo)注結(jié)果{yk}(見(jiàn)式(4));
⑤ 遍歷{yk},根據(jù)Φ(x(i),y)·α求出最優(yōu)結(jié)果z(見(jiàn)式(5));
⑥ifz≠y(i)then
⑦ 更新局部特征參數(shù)αL=αL+
ΦL(x(i),y(i))-ΦL(x(i),z);
⑧ 更新全局特征參數(shù)αG=αG+
ΦG(x(i),y(i))-ΦG(x(i),z);
⑨endif
⑩endfor
2.3屬性值抽取的特征
我們定義了2類用于屬性值抽取的特征.
2.3.1局部特征
局部特征是指在一定長(zhǎng)度的窗口范圍內(nèi)抽取的特征.在式(1)中,對(duì)于任意特征實(shí)例φj(x,y)∈Φ(x,y),均是一個(gè)將x和y映射到實(shí)數(shù)的函數(shù)φ:X×Y→,為便于計(jì)算,φ均被定義成指示函數(shù).以語(yǔ)句“而處理器部分則采用三星電子自制之處理器”為例解釋局部特征指示函數(shù)的表示方式(記為例句1,下劃線部分為屬性“處理器”的取值).例句1的一個(gè)局部特征實(shí)例表示為
該特征函數(shù)解釋為,如果詞wi是“核心”且wi被標(biāo)注為“I-V”,則該特征的取值為1;否則,該特征的取值為0.
我們分別從詞、詞性和依存關(guān)系3個(gè)方面定義屬性值抽取的局部特征(窗口長(zhǎng)度為3),如表1所示:
Table 1 Local Features for Attribute-Value Extraction
其中,角標(biāo)i=0表示當(dāng)前詞,i=-2表示當(dāng)前詞左邊第2個(gè)詞,i=2表示當(dāng)前詞右邊第2個(gè)詞.特征1,3分別為詞、詞性的一元語(yǔ)法(unigram);特征2,4分別為詞、詞性的二元語(yǔ)法(bigram);特征5表示當(dāng)前詞在依存關(guān)系上的父節(jié)點(diǎn);特征6表示當(dāng)前詞與其父節(jié)點(diǎn)的依存關(guān)系類型.
2.3.2全局特征
全局特征泛指超出窗口范圍抽取的特征.通過(guò)大量的實(shí)驗(yàn)分析,我們發(fā)現(xiàn)識(shí)別錯(cuò)誤的屬性值主要有2個(gè)特點(diǎn):1)屬性值在句中的位置正確但邊界錯(cuò)誤;2)屬性值與屬性名的距離較遠(yuǎn),它們之間的關(guān)系沒(méi)有被捕獲.這些現(xiàn)象對(duì)于任何僅使用局部特征的模型來(lái)說(shuō)都無(wú)法很好地建模.為此,我們定義了表2中的全局特征,為保證特征表示的一致性,這些特征均為指示函數(shù).
Table 2 Global Features for Attribute-Value Extraction
屬性值邊界分布:該類特征用于捕獲屬性值左邊界(LB)和右邊界(RB)的分布情況,以上述例句1為例,屬性“處理器”的取值的左邊界特征表示為
該特征函數(shù)解釋為:如果短語(yǔ)w[i,j]被標(biāo)注為屬性值(w[i,j]的左邊界在wi-1和wi之間),且左邊界左側(cè)第1個(gè)詞為“之”,則該特征的取值為1.同理,RB(w[i,j])取右邊界右側(cè)第1個(gè)詞.
屬性值-屬性名依賴關(guān)系:該類特征用于發(fā)現(xiàn)屬性值與屬性名之間存在的依賴關(guān)系,該特征的一個(gè)實(shí)例如下所示:
解釋為:如果短語(yǔ)w[i,j]被標(biāo)注為屬性值,且該短語(yǔ)與屬性名ak之間通過(guò)文本“:”相連,則特征取值為1.為克服數(shù)據(jù)稀疏問(wèn)題,我們對(duì)連接文本Tex(·)進(jìn)一步泛化,去掉停用詞、數(shù)詞、虛詞等對(duì)屬性值抽取意義不大的詞,并且忽略詞的順序.
3實(shí)驗(yàn)與分析
3.1實(shí)驗(yàn)設(shè)置
我們使用中文維基百科的正文內(nèi)容進(jìn)行實(shí)驗(yàn).選擇該數(shù)據(jù)源的原因是維基百科的正文是實(shí)體描述性文本,并且開(kāi)放易獲取,便于其他研究者重現(xiàn)本實(shí)驗(yàn).此外,不同來(lái)源的互聯(lián)網(wǎng)數(shù)據(jù)差異主要體現(xiàn)在網(wǎng)頁(yè)結(jié)構(gòu)的不同,對(duì)于描述性文本而言,語(yǔ)言表達(dá)習(xí)慣基本相同,數(shù)據(jù)的來(lái)源并不會(huì)產(chǎn)生太大影響.
給定一個(gè)命名實(shí)體類別,首先根據(jù)百科頁(yè)面的類別標(biāo)簽篩選出該類別所包含的實(shí)體描述頁(yè)面;然后過(guò)濾掉信息框、表格等結(jié)構(gòu)化內(nèi)容,僅提取正文內(nèi)容作為實(shí)驗(yàn)的目標(biāo)數(shù)據(jù)集.中文分詞、詞性標(biāo)注和依存分析使用開(kāi)源的中文語(yǔ)言技術(shù)平臺(tái)[20].對(duì)于每篇文本,以頁(yè)面標(biāo)題所對(duì)應(yīng)的實(shí)體作為主要實(shí)體,人工標(biāo)注每個(gè)待抽取屬性的屬性值.
為了分析本文方法的領(lǐng)域魯棒性,在不同實(shí)體類別上分別進(jìn)行實(shí)驗(yàn),包括“手機(jī)”(mobilephone)、“全國(guó)重點(diǎn)大學(xué)”(Chinesekeyuniversity)、“中國(guó)籃球運(yùn)動(dòng)員”(Chinesebasketballplayer)和“中國(guó)科學(xué)院院士”(academicianofCAS).這些類別涉及人物、產(chǎn)品和機(jī)構(gòu)3個(gè)常見(jiàn)領(lǐng)域,不同領(lǐng)域的實(shí)體差異較大,能夠反映方法的泛化能力.其中“中國(guó)籃球運(yùn)動(dòng)員”和“中國(guó)科學(xué)院院士”是人物領(lǐng)域的2個(gè)子類,便于進(jìn)一步考察方法對(duì)相近實(shí)體的屬性值抽取效果.每個(gè)實(shí)體類別隨機(jī)選擇5個(gè)屬性進(jìn)行實(shí)驗(yàn).表3給出了實(shí)體類別及待抽取屬性的詳細(xì)描述.
為了驗(yàn)證本文提出的結(jié)合全局特征的感知機(jī)(G-Per)的可競(jìng)爭(zhēng)性,我們將G-Per方法與以下基線方法進(jìn)行對(duì)比.
1)CRF.CRF是當(dāng)前主流的序列標(biāo)注模型,由于其難以加入全局特征,所以僅使用表1中的局部特征.
2)A-Per.A-Per是由Collins提出的平均感知機(jī)模型,與CRF存在同樣的限制,僅能夠使用表1中的局部特征.
Table 3 Type of Entity and Attribute
本文提出的G-Per方法在使用表1的局部特征基礎(chǔ)上增加表2中的非局部特征.由于G-Per在僅使用局部特征時(shí)退化為平均感知機(jī),因此沒(méi)有單獨(dú)對(duì)G-Per使用表1的特征進(jìn)行實(shí)驗(yàn).每個(gè)類別下文本的60%用于訓(xùn)練、40%用于測(cè)試.采用準(zhǔn)確率P、召回率R和F值來(lái)評(píng)價(jià)屬性值抽取的效果.其中,只有當(dāng)屬性值的位置和邊界同時(shí)正確,才認(rèn)為該抽取結(jié)果正確.
3.2實(shí)驗(yàn)結(jié)果
Fig. 1 Average F on five kinds of attributes of different entities.圖1 不同類別的命名實(shí)體在5個(gè)屬性上的平均F值
圖1給出了本文方法和基線方法在各個(gè)實(shí)體類別上的平均F值,可以直觀地看出,不同領(lǐng)域的命名實(shí)體其屬性值抽取的難度不同,人物屬性相對(duì)產(chǎn)品屬性和機(jī)構(gòu)屬性而言,較易抽取且效果較好.此外,由圖1可知CRF和A-Per在使用相同特征時(shí)效果不相上下,而G-Per在不同領(lǐng)域的實(shí)體上均取得了最好的抽取效果.這說(shuō)明本文提出的全局特征確實(shí)能夠發(fā)現(xiàn)局部特征無(wú)法捕獲的有價(jià)值信息.
表4~7詳細(xì)列出了每個(gè)屬性的抽取結(jié)果,其中黑體為每個(gè)屬性的最優(yōu)結(jié)果.通過(guò)對(duì)比分析各種屬性的抽取結(jié)果可以發(fā)現(xiàn),表達(dá)方式較固定的屬性抽取效果較好,例如“Birthday”,“Height”;表達(dá)方式較靈活的屬性抽取效果相對(duì)較差,例如“OperatingSystem”,“Motto”.本文提出的G-Per方法能夠普遍提高屬性值抽取的F值,尤其對(duì)于表達(dá)方式靈活多變的屬性提升效果顯著,例如“OperatingSystem”提高6%,“Motto”提高5%.這是因?yàn)檫@類屬性值在文本中的局部信息并不明顯,而G-Per方法能夠有效利用窗口外的全局信息,從而彌補(bǔ)了局部特征的不足.
Table 4 Results of Attribute-Value Extraction (Mobile Phone)
Table5ResultsofAttribute-ValueExtraction(ChineseKeyUniversity)
表5 屬性值抽取結(jié)果(全國(guó)重點(diǎn)大學(xué))
Table6ResultsofAttribute-ValueExtraction(Chinese
BasketballPlayer)
表6 屬性值抽取結(jié)果(中國(guó)籃球運(yùn)動(dòng)員)
Table7ResultsofAttribute-ValueExtraction(AcademicianofCAS)
表7 屬性值抽取結(jié)果(中國(guó)科學(xué)院院士)
結(jié)合全局特征的感知機(jī)方法有2個(gè)重要的參數(shù):迭代輪數(shù)T和式(4)中的k.受篇幅所限,我們隨機(jī)選擇一個(gè)實(shí)體類別,對(duì)T和k分別進(jìn)行分析.圖2是“MobilePhone”的5個(gè)屬性的學(xué)習(xí)曲線.由圖2可見(jiàn),結(jié)合了全局特征的平均感知機(jī)仍然是收斂的.雖然不同屬性收斂所需的迭代輪數(shù)T不相同,但是從圖2中得出大致范圍在10~18輪.
Fig. 2 Training curves of G-Per.圖2 G-Per方法的學(xué)習(xí)曲線
表8對(duì)比了不同k值對(duì)屬性值抽取結(jié)果的影響.其中,k=1時(shí)相當(dāng)于僅使用局部特征,效果與平均感知機(jī)相同.此外,從表8可以發(fā)現(xiàn)k值并不是越大越好,當(dāng)大于一定值時(shí)效果反而下降.這是因?yàn)檫^(guò)大的k引入了過(guò)多噪音,而且會(huì)增加模型訓(xùn)練時(shí)間.雖然不同屬性的最優(yōu)k值不盡相同,但由表8可得,k值最大的屬性“處理器”也只需要15個(gè)候選結(jié)果就能夠達(dá)到最優(yōu)結(jié)果,這樣的量級(jí)在實(shí)際應(yīng)用中是可以接受的.
Table 8 Results of Attribute-Value Extraction with Different k
3.3錯(cuò)誤分析
在實(shí)驗(yàn)中,邊界錯(cuò)誤是錯(cuò)誤結(jié)果中占比重較大的一類.我們采用了較嚴(yán)格的判定方式,即屬性值的位置和邊界需要同時(shí)正確.而事實(shí)上,有些抽取結(jié)果的邊界盡管和答案不完全相同,但也具有一定價(jià)值,在實(shí)際應(yīng)用中仍然可以被使用,例如在上述例句1中,若處理器的識(shí)別結(jié)果為“4核心”或者“1.4GHz”也具有實(shí)用價(jià)值.
此外,本文提出的方法依賴于中文分詞、詞性標(biāo)注和依存分析等自然語(yǔ)言處理工具輸出的結(jié)果,這些預(yù)處理過(guò)程所產(chǎn)生的誤差會(huì)直接累積到屬性值抽取階段.
4結(jié)束語(yǔ)
本文利用全局特征解決中文屬性值抽取問(wèn)題,并提出結(jié)合全局特征的感知機(jī)學(xué)習(xí)算法,降低了全局特征的求解復(fù)雜度.在不同領(lǐng)域的實(shí)體屬性上進(jìn)行抽取實(shí)驗(yàn),結(jié)果表明全局特征能顯著提高抽取的效果.由于監(jiān)督學(xué)習(xí)方法普遍面臨標(biāo)注成本高的問(wèn)題,在后續(xù)的研究中將考慮弱監(jiān)督的方法,降低屬性值抽取的標(biāo)注成本,進(jìn)一步提高方法的實(shí)用性.
參考文獻(xiàn)
[1]KoplikuA,BoughanemM,Pinel-SauvagnatK.Towardsaframeworkforattributeretrieval[C] //ProcofCIKM2011.NewYork:ACM, 2011: 515-524
[2]TakahashiT.Computationofsemanticequivalenceforquestionanswering[D].Nara,Japan:NaraInstituteofScienceandTechnology, 2005
[3]LiF,HanC,HuangM,etal.Structure-awarereviewminingandsummarization[C] //ProcofColing2010.Stroudsburg,PA:ACL, 2010: 653-661
[4]LuHan,CaoCungen,WangShi.Implementationofameta-propertybasedquantityattribute-valueextractionsystem[J].JournalofComputerResearchandDevelopment, 2010, 47(10): 1741-1748 (inChinese)(盧漢, 曹存根, 王石. 基于元性質(zhì)的數(shù)量型屬性值自動(dòng)提取系統(tǒng)的實(shí)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2010, 47(10): 1741-1748)
[5]ProbstK,GhaniR,KremaM,etal.Semi-supervisedlearningofattribute-valuepairsfromproductdescriptions[C] //ProcofIJCAI2007.SanFrancisco,CA:MorganKaufmann, 2007: 2838-2843
[6]HuangR,RiloffE.Classifyingmessageboardpostswithanextractedlexiconofpatientattributes[C] //ProcofEMNLP2013.Stroudsburg,PA:ACL, 2013: 1557-1562
[7]YeZheng,LinHongfei,SuSui,etal.PersonattributeextractingbasedonSVM[J].JournalofComputerResearchandDevelopment, 2007, 44(Suppl): 271-275 (inChinese)(葉正, 林鴻飛, 蘇綏, 等. 基于支持向量機(jī)的人物屬性抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2007, 44(增刊): 271-275)
[8]DavidovD,RappoportA.ExtractionandapproximationofnumericalattributesfromtheWeb[C] //ProcofACL2010.Stroudsburg,PA:ACL, 2010: 1308-1317
[9]PutthividhyaDP,HuJ.Bootstrappednamedentityrecognitionforproductattributeextraction[C] //ProcofEMNLP2011.Stroudsburg,PA:ACL, 2011: 1557-1567
[10]PascaM,VanDurmeB.Whatyouseekiswhatyouget:Extractionofclassattributesfromquerylogs[C] //ProcofIJCAI2007.SanFrancisco,CA:MorganKaufmann, 2007: 2832-2837
[11]LeeT,WangZ,WangH,etal.Attributeextractionandscoring:Aprobabilisticapproach[C] //ProcofICDE2013.LosAlamitos,CA:IEEEComputerSociety, 2013: 194-205
[12]RajuS,PingaliP,VarmaV.Anunsupervisedapproachtoproductattributeextraction[C] //Procofthe31stEuropeanConfonIRResearchonAdvancesinInformationRetrieval.Berlin:Springer, 2009: 796-800
[13]PascaM.Attributeextractionfromconjecturalqueries[C] //ProcofColing2012.Stroudsburg,PA:ACL, 2012: 2177-2190
[14]BergsmaS,VanDurmeB.Usingconceptualclassattributestocharacterizesocialmediausers[C] //ProcofACL2013.Stroudsburg,PA:ACL, 2013: 710-720
[15]WuF,WeldDS.AutonomouslysemantifyingWikipedia[C] //ProcofCIKM2007.NewYork:ACM, 2007: 41-50
[16]RaviS,PascaM.Usingstructuredtextforlarge-scaleattributeextraction[C] //ProcofCIKM2008.NewYork:ACM, 2008: 1183-1192
[17]WuB,ChengX,WangY,etal.SimultaneousproductattributenameandvalueextractionfromWebpages[C] //Procofthe2009
IEEE/WIC/ACMIntJointConfonWebIntelligenceandIntelligentAgentTechnology.LosAlamitos,CA:IEEEComputerSociety, 2009: 295-298
[18]CrestanE,PantelP.Web-scaleknowledgeextractionfromsemi-structuredtables[C] //ProcofWWW2010.NewYork:ACM, 2010: 1081-1082
[19]CollinsM.DiscriminativetrainingmethodsforhiddenMarkovmodels:Theoryandexperimentswithperceptronalgorithms[C] //ProcofEMNLP2002.Stroudsburg,PA:ACL, 2002: 1-8
[20]CheWanxiang,LiZhenghua,LiuTing.LTP:AChineselanguagetechnologyplatform[C] //ProcofColing2010.Stroudsburg,PA:ACL, 2010: 13-16
LiuQian,bornin1984.PhD.Hermainresearchinterestsincludenaturallanguageprocessing,dataminingandinformationextraction.
WuDayong,bornin1977.PhDandassistantprofessor.Hismainresearchinterestsincludenaturallanguageprocessing,Webminingandinformationretrieval(wudayong@ict.ac.cn).
LiuYue,bornin1971.PhDandassociateprofessor.HermainresearchinterestsincludeinformationretrievalandWebmining(liuyue@ict.ac.cn).
ChengXueqi,bornin1971.PhDandprofessor.MemberofChinaComputerFederation.Hismainresearchinterestsincludenetworkinformationsecurity,large-scaleinformationretrievalandknowledgemining(cxq@ict.ac.cn).
PangLin,bornin1985.PhD.Hermainresearchinterestsincludeinformationretrieval,Webminingandsocialcomputing.
ExtractingAttributeValuesforNamedEntitiesBasedonGlobalFeature
LiuQian1,2,WuDayong1,LiuYue1,ChengXueqi1,andPangLin3
1(Key Laboratory of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190)2(University of Chinese Academy of Sciences, Beijing 100049)3(National Computer Network Emergency Response Technical TeamCoordination Center of China, Beijing 100029)
AbstractAttribute-value extraction is an important and challenging task in information extraction, which aims to automatically discover the values of attributes of named entities. In this paper, we focus on extracting these values from Chinese unstructured text. In order to make models easy to compute, current major methods of attribute-value extraction use only local feature. As a result, it may not make full use of global information related to attribute values. We propose a novel approach based on global feature to enhance the performance of attribute-value extraction. Two types of global feature are defined to capture the extra information beyond local feature, which are boundary distribution feature and value-name dependency feature. To our knowledge, this is the first attempt to acquire attribute values utilizing global feature. Then a new perceptron algorithm is proposed that can use all types of global feature. The proposed algorithm can learn the parameters of local feature and global feature simultaneously. Experiments are carried out on different kinds of attributes of some entity categories. Experimental results show that both precision and recall of our proposed approach are significantly higher than CRF model and averaged perceptron with only local feature. The proposed approach has a good generalization capability on open-domain.
Key wordsentity attribute; attribute-value extraction; named entity; global feature; averaged perceptron
收稿日期:2014-09-03;修回日期:2015-09-06
基金項(xiàng)目:國(guó)家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃基金項(xiàng)目(2012CB316303,2014CB340401);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61232010);國(guó)家科技支撐計(jì)劃基金項(xiàng)目(2012BAH39B02)
通信作者:龐琳(panglin@cert.org.cn)
中圖法分類號(hào)TP391
ThisworkwassupportedbytheNationalBasicResearchProgramofChina(973Program) (2012CB316303,2014CB340401),theKeyProgramoftheNationalNaturalScienceFoundationofChina(61232010),andtheNationalKeyTechnologyResearchandDevelopmentProgramofChina(2012BAH39B02).