一種基于特征映射的中文專家消歧方法

2016-05-04 03:09:59余正濤郭劍毅毛存禮楊秀貞

中文信息學(xué)報(bào) 2016年2期

潘霄，余正濤，郭劍毅，毛存禮，楊秀貞

(1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院，云南昆明 650500；2. 昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室，云南昆明 650500)

一種基于特征映射的中文專家消歧方法

潘霄1,2，余正濤1,2，郭劍毅1,2，毛存禮1,2，楊秀貞1

針對(duì)中文專家頁面特點(diǎn)，以及用于消歧的基準(zhǔn)專家頁面中信息涵蓋不全的問題，該文提出一種基于特征映射的中文專家消歧方法。首先，采用條件隨機(jī)場(chǎng)模型，從基準(zhǔn)專家頁面和待消歧頁面中提取出所定義的12維人物屬性特征，并利用最大熵分類模型，結(jié)合已有消歧結(jié)果訓(xùn)練出各屬性特征的權(quán)重；然后，針對(duì)某個(gè)專家的基準(zhǔn)頁面，計(jì)算待消歧頁面與該頁面的相似度，根據(jù)設(shè)定的閾值判斷該頁面是否單獨(dú)成類，若不是單獨(dú)成類，則利用特征映射，擴(kuò)充該頁面的屬性特征，結(jié)合模糊聚類方法，得到與該頁面為一類的頁面。在“自然語言處理”及“機(jī)器學(xué)習(xí)”領(lǐng)域進(jìn)行中文專家消歧實(shí)驗(yàn)，結(jié)果表明提出的方法能有效對(duì)中文專家頁面進(jìn)行消歧。

中文專家消歧；屬性特征；特征映射；模糊聚類

1 引言

由于專家重名和表示方式多樣性的問題，導(dǎo)致以某一專家姓名進(jìn)行檢索將返回多個(gè)不屬于該專家的頁面，為準(zhǔn)確區(qū)分出該專家的專家頁面，須對(duì)獲取到的頁面進(jìn)行專家消歧。通常專家消歧可以轉(zhuǎn)化成專家頁面的聚類問題進(jìn)行解決。當(dāng)前的專家消歧方法主要有以下幾類：一是基于特征向量相似度的聚類消歧方法，如Wang[1]利用網(wǎng)頁內(nèi)容向量空間模型對(duì)專家頁面進(jìn)行聚類消歧，Bollegala[2]提出利用上下文中的關(guān)鍵性短語相似度實(shí)現(xiàn)專家聚類消歧；二是基于屬性相似度的聚類消歧方法，如Cohen[3]提出通過計(jì)算屬性對(duì)間相似度實(shí)現(xiàn)專家聚類消歧, 周曉等[4]針對(duì)人名消歧的任務(wù)，提出基于人物屬性互斥與非互斥的兩階段人名消歧的方法；三是基于特定關(guān)聯(lián)關(guān)系的聚類消歧方法，如郎君[5]提出的基于社會(huì)網(wǎng)絡(luò)的人名重名消解, 利用頁面標(biāo)題和上下文片斷中人名的共現(xiàn)關(guān)系構(gòu)建社會(huì)網(wǎng)絡(luò)，并通過聚類的方法實(shí)現(xiàn)消歧。Tang[6]提出的結(jié)合專家論文屬性和論文合作關(guān)系的聚類消歧方法，選取文章標(biāo)題、摘要、作者等作為特征，結(jié)合發(fā)表論文合作關(guān)系，通過基于 HMRF(Hidden Markov Random Field)的聚類方法，進(jìn)行專家聚類消歧。

采用聚類的方法進(jìn)行專家消歧，通常是以某個(gè)確定屬于專家的頁面作為基準(zhǔn)頁面，通過聚類，將與該基準(zhǔn)頁面聚為一類的頁面挑選出來，作為專家頁面。因此，消歧的正確性很大程度上依賴于基準(zhǔn)頁面中的信息，然而，由于頁面信息量的限制以及信息更新速度較快，導(dǎo)致基準(zhǔn)頁面對(duì)專家信息涵蓋不全，從而影響消歧的準(zhǔn)確率?，F(xiàn)有方法沒有充分考慮基準(zhǔn)頁面的信息擴(kuò)充，為解決這一問題，本文提出一種基于特征映射的中文專家消歧方法。

2 基于特征映射的中文專家消歧方法思想

基于特征映射的中文人名消歧方法的主要思想是先從基準(zhǔn)頁面和待消歧頁面中提取出用于表征基準(zhǔn)頁面和待消歧頁面的特征，并通過已有消歧結(jié)果得到各維特征的權(quán)重，然后，針對(duì)基準(zhǔn)頁面，利用基準(zhǔn)頁面屬性與待消歧頁面屬性的相關(guān)性將基準(zhǔn)頁面與待消歧頁面用帶權(quán)重的特征表征成向量，計(jì)算待消歧頁面與該基準(zhǔn)頁面的相似度，根據(jù)設(shè)定的閾值判斷該基準(zhǔn)頁面是否單獨(dú)成類，若不是單獨(dú)成類，則尋找與該基準(zhǔn)頁面相似度最大的頁面，利用特征映射的方法擴(kuò)充該基準(zhǔn)頁面的特征向量，并將此頁面歸入該基準(zhǔn)頁面類，重復(fù)這一擴(kuò)充過程，直至基準(zhǔn)頁面的特征向量不再被擴(kuò)充為止，則將該基準(zhǔn)頁面與剩余的頁面進(jìn)行聚類，得到和該基準(zhǔn)頁面為一類的頁面。該方法具體流程描述如下：

(2) 計(jì)算θi與ω的相似度σi,i=1,2,…,n；

(4) 利用σ*對(duì)應(yīng)的召回頁面θk的特征擴(kuò)充ω的特征，擴(kuò)充后的基準(zhǔn)頁面為ω*；

(5)ω=ω*,θ=θ-θk,θk歸為ω類，判斷此時(shí)的ω是否還能再擴(kuò)充，若能擴(kuò)充，則轉(zhuǎn)步驟(2)，若不能，則進(jìn)入下一步；

(6) 將ω和θ進(jìn)行聚類，得到θ中和ω聚為一類的頁面，流程結(jié)束。

3 基于特征映射的中文專家消歧方法

3.1 特征提取與特征加權(quán)

由于中文專家頁面信息中所包含的內(nèi)容主要是對(duì)人物的描述，因此，選取人物相關(guān)屬性作為表征基準(zhǔn)頁面與待消歧頁面的特征，12維人物屬性特征定義如下，分別為人名、地名、組織機(jī)構(gòu)名、職稱、性別、民族、學(xué)歷、畢業(yè)院校、出生日期、研究方向、獲獎(jiǎng)榮譽(yù)、承擔(dān)項(xiàng)目。提取這些人物屬性實(shí)際上是一個(gè)人物屬性實(shí)體的提取問題，由于條件隨機(jī)場(chǎng)模型[7]不需要很嚴(yán)格的獨(dú)立性假設(shè)，可以融入豐富的特征，故其在實(shí)體抽取中被廣泛運(yùn)用且具有較高的準(zhǔn)確率，因此，本文采用條件隨機(jī)場(chǎng)模型進(jìn)行人物屬性實(shí)體的提取。然而每維屬性特征所起的作用是不同的，還需要得到各維特征的權(quán)重，本文利用已有消歧結(jié)果，將各維特征作為分類模型的特征函數(shù)，對(duì)已知消歧結(jié)果的頁面進(jìn)行所屬專家標(biāo)記，訓(xùn)練出分類模型特征函數(shù)的權(quán)重，從而得到各維特征的權(quán)重，由于最大熵模型[8]可以任意加入對(duì)最終分類有用的特征，而不用顧及它們之間的相互影響，并且最大熵模型能夠較為容易地對(duì)多分類問題進(jìn)行建模，基于以上優(yōu)點(diǎn)，本文使用最大熵模型訓(xùn)練各維特征的權(quán)重。

3.2 基準(zhǔn)頁面與待消歧頁面的向量表征

在獲得各維屬性特征的權(quán)重后，為將基準(zhǔn)頁面與待消歧頁面用向量表征出來，則需利用基準(zhǔn)頁面的屬性與待消歧頁面屬性的相關(guān)性，也即以某個(gè)基準(zhǔn)頁面為基礎(chǔ)，將待消歧頁面的屬性與該基準(zhǔn)頁面對(duì)應(yīng)維的屬性進(jìn)行匹配，若某一維匹配成功，則該維的值為所匹配的屬性的權(quán)重值，若匹配不成功，則該維的值為0，各個(gè)待消歧頁面的12維屬性依次與基準(zhǔn)頁面進(jìn)行匹配，直至把所有待消歧頁面都表征為匹配結(jié)果對(duì)應(yīng)的向量；基準(zhǔn)頁面的向量表征，則是根據(jù)其提取屬性特征的情況而定，對(duì)于提取不到的屬性特征，則對(duì)應(yīng)維度的值為0，對(duì)于能夠提取出的屬性特征則其對(duì)應(yīng)維度的值為該屬性的權(quán)重值。針對(duì)屬性特征的匹配，本文采用基于《知網(wǎng)》的詞語相似度計(jì)算方法進(jìn)行匹配，參照劉群在“基于《知網(wǎng)》的詞匯語義相似度的計(jì)算”中提出的方法[9]，綜合考慮節(jié)點(diǎn)的共性信息和個(gè)性信息，給出如式(1)所示的義原語義相似度計(jì)算公式：

(1)

(2)

其中，S11,S12,…,S1n為W1的n個(gè)概念，S21,S22,…,S2m為W2的m個(gè)概念。兩個(gè)概念語義表達(dá)式的整體相似度為式(3)。

(3)

3.3 基準(zhǔn)頁面特征映射

在將基準(zhǔn)頁面和待消歧頁面表征成屬性權(quán)重值構(gòu)成的向量后，需要通過特征映射的方法，借助待消歧頁面屬性特征對(duì)基準(zhǔn)頁面的屬性特征進(jìn)行擴(kuò)充。首先是計(jì)算所有待消歧頁面與基準(zhǔn)頁面的相似度，本文通過常用的余弦相似度來進(jìn)行相似度的計(jì)算，公式如式(4)所示。

(4)

3.4 模糊聚類分析

3.4.1 模糊相似矩陣構(gòu)建

(5)

3.4.2 確定最佳聚類閾值

引入F統(tǒng)計(jì)量，如式(6)所示。

(6)

4 實(shí)驗(yàn)結(jié)果及分析

4.1 專家消歧數(shù)據(jù)集準(zhǔn)備

對(duì)于實(shí)驗(yàn)數(shù)據(jù)集的準(zhǔn)備，本文采用以下方式進(jìn)行：首先從萬方平臺(tái)及與“自然語言處理”和“機(jī)器學(xué)習(xí)”領(lǐng)域相關(guān)的會(huì)議網(wǎng)站選取“自然語言處理”和“機(jī)器學(xué)習(xí)”領(lǐng)域?qū)＜腋?50人，利用GoogleAPI通過檢索專家的姓名收集搜索引擎返回的前10個(gè)頁面形成實(shí)驗(yàn)數(shù)據(jù)集，并選擇10個(gè)頁面中檢索排序位于第一的頁面作為該專家的基準(zhǔn)頁面。數(shù)據(jù)集基本情況如表1所示。

表1 專家消歧實(shí)驗(yàn)數(shù)據(jù)集

由表1中可以看出，以專家姓名進(jìn)行檢索所召回的頁面中，有一半以上的頁面并不屬于該專家，通過對(duì)數(shù)據(jù)集的分析，發(fā)現(xiàn)這些不屬于專家的頁面中，一部分是屬于與專家同名的人，一部分是與專家不相關(guān)且非描述人物信息的頁面，可見在通過搜索引擎返回專家頁面的過程中進(jìn)行專家消歧具有重要的意義。同時(shí)，在數(shù)據(jù)集中，基準(zhǔn)頁面平均含有詞語數(shù)略低于召回頁面平均含有詞語數(shù)，說明在包含的信息量上，有的基準(zhǔn)頁面可能要比召回頁面少。為進(jìn)一步說明基準(zhǔn)頁面涵蓋信息不全的問題，本文對(duì)基準(zhǔn)頁面和召回頁面中能夠提取出各維特征的頁面占各自頁面集總數(shù)的比例分別進(jìn)行了統(tǒng)計(jì)，結(jié)果如表2所示。

表2 含有各維特征頁面所占比例

續(xù)表

由表2中可以看出，對(duì)于人名和職務(wù)這兩類屬性特征，基準(zhǔn)頁面和召回頁面大多都能涵蓋，而對(duì)于組織機(jī)構(gòu)名、職業(yè)、學(xué)歷、畢業(yè)院校和承擔(dān)項(xiàng)目這五類屬性特征則基準(zhǔn)頁面涵蓋面更廣一些，但是，對(duì)于地名、獲獎(jiǎng)榮譽(yù)、性別、民族、出生日期和承擔(dān)項(xiàng)目這六類屬性特征的涵蓋面基準(zhǔn)頁面卻不如召回頁面，屬性特征涵蓋面的不足很可能導(dǎo)致消歧錯(cuò)誤的產(chǎn)生。

4.2 不同特征專家消歧對(duì)比實(shí)驗(yàn)

為驗(yàn)證利用提出的12維人物屬性特征進(jìn)行專家消歧的效果，在不進(jìn)行基準(zhǔn)頁面特征映射的條件下，實(shí)驗(yàn)將使用12維屬性特征作為特征進(jìn)行聚類的方法與文獻(xiàn)[2]中利用關(guān)鍵詞相似度實(shí)現(xiàn)專家聚類消歧的方法進(jìn)行了對(duì)比，但在這一實(shí)驗(yàn)中先忽略各維特征的重要程度，即不賦權(quán)重，實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)為召回率(R)，準(zhǔn)確率(P)和F值(F)，公式如(7)～(9)所示。

(7)

(8)

(9)

實(shí)驗(yàn)結(jié)果如表3所示。

表3 不同特征消歧對(duì)比實(shí)驗(yàn)

從表3中數(shù)據(jù)可以看出，使用人物屬性作為特征的聚類效果優(yōu)于使用詞頻作為特征的聚類效果，所以，本文定義的12維人物屬性特征能有效進(jìn)行專家消歧。

以上實(shí)驗(yàn)是在各維屬性特征等權(quán)重的條件下進(jìn)行的，也即忽略了各維屬性特征對(duì)消歧效果產(chǎn)生影響的程度不同，為證明對(duì)各維特征賦權(quán)重后的效果，實(shí)驗(yàn)將利用已知消歧結(jié)果得到的各維特征權(quán)重賦予各維特征，并和等權(quán)重的效果進(jìn)行對(duì)比，對(duì)比結(jié)果如表4所示。

表4 權(quán)重因素對(duì)比實(shí)驗(yàn)

從表4中數(shù)據(jù)可以看出，對(duì)屬性特征賦權(quán)重后的效果優(yōu)于不賦權(quán)重的效果，可見考慮各維特征的對(duì)消歧的不同影響程度能有效提高消歧的召回率，準(zhǔn)確率和F值。

4.3 特征映射對(duì)比實(shí)驗(yàn)

為驗(yàn)證特征映射方法的效果，將本文提出的基于特征映射的方法與文獻(xiàn)[4]中的兩階段人名消歧方法和文獻(xiàn)[6]中的基于HMRF的聚類消歧方法進(jìn)行了對(duì)比，實(shí)驗(yàn)結(jié)果如表5所示。

表5 特征映射對(duì)比實(shí)驗(yàn)

從表5中數(shù)據(jù)可以看出，相比于不進(jìn)行特征映射的方法，基于特征映射的方法使得召回率、準(zhǔn)確率和F值均有提高。

為驗(yàn)證數(shù)據(jù)集規(guī)模對(duì)消歧效果的影響，將本文提出的基于特征映射的方法與兩階段人名消歧方法和基于HMRF的聚類消歧方法在不同規(guī)模數(shù)據(jù)集上達(dá)到的F值進(jìn)行了對(duì)比，實(shí)驗(yàn)結(jié)果如圖1所示。

從圖1中可以看出，隨著數(shù)據(jù)集規(guī)模的不斷擴(kuò)大，特征映射方法的F值在0.915附近波動(dòng)，未呈現(xiàn)出下降趨勢(shì)，且在不同的數(shù)據(jù)集規(guī)模下，特征映射方法的F值都高于其他兩種方法，說明在不同的數(shù)據(jù)集規(guī)模下特征映射方法都能取得較好的效果，但其他兩種不進(jìn)行特征映射的方法的F值卻隨著數(shù)據(jù)集規(guī)模的擴(kuò)大而下降，這是因?yàn)閿?shù)據(jù)集規(guī)模越大，其基準(zhǔn)頁面涵蓋信息不全的問題就越凸顯，所得到的消歧效果就會(huì)越差。

圖1 不同數(shù)據(jù)集規(guī)模對(duì)比試驗(yàn)

5 結(jié)語

針對(duì)中文專家頁面特點(diǎn)，以及用于消歧的基準(zhǔn)專家頁面中信息涵蓋不全的問題，本文提出一種基于特征映射的中文專家消歧方法。該方法充分考慮了用于消歧的特征的選取，以及各維特征權(quán)重的確定，并且利用召回頁面的特征對(duì)基準(zhǔn)頁面特征進(jìn)行了擴(kuò)充，實(shí)驗(yàn)證明所提出的方法取得了較好的消歧效果。下一步的工作，將考慮如何利用中文專家頁面間的關(guān)聯(lián)關(guān)系進(jìn)行專家消歧，進(jìn)一步提高消歧的效果。

[1] Houfeng Wang, Zheng Mei. Chinese Multi-document Person Name Disambiguation [J]. High Technology Letters, 2005, 11(3): 280-283.

[2] Bollegala D, Matsuo Y,Ishizuka M. Disambiguating Personal Names on the Web Using Automatically Extracted Key Phrases[J]. Frontiers in Artificial Intelligence and Applications, 2006: 553-557.

[3] Cohen W, Ravikumar P, Fienberg S. A Comparison of String Distance Metrics for Name-matching Tasks[C]//Proceedings of the IJCAI Workshop on Information Integration on the Web, Acapulco, Mexico, 2003: 73-78.

[4] 周曉, 李超, 胡明涵, 等. 基于人物互斥屬性的中文人名消歧[C]// 第六屆全國信息檢索學(xué)術(shù)會(huì)議, 2010.

[5] 郎君, 秦兵, 宋巍等. 基于社會(huì)網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J]. 計(jì)算機(jī)學(xué)報(bào), 2009,(7): 1365-1375.

[6] Jie Tang, Limin Yao, Duo Zhang. A Combination Approach to Web User Profiling[J]. ACM Transactions on Knowledge Discovery from Data , 2010, 5(1): 2.

[7] Lafferty J, McCallum A, Pereira F. Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]// Proceedings of the 18th International Conference on Machine Learning, Wil-liamstown, USA, 2001: 282-289.

[8] Liyan Zhang. A Chinese Word Segmentation Algorithm Based on Maximum Entropy[C]// Machine Learning and Cybernetics (ICMLC), 2010 International Conference on. IEEE, 2010(3): 1264-1267.

[9] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J]. 中文計(jì)算語言學(xué), 2002, 7(2): 59-76.

[10] Botía J F, Isaza C, Kempowsky T, et al. Automaton based on Fuzzy Clustering Methods for Monitoring Industrial Processes[J]. Engineering Applications of Artificial Intelligence, 2012, 4(26): 1211-1220.

A Chinese Expert Disambiguation Method Based on Feature Mapping

PAN Xiao1,2, YU Zhengtao1,2, GUO Jianyi1,2, MAO Cunli1,2, YANG Xiuzhen1

(1. School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunan 650500, China；2. Key Laboratory of Intelligent Information Processing, Kunming University of Science and Technology,Kunming, Yunan 650500, China)

A Chinese expert page disambiguation method based on feature mapping is proposed according to the characteristics of the Chinese expert page. Firstly, with the help of CRFs model, 12 predefined character attributes are extracted from the standard and the candidate page, and their weights are decided by a ME classifier. Then, the page similarity is calculated to decide if the candidate page attributes should be appended Experiments on NLP and ML expert pages show the effectiveness of the proposed method in disambiguation.

Chinese experts page disambiguation; attributive character; feature mapping; fuzzy clustering

1003-0077(2016)02-0026-06

2013-01-08 定稿日期： 2014-01-05

國家自然科學(xué)基金(61175068);云南省軟件工程重點(diǎn)實(shí)驗(yàn)室開放性基金(2011SE14)；國家教育部留學(xué)回國人員科研啟動(dòng)基金。

TP391

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種基于特征映射的中文專家消歧方法

1 引言

2 基于特征映射的中文專家消歧方法思想

3 基于特征映射的中文專家消歧方法

4 實(shí)驗(yàn)結(jié)果及分析

5 結(jié)語