王 玥,呂學(xué)強(qiáng),李 卓,舒 燕
(1. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 北京拓爾思信息技術(shù)股份有限公司,北京 100101)
?
搜索日志中中文人名自動(dòng)識(shí)別
王 玥1,呂學(xué)強(qiáng)1,李 卓1,舒 燕2
(1. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 北京拓爾思信息技術(shù)股份有限公司,北京 100101)
搜索日志中人名識(shí)別一直是日志挖掘中的一個(gè)重點(diǎn)和難點(diǎn),其結(jié)果好壞直接關(guān)系搜索引擎的檢索效率和準(zhǔn)確率。由于分析了長(zhǎng)文本中人名識(shí)別方法在搜索日志中使用存在很多困難與不足,因而該文提出了一種在搜索日志中識(shí)別中文人名的方法。該方法將搜索日志中人名內(nèi)部用字的概率特征引入條件隨機(jī)場(chǎng),再根據(jù)搜索日志的特點(diǎn)計(jì)算人名可信度提取搜索日志中的中文人名。在搜狗查詢?nèi)罩旧线M(jìn)行實(shí)驗(yàn),正確率平均達(dá)到了81.97%、召回率平均達(dá)到了85.81%,綜合指標(biāo)F值平均達(dá)到了83.79%。
人名識(shí)別;搜索日志;條件隨機(jī)場(chǎng);可信度
近幾年,隨著互聯(lián)網(wǎng)的飛速發(fā)展,搜索引擎的地位也在不斷的上升,對(duì)于搜索日志的研究也逐漸成了學(xué)術(shù)界的熱點(diǎn)問題。搜索日志中命名實(shí)體識(shí)別一直是日志挖掘中的一個(gè)重點(diǎn)和難點(diǎn),其結(jié)果好壞直接關(guān)系搜索引擎的檢索效率和檢索準(zhǔn)確率。命名實(shí)體識(shí)別主要包括: 人名、地名、機(jī)構(gòu)名等實(shí)體。從近幾年Dou Shen、Javier Artiles、張磊[1-4]等人的研究來看,人名在搜索引擎的查詢結(jié)果中占很大的比例,如果能從搜索日志中自動(dòng)挖掘出人名實(shí)體,那么就能夠獲得大量具有時(shí)效性和實(shí)用性的信息。
現(xiàn)有的人名識(shí)別方法可以歸結(jié)為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法兩大類?;谝?guī)則的方法準(zhǔn)確率相對(duì)較高,但是制定規(guī)則耗時(shí)耗力,且通用性和可移植性不高[5-8];基于統(tǒng)計(jì)的方法靈活性和魯棒性較好,不需要太多人工干預(yù),只要存在大規(guī)模的已標(biāo)注并且校對(duì)好的語料庫(kù)進(jìn)行訓(xùn)練即可[9-15]。由于搜索日志具有簡(jiǎn)短、缺少上下文、內(nèi)容多次重復(fù)出現(xiàn)、語句跳躍性強(qiáng)等特點(diǎn),與長(zhǎng)文本存在差異性,長(zhǎng)文本中的人名識(shí)別方法很難直接應(yīng)用于搜索日志進(jìn)行人名識(shí)別。Marius Pasc等[16]人嘗試使用提取模板的方法在英文的查詢?nèi)罩局兄羞M(jìn)行了命名實(shí)體識(shí)別。然而,由于中文本身存在的復(fù)雜性,上述的方法并不能被直接用于搜索日志中文人名的識(shí)別。因此,本文提出一種基于條件隨機(jī)場(chǎng)的搜索日志中中文人名識(shí)別方法,主要解決搜索日志中中文人名的識(shí)別問題。
搜索日志是由搜索引擎的查詢串構(gòu)成的,在內(nèi)容上與長(zhǎng)文本存在一定的差異性。長(zhǎng)文本是整句構(gòu)成段落,段落再構(gòu)成篇章而形成,搜索日志是由查詢串組成。查詢串形式具有多樣性的特點(diǎn),主要由整句、多個(gè)關(guān)鍵詞、單獨(dú)詞語、單獨(dú)短語等構(gòu)成。從長(zhǎng)度上看,長(zhǎng)文本長(zhǎng)度各異,但是以長(zhǎng)句為主,而搜索日志中查詢串的主要長(zhǎng)度集中在2~35個(gè)字符范圍內(nèi),相對(duì)于長(zhǎng)文本較短。從重復(fù)性上分析,長(zhǎng)文本前后文整句重復(fù)的概率很小,而搜索日志中查詢串會(huì)出現(xiàn)大量的重復(fù)現(xiàn)象。
由于搜索日志和長(zhǎng)文本有很大差異性,所以搜索日志與長(zhǎng)文本中中文人名的存在形式也存在著很大的差別,如表1是搜索日志中中文人名的特點(diǎn)。
表1 搜索日志中中文人名特點(diǎn)
表1中列出的搜索日志中人名存在的各種特點(diǎn),也正是導(dǎo)致長(zhǎng)文本中人名識(shí)別方法在搜索日志中效果都不甚理想的原因之一。
搜索日志中人名前后字詞之間存在一定的連續(xù)性,可以將搜索日志中人名識(shí)別的問題轉(zhuǎn)化成序列標(biāo)記問題。而條件隨機(jī)場(chǎng)正是專門解決序列標(biāo)記問題的模型,因此本文選用條件隨機(jī)場(chǎng)進(jìn)行中文人名識(shí)別。
3.1 人名標(biāo)記方法
本文采用四詞位標(biāo)記法[17]作為文本中字的序列標(biāo)注方法,如表2。
表2 特征標(biāo)記及其意義
3.2 人名特征及其特征取值
由于搜索日志中人名存在很強(qiáng)烈的用字特征,因此,很有必要建立人名知識(shí)庫(kù)將用字特征引入條件隨機(jī)場(chǎng)。
3.2.1 人名用字知識(shí)庫(kù)的構(gòu)建
本文使用的人名知識(shí)庫(kù)包括姓氏表、單名用字表、雙名首字表、雙名末字表。
姓氏表整理方法: 提取百家姓、維基百科[18]中中國(guó)姓氏表和2000年11月《人民日?qǐng)?bào)》中不重復(fù)的姓氏構(gòu)成詞表。單名用字表、雙名首字表、雙名末字表的整理方法: 將《人民日?qǐng)?bào)》和“加加亞洲人名庫(kù)[19]”中包含姓氏表中姓氏的人名抽取出來,同時(shí)統(tǒng)計(jì)所有人名中,每類用字出現(xiàn)的頻次,然后將結(jié)果存儲(chǔ)下來構(gòu)成這三個(gè)表。
3.2.2 姓氏特征及取值
姓氏在中文姓名用字中出現(xiàn)的頻度非常高,所以當(dāng)前字是否在姓氏表中出現(xiàn)是中文人名識(shí)別的一個(gè)很重要的特征。
標(biāo)注方法: 集合F{(k1,fk1),(k2,fk2),…(ki,fki)…(kn,fkn)}為姓氏用字集合,ki為第i個(gè)姓氏,fki為姓氏ki出現(xiàn)的頻次,xi為當(dāng)前字。
如果(xi,fxi)∈F,則xi標(biāo)記為Y;如果(xi,fxi)?F,則xi標(biāo)記為N。
3.2.3 單字雙字人名特征及取值
中文人名用字本身就有明顯的特征,一些字在人名中大量重復(fù)出現(xiàn)。通過統(tǒng)計(jì)發(fā)現(xiàn)這些大量出現(xiàn)的字在單字人名、雙名首字、雙名末字中出現(xiàn)的概率也是相差很大的,所以本文加入人名用字特征。
將人名用字分為三類:
單字人名: “劉哲”中“哲”字;
雙名首字: “劉亦菲”中“亦”字;
雙名末字: “趙忠祥”中“祥”字。
單字人名標(biāo)記方法: 集合W{(w1,fw1),(w2,fw2)…(wi,fwi)…(wn,fwn)}表示單字人名表,其中wi表示集合W中的第i個(gè)字,fwi表示wi的出現(xiàn)的頻次,xi表示當(dāng)前待標(biāo)記字,函數(shù)Fre(W,xi)表示W(wǎng)集合中xi的詞頻。
如果Fre(W,xi)>0且pm
雙名首字、雙名末字的標(biāo)記方法同單字人名,它們的不同之處就是查詢?cè)~語的集合詞表不同,在進(jìn)行標(biāo)記的時(shí)候閾值參數(shù)的數(shù)值可能不同。
3.3 特征模板的選取
考慮到人名用字、訓(xùn)練語料和姓氏用字之間的依存和共現(xiàn)關(guān)系,條件隨機(jī)場(chǎng)的特征模板要進(jìn)行合理的設(shè)計(jì)。識(shí)別中使用的模板文件,每個(gè)特征項(xiàng)都設(shè)定了與其相關(guān)的復(fù)合模板關(guān)系。
由于人名的上下文對(duì)人名識(shí)別會(huì)產(chǎn)生一定影響,表3的模板選取就表示字的上下文關(guān)聯(lián)關(guān)系,從當(dāng)前字開始,選取向前兩字向后兩字共五字的關(guān)聯(lián)特征。
表3 字特征應(yīng)用的特征模板
表4至表7表示人名用字特征模板的選取方式,以及人名用字的內(nèi)在關(guān)聯(lián)關(guān)系。
表4 姓氏用字特征應(yīng)用的特征模板
表5 單名用字特征應(yīng)用的特征模板
表6 雙名用字特征應(yīng)用的特征模板
表7 雙名末字特征應(yīng)用的特征模板
表3至表7中,i表示當(dāng)前字所在位置,W(i)表示字i,F(xiàn)(i)字W(i)的姓氏特征標(biāo)記,S(i)表示字W(i) 的單名用字特征標(biāo)記,DF(i)表示字W(i)的雙名首字特征標(biāo)記,DL(i)表示字W(i)的雙名用字特征標(biāo)記。
3.4 訓(xùn)練語料的重組
由于搜索日志中人名有上下文嚴(yán)重缺失的特點(diǎn)。而人民日?qǐng)?bào)中的語料,絕大多數(shù)是完整的句子,人名存在上下文。如果使用原始格式的訓(xùn)練語料加入條件隨機(jī)場(chǎng)進(jìn)行學(xué)習(xí),模型很難學(xué)習(xí)到搜索日志中人名的這一特點(diǎn),所以本文中方法將訓(xùn)練語料進(jìn)行了修改和擴(kuò)充。首先將訓(xùn)練語料中所有的中文人名提取出來,以每一行為一個(gè)人名的形式加入到原始的人民日?qǐng)?bào)語料中再進(jìn)行特征標(biāo)記處理,這樣條件隨機(jī)場(chǎng)在訓(xùn)練的時(shí)候,既可以學(xué)習(xí)到有上下文的人名的標(biāo)注形式,也能夠?qū)W習(xí)到上下文缺失的人名的標(biāo)記方式,這樣使訓(xùn)練語料更加符合搜索日志中搜索串的特點(diǎn)。
4.1 人名可信度
由于訓(xùn)練語料并不是基于搜索日志而是來源于人民日?qǐng)?bào)的分詞語料,人民日?qǐng)?bào)屬于新聞?wù)Z料,并不能涵蓋搜索日志語料的所有特點(diǎn)。因此,在訓(xùn)練的過程中,條件隨機(jī)場(chǎng)很難學(xué)習(xí)到搜索日志的全部特點(diǎn),這將導(dǎo)致最終人名識(shí)別結(jié)果不夠完整。為此引入可信度的方法,對(duì)CRF漏識(shí)別的特定形式人名進(jìn)行召回。
可信度是用來描述幾個(gè)連續(xù)的中文字符構(gòu)成人名的可能性的一種概率。本文將中文人名可信度定義為
(1)
其中,P(FirstName)表示姓氏用字可信度,P(Word)表示名字用字可信度。
姓氏用字可信度定義如下:
(2)
其中,fki表示姓氏表集合F中第i個(gè)姓氏ki的頻次。
如果是單字名,名字用字可信度定義如下:
(3)
其中,fwi表示單名用字集合W中第i個(gè)人名用字wi的頻次。
如果是雙字名,名字用字可信度定義如下:
(4)
其中,fui表示雙名首字用字集合U中第i個(gè)人名用字ui的頻次,fvi表示雙名末字用字集合V中第i個(gè)人名用字vi的頻次,λ表示雙名調(diào)節(jié)系數(shù)。
4.2 基于可信度的人名連詞特征召回
搜索日志中大量出現(xiàn)“其他詞語+人名1+連詞+人名2+其他詞語”這種形式的查詢串,而識(shí)別的時(shí)候經(jīng)常會(huì)出現(xiàn)“人名1”和“人名2”中只有一個(gè)被識(shí)別出來,本文通過如下方法將另一個(gè)人名也識(shí)別出來。
首先,從訓(xùn)練語料中抽取連詞詞表,將前后都為人名的連詞抽取出來組成一個(gè)詞表Q{q1,q2,...,qi,...,qn},其中qi表示抽取出的第i個(gè)連詞。
其次,設(shè)R{r1,r2,...,ri,...,rn}是條件隨機(jī)場(chǎng)識(shí)別后的查詢?nèi)罩?,ri表示第i個(gè)查詢串,ri[j]表示查詢串ri中第j個(gè)字。如果ri[j]∈Q且(ri[j-m],...,ri[j-1])(m=2,3)是之前條件隨機(jī)場(chǎng)識(shí)別出的人名,那么將(ri[j-2],ri[j-1])、(ri[j-3],ri[j-2],ri[j-1])分別計(jì)算人名可信度P(ri[j-2],ri[j-1])、P(ri[j-3],ri[j-2],ri[j-1]),取兩者中較大的,如果較大的可信度達(dá)到一定閾值P1,那么將其標(biāo)記為人名;如果ri[j]∈Q且(ri[j+1],...,ri[j+m])(m=2,3)是之前條件隨機(jī)場(chǎng)識(shí)別出的人名,那么同理將(ri[j+1],ri[j+2])、(ri[j+1],ri[j+2],ri[j+3])分別計(jì)算人名可信度P(ri[j+1],ri[j+2])、P(ri[j+1],ri[j+2],ri[j+3]),取兩者中較大的,如果較大的人名可信度達(dá)到一定閾值P1,那么將其標(biāo)記為人名。
4.3 基于可信度的人名模板召回
由于搜索日志中人名出現(xiàn)位置有重復(fù)度高的特點(diǎn),例如,[高圓圓]泳裝圖片、[郭晶晶]泳裝圖片,這兩個(gè)搜索串中人名只要識(shí)別出一個(gè)另一個(gè)就可以通過抽取的模板進(jìn)行匹配,從而將另一個(gè)識(shí)別出來。
模板分三種: 第一種,前置模板“美麗女人[陳好]”;第二種,是后置模板“[高圓圓]泳裝照片”;第三種,是包含模板“天王巨星[劉德華]的演唱會(huì)”。
處理策略: 首先在集合Q中將所有的查詢串中已識(shí)別的人名全部去掉,剩余部分單獨(dú)存儲(chǔ)即為模板,使用模板匹配Q集合中沒有識(shí)別出人名的查詢串,匹配過程查詢串的內(nèi)容必須要完全包含模板中的內(nèi)容,而且未包含部分只能為連續(xù)的二至三個(gè)漢字,匹配成功后將這個(gè)連續(xù)二至三個(gè)漢字的字符串計(jì)算人名可信度,達(dá)到一定閾值P2的即標(biāo)記為人名。
4.4基于可信度的人名重復(fù)性召回
由于搜索日志有同一人名多次大量出現(xiàn)的特點(diǎn),比如: [霍震霆]與[朱玲玲]照片、[霍震霆]等查詢串都出現(xiàn)了霍震霆,如果一個(gè)人名被識(shí)別,那么再次出現(xiàn)該人名的時(shí)候就可以直接判斷出當(dāng)前詞語是不是已出現(xiàn)的人名。
處理策略: 將已識(shí)別的人名加入詞表,進(jìn)行可信度計(jì)算,達(dá)到閾值P3的直接存入人名詞表,與原始搜索日志進(jìn)行匹配,如果能夠匹配,直接標(biāo)記為人名。
對(duì)于統(tǒng)計(jì)方法,使用機(jī)器學(xué)習(xí)模型進(jìn)行人名識(shí)別評(píng)測(cè),往往需要一定規(guī)模的測(cè)試集。這種測(cè)試集一般可分為兩種,一種是只含人名的句子集合,另一種是完全真實(shí)的語料。前者沒有考慮到真實(shí)的語言環(huán)境,識(shí)別結(jié)果往往偏高。因?yàn)樵谡鎸?shí)語料中不含人名的句子大量存在,其中不是人名的成分可能會(huì)被錯(cuò)誤識(shí)別出來而影響結(jié)果,但是這樣的句子可能會(huì)被人為去除掉,所以結(jié)果并不能體現(xiàn)真實(shí)的效果。另一種是使用大規(guī)模的訓(xùn)練語料,在一個(gè)小規(guī)模的真實(shí)樣本中進(jìn)行測(cè)試,大規(guī)模的訓(xùn)練語料幾乎包含了小型測(cè)試語料的所有內(nèi)容, 這樣的結(jié)果也并不客觀。
本文為避免上述情況,將實(shí)驗(yàn)一共分五組,訓(xùn)練語料是2000年11月的《人民日?qǐng)?bào)》,測(cè)試語料分別是在2008年6月1日至2008年6月5日的搜狗搜索日志[20]。每天的搜索日志都分別先去重,然后得到五天無重復(fù)的搜索日志,對(duì)于無重復(fù)的搜索日志分別隨機(jī)抽取1 000條作為測(cè)試集。
本文中單名用字的閾值是8,雙名首字閾值為20,雙名末字為20。雙名調(diào)節(jié)系數(shù)λ取0.5。連詞特征人名可信度閾值取1.78*10-6。閾值P2取1.6*10-6。閾值P3取3.0*10-6。
5.1 評(píng)測(cè)指標(biāo)
針對(duì)中文人名,本文采用了三個(gè)評(píng)測(cè)指標(biāo),即準(zhǔn)確率(P)、召回率(R)和綜合指標(biāo)F值(F),其定義如下:
準(zhǔn)確率:
(5)
召回率:
(6)
F值:
(7)
其中β是準(zhǔn)確率P和召回率R之間的權(quán)衡因子,這里,P和R同等重要,因此取β=1,此時(shí)F值稱為F1值。
5.2 結(jié)果分析
本文選用最新版ICTCLAS的人名識(shí)別結(jié)果和郭家清的一種基于條件隨機(jī)場(chǎng)的人名識(shí)別方法[21]作為對(duì)比試驗(yàn),表8是兩個(gè)對(duì)比實(shí)驗(yàn)與本文中條件隨機(jī)場(chǎng)的識(shí)別方法的識(shí)別結(jié)果對(duì)比。
表8 ICTCLAS、文獻(xiàn)[21]與條件隨機(jī)場(chǎng)識(shí)別結(jié)果
續(xù)表
從表8可以看出在五天的搜索日志上,本文條件隨機(jī)場(chǎng)的識(shí)別方法正確率平均比ICTCLAS的識(shí)別結(jié)果高14.73%,召回率平均提高了0.01%,綜合效果F值平均提高了8.22%;比文獻(xiàn)[21]的方法正確率平均提高了21.31%,召回率平均提高了35.59%,綜合效果F值平均提高了29.16%。所以從總體效果上看,本文的方法在搜索日志中識(shí)別中文人名是有效的。
本文方法召回率在第三天的數(shù)據(jù)上低于ICTCLAS,是由于訓(xùn)練語料只是用了一個(gè)月的人民日?qǐng)?bào),所以訓(xùn)練集和測(cè)試集產(chǎn)生的數(shù)據(jù)稀疏非常嚴(yán)重,第三天的日志這種現(xiàn)象尤為明顯,所以召回率略有下降,經(jīng)過補(bǔ)充訓(xùn)練集,這種缺陷就可以被彌補(bǔ)。
表9是在條件隨機(jī)場(chǎng)的識(shí)別結(jié)果上加入人名可信度的方法的結(jié)果。
表9 加入人名可信度和不加入人名可信度的結(jié)果對(duì)比
從表9可以看出在五天的搜索日志上,加入人名可信度方法后,總體效果比條件隨機(jī)場(chǎng)直接識(shí)別出的結(jié)果又有所提升,綜合指標(biāo)F值提升了0.78%,說明人名可信度方法也是行之有效的。
表10是本文方法的總體結(jié)果。
表10 Baseline方法與最終結(jié)果對(duì)比
從五天的結(jié)果來分析,本實(shí)驗(yàn)中方法識(shí)別的結(jié)果,正確率平均比ICTCLAS要高14.39%,召回率平均高1.99%,綜合指標(biāo)F值平均高 9.00%;與文獻(xiàn)[21]的方法相比,正確率平均高20.96%,召回率平均高37.56%,綜合指標(biāo)F值平均高29.94%;無論單項(xiàng)還是總體識(shí)別效果都要優(yōu)于對(duì)比方法。
在搜索日志中識(shí)別人名,正確率比召回率更重要。如果需要在搜索日志中挖出一個(gè)人名詞典,假設(shè)從一億條搜索日志中挖出了1 000萬條人名,這么龐大的數(shù)據(jù)量是不可能進(jìn)行人工校對(duì)的,只有保證抽取結(jié)果有較高的正確率的情況下,識(shí)別結(jié)果才可以被直接應(yīng)用,對(duì)于學(xué)術(shù)研究或工程應(yīng)用才能夠產(chǎn)生價(jià)值。
本文系統(tǒng)地闡述了中文人名在日志中的構(gòu)成形式及其特點(diǎn),分析了長(zhǎng)文本中的人名識(shí)別方法應(yīng)用在搜索日志中進(jìn)行中文人名識(shí)別的缺陷和不足。而后,本文提出了一種基于條件隨機(jī)場(chǎng)的人名識(shí)別方法,利用日志中人名的特點(diǎn),進(jìn)行中文人名的識(shí)別。通過對(duì)五天去重的搜狗日志進(jìn)行的實(shí)驗(yàn)?zāi)芸闯觯疚姆椒ㄝ^大地提高了日志中人名識(shí)別的效果。但是由于國(guó)內(nèi)外資源的限制,現(xiàn)在搜索日志中沒有已標(biāo)記好的權(quán)威語料可以作為訓(xùn)練集,而手動(dòng)制作搜索日志的標(biāo)記語料,費(fèi)時(shí)費(fèi)力。因此,本文選定通用語料人民日?qǐng)?bào)并對(duì)其進(jìn)行重組作為訓(xùn)練集,目的是為了半自動(dòng)地構(gòu)建已標(biāo)記的日志語料,為搜索日志的進(jìn)一步研究工作奠定基礎(chǔ)。本文訓(xùn)練語料的規(guī)模很小,如果能夠擴(kuò)大訓(xùn)練語料,最終識(shí)別結(jié)果還會(huì)有很大上升的空間。我們的下一步研究工作就是半自動(dòng)地制作已標(biāo)記的搜索日志語料,并將本文方法進(jìn)一步細(xì)化,然后將已標(biāo)記的搜索日志語料作為訓(xùn)練集合,深入研究并推廣,使其應(yīng)用在地名、機(jī)構(gòu)名、術(shù)語、縮略語等其他搜索日志未登錄詞的識(shí)別中。
[1] Downey D,Broadhead M,Etzioni O.Locating complex named entities in Web text[C]//Proceedings of the 20th international joint conference on artifical intelligence.San Francisco,CA: Morgan Kaufmann Publishers Inc.2007: 2733-2739.
[2] Shen D,Walker T,Zheng Z,et al. Personal nameclassification in Web queries[C]//Proceedings of the international conference on Web search and web datamining. New York,NY: ACM,2008: 149-158.
[3] Artiles J,Gonzalo J,Verdejo F. A testbed for people searching strategies in the www[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retriev - al. New York,NY: ACM,2005: 569-570.
[4] 張磊,王斌,靖紅芳等.中文網(wǎng)頁搜索日志中的特殊命名實(shí)體挖掘[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2011,43(5):119-122.
[5] 羅智勇,宋柔.一種基于可信度的人名識(shí)別方法[J].中文信息學(xué)報(bào),2005,19(3): 67-72,86.
[6] 宋柔.基于語料庫(kù)和規(guī)則庫(kù)的人名識(shí)別方法[M].計(jì)算語言學(xué)研究與應(yīng)用,北京:北京語言學(xué)院出版社,1993年.
[7] 鄭家恒,李鑫,譚紅葉.基于語料庫(kù)的中文姓名識(shí)別方法研究[J].中文信息學(xué)報(bào),2000, 14(1):7-12.
[8] 時(shí)迎超,王會(huì)珍,肖桐,胡明涵. 面向人名消歧任務(wù)的人名識(shí)別系統(tǒng)[J]. 中文信息學(xué)報(bào),2011,25(3): 17-22.
[9] 李波,張蕾. 基于錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)和知網(wǎng)的中文人名識(shí)別[J]. 計(jì)算機(jī)工程,2012,38(12): 179-181.
[10] 張華平,劉群.基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別研究[J].計(jì)算機(jī)學(xué)報(bào),2004,27(1): 85-91.
[11] 毛婷婷,李麗雙. 基于混合模型的中國(guó)人名自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2007,21(2): 22-28.
[12] 李中國(guó),劉穎.邊界模板和局部統(tǒng)計(jì)相結(jié)合的中國(guó)人名識(shí)別[J].中文信息學(xué)報(bào),2006,20(5): 44-50,57.
[13] Brown P, De Souza P,Mercer R, et al. Classbased n-gram models of natural language[J]. Journal Computational Linguistics,1992,18(4): 467-479.
[14] Chen H H,Ding Y W,Tsai S C,et al. Description of the NTU system used for MET2[C]//Proceedings of the 7th Message Understanding Conference.[S. l.]: [s. n.],1998.
[15] Joachims T. Text Categorization with support vector machines: Learning with many relevant features[J]. Springer, 1998,1398(23): 137-142.
[16] Pasca M. Weakly-supervised discovery of named entities using Web search queries[C]//Proceedings of the 16th International Conference on Information and Knowledge Management. New York, NY: ACM, 2007:683-690.
[17] 黃昌寧,趙海.由字構(gòu)詞——中文分詞新方法; 中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C]//中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議,2006.
[18] 維基百科.常見姓氏列表[OL].[2012].zh.wikipedia.org/wiki/常見姓氏列表.
[19] 姚勤智.亞洲人名詞庫(kù)[OL]. [2012] http://bbs.jjol.cn/showthread.php?t=2001.
[20] 搜狐研發(fā)中心.用戶查詢?nèi)罩綶OL]. [2012].www.sogou.com/labs/dl/q.html.
[21] 郭家清,蔡?hào)|風(fēng)等.一種基于條件隨機(jī)場(chǎng)的人名識(shí)別方法[J].通訊和計(jì)算機(jī),2007,4(2)27-30.
Automatic Identification of Chinese Names in Search Logs
WANG Yue1, LV Xueqiang1, LI Zhuo1, SHU Yan2
(1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University,Beijing 100101,China; 2. Beijing TRS Information Technology Co., Ltd, Beijing 100101,China)
Search log name recognition has been a focus in Log Mining, which has direct impact on search engine’s retrieval efficiency and accuracy. The paper analyzes the drawbacks of name identification methods for long texts when applied to search logs, and proposes a method to identify Chinese names in search logs. The method employs the name internal word probability extracted from search query logs by the Conditional Random Fields, then estimates the credibility of person name according to the characteristics in the search log. Experimental results on Sogou query logs show that our approach reaches 81.97%accuracyand 85.81% recall on average, yielding F-measure of 83.79% .
recognition of person names; search query logs; conditional random fields; reliability
王玥(1987—),碩士,研究實(shí)習(xí)員,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?、大?shù)據(jù)處理。E?mail:butcher20@163.com呂學(xué)強(qiáng)(1970—),博士,教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?、多媒體信息處理。E?mail:lxq@bistu.edu.cn李卓(1983—),博士,講師,主要研究領(lǐng)域?yàn)橐苿?dòng)互聯(lián)網(wǎng)。E?mail:lizhuo@bistu.edu.cn
1003-0077(2015)03-0162-07
2013-04-08 定稿日期: 2013-07-18
國(guó)家自然科學(xué)基金(61171159、61271304 );北京市教委科技發(fā)展計(jì)劃重點(diǎn)項(xiàng)目暨北京市自然科學(xué)基金B(yǎng)類重點(diǎn)項(xiàng)目(KZ201311232037);北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室開放課題(ICDD201203 )
TP391
A