張 婧,黃鍇宇,梁 晨,黃德根
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
社交媒體數(shù)據(jù)承載著大量輿情信息及商業(yè)信息。近年來(lái),面向微博等社交媒體語(yǔ)料的自然語(yǔ)言處理任務(wù)受到廣泛關(guān)注,例如,微博情感分析[1]、命名實(shí)體識(shí)別[2-4]、熱點(diǎn)事件抽取[5]等。此外,還有很多面向微博語(yǔ)料的評(píng)測(cè)任務(wù),例如,COAE2014評(píng)測(cè)任務(wù)中新增加了面向微博的情感新詞發(fā)現(xiàn)任務(wù),NLPCC2015也開(kāi)展了面向微博的中文分詞及詞性標(biāo)注任務(wù)[6]。目前,很多優(yōu)秀的中文分詞系統(tǒng)應(yīng)用在傳統(tǒng)語(yǔ)料(例如新聞、專(zhuān)利)上,已經(jīng)達(dá)到了令人滿(mǎn)意的效果[7-10]。然而,由于用戶(hù)在社交媒體中發(fā)表言論時(shí)通常使用極其隨意的表達(dá)方式,因此,社交媒體語(yǔ)料中包含很多縮略詞、轉(zhuǎn)義詞、諧音詞等新詞,使得現(xiàn)有的很多自然語(yǔ)言處理技術(shù)和工具無(wú)法正常用于社交媒體語(yǔ)料的詞法分析任務(wù)[11]。研究顯示,在中文分詞評(píng)測(cè)中,系統(tǒng)間性能差別最大的是未登錄詞的召回情況[12]。為了提高面向社交媒體語(yǔ)料的中文分詞效果,本文利用大規(guī)模未標(biāo)注的微博語(yǔ)料進(jìn)行新詞識(shí)別研究。
新詞識(shí)別方法一般分為有監(jiān)督方法和無(wú)監(jiān)督方法。有監(jiān)督方法需要利用大規(guī)模熟語(yǔ)料作為訓(xùn)練語(yǔ)料,但面向社交媒體的熟語(yǔ)料極其匱乏,故無(wú)監(jiān)督方法更適用于面向微博語(yǔ)料的新詞識(shí)別任務(wù)。文獻(xiàn)[13]提出采用信息熵(Information Entropy,IE)與詞法規(guī)則相結(jié)合的無(wú)監(jiān)督方法,識(shí)別微博語(yǔ)料中的新詞,該文獻(xiàn)首先采用詞關(guān)聯(lián)性信息的迭代上下文熵算法獲取候選新詞,再使用詞法信息進(jìn)行過(guò)濾,取得較好的效果。文獻(xiàn)[14]提出Overlap Variety(OV)方法來(lái)解決微博語(yǔ)料中低頻新詞的召回問(wèn)題,OV方法在衡量候選新詞可信度的時(shí)候不單純考慮候選新詞的頻率,而是比較該候選新詞的前后鄰接詞(Accessor Variety,AV)和該候選新詞的覆蓋串的AV值。該篇文獻(xiàn)的實(shí)驗(yàn)表明,OV方法是目前新詞識(shí)別效果最先進(jìn)的方法之一。
現(xiàn)有的無(wú)監(jiān)督新詞識(shí)別方法大都采用傳統(tǒng)統(tǒng)計(jì)量IE、AV、PMI(Point-wise Mutual Information)等提取大規(guī)模未標(biāo)注語(yǔ)料中的詞碎片的分布信息。為了更加有效地使用已有的統(tǒng)計(jì)量,本文利用發(fā)展語(yǔ)料,分析了傳統(tǒng)統(tǒng)計(jì)量對(duì)有意義的二元詞串和無(wú)意義的二元詞串的區(qū)分效果,并選擇最具有區(qū)分力度的統(tǒng)計(jì)量對(duì)語(yǔ)料中的詞碎片進(jìn)行考量,獲得候選新詞。
除了以上傳統(tǒng)統(tǒng)計(jì)量之外,詞向量的提出為無(wú)監(jiān)督新詞識(shí)別方法提供了有利的參考信息。文獻(xiàn)[15]首先提出了分布式詞表示方法,又稱(chēng)詞向量(word embedding)。通過(guò)大規(guī)模語(yǔ)料訓(xùn)練得到的詞向量既包含詞語(yǔ)的語(yǔ)義信息,又包含詞語(yǔ)的句法信息。文獻(xiàn)[16]提出了兩種訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)模型CBOW和Skip-gram,該方法采用低維空間表示法,不但解決了維數(shù)災(zāi)難問(wèn)題,而且挖掘了詞語(yǔ)之間的關(guān)聯(lián)屬性,從而提高了詞語(yǔ)表示在語(yǔ)義上的準(zhǔn)確度。CBOW模型是在已知上下文的基礎(chǔ)上預(yù)測(cè)當(dāng)前詞,而Skip-gram模型恰好相反,是在已知當(dāng)前詞的基礎(chǔ)上預(yù)測(cè)其上下文。
目前,關(guān)于詞向量的研究備受關(guān)注。文獻(xiàn)[17]提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)訓(xùn)練詞向量,該文獻(xiàn)的實(shí)驗(yàn)證明,在訓(xùn)練詞向量的過(guò)程中,該方法能結(jié)合局部信息和全局信息更好地獲取詞的語(yǔ)義信息。文獻(xiàn)[18]提出了基于字向量和詞向量相結(jié)合的方式獲得詞向量,該文獻(xiàn)表明,字詞結(jié)合的詞向量比傳統(tǒng)詞向量涵蓋了更有效的語(yǔ)義及句法信息。
本文結(jié)合上述的詞向量技術(shù)和傳統(tǒng)統(tǒng)計(jì)量,提出了一種新的無(wú)監(jiān)督新詞識(shí)別方法。首先,使用PMI方法獲取候選新詞;其次,采用多種策略在大規(guī)模未標(biāo)注的微博語(yǔ)料上訓(xùn)練得到字向量和詞向量;再根據(jù)訓(xùn)練得到的字向量和詞向量構(gòu)建成詞概率較低的弱成詞詞串集合,利用該集合對(duì)候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個(gè)方面進(jìn)行過(guò)濾,以提高新詞識(shí)別效果。此外,本文還重現(xiàn)了目前新詞識(shí)別效果較好的Overlap Variety方法作為本文的對(duì)比實(shí)驗(yàn)。
新詞,又稱(chēng)未登錄詞,目前沒(méi)有統(tǒng)一的界定。文獻(xiàn)[19]將新詞定義為沒(méi)有在詞典中出現(xiàn)的詞;文獻(xiàn)[20]則認(rèn)為,新詞是指隨時(shí)代發(fā)展新出現(xiàn)的詞或舊詞新用的詞。本文所識(shí)別的新詞與傳統(tǒng)定義的新詞不同,不是單純指分詞系統(tǒng)詞典中不存在的詞,而是指分詞語(yǔ)料標(biāo)準(zhǔn)集中存在的,但分詞系統(tǒng)標(biāo)注結(jié)果中不存在的詞。具體定義如下:
GSS(gold standard set): 表示人工標(biāo)注的標(biāo)準(zhǔn)分詞集合。
SRS(segmented results set): 表示使用分詞工具進(jìn)行分詞后得到的分詞集合。
本文對(duì)新詞的定義: New word={w,w∈GSS 且 w?SRS}。
這樣定義的原因有兩點(diǎn): 第一,該定義所指的新詞一部分屬于分詞系統(tǒng)所使用的詞典中不包含的詞,記為NWset1;另一部分屬于系統(tǒng)詞典中包括,但分詞系統(tǒng)未正確切分的詞,記為NWset2。這兩類(lèi)新詞對(duì)于提高分詞系統(tǒng)的性能都具有重要的作用,NWset1可以豐富現(xiàn)有詞典的詞匯,而NWset2可以完善詞典中已有的詞語(yǔ)的成詞代價(jià)。第二,這樣定義新詞不局限于特定的某個(gè)詞典,因而即使對(duì)于詞典差異很大的分詞系統(tǒng),我們的定義也同樣適用。
我們根據(jù)《北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范》[21]人工標(biāo)注了一萬(wàn)條微博語(yǔ)料作為發(fā)展語(yǔ)料,實(shí)驗(yàn)數(shù)據(jù)部分對(duì)發(fā)展語(yǔ)料的標(biāo)注過(guò)程進(jìn)行了詳細(xì)介紹。經(jīng)過(guò)統(tǒng)計(jì),發(fā)展語(yǔ)料標(biāo)準(zhǔn)集中的總詞條數(shù)(不同詞個(gè)數(shù))為46 112,其中新詞個(gè)數(shù)為22 957,新詞比例為49.79%,可見(jiàn)微博語(yǔ)料中包含大量新詞。此外,我們對(duì)發(fā)展語(yǔ)料中新詞的詞長(zhǎng)分布進(jìn)行了分析,分析結(jié)果如圖1所示。
圖1表明,發(fā)展語(yǔ)料中的新詞主要由二元新詞和三元新詞構(gòu)成,二者之和占新詞總數(shù)的92%,遠(yuǎn)遠(yuǎn)超過(guò)其他新詞的比例。因此,本文重點(diǎn)識(shí)別微博語(yǔ)料中詞長(zhǎng)不大于3的新詞。
圖1 發(fā)展語(yǔ)料中新詞的詞長(zhǎng)分布
詞向量的提出使得在無(wú)監(jiān)督的條件下獲得語(yǔ)料中詞語(yǔ)的語(yǔ)義信息成為可能。由于詞向量模型中基于softmax方法的Skip-gram模型更適用于低頻詞,而微博語(yǔ)料中新詞的頻率普遍偏低(經(jīng)統(tǒng)計(jì),規(guī)模為一萬(wàn)條微博的發(fā)展語(yǔ)料中,頻率為1的新詞占總詞條的69%)。因此本文使用基于softmax方法的Skip-gram模型訓(xùn)練得到詞向量,訓(xùn)練參數(shù)為: 維度=200,窗口=9,最低詞頻=1。實(shí)驗(yàn)中我們收集了35萬(wàn)條未標(biāo)注的微博語(yǔ)料用來(lái)訓(xùn)練詞向量。通過(guò)采用不同的策略,訓(xùn)練得到以下三種不同的詞向量,用于構(gòu)建候選新詞過(guò)濾集合。三種詞向量分別為: 詞向量WE,字向量CE和含位置信息的字向量LCE,為了敘述方便,后文統(tǒng)稱(chēng)為詞向量。
詞向量: 使用Nihao分詞工具[8]對(duì)未標(biāo)注的微博語(yǔ)料進(jìn)行預(yù)分詞,將預(yù)分詞語(yǔ)料中的詞及詞碎片作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到詞向量,記為WE(word embedding)。
字向量: 將未標(biāo)注的微博語(yǔ)料按字切分,將字作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到字向量,記為CE(character embedding)。
含位置信息的字向量: 由于中文中字的歧義現(xiàn)象比較嚴(yán)重,為了獲得更加有效的字向量,我們使用分詞工具對(duì)大規(guī)模未標(biāo)注的微博語(yǔ)料進(jìn)行預(yù)分詞后,根據(jù)字在詞語(yǔ)中的位置對(duì)字進(jìn)行細(xì)分類(lèi)。本文根據(jù)字在詞中的位置,將字分為四個(gè)類(lèi)別: B表示該字出現(xiàn)在所在詞語(yǔ)的開(kāi)始位置;E表示該字出現(xiàn)在所在詞語(yǔ)的結(jié)束位置;M表示該字出現(xiàn)在所在詞語(yǔ)的中間位置,即非開(kāi)始位置和結(jié)束位置;S表示該字獨(dú)立成詞或表示該字為詞碎片。將含有分類(lèi)信息的字作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到包含位置信息的字向量,記為L(zhǎng)CE(location information based character embedding)。
在很多自然語(yǔ)言處理任務(wù)中,都會(huì)使用前后鄰接詞、信息熵、點(diǎn)互信息等統(tǒng)計(jì)量提取重要參考信息,本節(jié)將對(duì)這三種統(tǒng)計(jì)量在新詞識(shí)別任務(wù)中的使用方法進(jìn)行詳細(xì)介紹。
3.2.1 前后鄰接詞(Accessor Variety,AV)
文獻(xiàn)[22]首次提出Accessor Variety的概念,其核心思想是若某個(gè)詞串w是有意義的,那么它可以適用于多種不同的語(yǔ)言環(huán)境,即,如果一個(gè)詞串出現(xiàn)在不同的語(yǔ)言環(huán)境下,那它可能是有意義的。在新詞識(shí)別任務(wù)中,令Lav(w)表示與詞串w直接相鄰的不同的前一個(gè)字的個(gè)數(shù),Rav(w)表示與詞串w直接相鄰的不同的后一個(gè)字的個(gè)數(shù)。Lav(w)和Rav(w)這兩個(gè)值可以用來(lái)衡量詞串w對(duì)不同語(yǔ)境的適應(yīng)能力。詞串w的AV值定義如式(1)所示。
gav(w)=logAV(w)
(1)
其中,AV(w)=min{Lav(w),Rav(w)}。
3.2.2 信息熵(Information Entropy,IE)
信息熵是信息論的基本概念,又稱(chēng)熵,可以衡量一個(gè)隨機(jī)變量的不確定性。一個(gè)隨機(jī)變量的信息熵越大,它的不確定性就越大,那么,正確估計(jì)其值的可能性就越小。在新詞識(shí)別任務(wù)中,我們利用信息熵衡量語(yǔ)料中某一詞串的所有前鄰接詞(或后鄰接詞)分布的不確定性。信息熵越小說(shuō)明詞串的前鄰接詞(或后鄰接詞)分布越集中,這樣的詞串越有可能與其前鄰接詞(或后鄰接詞)合并形成候選新詞;反之,說(shuō)明詞串的前鄰接詞(或后鄰接詞)分布的越分散,該詞串獨(dú)立成詞的可能性越大。我們用左信息熵LIE計(jì)算詞串與其前鄰接詞的信息熵,用右信息熵RIE計(jì)算詞串與其后鄰接詞的信息熵,計(jì)算如式(2)所示。
(2)
(3)
其中,w為當(dāng)前考察的詞串,m為w的前鄰接詞的總數(shù),n為w的后鄰接詞的總數(shù),lwi為w的第i個(gè)前鄰接詞,rwi為w的第i個(gè)后鄰接詞。
3.2.3 點(diǎn)互信息(Point-wiseMutualInformation,PMI)
點(diǎn)互信息源于信息論中的互信息,是一種用來(lái)度量關(guān)聯(lián)性的統(tǒng)計(jì)量。在新詞識(shí)別任務(wù)中,通常使用PMI來(lái)衡量詞碎片之間的共現(xiàn)程度,其具體的計(jì)算如式(4)所示。
(4)
其中,x、y表示語(yǔ)料中的詞或詞碎片,P(x,y)表示x和y作為相鄰詞串同時(shí)出現(xiàn)的頻率,P(x)、P(y)分別表示x和y在整個(gè)語(yǔ)料中出現(xiàn)的頻率。
在新詞識(shí)別過(guò)程中,由于二元新詞的構(gòu)成形式(單字+單字)相對(duì)于三元新詞的構(gòu)成形式(單字+二字、二字+單字、單字+單字+單字)較為簡(jiǎn)單,因此,我們優(yōu)先識(shí)別二元新詞,根據(jù)過(guò)濾后的二元新詞對(duì)語(yǔ)料進(jìn)行自動(dòng)修正,然后進(jìn)行二次迭代,識(shí)別三元新詞。每次迭代過(guò)程中,將新詞識(shí)別任務(wù)分為候選新詞識(shí)別和候選新詞過(guò)濾兩個(gè)子任務(wù),下面分別詳細(xì)介紹這兩個(gè)子任務(wù)的處理方法。
本文首先利用發(fā)展語(yǔ)料分析現(xiàn)有統(tǒng)計(jì)量(AV,IE,PMI)對(duì)預(yù)分詞結(jié)果中的單字詞碎片的區(qū)分效果,根據(jù)分析結(jié)果選擇區(qū)分效果最為明顯的統(tǒng)計(jì)量進(jìn)行候選新詞識(shí)別。由于二元新詞的識(shí)別結(jié)果將直接影響到三元新詞的識(shí)別,所以,在此分析過(guò)程中,我們主要針對(duì)連續(xù)的兩個(gè)單字組成的二元詞串進(jìn)行分析。分析方法及結(jié)果如下:
圖2 傳統(tǒng)統(tǒng)計(jì)量對(duì)二元詞串的區(qū)分效果
分析方法: 根據(jù)發(fā)展語(yǔ)料的預(yù)分詞結(jié)果(SRS集合)和標(biāo)準(zhǔn)集(GSS集合)獲取有意義的二元詞串和無(wú)意義的二元詞串,分別計(jì)算每個(gè)二元詞串的PMI值和二元詞串中第一個(gè)字的RIE值、RAV值,以及第二個(gè)字的LIE值、LAV值。每個(gè)統(tǒng)計(jì)量取不同值時(shí)所包含的二元詞串的比例如圖2所示。
詞串的獲取: 抽取發(fā)展語(yǔ)料的SRS集合中所有連續(xù)的兩個(gè)長(zhǎng)度為1的詞串組成的二元詞串,記作SetAll。
有意義的詞串: 對(duì)于SetAll中的詞串bigramToken,如果發(fā)展語(yǔ)料的GSS集合中存在該詞串bigramToken,則bigramToken為有意義的詞串。
無(wú)意義的詞串: 對(duì)于SetAll中的詞串bigramToken,如果不在發(fā)展語(yǔ)料的GSS集合中,則bigramToken為無(wú)意義的詞串。
圖2的數(shù)據(jù)表明,IE(包括LIE和RIE)和AV(包括LAV和RAV)對(duì)有意義和無(wú)意義的二字詞串的區(qū)分度不大。即,無(wú)論IE和AV的閾值定為多少,識(shí)別結(jié)果中的有意義的詞串和無(wú)意義的詞串的比例都差不多;而PMI對(duì)有意義和無(wú)意義的詞串具有明顯的區(qū)分效果,PMI值大于-4的二字詞串中,有意義的詞串的比重明顯大于無(wú)意義的詞串。因此,本文選擇PMI對(duì)候選新詞進(jìn)行識(shí)別。在第一次迭代進(jìn)行二元候選新詞識(shí)別過(guò)程中,PMI閾值設(shè)為-4,即選擇PMI值大于-4的二元詞串作為候選新詞。
現(xiàn)有的候選新詞的過(guò)濾方法一般是基于規(guī)則或詞典的方法,例如,詞性規(guī)則和停用詞詞典。這些方法的過(guò)濾效果較為明顯,但通用性較差。本文先利用詞向量構(gòu)建弱成詞詞串集合,然后再利用該集合對(duì)候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個(gè)方面進(jìn)行過(guò)濾。由于詞向量可以根據(jù)不同的目標(biāo)語(yǔ)料訓(xùn)練得到,因此,該方法不局限于特定的語(yǔ)料,通用性較好。
本文所選的弱成詞詞串的功能與停用詞的功能類(lèi)似(即與其他詞串合并成為詞語(yǔ)的能力較差),但弱成詞詞串不同于停用詞,二者主要有兩點(diǎn)不同: 第一,停用詞中包含詞長(zhǎng)大于1的詞語(yǔ),而我們構(gòu)建的弱成詞詞串只包含長(zhǎng)度為1的字符;第二,停用詞不包含位置信息,而弱成詞詞串包含位置信息。
構(gòu)建弱成詞詞串集合時(shí),我們選擇成詞能力較差的高頻單字詞及標(biāo)點(diǎn)作為種子集合。該種子集合共包含11個(gè)字符: {“我”,“是”,“的”,“了”,“在”,“。”,“,”,“、”,“;”,“!”,“?”}。然后利用詞向量計(jì)算當(dāng)前詞與種子集合中詞的相似度,以此為依據(jù)擴(kuò)展種子集合,經(jīng)過(guò)T次迭代進(jìn)而得到弱成詞詞串集合,本文實(shí)驗(yàn)中,T=3。詞與集合的相似度計(jì)算公式如式(5)所示。利用詞向量和種子集合構(gòu)建弱成詞詞串集合的算法如算法1所示。
(5)
算法1:弱成詞詞串集合的構(gòu)建算法輸入:詞向量字典WEDictionary、種子集合SeedSet、預(yù)分詞語(yǔ)料segCorpus輸出:弱成詞詞串集合L1.foriterator=1toTdoL2. tokenSim=[] //用于存放詞和集合的相似度L3. fortokeninsegCorpusdoL4. iftoken的長(zhǎng)度等于1thenL5. 獲取包含該token的詞向量L6. forwordinSeedSetdoL7. 獲取word的詞向量L8. endforL9. 根據(jù)式(5)計(jì)算token和SeedSet的相似度,將結(jié)果保存到tokenSim中L10 endifL11. endforL12. 將tokenSim中的token按照其相似度值從大到小排序,取TopM的token加入SeedSet中L13.endfor
構(gòu)建好弱成詞詞串集合后,從候選新詞的內(nèi)部構(gòu)成和外部環(huán)境兩個(gè)方面對(duì)候選新詞進(jìn)行過(guò)濾。從候選新詞的內(nèi)部構(gòu)成上對(duì)其進(jìn)行過(guò)濾時(shí),利用弱成詞詞串集合判斷構(gòu)成候選新詞的詞碎片的成詞能力,如果構(gòu)成候選新詞的任一詞碎片的成詞能力較弱,則該候選新詞會(huì)被過(guò)濾掉;從候選新詞的外部環(huán)境上對(duì)其進(jìn)行過(guò)濾時(shí),如果該候選新詞的前鄰接詞或后鄰接詞中包含成詞能力較弱的詞串,說(shuō)明該候選新詞的外部環(huán)境較為穩(wěn)定,則該候選新詞不會(huì)被過(guò)濾掉,反之,該候選新詞會(huì)被過(guò)濾掉。具體如算法2所示。
算法2:候選新詞過(guò)濾算法輸入:詞向量詞典WEDictionary、弱成詞詞串集合AntiWordSet、候選新詞NWCandidateSet、預(yù)分詞語(yǔ)料segCorpus輸出:過(guò)濾后的候選新詞FilteredNW//從候選新詞的內(nèi)部構(gòu)成上對(duì)其進(jìn)行過(guò)濾:L1. forcandidate=wiwi+1inNWCandidateSetdoL2. 計(jì)算AS1=AvgSim(wi,AntiWordSetM)和AS2=AvgSim(wi+1,AntiWordSetM)L3. ifAS1大于閾值SIMorAS2大于閾值SIMthen將candidate過(guò)濾掉L4. endfor//從候選新詞的外部環(huán)境上對(duì)其進(jìn)行過(guò)濾:L5. forcandidate=wiwi+1inNWCandidateSetdoL6. 獲取candidate在segCorpus中的上下文contextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cL7. 將所有contextStr加入到candidate的上下文集合contextStrSet中L8. environmentFlag=0L9. forcontextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cincontextStrSetdoL10. 計(jì)算prefixContext=AvgSim(wj,AntiWordSetM),i-c≤j≤i-1L11. 計(jì)算suffixContext=AvgSim(wj,AntiWordSetM),i+2≤j≤i+1+cL12. ifprefixContext大于閾值SIMorsuffixContext大于閾值SIMthenenvironmentFlag=1L13. endforL14. ifenvironmentFlag==0then過(guò)濾該候選新詞candidateL15.endfor
表1 弱成詞詞串示例
在構(gòu)建弱成詞詞串集合的過(guò)程中,本文經(jīng)過(guò)T=3次迭代,經(jīng)過(guò)多次實(shí)驗(yàn),當(dāng)弱成詞詞串集合包含170個(gè)詞串時(shí),實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu)。最終,獲得的弱成詞詞串集合包括120個(gè)標(biāo)點(diǎn)和50個(gè)字符。表1是弱成詞詞串集合中包含的部分標(biāo)點(diǎn)和字符。表中的標(biāo)點(diǎn)和字符后面的B、M、E、S表示該字符的位置。
未標(biāo)注語(yǔ)料: 為了獲得盡可能豐富的詞串信息,我們收集了2011~2015年近35萬(wàn)條未標(biāo)注的微博語(yǔ)料,預(yù)分詞后,用于訓(xùn)練詞向量以及計(jì)算詞串的IE、AV、PMI等信息。
測(cè)試語(yǔ)料: 使用NLPCC2015年的面向微博語(yǔ)料的中文分詞評(píng)測(cè)任務(wù)的訓(xùn)練語(yǔ)料作為本實(shí)驗(yàn)的測(cè)試語(yǔ)料,語(yǔ)料規(guī)模為一萬(wàn)條微博[6]。
發(fā)展語(yǔ)料: 為了在完全不參考測(cè)試語(yǔ)料的情況下對(duì)本文的方法進(jìn)行調(diào)參,我們根據(jù)《北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范》[21]人工標(biāo)注了一萬(wàn)條微博作為發(fā)展語(yǔ)料。為了確保人工標(biāo)注的一致性,我們隨機(jī)選取500條微博讓兩名標(biāo)注人員(標(biāo)注人員A和標(biāo)注人員B)對(duì)其進(jìn)行標(biāo)注,然后對(duì)比兩人的標(biāo)注結(jié)果,針對(duì)不一致的標(biāo)注結(jié)果進(jìn)行討論和修改,直到標(biāo)注的一致性達(dá)到一定的Kappa值[23]。因Kappa值考量了標(biāo)注人員隨機(jī)標(biāo)注的可能性,故它比一般的百分比計(jì)算方法更具有說(shuō)服性,其計(jì)算如式(6)所示。
標(biāo)注人員的標(biāo)注任務(wù)是在預(yù)分詞的基礎(chǔ)上進(jìn)行的,假設(shè)預(yù)分詞結(jié)果為:W1W2...Wi...Wn,標(biāo)注人員是在原有詞串的間隔處進(jìn)行操作。如果選擇將Wi與Wi+1合并,標(biāo)注者在Wi與Wi+1之間的標(biāo)記為yes(記為下標(biāo)y),反之,如果不合并,則此處的標(biāo)記為no(記為下標(biāo)n)。根據(jù)兩名標(biāo)注人員的標(biāo)記結(jié)果,最后計(jì)算得到的kappa值為93.55%,這說(shuō)明標(biāo)注結(jié)果已經(jīng)達(dá)到了較高的一致性,因此,標(biāo)注人員標(biāo)注的發(fā)展語(yǔ)料是可靠的。
其中,P(A)表示兩名標(biāo)注人員實(shí)際標(biāo)注一致的概率;P(e)表示兩名標(biāo)注人員隨機(jī)標(biāo)注一致的概率;C(AyBy)表示兩名標(biāo)注人員在對(duì)應(yīng)相同的地方都選擇合并的操作數(shù);C(AnBn)表示兩名標(biāo)注人員在對(duì)應(yīng)相同的地方都選擇不合并的操作數(shù),因預(yù)分詞結(jié)果中很多地方都不需要合并,且我們更關(guān)注兩名標(biāo)注人員同時(shí)選擇合并的情況。因此,在計(jì)算Kappa時(shí),兩名標(biāo)注人員都未修改的地方不予考慮,即C(AnBn)=0;Count表示被任意一名標(biāo)注人員修改過(guò)的地方的總數(shù);P(Ay)表示標(biāo)注人員A標(biāo)注成yes的概率,即標(biāo)注人員A標(biāo)成yes的操作數(shù)除以標(biāo)注人員A總的操作數(shù),式(8)中的其他P(*)表示的意思類(lèi)似于P(Ay)。
5.2.1 新詞識(shí)別結(jié)果
實(shí)驗(yàn)過(guò)程中,我們首先識(shí)別由兩個(gè)單字詞碎片組成的詞串,然后進(jìn)行二次迭代,獲得三元新詞。為了檢驗(yàn)本文的方法,我們進(jìn)行了如下對(duì)比實(shí)驗(yàn),二元新詞的識(shí)別結(jié)果如表2所示。
表2 二元新詞識(shí)別結(jié)果
Baseline: 利用PMI識(shí)別預(yù)分詞語(yǔ)料中的二元新詞,其中PMI的閾值設(shè)定為-4;
Baseline+WE: 采用Baseline的方法獲得候選新詞,使用基于詞向量WE構(gòu)建的弱成詞詞串集合對(duì)候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過(guò)濾;
Baseline+CE: 采用Baseline的方法獲得候選新詞,使用基于字向量CE構(gòu)建的弱成詞詞串集合對(duì)候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過(guò)濾;
Baseline+LCE: 采用Baseline的方法獲得候選新詞,使用基于含有位置信息的字向量LCE構(gòu)建的弱成詞詞串集合對(duì)候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過(guò)濾;
ExperimentX+External: 表示在實(shí)驗(yàn)ExperimentX的基礎(chǔ)上,從外部環(huán)境方面對(duì)候選新詞進(jìn)一步進(jìn)行過(guò)濾,其中上下文窗口c的取值為1的實(shí)驗(yàn)效果最佳;
OverlapVariety: 為了將本文提出的方法和現(xiàn)有優(yōu)秀的方法進(jìn)行對(duì)比,我們重現(xiàn)了文獻(xiàn)[14]提出的OverlapVariety方法。
數(shù)據(jù)顯示,單純從內(nèi)部構(gòu)成方面對(duì)候選新詞過(guò)濾的實(shí)驗(yàn)中,LCE的過(guò)濾效果最為明顯,比基線系統(tǒng)的F值提高了3.28%,比Overlap Variety方法提高了1.43%;從外部環(huán)境對(duì)候選新詞過(guò)濾后,F(xiàn)值得到進(jìn)一步提高,最佳結(jié)果比基線系統(tǒng)提高了6.75%。實(shí)驗(yàn)表明,本文利用含有位置信息的字向量構(gòu)建的弱成詞詞串集合能有效過(guò)濾二元候選新詞中的噪音詞串。
根據(jù)二元新詞的識(shí)別結(jié)果,將預(yù)分詞語(yǔ)料中的二元新詞進(jìn)行合并,然后進(jìn)行二次迭代,進(jìn)一步識(shí)別語(yǔ)料中的三元新詞。二次迭代過(guò)程中,獲取三元候選新詞時(shí),同樣采用PMI方法。利用發(fā)展語(yǔ)料調(diào)整PMI閾值時(shí),PMI閾值對(duì)新詞識(shí)別結(jié)果的影響如圖3所示。
由圖3可見(jiàn),二次迭代的PMI閾值為2時(shí),發(fā)展語(yǔ)料中新詞識(shí)別結(jié)果的F值達(dá)到峰值。因此,本文二次迭代時(shí)設(shè)定PMI閾值為2。最終發(fā)展語(yǔ)料中二元新詞和三元新詞的識(shí)別結(jié)果如表3的第一行數(shù)據(jù)所示;測(cè)試語(yǔ)料的識(shí)別結(jié)果如表3的第二行數(shù)據(jù)所示。
實(shí)驗(yàn)結(jié)果表明,測(cè)試語(yǔ)料和發(fā)展語(yǔ)料的識(shí)別結(jié)果比較接近,說(shuō)明本文提出的方法能夠有效識(shí)別二元和三元新詞,并對(duì)候選新詞中的噪音進(jìn)行有效過(guò)濾;同時(shí),該結(jié)果也進(jìn)一步證明了我們標(biāo)注的發(fā)展語(yǔ)料的可信度。
表3 二元新詞和三元新詞的識(shí)別結(jié)果
此外,我們通過(guò)改變未標(biāo)注語(yǔ)料的大小,比較了語(yǔ)料規(guī)模對(duì)新詞識(shí)別結(jié)果的影響,實(shí)驗(yàn)結(jié)果如圖4所示。實(shí)驗(yàn)表明語(yǔ)料規(guī)模從1萬(wàn)條微博(只包含發(fā)展語(yǔ)料)到35萬(wàn)條微博逐漸擴(kuò)大時(shí),召回率逐漸降低,精確率和F值不斷提高。當(dāng)語(yǔ)料規(guī)模達(dá)到15萬(wàn)條微博后,實(shí)驗(yàn)結(jié)果趨于平穩(wěn)。
5.2.2 新詞識(shí)別結(jié)果分析
我們最終識(shí)別到的新詞包括醫(yī)學(xué)、科技、金融、生物、影視娛樂(lè)等多種領(lǐng)域的術(shù)語(yǔ);還有人名、地名、品牌名等命名實(shí)體;此外,還有包括字母、數(shù)字與漢字組合成的新詞,以及包含錯(cuò)字的新詞。表4是我們識(shí)別到的新詞的舉例。
圖4 語(yǔ)料規(guī)模對(duì)新詞識(shí)別結(jié)果的影響
表4 新詞示例
雖然本文提出的方法能夠識(shí)別很多領(lǐng)域的新詞,但該方法仍存在缺點(diǎn)。該方法對(duì)四字詞的識(shí)別效果不佳,例如我們識(shí)別出的新詞中還包括“心如止”(正確為: 心如止水)、“語(yǔ)道破”(正確為: 一語(yǔ)道破);此外,新詞識(shí)別結(jié)果中除了上述識(shí)別不完整的四字詞外,還有類(lèi)似于“負(fù)全責(zé)”、“請(qǐng)接力”、“取決于”、“隱藏著”等包含多余成分的錯(cuò)誤詞語(yǔ)。因此,要獲得更加高質(zhì)量的新詞,還需要很多工作和努力。
本文是面向中文社交媒體語(yǔ)料的新詞識(shí)別研究。這一研究任務(wù)的難點(diǎn)在于,社交媒體語(yǔ)料中沒(méi)有成熟的訓(xùn)練語(yǔ)料,無(wú)法通過(guò)有監(jiān)督的方法訓(xùn)練得到可靠的新詞識(shí)別模型。因此,本文采用基于PMI和多種策略的詞向量的無(wú)監(jiān)督方法進(jìn)行新詞識(shí)別和過(guò)濾。實(shí)驗(yàn)結(jié)果表明,本文利用詞向量構(gòu)建的弱成詞詞串集合對(duì)候選新詞進(jìn)行了有效過(guò)濾,新詞識(shí)別效果明顯優(yōu)于基線系統(tǒng)和現(xiàn)有的最佳的無(wú)監(jiān)督新詞識(shí)別方法之一Overlap Variety方法。此外,為了分析傳統(tǒng)統(tǒng)計(jì)量PMI、AV、IE等方法的識(shí)別效果,本文根據(jù)《北大分詞語(yǔ)料標(biāo)注規(guī)則》標(biāo)注了面向社交媒體語(yǔ)料的分詞語(yǔ)料,作為實(shí)驗(yàn)的發(fā)展語(yǔ)料,發(fā)展語(yǔ)料的實(shí)驗(yàn)結(jié)果與最終測(cè)試語(yǔ)料的實(shí)驗(yàn)結(jié)果較為接近,證明本文標(biāo)注的發(fā)展語(yǔ)料具有較高的可靠性。
盡管本文所提出方法的識(shí)別結(jié)果得到了明顯提高,但最終的F值還沒(méi)有達(dá)到60%,因此還存在很大的提升空間。下一步,我們將在此基礎(chǔ)上,進(jìn)一步提高新詞識(shí)別的精確度,利用自學(xué)習(xí)方法逐漸擴(kuò)大面向社交媒體的成熟語(yǔ)料,為有監(jiān)督方法提供可靠的訓(xùn)練語(yǔ)料。
[1] Nguyen T H, Shirai K. Topic modeling based sentiment analysis on social media for stock market prediction[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 1354-1364.
[2] Liu X, Zhou M, Wei F, et al. Joint inference of named entity recognition and normalization for tweets[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. 2012: 526-535.
[3] Peng N, Dredze M. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings[C]//Proceedings of the 2015 Conference on EMNLP of the Association for Computational Linguistics. Lisbon, Portugal, 2015: 548-554.
[4] Li C, Liu Y. Improving Named Entity Recognition in Tweets via Detecting Non-Standard Words[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 929-938.
[5] Dong G, Li R, Yang W, et al. Microblog burst keywords detection based on social trust and dynamics model[J]. Chinese Journal of Electronics, 2014, 23(4): 695-700.
[6] Qiu X, Qian P, Yin L, et al. Overview of the NLPCC 2015 Shared Task: Chinese Word Segmentation and POS Tagging for Micro-blog Texts[M].Natural Language Processing and Chinese Computing. Springer International Publishing, 2015: 541-549.
[7] Liu Y, Zhang Y, Che W, et al. Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations[C]//Proceedings of EMNLP. 2014: 864-874.
[8] Degen H, Deqin T. Context information and fragments based cross-domain word segmentation[J]. China Communications, 2012, 9(3): 49-57.
[9] Li Z, Sun M. Punctuation as implicit annotations for Chinese word segmentation[J]. Computational Linguistics, 2009, 35(4): 505-512.
[10] Tseng H, Chang P, Andrew G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]//Proceedings of the 4th SIGHAN workshop on Chinese language Processing. 2005: 168-171.
[11] Eisenstein J. What to do about bad language on the internet[C]//Proceedings of HLT-NAACL. 2013: 359-369.
[12] Sproat R, Emerson T. The first international Chinese word segmentation bakeoff[C]//Proceedings of the 2nd SIGHAN workshop on Chinese language processing. Association for Computational Linguistics, 2003: 133-143.
[13] 霍帥, 張敏, 劉奕群, 等. 基于微博內(nèi)容的新詞發(fā)現(xiàn)方法[J]. 模式識(shí)別與人工智能, 2014, 27(2): 141-145.
[14] Ye Y, Wu Q, Li Y, et al. Unknown Chinese word extraction based on variety of overlapping strings[J]. Information Processing & Management, 2013, 49(2): 497-512.
[15] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Cognitive modeling, 1988, 5(3): 1.
[16] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th NIPS. 2013: 3111-3119.
[17] Huang E H, Socher R, Manning C D, et al. Improving word representations via global context and multiple word prototypes[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. Association for Computational Linguistics, 2012: 873-882.
[18] Chen X, Xu L, Liu Z, et al. Joint learning of character and word embeddings[C]//Proceedings of IJCAI. 2015: 1236-1242.
[19] Chen K J, Ma W Y. Unknown word extraction for Chinese documents[C]//Proceedings of the 19th international conference on Computational linguistics. Association for Computational Linguistics, 2002: 1-7.
[20] 鄒綱, 劉洋, 劉群, 等. 面向 Internet 的中文新詞語(yǔ)檢測(cè)[J]. 中文信息學(xué)報(bào), 2004, 18(6): 2-10.
[21] 俞士汶, 段慧明, 朱學(xué)鋒, 等. 北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范[J]. 中文信息學(xué)報(bào), 2002, 16(5): 51-66.
[22] Feng H, Chen K, Deng X, et al. Accessor variety criteria for Chinese word extraction[J]. Computational Linguistics, 2004, 30(1): 75-93.
[23] Carletta J. Assessing agreement on classification tasks: the kappa statistic[J]. Computational linguistics, 1996, 22(2): 249-254.