中文變體詞的識(shí)別與規(guī)范化綜述

2016-02-23 05:36:38沙灜,梁棋,王斌

信息安全學(xué)報(bào) 2016年3期

關(guān)鍵詞：變體規(guī)范化語義

沙灜, 梁棋, 王斌

中國科學(xué)院信息工程研究所第二研究室北京中國 100093

中文變體詞的識(shí)別與規(guī)范化綜述

沙灜, 梁棋, 王斌

中國科學(xué)院信息工程研究所第二研究室北京中國 100093

網(wǎng)絡(luò)書寫具有隨意性、非正規(guī)性等特點(diǎn)。變體詞就是網(wǎng)絡(luò)語言作為一種不規(guī)范語言的顯著特色, 人們往往出于避免審查、表達(dá)情感、諷刺、娛樂等需求將相對嚴(yán)肅、規(guī)范、敏感的詞用相對不規(guī)范、不敏感的詞來代替, 用來代替原來詞的新詞就叫做變體詞(Morph)。變體詞和其對應(yīng)的原來的詞(目標(biāo)實(shí)體詞)會(huì)分別在非規(guī)范文本和規(guī)范文本中共存, 甚至變體詞會(huì)滲透到規(guī)范文本中。變體詞使行文更加生動(dòng)活潑, 相關(guān)事件、消息也傳播得更加廣泛。但是因?yàn)樽凅w詞通常是某種隱喻, 已不再是其表面字詞的意義了, 從而使網(wǎng)絡(luò)上文體與正式文本(如新聞等)具有巨大的差異。由此如何識(shí)別出這些變體詞及其所對應(yīng)的目標(biāo)實(shí)體詞對于下游的自然語言處理技術(shù)具有重要的意義。本文首先介紹了變體詞的定義和特征, 變體詞的生成規(guī)律, 總結(jié)了當(dāng)前變體詞的識(shí)別和規(guī)范化的主要技術(shù)進(jìn)展和成果, 最后是此領(lǐng)域發(fā)展方向的展望。

社交網(wǎng)絡(luò); 變體詞識(shí)別; 變體詞規(guī)范化; 深度學(xué)習(xí); 神經(jīng)網(wǎng)絡(luò); 表示學(xué)習(xí)

1 引言

作為網(wǎng)絡(luò)信息安全的重要組成部分, 網(wǎng)絡(luò)內(nèi)容安全一直受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。特別是近年來, 針對威脅網(wǎng)絡(luò)內(nèi)容安全的行為研究越來越多, 已經(jīng)成為內(nèi)容安全新的研究熱點(diǎn)。社交網(wǎng)絡(luò)平臺(tái)已經(jīng)成為產(chǎn)生網(wǎng)絡(luò)安全事件的重要源頭, 大量的不良敏感信息通過社交網(wǎng)絡(luò)平臺(tái)進(jìn)行傳播并進(jìn)一步引起特定事件的爆發(fā), 為了躲避相關(guān)的審查和過濾,變形詞成為利用自然語言處理技術(shù)來傳播秘密消息的一種重要而有效的手段(變體詞就是將關(guān)鍵的不良敏感信息用另外不敏感的詞來代替, 但是不影響理解)。因此研究變體詞的識(shí)別和規(guī)范化對于網(wǎng)絡(luò)內(nèi)容安全是十分重要的。

目前自然語言處理技術(shù)較多關(guān)注正式的文本。但是隨著互聯(lián)網(wǎng)特別是社交網(wǎng)絡(luò)的發(fā)展, 社交網(wǎng)絡(luò)平臺(tái)已經(jīng)成為人們獲得信息、發(fā)表觀點(diǎn)看法、傳播意見輿論的重要平臺(tái)。根據(jù)社交網(wǎng)絡(luò)的特點(diǎn), 人們傾向于在社交網(wǎng)絡(luò)上使用新式的、自創(chuàng)的語言、術(shù)語和習(xí)慣。這種網(wǎng)絡(luò)語言及其使用習(xí)慣都對自然語言處理技術(shù)帶來了沖擊。

采用變體詞是網(wǎng)絡(luò)語言作為一種不規(guī)范語言的顯著特色, 人們往往出于躲避審查、情感、娛樂等需求將相對嚴(yán)肅、規(guī)范的詞用相對不規(guī)范、不敏感的詞來代替。用來代替原來詞的新詞就叫做變體詞(Morph)。變體詞和其對應(yīng)的目標(biāo)實(shí)體詞(原來的詞)會(huì)分別在非規(guī)范文本和規(guī)范文本中共存, 甚至變體詞滲透到規(guī)范文本中。

變體詞可以看作是一種特殊的有意隱藏背后的真實(shí)實(shí)體的假名[1,2]。變體詞通常被認(rèn)為是“社會(huì)媒體用戶為了某種目的需要隱藏真實(shí)的實(shí)體或事件,代替這些實(shí)體或事件所采用的化名或假名等”[3]。采用變體詞的目的包括: 采用委婉的說法以避免當(dāng)事人的過激反應(yīng); 表達(dá)對相關(guān)人或事的強(qiáng)烈的正面或負(fù)面情感; 表達(dá)諷刺或幽默; 使行文更加簡練; 達(dá)到娛樂的效果讓實(shí)體或事件描述得更加鮮明有趣, 讓文本傳播更廣。也有惡意用戶發(fā)布不良敏感信息的時(shí)候,為了避免被過濾會(huì)對不良敏感詞匯進(jìn)行變形處理。Zhang[4]分析了隨機(jī)選取的548個(gè)變體詞, 其中不良敏感信息的占6.56%, 表達(dá)強(qiáng)烈情感的占15.77%, 使描述更加幽默或生動(dòng)活潑的占25.91%,上述3者都有的占25.32%, 其他的占23.44%。

變體詞可以是一個(gè)具有新意思的常規(guī)詞、現(xiàn)有詞的重新排列組合或者完全是一個(gè)新造的詞。例如,現(xiàn)在各大BBS、博客等討論歷史的版塊, 經(jīng)?？梢钥吹接谩俺P申①常凱申, 為蔣介石之錯(cuò)譯名。出自清華大學(xué)歷史系副主任王奇所著《中俄國界東段學(xué)術(shù)史研究: 中國、俄國、西方學(xué)者視野中的中俄國界東段問題》一書中, 對Chiang Kai-shek(即蔣的韋氏拼音寫法及介石的粵語拼音)的翻譯?！眮泶妗笆Y介石”。目前變體詞在社交媒體中獲得了廣泛的使用, Chen 等人[3]分析新浪微博的數(shù)據(jù)發(fā)現(xiàn), 提取的37個(gè)主題中有11個(gè)主題的推文中含有變體詞, 甚至有的主題含有5個(gè)變體詞。

實(shí)際上可以將變體詞看作一種反語言(anti- language)。反語言是由著名語言學(xué)家M.A.Halliday提出,是指與主流語言相背離的, 具有自身特有表達(dá)內(nèi)涵的語言形式[5]。反語言具有如下的特征[5]:

1) 反語言是一種全新的構(gòu)詞語言, 在構(gòu)建的過程中對詞語進(jìn)行重新編碼, 重新編碼的方式很多,最直接的就是用新出現(xiàn)的詞匯代替之前的詞匯。反語言的語言規(guī)范是一種比喻性表達(dá), 非直譯表達(dá),不能根據(jù)表達(dá)的表面意思進(jìn)行理解, 有一詞多義的現(xiàn)象。

2) 反語言與主流語言的語法大體一致。

3) 反語言中的某些詞匯, 雖然與主流語言中的詞匯一致, 但是其表達(dá)的內(nèi)容與主流語言表達(dá)的內(nèi)容很可能差異非常大。

4) 反語言就像一種密碼, 只有其圈子內(nèi)的人員才能了解明白反語言表達(dá)的內(nèi)容內(nèi)涵, 而外部人員一般是不會(huì)明白的。

由上述的內(nèi)容可知, 變體詞完全符合上述反語言的特征。因此可以借鑒反語言的研究成果加深對變體詞的理解。

變體詞通常進(jìn)行了某種隱喻, 已不再是其表面字詞的意義了, 因此變體詞的存在使得現(xiàn)有的自然語言處理工具直接應(yīng)用于社交媒體文本時(shí)效果不甚理想, 比如詞性標(biāo)注、依存分析、分詞、命名實(shí)體識(shí)別等, 而很多基于關(guān)鍵詞的算法和應(yīng)用也經(jīng)常達(dá)不到預(yù)期效果, 比如情感分析、事件發(fā)現(xiàn)等。因此, 研究變體詞的識(shí)別和規(guī)范化對于深度自然語言理解任務(wù)是十分關(guān)鍵和重要的。

變體詞的識(shí)別主要是指在文本中發(fā)現(xiàn)哪些是變體詞, 變體詞的規(guī)范化是指找出變體詞所對應(yīng)的被替換的目標(biāo)實(shí)體詞。

變體詞的識(shí)別和規(guī)范化可用于自動(dòng)化理解快速演化的社交媒體語言, 幫助人們理解新出現(xiàn)的詞匯,有利于信息提取、語義的深層理解等方面。為下游的自然語言處理任務(wù)提供強(qiáng)有力的支撐, 如命名實(shí)體識(shí)別、分詞、消歧、隱喻識(shí)別、實(shí)體關(guān)聯(lián)等。

此文是對當(dāng)前變體詞的識(shí)別和規(guī)范化研究進(jìn)展的綜述。主要包括: 變體詞識(shí)別和規(guī)范化的形式化定義; 基于變體詞的特點(diǎn), 綜合分析了變體詞的生成規(guī)律以及變體詞識(shí)別和規(guī)范化的主要難點(diǎn); 當(dāng)前主要研究成果及其代表性工作; 最后是變體詞識(shí)別和規(guī)范化技術(shù)發(fā)展趨勢的展望。

本文的結(jié)構(gòu)如下:第2節(jié)為變體詞識(shí)別和規(guī)范化的形式化定義; 第3節(jié)詳述了變體詞的特點(diǎn)和生成規(guī)律; 第4節(jié)為變體詞的識(shí)別和規(guī)范化技術(shù); 第5節(jié)是變體詞識(shí)別和規(guī)范化的發(fā)展趨勢; 最后是總結(jié)。

2 變體詞的識(shí)別和規(guī)范化的形式化定義

變體詞的識(shí)別和規(guī)范化指發(fā)現(xiàn)變體詞的提及(morph mention)和變體詞的解析(找到變體詞所對應(yīng)的目標(biāo)實(shí)體詞)。

這里需要注意如果一個(gè)提及的表面形式是與im相同的, 但是如果其指向其原來的含義, 那么就不認(rèn)為是變體詞的提及。例如, 如果“小馬哥”通過上下文獲知其指向是電影《英雄本色》里周潤發(fā)飾演的角色, 則不是一個(gè)變體詞的提及; 但如果指向的是臺(tái)灣地區(qū)領(lǐng)導(dǎo)人馬英九, 則認(rèn)為是一個(gè)變體詞的提及。

3 變體詞特征分析及生成規(guī)律

為了實(shí)現(xiàn)對變體詞的識(shí)別和規(guī)范化, 首先需要分析變體詞的特點(diǎn), 其次分析目前人工產(chǎn)生的變體詞都符合哪些生成規(guī)律。

3.1 變體詞的特點(diǎn)

總的來說, 變體詞具有下面的特點(diǎn)。

1) 社交網(wǎng)絡(luò)平臺(tái)對變體詞的產(chǎn)生和發(fā)展起著至關(guān)重要的推動(dòng)作用。眾多流行的變體詞都是通過社交網(wǎng)絡(luò)自媒體產(chǎn)生并廣泛傳播的。

2) 絕大多數(shù)變體詞可以看作是基于深層語義和背景知識(shí)的編碼,而不是簡單的字典式替換,因此變體詞更接近于行話、黑話、術(shù)語等。

3) 變體詞與目標(biāo)實(shí)體詞之間映射關(guān)系不是全射關(guān)系, 多個(gè)變體詞可以對應(yīng)一個(gè)目標(biāo)實(shí)體詞, 一個(gè)目標(biāo)實(shí)體詞也可以對應(yīng)多個(gè)變體詞。

4) 變體詞隨著時(shí)間的推移會(huì)迅速演化, 根據(jù)新的新聞熱點(diǎn)、特殊事件不斷地產(chǎn)生新的變體詞。有些變體詞會(huì)逐步消亡, 而有些則可能進(jìn)入規(guī)范文本。

3.2 變體詞的生成規(guī)律

要實(shí)現(xiàn)對變體詞的高效識(shí)別和規(guī)范化, 首先要了解變體詞是如何生成的。

首先, 早期的變體詞多采用同音異形異義詞,這也是生成變體詞的一個(gè)重要手段。Li等人[6]注意到同音異形異義詞在中文中是十分普遍的, 中文字?jǐn)?shù)雖然很多, 但是語音是有限的。據(jù)統(tǒng)計(jì)中文中80%的單語音字是有歧義的, 而且其中有一半對應(yīng)5個(gè)甚至更多的字。

其次, 充分利用中文的特點(diǎn)生成變體詞。Chen等人[7]發(fā)現(xiàn)中國互聯(lián)網(wǎng)用戶喜歡利用中文文字的拆分組合、翻譯、昵稱等手段來創(chuàng)建變體詞。

當(dāng)前變體詞的生成方法逐步豐富, 主要利用深層語義信息、背景知識(shí)、特定事件等綜合生成變體詞。Zhang等人[4]基于548個(gè)隨機(jī)選擇的變體詞, 從社會(huì)認(rèn)知角度分析了人工產(chǎn)生的變體詞的生成方法,總結(jié)了人們創(chuàng)建變體詞的意圖和8個(gè)主要的生成方法。

現(xiàn)將目前分析發(fā)現(xiàn)的變體詞生成方法總結(jié)如表1 [4,6-8]。

4 變體詞的識(shí)別和規(guī)范化

4.1 變體詞的識(shí)別和規(guī)范化的挑戰(zhàn)

變體詞的識(shí)別和規(guī)范化不同于傳統(tǒng)的命名實(shí)體識(shí)別等技術(shù), 有自身的難點(diǎn):

1) 含有變體詞的文檔往往不規(guī)范,如社交網(wǎng)絡(luò)上推文、BBS上的帖子等。而且含有變體詞的文本通常為短文本, 含有大量的噪聲, 往往缺乏足夠的上下文。

2) 面向海量的社交網(wǎng)絡(luò)媒體數(shù)據(jù), 變體詞的比例并不大, 因此需要實(shí)現(xiàn)面對大規(guī)模語料的變體詞快速識(shí)別技術(shù)。當(dāng)前缺乏大量的標(biāo)注數(shù)據(jù), 此還需要關(guān)注可以減少標(biāo)注代價(jià)的識(shí)別技術(shù)。

3) 由變體詞的生成方式和目的所決定其含義通常都是暗示性質(zhì)的, 因此也導(dǎo)致了變體詞通常含有歧義。

4) 變體詞與上下文環(huán)境缺乏其字面所感知意義的關(guān)聯(lián)。在傳統(tǒng)語言中“現(xiàn)代漢語動(dòng)詞的語義特征之間存在著內(nèi)在的意義關(guān)聯(lián)”[9]。但是由變體詞產(chǎn)生的語境所決定的, 在網(wǎng)絡(luò)語言中含有變體詞的很多動(dòng)詞詞組已經(jīng)與其字面所感知的意義毫無相容之處。

5) 當(dāng)前大量的變體詞是根據(jù)人物映射、歷史背景知識(shí)、特定事件等激發(fā)而產(chǎn)生的。(即表1中第7、8、9種生成方式)。單純基于詞匯上的特征是很難捕捉到的這3種方式所生成的變體詞, 需要利用深層語義信息和上下文。

6) 變體詞及其目標(biāo)實(shí)體詞通常具有不同的傳播渠道和周期, 目標(biāo)實(shí)體詞多出現(xiàn)在規(guī)范文本且相對比較穩(wěn)定, 而變體詞多出現(xiàn)在非規(guī)范文本, 且隨著時(shí)間迅速演化。

4.2 變體詞的識(shí)別和規(guī)范化技術(shù)

目前變體詞的識(shí)別與規(guī)范化的相關(guān)研究可以分成兩個(gè)部分:

? 變體詞的識(shí)別與規(guī)范化: 識(shí)別出相關(guān)文檔中的變體詞, 并且找到對應(yīng)的目標(biāo)實(shí)體詞。

? 變體詞的自動(dòng)生成: 分析變體詞的生成規(guī)律,由計(jì)算機(jī)自動(dòng)生成變體詞, 與人工生成變體詞進(jìn)行比較, 分析其自動(dòng)生成的可行性。

表1 變體詞生成規(guī)律總結(jié)

① http://en.wikipedia.org/wiki/Pinyin#Initials_and_finals可以查到容易混淆的拼音組合。

② 出自旅居上海的日本作家村松梢風(fēng)的小說《魔都》。

③ 以前臺(tái)灣寫到“總統(tǒng)”、“總裁”、“蔣總統(tǒng)”或“蔣中正”時(shí), 都必須使用挪抬(在人名及稱謂的前面空一格)以示尊敬。后來中國大陸部分網(wǎng)民在提到蔣的姓名、別名、別號(hào)以及綽號(hào)時(shí), 也會(huì)“空一格”(如“千古完人空一格”)以示調(diào)侃。

④ 源于2013年5月媒體曝光張藝謀嚴(yán)重超生, 當(dāng)時(shí)傳言其育有七個(gè)孩子, 因而被網(wǎng)友謔稱“葫蘆爹”。

⑤ 羅永浩曾在新浪微博承諾, 如果錘子Smartisan T1手機(jī)價(jià)格低于2500, 就是孫子。發(fā)售不久該手機(jī)價(jià)格即降到1980元, 網(wǎng)民遂稱之“公孫”, 意為“公共的孫子”。

⑥ 一名網(wǎng)絡(luò)寫手, 被稱作“帶魚”是因?yàn)樵谝黄恼轮新暦Q浙江舟山有養(yǎng)殖帶魚, 后經(jīng)調(diào)查發(fā)現(xiàn)目前尚無人工養(yǎng)殖帶魚技術(shù)。

下面分別介紹當(dāng)前的主要進(jìn)展和代表性成果。

4.2.1 變體詞的識(shí)別與規(guī)范化

通用的變體詞識(shí)別與規(guī)范化的架構(gòu)如圖1所示,包括如下步驟:

1) 變體詞的識(shí)別: 候選變體詞的發(fā)現(xiàn), 候選變體詞的驗(yàn)證。

2) 變體詞的規(guī)范化: 變體詞的候選目標(biāo)實(shí)體詞的發(fā)現(xiàn), 變體詞的候選目標(biāo)實(shí)體詞的打分排序, 輸出最優(yōu)的目標(biāo)實(shí)體詞。

圖1 通用的變體詞識(shí)別與規(guī)范化的架構(gòu)圖

明確的變體詞概念出現(xiàn)在[3][10]以及同時(shí)期相關(guān)的論文中, 但是變體詞的相關(guān)技術(shù)一直在不良文本過濾、社交媒體文本規(guī)范化等領(lǐng)域有所體現(xiàn)。

綜合上述研究成果, 下面主要從變體詞的識(shí)別與規(guī)范化的技術(shù)角度來進(jìn)行闡述。

變體詞的識(shí)別與規(guī)范化基本上就是從3.2節(jié)介紹的變體詞的生成規(guī)律入手, 由易到難。

? 早期主要是基于規(guī)則處理一些簡單的相似的字符、數(shù)字之間轉(zhuǎn)換的情況。

? 后續(xù)逐步注意到中文漢字的特點(diǎn): 如同音異形異義字、縮寫、語音的替換, 拆字組字等。

? 然后從中文英文的對比分析入手, 增加了翻譯、音譯等識(shí)別手段。

? 目前逐步增加了基于語義表示的分析和比較,特別是隨著深度學(xué)習(xí)的興起, 研究人員開始利用神經(jīng)網(wǎng)絡(luò)獲得變體詞及其目標(biāo)實(shí)體詞的語義特征, 然后通過比較詞向量的相似度來實(shí)現(xiàn)變體詞的識(shí)別和規(guī)范化。

但是針對人物映射、特定事件、特定歷史背景知識(shí)生產(chǎn)的變體詞的識(shí)別和規(guī)范化目前還缺乏有效的技術(shù)手段。今后的方向應(yīng)該更進(jìn)一步深入到語義理解層面, 只有從深層語義層面把握變體詞及其目標(biāo)實(shí)體詞之間的差異性和相似性, 才能進(jìn)一步提高識(shí)別的準(zhǔn)確度, 提高針對人物映射、特定事件、特定歷史背景知識(shí)生產(chǎn)的變體詞的識(shí)別和規(guī)范化的能力。

1) 基于規(guī)則的識(shí)別和規(guī)范化方法

最早與變體詞相關(guān)的研究主要有網(wǎng)絡(luò)不良文本的過濾技術(shù)[11,12], 前期主要使用精確匹配、分類器等方法。但是發(fā)現(xiàn)變體詞的出現(xiàn)會(huì)嚴(yán)重影響到過濾的準(zhǔn)確度。因此逐步引入了對變體詞的處理, 具體包括:首先通過觀察變體詞總結(jié)變體詞的變體規(guī)則, 進(jìn)一步提取變體詞的bigram、詞干等特征基于分類的方法實(shí)現(xiàn)對變體詞的識(shí)別, 或者根據(jù)漢語的語音特點(diǎn)建立語音映射模型, 基于語音的相似性度量實(shí)現(xiàn)對變體詞的識(shí)別。

Yoon[13]總結(jié)發(fā)現(xiàn)某些變體詞實(shí)際上是將某些字母轉(zhuǎn)化成形狀相似的特殊字符, 如“shit”轉(zhuǎn)換成“sh!t”。陳儒等人[14]提出了針對中文網(wǎng)絡(luò)的5種變體詞變異規(guī)則: 1)對關(guān)鍵詞進(jìn)行同音字替換或拼音替換; 2)對關(guān)鍵詞進(jìn)行拆分; 3)在關(guān)鍵詞中插入無意義的非漢字符合; 4)關(guān)鍵詞的組合; 5)上述4種方法的組合。李鈍等人[15]根據(jù)ASCII碼, 繁體BIG碼, 簡體中文GB2312碼等不同編碼的固定編碼規(guī)則, 建立變體詞變體規(guī)則識(shí)別出信息中夾雜的漢字拼音、簡繁體混排、特殊符號(hào)等。

Sood[16]在對不良文本及其變體信息進(jìn)行檢測的時(shí)候, 采用機(jī)器學(xué)習(xí)的方法, 通過采用bigram、詞干等作為特征值來對文本信息做分類分析, 以檢測出變體詞。李少卿[17]針對拉丁語或英語, 從語音相似和字形相似等角度來計(jì)算不良文本變體的相似度, 基于相似度來對不良文本變體進(jìn)行檢測。

Xia[18]和Wong[19]考慮中文聊天室等環(huán)境下動(dòng)態(tài)非規(guī)范語言的規(guī)范化問題, 以標(biāo)準(zhǔn)漢語語料庫為基礎(chǔ)建立了漢字的語音映射模型, 對信源/信道模型進(jìn)行擴(kuò)展(eXtended Source Channel Model, XSCM),然后基于漢字語音之間的相似度進(jìn)行替換, 但需要手工確定相似度的權(quán)重。

2) 基于統(tǒng)計(jì)和規(guī)則的識(shí)別和規(guī)范化方法

主要是將統(tǒng)計(jì)的方法與規(guī)則的方法相結(jié)合, 分別提取統(tǒng)計(jì)特征和基于規(guī)則的特征, 建立變體詞與目標(biāo)實(shí)體詞之間的映射關(guān)系, 然后通過分類的方法基于上下文相似性和字面相似性實(shí)現(xiàn)對變體詞的規(guī)范化。

Wang[20]從規(guī)范化角度通過語音建立了漢字-漢字之間的映射關(guān)系, 通過縮寫建立了漢字-詞的映射關(guān)系, 通過意譯建立了字-詞, 詞-詞的映射關(guān)系。Choudhury[21]針對SMS文本, 提出了一種基于隱馬爾可夫模型的文本規(guī)范化方法, 通過構(gòu)造常用縮寫和非規(guī)范用法的詞典, 可以部分解決一對多的問題。Cook[22]通過引入無監(jiān)督的噪聲信道模型對Choudhury提出的模型進(jìn)行了擴(kuò)展, 模型對常用縮寫形式和各種不同拼寫錯(cuò)誤類型進(jìn)行了概率建模。

還有通過構(gòu)建規(guī)范化詞典用于文本規(guī)范化任務(wù)。例如, Han[23]首先訓(xùn)練分類器用于識(shí)別非規(guī)范詞候選, 然后使用詞音相似度得到規(guī)范化候選, 最后利用字面相似度和上下文特征找出最佳的規(guī)范化候選。Han[24]又提出基于上下文相似性和字面相似性構(gòu)建規(guī)范化詞典進(jìn)行推特文本的規(guī)范化, 使用詞袋模型表示上下文分布, 然后兩兩之間計(jì)算上下文分布相似度。

Li[25]提出了一個(gè)基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)的對數(shù)線性模型從互聯(lián)網(wǎng)語料中對規(guī)范與非規(guī)范中文短語的關(guān)系進(jìn)行挖掘和建模, 主要針對同音異形異義詞、縮略語、首字母縮寫詞、音譯等。他們注意到一個(gè)現(xiàn)象, 有時(shí)可以在非規(guī)范短語附近發(fā)現(xiàn)對應(yīng)的規(guī)范短語。Li[25]主要是通過搜索引擎來發(fā)現(xiàn)非規(guī)范詞－規(guī)范詞對。此方法對于定義良好和高頻的詞效果比較好, 但是嚴(yán)重依賴于搜索引擎返回的結(jié)果。

3) 基于語義表示的識(shí)別和規(guī)范化方法

現(xiàn)有從語義角度入手變體詞的識(shí)別與規(guī)范化的主要是基于分布假設(shè)和語義組合假設(shè)。1954 年, Harris 提出分布假說(distributional hypothesis),即“上下文相似的詞,其語義也相似”[26]。德國數(shù)學(xué)家弗雷格(GottlobFrege)在 1892 年提出:一段話的語義由其各組成部分的語義以及它們之間的組合方法所確定[27]。為了得到句子和文檔級(jí)別的語義表示,一般可以采用語義組合的方式。

基于分布假設(shè), 給定一個(gè)變體詞, 如果另一個(gè)詞與之上下文相似, 則可以初步推斷這個(gè)詞很可能就是變體詞的目標(biāo)實(shí)體詞。而上下文語義的獲取則可以基于語義組合的方式。

因此基于語義表示的方法主要是根據(jù)一定時(shí)間窗口內(nèi)變體詞和目標(biāo)實(shí)體詞是相關(guān); 根據(jù)社交媒體的動(dòng)態(tài)特性提取變體詞和目標(biāo)實(shí)體詞的時(shí)空分布;對多個(gè)數(shù)據(jù)源數(shù)據(jù)進(jìn)行對比分析; 對用戶的行為建模,用社交行為的相關(guān)性來輔助語義相似性測量。

Huang等人[11]研究在給定變體詞的情況下, 挖掘跨數(shù)據(jù)源可比較語料的時(shí)空限制, 找到對應(yīng)的目標(biāo)實(shí)體詞。其基本框架如圖2所示[11]。給定一個(gè)變體詞查詢,獲取多數(shù)據(jù)源的數(shù)據(jù), 進(jìn)行對比分析,基于語義標(biāo)注找到候選目標(biāo)詞集, 然后根據(jù):字面特征(surface features)、語義特征(semantic features)、社交特征(social features)等對候選目標(biāo)詞集進(jìn)行打分,最終獲得目標(biāo)實(shí)體詞。

圖2 變體詞的識(shí)別與解析流程圖[11]

其中社會(huì)特征主要是對用戶的行為建模, 用社交行為的相關(guān)性來輔助語義相似性測量。因?yàn)橛^察發(fā)現(xiàn)變體詞和對應(yīng)目標(biāo)實(shí)體詞的用戶往往具有相似興趣和觀點(diǎn)意見。

其不足主要在于: 此方法是在給定變體詞的情況下, 并且使用了大量的標(biāo)注數(shù)據(jù)。此方法做到了語料級(jí)別, 但是不是提及級(jí)別。此方法嚴(yán)重依賴于變體詞的多個(gè)實(shí)例的聚合上下文和時(shí)空信息。

Zhang等人[28]提出了一個(gè)端到端的無監(jiān)督的方法,基于深度學(xué)習(xí)實(shí)現(xiàn)對變體詞及其目標(biāo)實(shí)體詞的映射關(guān)系的發(fā)現(xiàn)。文章基本上按照圖1的步驟進(jìn)行: 1)基于4類特征(基本特征、特征字典、語音、語言模型)的分類問題來發(fā)現(xiàn)潛在的變體詞; 2)采用半監(jiān)督學(xué)習(xí)方法利用小規(guī)模已標(biāo)注數(shù)據(jù)集對大規(guī)模未標(biāo)注數(shù)據(jù)集的變體詞提及進(jìn)行驗(yàn)證; 3)在發(fā)現(xiàn)目標(biāo)實(shí)體詞階段提出了2個(gè)算法: 基于多數(shù)據(jù)源的監(jiān)督學(xué)習(xí)和連續(xù)詞袋模型。

基于多數(shù)據(jù)源的監(jiān)督學(xué)習(xí)如圖3所示。但是效果不好, 因?yàn)榻⒃~向量的時(shí)候主要是采用wikipedia的數(shù)據(jù)進(jìn)行訓(xùn)練, 但是wikipedia和含有變體詞的社交媒體文本有很大的不同。第2個(gè)算法采用連續(xù)詞袋模型(如圖4所示)訓(xùn)練推文, 獲得變體詞和實(shí)體詞的語義表示, 比較兩者的相似度。

圖3 多數(shù)據(jù)源的監(jiān)督學(xué)習(xí)

圖4 連續(xù)詞袋模型

其端到端的變體詞的識(shí)別與規(guī)范化的性能與Huang[10]方法的比較如表2所示, 這也是目前比較好的結(jié)果, 從中可以看出對社會(huì)媒體的變體詞識(shí)別與規(guī)范化還有很大的提升空間。

表2 端到端變體詞的識(shí)別與規(guī)范化的性能比較

4) 與其他應(yīng)用的結(jié)合

因?yàn)樽凅w詞的識(shí)別與規(guī)范化與下游的自然語言處理任務(wù)實(shí)際上是相互影響相互作用的, 例如分詞。因此可以將變體詞任務(wù)與下游的任務(wù)結(jié)合起來, 形成一個(gè)閉環(huán)相互反饋相互提高。

Wang[29]將中文微博變體詞的發(fā)現(xiàn)與中文分詞結(jié)合起來。這兩個(gè)本身就是相互依賴的, Wang提出了2層FCRF(階乘條件隨機(jī)場)模型。在將兩者結(jié)合起來后,兩者的性能都有所提高。而且此文也注意到此方法發(fā)生錯(cuò)誤的地方, 包括: 觀察到的非規(guī)范詞不完整的時(shí)候; 特別短的句子(非規(guī)范的詞本身就構(gòu)成了一個(gè)句子, 與上下文的句子語用是相關(guān)的, 但是詞匯上的相關(guān)性很弱); 隨心所欲創(chuàng)造的新的命名實(shí)體。

還有采用基于圖的方法。Hassan[30]提出了一種基于二部圖隨機(jī)游走的方法, 該方法首先通過隨機(jī)游走得到全局優(yōu)化的基于上下文相似性的規(guī)范化候選列表, 然后利用非規(guī)范詞與規(guī)范詞之間的字面相似度, 對規(guī)范化候選列表進(jìn)行排序。S?nmez[31]提出了一種綜合使用字面特征、上下文特征和語法特征的社交媒體規(guī)范化方法, 其中上下文特征和語法特征是從構(gòu)建好的詞關(guān)聯(lián)圖中得到。

綜上所述, 目前基于語義的變體詞的識(shí)別和規(guī)范化的基本思路如下:

1) 基于變體詞及其目標(biāo)實(shí)體詞的特征使用分類的方法對變體詞進(jìn)行初篩, 采用的特征包括: 字面上的特征, 語音上的特征, 語言模型, 基于生成規(guī)律總結(jié)的規(guī)則。

2) 基于變體詞及其目標(biāo)實(shí)體詞的時(shí)空分布假設(shè)進(jìn)行驗(yàn)證, 包括: 兩者時(shí)間上分布的相似性, 共現(xiàn)、共指的規(guī)律, 所屬用戶的興趣、行為相似性。

3) 基于神經(jīng)網(wǎng)絡(luò)獲得變體詞及其目標(biāo)實(shí)體詞的語義表示, 通過語義相似度比較對候選目標(biāo)實(shí)體詞進(jìn)行打分排序。

4.2.2 變體詞的自動(dòng)生成

變體詞的自動(dòng)生成即分析人工生成的變體詞,總結(jié)其生成規(guī)范, 基于規(guī)則或統(tǒng)計(jì)的方法實(shí)現(xiàn)變體詞的自動(dòng)生成, 使行文更加生動(dòng)有趣, 使相關(guān)主題、事件傳播的更加廣泛。變體詞的自動(dòng)生成與變體詞的識(shí)別實(shí)際上是相輔相成, 相互促進(jìn)的, 變體詞的自動(dòng)生成技術(shù)也會(huì)促進(jìn)其識(shí)別和規(guī)范化技術(shù)的進(jìn)步。

變體詞的自動(dòng)生成

基于3.2節(jié)介紹的變體詞的生成規(guī)則, 除了最后三條規(guī)則外, 其他的都可以由計(jì)算機(jī)自動(dòng)生成。最后三條生成規(guī)則需要增加相關(guān)的人物、特定事件、歷史和背景的知識(shí)。

首先出現(xiàn)的就是自動(dòng)生成同音異形異義的變體詞。中文是一個(gè)音調(diào)語言, 每個(gè)字的音是由根音(root sound)和它的音調(diào)決定的。有些字通過多個(gè)語音來代表不同的意思。從漢語的特征出發(fā), 詞由字組成, 由音調(diào)來決定一個(gè)字的意思, 字的意思組合構(gòu)成了詞的意義。雖然中文的書寫只有一種標(biāo)準(zhǔn), 但是存在著各種各樣的方言。雖然音調(diào)的改變會(huì)改變一個(gè)字的意思, 但是人們通常會(huì)通過上下文來判斷出一個(gè)不準(zhǔn)確的音調(diào)背后的真實(shí)的意思。

Hiruncharoenvate[32]研究針對新浪微博自動(dòng)生成非確定的同音異形異義的變體詞, 并且不影響用戶的理解。Hiruncharoenvate從新浪微博的語料中計(jì)算字的出現(xiàn)頻率, 共獲得12,166個(gè)字, 419個(gè)根音(忽略音調(diào)), 其中有3365個(gè)字含有多個(gè)根音。根據(jù)字的出現(xiàn)頻率, 計(jì)算了每個(gè)根音中各個(gè)字所占的百分比。

對應(yīng)字c及其對應(yīng)的語音r,計(jì)算r的百分比p: c對也發(fā)語音r的其他字符的相對頻率。若一個(gè)詞W由組成, 則W的同音異形異義詞Wi由每個(gè)字的同音異形異義詞組合而成通過下面的公式來計(jì)算一個(gè)同音異形異義詞的頻率分?jǐn)?shù):

為了避免選擇冷僻的詞會(huì)對包含冷僻的詞的組合進(jìn)行懲罰。為了保證每個(gè)不會(huì)選擇同一個(gè)同音異形異義詞, 會(huì)隨機(jī)從前20個(gè)中進(jìn)行選擇。

Zhang[4]根據(jù)表1變體詞生成規(guī)律中: 語音替換、漢字的拆分、昵稱、翻譯和意譯、語義解釋的定義通過計(jì)算機(jī)實(shí)現(xiàn)了變體詞的自動(dòng)生成。針對人物映射, 嘗試了基于歷史人物映射的變體詞的自動(dòng)生成:收集了38個(gè)著名的歷史人物, 包括: 政治家、國王、詩人、將軍、總理、學(xué)者等。

Zhang還提出了一種叫做特征建模的變體詞生成方式。首先收集盡可能多的語料, 然后基于上述語料使用谷歌(Google)的Word2vec計(jì)算出所有詞向量。給定一個(gè)實(shí)體詞,計(jì)算語料中的詞與這個(gè)詞的語義關(guān)系,然后根據(jù)余弦相似度、正面傾向性、負(fù)面傾向性、是否低頻等綜合指標(biāo)進(jìn)行排序, 把排序前面的詞加上原來實(shí)體詞的姓,形成一個(gè)新的變體詞。文章中的例子是: 姚明=＞姚奇才。

變體詞的評測

目前變體詞生成效果的評測主要是采用用戶問卷調(diào)查的方式[4,32], 用戶在看到含有變體詞的媒體內(nèi)容后回答問題。這些問題主要包括: 1)哪個(gè)是變體詞,指向的目標(biāo)實(shí)體詞是哪個(gè)？是否合適？2)理解內(nèi)容是否有困難？3)變體詞是否讓內(nèi)容有趣？

調(diào)查結(jié)果[4,32]顯示計(jì)算機(jī)自動(dòng)生成的變體詞可以達(dá)到66%人工生成達(dá)到的效果。而且基于翻譯與意譯的方法, 計(jì)算機(jī)產(chǎn)生的結(jié)果要優(yōu)于人工生成的,可能的原因是計(jì)算機(jī)搜索的字典空間更大。一個(gè)有趣的現(xiàn)象是評測的人只能理解76%的人工產(chǎn)生的變體詞, 可能的原因是: 1)變體詞新近產(chǎn)生的, 還不能很好地描述目標(biāo)實(shí)體詞的特征; 2)評測的人如果沒有跟蹤當(dāng)前的熱點(diǎn), 或者不具備相應(yīng)的背景知識(shí), 則很難理解此變體詞。在趣味性方面,人工產(chǎn)生的變體詞要優(yōu)于計(jì)算機(jī)自動(dòng)生成的變體詞。

Zhang[4]用Huang[10]的變體詞的識(shí)別和規(guī)范化方法來驗(yàn)證他們從新浪微博提取的人工產(chǎn)生的151個(gè)變體詞和計(jì)算機(jī)自動(dòng)生成的247變體詞。結(jié)果發(fā)現(xiàn),計(jì)算機(jī)自動(dòng)生成的變體詞更不容易被發(fā)現(xiàn), 畢竟此變體詞的識(shí)別系統(tǒng)是基于人工產(chǎn)生的變體詞進(jìn)行訓(xùn)練的, 計(jì)算機(jī)自動(dòng)生成的變體詞的某些特征還沒有被此識(shí)別系統(tǒng)所掌握。但是計(jì)算機(jī)自動(dòng)生成的變體詞的規(guī)范化準(zhǔn)確度要高于人工生成的, 可能的原因是人工生成的變體詞的含義更加隱蔽。

目前還缺乏對自動(dòng)生成的變體詞的評價(jià)標(biāo)準(zhǔn)和機(jī)制, 主要還是采用人工判斷的方式。這里的自動(dòng)化評價(jià)標(biāo)準(zhǔn)主要是指如何判斷自動(dòng)生成的變體詞是否符合網(wǎng)絡(luò)用戶使用語言的習(xí)慣, 是否達(dá)到人工生成的變體詞的水準(zhǔn), 富有生動(dòng)活潑的特性, 易于被人接受和傳播等等。

4.3 總結(jié)

綜上所述, 雖然變體詞的識(shí)別和規(guī)范化技術(shù)獲得了長足的進(jìn)步, 但是還有很多空白的領(lǐng)域有待研究。

1) 識(shí)別和規(guī)范化的準(zhǔn)確度還有待提高, 目前最好的結(jié)果: F1值為38.3;

2) 目前還缺乏對人物映射、特定事件、歷史和背景知識(shí)(即第7,8,9種變體詞生成規(guī)則)產(chǎn)生的變體詞的有效的識(shí)別和規(guī)范化手段;

3) 缺乏對變體詞的演化規(guī)律的研究; 變體詞也是在不斷地發(fā)展變化, 同一個(gè)目標(biāo)實(shí)體詞在不同的時(shí)期會(huì)有不同的變體詞, 其中有無規(guī)律可循, 這些變體詞的共同點(diǎn)和差異點(diǎn)。研究變體詞的演化規(guī)律也就是研究網(wǎng)絡(luò)語言的演化規(guī)律。

4) 變體詞的自動(dòng)生成及其相應(yīng)的評價(jià)標(biāo)準(zhǔn)和手段方面還缺乏足夠的研究成果。

5 變體詞的識(shí)別和規(guī)范化的發(fā)展趨勢和展望

目前變體詞的識(shí)別與規(guī)范化需要迫切解決的問題主要有:

1) 提高變體詞識(shí)別與規(guī)范化的準(zhǔn)確度。

2) 找到基于人物映射、特定事件、歷史和背景知識(shí)產(chǎn)生的變體詞的識(shí)別與規(guī)范化方法。

3) 變體詞的演化規(guī)律及其對網(wǎng)絡(luò)語言的影響。

4) 變體詞的自動(dòng)生成技術(shù)及其評價(jià)標(biāo)準(zhǔn)。

以上4點(diǎn)實(shí)際上是相通的, 其本質(zhì)問題就是要加深對變體詞的理解。這里以往都是強(qiáng)調(diào)變體詞與目標(biāo)實(shí)體詞的相似性, 實(shí)際上需要從相似性和差異性兩個(gè)角度進(jìn)行思考。

5.1 變體詞及其目標(biāo)實(shí)體詞之間的相似性與差異性

對變體詞的生成規(guī)律的理解需要從相似性和差異性兩個(gè)方面來對變體詞及其目標(biāo)實(shí)體詞進(jìn)行對比分析。

1) 變體詞和目標(biāo)實(shí)體詞的相同之處

只有識(shí)別出了變體詞和目標(biāo)實(shí)體詞的相同之處,才可能找到變體詞所對應(yīng)的目標(biāo)實(shí)體詞。

首先變體詞的語義和目標(biāo)實(shí)體詞的語義應(yīng)該是一致的, 這也是變體詞能夠產(chǎn)生的原因。變體詞和目標(biāo)實(shí)體詞的語義相似性主要體現(xiàn)在文檔級(jí)別、句子級(jí)別和字的級(jí)別。而詞級(jí)別的應(yīng)該主要是體現(xiàn)變體詞和目標(biāo)實(shí)體詞之間的差異性。

變體詞的字面組合(surface name)與目標(biāo)實(shí)體詞應(yīng)該也具有一定相似性, 其字面組合的意義也可以用來輔助對變體詞的目標(biāo)實(shí)體詞的發(fā)現(xiàn)。因此需要基于語義表示來研究變體詞的surface name與目標(biāo)實(shí)體詞之間的共同特征以及在圖上、詞向量空間上如何展示。

2) 變體詞和目標(biāo)實(shí)體詞的不同之處

只有識(shí)別出變體詞和目標(biāo)實(shí)體詞的不同之處,我們才可能在語料中找到變體詞。

兩者之間的差異性應(yīng)該主要體現(xiàn)在語義表示上的詞的級(jí)別。這種差異性主要體現(xiàn)在語義上, 而上層文檔、句子的語義相似性可以提供發(fā)現(xiàn)這種差異性的線索, 而知識(shí)圖譜、社交媒體的關(guān)系也可以提供輔助信息, 加快這種搜索的過程。

以往只強(qiáng)調(diào)了變體詞和目標(biāo)實(shí)體詞的相似性,實(shí)際上應(yīng)該是相似性和差異性的權(quán)衡, 即“存大同,求小異”, 這樣才能體現(xiàn)變體詞和目標(biāo)實(shí)體詞之間的微妙關(guān)系。

因此在充分研究兩者相似性和差異性基礎(chǔ)上,總結(jié)出變體詞的特性和使用變體詞的規(guī)律, 然后才能提到識(shí)別的方法。因此需要對變體詞及其目標(biāo)實(shí)體詞的特征進(jìn)行分析, 分析語義表示中各節(jié)點(diǎn)之間的相似性和差異性。在獲得變體詞和目標(biāo)實(shí)體詞之間的相似性和差異性之后, 進(jìn)一步依托句子、文檔級(jí)的語義表示, 研究變體詞和目標(biāo)實(shí)體詞的使用環(huán)境的相似性和差異性。

為了能夠高效地識(shí)別變體詞, 并解析出變體詞的目標(biāo)實(shí)體詞, 首先需要對變體詞及其目標(biāo)實(shí)體詞準(zhǔn)確地給出語義上的描述, 即能體現(xiàn)兩者的差異性(這些才能判斷某提及是否是變體詞), 又能展示兩者的深層語義聯(lián)系(這樣才能解析出其目標(biāo)實(shí)體詞)。因此首先要研究能夠體現(xiàn)這種“求大同, 存小異”的合適的語義描述, 可以通過神經(jīng)網(wǎng)絡(luò)分別構(gòu)建字/詞級(jí)別、句子級(jí)別和文檔級(jí)別的語義表示來體現(xiàn)這種“大同, 小異”。

5.2 變體詞及其目標(biāo)實(shí)體詞的語義表示

基于人物映射、歷史與背景知識(shí)、特定事件下產(chǎn)生的變體詞的識(shí)別和規(guī)范化實(shí)際上與研究變體詞的演化規(guī)律是相通的。上述3種變體詞的識(shí)別和規(guī)范化需要在一個(gè)長的時(shí)間窗口內(nèi)及時(shí)捕捉到相關(guān)事件的發(fā)生、發(fā)展、消亡, 獲取到更豐富長期的背景知識(shí)和人物關(guān)系映射, 研究變體詞及其目標(biāo)實(shí)體詞的動(dòng)態(tài)演化規(guī)律也會(huì)輔助提高變體詞的識(shí)別的準(zhǔn)確度,因此需要能夠體現(xiàn)這種動(dòng)態(tài)演化的語義表示。

因此需要在表達(dá)能力強(qiáng)的語義表示基礎(chǔ)上, 充分利用多源多維度的信息, 充分利用社交媒體的關(guān)系信息, 利用相關(guān)知識(shí)圖譜的先驗(yàn)知識(shí), 以提高識(shí)別的準(zhǔn)確度。

自2006年Geoffrey Hinton等人發(fā)表了關(guān)于深度學(xué)習(xí)的文章[33], 深度學(xué)習(xí)逐漸受到了來自不同領(lǐng)域的研究者們廣泛的關(guān)注。近年來, 深度學(xué)習(xí)技術(shù)也越來越多的被應(yīng)用到自然語言處理當(dāng)中, 其中一種重要的應(yīng)用方式就是通過深度學(xué)習(xí)技術(shù)學(xué)習(xí)到一種重要的詞匯表達(dá)方式, 即詞向量[34,35](又叫word embedding或word representation), 是指用一個(gè)N維的向量來表示詞匯, 其中的每一維都是相應(yīng)詞語的隱含特征。一般來說, 詞向量包含了有用的句法、語義信息, 具有領(lǐng)域獨(dú)立性。僅使用詞級(jí)別的語義表示不足以完全地展示變體詞及其目標(biāo)實(shí)體詞的深層語義關(guān)聯(lián)。因此還需要通過模型, 得到句子和文檔級(jí)別的語義表示, 具有一定的記憶功能的神經(jīng)網(wǎng)絡(luò)如Memory Network[36]等在變體詞的識(shí)別和規(guī)范化方面應(yīng)該會(huì)有用武之地。

因此變體詞的識(shí)別和規(guī)范化的關(guān)鍵在于找到:能夠展示變體詞的動(dòng)態(tài)演化、能夠體現(xiàn)這種“求大同,存小異”的變體詞及其目標(biāo)實(shí)體詞特殊屬性的字/詞、句子(段落)、文檔不同層面的語義表示。

6 總結(jié)

變體詞的出現(xiàn)降低了自然語言處理技術(shù)面對社交媒體等非規(guī)范文本的效果, 因此變體詞的識(shí)別以及目標(biāo)實(shí)體詞的發(fā)現(xiàn)對于自然語言處理技術(shù)是十分重要的。本文是對當(dāng)前變體詞的識(shí)別和規(guī)范化技術(shù)的回顧和總結(jié), 包括變體詞的定義和特征, 變體詞的生成規(guī)律, 當(dāng)前變體詞的識(shí)別和規(guī)范化的主要技術(shù)進(jìn)展和成果, 最后指出“求大同、存小異”是變體詞及其目標(biāo)實(shí)體詞的特殊屬性, 變體詞的識(shí)別和規(guī)范化關(guān)鍵在于如何找到其準(zhǔn)確恰當(dāng)?shù)恼Z義表示。

[1] Paul Hsiung, Andrew Moore, Daniel Neill, and Jeff Schneider. Alias detection in link data sets.In Proceedings of the Interna-tional Conference on Intelligence Analysis, May.2005.

[2] Patrick Pantel. 2006. Alias detection in malicious environments.In AAAI Fall Symposium on Capturing and Using Patterns for Evidence Detection, pp. 14–20.

[3] Le Chen, Chi Zhang, and Christo Wilson. 2013. Tweeting under pressure: analyzing trending topics and evolving word choice on sina weibo.In Proceedings of the first ACM conference on Online social networks, pp. 89–100.

[4] Boliang Zhang, Hongzhao Huang, Xiaoman Pan, Heng Ji, Kevin Knight, Zhen Wen, Yizhou Sun, Jiawei Han and Bulent Yener, Be Appropriate and Funny: Automatic Entity Morph Encoding ,Proc. the 52nd Annual Meeting of the Association for Computational Linguistics (ACL), 2014.

[5] 丁建新.作為社會(huì)符號(hào)的“反語言”――“邊緣話語與社會(huì)”系列研究之一[J].外語學(xué)刊.2010(02).

[6] Li, P., and Yip, M. C. 1996. Lexical ambiguity and context effects in spoken word recognition: Evidence from Chinese.In Proceedings of the 18th Annual Conference of the Cognitive Science Society, pp.228–232.

[7] Chen, L.; Zhang, C.; and Wilson, C. 2013. Tweeting under pressure: Analyzing trending topics and evolving word choice on sina weibo.In Proc. COSN’13.

[8] 中國大陸網(wǎng)絡(luò)語言列表, https://zh.wikipedia.org/wiki/中國大陸網(wǎng)絡(luò)語言列表, 2015.12.

[9] 武文杰, 徐艷, 現(xiàn)代漢語視覺動(dòng)詞語義相容度認(rèn)知分析[J]. 河北大學(xué)學(xué)報(bào): 哲學(xué)社會(huì)科學(xué)版, 2013(6): 90-92.

[10] Hongzhao Huang, Zhen Wen, Dian Yu, Heng Ji, Yizhou Sun, Jiawei Han and He Li, Resolving Entity Morphs in Censored Data,Proc. the 51st Annual Meeting of the Association for Computational Linguistics (ACL), 2013.

[11] Dinakar K, Reichart R, Lieberman H. Modeling the detection of textual cyberbullying[C],Intemational Conference on Weblog and Social Media-Social Mobile Web Workshop. 2011: 11-16.

[12] Yin D, Xue Hong L,et al. Detection of harassment on web 2.0[J].Proceedings of the Content Analysis in the WEB, 2009, 2.

[13] Yoon T, Park S Y, Cho H G. A smart filtering system for newly coined profanities by using approximate string alignment[C]//Computer and Information Technology (CIT),2010 IEEE 10th International Conference. IEEE, 2010, 643-650.

[14] 陳儒, 張宇, 劉挺. 面向中文特定信息變異的過濾技術(shù)研究[J].高技術(shù)通訊, 2005, 15(9): 7-12.

[15] 李鈍, 曹元大, 萬月亮. 信息安全中的變形關(guān)鍵詞的識(shí)別[J].計(jì)算機(jī)工程, 2007, 33(21): 155-156, 159.

[16] Sood S 0, Antin J, Churchill E F. Using Crowdsourcing to Improve Profanity Detection[C]//AAAI Spring Symposium Series. 2012: 69-74.

[17] 李少卿, 不良文本及其變體信息的檢測過濾技術(shù)研究, 碩士學(xué)位論文,復(fù)旦大學(xué), 2014.4.

[18] Yunqing Xia, Kam-Fai Wong, and Wenjie Li. 2006. A phonetic-based approach to chinese chat text nor- malization.In Proceedings of COLING-ACL2006, pp. 993–1000.

[19] K.F. Wong and Y. Xia. 2008. Normalization of Chinese Chat Language.Language Resources and Evaluation, pp. 219–242.

[20] Aobo Wang, Min-Yen Kan, Daniel Andrade, Takashi Onishi, and Kai Ishikawa. 2013. Chinese informal word normalization: an experimental study.In Proceedings of International Joint Conference on Natu- ral Language Processing (IJCNLP2013).

[21] M Choudhury, R Saraf, V Jain, et. al. Investigation and modeling of the structure of texting language[J]. Internation Journal of Document Analysis and Recognition, 2007,10:157-174.

[22] P Cook, S Stevenson. An unsupervised model for text message normalization[C]//Proceedings of the Workshop on Computational Approaches to Linguistic Creativity, 2009:71-78.

[23] Han, T Baldwin. Lexical Normalization of Short Text Messages: Makn Sens a # Twitter[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011, 1: 368-378.

[24] B Han, P Cook, T Baldwin. Automatically constructing a normalization dictionary for microblogs[C]//Proceedings of the 2012 joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012:421-432.

[25] Zhifei Li and David Yarowsky. 2008. Mining and modeling relations between formal and informal chinese phrases from web corpora.In Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP2008), pp. 1031–1040.

[26] Zellig S Harris. Distributional structure. Word, 1954.

[27] Gottlob Frege. über sinn und bedeutung.Funktion - Begriff - Bedeutung, 1892.

[28] Boliang Zhang, Hongzhao Huang, Xiaoman Pan, Sujian Li, Chin-Yew Lin, Heng Ji, Kevin Knight, Zhen Wen, Yizhou Sun, Jiawei Han and Bulent Yener, Context-aware Entity Morph Decoding,the 53rd Annual Meeting of the Association for Computational Linguistics (ACL), 2015.

[29] Aobo Wang and Min-Yen Kan. 2013. Mining informal language from chinese microtext: Joint word recog-nition and segmentation.In Proceedings of the Association for Computational Linguistics (ACL2013).

[30] H Hassan, A Menezes. Social Text Normalization Using Contextual Graph Random Walks[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, 2013: 1577-1586.

[31] C S?nmez, A Ozgür. A Graph-based Approach for contextual Text Normalization[C]//Porceedings of Conference on Empirical Methods in Natural Language Processing(EMNLP).2014:313-324.

[32] Hiruncharoenvate, C., Lin, Z. & Gilbert, E. (2015). Algorithmically Bypassing Censorship on Sina Weibo with Nondeterministic Homophone Substitutions..In M. Cha, C. Mascolo & C. Sandvig (eds.), ICWSM(p./pp. 150-158), :AAAI Press. ISBN: 978-1-57735-733-9.

[33] Geoffrey E Hinton and Ruslan R Salakhutdinov. Reducing the dimensionality of data with neural networks.Science, 313(5786): 504–507, 2006.

[34] T Mikolov, I Sutskever, K Chen, et al. Distributed representations of words and phrases and their compositionality [J].Advances in Neural Information Processing Systems. 2013, 3: 3111-3119.

[35] Q Le, T Mikolov. Distributed Representations of Sentences and Documents[C]//Proceedings of the 31st Internation Conference on Machine Learning(ICML-14).2014:1188-1196.

[36] J. Weston, S. Chopra, and A. Bordes. Memory networks. In International Conference on Learning Representations (ICLR), 2015.

沙灜于2002年在中國科學(xué)院計(jì)算技術(shù)研究所計(jì)算機(jī)軟件與理論專業(yè)獲得博士學(xué)位?，F(xiàn)任中國科學(xué)院信息工程研究所副研究員。研究領(lǐng)域?yàn)樽匀徽Z言處理。研究興趣包括: 社會(huì)計(jì)算、網(wǎng)絡(luò)輿情等。Emai il: shaying@iie.ac.cn梁棋于2014年在電子科技大學(xué)信息安全專業(yè)獲得碩士學(xué)位?，F(xiàn)任中國科學(xué)院信息工程研究所研究實(shí)習(xí)員。研究領(lǐng)域?yàn)樾畔z索、輿情計(jì)算。研究興趣包括: 社交網(wǎng)絡(luò)數(shù)據(jù)采集與分析。Email: liangqi@iie. ac.cn

Chinese Morphs Identification and Normalization

SHA Ying, LIANG Qi, WANG Bin

China Institute of information engineering, CAS, Beijing 100093, China

Internet language is a casual informal language. Entity morph is an important feature of Internet Language. In some situation, Internet users are keen on creating kinds of morphs, special kinds of fake alternative names to achieve some goals, express strong sentiment or humor, and avoid censorship. Entity morphs and their target entities respectively appear on informal and formal text. And in some situation, entity morphs even appear on formal text. Although using entity morphs has some advantages, but morphs are big barriers for natural language processing (NLP). So it is very important to research on morph identification and normalization. First, we will introduce the definition of morphs and the features of morphs; second, we will show the rules of generating morphs; third, the current progress of morph identification and normalization will be demonstrated. Finally, it is the prospect of this field.

social network; morph identification; morph normalization; deep learning; neural network; representation learning

TP309.2 DOI號(hào) 10.19363/j.cnki.cn10-1380/tn.2016.03.006

沙灜, 博士, 副研究員, Email: shaying@iie.ac.cn。

本課題得到國家科技支撐計(jì)劃(編號(hào): 2012BAH46B03), 中國科學(xué)院戰(zhàn)略先導(dǎo)專項(xiàng)(編號(hào): XDA06030200)資助。

2016-04-01; 修改日期: 2016-06-16; 定稿日期: 2016-07-06