施振輝,沙 灜,梁 棋,李 銳,邱泳欽,王 斌
(中國科學院 信息工程研究所,北京 100093)(中國科學院大學,北京 100049)
基于字詞聯(lián)合的變體詞規(guī)范化研究①
施振輝,沙 灜,梁 棋,李 銳,邱泳欽,王 斌
(中國科學院 信息工程研究所,北京 100093)(中國科學院大學,北京 100049)
社交網(wǎng)絡中的文本具有隨意性和非正規(guī)性等特點,一種常見現(xiàn)象是社交網(wǎng)絡文本中存在大量變體詞.人們往往為了避免審查、表達情感等將原來的詞用變體詞替代,原來的詞成為目標詞.本文研究變體詞的規(guī)范化任務,即找到變體詞所對應的初始目標詞.本文利用變體詞所在文本的時間和語義,結合變體詞詞性,提出了一種時間和語義結合的方法獲取候選目標詞,然后提出基于字詞聯(lián)合的詞向量方法對候選目標詞排序.我們的方法不需要額外的標注數(shù)據(jù),實驗結果表明,相比于當前最好的方法在準確性上具有一定的提升,針對與目標詞存在相同的字的變體詞其性能更好.
變體詞; 變體詞規(guī)范化; 社交網(wǎng)絡; 詞向量; 字詞聯(lián)合訓練
變體詞在社交網(wǎng)絡中普遍存在,Huang[1]和Zhang[3]首先提出了明確的變體詞定義并對其進行了相關的研究.本文主要研究變體詞的規(guī)范化任務,即結合語料的上下文或者背景知識找到變體詞所指代的目標詞.例如,新浪微博“小馬哥如今已經(jīng)不是小鮮肉了,在島內(nèi)還可以閉門自賞,出門了要適應自己的角色.”,其中“小馬哥”是變體詞,變體詞規(guī)范化任務是找到“小馬哥”的目標詞“馬英九”.
研究變體詞的規(guī)范化具有現(xiàn)實的意義.在發(fā)現(xiàn)層面上,能為下游的自然語言處理任務提供支撐,可用于信息提取、語義的深層理解,能幫助計算機自動化理解快速演化的社交媒體語言.在生成層面上,當我們掌握了變體詞的生成技術后,可以對文本進行自動的替換,讓文章更加有趣,傳播更廣.
我們將變體詞的規(guī)范化任務分為兩個子任務來研究:1)變體詞的候選目標詞的獲取任務; 2)變體詞的候選目標詞的排序任務.我們首先分析了變體詞與目標詞在時間、語義和多數(shù)據(jù)源上的分布等特征和關系.
對于變體詞候選目標詞的獲取,我們采用時間和語義結合的方法,在多數(shù)據(jù)源上提取候選目標詞.利用變體詞出現(xiàn)的時間和所在微博的語義分布,從多個數(shù)據(jù)源(本文以新浪微博、Twitter和Web新聞為例)中提取候選語料,然后在候選語料中提取候選目標詞.此方法使得候選目標詞集合的規(guī)模和覆蓋率達到了比較好的平衡.
對于變體詞候選目標詞的排序,我們采用基于神經(jīng)網(wǎng)絡的字詞聯(lián)合訓練詞向量的方法,通過對變體詞和候選目標詞進行相似度計算得到候選目標詞得分,對候選目標詞進行排序.此方法的優(yōu)勢在于結合了變體詞和目標詞的上下文語義和字層面上的相似性.
實驗結果表明,我們的方法是有效的,比現(xiàn)有的最好的方法表現(xiàn)出一定的優(yōu)勢,特別是在與目標詞具有相同字的那些變體詞上表現(xiàn)非常好,準確率達到了85%.
本文的主要貢獻:
① 提出了一種時間和語義相結合的多數(shù)據(jù)源候選目標詞獲取方法;
② 提出了一種字詞聯(lián)合訓練的候選目標詞排序方法.
本文的結構安排如下:第2節(jié)介紹了變體詞規(guī)范化的相關工作,第3節(jié)介紹了變體詞規(guī)范化問題的定義,第4節(jié)對變體詞和目標詞的特征與關系進行了分析,并詳細介紹了候選目標詞獲取方法和候選目標詞排序方法,第5節(jié)是實驗驗證部分,最后是結論.
變體詞相關的概念和技術一直在不良文本過濾、社交媒體文本規(guī)范化等領域有所體現(xiàn).沙[4]的綜述中總結介紹了變體詞規(guī)范化的一般方法.其中包括:基于規(guī)則的方法,如 Wong[5],Xia[6],陳儒[7],Sood[8],Yoon[9]等人的工作.基于統(tǒng)計和規(guī)則的方法,如Wang[10,11],Choudhury[12],Han[13,14],Li[15]等人的工作.然而,上述的所有方法都不能很好的處理變體詞規(guī)范化這一任務.因為有些變體詞是非常抽象的,比如:變體詞“函數(shù)”的目標詞是“楊冪”,這是因為楊冪的名字中“冪”的意思是函數(shù)的冪.而有些變體詞比較具體,如變體詞“薛巒子”的目標詞是“薛蠻子”,這是因為“巒”和“蠻”在字形上非常相似.對于那些根據(jù)目標詞深層語義變形的變體詞,我們很難用規(guī)則和統(tǒng)計處理變體詞規(guī)范化任務.
明確的變體詞概念最早出現(xiàn)在Huang[1]和Zhang[2]等人的論文中.Huang[1]等人最先研究了變體詞規(guī)范化任務,在論文中他提取了變體詞和目標詞的三類特征,包括表面特征、語義特征和社交特征,然后利用標注數(shù)據(jù)訓練二分類模型,通過學習排序的方法對候選目標詞進行排序.他們的方法需要人工提取大量的特征,并且需要大量的標注數(shù)據(jù)用于模型訓練.而在Zhang[2]等人的文章中,他們提出了一種端到端的變體詞解碼方法,其中變體詞的規(guī)范化任務是通過在大量語料中訓練出詞語的詞向量,然后計算變體詞和候選目標詞之間的相似度來進行候選目標詞的排序.他們的方法只考慮了詞語的上下文,忽略了變體詞和目標詞在字層面上的聯(lián)系.
我們在變體詞規(guī)范化任務上首先利用了字詞聯(lián)合[16,17]的詞向量的方法,綜合考慮詞語上下文和詞語中的字.我們的方法是利用神經(jīng)網(wǎng)絡訓練出字詞聯(lián)合的詞向量,訓練出變體詞和目標詞的相似度,進而對變體詞做規(guī)范化.
變體詞規(guī)范化任務是根據(jù)給定輸入的包含變體詞的文本,找到其中變體詞的目標詞.
如圖1所示,變體詞規(guī)范化任務的輸入是一條微博,包含變體詞“小馬哥”,任務輸出是變體詞的候選目標詞集合,候選目標詞按照與變體詞相關性從大到小排序.
圖1 變體詞規(guī)范化例子
變體詞規(guī)范化任務是基于一個假設:給定輸入中我們已經(jīng)知道了其中哪個詞或者哪些詞是變體詞.這一過程叫做變體詞的識別,變體詞的識別不是本文的研究內(nèi)容,本文主要集中于在已知一個詞為變體詞的情況下,發(fā)現(xiàn)此變體詞所對應的目標詞.變體詞規(guī)范化任務的輸入是一條或者多條帶有同一個變體詞的微博,輸出是變體詞的候選目標詞集合,按相關性大小先后排序.圖2是我們方法的一個總體流程圖,它由兩個子任務組成.
圖2 變體詞規(guī)范化流程圖
① 候選目標詞的獲取:對于每一個變體詞m,找到一個候選詞集合首先,根據(jù)給定的含變體詞的微博,我們提取出變體詞出現(xiàn)的時間,根據(jù)這個時間分布,我們篩選出用于提取候選目標詞的語料D1.其次,我們將輸入的微博看作一篇篇的文檔,通過計算多源語料D1中的文檔與輸入文檔之間的話題相似度,在D1中抽取出與輸入微博比較相關的語料作為語料D2.然后在語料D2上我們利用中文分詞、詞性標注、名詞檢測等工具,選出候選目標詞集合
② 候選目標詞的排序:對候選的目標詞集合E進行排序.根據(jù)變體詞和目標詞在詞和字層面上的相似性,利用神經(jīng)網(wǎng)絡訓練出字詞聯(lián)合的詞向量來計算變體詞和候選目標詞的相似度,進而對集合E進行排序.
4.1.1 時間關系
我們隨機選取了100個變體詞與目標詞對,在時間上對變體詞和目標詞進行了分析.如圖3,變體詞“咆哮教主”和目標詞“馬景濤”在新浪微博中會在同一天共現(xiàn).由此我們推斷變體詞和目標詞在時間上具有高度一致性.
圖3 變體詞和目標詞在新浪微博的時間分布
4.1.2 話題關系
無論什么原因形成的變體詞,它們的最終目的都是為了替換目標詞.如圖4,兩條微博談論的都是“美國、中國、外交”等話題,其中人民日報稱呼美國總統(tǒng)為“奧巴馬”,而今日華爾街稱呼其為“奧觀海同志”,就是用“奧觀海同志”這個變體詞替換了目標詞“奧巴馬”.由此我們推斷變體詞和目標詞在話題上具有相似性和相關性.
4.1.3 變體詞與目標詞在多數(shù)據(jù)源上的分布
變體詞一般是在不規(guī)范的文本中出現(xiàn),如新浪微博,因為用戶在發(fā)表微博時有很高的自由度.而目標詞通常在正規(guī)的文本中出現(xiàn),如新聞,因為新聞一般用于正式的場合,需要表述的清晰明確.由此,變體詞和目標詞在不同的數(shù)據(jù)源中分布不同.
如表1所示,變體詞“呆丸”在新浪微博中大量存在,而在Web新聞中因為不規(guī)范而不出現(xiàn); 另外一些目標詞因為敏感、審查等原因,如目標詞“陳光誠”等,在新浪微博中極少出現(xiàn)甚至不出現(xiàn).
圖4 變體詞和目標詞在話題上的分布
表1 變體詞和目標詞在不同數(shù)據(jù)源中分布
為了解決上述難點,我們考慮了以下3個方面:1)變體詞和目標詞在時間上具有高度一致性; 2)變體詞和目標詞所在的文本在話題上具有相似性和相關性;3)有些變體詞和目標詞在不同的數(shù)據(jù)源中分布不同.
如圖5,首先,我們根據(jù)給定的含變體詞的微博,我們提取出變體詞出現(xiàn)的時間,根據(jù)這個時間分布,我們篩選出用于提取候選目標詞的語料D1.其次,我們將輸入的微博看作一篇篇的文檔,通過計算多源語料D1中的文檔與輸入文檔之間的話題相似度,在D1中抽取出與輸入微博比較相關的語料作為語料D2.然后在語料D2上我們利用中文分詞、詞性標注、名詞檢測等工具,選出候選目標詞集合E.
如圖6,我們通過字詞聯(lián)合方法訓練詞向量的時候,不僅考慮了文本中詞語的上下文,還考慮了組成詞語的字.最后通過訓練到的詞向量,我們對變體詞和候選目標詞進行相似度計算,以此來對候選目標詞進行排序.
圖5 候選目標詞獲取框架
圖6 字詞聯(lián)合訓練詞向量方法
如圖7和圖8,在詞向量的訓練過程中,CBOW方法只考慮了詞語的上下文,字詞聯(lián)合方法在CBOW方法上進行了改進,使用詞本身的向量以及組成這個詞的各個字向量的平均值表示這個詞的語義.
圖7 CBOW 方法神經(jīng)網(wǎng)絡結構圖
圖8 字詞聯(lián)合神經(jīng)網(wǎng)絡結構
主要使用了2個數(shù)據(jù)集:第一個數(shù)據(jù)集來自于Huang[1]的論文,其中包括:1546988 條 2012 年 5 月1日到6月1日的新浪微博數(shù)據(jù)消息,收集了25003條同樣時間段的Twitter中文數(shù)據(jù)推文,以及66559篇新聞文檔,它們來自于新浪微博和 twitter中的鏈接,.其中標注了450對變體詞和目標詞.第二個數(shù)據(jù)集是我們另外根據(jù)標注好的變體詞和目標詞,我們通過關鍵詞搜索,在Twitter中爬取了337113條2015年1月1日到6月1日的中文數(shù)據(jù)推文,用于驗證我們方法的有效性.另外,我們在已有的450個標注數(shù)據(jù)上新增了225個標注數(shù)據(jù),來源于中國大陸網(wǎng)絡語言列表[18].
我們認為,當候選目標詞集合E中包含變體詞m的目標詞時,候選目標詞的獲取是正確的.我們選取了557對變體詞和目標詞,在新浪微博、Twitter和Web新聞中通過我們的候選目標詞獲取方法進行了實驗,分析了獲取候選目標詞的正確率和時間的關系.
如圖9,根據(jù)覆蓋率時間曲線,在新浪微博中我們設置的時間窗口為1天,在Twitter中設置為3天,在Web新聞中設置為1天,結合這三種數(shù)據(jù)源,此時候選目標詞集合的規(guī)模和正確率能達到一個較好的平衡.另外我們發(fā)現(xiàn),只利用新浪微博和Twitter語料候選目標詞集合的正確率就達到一個比較好的效果.
圖9 候選目標詞時間覆蓋率曲線
本文采用設置時間窗口減少候選目標詞的規(guī)模,相比于未設置時間窗口,候選目標詞的規(guī)模降低了近20倍.如圖10所示,未設置時間窗口時平均每個變體詞的候選目標詞規(guī)模平均為121590個,而按上述設置時間窗口時平均每個變體詞的候選目標詞的規(guī)模為6131 個.另外,我們從圖9 中能得出結論,變體詞的候選目標詞的覆蓋率達到了95%,說明在設置時間窗口的情況下,候選目標詞的損失量仍然很小.
圖10 候選目標詞規(guī)模與時間窗口的關系
在Huang[1]提供的數(shù)據(jù)上,我們通過字詞聯(lián)合方法訓練詞向量,計算變體詞和候選目標詞之間的余弦相似度來對候選目標詞進行排序.其中訓練詞向量時我們設置的窗口大小為5,詞向量維度為300,訓練迭代次數(shù)為15次.
為了評價我們的方法,我們采用了和Huang[1]相同的評價指標,即其中指的是返回的前k個候選目標詞中變體詞正確規(guī)范化的個數(shù),Q指的是輸入的查詢的變體詞總數(shù).我們認為當返回的前k個候選目標詞中包含了變體詞的真實目標詞,那么此時變體詞規(guī)范化是正確的.
如圖11 所示,曲線 Huang 13 和 Zhang 15 分別是Huang[1]和 Zhang[2]的方法,cwe_all是在 675 對變體詞和目標詞上的規(guī)范化準確率,cwe_part是在327對與目標詞存在相同的字的變體詞上的規(guī)范化準確率.我們可以得出結論,在與目標詞有相同字的那類變體詞的規(guī)范化任務上,本方法要優(yōu)于當前最好的方法.當k>9的時候,我們的方法在數(shù)據(jù)集上要優(yōu)于當前最好的方法,當k<9時,我們的方法表現(xiàn)不如當前最好的方法,可能的原因字詞聯(lián)合訓練詞向量時字向量的權重偏大.
圖11 變體詞規(guī)范化準確率
另外為了說明語料對規(guī)范化任務的影響,我們在自己爬取的數(shù)據(jù)集和維基百科數(shù)據(jù)集上進行了實驗,其中一些參數(shù)設置同上述實驗.如圖12所示,在維基百科數(shù)據(jù)上訓練出的詞向量在變體詞規(guī)范化這樣任務上無法得到較好的結果,而在Twitter數(shù)據(jù)集上達到一個較好的效果.這是因為維基百科數(shù)據(jù)集中的文本是規(guī)范文本,絕大多數(shù)變體詞不在其中,導致與候選目標詞的相似度計算不準確.而Twitter數(shù)據(jù)集是我們通過關鍵詞采集的,包含變體詞和目標詞及其上下文,因而能得到較好的效果.
另外我們發(fā)現(xiàn)一個有趣的現(xiàn)象,如圖1所示,變體詞“小馬哥”的目標詞是“馬英九”,通過我們的方法輸出的排序的候選目標詞集合中,“馬英九”的另一個變體詞“馬娘娘”排名同樣靠前.由此我們推斷,同一目標詞的不同變體詞在語義上是相似的.故此我們可以借助變體詞識別方法來發(fā)現(xiàn)不同變體詞,并且通過多個變體詞對應目標詞來進一步提升我們規(guī)范化任務的準確率.具體的做法是,我們先在語料上將需要規(guī)范化的變體詞都識別出來,即先進行變體詞的識別操作,然后在語料上通過字詞聯(lián)合方法訓練出詞向量.接下來需要在本文的方法上進行以下兩個方面的修改:1)在變體詞m的候選目標詞獲取中,我們不僅需要獲取候選目標詞E,還需要獲取這一變體詞的目標詞的其他可能變體詞 m’.2)在變體詞的候選目標詞排序中,我們通過計算變體詞詞向量和候選目標詞之間的相似度對候選目標詞進行排序,找到目標詞的其他可能變體詞m’.接下來通過本文的變體詞規(guī)范化方法,獲取變體詞m’的候選目標詞集合E’,按可能性大小排序.最后對E和E’做交集得出最后的變體詞m的候選目標詞集合.
圖12 不同數(shù)據(jù)源的變體詞規(guī)范化準確率
如圖13,分別是設置了時間窗口和未設置時間窗口的規(guī)范化系統(tǒng)的正確率曲線,從圖上我們可以推斷出,設置合適的時間窗口,能大大提高我們的規(guī)范化系統(tǒng)的正確率.
通過上述在候選目標詞的獲取和候選目標詞的排序進行的實驗,我們總結下了我們方法的優(yōu)勢:1)在候選目標詞的獲取上,我們結合時間和語義在多數(shù)據(jù)源上提取候選目標詞,合理設置時間窗口,降低了候選目標詞集合的規(guī)模,又保證了候選語料中目標詞的覆蓋率.2)在候選目標詞的排序上,我們結合變體詞和目標詞在字和詞兩個層面上的語義和詞形上的相似性,采用字詞聯(lián)合詞向量法進行相似度計算,提升了排序準確性.當較新的變體詞未能被分詞器識別出時,我們通過字向量拼接詞向量方法,仍能進行規(guī)范化任務而不需要實時更新詞向量模型.
圖13 時間窗口與正確率曲線
本文首先主要通過字詞聯(lián)合的詞向量技術來解決變體詞規(guī)范化任務.首先在分析了變體詞和目標詞在語義和詞形上的異同點的基礎上,分析了變體詞規(guī)范化任務的挑戰(zhàn).利用大量未標注數(shù)據(jù),通過時間和語義結合獲取候選目標詞集合,并通過字和詞兩個層面上語義和詞形的結合對候選目標詞進行排序來解決變體詞規(guī)范化任務.下一步工作包括利用同一個目標詞的多個變體詞之間的關聯(lián)來進一步提高變體詞規(guī)范化的準確性.
1Huang HZ,Wen Z,Yu D,et al.Resolving entity morphs in censored data.Proc.of the 51st Annual Meeting of the Association for Computational Linguistics.Sofia,Bulgaria.2013.1083–1093.
2Zhang BL,Huang HZ,Pan XM,et al.Context-aware entity morph decoding.Proc.of the 53rd Annual Meeting of the Association for Computational Linguistics.Beijing,China.2015.586–595.
3Zhang BL,Huang HZ,Pan XM,et al.Be appropriate and funny:Automatic entity morph encoding.Proc.of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers).Baltimore,Maryland,USA.2014.706–711.
4沙灜,梁棋,王斌.中文變體詞的識別與規(guī)范化綜述.信息安全學報,2016,1(3):77–87.
5Wong KF,Xia Y.Normalization of Chinese chat language.Language Resources and Evaluation,2008,42:219–242.[doi:10.1007/s10579-008-9067-7]
6Xia YQ,Wong KF,Li WJ.A phonetic-based approach to Chinese chat text normalization.Proc.of the 21st International Conf.on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistic.Sydney,Australia.2006.993–1000.
7陳儒,張宇,劉挺.面向中文特定信息變異的過濾技術研究.高技術通訊,2005,15(9):7–12.
8Sood SO,Antin J,Churchill EF.Using crowdsourcing to improve profanity detection.AAAI Spring Symposium Series.2012.69–74.
9Yoon T,Park SY,Cho HG.A smart filtering system for newly coined profanities by using approximate string alignment.Proc.of 2010 IEEE 10th International Conference on Computer and Information Technology (CIT).Bradford,UK.2010.643–650.
10Wang A,Kan MY,Andrade D,et al.Chinese informal word normalization:An experimental study.Proc.of the 6th International Joint Conference on Natural Language Processing.Nagoya,Japan.2013.
11Wang AB,Kan MY.Mining informal language from chinese microtext:Joint word recognition and segmentation.Proc.of the 51st Annual Meeting of the Association for Computational Linguistics.Sofia,Bulgaria.2013.731–741.
12Choudhury M,Saraf R,Jain V,et al.Investigation and modeling of the structure of texting language.International Journal of Document Analysis and Recognition,2007,10(3-4):157–174.[doi:10.1007/s10032-007-0054-0]
13Han B,Cook P,Baldwin T.Automatically constructing a normalisation dictionary for microblogs.Proc.of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju Island,Korea.2012.421–432.
14Han B,Baldwin T.Lexical normalisation of short text messages:Makn sens a # twitter.Proc.of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Portland,Oregon.2011,1:368–378.
15Li ZF,Yarowsky D.Mining and modeling relations between formal and informal chinese phrases from web corpora.Proc.of the Conference on Empirical Methods in Natural Language Processing.Honolulu,Hawaii.2008.1031–1040.
16Chen XX,Xu L,Liu ZY,et al.Joint learning of character and word embeddings.Proc.of the 24th International Conference on Artificial Intelligence.Buenos Aires,Argentina.2015.1236–1242.
17來斯惟.基于神經(jīng)網(wǎng)絡的詞和文檔語義向量表示方法研究[博士學位論文].北京:中國科學院自動化研究所,2016.1.
18中國大陸網(wǎng)絡語言列表.https://zh.wikipedia.org/wiki/中國大陸網(wǎng)絡語言列表.[2016-12].
Research on Morph Normalization Based on Joint Learning of Character and Word
SHI Zhen-Hui,SHA Ying,LIANG Qi,LI Rui,QIU Yong-Qin,WANG Bin
(Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China)(University of Chinese Academy of Sciences,Beijing 100049,China)
The text is informal in social networks.One of the common phenomena is that there are a lot of morphs in social networks.People are keen on creating morphs to replace their real targets to avoid censorship and express strong sentiment.In this paper we aim to solve the problem of finding real targets corresponding to their entity morphs.We exploit the temporal and semantic and POS constraints to collect target candidates.Then we propose a method based on joint character-word training to sort the target candidates.Our method does not need any additional annotation corpora.Experimental results demonstrate that our approach achieved some improvement over state-of-the-art method.The results also show that the performance is better when morphs share the same character as targets.
morph; morph normalization; social network; word embedding; joint character-word training
施振輝,沙灜,梁棋,李銳,邱泳欽,王斌.基于字詞聯(lián)合的變體詞規(guī)范化研究.計算機系統(tǒng)應用,2017,26(10):29–35.http://www.c-sa.org.cn/1003-3254/5979.html
國家重點研發(fā)計劃(2016YFB0801003); 青年科學基金項目(61402466)
2017-01-10; 采用時間:2017-02-13