一種改進的社交媒體文本規(guī)范化方法

2015-04-21 10:52:31宋亞軍于中華丁革建

中文信息學報 2015年5期

宋亞軍，于中華，陳黎，丁革建，羅謙

(1.四川大學計算機學院，四川成都 610065；2. 浙江師范大學數理與信息工程學院，浙江金華 321004；3. 中國民用航空總局第二研究所信息技術分公司，四川成都 610042)

宋亞軍1，于中華1，陳黎1，丁革建2，羅謙3

社交媒體具有文本不規(guī)范的特點，現有自然語言處理工具直接應用于社交媒體文本時效果不甚理想，并且基于關鍵詞的算法和應用也達不到預期效果。因此，研究如何更好地規(guī)范化社交媒體文本是非常有意義和價值的。本文基于社交媒體文本中非規(guī)范詞與其規(guī)范形式具有相似上下文的假設，引入詞嵌入模型來更好地刻畫上下文的相似性，提出了一種改進的基于圖的社交媒體文本規(guī)范化方法，該方法是無監(jiān)督并且語言無關的，可以處理不同類型語言的大規(guī)模無標注社交媒體文本。實驗結果表明，該方法能夠改進前人方法的不足，并且在與相關方法的對比實驗中取得了最好的F值。

社交媒體；文本規(guī)范化；自然語言處理；詞嵌入

1 引言

微博、Twitter等社交媒體網站每時每刻都在產生大量的短文本，這些用戶實時產生的、數量眾多的社交媒體短文本具有非常重要的研究和應用價值，它們被廣泛用于疾病檢測、情感分析和事件發(fā)現等。

然而，和普通文本相比，社交媒體文本的書寫通常不規(guī)范，包含很多符號、縮寫、音節(jié)替代和俚語等，例如英文推特中經常將“tomorrow”寫成“tmrw”或者“2morrow”，而中文微博中也有類似情況，比如“同學”寫為“童鞋”、“稀飯”代替“喜歡”等。社交媒體文本書寫不規(guī)范的特點，使得現有的自然語言處理工具直接應用于社交媒體文本時效果不甚理想[1]，比如詞性標注器、依存分析工具等，而很多基于關鍵詞的算法和應用也經常達不到預期效果，比如情感分析、事件發(fā)現等。因此，研究如何更好地分析處理這種不規(guī)范的社交媒體文本是非常有意義和價值的。

目前解決這個問題通常有兩種主流的方式: 第一種，針對社交媒體語言和文本的特點，設計符合其特點的新算法和新工具[2-3];另一種則是設計算法將社交媒體文本中不規(guī)范的用法轉換為其規(guī)范的形式，即社交媒體文本規(guī)范化，例如將“2morrow”和“童鞋”等不規(guī)范形式，分別轉換為其規(guī)范形式“tomorrow” 和“同學”。社交媒體文本規(guī)范化通常作為預處理步驟，將非規(guī)范的社交媒體文本進行規(guī)范化處理后，交給現有的自然語言工具進行分析處理，而不用重新設計算法和工具。

雖然本文主要關注的是英文推特文本的規(guī)范化，但是本文提出的方法是語言無關的，可以方便地應用于其他語言的社交媒體文本，比如中文等。和大多數的相關工作一樣，我們只關注于一對一的規(guī)范化，即將一個非規(guī)范化詞規(guī)范化為一個對應的規(guī)范形式，比如“tmrw”規(guī)范為“tomorrow”，而不考慮一對多或多對一的情況,比如“idk”規(guī)范為“I don’t know”等。

基于“非規(guī)范詞和它的規(guī)范形式通常出現在相似的上下文中”的假設，我們提出了一種改進的基于圖的社交媒體文本規(guī)范化方法，該方法可以自動從大規(guī)模無標注的社交媒體文本中構建規(guī)范化詞典，應用于社交媒體文本規(guī)范化。

文章接下來的內容組織如下: 第2節(jié)討論相關工作，第3節(jié)詳細介紹本文提出的方法，第4節(jié)描述算法的實現細節(jié)和相關數據，第5節(jié)對實驗結果進行分析和討論，第6節(jié)是文章總結和未來工作展望。

2 相關工作

早期的文本規(guī)范化工作大多使用噪聲信道模型。文獻[4]首先將噪聲信道模型應用于文本規(guī)范化任務，他們提出了一種新的基于字符串編輯的噪聲信道模型，該模型對子串轉換的概率建模，極大地提高了文本規(guī)范化的效果。文獻[5]通過擴展噪聲信道模型中的錯誤模型(將詞之間的語音相似性加入錯誤模型)，改進了上述方法，該方法通過學習規(guī)則來預測每一個字符的發(fā)音，并且預測依賴于詞中的相鄰其他字符。文獻[6]針對SMS文本，提出了一種基于隱馬爾可夫模型的文本規(guī)范化方法，該方法也是一對一的規(guī)范化方法，通過構造常用縮寫和非規(guī)范用法的詞典，可以解決部分一對多的規(guī)范化(例如 “howz” 規(guī)范化為“how are”或者“aint” 規(guī)范化為 “are not”)。文獻[7]引入無監(jiān)督的噪聲信道模型對文獻[6]提出的模型進行了擴展，模型對常用縮寫形式和各種不同的拼寫錯誤類型進行了概率建模。

以上方法都存在一定的局限性,因為它們不考慮上下文的特性并且假設每個非規(guī)范詞都具有唯一的規(guī)范化形式。在文本規(guī)范化任務中，相同的非規(guī)范詞可能有不同的規(guī)范化形式(例如“2”可以規(guī)范化為“two”、“to”或“too”),在這種情況下沒有上下文信息是不可能正確地構建模型和消除歧義的。

還有一些研究人員使用統(tǒng)計機器翻譯方法進行文本規(guī)范化，這種方法把問題形式化為將詞的非規(guī)范形式翻譯為規(guī)范化的形式。文獻[8]中基于字符水平的短語對齊的SMT方法，將非規(guī)范的SMS文本轉換為規(guī)范形式。文獻[9]提出一種基于字符的SMS文本規(guī)范化方法，對新出現縮寫的規(guī)范化非常有效。

但是基于統(tǒng)計機器翻譯模型的規(guī)范化方法是有監(jiān)督的方法，需要大量的標注數據。然而我們沒有現成的標注數據可以使用，而創(chuàng)建標注數據也是非常困難的，尤其是在社交媒體文本中，其變化迅速的特點使得標注好的數據很快就會變得不適用[10]。

最近提出的很多方法通過構建規(guī)范化詞典用于文本規(guī)范化任務。例如，文獻[11]首先訓練分類器用于識別非規(guī)范詞候選，然后使用詞音相似度得到規(guī)范化候選，最后利用字面相似度和上下文特征找出最可能的規(guī)范化候選；文獻[12]通過考察以用戶為中心的信息包括用戶所處地理位置、推特客戶端的類型(比如網頁端、移動端、第三方客戶端等)等對推特書寫習慣的影響，提出了一種針對不同人群的社交媒體文本規(guī)范化方法。

文獻[13]提出了一個類似的方法，基于上下文相似性和字面相似性構建規(guī)范化詞典進行推特文本的規(guī)范化，該方法使用詞袋模型表示上下文分布，然后兩兩之間計算上下文分布相似度。

但是文獻[13]提出的方法存在很多不足: 首先，用詞袋模型(bag-of-words)表示上下文分布容易產生高維稀疏問題，因為社交媒體文本中存在大量的不規(guī)范詞、新詞、實體名詞等；第二，該方法中使用兩兩計算相似度的方法選擇候選，如果兩個詞之間沒有共享的上下文，那么它們的相似度將會為0，很難得到全局最優(yōu)的規(guī)范化結果。

另一個非常相關的工作是由文獻[14]提出的，針對文獻[13]提出方法不能得到全局最優(yōu)的規(guī)范化結果，文獻[14]提出了一種基于二部圖隨機游走的方法，該方法首先通過隨機游走得到全局優(yōu)化的基于上下文相似性的規(guī)范化候選列表，然后利用非規(guī)范詞與規(guī)范詞之間的字面相似度，對規(guī)范化候選列表進行重排序，將得到最終的規(guī)范化結果加入到規(guī)范化詞典中。

文獻[14]同樣也存在不足，因為這篇文章將每個詞的上下文定義為前后各兩個詞組成的有序四元組，并且要求上下文中的每個詞都為IV詞,這就容易產生上下文稀疏性問題，特別是在社交媒體文本這種以書寫不規(guī)范為特點的文本中，從算法評測結果的低召回率我們也可以看出這個問題。

文獻[15]提出了一種新的無監(jiān)督的社交媒體規(guī)范化方法，他們的方法綜合使用了字面特征、上下文特征和語法特征，其中上下文特征和語法特征是從構建好的詞關聯(lián)圖中得到。但是他們的方法使用了俚語詞典和音譯表等多種外部資源，并且非常依賴于使用的詞性標注器的效果。

本文針對文獻[14]中存在的上下文稀疏問題，通過引入詞嵌入模型[16-19]緩解上下文稀疏問題，并且通過實驗驗證了改進方法的可行性和有效性。我們將在第3節(jié)中詳細描述我們提出的改進方法。

3 方法

本文通過分析文獻[14]工作的不足，引入詞嵌入模型對其進行改進，提出了一種改進的基于二部圖的社交媒體文本規(guī)范化方法，命名為BiGraph+。

3.1 概述

本文的改進主要有兩個方面: 第一，取消了文獻[14]中上下文詞均為IV詞的限制，因為社交媒體文本中非規(guī)范詞的上下文也傾向于使用非規(guī)范詞，因此要求上下文全為規(guī)范詞是不合理的，從后面的實驗結果可以看出，這個改進在基本保證精確率的前提下可以大幅地提高算法的召回率；第二，針對文獻[14]提出的二部圖中存在大量單獨的上下文節(jié)點的情況(本文中將僅和一個詞節(jié)點連接的上下文節(jié)點定義為single節(jié)點)，通過使用詞嵌入模型，找出與這些single節(jié)點語義相似的其他非單獨上下文節(jié)點，在圖中將它們連接起來，然后通過隨機游走的方法得到全局優(yōu)化的規(guī)范化結果。

3.2 二部圖的構造

BiGraph+基于“非規(guī)范詞與其對應的規(guī)范形式具有相似的上下文分布”的假設，每個詞的上下文被定義為前后固定窗口大小的詞序列，比如給定五元組序列word1word2word3word4word5,定義詞word3的上下文為word1word2word4word5。如果另一個詞word3′是word3的規(guī)范化形式，那么word3和word3′將會有相同的上下文，這種上下文相似性可以用二部圖進行表示。

介紹Bigraph+方法前，我們先看文獻[14]中定義的二部圖，如圖1(左)所示，圖中左側節(jié)點為上下文節(jié)點，右側節(jié)點為詞節(jié)點，其中詞節(jié)點可以是規(guī)范詞也可以是非規(guī)范詞，上下文節(jié)點為規(guī)范詞序列，圖中兩個詞節(jié)點直接或間接連接的上下文節(jié)點越多，兩個詞的上下文相似度越大。

但是這種上下文的定義形式容易產生上下文稀疏的問題，因為在上下文詞序列中，只要有一個字母不同，那么兩個上下文就會當成不同的上下文，這使得很多上下文節(jié)點成為single節(jié)點，如圖1(左)中深色節(jié)點C1和C4所示。

因此針對文獻[14]提出的二部圖中存在大量單獨的上下文節(jié)點的情況，通過使用詞嵌入模型，找出與這些single節(jié)點語義相似的其他非單獨上下文節(jié)點，在圖中將它們連接起來，定義了一種新的二部圖，如圖1(右)所示，其中詞節(jié)點與上下文節(jié)點之間的連接權重為它們的共現次數，而上下文節(jié)點之間的連接權重為它們的語義相似度。

BiGraph+方法的二部圖的構造如算法1所示。

算法1:ConstructBiGraphplus(corpus) Input:Ngramcorpus注釋:W為詞節(jié)點,C為上下文節(jié)點,E1為詞與上文節(jié)點之間的邊,E2為上下文節(jié)點之間的邊Output:(G(W,C,E1,E2))foreach(ngram,count)in(Ngrams,Count)do 注釋:添加詞節(jié)點word=GETCENTER(ngram)ifIS_NOISY(word) W←ADDWORD(word,false)else W←ADDWORD(word,true)注釋:添加word-context邊到E1

E1←ADDCONTEXT(context,word,count)注釋:map存儲上下文對應的不同中心詞的個數,用于判斷single節(jié)點與非single節(jié)點map.put(context,CURRENT+1)注釋:添加上下文節(jié)點foreach(context,count)inmap 注釋:count>1時為非single節(jié)點 ifcount>1 C←ADDCONTEXT(Context,false) 注釋:count=1時為single節(jié)點 else C←ADDCONTEXT(Context,true) 注釋:添加context-context邊到E2 foreachCiinSingleContext foreachCjinnoSingleContext wij=Similarity(Ci,Cj) Ifwij>Threshold E2←ADD(Ci,Cj,wij)

圖1 Bgraph(左)和Bigraph+(右)示例圖

算法1中，我們使用Aspell詞典(v0.60.0)判斷一個詞是規(guī)范詞(IV)還是非規(guī)范詞(OOV)。圖中詞節(jié)點與上下文節(jié)點之間邊的權重定義為它們的共現次數，而上下文節(jié)點之間邊的權重定義為它們的語義相似度，通過詞嵌入模型進行計算得到。

3.3 規(guī)范化詞典構造

構建好二部圖之后，按照算法2構造規(guī)范化詞典。

算法2:INDUCELEXICON(G) 注釋:W為詞節(jié)點,C為上下文節(jié)點,E1為詞與上文節(jié)點之間的邊,E2為上下文節(jié)點之間的邊 Input(G(W,C,E1,E2))Output(Lexicon)INIT((Lexicon))foreachwordinWinG(W,E)do IfISNOISY(word) INIT(Rn) 注釋:進行k次隨機游走 fori=0toK do 注釋:Bigaph+與(Hassan2013)方法的最大區(qū)別體現在這一隨機游走過程中Rn←RANDOMWALK(word)注釋:計算平均的hittingtime并且歸一化,作為上下文相似度存儲于Ln中Ln←NORMALIZE(Rn)注釋:計算字面相似度并且和上下文相似度綜合,對候選列表重排序

算法2的核心是隨機游走過程Rn ← RANDOMWALK (word)，算法中每個非規(guī)范詞進行K輪隨機游走，每輪隨機游走按照這樣一個過程進行: 從給定的非規(guī)范詞節(jié)點開始，按照狀態(tài)轉移概率游走至相鄰的上下文節(jié)點，然后從上下文節(jié)點隨機游走至另一個詞節(jié)點，到達規(guī)范的詞節(jié)點或者游走步數達到設定的閾值則停止，當然本文的隨機游走中允許上下文節(jié)點之間的跳轉，這也是Bigraph+方法與文獻[14]的最大區(qū)別。其中隨機游走狀態(tài)轉移概率(從一個節(jié)點i轉移到另一個節(jié)點j的概率)p定義為:

(1)

通過K輪隨機游走我們可以得到一個規(guī)范化候選列表Ln，其中每個候選規(guī)范詞n與非規(guī)范詞m都存在一個上下文相似度L(m,n)，定義為K輪隨機游走中從m隨機游走至n的步數的平均值H(m,n)歸一化的結果，H(m,n)定義如公式(2)所示:

(2)

其中,Hr(m,n)是第r次隨機游走的步數，R為K輪隨機游走中到達n的次數。

以圖2為例，假設某輪隨機游走的起點為非規(guī)范詞節(jié)點“makin”，那么我們的隨機游走路徑可以為[“makin”->C1->C2->“making”],這時隨機游走路徑長度為4(r=4),也有可能為[“makin”->C2->“making”],這時路徑長度為3(r=3)，2輪隨機游走后平均路徑長度為3.5，詞m和n的上下文相似度L(m，n)定義如公式(3)所示:

(3)

最終的得分為上下文相似度和字面相似度的加權和，如式(4)所示。

(4)

3.4 上下文語義相似度計算

本文采用詞嵌入模型計算上下文的語義相似度，主要步驟如下:

一、訓練詞嵌入模型；

二、從訓練好的詞嵌入模型得到上下文中每個詞的詞向量；

三、連接所有詞向量為一個上下文向量；

四、通過余弦夾角公式計算上下文之間的語義相似度:

(5)

其中C1和C2均為上下文的向量表示形式。

字面相似度的計算使用文獻[20]提出的方法，該方法基于最大相同字串率和編輯距離，計算公式如下:

(6)

(7)

4 實現與數據

4.1 訓練數據

我們從Stanford’s 476 million Twitter Dataset[21]中隨機抽取了1.5GB的英文推特文本作為訓練語料。文本的語言識別使用langid.py Python library[22-23]完成。

CMU Ark Tagger (v0.3.2)是一個專門針對社交媒體文本進行詞性標注的工具，其在社交媒體文本上進行詞性標注的準確率達到了95%[2-3]，這里我們使用CMU Ark Tagger (v0.3.2)進行詞匯單元化和詞性標注。

詞匯單元化和詞性標注之后，我們將文本中詞性被標注為提及(例如，@brendon),語篇標記 (例如 RT), URL, 郵箱地址, 表情符號和標點的詞匯去除，用得到的數據構造二部圖、訓練詞嵌入模型和語言模型。

4.2 詞向量模型

word2vec[24-25]是2013年由Google研究人員提出的非常高效的基于神經網絡的詞嵌入模型，我們訓練word2vec得到每個詞的詞向量表示，模型參數設定見4.5節(jié),訓練好詞嵌入模型后直接應用于BiGraph+中上下文的語義相似度計算。

4.3 語言模型

為了將構建的規(guī)范化詞典用于測試，我們使用SRILM工具[26]在1.5GB英文推特文本上訓練了一個5-gram語言模型，測試中我們使用維特比解碼器，選擇出符合當前上下文的最佳規(guī)范化候選，作為我們的規(guī)范化結果。

第四，對于某些淬火溫度較高的不銹鋼零件，其淬火溫度和熔點溫度很接近，在使用感應器進行產品局部表面淬火時很容易燒傷夾角或不規(guī)則部位，導致零件報廢，而激光淬火則不受此限。

4.4 參數設置

實驗中有多個參數需要人工設置，首先是word2vec模型中詞向量的維數，通過實驗發(fā)現該參數與語料庫的大小有關系，在我們的實驗中將其設置為300，上下文語義相似度閾值設置為經驗值0.85，上下文窗口大小、隨機游走模型中隨機游走的最大步數和隨機游走次數都按照文獻[14]的實驗分析進行設置，其中上下文窗口大小設置為5，隨機游走的最大步數設置為4，隨機游走次數設置為100次。

5 實驗

5.1 測試數據集

我們使用LexNorm1.1[11]作為算法評價的數據集. LexNorm1.1包括549條英文推特，其中包含 1 184個人工標注的非規(guī)范詞。這個數據集在文本規(guī)范化研究中廣泛用于算法評價測試，這使得我們可以直接在這個數據集上和其他先前的方法進行比較[11,15]。

5.2 實驗結果與分析

5.2.1 評價方法

對于實驗結果的評價,本文采用標準的精確率(P)、召回率(R)和 F度量值作為評價標準。精確率(Precision)衡量的是在所有被算法規(guī)范化的詞中，正確規(guī)范化的詞所占的比率；召回率(Recall)衡量的是在所有需要被規(guī)范化的詞中,算法進行了正確規(guī)范化的比率；F 度量值(FScore)是對上述兩個指標的綜合考慮。三個指標的計算公式如下:

(8)

(9)

(10)

5.2.2 結果與分析

(1) 規(guī)范化詞典構造

規(guī)范化詞典就是每個非規(guī)范詞(OOV)與其規(guī)范形式的映射，相同的非規(guī)范詞在不同的上下文中可能具有不同的規(guī)范形式，因此在構建規(guī)范化詞典時保留Top-N個規(guī)范化候選，而不是僅僅保留一個，這樣就可以避免傳統(tǒng)方法中，每個非規(guī)范詞都規(guī)范化為相同規(guī)范形式的缺點。因此構造規(guī)范化詞典之前，一個很重要的步驟就是確定每個非規(guī)范詞規(guī)范化候選的數目，以往的方法中往往都是根據經驗設定，本文我們通過實驗來設定，如圖2所示。

圖2 規(guī)范化詞典的構造

圖2中橫坐標為規(guī)范化詞典中每個非規(guī)范詞的規(guī)范化候選的個數，縱坐標為百分比，圖中三條曲線最上方曲線為精確率，中間曲線為召回率，最下方曲線為F值，從圖中可以看出，當橫坐標值達到一定值的時候，三條曲線的值都會趨于穩(wěn)定，因此我們可以從穩(wěn)定之后的值中選擇一個N，文章中為了得到更高的召回率選取N=10。

(2) 實驗對比與分析

構造好規(guī)范化詞典后，利用訓練好的語言模型根據當前上下文從詞典選擇出每個非規(guī)范詞最佳規(guī)范形式。表1是本文提出的方法與文獻[13]和文獻[14]中的方法的實驗對比，表2中將本文提出的方法與其他相關工作進行了實驗對比，從實驗對比結果可以看出本文提出的方法在精確率和召回率都有很好的結果。

從表1中可以看出，與Han(2012)方法相比，我們提出的BiGraph+方法在精確率、召回率和F值三個指標上都有很大的提高，而和Hassan(2013)方法相比，BiGraph+在精確率稍微降低的情況下，召回率和F值都大幅地提高了，從而證明了我們所提出方法的有效性。

從表2可以看出與Han(2011)方法相比，我們提出的方法無論在精確率、召回率,還是F值上，效果都要更好，而與S?nmez (2014)方法相比，雖然我們的精確率稍低，但是我們的召回率和F值都更高，而相比S?nmez (2014)，我們的方法不依賴于外部資源，并且S?nmez (2014)方法非常依賴于其使用的詞性標注器的效果。

表1 本文提出方法與文獻[13]和文獻[14]實驗對比

表2 本文提出方法與其他相關方法實驗對比

(3) 錯誤分析

這里，討論一下我們在實驗中發(fā)現的一些問題。首先實驗中對精確率影響最大的是一些長度較短的非規(guī)范詞，比如“dn’t”的規(guī)范化形式可以是 “don’t”、“doesn’t” 或者“didn’t”，并且它們出現的上下文也是類似的，這就產生了模糊性，從而導致錯誤；另外我們的方法對于新出現的非規(guī)范詞也是無法處理的。

6 總結與展望

本文基于社交媒體文本中非規(guī)范詞與其規(guī)范形式具有相似上下文的假設，引入詞嵌入模型更好地刻畫上下文的相似性，提出了一種改進的基于圖的社交媒體文本規(guī)范化方法，我們提出的方法是無監(jiān)督且語言無關的，能夠方便地應用于其他語言。但是本文方法只能一對一地規(guī)范化，無法處理新出現的非規(guī)范詞等，因此下一步工作將嘗試將模型進行擴展和改進。

[1] ARitter,CCherry,B Dolan. Unsupervised modeling of twitter conversations[C]//Proceedings of the Human Language Technologies: Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2010:172-180.

[2] O Owoputi, B O’Connor,C Dyer,et.al. Improved Part-of-Speech Tagging for Online Conversational Text with Word Clusters[C]//Proceedings of the Human Language Technologies : Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2013: 380-390.

[3] K Gimpel, N Schneider, B O’Connor, et.al. Part-of-speech Tagging for Twitter: Annotation, Features, and Experiments[C]//Proceedings of the Human Language Technologies: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics,2011:42-47.

[4] E Brill, R C Moore. An improved error model for noisy channel spelling correction[C]//Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, Englewood Cliffs, NJ, USA,2000: 286-293.

[5] K Toutanova, R C Moore. Pronunciation modeling for improved spelling correction[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, ACL, Philadelphia, USA, 2002: 144-151.

[6] M Choudhury, R Saraf, V Jain, et.al. Investigation and modeling of the structure of texting language[J]. International Journal of Document Analysis and Recognition, 2007,10: 157-174.

[7] P Cook, S Stevenson. An unsupervised model for text message normalization[C]//Proceedings of the Workshop on Computational Approaches to Linguistic Creativity, Boulder, USA. 2009: 71-78.

[8] A Aw, M Zhang, J Xiao. A phrase-based statistical model for SMS text normalization[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, Sydney, Australia, 2006: 33- 40.

[9] D Pennell, Y Liu. A Character-Level Machine Translation Approach for Normalization of SMS Abbreviations[C]//Proceedings of Fifth International Joint Conference on Natural Language Processing, 2011: 974-982.

[10] Y Yang, J Eisenstein. A Log-Linear Model for Unsupervised Text Normalization[C]//Proceedings of the Empirical Methods on Natural Language Processing, 2013: 61-72

[11] B Han, T Baldwin. Lexical Normalization of Short Text Messages: Makn Sens a #Twitter[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies,2011,1: 368-378.

[12] S Gouws， S Metzler, C Cai, et al. Contextual Bearing on Linguistic Variation in Social Media[C]//Proceedings of the Workshop on Languages in Social Media, 2011: 20-29.

[13] B Han, P Cook, T Baldwin. Automatically constructing a normalisation dictionary for microblogs[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012: 421-432.

[14] H Hassan, A Menezes. Social Text Normalization Using Contextual Graph Random Walks[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, 2013: 1577-1586.

[15] C S?nmez, A Ozgür. A Graph-based Approach for Contextual Text Normalization[C]//Proceeding of Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 313-324.

[16] Y Bengio, R Ducharme Vincent, C Jauvin. A neural probabilistic language model[J]. The Journal of Machine Learning Research, 2003, 3: 1137-1155.

[17] A Mnih， G E Hinton. A scalable hierarchical distributed language model[J]. Advances in neural information processing systems, 2009， 21： 1081-1088.

[18] T Mikolov, A Deoras, D Povey， et al. Strategies for Training Large Scale Neural Network Language Models[C]//Proceedings of the Automatic Speech Recognition and Understanding (ASRU), 2011 IEEE Workshop on IEEE, 2011:196-201.

[19] T Mikolov, W Yih, G Zweiq. Linguistic kegularities in Continaous Space Word Representations[C]//Proceedings of the HLT-NAACL.2013.

[20] D Contractor, T Faruquie, V Subramaniam. Unsupervised cleansing of noisy text[C]//Proceedings of the 23rd International Conference on Computational Linguistics, 2010: 189-196.

[21] J Yang, J Leskovec. Patterns of Temporal Variation in Online Media[C]//Proceedings of the 4th International Conference on Web Search and Web Data Mining, 2011: 177-186.

[22] M Lui, T Baldwin. Langid.Py: An Off-the-shelf Language Identification Tool[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2012: 25-30.

[23] T Baldwin, M Lui. Language Identification: The Long and the Short of the Matter[C]//Proceedings of the Human Language Technologies: Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2010: 229-237.

[24] T Mikolov, I Sutskever, K Chen, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems.2013,3: 3111-3119.

[25] Q Le, T Mikolov. Distributed Representations of Sentences and Documents[C]//Proceedings of the 31st International Conference on Machine Learning (ICML-14). 2014: 1188-1196.

[26] AStolcke. SRILM-an extensible language modeling toolkit[C]//Proceedings of the Interspeech. 2002: 901-904.

An Improving Method for Social Media Text Normalization

SONG Yajun1, YU Zhonghua1， CHEN Li1, DING Gejian2, LUO Qian3

(1. College of Computer Science, Sichuan University, Chengdu, Sichuan 610065, China;2. Colledge of Mathematics, Physics and Information Engineering,Zhejiang Normal University, Jinhua, Zhejiang 321004, China;3. Information Technology Branch, the Second Research Institute of General Administration of Civil Aviation of China, Chengdu, Sichuang 610042, China)

The informal style of social media texts challenges many natural language processing tools, including many keyword-based methods proposed for social media textTherefore, the normalization of the social media text is indispensable. Based on the assumption of context similarity between the lexical variants, we proposed an improved graph-based social media text normalization method by introducing word embedding model to better capture the context similarity. As an unsupervised and language independent method, it can be used to process large-scale social media texts of various languages. Experimental results show that the proposed method outperforms the of previous methods with the best F-score.

social media; text normalization; natural language process; word embedding

宋亞軍(1990—),碩士研究生,主要研究領域為自然語言處理。E-mail:songyajun90@163.com于中華(1967—),副教授,主要研究領域為自然語言處理。E-mail:yuzhonghua@scu.edu.cn

1003-0077(2015)05-0104-08

2015-07-31 定稿日期： 2015-09-30

浙江省自然科學基金(LY12F02010)；四川省科學支撐項目(2014GZ0063)

TP391

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種改進的社交媒體文本規(guī)范化方法

1 引言

2 相關工作

3 方法

4 實現與數據

5 實驗

6 總結與展望