• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于聯(lián)合模型的中文社交媒體命名實(shí)體識別?

      2018-01-04 06:03:39彭艷兵
      關(guān)鍵詞:置信度命名語料庫

      易 黎 黃 鵬,2 彭艷兵 程 光

      (1.南京烽火軟件科技有限公司 南京 210019)(2.武漢郵電科學(xué)研究院 武漢 430074)(3.東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210096)

      基于聯(lián)合模型的中文社交媒體命名實(shí)體識別?

      易 黎1黃 鵬1,2彭艷兵1程 光3

      (1.南京烽火軟件科技有限公司 南京 210019)(2.武漢郵電科學(xué)研究院 武漢 430074)(3.東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210096)

      隨著互聯(lián)網(wǎng)的發(fā)展,對中文社交媒體中命名實(shí)體進(jìn)行識別具有重要的意義,傳統(tǒng)的做法是采用監(jiān)督學(xué)習(xí)方法,局限于標(biāo)注數(shù)據(jù)的稀缺。然而,通用領(lǐng)域中有足夠的語料庫且社交媒體中的海量未標(biāo)注的文本可以用于提高命名實(shí)體識別的效果。論文提出了一個(gè)聯(lián)合模型,利用通用領(lǐng)域語料庫和社交網(wǎng)絡(luò)領(lǐng)域中未標(biāo)注的文本進(jìn)行訓(xùn)練。該聯(lián)合模型由兩個(gè)模型組成,一個(gè)是跨領(lǐng)域?qū)W習(xí)模型另外一個(gè)是半監(jiān)督學(xué)習(xí)模型??珙I(lǐng)域?qū)W習(xí)基于領(lǐng)域的相似性學(xué)習(xí)通用領(lǐng)域的信息。半監(jiān)督學(xué)習(xí)通過主動(dòng)學(xué)習(xí)目標(biāo)域內(nèi)未標(biāo)注的信息。該聯(lián)合模型提高了命名實(shí)體識別的效果,且大大減小了人工標(biāo)注語料工作。

      命名實(shí)體識別;社交媒體;跨領(lǐng)域?qū)W習(xí);領(lǐng)域相似性;半監(jiān)督學(xué)習(xí);主動(dòng)學(xué)習(xí)

      1 引言

      命名實(shí)體識別是自然語言處理的一項(xiàng)基礎(chǔ)任務(wù),命名實(shí)體識別是指對文本中的命名實(shí)體進(jìn)行識別、篩選并加以分類,命名實(shí)體包括五種類型:人名、主題、機(jī)構(gòu)名、專有名詞和地名。命名實(shí)體識別已廣泛用于各種智能應(yīng)用,例如信息抽取、信息檢索、問答系統(tǒng)和機(jī)器翻譯等。越來越多的人關(guān)注命名實(shí)體識別在社交媒體上的應(yīng)用,通過前人的不斷努力使得英文社交媒體的命名實(shí)體識別效果縮小了和傳統(tǒng)領(lǐng)域的差距,但由于社交媒體的不規(guī)范和噪音多使得對其命名實(shí)體的識別非常困難。Peng和Dredze利用條件隨機(jī)場對中文社交媒體的命名實(shí)體進(jìn)行識別,局限于小量的標(biāo)注數(shù)據(jù)采用監(jiān)督學(xué)習(xí)的方法[1],但需要大量的人工標(biāo)注工作。本文用深度學(xué)習(xí)的方法來訓(xùn)練領(lǐng)域外語料庫和社交媒體中未標(biāo)注的文本。

      本文提出了一個(gè)聯(lián)合的模型,該模型從領(lǐng)域外語料庫和社交媒體中未標(biāo)注的文本中訓(xùn)練。聯(lián)合模型包含兩個(gè)功能。一個(gè)是跨領(lǐng)域?qū)W習(xí),另外一個(gè)是半監(jiān)督學(xué)習(xí)。該模型可以調(diào)整每個(gè)句子深度學(xué)習(xí)的學(xué)習(xí)率。

      對于跨領(lǐng)域?qū)W習(xí),Sun,Kashima和Ueda等人運(yùn)用不同領(lǐng)域的相似度,提出了一種多任務(wù)學(xué)習(xí)模型,從真實(shí)的文本數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)任務(wù)之間的相似關(guān)系[2]。他們通過測量不同任務(wù)權(quán)重的相似度來迭代學(xué)習(xí)任務(wù)的相關(guān)性,且收斂分析表明結(jié)果合理的收斂性。本文的跨領(lǐng)域?qū)W習(xí)模型基于域的相似度學(xué)習(xí)通用領(lǐng)域信息,使用領(lǐng)域外句子和社交網(wǎng)絡(luò)域內(nèi)語料庫之間的相似度來調(diào)整域外語料庫中每個(gè)句子的學(xué)習(xí)率。

      對于半監(jiān)督學(xué)習(xí),以前的許多工作都集中于預(yù)測置信度上。本文設(shè)計(jì)了一個(gè)基于半監(jiān)督的置信度模型,該模型可以通過自我訓(xùn)練來識別域內(nèi)未標(biāo)注的命名實(shí)體。

      2 相關(guān)工作

      本文通過深度學(xué)習(xí)的跨領(lǐng)域?qū)W習(xí)和半監(jiān)督學(xué)習(xí)對中文社交媒體命名實(shí)體進(jìn)行識別,下面就簡要地介紹一下中文社交媒體的命名實(shí)體識別,跨領(lǐng)域?qū)W習(xí)和半監(jiān)督學(xué)習(xí)。

      2.1 中文社交媒體的命名實(shí)體識別

      本文是對中文社交媒體文本中人名、機(jī)構(gòu)名和地名命名實(shí)體進(jìn)行識別。單個(gè)實(shí)體指的是文本中的一個(gè)名稱或名詞。對于單個(gè)命名實(shí)體的識別的主要方法是將其作為一個(gè)序列標(biāo)記的任務(wù)[3]。由于社交媒體文本的不規(guī)范和噪音多對其中的命名實(shí)體識別具有挑戰(zhàn)。例如,中文社交媒體文本中有許多縮寫和錯(cuò)別字。此外,中文文本沒有類似英文中明確的邊界標(biāo)示符。但該任務(wù)具有的挑戰(zhàn)性和實(shí)用性,引起人們越來越多興趣。例如,Peng和Dredze研究了幾種映射的方法并提出基于詞向量模型的命名實(shí)體識別[4];喬維和姜維等使用分詞的方法來改善對命名實(shí)體的識別[5~6]。

      2.2 跨領(lǐng)域?qū)W習(xí)

      跨領(lǐng)域?qū)W習(xí)[7]需要利用輔助領(lǐng)域語料庫來幫助改善社交媒體命名實(shí)體識別。以下幾點(diǎn)是跨領(lǐng)域?qū)W習(xí)需要引起重視的原因。首先,每個(gè)領(lǐng)域都很難獲取足夠的標(biāo)注文本,因?yàn)槿斯?biāo)注需要花費(fèi)很多人力和時(shí)間。第二,可能不知道測試數(shù)據(jù)所屬的領(lǐng)域,所以必須考慮域的自適應(yīng)性。在許多自然語言處理任務(wù)中,如果沒有設(shè)計(jì)合適的跨領(lǐng)域?qū)W習(xí)方法,用不同領(lǐng)域的數(shù)據(jù)進(jìn)行測試時(shí)結(jié)果會大幅下降,幸運(yùn)的是,有很多開創(chuàng)性的工作。例如,通過提取跨領(lǐng)域特征的方法來改善多領(lǐng)域適應(yīng)性問題,通過訓(xùn)練多個(gè)領(lǐng)域的數(shù)據(jù)改善域的適應(yīng)性。使用高斯核函數(shù)和多項(xiàng)式核函數(shù)計(jì)算任務(wù)的相似度,用余弦相似度來度量不同領(lǐng)域自適應(yīng)的相似性[8~12]。

      2.3 半監(jiān)督學(xué)習(xí)

      在許多自然語言處理任務(wù)中,標(biāo)注的文本是小量的且有限的,然而海量文本是未經(jīng)標(biāo)注的。手動(dòng)標(biāo)注將花費(fèi)大量的時(shí)間和人力,所以重點(diǎn)是探索一種如何利用未標(biāo)注數(shù)據(jù)進(jìn)行自然語言處理的方法。很多半監(jiān)督和無監(jiān)督的模型都可以利用。例如,通過 self-training,co-training,tri-training算法選擇最可靠的訓(xùn)練數(shù)據(jù)。有人基于self-training算法的置信度來選擇合適的訓(xùn)練數(shù)據(jù);有的使用兩種模型選取置信度來對未標(biāo)注的句子訓(xùn)練。有人對原始領(lǐng)域未標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練來選取較高的置信度。有人使用兩種分類器來選擇最大置信度區(qū)間。還有的人評估可靠性的預(yù)測并選擇最可靠的預(yù)測。

      3 模型及理論

      首先建立一個(gè)雙向的長短期記憶網(wǎng)絡(luò)(bidi?rectional long short term memory neural network,BILSTM),并結(jié)合轉(zhuǎn)移概率形成最大間距的神經(jīng)網(wǎng)絡(luò)(max margin neural network,MMNN)結(jié)構(gòu)輸出模型作為基本模型。然后提出了對中文社交媒體的跨領(lǐng)域和半監(jiān)督聯(lián)合模型來進(jìn)行命名實(shí)體識別。在介紹聯(lián)合模型之前本文將系統(tǒng)的介紹跨領(lǐng)域?qū)W習(xí)模型和半監(jiān)督學(xué)習(xí)模型。

      3.1 BILSTM-MMNN

      3.1.1 轉(zhuǎn)移概率

      本文將轉(zhuǎn)移概率應(yīng)用于BILSTM-MMNN并作為基本模型。最大間距準(zhǔn)則直接影響模型決策邊界的魯棒性,這也使得擴(kuò)展到統(tǒng)一模型上更加容易。

      定義結(jié)構(gòu)化的間距損失函數(shù):

      其中k是損失率

      對于一個(gè)給定的句子序列x,預(yù)測最高得分的標(biāo)簽序列為

      結(jié)合轉(zhuǎn)移概率,我們將得分函數(shù)寫成如下形式:

      其中 f∧(ti|x)表示句子x中ti在參數(shù)∧的概率,A表示轉(zhuǎn)移概率矩陣,n表示句子x的長度。 f∧(ti|x)的計(jì)算公式如下

      3.1.2 字向量和位置向量

      詞分割對中文文本處理非常的重要[1,3]。Peng和Dredze研究了三種向量的方法對中文社交媒體文本中命名實(shí)體的識別,分別是詞向量、字向量和字的位置向量[4]。結(jié)果表明字的位置向量得到最好的結(jié)果。因此本文的模型中選擇了字的位置向量。對于字的位置向量,它基于字向量同時(shí)也考慮了字的上下文,需要分割詞來獲得字的位置。

      3.2 跨領(lǐng)域?qū)W習(xí)模型

      由于社交媒體領(lǐng)域語料庫和輔助領(lǐng)域語料庫存在差異,因此需要確定輔助領(lǐng)域的句子與社交媒體領(lǐng)域語料庫的相似度。對于跨領(lǐng)域?qū)W習(xí),本文直接對社交媒體領(lǐng)域和輔助領(lǐng)域的數(shù)據(jù)進(jìn)行訓(xùn)練。但是,對于不同領(lǐng)域的句子需要使用不同的學(xué)習(xí)率。因此,學(xué)習(xí)率用相似度函數(shù)自動(dòng)調(diào)整。輸入句子x的學(xué)習(xí)率的計(jì)算公式如下

      其中α0是社交媒體領(lǐng)域內(nèi)句子固定的學(xué)習(xí)率,func( )x,IN 表示域內(nèi)語料IN和句子x的相似度,取值范圍0~1之間。

      在本文的模型中,考慮了三個(gè)不同的函數(shù)來計(jì)算相似度,分別為交叉熵、高斯核函數(shù)和多項(xiàng)式核函數(shù)。

      交叉熵考慮的是句子 x=w1…wn和域內(nèi)n-gram語言模型之間的關(guān)系[14]。交叉熵的相似度計(jì)算如下

      其中C是用于調(diào)整相似度的常數(shù)。

      高斯核函數(shù)計(jì)算相似度的公式如下所示

      其中C是調(diào)整相似度的常數(shù),σ是高斯核函數(shù)的方差,vIN和vx分別表示域內(nèi)數(shù)據(jù)IN和句子x的詞向量,首先使用了word2vec來對大量未注釋的社交媒體的文本進(jìn)行訓(xùn)練并獲取每個(gè)字的位置向量。句子向量是句子中字向量的平均值。語料庫矢量是語料庫中句子向量的平均值。

      多項(xiàng)式核函數(shù)相似度計(jì)算公式如下所示:

      常數(shù)C,向量vIN和vx同高斯核函數(shù)定義一樣。如果d=1,則多項(xiàng)式核函數(shù)為cosθ,其中θ是向量vIN和vx在歐式空間的夾角。

      3.3 半監(jiān)督學(xué)習(xí)模型

      由于手動(dòng)標(biāo)注需要花費(fèi)大量的時(shí)間和人力,因此需要嘗試?yán)梦礃?biāo)注的文本來幫助解決命名實(shí)體識別的訓(xùn)練數(shù)據(jù)。半監(jiān)督學(xué)習(xí)方法的主要目的是在未標(biāo)注的文本中選取最大置信度預(yù)測[15]。本文提出了一種基于句子置信度的半監(jiān)督學(xué)習(xí)模型,該模型基于BLSTM-MMNN算法判定決策邊界。因此,模型中句子的置信度是基于決策邊界的。本文中預(yù)測指的是具有最高的得分的標(biāo)簽序列,其得分大于其它可能的標(biāo)簽序列得分。對于句子x,預(yù)測最高得分的標(biāo)簽序列由式(2)知:

      第二高得分的標(biāo)簽序列為

      因此句子的置信度定義如下:

      由式(10)可知在最高得分序列的決策間距是否大于第二高得分的序列,這樣預(yù)測將更加準(zhǔn)確。

      由上式可知本文的半監(jiān)督學(xué)習(xí)函數(shù)是動(dòng)態(tài)的,因?yàn)槊看蔚岸夹枰?jì)算每個(gè)句子的置信度。根據(jù)置信度公式可知句子的置信度在不同在迭代次數(shù)時(shí)不同。在t次迭代時(shí)未標(biāo)注的句子x的學(xué)習(xí)率計(jì)算如下

      其中at0表示在t次迭代域內(nèi)句子的學(xué)習(xí)率,

      confid(x ,t)在t次迭代時(shí)句子x的置信度。

      3.4 聯(lián)合模型

      在本文的統(tǒng)一模型中,在t次迭代后每個(gè)句子x的學(xué)習(xí)率αt()x計(jì)算公式如下

      其中權(quán)重weight(x,t)是用于調(diào)整句子 x的學(xué)習(xí)率,權(quán)重weight( )x,t定義公式如下

      其中func(x ,IN ) 表示領(lǐng)域外句子x和域內(nèi)語料庫IN之間的相似度,confid(x ,t)是在t次迭代未標(biāo)注句子x的置信度。

      4 實(shí)驗(yàn)結(jié)果及分析

      為了證明本文模型的有效性,我們在數(shù)據(jù)集上進(jìn)行了命名實(shí)體識別實(shí)驗(yàn)。

      4.1 數(shù)據(jù)集

      用于域內(nèi)的命名實(shí)體識別語料庫由標(biāo)注的新浪微博信息組成。該語料庫包含人名,機(jī)構(gòu)名,專有名詞,地名的名稱和名詞。對于領(lǐng)域外語料庫,使用第六屆SIGHAN研討會上進(jìn)行中文處理的MSR語料庫。SIGHAN語料庫包含人名、機(jī)構(gòu)名和地名三種類型命名實(shí)體,是使用中文社交媒體未標(biāo)注的文本從新浪微博爬取的,而且文本用中文字的分詞系統(tǒng)Jieba進(jìn)行分詞。詳細(xì)的微博命名實(shí)體識別語料庫如圖表2所示,對于SIGHAN語料庫詳細(xì)信息見表3。

      4.2 基線數(shù)據(jù)分析

      本文構(gòu)建了兩個(gè)基線,與提出的聯(lián)合模型進(jìn)行比較。第一個(gè)是在微博語料庫中訓(xùn)練和測試的BiLSTM-MMNN模型。第二個(gè)是對輔助領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后對微博數(shù)據(jù)進(jìn)行訓(xùn)練。為了方便起見,使用BiLSTM-MMNN,BILSTM-MMNN+輔助領(lǐng)域和域內(nèi)數(shù)據(jù)合并訓(xùn)練來表示兩個(gè)基線。

      4.3 參數(shù)設(shè)置

      預(yù)訓(xùn)練嵌入詞向量采用了word2vec中的skip-Gram模型。沒有負(fù)采樣,其它采用默認(rèn)設(shè)置。本文使用bigram特征:CnCn+1(n =-2,-1,0,1)andC-1C1。使用窗口方法從詞特征向量中提取較高級別的特征。模型訓(xùn)練使用引入L2正則的隨機(jī)梯度下降法。對于模型中的參數(shù),詞向量的窗口大小為5。詞向量維度、特征向量維度和隱藏向量維度均為100。k損失率為0.2,并且超參數(shù)L2為0.000001,對于學(xué)習(xí)率,默認(rèn)學(xué)習(xí)率α0為0.1衰減率為0.95。在統(tǒng)一模型中設(shè)置學(xué)習(xí)率α0=0.05,并且在BILSTM-MMNN+所有數(shù)據(jù)合并模型中α0=0.003。進(jìn)行了10次迭代訓(xùn)練并選擇最佳預(yù)測用于測試。

      4.4 結(jié)果及分析

      表1顯示了在命名實(shí)體識別任務(wù)中對命名實(shí)體和名詞識別準(zhǔn)確率、召回率、F1值,考慮了未登錄詞的召回率。可看出跨領(lǐng)域和半監(jiān)督學(xué)習(xí)改善了命名實(shí)體識別,聯(lián)合模型效果明顯,還可以看出外領(lǐng)域數(shù)據(jù)有助于改善未登錄詞的召回率。

      表1 在測試數(shù)據(jù)中命名實(shí)體和名詞的識別結(jié)果

      對于跨域?qū)W習(xí),對三個(gè)相似度函數(shù)進(jìn)行實(shí)驗(yàn):交叉熵,高斯核函數(shù),和多項(xiàng)式核函數(shù)。對于所有的相似度函數(shù),設(shè)置調(diào)整幅度常數(shù)C=1。對于交叉熵,使用tri-gram語言模型,對于高斯核函數(shù)設(shè)置方差σ=1,對于多項(xiàng)式核函數(shù),嘗試對d取不同的值發(fā)現(xiàn)當(dāng)d=1時(shí)在命名實(shí)體識別任務(wù)中效果顯著。通過比較三個(gè)相似度函數(shù),發(fā)現(xiàn)多項(xiàng)式核函數(shù)在d=1時(shí)取得最好的結(jié)果,因此多項(xiàng)式核函數(shù)選擇在d=1作為跨域?qū)W習(xí)函數(shù)的相似度計(jì)算。因?yàn)閿?shù)據(jù)集SIGHAN中只包含名稱,模型在名稱識別中有很大的提高,但在名詞識別卻改善不大,后期處理結(jié)合跨領(lǐng)域?qū)W習(xí)函數(shù)和基于BiLSTM-MMNN模型的結(jié)果。該過程將保持對BiLSTM-MMNN對名詞識別的預(yù)測,再用跨領(lǐng)域?qū)W習(xí)模型來調(diào)整名稱實(shí)體預(yù)測。名稱和名詞實(shí)體處理前和處理后的F1值如表4所示。

      圖1 未標(biāo)注數(shù)據(jù)是標(biāo)注數(shù)據(jù)不同倍數(shù)時(shí)的F1值

      表2 詳細(xì)的微博命名實(shí)體識別語料

      表3 SIGHAN命名實(shí)體識別語料

      表4 處理前和處理后結(jié)果的對比

      對于中文社交媒體文本中海量的未標(biāo)注的句子和標(biāo)注的句子有很大的不同。首先選擇具有最高相似度的句子。為了避免選定的句子沒有實(shí)體,使用基本模型來測試并選擇具有/不具有實(shí)體句子的比例。圖一表示未標(biāo)注數(shù)據(jù)是標(biāo)注數(shù)據(jù)不同倍數(shù)下的F1值,可以看出隨著未標(biāo)注數(shù)據(jù)的增多改善了F1值,但并不是未標(biāo)注數(shù)據(jù)越多越好,實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)倍數(shù)為5時(shí)效果最好。因?yàn)槊看蔚靶枰A(yù)測未標(biāo)注的句子,使用了預(yù)訓(xùn)練BiL?STM-MMNN模型的參數(shù)來初始化我們半監(jiān)督學(xué)習(xí)函數(shù)中的參數(shù)。

      因?yàn)榻y(tǒng)一模型使用SIGHAN語料庫,它也面臨跨域?qū)W習(xí)函數(shù)相同的問題,使用相同的后續(xù)過程結(jié)合聯(lián)合模型和半監(jiān)督學(xué)習(xí)的結(jié)果。因?yàn)槁?lián)合模型可以利用領(lǐng)域外的數(shù)據(jù)和域內(nèi)未標(biāo)注的數(shù)據(jù),而半監(jiān)督學(xué)習(xí)需要未標(biāo)注的數(shù)據(jù)?;诎氡O(jiān)督學(xué)習(xí)函數(shù)的預(yù)測建立聯(lián)合模型,為了顯示聯(lián)合模型的優(yōu)勢,我們比較了原始跨域?qū)W習(xí)函數(shù)和統(tǒng)一模型,結(jié)果如表5所示。

      表5 跨領(lǐng)域模型和聯(lián)合模型實(shí)驗(yàn)結(jié)果的比較

      5 結(jié)語

      本文提出了中文社交媒體命名實(shí)體識別的聯(lián)合模型,并對跨領(lǐng)域?qū)W習(xí)模型和半監(jiān)督學(xué)習(xí)模型進(jìn)行詳細(xì)闡述?;谙嗨贫瓤梢詮念I(lǐng)域外語料庫學(xué)習(xí)域外信息,基于半監(jiān)督的置信度模型,該模型通過自我學(xué)習(xí)來訓(xùn)練域內(nèi)未標(biāo)注的文本。該模型大大減小了標(biāo)注語料且實(shí)驗(yàn)表明該模型改善了中文社交媒體的命名實(shí)體識別的效果。

      [1]Peng N,Dredze M.Improving Named Entity Recognition for Chinese Social Media with Word Segmentation Repre?sentation Learning[C]//Meeting of the Association for Computational Linguistics,2016:149-155.

      [2]Sun X,Kashima H Ueda N.Large-Scale Personalized Hu?man Activity Recognition Using Online Multitask Leaning[J].IEEE Transactions on Knowledge and data Engineer?ing,2013,25(11):2551-2563.

      [3]湯步洲.序列標(biāo)注問題的監(jiān)督學(xué)習(xí)方法及應(yīng)用[D].哈爾濱:哈爾濱工業(yè)大學(xué),2011.TANG Buzhou.Squence Labeling:Supervised Learning and Applications[D].Harbin:Harbin Institute of Technol?ogy,2011.

      [4]Peng N,Dredze M.Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings[C]//Con?ference on Empirical Methods in Natural Language Pro?cessing.Association for Computational Linguistics,2011:355-362.

      [5]喬維,孫茂松.基于M~3N的中文分詞與命名實(shí)體識別一體化[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(5):758-762,767.QIAO Wei,SUN Maosong.Joint Chinese word segmenta?tion and named entity recognition based on max-margin Markov networks[J].Journal of Tsinghua University(Sci?ence and Technology),2010(5):758-762,767.

      [6]姜維.統(tǒng)計(jì)中文詞法分析及其強(qiáng)化學(xué)習(xí)機(jī)制的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.JIANG Wei.Statistical Chinese Lexical Analysis and Its Reinforcement Learning Mechanism[D].Harbin:Harbin Institute of Technology,2007.

      [7]黎航宇.跨領(lǐng)域、跨風(fēng)格命名實(shí)體識別技術(shù)研究[D].北京:北京郵電大學(xué),2015.LI Hangyu.Cross-Domain and cross-style Chinese Named Entity Recognition[D].Beijing:Beijing University of Posts and Telecommunications,2015.

      [8]張洪剛,李煥.基于雙向長短時(shí)記憶模型的中文分詞方法[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,(3):61-67.ZHANG Honggang,LI Huan.Chinese Word Segmentation Method on the Basis of Bidirectional Long-Short Term Memory Model[J].Journal of South China University of Technology(Natural Science Edition),2017,(3):61-67.

      [9]張英.基于深度神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析研究[D].鄭州:中原工學(xué)院,2017.ZHANG Ying.The Depath neural network For Microblog Short Text Sentiment Analysis Study[D].Zhengzhou:Zhongyuan University of Technology,2017.

      [10]黃積楊.基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D].南京:南京大學(xué),2016.HUANG Jiyang.Chinese Word Segmentation Analysis based on Bidirectional LSTMN Recurrent Neural Network[D].Nanjing:Nan Jing University,2016.

      [11]李劍風(fēng).融合外部知識的中文命名實(shí)體識別研究及其醫(yī)療領(lǐng)域應(yīng)用[D].哈爾濱:哈爾濱工業(yè)大學(xué),2016.LI Jianfeng.Research on Chinese name-d entity recogni?tion with external knowledge and application in medical field[D].Harbin:Harbin Institute of Technology,2016.

      [12]Axelrod A,He X,Gao J.Domain adaptation via psudo in-domain data selection[C]//Conference on Empirical Methods in Natural Language Processing, 2015:548-554.

      [13]王洪亮.基于詞向量聚類的中文微博產(chǎn)品命名實(shí)體識別[J].蘭州理工大學(xué)學(xué)報(bào),2017(1):104-110.HUANG Hongliang.Named entity recognition of Chinese microblog product based on word-vector clustering[J].Journal of Lanzhou University of Technology,2017(1):104-110.

      [14]Le J,Niu Z D.Chinese Named Entity Recognition Using Improved Bi-gram Model Based on Dynamic Program?ming[J].Knowledge Engineering and Management,2014:441-451.

      [15]夏大偉.基于自訓(xùn)練的決策式依存句法分析技術(shù)的研究[D].沈陽:沈陽航空航天大學(xué),2015.XIA Dawei.Transition-Based Dependency parser Com?bining With Self-Training[D].Shenyang:Shenyang Aerospace University,2015.

      Named Entity Recognition in Chinese Social Media Base on the Unified Model

      YI Li1HUANG Peng1,2PENG YANBING1CHENG Guang3
      (1.Fiberhome Software Science and Technology Co.Ltd,Nanjing 210019)(2.Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074)(3.Department of Computer Science and Engineering,Southeast University,Nanjing 210096)

      Named Entity Recognition(NER)in Chinese social media is important with the development of the internet.Previ?ous methods focus on in-domain supervised learning which is limited by the rare annotated data.However,there are enough corpora in formal domains and massive in-domain unannotated texts which can be used to improve the task.A unified model which can learn from out-of-domain corpora and in-domain unannotated texts is proposed,the unified model contains two major functions,one is for cross-domain learning and the other is for semi-supervised learning.Cross-domain leaning function can learn out-of-domain in?formation based on domain similarity.Semi-Supervised learning function can learn in-domain unannotated information by self-train?ing.Both learning functions outperform existing methods for NER in Chinese social media.Used unified model to experiment get a better result and decrease the workload of manual tagged corpus.

      named entity recognition,social media,cross domain leaning,domain similarity,semi-supervised learning,self-training

      Class Number TP391

      TP391

      10.3969/j.issn.1672-9722.2017.12.017

      2017年6月7日,

      2017年7月10日

      國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)(編號:2015AA015603);國家自然科學(xué)基金項(xiàng)目(編號:61602114)資助。

      易黎,女,碩士,中級工程師,研究方向:大數(shù)據(jù)分析。黃鵬,男,碩士研究生,研究方向:數(shù)據(jù)挖掘、自然語言處理。彭艷兵,男,博士,高級工程師,研究方向:移動(dòng)嵌入式、網(wǎng)絡(luò)安全。程光,男,博士,教授,研究方向:網(wǎng)絡(luò)行為學(xué)。

      猜你喜歡
      置信度命名語料庫
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      《語料庫翻譯文體學(xué)》評介
      正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
      巴林右旗| 溧水县| 烟台市| 都匀市| 确山县| 石泉县| 天水市| 安溪县| 龙岩市| 进贤县| 衡阳县| 常德市| 肥城市| 厦门市| 金门县| 无为县| 双城市| 温泉县| 贵定县| 正安县| 南靖县| 宣城市| 军事| 得荣县| 绥芬河市| 环江| 定结县| 龙泉市| 贵南县| 含山县| 彭泽县| 集安市| 修文县| 南靖县| 积石山| 阳信县| 泾源县| 高唐县| 绿春县| 平谷区| 丰县|