• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度神經(jīng)網(wǎng)絡(luò)的武器名稱識別①

      2018-02-07 02:42:04于銘華
      關(guān)鍵詞:命名實體向量

      游 飛,張 激,邱 定,于銘華

      1(華東計算技術(shù)研究所 系統(tǒng)平臺部,上海 201808)2(華東計算技術(shù)研究所 總師辦,上海 201808)

      科學(xué)技術(shù)的進(jìn)步推進(jìn)著軍事武器裝備的快速更迭,同時信息處理技術(shù)的快速發(fā)展,我軍的高度信息化時代正式到來.在日常軍事訓(xùn)練和行動中,產(chǎn)生了大量的以電子文本形式存在的信息.如何高效自動化地處理這些海量的文本成為急需解決的問題.

      命名實體識別 (Named Entity Recognition,NER)已經(jīng)成為許多自然語言處理應(yīng)用的重要步驟,例如問答系統(tǒng)、信息提取和機(jī)器翻譯[1],是自然語言處理中的一項重要的基礎(chǔ)工作.然而命名實體識別的效果受限于特定的領(lǐng)域和語言,這就需要為不同領(lǐng)域不同語言量身定制一套識別系統(tǒng).

      命名實體識別最初是在第六屆MUC會議作為一個子任務(wù)提出的[2].命名實體識別的主要任務(wù)是識別文本中出現(xiàn)的專有名稱和數(shù)量短語,并對其加以歸類.早期的命名實體基于字典和規(guī)則的方法識別,字典和規(guī)則的編寫需要語言專家的參與,且不能完全覆蓋所有的實體.之后,人們開始提出基于將統(tǒng)計的方法,統(tǒng)計的方法能夠有效的捕捉到命名實體的位置或特征現(xiàn)象,接著用維特比(Viterbi)算法求解最佳的狀態(tài)序列.基于統(tǒng)計方法的優(yōu)點(diǎn)是不需要豐富的語言學(xué)知識、可移植性較好,缺點(diǎn)是需要大量的人工進(jìn)行語料的標(biāo)注.基于統(tǒng)計方法主要的有:Bikel等人[3]最早將隱馬爾科夫(Hidden Markov Model,HMM)方法用于命名實體識別.Ratnaparkhi等人[4]提出最大熵 (Maximum Entropy,EM)模型用于語言分類的問題.

      中文的命名實體的研究緊跟其后,始于上世紀(jì)90年代初.由于語言的特性,中文的命名實體識別的難度較難,效果較差.命名實體識別任務(wù)中涉及到分詞和詞法分析等任務(wù),英文中詞的邊界明顯,詞性特性特征顯著,而中文中存在一詞多義,詞邊界模糊等現(xiàn)象.國內(nèi)的孫茂松等[5]較早地對中文人名進(jìn)行識別.俞鴻魁等[6]基于層疊隱馬爾科夫模型進(jìn)行中文命名實體識別,達(dá)到較高的識別準(zhǔn)確率.姜文志等[7]基于條件隨機(jī)場(Conditional Random Field,CRF)和規(guī)則的方法對軍事命名實體進(jìn)行了識別.

      最近,由于深度學(xué)習(xí)能夠從大量的無標(biāo)記的語料中學(xué)習(xí)特征,利用深度學(xué)習(xí)模型解決命名實體識別已經(jīng)成為的趨勢[8].深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)領(lǐng)域,它能夠通過構(gòu)造深度神經(jīng)網(wǎng)絡(luò) (Deep Neural Networks,DNN)模型學(xué)習(xí)高層的特征[9].Dr.Ronan Collobert等人[10]基于深度神經(jīng)模型處理詞性標(biāo)注、命名實體識別等問題,并取得了當(dāng)時最好水平.

      在軍事信息處理領(lǐng)域,軍事專有名詞的識別是非常重要的一項工作.目前許多軍事信息處理系統(tǒng)的實體基于字典、規(guī)則或統(tǒng)計的方法.本文主要研究詞的向量的表示和詞向量模型的訓(xùn)練,借鑒已有的深度神經(jīng)網(wǎng)絡(luò)模型,在訓(xùn)練集上訓(xùn)練模型,觀察不同參數(shù)下的測試結(jié)果.

      1 深度神經(jīng)網(wǎng)絡(luò)模型

      深度神經(jīng)網(wǎng)絡(luò)從狹義上講是一個具有多層感知機(jī)模型,近些年深度神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用在自然語言處理的許多任務(wù)中并取得了顯著的效果,如:詞性標(biāo)注、命名實體識別、語塊識別等.本文基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建出武器名稱識別的模型.模型的結(jié)構(gòu)如圖1所示.底層是神經(jīng)網(wǎng)絡(luò)的輸入層,即連續(xù)化的詞向量窗口.由于模型的輸入是固定的格式,本文將固定維度的詞向量和詞性向量作為輸入,通過中間隱層的非線性變換,學(xué)習(xí)到高層的特征,即詞的上下文的特征,本文將詞對應(yīng)實體識別的四種狀態(tài),作為網(wǎng)絡(luò)模型的輸出.最后通過再結(jié)合訓(xùn)練集的狀態(tài)轉(zhuǎn)移概率求得句子的最佳標(biāo)注序列.

      圖1 深度神經(jīng)網(wǎng)絡(luò)模型

      1.1 詞向量模型

      將每個詞語表示成一個低維的實數(shù)向量,那么任意兩個詞語之間的距離可以用歐式距離表示.這種特征表示可以解決機(jī)器學(xué)習(xí)中維數(shù)災(zāi)難和局部泛化等問題[10].與傳統(tǒng)的基于統(tǒng)計記錄上下特征的方法相比,它可以更好的捕捉到數(shù)據(jù)之間的固有聯(lián)系,而且不需要進(jìn)行人工標(biāo)注.

      在基于基于詞向量特征的命名實體識別任務(wù)中,常把訓(xùn)練集的單詞W,表示為一個固定維度的列向量,作為深度神經(jīng)的輸入.該向量可以很好的表示句子信息和語義相似度.理想狀態(tài)下,DNN的輸入為若干詞語的存儲矩陣是一個詞語向量的維度,而W是領(lǐng)域詞語字典的大小.在命名實體識別任務(wù)中,當(dāng)前的句子能夠很好的體現(xiàn)的詞語之間的關(guān)聯(lián),而句子之間的詞語關(guān)聯(lián)較弱.因為DNN模型的輸入是固定的格式,本文大小為W的窗口作為輸入,窗口中間是當(dāng)前詞為Mi,則它前后的(k-1/2)個詞語代表它的上下文,即為詞序?qū)τ谖挥诰淝昂途湮驳漠?dāng)前詞,本文動窗口的前部或尾部做隨機(jī)填充處理,考慮到詞性在特定語言中有普遍的規(guī)律,本文選用參考北大計算所詞性標(biāo)注集簡表,選用常用的詞性14個,并將其他詞性視為統(tǒng)一詞性,將窗口中每個詞映射到15維的詞性向量中,并將詞性向量與詞向量拼接,即把這W個詞語的特征向量作為模型的輸入.

      1.2 隱藏層

      兩層隱藏層進(jìn)行非線性變換,變換后的窗口向量為:

      1.3 輸出層

      對于軍事武器名稱識別任務(wù),在給定電子文本中,利用當(dāng)前詞語的上下文環(huán)境,識別該詞是否為武器名稱,故設(shè)計輸出層的節(jié)點(diǎn)個數(shù)為4,對應(yīng)詞語的四個狀態(tài)標(biāo)注值:集合中四種狀態(tài)的含義為:B代表該詞語為武器名稱的第一個詞,I代表武器名稱的中間詞,E代表武器名稱的尾部詞,O代表該詞語不是武器名稱.

      輸出層的輸入來自上層隱藏層的輸出,該輸入為一個h3維的向量z,輸出層的非線性變換為為該層的變換矩陣,b4該層的偏置矩陣,h4為輸出層神經(jīng)單元的個數(shù).變換后得到一個沒有歸一化的h4維向量,本文用Softmax函數(shù)對其進(jìn)行歸一化處理,zi表示輸出向量的第i個值:

      1.4 標(biāo)注推斷

      命名實體識別的輸出是一個狀態(tài)序列標(biāo)記的問題.對于句子的一種標(biāo)記序列為在已知上下文得分和狀態(tài)轉(zhuǎn)移得分的情況下,計算最高得分的標(biāo)記路徑的問題可以通過維特比(Viterbi)算法求解.算法的遞推關(guān)系如下.

      正式啟動并全面推進(jìn)漢江流域加快實施最嚴(yán)格水資源管理制度試點(diǎn)。分解落實漢江“三條紅線”、及時完善了漢江水量分配成果、提出了多種保護(hù)區(qū)劃分方案等,進(jìn)一步完善了漢江流域用水總量、用水效率控制指標(biāo)體系。組織完成了漢江、嘉陵江、岷江、沱江、赤水河水量分配方案,啟動了金沙江、烏江、牛欄江河流水量分配方案工作。加強(qiáng)水功能區(qū)管理,積極推進(jìn)水功能區(qū)監(jiān)測、評估、考核與管理體系建設(shè)。編制完成了《南水北調(diào)中線一期工程水量調(diào)度方案》,完成了沙沱、魯?shù)乩?、瀑布溝?0個工程蓄水計劃和調(diào)度方案審查,加強(qiáng)了節(jié)水型社會建設(shè)。

      初始化:

      遞推關(guān)系:

      2 參數(shù)訓(xùn)練

      式中λ為學(xué)習(xí)率,取其值為0.02.為下降的梯度,參數(shù)的估計采用最大似然估計的方法,即:

      為了避免在訓(xùn)練過程中出現(xiàn)參數(shù)過擬合的發(fā)生,在模型的每層激活函數(shù)加入dropout正則化,dropout的參數(shù)設(shè)置為0.2.

      3 實驗結(jié)果和分析

      3.1 實驗設(shè)置

      在詞的向量表示部分,本文采用開源工具包word2 vec,該工具實現(xiàn)了Mikolov等人提出的連續(xù)詞袋(constant bag of words)模型[11,12]的向量表示.該模型的訓(xùn)練語料來自搜狐實驗室全網(wǎng)中文新聞數(shù)據(jù)(SogouCA)2012年6月至7月的語(http://www.Sogou.com/labs/resource/ca.php),大小共計 711MB.使用北京大學(xué)計算語言學(xué)研究所的云分詞服務(wù)對該語料進(jìn)行分詞后,利用word2vec學(xué)習(xí)詞語的向量表示,詞向量的維度為100維至400維,步長為60維.

      由于目前沒有較權(quán)威開放的中文軍事語料[13],本文爬取環(huán)球軍事網(wǎng)、中華網(wǎng)等軍事網(wǎng)站文章共7500篇,對武器名稱進(jìn)行標(biāo)注后作為實驗語料,隨機(jī)抽取其中80%(6000篇文章)作為訓(xùn)練集,剩下的20%(1500篇文章)作為測試數(shù)據(jù).本實驗設(shè)置3組實驗.

      實驗一.利用詞向量表示模型,對訓(xùn)練集進(jìn)行詞的向量表示,設(shè)置詞性向量維數(shù)為15,將其與詞向量拼接作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入.標(biāo)注推斷僅考慮詞的上下文得分.構(gòu)建并訓(xùn)練4層神經(jīng)網(wǎng)絡(luò)模型,各層神經(jīng)單元個數(shù)為 250,150,100,4.在詞向量的維度訓(xùn)練上,設(shè)置維度在100至400之間,步長為60,觀測試驗結(jié)果.

      實驗二.利用詞向量表示模型,對訓(xùn)練集進(jìn)行詞的向量表示.設(shè)置詞性向量維數(shù)為15,將其與詞向量拼接作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入.標(biāo)注推斷僅考慮詞的上下文得分.構(gòu)建并訓(xùn)練5層神經(jīng)網(wǎng)絡(luò)模型,各層神經(jīng)單元個數(shù)為 250,200,150,100,4.設(shè)置詞向量的維度為280,觀測試驗結(jié)果.

      實驗三.利用詞向量表示模型,對訓(xùn)練集進(jìn)行詞的向量表示.設(shè)置詞性向量維數(shù)為15,將其與詞向量拼接作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入.標(biāo)注推斷結(jié)合詞的上下文得分和狀態(tài)轉(zhuǎn)移得分.構(gòu)建并訓(xùn)練5層神經(jīng)網(wǎng)絡(luò)模型,各層神經(jīng)單元個數(shù)為 250,200,150,100,4.設(shè)置詞向量的維度為280,觀測試驗結(jié)果.

      3.2 實驗結(jié)果

      本實驗以F-1值作為實驗評判標(biāo)準(zhǔn)準(zhǔn)確F-1值表示如下:

      對三組實驗結(jié)果做如下分析.

      圖2表示詞向量維數(shù)的增加,F-1值的變化情況.在維度為100至400之間,F-1值緩慢上升.在維度為 280 時達(dá)到最大,為 0.9021,在 340 維度時,有所下降.這說明詞向量的維度不是越大越好,它存在局部最優(yōu)值,這可能與文本長度和文本詞語分布有關(guān).

      圖2 不同緯度下 F-1 值的分布

      在詞向量表示的最優(yōu)維度(280維)的情況下,表1是三組不同實驗情況下的F-1值.試驗二的F-1值為0.9076,較實驗一(280維)的識別效果提升了0.609%,說明增加一層隱層捕獲了更多的特征信息.實驗三的F-1值為0.9102,較實驗二的識別效果提升了0.396%,說明融合狀態(tài)的轉(zhuǎn)移得分,可以提升命名實體的性能.

      表1 三組試驗結(jié)果 F-1 值

      4 總結(jié)

      我國擁有漫長的國界線和海岸線,提升軍事信息智能處理能力具有重要的戰(zhàn)略意義.命名實體識別作為自然語言處理的重要一環(huán),是軍事信息化建設(shè)上的基礎(chǔ),如智能問答、信息提取、輿情分析等.本文針對軍事文本中常出現(xiàn)的幾類武器名詞,提出了基于詞向量特征利用深度神經(jīng)網(wǎng)絡(luò)模型,再融合詞性和狀態(tài)轉(zhuǎn)移得分的特征,在測試數(shù)據(jù)集上達(dá)到0.9102的識別精準(zhǔn)度.

      由于實驗基于移動窗口來代表詞語的前后文,移動窗口不能捕獲詞語在句子中的特征.下一步待改進(jìn)的是如何捕獲基于語義的特征,以及如何減少深層網(wǎng)絡(luò)的訓(xùn)練時間.

      1 McCallum A,Li W. Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons. Proceedings of the Seventh Conference on Natural Language Learning at Hlt-Naacl.Edmonton,Canada.2003.188–191.

      2 Grishman R,Sundheim B. Message understanding conference-6:A brief history. Proceedings of the 16th Conference on Computational Linguistics. Copenhagen,Denmark.1996.466–471.

      3 Bikel DM,Schwartz R,Weischedel RM.An algorithm that learns what’s in a name.Machine Learning,1999,34(1-3):211–231.

      4 Ratnaparkhi A.A simple introduction to maximum entropy models for natural language processing. IRCS Technical Reports.Pennsylvania:University of Pennsylvania,1997.

      5 孫茂松,黃昌寧,高海燕,等.中文姓名的自動辨識.中文信息學(xué)報,1995,9(2):16–27.

      6 俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實體識別.通信學(xué)報,2006,27(2):87–94.

      7 姜文志,顧佼佼,叢林虎.CRF與規(guī)則相結(jié)合的軍事命名實體識別研究.指揮控制與仿真,2011,33(4):13–15.

      8 Collobert R,Weston J,Bottou L,et al.Natural language processing (Almost)from scratch.The Journal of Machine Learning Research,2011,12(1):2493–2537.

      9 Hinton GE,Salakhutdinov RR.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504–507.[doi:10.1126/science.1127647]

      10 Mansur M,Pei W,Chang B.Feature-based neural language model and chinese word segmentation.Proceedings of the 6th International Joint Conference on Natural Language Processing.Nagoya,Japan,2013:1271–1277.

      11 Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space. Computer Science,2013.

      12 Mikolov T,Sutskever I,Chen K,et al. Distributed representations of words and phrases and their compositionality.Advances in Neural Information Processing Systems,2013,(26):3111–3119.

      13 馮蘊(yùn)天,張宏軍,郝文寧.面向軍事文本的命名實體識別.計算機(jī)科學(xué),2015,42(7):15–18.[doi:10.11896/j.issn.1002-137X.2015.07.004]

      猜你喜歡
      命名實體向量
      向量的分解
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      聚焦“向量與三角”創(chuàng)新題
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
      振興實體經(jīng)濟(jì)地方如何“釘釘子”
      向量垂直在解析幾何中的應(yīng)用
      饶阳县| 团风县| 长宁区| 马公市| 长泰县| 买车| 隆林| 巴楚县| 和平县| 通榆县| 荔波县| 桑日县| 澄迈县| 叙永县| 普陀区| 沙田区| 陆良县| 台州市| 平陆县| 栖霞市| 皋兰县| 长垣县| 泾川县| 剑阁县| 安庆市| 进贤县| 梁山县| 屏东县| 荔浦县| 东方市| 武鸣县| 青岛市| 陆良县| 利川市| 含山县| 韶关市| 离岛区| 甘南县| 申扎县| 淮北市| 水富县|