• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別

      2018-04-26 05:32:49孫娟娟于紅馮艷紅彭松程名盧曉黎董婉婷崔榛
      關(guān)鍵詞:分詞字符命名

      孫娟娟,于紅,馮艷紅,彭松,程名,盧曉黎,董婉婷,崔榛

      (大連海洋大學(xué)信息工程學(xué)院,遼寧省海洋信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧大連116023)

      漁業(yè)命名實(shí)體識(shí)別是對(duì)漁業(yè)領(lǐng)域文本進(jìn)行深層次分析的基礎(chǔ),對(duì)漁業(yè)領(lǐng)域問(wèn)答系統(tǒng)、輿情分析等研究具有重要意義[1]。早期命名實(shí)體的識(shí)別主要采用基于規(guī)則的方式,周昆[2]使用預(yù)先定義的規(guī)則來(lái)抽取各種類別的實(shí)體,程志剛[3]采用基于規(guī)則和條件隨機(jī)場(chǎng)的方法來(lái)進(jìn)行中文命名實(shí)體識(shí)別研究?;谝?guī)則的命名實(shí)體識(shí)別方法需要富有經(jīng)驗(yàn)的專家總結(jié)規(guī)則,模型的穩(wěn)定性依賴專家的知識(shí)結(jié)構(gòu),不同專家給出的規(guī)則之間可能會(huì)存在矛盾。為克服基于規(guī)則的命名實(shí)體識(shí)別的不足,Bengio[4]提出了基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法。李麗雙等[5]利用信息熵和詞頻變化對(duì)汽車領(lǐng)域的術(shù)語(yǔ)進(jìn)行識(shí)別,馮艷紅等[6]將領(lǐng)域術(shù)語(yǔ)特征和語(yǔ)義特征融入到CRF模型中,完成對(duì)漁業(yè)領(lǐng)域術(shù)語(yǔ)的識(shí)別。這些方法在不同領(lǐng)域的語(yǔ)料上均取得了較好效果,但在訓(xùn)練時(shí)需要事先設(shè)計(jì)針對(duì)特定領(lǐng)域的特征,使用人工定義的特征作為模型輸入,模型的效果嚴(yán)重依賴特征的選擇,泛化能力不強(qiáng)。

      為避免人工選擇特征在命名實(shí)體識(shí)別方面的不足,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別成為研究的熱點(diǎn)。深度學(xué)習(xí)的核心技術(shù)是用詞向量表達(dá)文本中詞語(yǔ)的特征[7]。謝逸等[8]利用CNN和LSTM訓(xùn)練詞語(yǔ)的分布式特征;毛存禮等[9]利用基于降噪自動(dòng)編碼器獲取用于有色金屬領(lǐng)域?qū)嶓w識(shí)別的最優(yōu)特征向量組合;候偉濤等[10]使用雙向LSTM神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的隱藏特征用于醫(yī)療事件識(shí)別。這些方法均使用深度學(xué)習(xí)模型進(jìn)行特征學(xué)習(xí),在相應(yīng)領(lǐng)域的命名實(shí)體識(shí)別中均獲得了較好效果。但是由于中文缺少明顯的空格標(biāo)記,需要做分詞處理,而現(xiàn)有的分詞方法對(duì)于特定領(lǐng)域的專業(yè)術(shù)語(yǔ)分詞錯(cuò)誤率很高。為解決高分詞錯(cuò)誤率對(duì)實(shí)體識(shí)別任務(wù)的影響,Lu等[11]采用word embeddings的向量表示方法,將每個(gè)中文字符轉(zhuǎn)換成對(duì)應(yīng)的character embedding向量;Dong等[12]采用基于字符級(jí)別的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實(shí)體識(shí)別。但這些方法均是針對(duì)通用領(lǐng)域進(jìn)行的模型選擇和參數(shù)設(shè)置,未考慮漁業(yè)領(lǐng)域命名實(shí)體的結(jié)構(gòu)特點(diǎn),直接用于漁業(yè)領(lǐng)域命名實(shí)體效果不理想。

      目前,漁業(yè)領(lǐng)域命名實(shí)體識(shí)別主要存在以下問(wèn)題:第一,現(xiàn)有的分詞工具主要用于通用領(lǐng)域分詞,用于漁業(yè)領(lǐng)域分詞時(shí)效果不佳,很多漁業(yè)領(lǐng)域?qū)I(yè)詞會(huì)被錯(cuò)分,這將嚴(yán)重影響基于分詞的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別的準(zhǔn)確性;第二,漁業(yè)領(lǐng)域的命名實(shí)體一般長(zhǎng)度較長(zhǎng),組成命名實(shí)體的字之間存在很強(qiáng)的相關(guān)關(guān)系,單一的網(wǎng)絡(luò)結(jié)構(gòu)不能很好地刻畫這種依賴關(guān)系。針對(duì)上述問(wèn)題,在前人研究的基礎(chǔ)上,為避免分詞不準(zhǔn)確對(duì)漁業(yè)領(lǐng)域命名實(shí)體識(shí)別帶來(lái)的影響,本研究中采用訓(xùn)練字向量的方式代替詞向量,利用LSTM模型保持較長(zhǎng)時(shí)間記憶信息,解決傳統(tǒng)方法無(wú)法捕捉長(zhǎng)命名實(shí)體前后文隱含信息的缺點(diǎn)。最后,結(jié)合CRF可以利用句子級(jí)別的標(biāo)記信息訓(xùn)練實(shí)體分類器,旨在提高漁業(yè)領(lǐng)域命名實(shí)體的識(shí)別效果。

      1 漁業(yè)領(lǐng)域命名實(shí)體識(shí)別框架

      針對(duì)漁業(yè)領(lǐng)域命名實(shí)體的結(jié)構(gòu)特點(diǎn)提出了如圖1所示的命名實(shí)體識(shí)別模型。

      圖1 漁業(yè)領(lǐng)域命名實(shí)體識(shí)別模型框架Fig.1 Frame work of fishery domain named entity recognition

      模型由3部分組成:字符向量化層、LSTM網(wǎng)絡(luò)層、CRF推理層。字符向量化層用于把組成文本序列的字符ci轉(zhuǎn)化為用于模型訓(xùn)練的字符向量xi;針對(duì)漁業(yè)領(lǐng)域命名實(shí)體一般長(zhǎng)度較長(zhǎng)的特點(diǎn),使用LSTM網(wǎng)絡(luò)層獲取更多的語(yǔ)義信息,提取漁業(yè)領(lǐng)域命名實(shí)體包含上下文的特征向量hi;CRF推理層能夠通過(guò)動(dòng)態(tài)規(guī)劃的最優(yōu)路徑推理計(jì)算,把提取到的特征向量變換為字符對(duì)應(yīng)的標(biāo)簽yi。針對(duì)漁業(yè)領(lǐng)域命名實(shí)體識(shí)別任務(wù)采用BIESO標(biāo)記方案[13],即B用來(lái)表示漁業(yè)領(lǐng)域命名實(shí)體的第一個(gè)字符,I用來(lái)表示漁業(yè)領(lǐng)域命名實(shí)體的內(nèi)部字符,E表示漁業(yè)領(lǐng)域命名實(shí)體的結(jié)尾字符,S表示單個(gè)字符獨(dú)立組成漁業(yè)領(lǐng)域命名實(shí)體,O表示不是漁業(yè)領(lǐng)域命名實(shí)體中的字符。

      1.1 字符向量層

      要將文本交由計(jì)算機(jī)處理,首先要將文本向量化。文本向量化有兩種表示方法:one-h(huán)ot表示和分布式表示[14]。one-h(huán)ot表示沒有考慮文本之間的相互關(guān)系,且容易遭受維數(shù)災(zāi)難的影響;分布式表示是以低維度的向量來(lái)表示字,讓相關(guān)的字在語(yǔ)義上更接近。為獲取漁業(yè)領(lǐng)域命名實(shí)體內(nèi)部字符之間的語(yǔ)義結(jié)構(gòu)特征,并回避領(lǐng)域分詞對(duì)實(shí)體識(shí)別結(jié)果的影響,本研究中采用分布式表示方法來(lái)進(jìn)行字符向量化表示。分布式表示包括CBOW模型[15-16]和Skip-gram模型。CBOW在訓(xùn)練效率上高于Skipgram,故本研究中采用CBOW模型來(lái)訓(xùn)練字的分布式特征。

      本研究中訓(xùn)練字向量的數(shù)據(jù)來(lái)自 《水產(chǎn)辭典》和海洋領(lǐng)域標(biāo)準(zhǔn)文檔。經(jīng)過(guò)預(yù)處理后得到約92萬(wàn)字符,以7∶3的比例分成訓(xùn)練集和測(cè)試集。CBOW模型的框架如圖2所示。

      圖2 CBOW模型結(jié)構(gòu)Fig.2 CBOW model structure

      以文本序列 “水產(chǎn)養(yǎng)殖學(xué)”為例,模型的任務(wù)是通過(guò)字符 “養(yǎng)”的上下文 “水產(chǎn)殖學(xué)”,來(lái)預(yù)測(cè)所有字符出現(xiàn)的概率,目標(biāo)是使中心字符 “養(yǎng)”出現(xiàn)的概率最大。模型的輸入是 w(i-c),w(i-c+1), …,w(i+c-1), w(i+c), 表示字符 ci上下文對(duì)應(yīng)的字向量,c為窗口大小,表示在字符ci的前后各取c個(gè)字;映射層將2c個(gè)字向量求和得到wsum,輸出層神經(jīng)單元的個(gè)數(shù)為訓(xùn)練集字典大小n,每個(gè)神經(jīng)元的值代表字典中每個(gè)詞出現(xiàn)的概率,中心字符向量wi出現(xiàn)的概率越大模型效果越好。

      目標(biāo)函數(shù)為

      其中:p(wi|wi-c, wi-c+1, …, wi+c-1, wi+c) 是給定上下文 wi-c, wi-c+1, …, wi+c-1, wi+c條件下 wi出現(xiàn)的概率。通過(guò)對(duì)目標(biāo)函數(shù)的訓(xùn)練,每個(gè)字都獲取到了一個(gè)對(duì)應(yīng)的m維字向量xi,一般來(lái)說(shuō)維度越高,模型的效果越好,但是訓(xùn)練成本也會(huì)越高,此處根據(jù)經(jīng)驗(yàn)選定m為100維。

      1.2 LSTM網(wǎng)絡(luò)

      通過(guò)對(duì)大量漁業(yè)領(lǐng)域的命名實(shí)體進(jìn)行分析,發(fā)現(xiàn)漁業(yè)領(lǐng)域的命名實(shí)體一般長(zhǎng)度較長(zhǎng),組成命名實(shí)體的相鄰字符間存在著很強(qiáng)的相關(guān)關(guān)系。圖3為《水產(chǎn)辭典》[17]中5194條專業(yè)術(shù)語(yǔ)字符組成個(gè)數(shù)的統(tǒng)計(jì)情況。

      由圖3可以看出,組成漁業(yè)領(lǐng)域命名實(shí)體的字符個(gè)數(shù)集中在3~7之間,這些字符的特征向量很大程度上依賴上文信息。RNN模型[18]具有保持之前信息的能力,其最大特點(diǎn)是神經(jīng)元的某些輸出可作為其輸入再次傳入到神經(jīng)元中,其鏈?zhǔn)浇Y(jié)構(gòu)很適合處理漁業(yè)領(lǐng)域命名實(shí)體識(shí)別任務(wù)的長(zhǎng)序列問(wèn)題。但是在訓(xùn)練中存在梯度爆炸和消失問(wèn)題,難以保持較長(zhǎng)時(shí)間的記憶。

      圖3 《水產(chǎn)辭典《漁業(yè)領(lǐng)域命名實(shí)體字符組成個(gè)數(shù)統(tǒng)計(jì)圖Fig.3 Statistical graph of the number of characters in“Fishery Lexicon”

      LSTM模型就是為了解決RNN模型存在的問(wèn)題而設(shè)計(jì)的,它可以實(shí)現(xiàn)記住長(zhǎng)期信息的能力[19]。相較于RNN模型單一的重復(fù)鏈?zhǔn)侥K,LSTM模型擁有不同的結(jié)構(gòu),LSTM細(xì)胞狀態(tài)的更新過(guò)程如圖4所示。

      圖4 LSTM模型結(jié)構(gòu)Fig.4 LSTM model structure

      LSTM模型通過(guò)特有的Gates結(jié)構(gòu)來(lái)保持和更新細(xì)胞狀態(tài),以達(dá)到長(zhǎng)期記憶功能。

      (1)遺忘門。從當(dāng)前細(xì)胞狀態(tài)中忘記無(wú)用信息,輸入由當(dāng)前層輸入xt+1和上層輸出ht組成:

      其中:wf為對(duì)各部分信息的記憶權(quán)重;bf為漁業(yè)領(lǐng)域的先驗(yàn)知識(shí);at+1為0~1之間的實(shí)數(shù),控制不同部分信息傳遞的比例。

      (2)輸入門。控制哪部分信息應(yīng)該被記住,輸入包括 xt+1和ht兩部分:

      其中:wi、bi與wf、bf表示的含義相同,但有不同的值,通過(guò)值的不同控制哪些信息應(yīng)該被記住,哪些信息應(yīng)該忘記,舊的細(xì)胞狀態(tài)和新的候選信息一起組成新的細(xì)胞狀態(tài)。

      (3)輸出門。決定最后的輸出信息,先使用sigmoid函數(shù)決定要輸出細(xì)胞狀態(tài)的部分信息,然后用tanh處理細(xì)胞狀態(tài),兩部分信息的乘積得到輸出值,即

      通過(guò)LSTM網(wǎng)絡(luò)處理,漁業(yè)數(shù)據(jù)集得到了最優(yōu)的向量化表示hi,為之后的標(biāo)簽推理做準(zhǔn)備。

      1.3 CRF模型

      在LSTM網(wǎng)絡(luò)層之后接入一個(gè)線性層,將特征向量映射到k維,k是標(biāo)注集的標(biāo)簽數(shù),記作矩陣p =(p1, p2, …, pn) ∈Rn×k, n 是訓(xùn)練集中字符長(zhǎng)度。把pi∈Rk的每一維pij視為將字xi分類到第j個(gè)標(biāo)簽的打分值。為了描述標(biāo)簽間的依賴,引入CRF層[20]進(jìn)行句子級(jí)別的序列標(biāo)注。CRF層的參數(shù)是一個(gè)k×k的轉(zhuǎn)移得分矩陣A,其中Aij表示從第i個(gè)標(biāo)簽轉(zhuǎn)移到第j個(gè)標(biāo)簽的得分,這樣在為一個(gè)位置進(jìn)行標(biāo)注的時(shí)候可以利用之前已經(jīng)標(biāo)注過(guò)的標(biāo)簽。對(duì)于句子長(zhǎng)度為n的標(biāo)簽序列y= (y1,y2,…,yn),模型對(duì)于句子x的標(biāo)簽y的打分為

      可以看出,整個(gè)序列的打分等于各個(gè)位置的打分之和,而各個(gè)位置的打分由得分矩陣和轉(zhuǎn)移矩陣組成。模型訓(xùn)練時(shí)通過(guò)最大化得分函數(shù),即可求得文本的最佳得分序列。

      2 結(jié)果與分析

      2.1 試驗(yàn)環(huán)境、數(shù)據(jù)和評(píng)價(jià)指標(biāo)

      本研究中的試驗(yàn)環(huán)境為intell(R)Core i3-4150 CPU 3.5GHz處理器,4.00 GB內(nèi)存,操作系統(tǒng)為Ubuntu 14.04 64 bit。字符向量化由實(shí)現(xiàn)了CBOW模型的開源Word2VEC[21]訓(xùn)練得到,LSTM網(wǎng)絡(luò)層由Keras 0.33實(shí)現(xiàn)。

      本研究中試驗(yàn)數(shù)據(jù)來(lái)源于課題組已收集的漁業(yè)領(lǐng)域文檔,分別為 《水產(chǎn)辭典》和海洋漁業(yè)領(lǐng)域的國(guó)家和地方標(biāo)準(zhǔn)文檔。《水產(chǎn)辭典》分為漁業(yè)資源、水產(chǎn)捕撈、水產(chǎn)養(yǎng)殖等10個(gè)類別,去掉文中特殊符號(hào)和插圖,得到約55萬(wàn)字的文本;標(biāo)準(zhǔn)文檔包括海水養(yǎng)殖類文檔和水產(chǎn)品類文檔,選取167篇,經(jīng)過(guò)預(yù)處理后得到約37萬(wàn)字的文本。所以漁業(yè)領(lǐng)域語(yǔ)料共有約92萬(wàn)字的文本。

      實(shí)體識(shí)別評(píng)價(jià)指標(biāo)采用準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)(F值), 其計(jì)算公式為

      其中:P、R、F的值介于0和1之間;P和R的值越接近1,準(zhǔn)確率或召回率越高;F為P和R的均衡平均數(shù),表達(dá)了實(shí)體識(shí)別的綜合效果。

      2.2 試驗(yàn)設(shè)計(jì)及結(jié)果

      為驗(yàn)證本研究中提出的模型對(duì)漁業(yè)領(lǐng)域?qū)嶓w識(shí)別的效果,分別設(shè)置了如下3組試驗(yàn)。

      試驗(yàn)1:不同模型對(duì)漁業(yè)領(lǐng)域?qū)嶓w識(shí)別結(jié)果的比較。表 1分別給出了 LSTM模型、Character+LSTM+Softmax模型及Character+LSTM+CRF模型的識(shí)別效果。

      表1 不同模型對(duì)漁業(yè)領(lǐng)域命名實(shí)體識(shí)別效果比較Tab.1 Comparison of different models for identification effect in fishery domain %

      從表1可以看出:LSTM模型識(shí)別效果較差,Character+LSTM+Softmax模型的識(shí)別效果較LSTM模型高出1.26%;Character+LSTM+CRF的識(shí)別效果較LSTM有1.93%提升,這表明本研究中提出的基于深度學(xué)習(xí)的模型較LSTM模型在漁業(yè)領(lǐng)域命名實(shí)體識(shí)別任務(wù)上有較好的效果。

      試驗(yàn)2:分別以字和詞構(gòu)造的Embedding向量對(duì)模型識(shí)別效果進(jìn)行比較。為了證明基于字向量的深度學(xué)習(xí)模型能有效避免分詞不準(zhǔn)確對(duì)漁業(yè)領(lǐng)域命名實(shí)體識(shí)別帶來(lái)的影響,試驗(yàn)分別測(cè)試了以中文字符構(gòu)造的Character Embeddings向量和以中文詞語(yǔ)構(gòu)造的Word Embeddings向量作為深度學(xué)習(xí)模型的輸入進(jìn)行漁業(yè)領(lǐng)域命名實(shí)體識(shí)別試驗(yàn)。表2說(shuō)明了以字特征來(lái)構(gòu)造embeddings向量比以詞特征來(lái)構(gòu)造的Embeddings向量能有效提升模型的識(shí)別效果。

      表2 Word Embeddings和Character Embeddings識(shí)別效果比較Tab.2 Comparison of Word Embeddings and Character Embeddings for identification effect in fishery domain %

      試驗(yàn)3:對(duì)比不同時(shí)間步長(zhǎng)對(duì)深度學(xué)習(xí)模型實(shí)體識(shí)別效果的影響。通過(guò)試驗(yàn)1和試驗(yàn)2,可以得出結(jié)論:采用字向量構(gòu)造的文本向量層結(jié)合LSTM和CRF模型可以有效提升漁業(yè)領(lǐng)域命名實(shí)體識(shí)別的效果。本試驗(yàn)在保證其他條件保持相同的情況下,設(shè)置了3組參照試驗(yàn)來(lái)對(duì)比不同時(shí)間步長(zhǎng)(3、5、7)對(duì)結(jié)果的影響。

      表3 不同時(shí)間步長(zhǎng)識(shí)別效果比較Tab.3 Comparison of different timesteps for identification effect in fishery domain %

      從表3可以看出,在保持深度學(xué)習(xí)模型其他條件相同的情況下,時(shí)間步長(zhǎng)設(shè)為5能達(dá)到最好的識(shí)別效果,這與 《水產(chǎn)辭典》中實(shí)體的字符組成個(gè)數(shù)結(jié)果相吻合。通過(guò)對(duì)文獻(xiàn)[22]漁業(yè)數(shù)據(jù)的分析,證明了一個(gè)字與它最臨近的5個(gè)字在句法語(yǔ)義上具有非常強(qiáng)的相關(guān)關(guān)系,也由此說(shuō)明了本研究中試驗(yàn)結(jié)果的合理性。

      3 結(jié)論

      針對(duì)漁業(yè)領(lǐng)域命名實(shí)體識(shí)別面臨的問(wèn)題,提出了一種基于深度學(xué)習(xí)模型的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別方法。該方法利用訓(xùn)練字向量的方法代替訓(xùn)練詞向量,有效避免了采用傳統(tǒng)分詞工具分詞不準(zhǔn)確對(duì)漁業(yè)領(lǐng)域命名實(shí)體識(shí)別結(jié)果的影響;選擇可以記住上文信息的LSTM模型作為隱藏層,解決了漁業(yè)領(lǐng)域命名實(shí)體結(jié)構(gòu)較長(zhǎng)的問(wèn)題;最后使用CRF作為標(biāo)簽推理層解決文本序列標(biāo)簽依賴問(wèn)題。在已有的漁業(yè)數(shù)據(jù)上進(jìn)行試驗(yàn),試驗(yàn)結(jié)果證明了本文提出Character+LSTM+CRF模型的有效性?;谏疃葘W(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別模型Character+LSTM+CRF也可推廣到與漁業(yè)領(lǐng)域有相似特點(diǎn)的領(lǐng)域,具有一定的通用性。

      參考文獻(xiàn):

      [1] 閻笑彤,徐翔,郭顯久,等.基于WEB的水產(chǎn)養(yǎng)殖病害診斷專家系統(tǒng)[J].大連海洋大學(xué)學(xué)報(bào),2016,31(2):225-230.

      [2] 周昆.基于規(guī)則的命名實(shí)體識(shí)別研究[D].合肥:合肥工業(yè)大學(xué),2010.

      [3] 程志剛.基于規(guī)則和條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別方法研究[D].武漢:華中師范大學(xué),2015.

      [4] Bengio Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-27.

      [5] 李麗雙,王意文,黃德根.基于信息熵和詞頻分布變化的術(shù)語(yǔ)抽取研究[J].中文信息學(xué)報(bào),2015,29(1):82-87.

      [6] 馮艷紅,于紅,孫庚,等.基于詞向量和條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2016,36(11):3146-3151.

      [7] Mnih A,Hinton G.A scalable hierarchical distributed language model[C]//Proceedings of the 21st International Conference on Neural Information Processing Systems.British:Curran Associates Inc,2008:1081-1088.

      [8] 謝逸,饒文碧,段鵬飛,等.基于CNN和LSTM混合模型的中文詞性標(biāo)注[J].武漢大學(xué)學(xué)報(bào):理學(xué)版,2017,63(3):246-250.

      [9] 毛存禮,余正濤,沈韜,等.基于深度神經(jīng)網(wǎng)絡(luò)的有色金屬領(lǐng)域?qū)嶓w識(shí)別[J].計(jì)算機(jī)研究與發(fā)展,2015,52(11):2451-2459.

      [10] 候偉濤,姬東鴻.基于Bi-LSTM的醫(yī)療事件識(shí)別研究[J].計(jì)算機(jī)應(yīng)用研究,2018,35(7),http://www.arocmag.com/article/02-2018-07-019.html.(優(yōu)先出版)

      [11] Lu J,Ye M,Tang Z,et al.A novel method for Chinese named entity recognition based on Character vector[M]//Guo S,Liao X,Liu F.Collaborative Computing:Networking,Applications,and Worksharing.Cham:Springer,2016.

      [12] Dong C H,Zhang J J,Zong C Q,et al.Character-based LSTMCRF with radical-level features for Chinese named entity recognition[M]//Lin C Y,Xue N,Zhao D.Natural Language Understanding and Intelligent Applications.Cham:Springer,2016.

      [13] Collobert R,Weston J,Bottou L,et al.Natural language processing(almost)from scratch[J].Journal of Machine Learning Research,2011,12:2461-2505.

      [14] 溫瀟.分布式表示與組合模型在中文自然語(yǔ)言處理中的應(yīng)用[D].南京:東南大學(xué),2016.

      [15] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv:1301.3781,2013.

      [16] Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems.Lake Tahoe,Nevada:Curran Associates Inc,2013:3111-3119.

      [17] 水產(chǎn)辭典編輯委員會(huì).水產(chǎn)詞典[M].上海:上海辭書出版社.

      [18] Mikolov T,Karafiát M,Burget L,et al.Recurrent neural network based language model[C]//INTERSPEECH 2010,Conference of the International Speech Communication Association.Makuhari,Chiba,Japan:DBLP,2010:1045-1048.

      [19] Sak H,Senior A,Beaufays F.Long short-term memory recurrent neural network architectures for large scale acoustic modeling[C]//15th Annual Conference of the International Speech Communication Association.Singapore:ISCA Archive,2014:338-342.

      [20] He H F,Sun X.F-score driven max margin neural network for named entity recognition in Chinese social media[J].arXiv:1611.04234,2017.

      [21] Word2VEC[EB/OL].[2015-09-08].https://github.com/NLPchina/Word2VEC_java.

      [22] 王蘭.基于維基百科的漁業(yè)知識(shí)庫(kù)構(gòu)建研究[D].上海:上海海洋大學(xué),2014.

      猜你喜歡
      分詞字符命名
      尋找更強(qiáng)的字符映射管理器
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      結(jié)巴分詞在詞云中的應(yīng)用
      消失的殖民村莊和神秘字符
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      值得重視的分詞的特殊用法
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      404 Not Found

      404 Not Found


      nginx
      丹凤县| 新兴县| 民勤县| 河津市| 梁平县| 白银市| 游戏| 双峰县| 林甸县| 抚松县| 醴陵市| 麻江县| 广河县| 莱州市| 峨眉山市| 金沙县| 嘉禾县| 当雄县| 偃师市| 醴陵市| 安西县| 阳泉市| 海兴县| 永和县| 昔阳县| 互助| 措美县| 白朗县| 即墨市| 浦江县| 清新县| 昌邑市| 沭阳县| 南投市| 遵义县| 化德县| 麻栗坡县| 颍上县| 通道| 淮滨县| 乳源|