• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于Word2Vec的訓(xùn)練效果優(yōu)化策略研究

      2018-02-27 03:11:39
      關(guān)鍵詞:分詞語料語義

      王 飛 譚 新

      1(解放軍外國(guó)語學(xué)院 河南 洛陽 471003) 2(91709部隊(duì) 吉林 琿春 133300)

      0 引 言

      Word2Vec是Mikolov等[1]在2013 年開發(fā)的一款語言處理工具包,它能夠在訓(xùn)練語言模型的同時(shí)將詞表示成分布式詞向量。Word2Vec相關(guān)的國(guó)外文獻(xiàn)[2-5]和國(guó)內(nèi)學(xué)者針對(duì)Word2Vec所作的各類分析研究文獻(xiàn)[6-8]較為全面地介紹了Word2Vec的設(shè)計(jì)原理及其訓(xùn)練思想,對(duì)它的計(jì)算模型進(jìn)行了整理和說明。這些研究?jī)?nèi)容對(duì)詞表示研究和自然語言處理相關(guān)任務(wù)解決方案設(shè)計(jì)有很大幫助。深度學(xué)習(xí)在文本處理中最大的進(jìn)展是為詞匯的語義表示帶來了突破。通過學(xué)習(xí)得到低維度稠密性實(shí)數(shù)值詞向量來表示語義,將特征表示從離散的one-hot向量表示轉(zhuǎn)換為連續(xù)的低維稠密向量表示(也叫分布式表示),能夠大大壓縮one-hot表示中離散的維度,將更多的語義信息蘊(yùn)含于每一維數(shù)值中,增加了不同向量的語義關(guān)聯(lián)性。

      1 Word2Vec模型研究

      Mikolov等[1]開發(fā)的Word2Vec工具在訓(xùn)練詞向量方面表現(xiàn)突出,它產(chǎn)生的分布式詞向量成為了語義表示強(qiáng)有力的工具,一個(gè)詞可以通過刻畫它的各種屬性來高效表示,屬性又與多個(gè)概念相關(guān)聯(lián)。每個(gè)詞既包含從上位詞繼承來的公有屬性,也包含自身所有的私有屬性,具有較好的語言學(xué)特性,可在很多模型和任務(wù)中發(fā)揮作用。分布式詞表示是文本處理領(lǐng)域的基礎(chǔ)和核心,許多基于詞匯語義處理的工作在應(yīng)用了分布式詞表示后都取得了一定程度的提升。一個(gè)好的詞向量可以作為輸入應(yīng)用于現(xiàn)有的機(jī)器學(xué)習(xí)系統(tǒng)來改善訓(xùn)練效果,例如詞性標(biāo)注、句法分析、機(jī)器翻譯和情感分析等任務(wù)。Mikolov等[2]通過Word2Vec產(chǎn)生的分布式詞向量進(jìn)行語義距離的計(jì)算發(fā)現(xiàn),分布式詞向量對(duì)于發(fā)現(xiàn)語料內(nèi)上下文中語義距離最近的詞效果很好,并且根據(jù)語義的線性偏移較好地預(yù)測(cè)相關(guān)詞。Word2Vec模型沒有考慮詞序以及習(xí)慣用語的表示,所以訓(xùn)練簡(jiǎn)單高效,依靠大語料和迭代運(yùn)算來彌補(bǔ)詞序等方面帶來的不足。分布式詞表示作為文本處理領(lǐng)域的基礎(chǔ),可以直接用于現(xiàn)有的機(jī)器學(xué)習(xí)系統(tǒng),完成自然語言處理各方面的任務(wù)以提升性能。Word2Vec建立語言模型本質(zhì)上就是從語言外部考慮了目標(biāo)詞與上下文的關(guān)系,通過淺層神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,根據(jù)目標(biāo)詞預(yù)測(cè)上下文或者根據(jù)上下文預(yù)測(cè)目標(biāo)詞,同時(shí)統(tǒng)計(jì)詞頻信息,最后得到了分布式詞向量表示,詞向量中包含著上下文信息的語義關(guān)系,屬于數(shù)據(jù)密集型科學(xué)范式。Word2Vec在大規(guī)模語料的條件下訓(xùn)練效果良好,可以通過向量空間計(jì)算余弦距離進(jìn)行語義相似度計(jì)算,來尋找語義相似度高的詞。近兩年,很多工作圍繞分布式詞向量展開,在詞向量的基礎(chǔ)上提出了句向量、段落向量、實(shí)體和關(guān)系向量等?;诓煌Z言單位的分布式向量表示,有研究者[15-16]又嘗試了詞向量的不同組合方式,從簡(jiǎn)單加和線性組合到復(fù)雜的非線性組合,目的是為了找到語義信息豐富且準(zhǔn)確的向量表示,發(fā)現(xiàn)語義組合的規(guī)律,以便在更多應(yīng)用領(lǐng)域中發(fā)揮作用。本文在深入理解Word2Vec的設(shè)計(jì)原理和它的訓(xùn)練思想的基礎(chǔ)上,研究影響Word2Vec訓(xùn)練效果的多種因素,在基于特定領(lǐng)域語料的情況下,通過分詞預(yù)處理,設(shè)置維度參數(shù),選擇混合算法等環(huán)節(jié),嘗試發(fā)現(xiàn)能夠優(yōu)化Word2Vec性能的策略,在具體任務(wù)中生成更好的詞向量,對(duì)相關(guān)研究工作提供支持。

      1.1 Word2Vec解析

      Bengio等[9]在2003年提出了一種神經(jīng)概率語言模型,其中包含四個(gè)層次,分別為輸入層、投影層、隱藏層和輸出層。Word2Vec以神經(jīng)概率語言模型為基礎(chǔ)構(gòu)建,主要有三點(diǎn)不同:1) Word2Vec簡(jiǎn)化成了一個(gè)三層的神經(jīng)網(wǎng)絡(luò),只包含輸入層-投影層-輸出層;2) 從輸入層到投影層的操作中,神經(jīng)概率語言模型是將輸入詞向量進(jìn)行拼接,而Word2Vec則是將輸入詞向量累加求和;3) 神經(jīng)概率語言模型的輸出層是線性結(jié)構(gòu),而Word2Vec的Hierarchical Softmax算法模型的輸出層則采用了霍夫曼樹結(jié)構(gòu)。

      1.2 語言模型

      Word2Vec為訓(xùn)練詞向量提供了連續(xù)詞袋(CBOW)和skip-gram[4]兩種模型,在訓(xùn)練每種模型的時(shí)候又分HS和NEG兩種方法。除了Google官網(wǎng)上的開源的C語言版Word2Vec工具,又出現(xiàn)了其他語言版本,其中Python版的Word2Vec包含在Gensim工具包中,在其最新版的Gensim-0.12.3中,已經(jīng)實(shí)現(xiàn)了Word2Vec原版中的兩種訓(xùn)練模型和兩種算法,并對(duì)原版代碼進(jìn)行了優(yōu)化。

      1.2.1 CBOW模型

      CBOW(Continuous Bag-of-Words Model)模型是通過上下文來預(yù)測(cè)當(dāng)前詞出現(xiàn)的概率。假設(shè)當(dāng)前詞w的上下文Context(w)是由w的前后各c個(gè)詞所構(gòu)成的,那么三層的情況則分別為:1) 輸入層,其中包含了Context(w)中2c個(gè)詞的詞向量;2) 投影層,將輸入層的2c個(gè)詞向量進(jìn)行累加求和;3) 輸出層,采用Hierarchical Softmax技術(shù),以語料中出現(xiàn)過的詞作為葉子節(jié)點(diǎn),以詞頻作為權(quán)重構(gòu)造一棵霍夫曼樹。

      Hierarchical Softmax是Word2Vec中的一種關(guān)鍵技術(shù)[3],它將同一層次的多分類情況轉(zhuǎn)化為多層二分類,從而降低了復(fù)雜度。它的思想是每一次分類都存在一個(gè)概率,將通往葉子節(jié)點(diǎn)路徑中每次二分類的概率相乘,就是p(w|Context(w))。

      1.2.2 Skip-gram模型

      Skip-gram模型是根據(jù)當(dāng)前詞w預(yù)測(cè)它的上下文,因此所求的概率就轉(zhuǎn)化為p(Context(w)|w)。Skip-gram模型在處理文本時(shí),采取跳過一些詞取共現(xiàn)詞的方法,能夠捕捉到與當(dāng)前詞非直接相連的詞之間的關(guān)系。Skip-gram模型結(jié)構(gòu)為:1) 輸入層中包含的是當(dāng)前詞w的詞向量;2) 因?yàn)橹挥幸粋€(gè)輸入向量,沒有累加計(jì)算,投影層將詞向量v(w)恒等投射到輸出層;3) 輸出層與CBOW相同,也構(gòu)造了一棵霍夫曼樹。

      1.3 Negative Sampling算法

      Word2Vec的CBOW和Skip-gram模型中,除了Hierarchical Softmax模型外,Mikolov等[3]還提出了Negative Sampling(通常簡(jiǎn)稱為NEG),它是 Noise Contrastive Estimation(NCE)的一個(gè)簡(jiǎn)化版本。NCE的本質(zhì)是根據(jù)已知的概率密度函數(shù)來估計(jì)未知的概率密度函數(shù)。與Hierarchical Softmax相比,NEG模型中的輸出層沒有采用霍夫曼樹,而采用了相對(duì)簡(jiǎn)單的隨機(jī)負(fù)采樣;NEG不對(duì)目標(biāo)詞w路徑的中間節(jié)點(diǎn)進(jìn)行更新,而是隨機(jī)選取部分中間節(jié)點(diǎn)對(duì)其權(quán)重進(jìn)行更新。這些設(shè)計(jì)特點(diǎn)提高了模型的訓(xùn)練速度和詞向量的質(zhì)量。

      2 Word2Vec訓(xùn)練效果研究

      2.1 影響Word2Vec訓(xùn)練的因素分析

      以Word2Vec為基礎(chǔ),為訓(xùn)練得到準(zhǔn)確性更高的詞向量,有研究[10]提出了兩個(gè)可能會(huì)提升Word2Vec訓(xùn)練效果的問題:1) 對(duì)于中文語料,必須進(jìn)行分詞預(yù)處理,不同的分詞結(jié)果對(duì)Word2Vec的訓(xùn)練效果有何影響;2) 在Word2Vec中Hierarchical Softmax和Negative Sampling是兩種不同的優(yōu)化算法,如果混合使用這兩種算法對(duì)Word2Vec的訓(xùn)練效果有何影響。目前對(duì)這兩個(gè)問題的研究尚無公開文獻(xiàn),在多篇Word2Vec相關(guān)論文中也只是分別介紹了兩種優(yōu)化算法,并未提及混合算法的模式及效果。在Word2Vec進(jìn)行詞向量訓(xùn)練的過程中,首先需要分詞語料作為輸入,再通過優(yōu)化算法進(jìn)行輸出,這是訓(xùn)練過程中的兩個(gè)緊密結(jié)合的環(huán)節(jié)。對(duì)這兩個(gè)問題進(jìn)行研究,有助于提升Word2Vec的性能和詞向量的訓(xùn)練精度,使查詢出來的相關(guān)詞更加準(zhǔn)確,為其他應(yīng)用提供支持。另外,調(diào)整參數(shù),混合兩種算法模式的過程更能加深對(duì)Word2Vec設(shè)計(jì)思路的還原,根據(jù)設(shè)計(jì)思想的啟發(fā)可以嘗試將其用在更多的應(yīng)用領(lǐng)域。基于此,本文提出三個(gè)工作假設(shè):1) 分詞器準(zhǔn)確率越高,詞向量訓(xùn)練效果越好;2) 切分出來的詞匯語義完整性越高,詞向量訓(xùn)練效果越好;3) 混合算法訓(xùn)練效果優(yōu)于單一算法,產(chǎn)生的詞向量準(zhǔn)確性高。

      為了驗(yàn)證以上假設(shè),為使得語料對(duì)訓(xùn)練的影響最小化,本文選取南海相關(guān)領(lǐng)域新聞?wù)Z料分別進(jìn)行測(cè)試,保證了語料的純度,根據(jù)測(cè)試結(jié)果進(jìn)行比較詞向量的優(yōu)劣。

      2.2 解決方案

      為發(fā)現(xiàn)優(yōu)化Word2Vec性能的策略,訓(xùn)練生成一個(gè)準(zhǔn)確性更高的詞向量這一研究目的,本文的工作主要有:1) 針對(duì)同一語料用三種不同的分詞器進(jìn)行分詞,對(duì)分詞結(jié)果進(jìn)行訓(xùn)練,將訓(xùn)練出的詞向量結(jié)合分詞器本身的評(píng)測(cè)結(jié)果進(jìn)行綜合對(duì)比評(píng)估,得出結(jié)論;2) 對(duì)一種分詞器的分詞結(jié)果通過調(diào)整參數(shù)設(shè)置實(shí)現(xiàn)單一算法和混合算法策略的訓(xùn)練,采用平均準(zhǔn)確率對(duì)訓(xùn)練出的詞向量進(jìn)行評(píng)估,得出結(jié)論。

      3 實(shí)驗(yàn)設(shè)計(jì)

      3.1 實(shí)驗(yàn)環(huán)境及語料來源

      本實(shí)驗(yàn)采用了兩種版本的Word2Vec,分別是Windows環(huán)境下Python語言的gensim-0.12.3和Ubuntu 14.04環(huán)境下c語言版。Windows環(huán)境下不能直接調(diào)用python版Word2Vec,需要編寫接口文件。分詞實(shí)驗(yàn)時(shí),需要為分詞器編寫接口文件,以及用于去除標(biāo)點(diǎn)符號(hào)和特殊字符的分詞預(yù)處理文件。

      來斯惟等[11]研究表明,語料的領(lǐng)域性越強(qiáng),語料越純,訓(xùn)練出的詞向量準(zhǔn)確性越高。本實(shí)驗(yàn)主要考察分詞效果和算法使用的準(zhǔn)確性,盡可能排除其他因素的干擾,故實(shí)驗(yàn)語料來源于新浪、網(wǎng)易等大型門戶網(wǎng)站中的南海及釣魚島相關(guān)新聞?wù)Z料,語料范圍都屬于中國(guó)領(lǐng)海問題領(lǐng)域,具有針對(duì)性。時(shí)間集中在2012年,語料大小為86 MB,共計(jì)22 000篇文章。根據(jù)語料內(nèi)容,結(jié)合詞頻統(tǒng)計(jì)信息,通過該領(lǐng)域?qū)<易罱K選取了十個(gè)關(guān)鍵詞作為查詢?cè)~,以便評(píng)測(cè)使用。十個(gè)查詢?cè)~為:南海、中國(guó)、菲律賓、越南、釣魚島、沖突、黃巖島、海軍、主權(quán)、南沙群島。

      3.2 Word2Vec主要參數(shù)設(shè)置

      在Word2Vec的訓(xùn)練過程中,主要涉及以下幾個(gè)參數(shù)[12],如表1所示。

      表1 Word2Vec主要訓(xùn)練參數(shù)

      同時(shí),根據(jù)來斯惟等[11]研究發(fā)現(xiàn),做具體 NLP 任務(wù)的時(shí)候,詞向量大于50 維之后效果提升就比較少了,并且維數(shù)越大,訓(xùn)練時(shí)間就越長(zhǎng)。綜合考慮,本實(shí)驗(yàn)將訓(xùn)練維數(shù)設(shè)置為100維。根據(jù)已有資料[13]的建議,skip-gram窗口大小設(shè)置為8。

      3.3 分詞效果實(shí)驗(yàn)設(shè)計(jì)

      本實(shí)驗(yàn)中采用了三種分詞器,分別是ICTCLAS2013漢語分詞系統(tǒng),Python下的插件“jieba”分詞器,以及清華大學(xué)THULAC中文詞法分析包。實(shí)驗(yàn)步驟:1) 導(dǎo)入生語料C,將形式為多篇TXT文檔的訓(xùn)練語料置于一個(gè)文件夾內(nèi)。2) 采用不同分詞器進(jìn)行分詞,分別利用編寫好的接口文件對(duì)語料進(jìn)行分詞處理,詞與詞之間由空格隔開,去掉標(biāo)點(diǎn)符號(hào),最后分別得到三個(gè)長(zhǎng)文本形式的分詞語料:C-ict、C-jb和C-th。3) 利用gensim-0.12.3中內(nèi)置的Word2Vec對(duì)三個(gè)分詞語料進(jìn)行訓(xùn)練,訓(xùn)練參數(shù)設(shè)置為:size=100,window=8,min_count=5,sg=1,hs=1,cbow=0,negative=0,sample=0。訓(xùn)練完畢后得到3個(gè)不同的訓(xùn)練模型:M-ict、M-jb和M-th。4) 根據(jù)模型輸入查詢?cè)~,Word2vec返回與查詢?cè)~語義最相近的前20個(gè)詞,人工對(duì)這20個(gè)詞進(jìn)行相關(guān)性標(biāo)注,再進(jìn)行分析計(jì)算。通過實(shí)驗(yàn)觀察,Word2vec返回的相關(guān)詞排序超過一定數(shù)量之后,與查詢?cè)~的余弦距離值就比較大了,體現(xiàn)在具體含義上,相關(guān)性就很小了。同時(shí)考慮到觀察者對(duì)查詢結(jié)果的關(guān)注度一般不會(huì)超過當(dāng)前終端顯示,因此實(shí)驗(yàn)中將相關(guān)詞數(shù)量設(shè)定為20。

      實(shí)驗(yàn)流程如圖1所示。

      圖1 不同分詞結(jié)果實(shí)驗(yàn)流程

      3.4 單個(gè)與混合模型算法對(duì)比實(shí)驗(yàn)設(shè)計(jì)

      實(shí)驗(yàn)步驟:1) 導(dǎo)入分好詞的語料,形式為詞與詞之間用空格隔開的長(zhǎng)文本,在本實(shí)驗(yàn)中采用的是jieba分詞器進(jìn)行分詞的文本C-jb。2) 在使用Python版Word2Vec訓(xùn)練時(shí)發(fā)現(xiàn),調(diào)用negative算法訓(xùn)練時(shí)效率非常低,處理速度在10 word/s以內(nèi)。故在Ubuntu14.04環(huán)境下用C語言版Word2Vec進(jìn)行詞向量訓(xùn)練。通用參數(shù)設(shè)置為:size=100,window=8,min_count=5,sample=1e-3。實(shí)驗(yàn)劃分成八個(gè)實(shí)驗(yàn)組,分別采用單一加速算法(sg+hs,cbow+hs,sg+negative-20,cbow+negative-20),以及混合加速算法(sg+negative-20+hs,cbow+negative-20+hs)對(duì)C-jb文本進(jìn)行訓(xùn)練。訓(xùn)練完畢后得到6個(gè)不同的訓(xùn)練模型:M1-M6。3) 根據(jù)模型查詢相關(guān)詞,獲取與其相關(guān)詞的前20個(gè),并人工進(jìn)行相關(guān)性標(biāo)注,再進(jìn)行分析計(jì)算。

      混合算法實(shí)驗(yàn)流程如圖2所示。

      圖2 單個(gè)與混合模型對(duì)比實(shí)驗(yàn)流程

      3.5 評(píng)測(cè)方法與評(píng)測(cè)步驟

      3.5.1 評(píng)測(cè)方法

      由于Word2vec的訓(xùn)練過程是無監(jiān)督的,對(duì)于相關(guān)詞向量的查詢,詞向量的評(píng)價(jià)大體上可以分成兩種方式:第一種是將詞向量輸入現(xiàn)有系統(tǒng)中,例如機(jī)器翻譯、情感分析等任務(wù),通過觀察系統(tǒng)性能的提升來評(píng)價(jià)詞向量的好壞;第二種是從語言學(xué)的角度對(duì)詞向量進(jìn)行分析,如相似度、語義偏移等。 Mikolov 根據(jù)語義偏移現(xiàn)象構(gòu)建了測(cè)試集,使用類比(analogy)的方式來評(píng)測(cè)。由于沒有一個(gè)標(biāo)準(zhǔn)的評(píng)測(cè)準(zhǔn)則,本實(shí)驗(yàn)中以基本詞的相似度來做評(píng)測(cè)。在語料領(lǐng)域固定,詞向量維度固定的情況下,只考察分詞以及混合算法對(duì)詞向量的影響是可以達(dá)到評(píng)測(cè)效果的。評(píng)測(cè)過程為分別輸入10個(gè)查詢?cè)~,Word2vec返回與查詢?cè)~語義最相近的前20個(gè)詞,人工對(duì)這20個(gè)詞進(jìn)行相關(guān)性標(biāo)注,計(jì)算平均查準(zhǔn)率的均值MAP(Mean Average Precision)。MAP平均查準(zhǔn)率的均值計(jì)算公式如下:

      (1)

      式中:參數(shù)Q是提問式的個(gè)數(shù),N表示查詢?cè)~的個(gè)數(shù),在本實(shí)驗(yàn)中,由于每次查詢均只查詢一個(gè)詞,故Q=N=10。AveP(q)代表了第q個(gè)查詢的平均查準(zhǔn)率:

      (2)

      式中:r表示默認(rèn)返回的相關(guān)詞個(gè)數(shù),M為第i個(gè)實(shí)際相關(guān)詞的位置。在本實(shí)驗(yàn)中r為word2vec返回的相關(guān)詞個(gè)數(shù),r=20。M為第i個(gè)人工選取出的實(shí)際相關(guān)詞的位置。

      采用MAP值作為評(píng)測(cè)標(biāo)準(zhǔn)不僅考慮了查詢?cè)~的相關(guān)性,還考慮了相關(guān)詞在整個(gè)查詢中的排序,在查詢中相關(guān)詞的排序越靠前,MAP值就越高。同僅計(jì)算查詢?cè)~的相關(guān)性比較,MAP值能更加客觀有效地反映訓(xùn)練的效果。

      3.5.2 評(píng)測(cè)步驟

      評(píng)測(cè)步驟如下:1) 向Word2Vec導(dǎo)入訓(xùn)練模型;2) 取10個(gè)關(guān)鍵詞查詢集合Q={q1,q2,…,q10},查詢出與關(guān)鍵詞相關(guān)的前20個(gè)詞構(gòu)成集合D,對(duì)D進(jìn)行人工相關(guān)性標(biāo)注,相關(guān)的標(biāo)注為2,不相關(guān)標(biāo)注為1;3) 根據(jù)MAP的計(jì)算公式計(jì)算出相關(guān)結(jié)果,進(jìn)行對(duì)比分析。

      4 實(shí)驗(yàn)結(jié)果及分析

      4.1 分詞結(jié)果對(duì)Word2Vec訓(xùn)練效果的影響

      4.1.1 評(píng)測(cè)結(jié)果

      對(duì)10個(gè)關(guān)鍵詞的查詢結(jié)果計(jì)算得出MAP值如表2所示。

      表2 相關(guān)詞查詢的MAP值

      4.1.2 結(jié)果分析與問題

      1) 通過圖3的比較可知ICTCLAS分詞結(jié)果的訓(xùn)練效果最好,平均查準(zhǔn)率均值超過了0.5,較jieba分詞器和THULAC都高。

      圖3 不同分詞結(jié)果查詢MAP值比較

      根據(jù)之前的假設(shè),分詞準(zhǔn)確率越高,訓(xùn)練效果越好。結(jié)合清華大學(xué)所做的包括THULAC在內(nèi)幾款分詞器評(píng)測(cè)[14],ICTCLAS在微軟研究評(píng)測(cè)集及北京大學(xué)評(píng)測(cè)集上的準(zhǔn)確率均不如THULAC,但其召回率均高于THULAC,由此可見,word2vec訓(xùn)練效果實(shí)際上與分詞器的召回率成正相關(guān)。

      2) 觀察THULAC和jieba的分詞結(jié)果,發(fā)現(xiàn)THULAC的分詞結(jié)果語義完整性更高,因此其平均查準(zhǔn)率較高。例如對(duì)“釣魚島”一詞進(jìn)行查詢,THULAC反饋的結(jié)果中第一個(gè)就是“尖閣群島”,而jieba分詞的結(jié)果中,是將“尖閣”一詞單獨(dú)切分出來,語義信息不完整,相關(guān)性較低,由此驗(yàn)證了第二個(gè)假設(shè)。

      本實(shí)驗(yàn)得出以下結(jié)論:1) ICTCLAS分詞系統(tǒng)更適用于本語料的相關(guān)詞查詢;2) 分詞結(jié)果對(duì)于Word2Vec的訓(xùn)練結(jié)果具有一定的影響,分詞召回率越高,Word2Vec的訓(xùn)練結(jié)果就越好;3) 分詞結(jié)果語義信息越完整,訓(xùn)練效果越好。

      4.2 單個(gè)與混合模型的訓(xùn)練效果對(duì)比及分析

      4.2.1 評(píng)測(cè)結(jié)果

      對(duì)M1-M6訓(xùn)練模型進(jìn)行查詢給出的10個(gè)關(guān)鍵詞,評(píng)測(cè)結(jié)果如表3和圖4所示。

      表3 不同算法相關(guān)詞查詢結(jié)果

      圖4 單個(gè)與混合模型查詢結(jié)果MAP值

      4.2.2 結(jié)果分析與問題

      1) 通過表3和圖4可以看出混合模型算法在平均查準(zhǔn)率的均值上要優(yōu)于單個(gè)模型算法。特別是在sg算法與混合模型算法搭配時(shí),詞向量的平均查準(zhǔn)率有較大的提升。sg算法以單詞周圍出現(xiàn)的單詞作為上下文,假設(shè)如果兩個(gè)單詞上下文相似,則這兩個(gè)單詞就相似,即使這兩個(gè)單詞可能從未同時(shí)出現(xiàn)在一段文本范圍內(nèi)。該算法建模了單詞間的縱向關(guān)系,更加適合處理涉及單詞自身的各種應(yīng)用。負(fù)采樣最終的詞向量表示是通過極大對(duì)數(shù)似然估計(jì)得到。在此情況下,使用了負(fù)采樣的sg模型,對(duì)于單詞wi以及其上下文cj,目標(biāo)函數(shù)如下[13]:

      (3)

      2) 根據(jù)實(shí)驗(yàn)結(jié)果分析,進(jìn)一步閱讀Word2Vec C語言版的源碼,解析并還原了源碼中調(diào)用兩種優(yōu)化算法的核心架構(gòu)和流程,發(fā)現(xiàn)hs和neg兩種算法沒有采取并行計(jì)算,而是順序調(diào)用,在hs算法結(jié)果的基礎(chǔ)上用neg算法對(duì)結(jié)果進(jìn)一步疊加優(yōu)化。解析出算法整體架構(gòu)如圖5所示。

      圖5 混合算法訓(xùn)練架構(gòu)

      3) 本實(shí)驗(yàn)中,進(jìn)行查詢的詞大都是語料中的常見的實(shí)體名,通過圖4,可以分析出在進(jìn)行實(shí)體名查詢時(shí),采用cbow+negative+hs的算法得到的效果是最好的,最差的是sg+negative。進(jìn)一步分析其原因,發(fā)現(xiàn)這與算法的特性是相符的。在相關(guān)文獻(xiàn)[4]中提到,cbow和negative算法對(duì)常見詞有利,而sg與softmax對(duì)罕見詞有利,并且sg和negative搭配使用得出的結(jié)果精度不高。實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了這個(gè)結(jié)論。

      本實(shí)驗(yàn)得出以下結(jié)論:1) 混合模型算法在訓(xùn)練效果上優(yōu)于單個(gè)模型算法,并澄清了混合算法的流程架構(gòu),根據(jù)算法特性得出混合算法的最優(yōu)適用策略。2) 在進(jìn)行常見的實(shí)體名查詢時(shí)采用cbow+hs+negative的算法可以得到最好的效果。

      5 結(jié) 語

      本文在解析了Word2Vec的基本算法及其原理,通過多個(gè)試驗(yàn)對(duì)影響其訓(xùn)練精度的因素進(jìn)行了研究,得到了以下結(jié)論:1) 發(fā)現(xiàn)分詞結(jié)果的召回率和語義完整性對(duì)詞向量訓(xùn)練效果有重要影響,對(duì)未來的應(yīng)用提供了分詞系統(tǒng)選擇的依據(jù);2) 發(fā)現(xiàn)混合模型算法訓(xùn)練效果普遍優(yōu)于單一模型算法,在針對(duì)特定領(lǐng)域語料訓(xùn)練時(shí)得出Word2Vec的優(yōu)化策略;3) cbow+negative+hs的混合模式最適合于常見實(shí)體名的查詢。

      在基于領(lǐng)域本體的任務(wù)中可以跟據(jù)語料的特點(diǎn)選用適當(dāng)?shù)姆衷~器和相應(yīng)的算法組合來訓(xùn)練質(zhì)量更高的詞向量。一個(gè)好的詞向量可以作為輸入應(yīng)用于現(xiàn)有的機(jī)器學(xué)習(xí)系統(tǒng)來改善訓(xùn)練效果,例如詞性標(biāo)注、句法分析、機(jī)器翻譯和情感分析等任務(wù)。詞向量包含了詞的語義,可以用來完成分類、聚類等任務(wù),也可以進(jìn)行詞的相似度計(jì)算,利用其在向量空間的位置,可以進(jìn)行關(guān)系挖掘,相關(guān)詞發(fā)現(xiàn)等工作。它的設(shè)計(jì)思想還可應(yīng)用在社交網(wǎng)絡(luò)中的推薦,計(jì)算商品的相似度和短文本的快速檢索中。

      本實(shí)驗(yàn)研究了分詞器以及加速算法設(shè)置對(duì)Word2Vec訓(xùn)練的影響,在本文的基礎(chǔ)上,還可以從以下幾個(gè)方面研究Word2Vec性能的改進(jìn)和應(yīng)用:1) Word2Vec中沒有考慮詞序等語言學(xué)特征,如果能將更多的語言學(xué)特征(例如依存關(guān)系)引入其訓(xùn)練過程中,可能對(duì)提升訓(xùn)練效果有幫助;2) 訓(xùn)練出的詞向量中存在語言學(xué)線性平移特性,可以根據(jù)該性質(zhì)進(jìn)行推理,挖掘相關(guān)實(shí)體,如知識(shí)圖譜的補(bǔ)全;3) 詞向量之間存在著一定的同義關(guān)系和上下位關(guān)系,如何將語義本體知識(shí)加入到詞向量的構(gòu)建中,使詞向量包含更豐富的語義本體信息,將會(huì)提升知識(shí)表示學(xué)習(xí)。

      [1] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.

      [2] Mikolov T,Yih W T,Zweig G.Linguistic regularities in continuous space word representations[C]//NAACL HLT 2013-2013 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Proceedings of the Main Conference,2013:746-751.

      [3] Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and their Compositionality[J].Advances in Neural Information Processing Systems,2013,26:3111-3119.

      [4] Mikolov T,Le Q V,Sutskever I.Exploiting Similarities among Languages for Machine Translation[J].Computer Science,2013.

      [5] Goldberg Y,Levy O.word2vec Explained:deriving Mikolov et al.’s negative-sampling word-embedding method[J].Eprint Arxiv,2014.

      [6] 熊富林,鄧怡豪,唐曉晟.Word2vec的核心架構(gòu)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2015(1):43-48.

      [7] 鄭文超,徐鵬.利用word2vec對(duì)中文詞進(jìn)行聚類的研究[J].軟件,2013(12):160-162.

      [8] 周練.Word2vec的工作原理及應(yīng)用探究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2015(2):145-148.

      [9] Bengio Y,Schwenk H,Senécal J S,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.

      [10] Peghoty.Word2Vec中的數(shù)學(xué)原理詳解[OL].(2014-07-21).http://www.cnblogs.com/peghoty/archive/2014/07/21/3857839.html.

      [11] Lai S W,Liu K,He S Z,et al.How to Generate a Good Word Embedding?[J].IEEE Intelligent Systems,2016,31(6):5-14.

      [12] Rong X.word2vec Parameter Learning Explained[J].Computer Science,2014.

      [13] Beck_zhou.word2vec使用指導(dǎo)[OL].(2014-04-22).http://blog.csdn.net/zhoubl668/article/details/24314769.

      [14] 清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室.THULAC:一個(gè)高效的中文詞法分析工具包[OL].(2016-03-31).http://thulac.thunlp.org/.

      [15] Gershman S J,Tenenbaum J B.Phrase similarity in humans and machines[C]//Proceedings of the 37th Annual Conference of the Cognitive Science Society,2015:776-781.

      [16] Blacoe W,Lapata M.A comparison of vector-based representations for semantic composition[C]//Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Association for Computational Linguistics,2012:546-556.

      [17] Cao K,Rei M.A Joint Model for Word Embedding and Word Morphology[C]//The Workshop on Representation Learning for Nlp,2016:18-26.

      [18] Levy O,Goldberg Y.Neural word embedding as implicit matrix factorization[J].Advances in Neural Information Processing Systems,2014,3:2177-2185.

      [19] Fu R,Guo J,Qin B,et al.Learning Semantic Hierarchies via Word Embeddings[C]//Meeting of the Association for Computational Linguistics,2014:1199-1209.

      [20] Chen Y,Perozzi B,Alrfou R,et al.The Expressive Power of Word Embeddings[J].Computer Science,2013.

      [21] Bian J,Gao B,Liu T Y.Knowledge-Powered Deep Learning for Word Embedding[M]//Machine Learning and Knowledge Discovery in Databases,2014:132-148.

      [22] Rothe S,Schütze H.AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes[J].Computer Science,2015.

      [23] Shazeer N,Pelemans J,Chelba C.Skip-gram Language Modeling Using Sparse Non-negative Matrix Probability Estimation[J].Computer Science,2014.

      猜你喜歡
      分詞語料語義
      語言與語義
      結(jié)巴分詞在詞云中的應(yīng)用
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      值得重視的分詞的特殊用法
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      認(rèn)知范疇模糊與語義模糊
      《苗防備覽》中的湘西語料
      國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      来凤县| 金溪县| 呈贡县| 元朗区| 望江县| 独山县| 左云县| 正定县| 珲春市| 兴山县| 怀集县| 湄潭县| 洛川县| 图木舒克市| 奈曼旗| 偏关县| 博野县| 芮城县| 博客| 罗甸县| 米易县| 开远市| 马龙县| 新密市| 安义县| 嘉兴市| 锦州市| 江达县| 汝南县| 鸡东县| 和田县| 鲁甸县| 恩施市| 晴隆县| 天台县| 杂多县| 神池县| 林甸县| 马鞍山市| 台中县| 福清市|