• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于主題-詞向量的多粒度特征協(xié)同表達(dá)多義詞研究

      2021-09-09 08:19:38汪靜徐昶王瑩瑩
      現(xiàn)代計(jì)算機(jī) 2021年19期
      關(guān)鍵詞:多義詞語(yǔ)義向量

      汪靜,徐昶,王瑩瑩

      (1.湖北廣播電視大學(xué)軟件工程學(xué)院,武漢 430074;2.湖北廣播電視大學(xué)導(dǎo)學(xué)中心,武漢 430074)

      0 引言

      隨著移動(dòng)終端的普及和網(wǎng)絡(luò)的高速發(fā)展,人們?cè)诿襟w平臺(tái)上自由發(fā)表評(píng)論,由此產(chǎn)生了大量文本數(shù)據(jù)。如何從爆發(fā)式增長(zhǎng)的文本中篩選出有效信息是當(dāng)前的研究熱點(diǎn),而文本自動(dòng)分類可以適當(dāng)解決這一問(wèn)題。因此,如何通過(guò)文本分類技術(shù)挖掘文本的潛在價(jià)值,成為目前廣泛關(guān)注的一項(xiàng)任務(wù)。

      文本分類是計(jì)算機(jī)依據(jù)對(duì)文本內(nèi)容的分析,將其判別為提前確定好的類別中的一類或幾類[1]。其中文本表示是文本分類的前提保障,其質(zhì)量的好壞對(duì)分類效果造成直接影響,傳統(tǒng)的文本表示方法大多基于空間向量模型(VSM)[2]和主題模型[3]。近幾年隨著深度學(xué)習(xí)理論的逐漸成熟和硬件設(shè)備的有力支撐,新興模型Word2Vec[4]進(jìn)入行業(yè)大眾視野,其根據(jù)上下文語(yǔ)義關(guān)系映射出詞語(yǔ)在空間中的位置,成為文本表示的新方法。2013年Word2Vec工具的開源使詞向量受到界內(nèi)研究者的追捧,并在各類自然語(yǔ)言處理任務(wù)中展現(xiàn)了巨大的應(yīng)用潛力。如Fan[5]、Yao[6]等人分別將Word2Vec應(yīng)用于問(wèn)答系統(tǒng)中多標(biāo)簽文本分類問(wèn)題和大規(guī)模新聞文本分類問(wèn)題中,分類效果較傳統(tǒng)的文本分類方法均有較大提升。

      然而漢語(yǔ)詞匯中存在大量一詞多義的現(xiàn)象,Word2Vec模型單純用唯一的詞向量混合表示詞語(yǔ)的多重語(yǔ)義顯然是不合理的,業(yè)內(nèi)學(xué)者對(duì)此展開了相關(guān)研究。Tian[7]假設(shè)所有的單詞具有相同的語(yǔ)義個(gè)數(shù),通過(guò)Skip-Gram模型使用概率混合模型學(xué)習(xí)詞向量的表達(dá),但這種假設(shè)與實(shí)際情況相違背,可借鑒性不大。為解決上述問(wèn)題,Neelakantan等人[8]提出一種名為NP-MSSG的非參模型,訓(xùn)練出不同個(gè)數(shù)的向量對(duì)多義詞進(jìn)行表示。而Chen等人[9]依據(jù)提前定義好的多義詞列表,自動(dòng)學(xué)習(xí)多義詞的多個(gè)向量表達(dá),但其過(guò)度依賴外部資源庫(kù)的質(zhì)量。因此,如何通過(guò)合適的語(yǔ)言模型有效表達(dá)多義詞是一個(gè)值得深究的問(wèn)題。

      通過(guò)以上分析,本文區(qū)別于當(dāng)前主流的神經(jīng)網(wǎng)絡(luò)分類方法僅將詞向量局限于文本預(yù)處理過(guò)程[11],在詞向量文本表示法的基礎(chǔ)上研究對(duì)詞向量的優(yōu)化和改進(jìn)。

      1 Skip-Gram模型訓(xùn)練過(guò)程及其局限性

      鑒于Mikolov等人在文獻(xiàn)[4]中指出Word2Vec模型中的Skip-Gram訓(xùn)練模型針對(duì)數(shù)據(jù)稀疏問(wèn)題更有效,且適用于語(yǔ)料庫(kù)較大的情況,因此本文優(yōu)先選擇Skip-Gram訓(xùn)練模型作為后期改進(jìn)算法的基礎(chǔ)模型。

      為優(yōu)化傳統(tǒng)線性Softmax函數(shù)計(jì)算復(fù)雜度高的問(wèn)題,Skip-Gram模型采用基于霍夫曼樹的層次Softmax(Hierarchical Softmax)函數(shù)[12-14]。其輸出層對(duì)應(yīng)一棵二叉樹,數(shù)據(jù)集中的詞語(yǔ)作為葉子結(jié)點(diǎn),各個(gè)詞語(yǔ)出現(xiàn)的次數(shù)作為權(quán)值構(gòu)造Huffman樹[11]。則目標(biāo)函數(shù)表達(dá)式如公式(1)所示:

      (1)

      通過(guò)Skip-Gram模型訓(xùn)練,一個(gè)詞語(yǔ)僅對(duì)應(yīng)唯一的詞向量[17-18],則多義詞對(duì)應(yīng)的詞向量混雜表達(dá)了多重語(yǔ)義,造成詞向量在不同語(yǔ)境中代表的含義不明確,進(jìn)而對(duì)文本分類的效果造成一定影響,側(cè)面體現(xiàn)出Skip-Gram模型在一詞多義問(wèn)題上的局限性。

      2 基于主題-詞向量的多義詞表示

      2.1 多粒度協(xié)同表達(dá)的主題-詞向量

      針對(duì)上述Skip-Gram模型存在的問(wèn)題,本文提出“主題-詞向量”的概念,并在Skip-Gram模型的基礎(chǔ)上引入LDA主題模型[19],提出Topic-SG語(yǔ)言模型計(jì)算主題-詞向量,利用細(xì)粒度的語(yǔ)義特征和粗粒度的主題特征協(xié)同表達(dá)主題-詞向量,使詞向量結(jié)合主題特征向量區(qū)分多義詞詞向量在特定主題下的含義。如公式(2)所示,“錘子”的詞向量與代表“電子設(shè)備”類主題的主題向量融合即可得到“錘子”在“電子設(shè)備”主題下的主題-詞向量,同理通過(guò)公式(3)可得到“錘子”在“工具”類主題下的主題-詞向量。二者依據(jù)主題向量的特征區(qū)分多義詞“錘子”的詞向量,其中“錘子”對(duì)應(yīng)的向量是細(xì)粒度的語(yǔ)義特征,“電子設(shè)備”、“工具”對(duì)應(yīng)的向量則是粗粒度的主題特征,兩者協(xié)同表達(dá),可以更準(zhǔn)確地定位每個(gè)詞語(yǔ)在具體上下文的精確語(yǔ)義。

      錘子 電子設(shè)備

      [v11v12…v1m]⊕[z11z12…z1m=[v11v12…v1mz11z12…z1m]

      (2)

      錘子 工具

      [v11v12…v1m]⊕[zk1zk2…zkm]=[v11v12…v1mzk1zk2… zkm]

      (3)

      2.2 主題-詞向量的訓(xùn)練過(guò)程

      本文借助LDA主題模型的訓(xùn)練得到“文檔-主題”概率分布Θ和“單詞-主題”關(guān)聯(lián)性概率分布Φ,以及每個(gè)潛在主題下概率最大的前n個(gè)詞語(yǔ)。對(duì)于某一文檔d={w1,w2,…,wl}中的單詞wi,可依據(jù)概率分布P(ti|wi,d)∝P(wi|ti)P(ti|d)分配一個(gè)主題ti[20]。最終LDA訓(xùn)練模型呈現(xiàn)收斂效果后,每篇文檔中的每個(gè)詞語(yǔ)w將被賦予一個(gè)或多個(gè)特定的主題t,每個(gè)詞語(yǔ)和對(duì)應(yīng)的一個(gè)或多個(gè)主題組合成一個(gè)或多個(gè)詞語(yǔ)主題對(duì)(w,t)用于后續(xù)主題-詞向量的訓(xùn)練。

      Topic-SG模型首先需將文本形式的詞語(yǔ)主題對(duì)(w,t)初始化為計(jì)算機(jī)可以理解的向量形式,則先將每個(gè)詞語(yǔ)隨機(jī)初始化為固定維數(shù)的m維向量,并通過(guò)Skip-Gram模型根據(jù)上下文語(yǔ)義關(guān)系訓(xùn)練出每個(gè)詞語(yǔ)對(duì)應(yīng)的詞向量vw。同時(shí),將每個(gè)單詞所屬的主題同樣進(jìn)行向量初始化,初始化的主題向量需依據(jù)LDA模型的輸出結(jié)果,每個(gè)初始化的主題向zw由分配給同一主題的前n個(gè)單詞的詞向量求平均所得,且主題向量維數(shù)與詞向量相同。LDA模型最初預(yù)設(shè)定的主題數(shù)k決定主題向量個(gè)數(shù),將已初始化的主題向量zw輸入Topic-SG模型訓(xùn)練,并保持詞向量不變。Topic-SG語(yǔ)言模型示意圖如圖1所示。

      不同于Skip-Gram模型,Topic-SG語(yǔ)言模型同時(shí)考慮當(dāng)前詞及其所屬的主題信息對(duì)上下文進(jìn)行預(yù)測(cè)。將當(dāng)前詞所屬的主題理解為具有相同主題的詞語(yǔ)集合,同樣用一個(gè)向量進(jìn)行表示。借鑒詞向量的訓(xùn)練機(jī)制映射文本的主題信息,最終學(xué)習(xí)出文本層面粒度較粗的主題向量,代表該主題下所有單詞的語(yǔ)義信息的集合。

      圖1 Topic-SG語(yǔ)言模型示意圖

      采用層次Softmax方法優(yōu)化學(xué)習(xí)過(guò)程,Topic-SG模型的目標(biāo)函數(shù)如公式(4)所示:

      (4)

      (5)

      (6)

      (7)

      Topic-SG模型收斂后計(jì)算出的詞向量vw和主題向量zw拼接即可得到詞語(yǔ)w在主題z下的主題-詞向量wz。詞向量在詞語(yǔ)層次進(jìn)行細(xì)粒度的語(yǔ)義特征描述,主題向量在文檔的主題層次進(jìn)行粗粒度的抽象描述,二者拼接融合,從多粒度特征協(xié)同表達(dá)多義詞在特定語(yǔ)境主題中的主題-詞向量,由此緩解了傳統(tǒng)Skip-Gram模型存在的多義詞詞向量在具體語(yǔ)境下指代不明的問(wèn)題。主題-詞向量wz的組成如公式(8)所示:

      wz=vw⊕zw

      (8)

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文實(shí)驗(yàn)選用搜狗實(shí)驗(yàn)室提供的中文新聞文本分類數(shù)據(jù)集。在預(yù)處理階段對(duì)原始文本進(jìn)行格式化處理,并從中抽取新聞內(nèi)容用于主題-詞向量的訓(xùn)練和文本分類的數(shù)據(jù)集。采用jieba分詞工具對(duì)格式化處理后的新聞?wù)Z料進(jìn)行分詞[21]。

      3.2 多義詞的主題-詞向量實(shí)驗(yàn)

      此處將本文所提的基于Topic-SG語(yǔ)言模型的主題-詞向量與基于Skip-Gram模型訓(xùn)練的詞向量進(jìn)行詞語(yǔ)相似性的比較,相似性的衡量標(biāo)準(zhǔn)由詞向量之間的余弦距離決定[22]。

      首先使用Skip-Gram模型訓(xùn)練語(yǔ)料庫(kù)中的所有詞向量,在訓(xùn)練之前需初始化系列參數(shù),其中,詞向量的維數(shù)設(shè)定為100,模型中上下文窗口大小默認(rèn)設(shè)置為5,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速率設(shè)定為0.05,訓(xùn)練完成后得到如表1所示的結(jié)果。

      表1 與“蘋果”最相似的前10個(gè)詞語(yǔ)(Skip-Gram)

      針對(duì)本文所提的Topic-SG模型計(jì)算主題-詞向量,先利用GibbsLDA++工具對(duì)大規(guī)模語(yǔ)料庫(kù)訓(xùn)練得到每篇文檔中單詞的主題標(biāo)簽,其中設(shè)置隱含主題數(shù)k為50,超參數(shù)取值α=50/k、β=0.01,迭代次數(shù)為1000次。隨后通過(guò)Topic-SG模型學(xué)習(xí)出詞向量及其所屬的主題向量,模型參數(shù)與上述Skip-Gram模型的參數(shù)設(shè)置一致。對(duì)主題-詞向量計(jì)算相似詞的實(shí)驗(yàn)結(jié)果如表2所示。

      表2 與“蘋果”最相似的10個(gè)詞(Topic-SG)

      由表1中的實(shí)驗(yàn)結(jié)果可以看出,Skip-Gram模型訓(xùn)練出的詞向量混雜了多重語(yǔ)義,而表2中的結(jié)果顯示Topic-SG模型能計(jì)算詞向量“蘋果”分別在“電子設(shè)備”和“水果”兩個(gè)不同主題下的相似詞。將多義詞“蘋果”的相似詞進(jìn)行降維及聚類可視化展示,如圖2所示,“蘋果”相似詞分別形成的聚類簇呈現(xiàn)出較明顯的分隔區(qū)。由此驗(yàn)證了Topic-SG模型能識(shí)別并訓(xùn)練出多義詞在不同主題下的詞向量的有效性。

      圖2 “蘋果”多義詞的聚類可視化

      3.3 文本分類實(shí)驗(yàn)

      本文借助最經(jīng)典的TF-IDF算法計(jì)算單個(gè)詞語(yǔ)的權(quán)重,通過(guò)對(duì)主題-詞向量的加權(quán)求和轉(zhuǎn)化為文本向量用于文本分類。將提出的Topic-SG模型與VSM模型、LDA模型以及TF-IDF加權(quán)的Word2Vec模型的文本分類效果進(jìn)行對(duì)比,分類器均采用SVM分類算法[23]。所有實(shí)驗(yàn)采用五折交叉驗(yàn)證評(píng)估模型的分類效果,并用準(zhǔn)確率P、召回率R和F1綜合指標(biāo)進(jìn)行測(cè)評(píng),測(cè)試結(jié)果如表3所示。

      表3 四種分類方法的測(cè)試結(jié)果(%)

      將表中各類別的平均F1值以柱狀圖的形式展現(xiàn),如圖3所示。

      由圖3可以直觀看出,唐明等人[10]提出的TF-IDF加權(quán)的Word2Vec模型的文本分類效果較VSM模型和LDA模型兩種基礎(chǔ)方法有較明顯的提升,由此驗(yàn)證了Word2Vec模型應(yīng)用于文本分類的可行性。

      本文提出的文本分類方法與加權(quán)Word2Vec模型相比又有一些提升,原因在于本文是基于Topic-SG模型計(jì)算出的主題-詞向量表示文本向量,而加權(quán)的Word2Vec模型中文本向量由Skip-Gram訓(xùn)練出的詞向量與TF-IDF計(jì)算出的權(quán)重組合表示,其中主題-詞向量相比于單純的詞向量嵌入了主題特征,同一多義詞

      圖3 F1值對(duì)比圖

      可結(jié)合語(yǔ)境主題產(chǎn)生不同的主題-詞向量,從而增大了文本向量的區(qū)分度,進(jìn)一步提高文本分類效果。

      圖4利用箱形圖展現(xiàn)了四種文本分類方法的分類結(jié)果。基于SVM模型和TF-IDF加權(quán)Word2Vec模型應(yīng)用于文本分類的實(shí)驗(yàn)結(jié)果顯示,此兩種方法的F1值四分位距較大,穩(wěn)定性有待進(jìn)一步提高?;贚DA模型的文本分類方法雖然正常值分布較集中,但F1值卻整體偏低且有出現(xiàn)異常值的概率。而本文所提的文本分類方法相比于其他三種方法表現(xiàn)得更穩(wěn)定,F(xiàn)1平均值相對(duì)最高。綜合考慮上述文本分類方法的準(zhǔn)確性與穩(wěn)定性,本文所提的基于Topic-SG模型計(jì)算出的主題-詞向量更適用于文本分類。

      圖4 F1值對(duì)比箱形圖

      4 結(jié)語(yǔ)

      當(dāng)前主流的自然語(yǔ)言處理研究?jī)H將詞向量簡(jiǎn)單地作為一種文本預(yù)處理環(huán)節(jié),缺乏對(duì)詞向量本身特點(diǎn)的深入分析。本文的工作以詞向量本身的不足作為切入點(diǎn),有助于進(jìn)一步深刻理解和擴(kuò)展詞向量這一新型語(yǔ)言模型的應(yīng)用深度和廣度。

      針對(duì)詞向量無(wú)法較好解決文本中普遍存在的多義詞問(wèn)題,本文深入研究基于Skip-Gram模型的詞向量的生成機(jī)制,提出“主題-詞向量”的概念,試圖定位詞匯在上下文中的精準(zhǔn)含義,利用多粒度特征協(xié)同表達(dá)多義詞在不同語(yǔ)境中所表示的含義,并將主題-詞向量概念應(yīng)用于文本分類問(wèn)題。實(shí)驗(yàn)結(jié)果表明,本文提出的“主題-詞向量”概念及其實(shí)現(xiàn)模型Topic-SG,能更好地完成混合了多種語(yǔ)義的文本分類問(wèn)題。

      后續(xù)將對(duì)“主題-詞向量”這一概念及其訓(xùn)練過(guò)程進(jìn)行更深度的剖析,考慮使用不同類型的大規(guī)模語(yǔ)料庫(kù),借助多元化數(shù)據(jù)理解特定環(huán)境下的語(yǔ)言特點(diǎn),提高主題-詞向量在各類應(yīng)用中的普適性。

      猜你喜歡
      多義詞語(yǔ)義向量
      向量的分解
      多義詞
      聚焦“向量與三角”創(chuàng)新題
      語(yǔ)言與語(yǔ)義
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      向量垂直在解析幾何中的應(yīng)用
      淺議多義詞在語(yǔ)境中的隱喻認(rèn)知
      多義詞way的語(yǔ)義認(rèn)知分析及實(shí)證研究
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      認(rèn)知范疇模糊與語(yǔ)義模糊
      凌云县| 江达县| 安福县| 微山县| 徐汇区| 长春市| 承德县| 凌云县| 邵东县| 临朐县| 陆丰市| 建昌县| 弥勒县| 扬中市| 白沙| 长泰县| 布尔津县| 扶绥县| 多伦县| 沅陵县| 友谊县| 平遥县| 湖北省| 洛隆县| 汝南县| 昌吉市| 南皮县| 双峰县| 塔城市| 本溪市| 尤溪县| 长寿区| 陕西省| 灵台县| 清河县| 二连浩特市| 嘉禾县| 泸州市| 偃师市| 古丈县| 宜川县|