• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      深度學習視域下的文本表示方法研究

      2019-09-17 11:03聶維劉小豫
      科技資訊 2019年18期
      關鍵詞:深度學習方法

      聶維 劉小豫

      摘 ?要:文本表示不僅是自然語言處理的基礎工作,還是信息檢索、文本分類、問答系統(tǒng)的關鍵。就傳統(tǒng)文本而言,主要采取計數(shù)表示形式,此方法設定詞和詞之間是相互獨立的,直接忽視了文本語義信息,而且在選擇特征時,引進了一些人為影響因素,從而獲取了高緯度與高稀疏文本特征,無法充分表示文本。這就需要進一步創(chuàng)新設計文本表示方法,據(jù)此,該文主要對深度學習視域下的文本表示方法進行了詳細分析。

      關鍵詞:深度學習 ?文本表示 ?方法

      中圖分類號:TP18;TP391 ? ? ? ? ? ? ? ?文獻標識碼:A ? ? ? ? ? 文章編號:1672-3791(2019)06(c)-0030-02

      1 ?文本表示方法分析

      1.1 布爾邏輯橫型

      所謂布爾邏輯模型實際上就是二元邏輯,假設文本特征的兩種情況,即出現(xiàn)與不出現(xiàn)。布爾檢索法即通過布爾運算符進行檢索詞連接,并基于計算機進行邏輯運算,尋找信息的方法。此文本表示方法符合人們的思維習慣,表達直觀且清楚,易于通過計算機加以實現(xiàn)。但是,卻難以切實反映概念間內在語義聯(lián)系,其所有關系都是被簡單匹配替代的,經(jīng)常無法把用戶信息需要轉變?yōu)闇蚀_的布爾表達式,還經(jīng)常出現(xiàn)漏檢現(xiàn)象。

      1.2 One-hot

      One-hot把單詞和實數(shù)向量相關聯(lián)加以表示。具體而言,假設字典維度為V,其中單詞有且只有一個編號,在n個單詞出現(xiàn)時,其所相應向量只在第n個位置顯示數(shù)值為1,這就表示字典的n。在文檔中含有大量單詞,其組合成的向量就是文章表示。One-hot累加對應向量代表則稱之為詞袋表示(BOW)。此方法簡單,但計算中容易出現(xiàn)兩種問題,其一,向量維度為字典大小,詞典單詞量過大,在計算時很容易出現(xiàn)維數(shù)災難問題;其二,此表示只包括單詞在詞典中的索引與詞頻信息,無法為后續(xù)文本處理提供有價值的信息。

      1.3 向量空間模型

      向量空間模型(VSM)將文本內容處理簡化,轉變?yōu)橄蛄靠臻g的運算,通過相似度表示文本語義相似性。VSM屬于經(jīng)典文本表示方式,在信息檢索中的應用非常廣泛,其與詞袋模型維度類似,是以統(tǒng)計規(guī)則為基礎進行文檔單詞權重信息計算的。然而,詞典模型維度是以字典長度為載體的,VSM卻可以表示就自身模型需求,選擇單詞或詞組,再為term賦予權重。

      1.4 LDA

      LDA與LSI等主題模型尋求潛藏語義單元,主要是通過無指導學習方式基于文本找出隱含語義維度,也就是Topic。LDA文本表示方法視域下,文檔代表主題組成的概率分布,各主題代表很多單詞構成的概率分布。由于可能兩個文檔之間是相互關聯(lián)的,所以在進行文檔相關性判斷時,應對文檔語義進行充分考慮,但是主題模型是充分挖掘語義的重要工具,LDA則是其中最有效的主題模型。在主題模型中,主題代表概念與方面,表示為相關單詞,利用單詞條件概率進行其與主題相關性的衡量。

      1.5 Word embedding

      One-hot文本表示方法所面臨的維度災難問題,通過稀疏方式進行存儲,會更加簡捷,也就是為各單詞分配相應ID。這種簡潔的表示方式與最大熵、SVM、CRF算法相結合,能夠更好地完成主流NLP任務。但是此表示方法默認了單詞間的孤立性,進而忽視了語義關聯(lián)。

      2 ?深度學習視域下的多類文本表示方法

      2.1 問題描述

      文本分類與檢索在關鍵就在于文本表示,其決定了語義索引的正確性。語義鎖頻就是把文檔反映到相同特征空間,計算其相似度,因此文本表示與文本分類精確度密切相關。獲取良好文本表示的重要基礎是特征提取,現(xiàn)階段主要的特征表示方法有很多,主要是以BOW為基礎,通過LDA、LSI、PLSI等方法,基于SVD進行文檔矩陣分解,促使其映射到小于原始空間的空間,以此獲得文本表示。但是,其打破了文本原始結構,缺失語義,而且只能夠獲得單詞有限的信息,無法深層次挖掘文本特征表示,使得訓練的分類器無法辨別待分類測試樣本。

      Hinton和Salakhutdinov根據(jù)前人研究提出了雙層RSM模型,即深度學習視域下探索文本表示,實驗結果證明方法效果良好。但是其是以權重共享為基礎的,并且只有兩層,在降維時,文檔確實信息過多,無法獲取充足學習文檔表示,造成模型最后所學不同文檔表示并不存在顯著性差異。

      以傳統(tǒng)文本表示方法的高維度、高稀疏、語義缺失等不足為前提,根據(jù)深度學習提取特征優(yōu)勢,提出了以深度信念網(wǎng)絡(DBN)為載體的融合DBN的優(yōu)化模型,即HDBN。在模型底層通過DBN初始降維,有效保存文檔信息,然后與DBN再結合降維,獲得更好的高層文本特征。HDBN模型遵守標準DBN模型訓練方法,即無監(jiān)督訓練和有監(jiān)督調整,引進DBN初始降維,HDBN模型可以準確獲得文檔向量表示。

      2.2 HDBN模型

      2.2.1 模型設計

      由于訓練復雜度與模型效率,選取雙層DBN模型。以DBN模型為載體,既能夠自動化提取文檔特征,又能夠對文檔輸入降維,還能夠去除輸入引發(fā)的噪聲,最后以DBN模型為基礎獲取文檔特征表示。DBN主要是由雙層RBN構成的無向圖連接模型,各層節(jié)點采樣值都是通過雙層連接節(jié)點共同計算獲得的。DBN是由雙層RBN構成的有向圖連接模型,在進行預習訓練時,上層輸出,下層輸入。在所有層訓練完成以后,從上層漸漸向下層進行有監(jiān)督調整。

      HDBN模型選擇雙層DBN主要是由于在DBN層數(shù)超出兩層之后,模型效果相對不足,盡管DBN在初始訓練時,極易發(fā)生過擬合現(xiàn)象,但在高層的時候,卻能夠保持較好的特性。而且DBN模型訓練太過復雜,所以,在HDBN模型選擇雙層DBN進行文本初始降維,再基于DBN模型后續(xù)訓練,以此確保提取文本特征可以減少訓練時間,大大降低復雜度與難度。

      2.2.2 語義特征表示

      BOW特征表示默認單詞的文本地位一致,忽視了單詞連接性。以HDBN模型為基礎,探索更有效的形式文本輸入表示,以此獲得最佳特征提取,詞向量是表示單詞信息的方式,將此嵌入文本表示,有助于為提取高層文本表示引進有效特征。所以,探索以HDBN模型為基礎的嵌入詞向量文本表示。

      首先,以詞向量為基礎嵌入的高緯度特征表示。以詞向量為載體進行嵌入,使用單詞對應詞向量代替BOW相應單詞。原始BOW屬于固定長度行向量,轉變一個向量。通過BOW文本表示形式,各元素代表當前單詞出現(xiàn)在文本中的次數(shù),在以詞向量嵌入為基礎的文本表示中,通過加權系數(shù),表示單詞在文本中的重要性。其次,以詞向量為載體嵌入的關鍵詞特征表示。此表示方式既能夠降低文本輸入向量維度,又能夠提高訓練效率與水平。在實驗時,以TF-IDF為載體選擇文檔關鍵詞,引進文檔標簽,設計標簽權重計算,即:

      文檔個數(shù)為N,當前類別且包含單詞文檔個數(shù)為n,當前類別文檔個數(shù)為m,不屬于當前類別但是包含單詞文檔個數(shù)為k。通過公式進行文檔單詞TF-IDF計算,通過數(shù)值排序,選擇一定量單詞作為關鍵。與高維詞向量表示相比,其稱之為以關鍵詞為基礎的低維度詞向量表示。

      3 ?結語

      總之,以DBN為基礎并融合DBN的深度學習模型(HDBN)包含無監(jiān)督預訓練與有監(jiān)督微調兩大部分。此模型與其他方法不同,其具有其自身的獨特優(yōu)勢,值得大力推廣與應用,而且,基于關鍵詞與嵌入詞向量的文本輸入表示更加有助于模型提取高層文本表示。

      參考文獻

      [1] 任浩,羅森林,潘麗敏,等.基于圖結構的文本表示方法研究[J].信息網(wǎng)絡安全,2017(3):46-52.

      [2] 劉婷婷,朱文東,劉廣一.基于深度學習的文本分類研究進展[J].電力信息與通信技術,2018(3):1-7.

      猜你喜歡
      深度學習方法
      學習方法
      有體驗的學習才是有意義的學習
      電子商務中基于深度學習的虛假交易識別研究
      MOOC與翻轉課堂融合的深度學習場域建構
      大數(shù)據(jù)技術在反恐怖主義中的應用展望
      深度學習算法應用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
      用對方法才能瘦
      四大方法 教你不再“坐以待病”!
      賺錢方法
      界首市| 广宁县| 当雄县| 大冶市| 拉萨市| 防城港市| 瑞金市| 兰州市| 河西区| 顺义区| 体育| 比如县| 柳江县| 滁州市| 江北区| 正蓝旗| 康平县| 独山县| 寿宁县| 高碑店市| 丹凤县| 垦利县| 出国| 彭山县| 金寨县| 汪清县| 通道| 象州县| 防城港市| 永胜县| 梓潼县| 尚义县| 宁波市| 林周县| 西安市| 封丘县| 五大连池市| 澜沧| 高清| 罗甸县| 淮阳县|