• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      深度學(xué)習(xí)在文本生成中的應(yīng)用研究

      2020-02-14 08:49:56郭騰州孫寶山
      儀器儀表用戶 2020年2期
      關(guān)鍵詞:語義卷積向量

      郭騰州,孫寶山

      (天津工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300387)

      早期的文本生成技術(shù),由于受到技術(shù)的限制沒能得到充分發(fā)展。文本生成就是以圖像、文本、數(shù)據(jù)等作為輸入,通過特定的處理、輸出得到人們想要的文本的過程[1]。文本生成技術(shù)近幾年發(fā)展迅速,為人們的生活提供很多便利[2]。

      1 深度學(xué)習(xí)概述

      1.1 深度學(xué)習(xí)介紹

      深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域的一個(gè)新的研究方向,它被引入機(jī)器學(xué)習(xí)使其更接近最初的目標(biāo)——人工智能[3]。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些通過學(xué)習(xí)獲得的信息對(duì)解釋數(shù)據(jù)有很大幫助,例如文字、圖像和聲音。其目標(biāo)是讓機(jī)器能夠無限接近于人的分析學(xué)習(xí)能力[4]。目前,深度學(xué)習(xí)在語音和圖像識(shí)別方面已取得顯著成就[5]。

      1.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

      卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),具有卷積計(jì)算和深度結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)可以將特征顯現(xiàn)出來,能將輸入信息進(jìn)行分類且不改變其階層結(jié)構(gòu)[6]。卷積神經(jīng)網(wǎng)絡(luò)對(duì)于圖片處理具有良好的性能,其構(gòu)建機(jī)制就是通過對(duì)生物的視覺模仿[7]。卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域具有顯著地位,在許多自然語言處理領(lǐng)域的很多任務(wù)中也起著至關(guān)重要的作用。但卷積神經(jīng)網(wǎng)絡(luò)并不是完美的,它有兩個(gè)危險(xiǎn)的缺陷就是平移不變性和池化層。

      圖1 卷積神經(jīng)網(wǎng)絡(luò)流程圖Fig.1 Convolutional neural network flowchart

      圖2 遞歸神經(jīng)網(wǎng)絡(luò)Fig.2 Recurrent neural network

      1.3 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

      循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是將列數(shù)據(jù)作為輸入,順著序列的傳播方向進(jìn)行鏈?zhǔn)竭f歸的遞歸神經(jīng)網(wǎng)絡(luò)[8]。長(zhǎng)短式記憶網(wǎng)絡(luò)(LSTM)和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN)是常見的循環(huán)神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備。因此,在對(duì)序列的非線性特征進(jìn)行學(xué)習(xí)時(shí)具有一定優(yōu)勢(shì)[9]。自然語言數(shù)據(jù)是典型的序列數(shù)據(jù),所以對(duì)序列數(shù)據(jù)學(xué)習(xí)有一定優(yōu)勢(shì)的循環(huán)神經(jīng)網(wǎng)絡(luò)在NLP 問題中得以應(yīng)用。

      由于現(xiàn)實(shí)中的許多任務(wù)需要之前輸入的計(jì)算信息,例如,文本生成中根據(jù)某關(guān)鍵字來預(yù)測(cè)整個(gè)文本的意思,最好知道之前有哪些詞或者句子出現(xiàn)過。遞歸神經(jīng)網(wǎng)絡(luò)(見圖2)主要用于預(yù)測(cè)序列模型,可以多方位、深層次地對(duì)整個(gè)文本加以理解,有助于人們更好地研究。遞歸神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(見圖3)的推廣。

      2 文本生成相關(guān)任務(wù)

      2.1 詞性標(biāo)注

      詞性標(biāo)注(Parts-Of-Speech,POS)是文本生成諸多任務(wù)中的其中一個(gè),它被定義為將特定的詞性標(biāo)記分配給句中每個(gè)單詞的過程。詞性標(biāo)記可以識(shí)別一個(gè)單詞是否為名詞、動(dòng)詞、還是形容詞等。詞性標(biāo)注在各種問題上都會(huì)有所應(yīng)用,例如信息檢索、機(jī)器翻譯、NER、語言分析等。

      圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)Fig.3 Recurrent neural network

      2.2 語法解析

      語法解析(也被稱作句法分析),是文本生成中的任務(wù)之一。其被定義為:一個(gè)檢查用自然語言書寫的字符序列是否合乎正式語法中所定義的規(guī)則的過程。它是一個(gè)將句子分解為單詞或短語序列,并為其提供特定的成分類別的過程。

      2.3 語義分析

      語義分析是文本生成中的任務(wù)之一,它被定義為確定字符或單詞序列的意義的過程,可以用于執(zhí)行語義消歧任務(wù)。在分析一個(gè)給定的句子時(shí),如果已經(jīng)構(gòu)建了句子的句法結(jié)構(gòu),那么這個(gè)句子的語義分析就算完成了。

      2.4 情感分析

      情感分析是文本生成中的眾多任務(wù)之一,它被定義為確定一個(gè)字符序列背后所隱含的情感信息的過程。情感分析可用于確定表達(dá)文本思想的演講者或者人們的心情是愉快還是悲傷的,或僅代表一次中性的表達(dá)。2017 年提出中文情感分類的概念,主要是基于卷積控制塊概念。他用的方法就是將句子看作一個(gè)個(gè)體單位,基于卷積控制塊的模型,對(duì)比各種時(shí)期上下文的依賴性進(jìn)行情感分類,將單一句子的分詞放置5 層卷積控制塊中進(jìn)行試驗(yàn),最終得到92.58%的準(zhǔn)確率。

      3 文本生成

      3.1 數(shù)據(jù)獲取

      基于深度學(xué)習(xí)的文本生成技術(shù)中,由于深度學(xué)習(xí)需要大量的數(shù)據(jù),所以數(shù)據(jù)獲取是文本生成的一個(gè)重要的環(huán)節(jié)。其中,數(shù)據(jù)的形式也在隨著時(shí)間的推移不斷改變,從結(jié)構(gòu)化數(shù)據(jù)變?yōu)榘虢Y(jié)構(gòu)化數(shù)據(jù)。同樣地,也有許多對(duì)于非結(jié)構(gòu)化的研究[10]。各個(gè)研究領(lǐng)域都會(huì)有自己體系的數(shù)據(jù)獲取方法。目前的文本生成技術(shù)中,由于語料庫的規(guī)范問題導(dǎo)致構(gòu)建比較困難,所以到現(xiàn)在為止還沒有固定的文本語料庫。

      圖4 文本生成流程圖Fig.4 Text generation flowchart

      3.2 數(shù)據(jù)預(yù)處理

      在文本生成過程中,將給定的語句分解為詞向量或者句子向量,為方便生成模型識(shí)別和計(jì)算。其中,中文語料需要將其進(jìn)行分詞。之前的one-hot 詞向量對(duì)于表示語法和語義效果不足,所以現(xiàn)在大多數(shù)人都采用詞分布式表示,它可以更好地表示詞到向量空間的邏輯關(guān)系。

      3.3 注意力機(jī)制

      簡(jiǎn)單地說,就是將注意力放在重要的地方,將其他次重要或不重要的因素忽略。Attention 分為空間注意力和時(shí)間注意力,空間注意力用在圖像處理,時(shí)間注意力則是使用在自然語言處理問題中。由于在Seq2seq 模型中,encode過程產(chǎn)生的保存原來語義信息的中間向量C 是固定長(zhǎng)度的,所以當(dāng)輸入原序列的長(zhǎng)度比較長(zhǎng)時(shí),向量C 無法將全部的信息保存下來,很大程度上限制了上下文語義信息,也使模型的理解能力下降[11,12]。因此,使用Attention 機(jī)制來打破這種原始編解碼模型對(duì)固定向量的限制。

      3.4 文本生成流程圖(見圖4)

      4 文本生成測(cè)評(píng)

      文本生成需要一個(gè)標(biāo)準(zhǔn)來規(guī)范,所以文本生成的測(cè)評(píng)是文本生成不可缺少的重要組成部分。一個(gè)高質(zhì)量的文本生成機(jī)制,必定會(huì)有一個(gè)優(yōu)秀的文本生成測(cè)評(píng)。有兩個(gè)因素可以影響文本生成質(zhì)量——變化的輸入和輸出的未知。文獻(xiàn)闡述了文本生成的測(cè)評(píng)內(nèi)容,其主要分為內(nèi)部測(cè)評(píng)和外部測(cè)評(píng)。

      4.1 內(nèi)部測(cè)評(píng)

      內(nèi)部測(cè)評(píng)主要是對(duì)系統(tǒng)內(nèi)部進(jìn)行測(cè)評(píng),嚴(yán)格來講就是對(duì)生成的文本質(zhì)量的測(cè)評(píng)。例如,生成的文本是否具有統(tǒng)一性、完整性等,大致分為主觀測(cè)評(píng)和客觀測(cè)評(píng)。主觀測(cè)評(píng)是指生成的文本遵循語言原則,且可讀性和準(zhǔn)確性強(qiáng);客觀測(cè)評(píng)是指生成的文本通過數(shù)據(jù)庫,使用機(jī)器來客觀測(cè)評(píng)。到目前為止,人們還沒有研發(fā)出來一個(gè)充分適合文本生成的內(nèi)部測(cè)評(píng)算法。在機(jī)器翻譯中有BLEU(Bilingual Evaluation Understudy),ROUGE(Recall-Oriented Understudy for Gisting Evaluation ),NIST(National Institute of Standards and Technology)等算法。

      4.2 外部測(cè)評(píng)

      外部測(cè)評(píng)是基于用戶實(shí)用性考慮的一種測(cè)評(píng)方式,即最大程度上滿足用戶要求的一種主觀測(cè)評(píng)。但采用外部測(cè)評(píng)往往比較耗時(shí)耗力,不容易達(dá)到預(yù)期的效果,所以外部測(cè)評(píng)在實(shí)際應(yīng)用中相對(duì)較少。

      綜上所述,外部測(cè)評(píng)和內(nèi)部測(cè)評(píng)各有利弊。但內(nèi)部測(cè)評(píng)結(jié)合多種技術(shù),應(yīng)用廣泛,易于人們接受。今后的研究,可以考慮將多個(gè)測(cè)評(píng)方法結(jié)合,提高測(cè)評(píng)的精準(zhǔn)度和科學(xué)性。未來,文本生成測(cè)評(píng)機(jī)制一定會(huì)成為一個(gè)研究熱潮。

      5 未來方向和潛在問題

      雖然近些年文本生成技術(shù)已經(jīng)有了顯著進(jìn)步,但對(duì)現(xiàn)有的技術(shù)來說仍不能滿足人們的需要。文本生成技術(shù)還存在一些問題需要解決:

      1)數(shù)據(jù)集不足。可以拿來充當(dāng)數(shù)據(jù)集的數(shù)據(jù)非常少,只有僅有的幾個(gè)領(lǐng)域,構(gòu)造數(shù)據(jù)集需要人工收集,所以公開的數(shù)據(jù)集明顯不足且種類單一。

      2)可以用作自動(dòng)生成的語料短而簡(jiǎn)。自動(dòng)生成的文本短而簡(jiǎn),這就使得一些好的模型不能充分發(fā)揮它的作用,從而不能達(dá)到預(yù)估的期望。

      3)沒有一個(gè)客觀規(guī)律的評(píng)價(jià)手段。評(píng)價(jià)手段除了人工評(píng)價(jià)外,缺少一種機(jī)器自動(dòng)評(píng)價(jià)體系可以體現(xiàn)出文本內(nèi)容的統(tǒng)一性、相關(guān)性、結(jié)構(gòu)特征等方面。

      4)不能充分具體地供應(yīng)人們使用。雖然小部分可以使用,但由于技術(shù)的不成熟,還沒有被人們廣泛地使用和推廣。

      6 結(jié)語

      采用神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)文本生成是目前的主流趨勢(shì)。雖采用RNN 實(shí)現(xiàn)文本生成居多,但還沒有一種專門的機(jī)器評(píng)測(cè)體系用來規(guī)范文本生成,相信將來會(huì)研究出來的。

      現(xiàn)如今,人們對(duì)人工智能的應(yīng)用越來越關(guān)注。文本的自動(dòng)生成也變得尤為重要,機(jī)器代替人力的例子也不那么罕見,尤其是國(guó)內(nèi)外的機(jī)器翻譯、新聞撰寫等行業(yè)更是不斷地探索求學(xué)。文本生成的進(jìn)步,需要各行業(yè)共同努力,需要軟硬件技術(shù)的不斷更新推動(dòng),文本生成技術(shù)才會(huì)融入人們的生活,幫助人們分擔(dān)一些工作。

      猜你喜歡
      語義卷積向量
      向量的分解
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      語言與語義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      認(rèn)知范疇模糊與語義模糊
      循化| 五华县| 玛曲县| 茂名市| 古丈县| 东海县| 习水县| 昭觉县| 翼城县| 宜宾市| 阿拉尔市| 泰来县| 青州市| 仪征市| 涿鹿县| 宁化县| 两当县| 泰顺县| 张家口市| 辉南县| 那曲县| 伊吾县| 长武县| 黑龙江省| 昂仁县| 屯留县| 禹城市| 龙游县| 泰宁县| 腾冲县| 西乌| 威远县| 揭东县| 库车县| 景洪市| 漳州市| 房产| 修武县| 天台县| 扎鲁特旗| 陵川县|