• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關(guān)鍵短語生成研究現(xiàn)狀

      2020-11-26 05:02:01王藝霖
      現(xiàn)代計算機 2020年7期
      關(guān)鍵詞:短語關(guān)鍵自動

      王藝霖

      (四川大學(xué)計算機學(xué)院,成都 610065)

      0 引言

      關(guān)鍵短語是文本信息的精簡概括,能夠代表文本的主題和核心觀點[1]。高質(zhì)量的關(guān)鍵短語有利于讀者方便、快速地理解文章內(nèi)容,所以很多學(xué)者研究如何從文章中自動抽取和生成關(guān)鍵短語。從文章中生成關(guān)鍵短語的方法不僅可以生成在文本中出現(xiàn)的關(guān)鍵短語,還可以生成在文章中沒有出現(xiàn)的關(guān)鍵短語,自動生成關(guān)鍵短語任務(wù)是自然語言處理和信息檢索的基本任務(wù)之一,自動生成關(guān)鍵短語的方法有助于文本摘要、文本分類、觀點挖掘、文本索引、文本聚類等[2]下游任務(wù)。下面對當前自動生成關(guān)鍵短語的任務(wù)進行總結(jié)。

      1 關(guān)鍵短語

      關(guān)鍵短語是能夠代表文章主題的短語,關(guān)鍵短語具有以下幾個屬性[3]:

      完整性:生成的關(guān)鍵短語應(yīng)該與人工標注的關(guān)鍵短語完全相同,而不是生成在人工標注的關(guān)鍵短語下部分子串。例如,人工標注的關(guān)鍵短語是“機器學(xué)習(xí)”,生成的關(guān)鍵短語也應(yīng)該是“機器學(xué)習(xí)”,而不應(yīng)該生成“機器”或“學(xué)習(xí)”這種關(guān)鍵短語。

      主題相關(guān)性:生成的關(guān)鍵短語應(yīng)該與文章的主題密切相關(guān),而不是生成與文章無關(guān)的關(guān)鍵短語。例如,文章的主題是機器學(xué)習(xí),生成的關(guān)鍵短語應(yīng)該與機器學(xué)習(xí)這個主題密切相關(guān),如人工智能等關(guān)鍵短語。

      覆蓋性:生成的關(guān)鍵短語應(yīng)該能覆蓋文章的主要內(nèi)容。例如,一篇文章從經(jīng)濟、政治、科技、文化的角度來介紹成都,生成的關(guān)鍵短語需要覆蓋這四個方面,而不是只覆蓋其中幾個方面。

      現(xiàn)有工作中把關(guān)鍵短語分為在文章中出現(xiàn)的關(guān)鍵短語和在文章中沒有出現(xiàn)的關(guān)鍵短語。現(xiàn)有的方法可以分為兩種:自動抽取關(guān)鍵短語的方法和自動生成關(guān)鍵短語的方法。自動抽取關(guān)鍵短語的方法可以抽取在文章中出現(xiàn)的關(guān)鍵短語,而自動生成關(guān)鍵短語的方法不僅可以生成在文章中出現(xiàn)的關(guān)鍵短語,還可以生成在文章中沒有出現(xiàn)的關(guān)鍵短語,下面對這兩種方法進行總結(jié)。

      2 自動抽取關(guān)鍵短語的方法

      自動抽取關(guān)鍵短語的方法是從文章中自動抽取具有重要性和主題性的關(guān)鍵短語。自動抽取關(guān)鍵短語的方法一般分為兩步:第一步,通過啟發(fā)式規(guī)則從文章中選出多個候選關(guān)鍵短語,例如使用N-Grams[4]或詞性模板匹配的方式[5]從文章中選出候選關(guān)鍵短語。第二步,使用有監(jiān)督或無監(jiān)督方法對候選關(guān)鍵短語進行排序,最后按照分數(shù)的高低選出前N個候選關(guān)鍵短語作為關(guān)鍵短語。具體來說,有監(jiān)督方法把關(guān)鍵短語抽取問題看成二分類問題,通過訓(xùn)練分類器來判斷候選短語是不是關(guān)鍵短語,而無監(jiān)督方法不僅有使用PageRank算法對文章中每個單詞計算得分,然后把每個單詞得分相加或相乘得到每個候選短語的得分,最后按照候選短語得分從高到低選取前N個作為關(guān)鍵短語[6],還有使用主題聚類的方法[7]找到有關(guān)文章主題的關(guān)鍵短語。有研究學(xué)者發(fā)現(xiàn)有些關(guān)鍵短語不會在文章中出現(xiàn),而自動抽取關(guān)鍵短語的方法不能抽取沒在文章中出現(xiàn)的關(guān)鍵短語,所以提出自動生成關(guān)鍵短語的方法。

      3 自動生成關(guān)鍵短語的方法

      自動關(guān)鍵短語生成方法不僅可以生成在文章中出現(xiàn)的關(guān)鍵短語,還可以生成在文章中沒有出現(xiàn)的關(guān)鍵短語。2017年Meng[8]提出CopyRNN模型使用注意力機制[9]和拷貝機制[10]的序列到序列[11]模型,既可以生成在文章中出現(xiàn)的關(guān)鍵短語,還可以生成文章中沒有出現(xiàn)的關(guān)鍵短語。訓(xùn)練的時候輸入是文章摘要,輸出是一個關(guān)鍵短語,測試的時候使用beam search來生成過量的候選關(guān)鍵短語,最后按照候選關(guān)鍵短語的得分從高到低選取前N個候選短語作為關(guān)鍵短語。作者分別對在文章中出現(xiàn)的關(guān)鍵短語和沒有在文章中出現(xiàn)的關(guān)鍵短語進行了實驗,在文章出現(xiàn)的關(guān)鍵短語的效果要比沒有在文章出現(xiàn)的關(guān)鍵短語好,沒有在文章中出現(xiàn)的關(guān)鍵短語只使用召回率查看效果,而且效果不是很好,說明沒有在文章出現(xiàn)的關(guān)鍵短語相比在文章出現(xiàn)的關(guān)鍵短語很難生成,需要進一步對沒有在文章中出現(xiàn)的關(guān)鍵短語建模來提高效果。

      自從上述模型提出后,有大量學(xué)者進行了改進。下面對這些相關(guān)工作進行匯總。

      針對上述模型在捕捉語義方面的問題,很多論文提出了改進點,在考慮短語之間關(guān)系方面,2018年Chen[12]針對CopyRNN沒有考慮短語之間的關(guān)系提出了CorrRNN模型,該模型使用coverage機制考慮已生成短語在文中的語義表達和review機制考慮已生成短語的語義表達避免產(chǎn)生表達相同意思的關(guān)鍵短語,提高生成關(guān)鍵短語的多樣性以及降低生成短語的冗余度。

      在考慮文章標題方面,因為文章標題中含有文章的主題以及部分關(guān)鍵短語并且之前工作忽視了文章標題的重要性,所以2018年Chen[13]提出了TG-Net模型通過對文章標題進一步編碼來提升文章標題在編碼端的重要程度,促進模型生成更多與文章標題語義相關(guān)的關(guān)鍵短語,并且提升了在文章出現(xiàn)的關(guān)鍵短語和沒有在文章出現(xiàn)的關(guān)鍵短語的效果。

      在考慮數(shù)據(jù)不足方面,2018年Ye[14]考慮到上述關(guān)鍵短語生成模型只能在豐富的語料上訓(xùn)練模型,在語料較少的數(shù)據(jù)上訓(xùn)練模型效果較差,因為序列到序列模型參數(shù)很多,需要大量標注好關(guān)鍵短語的文本,科技類論文有很多標注好關(guān)鍵短語的文本,CorrRNN模型就是使用這種數(shù)據(jù)來訓(xùn)練模型,但是使用模型應(yīng)用到其它領(lǐng)域,有可能其他領(lǐng)域有標注關(guān)鍵短語的文本很少,很難訓(xùn)練效果較好的關(guān)鍵短語生成模型,所以提出使用半監(jiān)督的方式充分利用較少有關(guān)鍵短語的語料和很多沒有標注關(guān)鍵短語的語料來提高生成關(guān)鍵短語的效果。

      在考慮額外數(shù)據(jù)方面,2019年Chen[15]提出多任務(wù)學(xué)習(xí)的框架使用關(guān)鍵短語抽取模型、額外與輸入文檔相關(guān)的短語以及關(guān)鍵短語生成模型三種共同提高關(guān)鍵短語生成的效果,該模型類似集成的思想,使用有關(guān)關(guān)鍵短語抽取的特征、關(guān)鍵短語生成的特征以及與該文章相似的關(guān)鍵短語語義編碼共同決策來生成關(guān)鍵短語,雖然這種多任務(wù)很新穎,但是效果提升較少、效果不明顯。

      2018年Yuan[16]針對之前所有模型在測試時使用beam search生成過量關(guān)鍵短語,然后選取固定個數(shù)的短語作為關(guān)鍵短語的問題,例如選取前5或10個關(guān)鍵短語,Yuan認為在測試時需要根據(jù)文章語義來生成不同個數(shù)的關(guān)鍵短語,提出了使用短語序列訓(xùn)練模型,因為短語序列中有短語分隔符和結(jié)束符,所以使用短語序列來訓(xùn)練模型可以在測試的時候根據(jù)結(jié)束符來生成任意個數(shù)的關(guān)鍵短語。進而提出catSeq模型使用注意力機制和拷貝機制的序列到序列模型根據(jù)文章的語義來生成任意個數(shù)的關(guān)鍵短語,提出了適用于測試時不同個數(shù)關(guān)鍵短語的評價指標來進行評價。

      2019年Hou[17]針對catSeq模型生成短語個數(shù)較少的缺點提出使用適應(yīng)性回報的強化學(xué)習(xí)RL來訓(xùn)練catSeq模型促進模型生成很多并且準確的關(guān)鍵短語。通過在回報上使用召回率來鼓勵模型生成更多的關(guān)鍵短語,其中,生成錯的關(guān)鍵短語也不會進行懲罰,模型通過一段時間訓(xùn)練后可以產(chǎn)生大量關(guān)鍵短語,但是關(guān)鍵短語的準確率很低,作者又再在回報上使用F1值來鼓勵模型生成更加準確的關(guān)鍵短語。由于使用召回率和F1值來鼓勵模型生成更加準確以及更多的關(guān)鍵短語,該值是不可微的,無法進行求導(dǎo),所以該作者使用強化學(xué)習(xí)對模型進行訓(xùn)練。關(guān)鍵短語任務(wù)很適合使用強化學(xué)習(xí)針對關(guān)鍵短語生成的問題可以通過修改回報來解決某些問題。

      雖然關(guān)鍵短語生成任務(wù)很適合使用強化學(xué)習(xí)來訓(xùn)練模型,但是有以下幾個問題:

      動作空間大,該任務(wù)動作空間很大,例如詞表大小為5萬個詞,動作空間為5萬,探索空間很大導(dǎo)致模型訓(xùn)練時間相比有監(jiān)督訓(xùn)練時間長很多而且訓(xùn)練過程中很不穩(wěn)定。

      回報設(shè)計難,設(shè)計一個很好的回報來鼓勵模型生成關(guān)鍵短語是非常重要的,特別是立即回報。

      效率低,使用強化學(xué)習(xí)來訓(xùn)練關(guān)鍵短語模型需要大量探索其他詞以及利用現(xiàn)有的詞,訓(xùn)練效率相比有監(jiān)督學(xué)習(xí)效率太低。

      4 結(jié)語

      本文對關(guān)鍵短語抽取和關(guān)鍵短語生成的論文進行了總結(jié),分別介紹了關(guān)鍵短語抽取和生成的基本流程,對關(guān)鍵短語生成模型的相關(guān)工作進行了進一步分析。雖然有很多論文解決關(guān)鍵短語生成問題,但是還有很多缺點以及效果需要進一步提高。

      猜你喜歡
      短語關(guān)鍵自動
      高考考好是關(guān)鍵
      自動捕盜機
      基于STM32的自動喂養(yǎng)機控制系統(tǒng)
      電子測試(2018年10期)2018-06-26 05:53:36
      關(guān)于自動駕駛
      汽車博覽(2016年9期)2016-10-18 13:05:41
      Stefan Greiner:我們?yōu)槭裁葱枰詣玉{駛?
      獲勝關(guān)鍵
      NBA特刊(2014年7期)2014-04-29 00:44:03
      生意無大小,關(guān)鍵是怎么做?
      中國商人(2013年1期)2013-12-04 08:52:52
      乌审旗| 烟台市| 乳源| 凌云县| 台南县| 登封市| 卓尼县| 乳山市| 阳城县| 洞口县| 德安县| 芷江| 酒泉市| 灵石县| 海南省| 鄂托克前旗| 牟定县| 沈阳市| 安福县| 灵台县| 漠河县| 十堰市| 岢岚县| 隆昌县| 虞城县| 塔城市| 寻乌县| 台湾省| 嘉定区| 阜平县| 张家港市| 扎赉特旗| 宾阳县| 普兰店市| 江口县| 罗平县| 宜丰县| 库尔勒市| 高安市| 南郑县| 吴桥县|