• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向低資源場景的論辯挖掘方法

      2021-04-23 04:41:22葉鍇魏晶晶魏冬春王強廖祥文
      關(guān)鍵詞:多任務(wù)論點性能

      葉鍇, 魏晶晶, 魏冬春, 王強, 廖祥文

      (1. 福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院, 福建 福州 350108; 2. 福建江夏學(xué)院電子信息科學(xué)學(xué)院, 福建 福州 350108)

      0 引言

      主觀性文本能反映人們對現(xiàn)實事物的看法, 具有巨大的研究價值. 論辯挖掘[1]的目標(biāo)是自動學(xué)習(xí)文本的論辯結(jié)構(gòu), 進而識別論點和提取相關(guān)論點間的邏輯關(guān)系, 從而幫助人們在如政府決策等事務(wù)中做出決策, 提供便利.

      傳統(tǒng)的論辯挖掘方法主要采用機器學(xué)習(xí)模型, 如樸素貝葉斯[2]等, 并取得不錯的性能. 但傳統(tǒng)方法依賴于特征工程的設(shè)計, 難以應(yīng)用于低資源場景. 現(xiàn)有工作大多采用神經(jīng)網(wǎng)絡(luò)進行端到端的特征表示學(xué)習(xí)[3],但論辯挖掘單一領(lǐng)域的現(xiàn)有標(biāo)注數(shù)據(jù)難以滿足神經(jīng)網(wǎng)絡(luò)的訓(xùn)練. 因此, 有研究者對多個領(lǐng)域數(shù)據(jù)集進行聯(lián)合訓(xùn)練[4-5], 利用任務(wù)間的關(guān)聯(lián)信息改進模型性能. 但這些方法沒有利用文本的層級結(jié)構(gòu)信息, 難以檢測跨段落的論點部件邊界.

      針對上述問題, 本研究提出一種面向低資源場景的多任務(wù)學(xué)習(xí)論辯挖掘方法, 該方法采用多任務(wù)學(xué)習(xí)策略, 學(xué)習(xí)文本的字符級共享表示, 同時在序列編碼中融入文本的結(jié)構(gòu)信息進行求解. 該模型共享任務(wù)的字符級特征, 有效利用領(lǐng)域間的信息以解決低資源場景訓(xùn)練數(shù)據(jù)不足的問題; 此外, 學(xué)習(xí)到的結(jié)構(gòu)信息能有效捕獲長依賴關(guān)系, 幫助模型更好識別長論點部件. 采用了文獻[4]中所使用的六個數(shù)據(jù)集進行實驗, 實驗結(jié)果表明, 與當(dāng)前最好的方法相比, 本研究提出的方法在宏觀F1值上有1%~2%的提升, 較好地驗證了該方法的有效性.

      1 相關(guān)工作

      1.1 論辯挖掘

      論辯挖掘是自然語言處理中的新興領(lǐng)域. 文獻[2]首先在法律文本上通過樸素貝葉斯模型完成論點分類任務(wù). 這些方法嚴(yán)重依賴手工特征, 成本高昂. 文獻[3]首次提出基于神經(jīng)網(wǎng)絡(luò)端到端的論辯挖掘模型, 并證明論辯挖掘任務(wù)更適合視作序列標(biāo)注進行求解. 文獻[6]發(fā)現(xiàn)論辯挖掘領(lǐng)域標(biāo)簽的概念化差異一定程度上阻礙了論辯挖掘任務(wù)的跨域訓(xùn)練. 文獻[7-8]的研究工作表明由于論辯挖掘領(lǐng)域概念化不同, 大多數(shù)據(jù)集缺乏規(guī)范的論辯架構(gòu)且存在噪音, 因而難以在網(wǎng)絡(luò)文本中開展. 文獻[9]首次采用監(jiān)督學(xué)習(xí)檢索文本中與給定主題相同立場的論證內(nèi)容. 文獻[4]首次將多任務(wù)學(xué)習(xí)應(yīng)用在論辯挖掘并提升了性能, 證明了多任務(wù)學(xué)習(xí)也能處理論辯挖掘這一復(fù)雜任務(wù). 文獻[5]通過對多個數(shù)據(jù)集進行聯(lián)合訓(xùn)練, 利用多任務(wù)之間的關(guān)聯(lián)信息一定程度上改進了論點部件檢測和識別的性能.

      1.2 多任務(wù)學(xué)習(xí)

      多任務(wù)學(xué)習(xí)目的是在學(xué)習(xí)主任務(wù)時, 同時學(xué)習(xí)其它任務(wù)以獲取額外信息改進主任務(wù). 文獻[10]首次提出多任務(wù)學(xué)習(xí), 認(rèn)為將復(fù)雜問題分解為更小且合理的獨立子問題分別求解再組合, 能夠解決初始的復(fù)雜問題. 文獻[11]在此基礎(chǔ)上增加了“竊聽”機制, 所有任務(wù)共享模型的編碼層. 文獻[12]的工作表明多任務(wù)學(xué)習(xí)對于數(shù)據(jù)稀少的任務(wù)更加有效. 文獻[13]通過同時借鑒同任務(wù)高資源語言數(shù)據(jù)和相關(guān)的任務(wù)數(shù)據(jù)學(xué)到的知識, 解決低資源語言訓(xùn)練數(shù)據(jù)缺乏, 即低資源問題. 文獻[14]提出一種新的參數(shù)共享機制——稀疏共享, 為每個任務(wù)從基網(wǎng)絡(luò)中抽取出一個對應(yīng)的子網(wǎng)絡(luò)來處理該任務(wù), 在任務(wù)相關(guān)性弱的場景下, 稀疏共享提升較大.

      2 問題描述

      論辯挖掘任務(wù)的目標(biāo)是學(xué)習(xí)文本的論辯結(jié)構(gòu)以識別論點, 本質(zhì)是序列標(biāo)注任務(wù). 因此, 對于論辯挖掘問題, 其形式化定義描述如下, 在給定的某個含n個單詞的主觀性文本x={x1,x2, …,xn}和對應(yīng)的標(biāo)簽y={y1,y2, …,yn}, 其中yi定義如下:yi={(b,c)|b∈(B, I, O),c∈(P, C, MC)},b代表論點邊界檢測的標(biāo)簽, B代表起始單元, I代表中間單元, O則表示非論辯單元,c表示論點部件的類型. 這里以學(xué)生論文數(shù)據(jù)集作為示例, P表示前提, C代表主張, M則表示文本中唯一的主要主張. 具體的標(biāo)注示例如表1.

      表1 學(xué)生論文數(shù)據(jù)集標(biāo)注樣例

      3 模型建立

      圖1 論辯挖掘多任務(wù)學(xué)習(xí)模型

      本研究引入多任務(wù)學(xué)習(xí)解決多個不同領(lǐng)域數(shù)據(jù)集的論辯挖掘任務(wù), 所提出的框架CNN-Highway-On-LSTM-CRF如圖1所示. 該模型主要包括以下模塊: 1)基于CNN的字符表示; 2)基于高速神經(jīng)網(wǎng)絡(luò)的特征過濾層; 3)基于ON-LSTM模型的詞級標(biāo)注方法; 4)輸出層. 本研究將以自下而上方式詳細(xì)介紹所提出的模型框架.

      3.1 基于CNN的字符級表示

      本研究拓展了文獻[15]提出的CNN模型. 具體如下:

      3.2 基于高速神經(jīng)網(wǎng)絡(luò)的特征過濾

      為進一步提高實驗效果, 引入高速神經(jīng)網(wǎng)絡(luò)進行特征過濾. 其主要通過轉(zhuǎn)換門和進位門控制不同層信息衰減的比例, 具體實現(xiàn)如下:at=z?σ(Wat-1+b)+(1-z)?at-1. 這里,σ為非線性函數(shù),z=σ(Wat-1+b)為轉(zhuǎn)換門, (1-z)成為進位門, 這里W表示轉(zhuǎn)關(guān)門的權(quán)重矩陣.

      3.3 基于ON-LSTM模型的詞級標(biāo)注方法

      文本的每個句子可以被表示為層級結(jié)構(gòu), 在低資源場景下, 這些結(jié)構(gòu)特征能改善模型性能. 因此, 引入有序神經(jīng)元長短時記憶網(wǎng)絡(luò)(ON-LSTM)[16]作為詞級序列標(biāo)注模型.

      在ON-LSTM通過對內(nèi)部的神經(jīng)元進行排序?qū)蛹壗Y(jié)構(gòu)信息集成到LSTM中, 通過控制神經(jīng)元的更新頻率來表示不同尺度的依賴關(guān)系, 與標(biāo)準(zhǔn)的LSTM架構(gòu)相比, 其引入了新的更新規(guī)則, 定義如下:

      這里,xt是當(dāng)前輸入,ht-1為前一時間步的隱藏狀態(tài).

      3.4 模型求解

      標(biāo)簽依賴是解決序列標(biāo)注任務(wù)的關(guān)鍵. 例如BIO標(biāo)注方法中, 標(biāo)記I不能出現(xiàn)在B之前. 因此, 聯(lián)合解碼標(biāo)簽鏈可以確保得到的標(biāo)簽是有意義的. 條件隨機場(CRF)已被證明能夠捕捉標(biāo)簽依賴信息. 因此, 采用CRF作為模型的最終預(yù)測層.

      本研究整個模型的輸入為一段論辯挖掘文本序列, 最終輸出為該文本序列預(yù)測的標(biāo)簽序列Y.

      4 數(shù)據(jù)集描述

      采用文獻[4]所使用的數(shù)據(jù)集, 數(shù)據(jù)集具體情況如表2所示. 其中Domain表示數(shù)據(jù)集所屬的領(lǐng)域, Len為數(shù)據(jù)集的最大句子長度, Token為每個數(shù)據(jù)集每篇文章的平均單詞數(shù)量, Class 為每個數(shù)據(jù)集論點部件的類型, 每個數(shù)據(jù)集的類型都不相同.

      表2 數(shù)據(jù)集詳情

      5 實驗結(jié)果與分析

      本節(jié)將從實驗的對比模型、 參數(shù)設(shè)置以及評價指標(biāo)進行介紹, 同時對不同場景的實驗結(jié)果進行簡要的分析.

      5.1 實驗對比模型

      為了驗證本研究模型的有效性, 選取以下模型作為基準(zhǔn)實驗.

      1) STL[4]. 單任務(wù)學(xué)習(xí)模型, 該模型僅針對單一數(shù)據(jù)集進行訓(xùn)練和預(yù)測.

      2) MTL-Bi-LSTM-CRF[4]. 多任務(wù)學(xué)習(xí)模型, 采用Bi-LSTM進行特征提取, 用CRF進行序列標(biāo)注, 記為MTL.

      3) CharLSTM+Bi-LSTM-CRF[17]. 該模型在2)的基礎(chǔ)上引入字符級的LSTM進行字符特征提取, 記為LBLC.

      4) CharCNN+Bi-LSTM-CRF[17]. 與3)不同的是字符級的LSTM換成了字符級的CNN, 記為CBLC.

      5) CNNs-Highway+Bi-LSTM-CRF[5]. 與4)不同的是字符級的CNN換為TextCNN-Highway, 記為CHBLC.

      5.2 評價指標(biāo)

      5.3 實驗結(jié)果及分析

      在現(xiàn)實場景中, 由于標(biāo)注代價高昂, 論辯挖掘仍十分缺乏標(biāo)注數(shù)據(jù), 因此, 本研究模擬了低資源場景, 比較模型在各種場景中的性能. 為模擬低資源場景, 按照21 k, 12 k, 6 k, 1 k的單詞規(guī)模對數(shù)據(jù)集進行隨機抽取, 其規(guī)模指的是訓(xùn)練樣本數(shù)目.

      5.3.1多任務(wù)學(xué)習(xí)的任務(wù)數(shù)量和任務(wù)差異對實驗的影響

      為探究任務(wù)數(shù)量對實驗的影響, 以Hotel為主任務(wù), 逐次增加輔助任務(wù)的數(shù)量. 如圖2~3所示, 在迭代次數(shù)相同的情況下, 隨著任務(wù)的增加, 模型的訓(xùn)練時間隨之增長, 模型性能也逐步提高. 與模型復(fù)雜度增加改善的性能提高相比, 其帶來的訓(xùn)練時間增加仍在可接受的范圍.

      圖2 任務(wù)數(shù)量對模型訓(xùn)練時間的影響

      圖3 任務(wù)數(shù)量對模型性能的影響

      為了探究多任務(wù)學(xué)習(xí)方法中任務(wù)間差異對實驗的影響, 分別以Essays等五個數(shù)據(jù)集作為Hotel輔助任務(wù)進行對比實驗, 實驗結(jié)果如圖4~5所示.從圖4可以看出, 每個任務(wù)的引入都對模型性能有一定的提升, 而任務(wù)間差異的大小影響性能的提升幅度. 由圖5可以發(fā)現(xiàn), 差異較大的News作為輔助任務(wù)時模型收斂時間較長, 而幾個差異相近的輔助任務(wù): Var, Wiki, Web等, 其收斂時間相近. 從實驗結(jié)果綜合來看, 模型的差異性對模型收斂時間有一定的影響, 但影響有限.

      圖4 任務(wù)差異對模型性能的影響

      圖5 任務(wù)差異對模型收斂時間的影響

      5.3.2數(shù)據(jù)稀疏情況下對比各個模型性能

      在不同低資源場景下的模型Macro-F1值如表3所示, 其中, 提升最高且穩(wěn)定的是Hotel數(shù)據(jù)集, 在四種低資源場景下均獲得了1%~4%的提升. 在1 k, 6 k, 12 k的單詞場景中, 大部分?jǐn)?shù)據(jù)集都取得了1%~5%的提升, 在21 k的單詞場景中, 雖然沒有取得顯著的提升, 但也達到了與當(dāng)前最優(yōu)方法模型相近的性能. 從表4中可以看到, 在絕大部分場景中, 本研究模型性能高于所有基準(zhǔn)模型, 在數(shù)據(jù)規(guī)模越小的場景中, 性能提升越大.

      觀察實驗結(jié)果發(fā)現(xiàn), MTL等多任務(wù)模型較單任務(wù)模型在各個任務(wù)上都獲得了一定的提高, 特別是Wiki數(shù)據(jù)集, 在21 k的單詞場景提升了8.9%. 這可能是因為Wiki數(shù)據(jù)集是社交媒體上隨機采集的文本, 存在大量非論辯成分, 影響其他論點部件類型的判斷, 而多任務(wù)機制的引入降低了過擬合的風(fēng)險, 提升了對論辯類型的預(yù)測準(zhǔn)確率. 例如在News數(shù)據(jù)集中Premise因為存在大量的O而被單任務(wù)模型預(yù)測為O, 而多任務(wù)減少了這種情況.

      結(jié)合實驗預(yù)測標(biāo)簽情況對結(jié)果進一步分析, 發(fā)現(xiàn)本研究所提出的模型捕獲了層級結(jié)構(gòu)信息, 利用這些信息能夠較好地判斷論點邊界, 進而提升模型的性能. 如Hotel數(shù)據(jù)集中, 在1 k的單詞規(guī)模下提升了8.8%, 其他規(guī)模也提升了2%左右. 這是因為論點部件長度過長, 存在跨段部件時, 基準(zhǔn)模型難以捕捉這一長依賴信息, 使得預(yù)測的論點邊界過小而發(fā)生錯誤, 而本研究模型利用層級結(jié)構(gòu)信息, 能夠捕獲長依賴信息, 提升邊界的預(yù)測準(zhǔn)確度, 進而提升了模型性能.

      綜上所述, 與單任務(wù)學(xué)習(xí)模型和其他的基準(zhǔn)模型相比, 本研究的模型方法在大部分低資源的場景下都能取得一定的提升, 由此證明本研究方法在面向低資源場景下是有效的.

      表3 不同低資源場景下各個模型的Macro-F1值

      5.3.3在完整數(shù)據(jù)集場景下比較各個模型性能

      雖然論辯挖掘任務(wù)目前仍缺少標(biāo)注數(shù)據(jù), 但隨著研究的進行, 數(shù)據(jù)資源將不斷豐富. 因而, 所提方法還需考慮有足夠訓(xùn)練數(shù)據(jù)的場景. 因此, 將在完整數(shù)據(jù)集場景中比較各個模型性能, 以驗證所提方法的有效性(表4). 從表4的實驗結(jié)果可以看出, 本研究所提出的模型在完整數(shù)據(jù)的場景中較前面的基準(zhǔn)模型獲得了一定的提升. 其中Hotel較其他模型提升較為明顯, 這可能是因為Hotel論點部件長度普遍較長且標(biāo)簽多達7種, 其他模型難以解決這種長依賴多標(biāo)簽問題, 而本研究模型通過學(xué)習(xí)隱藏的層次信息, 可以較好地解決這類長依賴問題.

      表4 完整數(shù)據(jù)集下各個模型的Macro-F1值

      從對比實驗中, 可以發(fā)現(xiàn)MTL模型所代表的多任務(wù)架構(gòu)較單任務(wù)性能有較大改善. 其在Essays數(shù)據(jù)集上提升最為顯著, 提升了3.74%, 而提升最少的Var和News也提升0.5%~1.0%, 說明多任務(wù)方法是解決多個數(shù)據(jù)集論辯挖掘任務(wù)的有效方法.

      綜上所述, 與單任務(wù)學(xué)習(xí)模型相比, 多任務(wù)學(xué)習(xí)模型能獲得較好的效果, 利用字符級信息模型也能進一步提升性能. 而本研究方法較其他模型更加優(yōu)秀, 說明本方法在完整數(shù)據(jù)集上也有不錯的效果.

      6 結(jié)語

      本研究提出一種面向低資源場景的多任務(wù)學(xué)習(xí)論辯挖掘方法. 該方法應(yīng)用多任務(wù)學(xué)習(xí)策略獲取多任務(wù)間的共享信息表示, 并引入ON-LSTM, 最后通過條件隨機場進行標(biāo)注. 通過與現(xiàn)有方法的實驗結(jié)果對比, 證明所提方法利用多任務(wù)可有效解決論辯挖掘任務(wù)缺乏數(shù)據(jù)的問題, 同時解決跨段論點部件難以檢測的問題. 接下來的研究中, 將繼續(xù)探索如何更加有效地利用資源以提升模型性能, 促進論辯挖掘在新興領(lǐng)域中的應(yīng)用.

      猜你喜歡
      多任務(wù)論點性能
      提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
      基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
      基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
      議論文分論點的提取
      電測與儀表(2016年5期)2016-04-22 01:13:46
      Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
      強韌化PBT/PC共混物的制備與性能
      中國塑料(2015年4期)2015-10-14 01:09:28
      中共黨史論文論點摘編
      RDX/POLY(BAMO-AMMO)基發(fā)射藥的熱分解與燃燒性能
      怎樣確定議論文的中心論點
      語文知識(2014年11期)2014-02-28 22:01:16
      抚顺县| 浦县| 灯塔市| 新丰县| 安达市| 易门县| 东明县| 清涧县| 济阳县| 深泽县| 江永县| 彝良县| 抚宁县| 讷河市| 云霄县| 沅陵县| 左贡县| 庄河市| 克山县| 昌邑市| 开江县| 施秉县| 尼勒克县| 通江县| 昭觉县| 扎兰屯市| 阳谷县| 项城市| 大邑县| 西畴县| 横峰县| 阿鲁科尔沁旗| 五莲县| 平阳县| 饶阳县| 精河县| 荣昌县| 洪湖市| 桦南县| 娄烦县| 雷山县|