• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      通用語料的眼動數(shù)據(jù)對微博關(guān)鍵詞抽取的性能提升探究

      2021-05-26 09:07:30章成志胡少虎張穎怡
      情報學(xué)報 2021年4期
      關(guān)鍵詞:眼動注意力向量

      章成志,胡少虎,張穎怡

      (南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院信息管理系,南京210094)

      1 引言

      關(guān)鍵詞通常為描述文檔的主題信息的詞語[1]。隨著信息資源的快速增長,人工標(biāo)注文本關(guān)鍵詞的方式已經(jīng)無法滿足實際需求。因此,關(guān)鍵詞自動抽取研究逐漸引起了學(xué)術(shù)界的重視。此外,關(guān)鍵詞抽取可以作為文本摘要、文本聚類、文本分類等任務(wù)的基礎(chǔ)。

      在線社交媒體是網(wǎng)民發(fā)表個人見解、分享個人狀態(tài)的重要載體。在線社交媒體每天產(chǎn)生海量的用戶生成內(nèi)容(user generated content,UGC)。如何高效地組織用戶生成內(nèi)容已成為業(yè)界與學(xué)術(shù)界共同關(guān)注的問題。從海量的用戶生成內(nèi)容中及時有效地抽取關(guān)鍵詞,對于在線社交網(wǎng)絡(luò)的信息組織尤為關(guān)鍵。因此,許多關(guān)鍵詞抽取研究選擇微博語料作為研究對象,本文的研究同樣將在推特語料上開展。

      目前,機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于關(guān)鍵詞抽取任務(wù)。具體來說,基于機(jī)器學(xué)習(xí)的關(guān)鍵詞抽取研究可以分為非監(jiān)督的抽取方法與有監(jiān)督的抽取方法[2]。關(guān)鍵詞抽取結(jié)果的評估,一般都以關(guān)鍵詞標(biāo)注數(shù)據(jù)作為依據(jù)。標(biāo)注員在標(biāo)注關(guān)鍵詞時,首先閱讀待標(biāo)注文檔的全文,然后根據(jù)理解標(biāo)識出有代表性的若干詞語。已有研究表明,當(dāng)人們在閱讀文檔的時候,對于文本中的所有單詞的關(guān)注程度并不均等[3]。這說明人們在閱讀時的注意力并非均勻地分布在每一個單詞上,讀者更有可能將注意力集中在有助于其理解文本含義的詞匯上。根據(jù)這一觀察,研究者可以度量閱讀者對不同單詞上的注意力強(qiáng)弱,并將該信息用于關(guān)鍵詞抽取,提升抽取的性能[4]。

      度量讀者閱讀文檔時在不同詞語上的注意力強(qiáng)弱,較為直觀的方式是比較讀者在閱讀不同詞匯時眼動行為上的差異。眼動數(shù)據(jù)集記錄了被試者在閱讀時的眼動行為數(shù)據(jù),可以利用這些眼動數(shù)據(jù)來度量讀者在不同詞匯上的注意力強(qiáng)弱。例如,Zhang等[4]根據(jù)該方式,依據(jù)通用語料蓋科(Ghent Eye-Tracking Corpus,GECO)眼動數(shù)據(jù)集①http://expsy.ugent.be/downloads/geco,訪問日期:2020年3月30日。在推特文本上進(jìn)行關(guān)鍵詞抽取實驗,實驗結(jié)果表明,考慮詞語的注意力強(qiáng)弱可提升關(guān)鍵詞抽取模型的性能。需要指出的是,通用語料眼動數(shù)據(jù)集中包含豐富的眼動行為數(shù)據(jù),如何將這些數(shù)據(jù)用于關(guān)鍵詞抽取等自然語言處理任務(wù)、全面深入地分析眼動數(shù)據(jù)在自然處理抽取任務(wù)上的作用,尚值得深入探索。因此,本文從眼動特征的選擇、眼動特征與其他特征組合兩個方面,探究通用語料的眼動數(shù)據(jù)對微博關(guān)鍵詞提取任務(wù)性能的影響。同時,由于眼動數(shù)據(jù)集與測試數(shù)據(jù)集在詞匯規(guī)模上的差距較大,使得眼動特征過于稀疏進(jìn)而影響了其作用的發(fā)揮,所以本文還提出了一個眼動數(shù)據(jù)擴(kuò)充方案。需要說明的是,本文通過關(guān)鍵詞抽取模型在測試集上抽取結(jié)果的變化,來評判模型抽取性能的強(qiáng)弱。總的來說,本文的貢獻(xiàn)體現(xiàn)在如下三個方面:

      (1)本文分別將總注視時長、注視次數(shù)、平均注視時長、初次注視時長等眼動特征應(yīng)用于微博關(guān)鍵詞抽取任務(wù),證明在僅考慮眼動特征的情況下,總注視時長對抽取模型的性能提升最為明顯。

      (2)將上述眼動特征與單詞的詞性、詞長、相對位置等文本內(nèi)容特征共同應(yīng)用于微博關(guān)鍵詞抽取任務(wù)后,平均注視時長與文本特征的組合達(dá)到了最優(yōu)效果,證明平均注視時長這一眼動特征在關(guān)鍵詞抽取任務(wù)的整體上來看更有價值。

      (3)在基于眼動特征的微博關(guān)鍵詞抽取中,通過單詞詞形之間的相似程度對眼動數(shù)據(jù)進(jìn)行擴(kuò)充的方法可以有效地解決眼動數(shù)據(jù)稀疏的問題。

      2 相關(guān)工作概述

      本文旨在對通用語料的眼動數(shù)據(jù)對微博關(guān)鍵詞抽取任務(wù)性能的影響進(jìn)行分析,同時,提出相應(yīng)的方案解決眼動數(shù)據(jù)在應(yīng)用時存在的問題,因此,與本文相關(guān)的研究工作主要包括關(guān)鍵詞抽取方法與眼動數(shù)據(jù)的應(yīng)用兩個方面。本節(jié)將從這兩個方面對相關(guān)工作進(jìn)行總結(jié)。

      2.1 關(guān)鍵詞抽取方法研究概述

      關(guān)鍵詞抽取研究方法主要分為無監(jiān)督的方法和有監(jiān)督的方法兩大類[2]。早期用于關(guān)鍵詞抽取的方法主要為無監(jiān)督方法,無監(jiān)督的方法按照類別可以分為基于簡單統(tǒng)計的方法、基于圖結(jié)構(gòu)的方法、基于詞嵌入的方法和基于語言模型的方法。除了基于圖結(jié)構(gòu)的方法以外,其他三種方法很少單獨(dú)使用,多作為關(guān)鍵詞抽取的輔助手段出現(xiàn)。如doc2vec[5]、sent2vec[6]以及GloVe[7]等就屬于基于詞嵌入的方法,但很少有研究純粹使用詞嵌入來抽取關(guān)鍵詞,基本均會與其他的模型方法結(jié)合使用。

      有監(jiān)督的方法分為傳統(tǒng)的機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型兩類。在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中主要存在兩種思路:一種將關(guān)鍵詞抽取任務(wù)視為分類任務(wù);另一種將其視為序列標(biāo)注任務(wù)。如Witten等[8]提出的KEA(keyphrase extraction algorithm)算法與Jiang等[9]提 出 的Ranking SVM(support vector machine)算法就是通過分類模型對候選詞進(jìn)行分類從而得到關(guān)鍵詞。章成志等[10]通過序列標(biāo)注模型CRF(conditional random field)實現(xiàn)了對中文文本中關(guān)鍵詞的標(biāo)引。而Gollapalli等[11]同樣利用CRF模型對英文文本中的關(guān)鍵詞進(jìn)行了抽取,在構(gòu)建單詞的特征時引入了外部資源。

      隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)模型在多項自然語言任務(wù)中均取得了出色的成績,自然也被應(yīng)用于關(guān)鍵詞抽取任務(wù)。Zhang等[12]為了研究如何從推特中抽取關(guān)鍵詞,提出了擁有兩個隱層的深度遞歸神經(jīng)網(wǎng)絡(luò)模型:在第一層中捕獲關(guān)鍵詞的相關(guān)信息,在第二層基于第一層獲得的關(guān)鍵詞信息進(jìn)行序列標(biāo)注。Meng等[13]在2017年提出了基于編碼器-解碼器框架seq2seq,該框架使用CopyRNN捕獲內(nèi)容的語義信息,并將數(shù)據(jù)轉(zhuǎn)化為“文本-關(guān)鍵詞”的鍵值對,然后使用RNN(recurrent neural network)模型學(xué)習(xí)源序列與目標(biāo)序列之間的映射關(guān)系。雖然深度學(xué)習(xí)的模型種類眾多,但在關(guān)鍵詞抽取任務(wù)中,最為常見的是BiLSTM(bidirectional long shortterm memory)模型。BiLSTM屬于序列標(biāo)注模型,其同時考慮了文本信息正向和逆向的傳遞,能夠很好地記錄句子的結(jié)構(gòu)信息,因而受到許多研究者的青睞[14]。Zhang等[15]在對微博文本進(jìn)行關(guān)鍵詞抽取時就使用了BiLSTM模型,并證明了其性能相較于CRF等傳統(tǒng)的機(jī)器學(xué)習(xí)模型更為優(yōu)異。

      關(guān)鍵詞抽取是一項重要的自然語言處理任務(wù),科研工作者針對該任務(wù)提出了許多研究方法。從研究對象上來看,由于微博文本數(shù)據(jù)規(guī)模大、更新速度快且與人們?nèi)粘I盥?lián)系緊密的特性,許多關(guān)鍵詞抽取研究都是在微博文本上開展的。從研究方法上來看,由于深度學(xué)習(xí)模型較強(qiáng)的泛化性與抽取的準(zhǔn)確性,基于深度學(xué)習(xí)的關(guān)鍵詞抽取方法已經(jīng)成為了主流。本文將使用深度學(xué)習(xí)模型抽取微博文本中的關(guān)鍵詞,并深入分析眼動特征這一新的特征對微博關(guān)鍵詞抽取任務(wù)性能的影響。

      2.2 眼動數(shù)據(jù)在自然語言處理中的應(yīng)用概述

      閱讀是人類認(rèn)識世界的重要途徑,人類通過閱讀獲取語言文字中的信息后才能對文本進(jìn)行更深入的思考,人類的閱讀行為從一定程度上能夠反映人類的認(rèn)知過程。早在20世紀(jì)80年代,人們就意識到了眼動數(shù)據(jù)的重要性,并建立了大量的眼動數(shù)據(jù)集,這些數(shù)據(jù)集涉及了語言學(xué)各個方面的研究[16]。隨著采集設(shè)備和采集標(biāo)準(zhǔn)的規(guī)范化,進(jìn)入21世紀(jì)后,出現(xiàn)了大批的眼動數(shù)據(jù)集。其中較為著名的有鄧迪(Dundee)語料庫[17]、波茨坦(Potsdam)語料庫[18]、普羅沃(Provo)語料庫[19]、GECO語料庫[20]、祖 科(Zurich Cognitive Language Processing Corpus,ZuCo)語料庫[21]等。

      眼動數(shù)據(jù)集已在多項自然語言處理任務(wù)中取得較好效果。Barrett等[22]提取出鄧迪語料庫中的眼動數(shù)據(jù),結(jié)合SHMM-ME模型[23]提出一種弱監(jiān)督的詞性標(biāo)注方法。在該研究中,其還將眼動數(shù)據(jù)集中采集的眼動行為數(shù)據(jù)分為多個類別,并比較了各個類別下的眼動特征的作用。Mishra等[24]將單詞的注視時長、注視次數(shù)等眼動行為數(shù)據(jù)轉(zhuǎn)化為眼動特征,與單詞的詞向量、詞性等特征組合,利用SVM、樸素貝葉斯模型和多層感知機(jī)模型對文本進(jìn)行情感分析并對實驗結(jié)果進(jìn)行評估。

      上述研究的共同之處在于均需要在實驗前招募志愿者來閱讀相關(guān)語料并采集志愿者的眼動數(shù)據(jù),這極大地限制了眼動數(shù)據(jù)的使用。Barrett等[25]的一項實驗極大地拓寬了眼動數(shù)據(jù)的應(yīng)用范圍,其利用鄧迪眼動數(shù)據(jù)集在其他五種不同的語料上進(jìn)行詞性標(biāo)注實驗,證明眼動特征可以應(yīng)用于不同種類的語料上。Barrett等[26]在2018年的一項工作中表明,眼動數(shù)據(jù)在其他語料的情緒分類、錯誤語法檢測、侮辱語言檢測等任務(wù)上都可以起到較好的效果。在該項任務(wù)中,研究者將單詞的眼動特征通過注意力機(jī)制融入深度學(xué)習(xí)模型中,使得模型在訓(xùn)練時更關(guān)注文本的關(guān)鍵部分,并取得了較好的效果。

      需要指出的是,Zhang等[4]同樣利用注意力機(jī)制在推特數(shù)據(jù)上進(jìn)行關(guān)鍵詞抽取研究,該研究證明將讀者對詞匯的總注視時長這一眼動行為數(shù)據(jù)進(jìn)行一定的處理后,單獨(dú)加入關(guān)鍵詞抽取模型可以提升模型的抽取效果。但該研究未考慮使用其他眼動行為數(shù)據(jù)進(jìn)行對比實驗,也未從整體上考察眼動特征在推特關(guān)鍵詞抽取任務(wù)上的作用,同時針對實驗中存在的眼動數(shù)據(jù)稀疏問題也只是給出簡單的均值方案。為了更加全面地分析眼動數(shù)據(jù)在微博關(guān)鍵詞抽取任務(wù)上的作用,本文將設(shè)置三組對照實驗從眼動特征的選擇、眼動特征與其他特征組合,以及眼動數(shù)據(jù)的擴(kuò)充三個方面進(jìn)行更為深入的探究。

      3 研究方法

      3.1 研究思路

      本文研究思路為:①http://www.natcorp.ox.ac.uk/,訪問日期:2020年3月30日。數(shù)據(jù)準(zhǔn)備:選擇合適的眼動數(shù)據(jù)集與用于關(guān)鍵詞抽取實驗的微博數(shù)據(jù)集;②數(shù)據(jù)預(yù)處理:對微博文本中的非法字符進(jìn)行替換,以句為單位對文本進(jìn)行編碼處理,對眼動數(shù)據(jù)集中的眼動數(shù)值進(jìn)行歸一化處理,并提出眼動數(shù)據(jù)的擴(kuò)充方案;③眼動特征與文本特征概述:對本文所使用的眼動特征與文本特征進(jìn)行概述,包括特征的來源、特征的處理和選擇該特征的原因;④關(guān)鍵詞抽取模型構(gòu)建:針對本研究的任務(wù)構(gòu)建關(guān)鍵詞抽取模型;⑤眼動數(shù)據(jù)作用分析:說明實驗設(shè)置與評價指標(biāo),并對實驗結(jié)果進(jìn)行分析,主要從眼動特征的選擇、眼動特征與其他文本特征的組合、眼動數(shù)據(jù)擴(kuò)充方案的評估三個角度進(jìn)行分析。具體思路如圖1所示。

      圖1 研究思路圖

      3.2 數(shù)據(jù)集概述

      本文所使用的數(shù)據(jù)集可分為兩類:第一類數(shù)據(jù)集以眼動數(shù)據(jù)為主,用于生成人在閱讀時對單詞的注意力值,即單詞的眼動特征;第二類數(shù)據(jù)集以推特數(shù)據(jù)集為主,用于訓(xùn)練關(guān)鍵詞抽取模型并評估模型性能。本小節(jié)將從這兩個方面對文中所使用的數(shù)據(jù)集進(jìn)行概述。

      3.2.1 通用領(lǐng)域眼動數(shù)據(jù)集

      目前,開源的眼動數(shù)據(jù)集數(shù)量較為有限,并且不是所有的眼動數(shù)據(jù)都適用于本實驗。部分眼動數(shù)據(jù)集會在采集數(shù)據(jù)前,給被試者提供若干與閱讀文本相關(guān)的問題,使得被試者在閱讀時帶有目的性。盡管沒有直接的研究表明這會顯著地影響人的閱讀行為,但為了盡可能地減少潛在的干擾因素,本文選擇規(guī)避這類數(shù)據(jù)集。由于過于稀疏的眼動數(shù)據(jù)分布可能導(dǎo)致實驗結(jié)果不顯著甚至起到反作用,所選的眼動數(shù)據(jù)集規(guī)模不能過小。以ZuCo數(shù)據(jù)集[21]為例,該數(shù)據(jù)集中符合要求的部分僅包含700個句子與2206個單詞,并不利于后續(xù)研究的展開。綜合多種因素的考量,本文最終選擇了GECO數(shù)據(jù)集[20],該數(shù)據(jù)集選擇了以英語為母語的6名男性與7名女性作為數(shù)據(jù)采集對象,采集了其在一般狀態(tài)下閱讀小說時的眼動行為數(shù)據(jù),共囊括了5031個句子,5749個單詞,較為符合本文的要求。

      本文使用眼動數(shù)據(jù)來表示人類在閱讀時注意力的分布情況,但是直接使用眼動數(shù)據(jù)來度量閱讀者對該單詞的注意力強(qiáng)弱并不合理。在日常生活中,人們接觸各個單詞的概率并不相同,相較于熟悉的單詞,人們需要花更多的時間去理解較為陌生的單詞。這并不表明閱讀者更加關(guān)注這類單詞,只是閱讀者對其更為陌生。因此,本文參照文獻(xiàn)[4]引入英國國家語料庫①http://www.natcorp.ox.ac.uk/,訪問日期:2020年3月30日。(The British National Corpus,BNC),該語料庫中收錄了海量的英文文本數(shù)據(jù),單詞在該語料庫中出現(xiàn)的頻率可以從一定程度上度量普通閱讀者接觸該單詞的概率與熟悉程度。GECO數(shù)據(jù)集中共有5037個單詞,可以在英國國家語料庫中找到對應(yīng)的詞頻。

      3.2.2 關(guān)鍵詞抽取測試數(shù)據(jù)集

      影響人眼動行為的因素十分復(fù)雜,為了獲取有效的眼動數(shù)據(jù),數(shù)據(jù)采集者會選擇句子長度較短、內(nèi)容更易理解的文本作為采集文本。本文使用的GECO數(shù)據(jù)集同樣符合這些特點,所以在選擇用于進(jìn)行關(guān)鍵詞抽取實驗的測試數(shù)據(jù)集時,本文選擇了句子長度較短的推特文本作為測試數(shù)據(jù)集。同時,為了確保實驗結(jié)果不受特定數(shù)據(jù)集的影響,本文選擇了兩個不同來源的推特數(shù)據(jù)集作為對照組。兩個數(shù)據(jù)集分別名為Daily-Life數(shù)據(jù)集和Election-Trec數(shù)據(jù)集[27]。這兩個數(shù)據(jù)集都采集自推特,前者是根據(jù)日常生活詞匯通過Twitter API抓取的2018年1月至4月的用戶推文;后者是TREC 2011比賽中的一個子數(shù)據(jù)集。這兩個數(shù)據(jù)集與GECO數(shù)據(jù)集、BNC數(shù)據(jù)集詞匯(不含標(biāo)點符號)的相關(guān)統(tǒng)計如表1所示。

      表1 測試數(shù)據(jù)集詞匯統(tǒng)計表

      3.3 數(shù)據(jù)預(yù)處理

      本文的數(shù)據(jù)預(yù)處理工作主要分為兩個部分:第一部分是對推特數(shù)據(jù)集的非法字符進(jìn)行替換,并對文本數(shù)據(jù)進(jìn)行編碼處理;第二個部分是將眼動行為數(shù)據(jù)處理為眼動特征,并提出眼動數(shù)據(jù)的擴(kuò)充方案。

      3.3.1 推特數(shù)據(jù)集預(yù)處理

      由于本文的測試數(shù)據(jù)來自推特,其文本的規(guī)范性難以得到保證,在推文中摻雜了較多無法識別的字符以及網(wǎng)址。為了得到規(guī)范化的文本,本文通過字符的編碼判斷字符串是否是英文單詞,對無法識別的字符串用“UNKNOWN”標(biāo)簽代替,同時使用正則表達(dá)式識別推文中的網(wǎng)址并將其以“URL”標(biāo)簽代替。

      由于本文使用序列標(biāo)注模型來解決關(guān)鍵詞抽取任務(wù),需要將文本處理成向量的形式,故本文在對文本進(jìn)行規(guī)范化后,對文本以句子為單位進(jìn)行了獨(dú)熱編碼(One-Hot)處理。獨(dú)熱編碼的流程大致可以分為三步:第一步,是為文本中所有的單詞編號,使每個單詞擁有唯一的編號;第二步,是將句子序列中所有的單詞以編號表示;第三步,是根據(jù)數(shù)據(jù)集中最長序列的長度為其他序列進(jìn)行補(bǔ)齊。

      3.3.2 眼動數(shù)據(jù)擴(kuò)充方案

      本文對眼動數(shù)據(jù)的處理參照了文獻(xiàn)[4],單詞的眼動特征由歸一化后的眼動數(shù)值與BNC中歸一化后的詞頻相乘得到,區(qū)別在于該研究中使用眼動特征的均值來代替缺失值,而本文采用了眼動數(shù)據(jù)擴(kuò)充方案來應(yīng)對缺失值。

      從表1不難看出,GECO與BNC數(shù)據(jù)集在兩個推特數(shù)據(jù)集上的詞匯覆蓋情況并不理想,只有不足10%的詞匯能夠找到對應(yīng)的眼動數(shù)值。如果單純地以眼動特征的均值來代替缺失值容易衍生出兩個關(guān)鍵的問題:一是以均值表示的詞匯數(shù)量相較于擁有眼動特征的詞匯來說更多,這就使得擁有眼動特征的詞匯顯得更為“特殊”,僅從實驗結(jié)果來看很難解釋究竟是眼動特征發(fā)揮了作用,還是因為擁有眼動特征的詞匯更為“特殊”,從而使得關(guān)鍵詞抽取模型的效果得到了提升;二是過于稀疏的眼動特征會限制其在關(guān)鍵詞抽取任務(wù)上的作用,影響模型的抽取結(jié)果。

      為此,本文提出了一個眼動數(shù)據(jù)擴(kuò)充方案,該方案的目的是賦予盡可能多的詞匯一個近似的眼動特征,以緩解眼動數(shù)據(jù)稀疏的問題。在該方案中,本文假設(shè)單詞的眼動數(shù)值是與其詞形是存在一定程度的關(guān)聯(lián)的,那么該方案的目的是通過單詞之間詞形上的相似來賦予其一個近似的眼動數(shù)值。本文首先取出測試集中無法在GECO數(shù)據(jù)集或是英國國家語料庫中找到對應(yīng)數(shù)值的單詞,遍歷上述兩個數(shù)據(jù)集中的所有單詞,如果該單詞為某一單詞的子字符串,則認(rèn)為兩者之間存在關(guān)聯(lián),該單詞的眼動數(shù)值為所有與其相關(guān)聯(lián)詞匯的眼動數(shù)據(jù)均值。通過這種方式,3432個單詞獲得了一個近似的眼動數(shù)值,302個單詞獲得了近似的詞頻,一共有39302個單詞至少擁有眼動數(shù)值或詞頻之間的一個值,這個數(shù)量遠(yuǎn)遠(yuǎn)超過了單純采用均值的方案。本文將在第4節(jié)通過對比實驗來說明該方案的有效性。

      3.4 眼動特征與文本特征概述

      本文需要使用兩類特征:第一類特征是來自GECO數(shù)據(jù)集的眼動特征,目的是探究哪一類眼動行為數(shù)據(jù)可以更好地度量閱讀者的注意力;第二類特征是來自BNC數(shù)據(jù)集與推特數(shù)據(jù)集的文本特征,目的是探究眼動特征與文本特征結(jié)合后,能否從整體上提升微博關(guān)鍵詞抽取任務(wù)。本節(jié)將分別闡述這兩類特征。

      3.4.1 通用領(lǐng)域眼動特征

      GECO數(shù)據(jù)集中采集了被試者的多種眼動行為,如被試者注視某個單詞的時長、閱讀單詞的順序、注視某個單詞的次數(shù)等。本文選擇了其中的初次注視時長、總注視時長和注視次數(shù)這三組數(shù)據(jù)。其中,初次注視時長表示被試者在某個單詞上發(fā)生注視行為的時間跨度,表示被試者對單詞進(jìn)行初步加工的時間;總注視時長是被測者在某個單詞上發(fā)生注視行為的時間跨度總和;注視次數(shù)表示被測試者在整個閱讀過程中,在該單詞上發(fā)生注視行為的次數(shù)。

      總注視時長表示被試者在閱讀時在該單詞上發(fā)生注視行為的時長總和,能較好地體現(xiàn)閱讀者在整個閱讀的過程中消耗在該單詞上的注意力,在許多研究[4,26]中均選擇了用其來度量閱讀者對該單詞的注意力。但由于總注視時長容易受到讀者個人興趣等因素的影響,故本文加入了閱讀者的初次注視時長數(shù)據(jù)作為對照組。同時,本文也加入了被試者在單詞上發(fā)生注視行為的次數(shù),以及由總注視時長與注視次數(shù)求得的平均注視時長這兩組數(shù)據(jù)作為對照組。

      3.4.2 微博數(shù)據(jù)文本特征

      在文本特征選擇方面,本文選擇了單詞的詞性、詞長與相對位置特征,這三個特征常被用于關(guān)鍵詞的抽取研究中,且能顯著地提高模型性能。例如,YAKE中使用了單詞的詞長、相對位置等特征用于關(guān)鍵詞抽取研究[28],而Chen等[29]則在篩選候選關(guān)鍵詞時,考慮了單詞的詞性特征,說明了上述三個特征均是有助于關(guān)鍵詞抽取任務(wù)的。

      單詞的詞長與相對位置特征的獲取并不困難,前者只需統(tǒng)計單詞中所包含的字符個數(shù),而后者可以通過單詞在句子中的位置除以該句的長度得到。這兩個特征都可以直接用一維向量表示,而詞性特征則需要進(jìn)行不同的處理步驟。詞性特征來源于BNC數(shù)據(jù)集,其中共標(biāo)識了62種不同的詞性標(biāo)記,考慮到英國國家語料庫中的詞匯并不能完全覆蓋測試集中的所有單詞,包括“缺失”標(biāo)簽在內(nèi)共有63種詞性標(biāo)簽,故本文使用63維的向量來表示每個單詞的詞性。

      3.5 關(guān)鍵詞抽取模型構(gòu)建

      本文使用的關(guān)鍵詞抽取模型由兩個模塊組成,即序列標(biāo)注模塊與注意力機(jī)制模塊。序列標(biāo)注模塊主要負(fù)責(zé)對輸入序列進(jìn)行標(biāo)注,標(biāo)識出句子中的關(guān)鍵詞;注意力機(jī)制模塊的主要任務(wù)是為了引導(dǎo)模型在訓(xùn)練時更關(guān)注句子的關(guān)鍵部分。句子的關(guān)鍵部分或者說句子中各個詞匯的重要程度則是通過人們在閱讀該單詞時的眼動行為,即單詞的眼動特征來度量的。該模型結(jié)構(gòu)如圖2所示。

      在序列標(biāo)注模塊中,本文采用了BiLSTM模型。該模型是一種循環(huán)神經(jīng)網(wǎng)絡(luò)模型,其在訓(xùn)練時會同時考慮文本信息正向與逆向的傳遞,是關(guān)鍵詞抽取任務(wù)中較為常見且性能較好的模型。因為BiLSTM是一種序列標(biāo)模型,所以本文需要將推文轉(zhuǎn)化成模型可以識別的輸入與輸出序列。目標(biāo)推文首先經(jīng)由獨(dú)熱編碼后生成形如<Xi,1,Xi,2,…,Xi,|x|>的序列,其中|x|表示推文的長度。本文的目標(biāo)是在模型中輸入該序列,從模型的輸出中得到形如<Yi,1,Yi,2,…,Yi,w>的結(jié)果,其中,Yi,w表示Xi,w是否表示關(guān)鍵詞或關(guān)鍵詞組的一部分。

      在序列標(biāo)注模塊中,BiLSTM模型的輸入由三個部分拼接而成,分別為詞向量、字符級詞向量以及文本特征。其中,Xi,w表示第i句中的第w個單詞所表示的詞向量。<…,Xi,w,c-1,Xi,w,c,Xi,w,c+1…>表示單詞字符級的序列,是每個單詞經(jīng)由獨(dú)熱編碼轉(zhuǎn)換后形成的由字母組成序列,將其通過BiLSTM模型訓(xùn)練得到單詞字符級的詞向量,Jebbara等[30]已通過實驗證明了,將該向量與單詞的詞向量拼接后,可以有效地提高模型的性能。文本特征為單詞的詞性、詞長與相對位置特征,其中詞長與相對位置特征分別轉(zhuǎn)化為一維向量后直接拼接在詞向量之后,詞性特征則是通過獨(dú)熱編碼后生成多維的向量后進(jìn)行拼接,最終得到模型的輸入Vi,wc。

      圖2 關(guān)鍵詞抽取模型結(jié)構(gòu)圖

      BiLSTM模型可以表示為

      其中,hi,w表示Vi,wc通過BiLSTM層訓(xùn)練后得到的向量;Wy與by則是模型σ(.)通過訓(xùn)練需要學(xué)習(xí)得到的參數(shù);而Wy~與by~則是tanh(.)訓(xùn)練所得到的。yi,w為最后模型的輸出,是一個五維的張量,代表了五種標(biāo)簽,這五種標(biāo)簽分別為

      y∈{Single;Begin;Middle;End;Not}

      其中,Single標(biāo)簽表示該關(guān)鍵詞為單個單詞;Begin、Middle、End標(biāo)簽則分別表示關(guān)鍵詞詞組的起始、中間與結(jié)束部分;Not標(biāo)簽表示該單詞不屬于關(guān)鍵詞。

      除了序列標(biāo)注模塊之外,本文還引入了注意力機(jī)制模塊,該模塊的主要作用是模擬閱讀者閱讀時在不同單詞上的注意力分布,從而引導(dǎo)模型在進(jìn)行訓(xùn)練時更關(guān)注句子的關(guān)鍵部分。該模塊的輸入為單詞的眼動特征,即本文通過眼動特征來度量閱讀者對該單詞的注意力強(qiáng)弱。該模塊可以表示為

      序列標(biāo)注模塊中BiLSTM模型的輸出hi,w首先通過激活函數(shù)為tanh(·)的全連接層得到ei,w,再將其通過歸一化指數(shù)函數(shù)(Softmax(·))進(jìn)行歸一化后與單詞的注意力值ai,w進(jìn)行擬合。其中,Wa、We、ba、be為模型通過訓(xùn)練得到的參數(shù)。因為模型在訓(xùn)練時需要兼顧兩個模塊的擬合情況,所以本模型的損失函數(shù)由兩個部分組成,分別為序列標(biāo)注模塊的損失函數(shù)

      與注意力機(jī)制模塊的損失函數(shù)

      其中,yi,w與ai,w表示樣本的真實值;而y~i,w與a~i,w表示樣本的預(yù)測值。該模型整體的損失函數(shù)為上述兩個損失函數(shù)的加權(quán)和,λword與λatt分別表示其對應(yīng)的權(quán)重,計算公式為

      4 眼動數(shù)據(jù)作用分析

      4.1 實驗設(shè)置與評估方法

      本文使用Keras庫①https://keras.io/,訪問日期:2020年3月30日。對本文使用的關(guān)鍵詞抽取模型進(jìn)行了實現(xiàn)。兩個測試數(shù)據(jù)集均等分為10份,并且以8∶1∶1的比例分別作為訓(xùn)練集、驗證集與測試集。模型序列標(biāo)注模塊的參數(shù)參照文獻(xiàn)[4]設(shè)置,BiLSTM層的輸出維度為300,字符級詞向量的輸出維度設(shè)置為20,所以每個單詞在考慮文本特征的情況下應(yīng)當(dāng)由285維的向量表示,其中包括200維預(yù)訓(xùn)練得到的詞向量、20維的字符級詞向量、63維的詞性向量、各1維的詞長與相對位置向量。需要說明的是,考慮到兩個測試數(shù)據(jù)集的數(shù)據(jù)規(guī)模并不大,直接使用這兩個數(shù)據(jù)集訓(xùn)練得到的詞向量并不合適,因此,本文中的詞向量參照文獻(xiàn)[15],在更大規(guī)模的推特數(shù)據(jù)集上進(jìn)行訓(xùn)練,并將維度設(shè)置為200,該推特數(shù)據(jù)集中共包含9900萬條推文和460萬個不同的單詞。

      此外,本文提出的關(guān)鍵詞抽取模型的序列標(biāo)注模塊在訓(xùn)練時所使用的優(yōu)化器為RMSProp[31],損失函數(shù)為交叉熵函數(shù)(categorical_cross-entropy),見公式(5),注意力機(jī)制模塊的損失函數(shù)為均方誤差(mean squared error),見公式(6),模型的訓(xùn)練輪次設(shè)置為5。經(jīng)過初步的實驗,兩個損失函數(shù)λword與λatt的比例最終確定為6∶4。為了避免實驗的偶然性導(dǎo)致的誤差,本文中的所有實驗均重復(fù)5次,取5次實驗的均值作為最終的結(jié)果。

      為了探究眼動特征的作用,本文設(shè)置了兩個基準(zhǔn)模型,這兩個基準(zhǔn)模型均是BiLSTM模型,區(qū)別在于前者僅以詞向量與字符級向量作為輸入,用于探究在僅加入眼動特征的情況下眼動特征的作用,在圖表中以BiLSTM表示;后者以詞向量、字符級向量與文本特征為輸入,用于探究與文本特征結(jié)合后眼動特征的作用,在圖表中以BiLSTM+POS+LEN+RP(BPLR)表示。

      本節(jié)將通過實驗結(jié)果對眼動數(shù)據(jù)在推特關(guān)鍵詞抽取任務(wù)中的作用進(jìn)行分析,首先需要說明本文所使用的評價指標(biāo)。本文以關(guān)鍵詞抽取結(jié)果的F1值作為模型抽取效果的評價指標(biāo),該指標(biāo)由準(zhǔn)確率與召回率計算得到,準(zhǔn)確率P與召回率R的計算公式為

      其中,TP表示預(yù)測準(zhǔn)確的正例個數(shù);FP表示預(yù)測為正例但實際為負(fù)例的個數(shù);FN表示預(yù)測為負(fù)例但實際為正例的個數(shù)。F1值的計算公式為

      4.2 不同眼動特征的作用分析

      為了探究不同的眼動行為數(shù)據(jù)是否同樣可以度量讀者對單詞的注意力強(qiáng)弱,本文分別將眼動數(shù)據(jù)集中的總注視時長(total reading time,TRT)、注視次數(shù)(number of fixation,F(xiàn)IX)、平均注視時長(average fixation duration,AFT)和初次注視時長(first fixation duration,F(xiàn)FD)處理得到的眼動特征融入關(guān)鍵詞抽取模型中。在僅加入眼動特征的情況下,各個對照組的實驗結(jié)果如表2所示。

      表2 單獨(dú)加入眼動特征的模型F1值(%)

      通過對比表2中各組別的結(jié)果,可以得出兩個結(jié)論:首先,以總注視時長、注視次數(shù)、平均注視時長和初次注視時長作為眼動特征加入抽取模型的組別結(jié)果均高于基準(zhǔn)模型BiLSTM,說明了這四類眼動特征都可以從一定程度上度量讀者閱讀時在不同詞匯上的注意力強(qiáng)弱。其次,從對模型抽取結(jié)果的提升幅度來看,使用總注視時長這一眼動特征的組別在兩個數(shù)據(jù)集上均取得了最好的結(jié)果,說明了在僅加入眼動特征的情況下,總注視時長相較于其他三類眼動特征來說更有價值。

      在理想的情況下,不加入眼動特征的模型對每個單詞的注意力應(yīng)當(dāng)是相同的,模型在關(guān)鍵詞上的注意力應(yīng)當(dāng)為關(guān)鍵詞個數(shù)與句子所包含單詞數(shù)的比值。相應(yīng)地,在加入眼動特征的情況下,模型在關(guān)鍵詞上的注意力應(yīng)當(dāng)為關(guān)鍵詞所對應(yīng)的眼動數(shù)值與整句所對應(yīng)的眼動數(shù)值和的比值。如表3所示,本文選取了若干例句加以說明,其中粗體為該句的關(guān)鍵詞部分。

      在表4中,本文計算了關(guān)鍵詞在例句中所占的注意力比值,其計算公式為

      表3 推特關(guān)鍵詞抽取例句

      其中,分子表示句子中關(guān)鍵詞所對應(yīng)的眼動數(shù)值的和,分母表示句子中所有單詞所對應(yīng)的眼動數(shù)值的和。為了對比在不考慮眼動特征的狀態(tài)下,關(guān)鍵詞在句子所受到的注意力,本文設(shè)置了基準(zhǔn)組,即將所有單詞的眼動數(shù)值視為相等的值。

      從表4中可以發(fā)現(xiàn),依據(jù)眼動特征為單詞賦予不同的注意力值,可以使得句子的關(guān)鍵詞部分獲得更大的權(quán)重,從而引導(dǎo)模型在訓(xùn)練時更加關(guān)注句子的關(guān)鍵部分,從一定程度上也增強(qiáng)了模型的解釋性。

      表4 關(guān)鍵詞所占注意力比值

      4.3 與文本特征結(jié)合后的眼動特征作用分析

      關(guān)鍵詞抽取任務(wù)中存在多種有用的特征,而特征之間又會相互影響,想要評價眼動特征在微博關(guān)鍵詞抽取整個任務(wù)上的作用,僅單獨(dú)考慮眼動特征是不合理的。因此,本文在關(guān)鍵詞抽取模型中加入了單詞的詞性(part of speech,POS)、詞長(length of word,LEN)、相對位置(relative position,RP)等文本特征,用于考察與文本特征結(jié)合后的眼動特征作用。本文首先僅在BiLSTM模型中分別加入了各個文本特征,用于探究這三種文本特征為抽取模型帶來的提升。僅加入文本特征的關(guān)鍵詞抽取實驗結(jié)果如表5所示。

      從表5可以看出上述三種文本特征均能較為顯著地提升模型的抽取結(jié)果,同時加入三種特征可以最大限度地提升模型的性能,但三種特征的作用機(jī)理之間存在一定程度上的重復(fù),從整體上來看其對模型的提升并非簡單地累加。在此基礎(chǔ)上,本文在關(guān)鍵詞抽取模型中同時加入了眼動特征與上述文本特征得到表6。

      表5 加入文本特征的模型F1值(%)

      表6 眼動特征與文本特征結(jié)合的模型F1值(%)

      為了更加直觀地說明文本特征的加入如何影響眼動特征作用的發(fā)揮,本文結(jié)合了表2、表5與表6的實驗結(jié)果生成了圖3與圖4。

      圖3 結(jié)合文本特征前后眼動特征作用差異圖(Daily-Life)

      圖4 結(jié)合文本特征前后眼動特征作用差異圖(Election-Trec)

      從圖3與圖4可以看出,將眼動特征與文本特征同時加入模型后,模型的結(jié)果均高于只加入文本特征的基準(zhǔn)模型,這就說明了眼動特征的確可以從整體上提升微博關(guān)鍵詞抽取模型的性能。同時,對比加入文本特征前后眼動特征的作用可以發(fā)現(xiàn),使用總注視時長這一眼動特征的組別的實驗結(jié)果不再具有優(yōu)勢。相反地,使用平均注視時長這一眼動特征的組別的實驗結(jié)果,在兩個數(shù)據(jù)集上都有了顯著地提升,具體如圖5所示。

      圖5 加入文本特征后模型F1值提升數(shù)值圖

      由圖5可以看出,相對于其他特征,平均注視時長這一眼動特征在微博關(guān)鍵詞抽取任務(wù)上的價值更大。單純考慮眼動特征時,使用平均注視時長的組別表現(xiàn)并不優(yōu)異,說明該眼動特征中所包含的有效信息并不如其他眼動特征來得多,但是一旦與文本特征結(jié)合后,這個缺陷就會被文本特征所彌補(bǔ)。同時,由于其中包含了更多一般的文本特征無法涵蓋的信息,平均注視時長這一眼動特征相較于其他眼動特征來說更有價值。

      4.4 眼動數(shù)據(jù)擴(kuò)充方案的評估

      在第3.3.2節(jié)中,本文說明了在關(guān)鍵詞抽取任務(wù)中使用眼動數(shù)據(jù)時會遇到的眼動數(shù)據(jù)稀疏的問題,并提出了一個基于詞形對眼動數(shù)據(jù)進(jìn)行擴(kuò)充的方案。第4.2節(jié)與第4.3節(jié)中的實驗均是使用了擴(kuò)充之后的眼動數(shù)據(jù)。為了更加直觀地展示本文所提出的眼動數(shù)據(jù)擴(kuò)充方案的效果與必要性,本文使用了未經(jīng)擴(kuò)充的眼動數(shù)據(jù)集作為對照組,其中的數(shù)據(jù)缺失值以均值代替,實驗結(jié)果如表7所示。其中,BiLSTM組與BiLSTM+POS+LEN+RP組的模型并不涉及眼動特征,故在擴(kuò)充前后的結(jié)果相同,僅作為基準(zhǔn)模型用于比較眼動特征的作用。

      為了更加直觀地展示對眼動數(shù)據(jù)進(jìn)行擴(kuò)充的必要性,本文分別繪制了圖6與圖7。

      表7 眼動數(shù)據(jù)擴(kuò)充前后的模型F1值(%)

      從圖6與圖7可以明顯看出,對眼動數(shù)據(jù)進(jìn)行擴(kuò)充可以較為顯著地提升模型的抽取效果。對比兩個基準(zhǔn)模型來看,所有采用擴(kuò)充后眼動特征的組別結(jié)果均高于基準(zhǔn)模型,而單純采用均值策略來處理缺失值的部分組別結(jié)果甚至低于基準(zhǔn)模型,即過于稀疏的眼動數(shù)據(jù)甚至起到了相反的作用,這也進(jìn)一步說明了對眼動數(shù)據(jù)進(jìn)行擴(kuò)充的重要性。同時,由于本文采用的眼動數(shù)據(jù)擴(kuò)充方案本質(zhì)上是基于單詞詞形上的相似程度對眼動數(shù)據(jù)進(jìn)行擴(kuò)充的,因此,有理由相信字形是影響單詞眼動特征的重要因素,這為未來更細(xì)致全面的眼動數(shù)據(jù)擴(kuò)充方案提供了方向。

      綜上所述,眼動特征在微博關(guān)鍵詞抽取任務(wù)中有著較高的價值??傋⒁晻r長、注視次數(shù)、平均注視時長、初次注視時長等眼動特征均能提高微博關(guān)鍵詞抽取模型的性能,只考慮眼動特征時,總注視時長對模型帶來的提升效果最為明顯,而在結(jié)合單詞的詞性、詞長和相對位置等文本特征時,平均注視時長的表現(xiàn)更為優(yōu)異。同時,眼動數(shù)據(jù)的稀疏問題是影響眼動特征在微博關(guān)鍵詞抽取任務(wù)中作用的重要因素,過于稀疏的眼動數(shù)據(jù)甚至?xí)档统槿∧P偷男阅埽赏ㄟ^單詞詞形上的相似程度對眼動數(shù)據(jù)進(jìn)行一定程度上的擴(kuò)充,從而緩解這一現(xiàn)狀。

      圖6 眼動數(shù)據(jù)擴(kuò)充前后實驗結(jié)果圖(Daily-Life)

      5 結(jié)論與展望

      現(xiàn)有工作證明了,可以使用眼動數(shù)據(jù)中被采集者在不同詞匯上的總注視時長,來度量其對該詞匯的注意力強(qiáng)弱,在關(guān)鍵詞抽取模型訓(xùn)練時,引導(dǎo)模型更關(guān)注句子的關(guān)鍵部分,從而提升關(guān)鍵詞抽取的效果。本文在現(xiàn)有工作的基礎(chǔ)上,從眼動特征的選擇、眼動特征與文本特征的組合和眼動數(shù)據(jù)的擴(kuò)充三個方面,對眼動數(shù)據(jù)在微博文本關(guān)鍵詞抽取任務(wù)上的作用進(jìn)行了更為深入的分析。通過實驗發(fā)現(xiàn)在僅考慮眼動特征的情況下,總注視時長為微博關(guān)鍵詞抽取任務(wù)所帶來的性能提升最為明顯,但將眼動特征與單詞的詞性、詞長與相對位置等文本特征結(jié)合使用后,發(fā)現(xiàn)平均注視時長的作用得到了顯著的提升。同時,本文在研究中注意到,眼動特征的稀疏問題會顯著地影響眼動特征作用的發(fā)揮,本文通過基于字形的眼動數(shù)據(jù)擴(kuò)充方案有效地緩解了這一問題。

      在未來,本課題組將針對眼動數(shù)據(jù)現(xiàn)有的問題進(jìn)行更為深入的研究。首先,需要解決的是眼動數(shù)據(jù)的稀疏問題,在現(xiàn)有方案的基礎(chǔ)上,將從更多的角度考慮影響眼動數(shù)據(jù)的因素,并依此來完善眼動數(shù)據(jù)的擴(kuò)充方案。其次,本文只采用了單一的眼動行為數(shù)據(jù)來度量讀者對單詞的注意力強(qiáng)弱,但在實驗中發(fā)現(xiàn),某些眼動特征的效果會隨著文本特征的加入發(fā)生非常顯著地變化,這從另一個角度說明了,單一的眼動行為數(shù)據(jù)并不能很好地度量讀者的注意力強(qiáng)弱,可以嘗試將多種特征進(jìn)行組合,以尋求更好的度量讀者注意力的方式。

      猜你喜歡
      眼動注意力向量
      向量的分解
      基于眼動的駕駛員危險認(rèn)知
      讓注意力“飛”回來
      基于ssVEP與眼動追蹤的混合型并行腦機(jī)接口研究
      載人航天(2021年5期)2021-11-20 06:04:32
      聚焦“向量與三角”創(chuàng)新題
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      向量垂直在解析幾何中的應(yīng)用
      國外翻譯過程實證研究中的眼動跟蹤方法述評
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      阳山县| 宜章县| 焦作市| 武乡县| 东乌珠穆沁旗| 卓尼县| 容城县| 吉水县| 旬阳县| 南汇区| 焦作市| 新野县| 江安县| 贵德县| 新绛县| 罗源县| 松潘县| 武安市| 宝山区| 黄冈市| 连平县| 临高县| 峨眉山市| 台湾省| 合水县| 霍林郭勒市| 大庆市| 延吉市| 奉化市| 洪泽县| 依安县| 灵山县| 商河县| 砀山县| 闸北区| 金阳县| 荆州市| 澄迈县| 新宾| 台山市| 佳木斯市|