王曉明,王 瑩
1.西安外國語大學(xué) 科研處,西安 710128
2.西安外國語大學(xué) 研究生院,西安 710128
3.西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,西安 710072
閱讀眼動是人在閱讀文字時(shí)的眼球運(yùn)動行為,由一系列注視和眼跳組成,是人類語言認(rèn)知過程的外顯[1]。當(dāng)前,人的認(rèn)知行為研究方興未艾,而閱讀眼動建模是語言認(rèn)知科學(xué)的研究熱點(diǎn)[2]。從研究角度看,進(jìn)行閱讀眼動模型構(gòu)建研究,會促進(jìn)語言認(rèn)知科學(xué)和閱讀行為科學(xué)的發(fā)展。從應(yīng)用角度看,閱讀眼動可計(jì)算模型在機(jī)器視覺、自然語言處理、身份識別等領(lǐng)域都有重要的應(yīng)用價(jià)值[3]。
已有的閱讀眼動可計(jì)算模型歸為5類,即:基于認(rèn)知注意力轉(zhuǎn)移[4-10]、基于視覺神經(jīng)生理參數(shù)估計(jì)[11-14]、基于語言概率推理[15-19]、基于概率圖模型[20-25]和基于神經(jīng)網(wǎng)絡(luò)的閱讀眼動可計(jì)算模型[26-31]。然而,現(xiàn)有模型建模方法普遍較復(fù)雜,模型所需特征較多。為了解決這一問題,本文突破傳統(tǒng)閱讀眼動模型注視粒度處理和回視處理模式,提出閱讀眼動注視序列標(biāo)注方法,以構(gòu)建簡單模型,并通過最大熵馬爾可夫模型[32](maximum entropy Markov model,MEMM)驗(yàn)證所提出模型的有效性和易實(shí)現(xiàn)性。
光在經(jīng)過眼球的光學(xué)介質(zhì)(角膜、晶狀體、玻璃體)后要通過其他各層神經(jīng)細(xì)胞,最后到達(dá)光感受器——這是視網(wǎng)膜中唯一對光敏感的細(xì)胞。光感受器按其細(xì)胞外段呈桿形或錐形,可分為視桿細(xì)胞和視錐細(xì)胞[33],統(tǒng)稱為視細(xì)胞。視錐細(xì)胞主要負(fù)責(zé)晝光覺,有色覺,光敏感性差,但視敏度高。視桿細(xì)胞對暗光敏感,光敏感度較高,但分辨能力差,在弱光下只能看到物體粗略的輪廓,并且無色覺。
視桿細(xì)胞主要分布在視網(wǎng)膜中心周圍,如圖1所示[34]。人類視網(wǎng)膜平均有約12 500萬個視桿細(xì)胞。1個光子就足以激發(fā)視桿細(xì)胞的活動,它對單個光子的敏感程度是視錐細(xì)胞的100多倍。也因此視桿細(xì)胞建立人類在夜晚最基本的視覺、暗視覺。視錐細(xì)胞則需要數(shù)十到上百個光子的激發(fā)。視網(wǎng)膜上的視錐細(xì)胞大約有600~700萬個,主要分布在黃斑(macular)區(qū)。黃斑是人眼視網(wǎng)膜中央附近一卵圓形染色區(qū)域,直徑約5.5 mm。視網(wǎng)膜在黃斑區(qū)的呈凹陷狀態(tài),形成中央凹(foveal)。黃斑之中的中央凹和黃斑凹都含有高密度的視錐細(xì)胞。黃斑的結(jié)構(gòu)特點(diǎn)是高敏銳度視力的基礎(chǔ)。這種結(jié)構(gòu)特點(diǎn)有助于改善視網(wǎng)膜成像的清晰度和提高空間分辨能力。
圖1 視桿細(xì)胞和視錐細(xì)胞在視網(wǎng)膜上的分布示意圖Fig.1 Distribution of rod cells and cone cells in retina
一般來說,人的視覺區(qū)域中,中央凹視覺區(qū)能夠提供高清晰的視覺,處在這個區(qū)域內(nèi)的景物才可以被人看清楚,其他區(qū)域的景物都是模糊的。而這個能夠提供高清晰視覺的中央凹區(qū)域僅覆蓋了有限的約2°的視覺區(qū)域。相當(dāng)于人在正常情況下,伸展手臂時(shí)的距離下,僅能看清一個指甲蓋區(qū)域的范圍。
為了能夠看清楚視野范圍內(nèi)的所有景物,人眼需要通過連續(xù)地轉(zhuǎn)動,以便將中央凹視覺區(qū)對準(zhǔn)感興趣的區(qū)域,這就是眼動的生理學(xué)原理。眼動的速度非??欤藗儾粫庾R到,但心理學(xué)家100多年來,已經(jīng)做了無數(shù)的實(shí)驗(yàn)確認(rèn)了這個運(yùn)動的細(xì)節(jié)。
眼動追蹤(eye-tracking)是指通過測量眼睛的注視點(diǎn)的位置實(shí)現(xiàn)對眼球運(yùn)動(eye-movements)的追蹤。人們在閱讀時(shí),注視點(diǎn)并非平滑地劃過所有文字,而是由注視(fixation)和眼跳(saccade)組成。一般注視的時(shí)間大于100 ms,典型的注視只持續(xù)0.1~0.5 s。
眼動軌跡圖描述的是讀者閱讀文字時(shí)的眼睛運(yùn)動軌跡,一般用圓圈表示注視,用線表示眼跳方向,如圖2所示,這樣在眼動軌跡圖中,研究者既可以看到注視又可以看到眼跳。
圖2 閱讀眼動軌跡圖(維基百科,Javal發(fā)表于1879年)Fig.2 Reading eye-tracking diagram(Wikipedia,Javal,1879)
為了更好地理解和認(rèn)知人在閱讀時(shí)的眼動軌跡規(guī)律,研究者構(gòu)建了各式各樣的閱讀眼動模型,這些模型把文本作為輸入,生成與人類閱讀行為近似的注視時(shí)間和注視位置。然而,這些模型普遍較復(fù)雜,不易于用機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)。
本文將閱讀眼動過程視為讀者在文字上標(biāo)注注視詞的過程,將復(fù)雜的閱讀眼動建模任務(wù)轉(zhuǎn)化成了更加容易建模的序列標(biāo)注任務(wù)。該任務(wù)的輸入是一個線性文本序列,需要給線性文本序列中的每個元素(單詞)打上標(biāo)簽集合中的一個標(biāo)簽,其中,標(biāo)簽集合僅有兩個元素:{Fixation,Skip}。如果一個單詞被標(biāo)注為“Fixation”,則表示該單詞在閱讀過程中被“注視”;同理,如果一個單詞被標(biāo)注為“Skip”,則表示該單詞在閱讀過程中被“跳過”。
對于一個文字序列“Kate quivered and went to the window”,經(jīng)過閱讀眼動注視序列標(biāo)注處理之后,輸出的標(biāo)注序列為“Fixation,F(xiàn)ixation,Skip,F(xiàn)ixation,Skip,F(xiàn)ixation,F(xiàn)ixation”,如圖3所示??梢钥闯觯敵龅臉?biāo)注序列與原文字序列同長。
圖3 閱讀眼動注視序列標(biāo)注任務(wù)示例圖Fig.3 Example diagram of reading eye-movement fixation sequence labeling task
在傳統(tǒng)語言序列標(biāo)注任務(wù)中,正確標(biāo)注結(jié)果可能僅存在一個或幾個,例如正確的分詞、正確的詞性標(biāo)注、正確的命名實(shí)體識別。與傳統(tǒng)序列標(biāo)注任務(wù)不同的是,對于閱讀眼動注視序列標(biāo)注任務(wù)來說,因?yàn)槊總€人的眼動模式是不同的,所以并不存在一個唯一正確解。也就是說,即使對于同樣一段文字,標(biāo)注結(jié)果也會因人而異。
讓R表示一組讀者集合,單個讀者r∈R。T表示詞序?yàn)?w1,w2,…,wn)的文本。對于每個r∈R,根據(jù)T中的每個單詞產(chǎn)生一個注視序列FRAW,FRAW服從:
這里的p(FRAW|T,r)是一個特定受試者閱讀一段文本時(shí)的眼動模式分布。例如,有文本“Kate quivered and went to the window”,被表示為T=(Kate,quivered,and,went,to,the,window),一個可能的注視序列FRAW記為(Kate,quivered,and,Kate,quivered,went,the,win‐dow),相應(yīng)的位置序列為(1,2,3,1,2,4,6,7)。以單詞所在的矩形劃分區(qū)域,與FRAW相對應(yīng)的區(qū)域位置集合為{1,2,3,4,6,7}。對于所有的區(qū)域,若有注視點(diǎn)落入該區(qū)域,則該區(qū)域標(biāo)記為1,否則標(biāo)記為0,以IA表示區(qū)域標(biāo)記序列,則相應(yīng)的IA為(1,1,1,1,0,1,1)。IA的元素個數(shù)與T相同。
在做基于閱讀眼動序列標(biāo)記預(yù)測時(shí),假設(shè)M是一個可計(jì)算眼動模型,給出一個文本序列T,讀者r閱讀T時(shí)的眼動注視序列f由推算出:
為了便于模型進(jìn)行數(shù)據(jù)處理,使用IA序列代替FRAW序列,同時(shí)引入與T相對應(yīng)的若干關(guān)于T的語言學(xué)特征序列A1,A2,…,An(n∈N),則An的長度與T相同,此時(shí),所求的目標(biāo)變?yōu)椋?/p>
研究者在以拼音文字為實(shí)驗(yàn)材料進(jìn)行的眼動研究中發(fā)現(xiàn),在閱讀過程中,當(dāng)讀者注視某一個單詞時(shí),注視點(diǎn)往往落在該單詞的開頭與中心部分的中間位置,也就是大概在該單詞開頭的1/4處。該位置通常是讀者的注視點(diǎn)首次落在某個單詞的位置,因此被研究者們稱為偏向注視位置(preferred viewing location,PVL)[35]。偏向注視位置描述的是注視點(diǎn)停落最多的位置,其分布近似高斯分布[36]。對于拼音文字來說,偏向注視位置的發(fā)現(xiàn)支持了讀者的眼跳目標(biāo)是以詞為單位的觀點(diǎn),即讀者在閱讀過程中下一次眼跳選擇的目標(biāo)是單詞,而不是字母[37]。受認(rèn)知心理學(xué)上述研究啟發(fā),在本文所提出的閱讀眼動注視序列標(biāo)注任務(wù)中,規(guī)定任務(wù)所處理的元素粒度是單詞(word)而非字符(character)。
在閱讀過程中,讀者通常會在文本上前向移動眼球,以獲得新的視覺信息并進(jìn)行處理。這些眼動是必需的,因?yàn)橹醒氚家曈X區(qū)僅占視野的很一小部分,所以,每次注視僅能提取到一定量的信息[38]。但是,并非所有的眼跳都沿文字前向方向進(jìn)行,有時(shí)也會跳回到已經(jīng)閱讀過的文字,對文字進(jìn)行重新加工以獲取信息,這種眼動現(xiàn)象稱為回視(regression)?;匾暿菫榱藵M足對文字的理解需求而產(chǎn)生的,可以使讀者糾正對文字的誤解或理解缺失[39]?;匾暜a(chǎn)生的原因與閱讀材料難易程度,讀者對閱讀材料的熟悉度,讀者的閱讀習(xí)慣,讀者的閱讀環(huán)境,閱讀任務(wù)的具體要求等因素都有關(guān)[40]。盡管產(chǎn)生回視的原因諸多,但有一點(diǎn)可以肯定:回視并非是一種好的現(xiàn)象,因?yàn)樗档土碎喿x的效率。高效的閱讀者應(yīng)該盡量避免或減少閱讀回視次數(shù)。對于熟練讀者,回視次數(shù)占總注視次數(shù)的不到10%[41],而本文所開展的研究基于閱讀眼動語料庫,被試恰恰均為熟練閱讀者,所以,不考慮回視現(xiàn)象對所提出的閱讀眼動注視序列標(biāo)注任務(wù)模影響不大。
綜上,本文提出的閱讀眼動注視序列標(biāo)注方法存在以下兩個新模式:
(1)在基于單詞的閱讀眼動注視粒度處理模式中,處理粒度基于單詞(word)而非字符(character);
(2)在基于熟練讀者的閱讀眼動回視處理模式中,不考慮閱讀過程中的回視(regression)現(xiàn)象。
本文在模型構(gòu)建工作中基于Provo語料庫[42]評價(jià)不同可計(jì)算模型的效果,原因是Provo語料庫規(guī)模較大(20萬詞量級)[43]。Provo語料庫是一個英語眼動語料庫,2018年發(fā)布。閱讀材料包括55篇短文,內(nèi)容涵蓋在線新聞、科普雜志和通俗小說等題材。眼動數(shù)據(jù)采集所用的設(shè)備是SR Research EyeLink 1000 Plus眼動儀,以1 000 Hz采樣頻率記錄右眼眼動數(shù)據(jù)。表1是Provo語料庫中的關(guān)鍵變量。
表1 Provo語料庫中的關(guān)鍵變量列表Table 1 List of key variables in Provo corpus
閱讀眼動注視序列標(biāo)注任務(wù),其實(shí)是一個把輸入的文本序列根據(jù)上下文對當(dāng)前文本進(jìn)行分類的問題,因?yàn)檩敵隹臻g僅有兩個元素——注視和眼跳,所以更進(jìn)一步,這是一個二分類問題。對于分類問題,準(zhǔn)確率是最直觀的一個評價(jià)指標(biāo),但是,在結(jié)果標(biāo)簽分布不均的情況下可能會出現(xiàn)問題[44]。例如,在實(shí)際閱讀過程中,讀者注視的單詞要遠(yuǎn)多于被跳過的單詞,有統(tǒng)計(jì)表明一段文字90%的單詞在閱讀時(shí)都被注視,如果模型僅簡單地把所有的單詞都標(biāo)注為注視詞,這種簡單粗暴的做法使模型的準(zhǔn)確率仍然達(dá)到了90%,這顯然不合理。因此,實(shí)驗(yàn)評價(jià)指標(biāo)使用兼顧精確率和召回率的F1分?jǐn)?shù)(F1-Score)。
本文的實(shí)驗(yàn)基于Python3.7+TensorFlow1.13+Keras2.2.4開展,實(shí)驗(yàn)相關(guān)代碼可從網(wǎng)址https://github.com/wxmgo/eye_movement_in_reading/下載。實(shí)驗(yàn)平臺相關(guān)介紹如下:
Python是一種解釋性的高級編程語言,它有很多科學(xué)計(jì)算庫,特別是一些高效的機(jī)器學(xué)習(xí)代碼庫,大大方便了研究者。
TensorFlow是一個免費(fèi)的開源軟件庫,可用于神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)。TensorFlow是Google Brain的第二代系統(tǒng)。TensorFlow可在64位Linux、macOS、Windows以及包括Android和iOS在內(nèi)的移動計(jì)算平臺上使用。其靈活的體系結(jié)構(gòu)允許在各種平臺(CPU,GPU,TPU)之間以及從臺式機(jī)到服務(wù)器集群再到移動設(shè)備和邊緣設(shè)備的輕松部署計(jì)算。在TensorFlow上的數(shù)據(jù)被稱為張量(Tensors),有狀態(tài)的數(shù)據(jù)在其上流動產(chǎn)生計(jì)算結(jié)果——這就是TensorFlow的名稱來源。
Keras是在TensorFlow、CNTK或Theano之上的框架,它最大的特點(diǎn)是易用性,而且這種易用性并不以降低靈活性為代價(jià)。Keras也被認(rèn)為是一個接口,而不是一個獨(dú)立的機(jī)器學(xué)習(xí)框架。Keras開發(fā)主要由Google支持,而Keras API打包為tf.keras封裝在TensorFlow中。微軟也向Keras添加了CNTK后端,可從CNTK v2.0開始使用。
為了證明本文所提出的閱讀眼動注視序列標(biāo)注任務(wù)的易實(shí)現(xiàn)性,下面使用最大熵馬爾可夫模型來實(shí)現(xiàn)本文所提出的序列標(biāo)記任務(wù)。實(shí)驗(yàn)基于Provo語料庫開展。
在HMM中,觀測序列由隱藏狀態(tài)序列生成,在序列標(biāo)注任務(wù)中尋找以最大概率生成指定觀測序列的隱藏狀態(tài)序列,HMM-viterbi計(jì)算觀測序列和隱藏序列的最大聯(lián)合概率。λ是模型參數(shù)。
而MEMM作為判別模型直接給出目標(biāo)狀態(tài)序列。
MEMM可定義更復(fù)雜的特征,在HMM-Viterbi查找序列標(biāo)注時(shí)當(dāng)前隱藏狀態(tài)和上個隱藏狀態(tài)相關(guān),假定各觀測狀態(tài)之間互相獨(dú)立,觀測狀態(tài)是生成目標(biāo),并不便于定義更多特征條件。
在MEMM中并不要求各觀測狀態(tài)獨(dú)立,可使用特征函數(shù)對條件ot定義更復(fù)雜的分類特征(例如,大小寫、上下文字符)。
與HMM-viterbi類似,定義兩個函數(shù)用于保存每個步驟的最大概率和最佳前驅(qū)狀態(tài)。然后從前向后遞歸,最后回朔狀態(tài)序列。但這里和HMM不同的是將聯(lián)合概率定義為條件概率。
第一步,此時(shí)q0=0,本文認(rèn)為,沒有上一個隱藏狀態(tài)本身就表示一種特殊狀態(tài)(序列開始狀態(tài))
第二步,遞歸
第三步,回溯和結(jié)束。
表2顯示了使用Provo語料庫基于最大熵馬爾可夫模型進(jìn)行閱讀眼動注視序列標(biāo)注的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)所用的數(shù)據(jù)是1~3號被試的閱讀眼動數(shù)據(jù)。從實(shí)驗(yàn)結(jié)果可以看出,隨著迭代次數(shù)的增多,標(biāo)注正確的注視詞次數(shù)越來越多。
表2 基于MEMM的閱讀眼動序列標(biāo)注實(shí)驗(yàn)結(jié)果Table 2 Experimental results of reading eye-movement sequence labeling based on MEMM
與HMM相比,MEMM的最大優(yōu)點(diǎn)是它在選擇表示觀察結(jié)果的特征方面提供了更大的自由度。在序列標(biāo)記的情況下,使用領(lǐng)域知識來設(shè)計(jì)特殊用途的功能很有用。MEMM的缺點(diǎn)在于存在標(biāo)簽偏差問題(label bias problem),其中具有低熵躍遷分布的狀態(tài)有效地忽略了它們的觀察結(jié)果。
本文還將MEMM同HMM和MEM模型做了對比,在四個性能指標(biāo)上的比較結(jié)果如表3所示。
表3 四種性能指標(biāo)對不同模型的評價(jià)結(jié)果Table 3 Evaluation results of four metrics on different models 單位:%
分析表3可以得出,與其他兩個序列標(biāo)注模型相比,本文提出的基于最大熵馬爾科夫模型(MEMM)的注視詞序列標(biāo)注方法具有70.24%的召回率和69.90%的精確率,召回率和精確度均有高于另外兩個模型。此外,F(xiàn)1值為70.08%,在三個模型中值最高,說明該模型表現(xiàn)出了更好的穩(wěn)定性。從而進(jìn)一步說明,將兩種模型結(jié)合使用的注視詞序列標(biāo)注效果比單獨(dú)使用隱馬爾科夫模型(HMM)或是單獨(dú)使用最大熵模型(MEM)更好。
2019年,VRIES[28]使用Provo閱讀眼動語料庫訓(xùn)練訓(xùn)練RNN模型和Rescorla-Wagner模型,以實(shí)現(xiàn)根據(jù)前一個詞的詞性標(biāo)簽預(yù)測Penn樹庫句子中的詞性標(biāo)簽。兩種模型預(yù)測都顯示出與人類預(yù)測相似的偏向某些常見詞匯類別的傾向。為了用模型結(jié)果解釋人類預(yù)測誤差的差異,將普通最小二乘法(OLS)模型擬合到結(jié)果上。估計(jì)量包括詞性標(biāo)簽、詞長和模型輸出,RNN模型和Rescorla-Wagner模型的輸出對OLS模型有顯著貢獻(xiàn)。使用本文所提出的模型,同樣在Provo閱讀眼動語料庫上預(yù)測Penn樹庫句子中的詞性標(biāo)簽。
2019年,Elsayed[29]提出了一種端到端的深度學(xué)習(xí)閱讀眼動模型架構(gòu),引入了一個稱為分位數(shù)層(quantile layer)的參數(shù)化統(tǒng)計(jì)聚合層,該分位數(shù)層使網(wǎng)絡(luò)能夠明確地?cái)M合過濾器激活的分布。該體系結(jié)構(gòu)由一維卷積濾波器的深層布置組成,這些濾波器從原始眼動信號中提取局部的短期模式,然后是分位數(shù)層,其輸出表征了這些分布模式。作者設(shè)計(jì)分位數(shù)層的方式可以概括全局最大值、中位數(shù)和最小值。由于作者假設(shè)短期模式的分布信息最豐富,因此使用標(biāo)準(zhǔn)的非卷積卷積運(yùn)算,而不是最近用于對時(shí)間序列中的更多長期模式進(jìn)行建模的散卷積運(yùn)算。本文使用與ELSAYED19模型完全相同的數(shù)據(jù)集和數(shù)據(jù)劃分方法。
2020年,Jothi等人[31]提出了一種基于眼動行為的閱讀障礙的預(yù)測模型。作者提出了一組小范圍的眼球運(yùn)動特征,這些特征有助于通過機(jī)器學(xué)習(xí)模型區(qū)分閱讀障礙者和非閱讀障礙者。作者使用統(tǒng)計(jì)方法、離散度閾值識別(I-DT)和速度閾值識別(I-VT)算法檢測與眼球運(yùn)動事件相關(guān)的特征,如注視和眼跳。利用基于粒子群優(yōu)化(PSO)的SVM混合核(Hybrid SVM-PSO)、支持向量機(jī)(SVM)、隨機(jī)森林分類器(RF)、Logistic回歸(LR)和K-最近鄰(KNN)等多種機(jī)器學(xué)習(xí)算法對這些特征進(jìn)行了進(jìn)一步的分析。實(shí)驗(yàn)結(jié)果表明采用SVM-PSO混合模型的預(yù)測精度為71.42%。提供高精度的最佳特征集是平均注視次數(shù)、平均注視持續(xù)時(shí)間、平均掃視運(yùn)動持續(xù)時(shí)間、掃視運(yùn)動總次數(shù)和平均注視次數(shù)等5個特征。
本文的方法與基于VRIES19、ELSAYED19、JOTHI20的實(shí)驗(yàn)結(jié)果對比見表4。從表4可以看出,在閱讀眼動注視詞標(biāo)注任務(wù)上,所使用的基于最大熵馬爾可夫模型的閱讀眼動注視序列標(biāo)記方法,盡管對眼動過程做了簡化處理,仍然取得了與復(fù)雜模型相近的準(zhǔn)確率和F1值。
表4 本文方法與最新方法的實(shí)驗(yàn)結(jié)果對比Table 4 Comparison of experimental results between proposed method and the latest method單位:%
同時(shí),本文的方法是基于簡化模型,模型使用了較簡單的架構(gòu)和較少的特征,因此使用較少的迭代次數(shù)就能達(dá)到收斂,在迭代次數(shù)和總的收斂時(shí)間上都明顯優(yōu)于其他模型,相關(guān)對比優(yōu)勢見表5。
表5 本文方法與最新方法的對比優(yōu)勢Table 5 Comparative advantages of proposed method and the latest method
綜上,盡管本文的方法沒有達(dá)到最新方法的預(yù)測精度,但該模型的優(yōu)勢是使用較少特征和較簡單的模型,就能取得與最新方法相近的性能,模型在易實(shí)現(xiàn)性以及運(yùn)算成本等方面的優(yōu)勢使其在工程應(yīng)用領(lǐng)域具有一定價(jià)值。
本文通過引入基于單詞的閱讀眼動注視粒度處理模式和基于熟練讀者的閱讀眼動回視處理模式,對閱讀眼動建模任務(wù)進(jìn)行了簡化處理,在閱讀注視詞標(biāo)注任務(wù)上,可以實(shí)現(xiàn)使用較少特征就能取得與現(xiàn)有眼動模型相似的準(zhǔn)確率。該方法僅在實(shí)驗(yàn)條件下取得成功,實(shí)驗(yàn)所使用的數(shù)據(jù)來自于經(jīng)處理過的閱讀眼動語料庫。這些語料庫由專業(yè)人士構(gòu)建,數(shù)據(jù)采集對象是熟練讀者(有熟練的閱讀技能,但對語料本身不熟悉),因此,整個語料庫的回視次數(shù)較少。在實(shí)際的閱讀環(huán)境中,讀者未必都是熟練讀者,因此需要明確適用該模型的限制條件,主要包括兩個方面:(1)對被試的限制性條件,即被試需為有著良好閱讀技巧的熟練讀者;(2)對閱讀眼動的回視次數(shù)限制性條件,即回視次數(shù)不能過多。未來需要進(jìn)一步細(xì)化這兩個限制性條件的具體參數(shù)。
本文把閱讀眼動行為視為讀者在文字上進(jìn)行注視序列標(biāo)注的過程,并給出了閱讀眼動注視序列標(biāo)注任務(wù)的具體描述和形式化描述。為了簡化閱讀眼動模型,本文對閱讀眼動注視序列標(biāo)注任務(wù)做了兩個限制:(1)處理粒度基于單詞(word)而非字符(character);(2)不考慮閱讀過程中的回視(regression)現(xiàn)象。通過在最大熵馬可夫模型上實(shí)踐,證明了該方法可以較好地描述閱讀眼動任務(wù),并且較易用機(jī)器學(xué)習(xí)模型進(jìn)行實(shí)現(xiàn)。
本文實(shí)驗(yàn)基于拼音文字開展,未在中文等非拼音文字上應(yīng)用,原因之一是我國在眼動基礎(chǔ)數(shù)據(jù)方面較欠缺,缺少以中文為語料的閱讀眼動數(shù)據(jù)集。未來應(yīng)嘗試構(gòu)建中文閱讀眼動語料庫,在此基礎(chǔ)上,擴(kuò)展所提出模型應(yīng)用的語種范圍。
本文所提出的方法中,序列標(biāo)注標(biāo)簽集合僅有兩個元素Fixation和Skip,分別代表注視詞和跳視詞,未來需要結(jié)合閱讀眼動數(shù)據(jù)的特點(diǎn),引入注視時(shí)長(duration)、回視(regression)等至少兩個元素,使本文所提出的模型不僅可以用于閱讀注視詞序列標(biāo)注,還可以用于閱讀注視行為預(yù)測。