唐玉玲,張宇飛,于 東
(北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
作為衡量閱讀難度的標準之一,文本可讀性對于閱讀教學(xué)、教材編排有重要意義??勺x性體現(xiàn)了給定文本與讀者理解文本之間的認知負荷關(guān)系。這種復(fù)雜的關(guān)系受到很多因素的影響,包括詞匯與句法復(fù)雜程度、語境和背景知識[1]等。傳統(tǒng)的可讀性研究通過量化不同層面、不同維度的語言特征,如句子長度和單詞難度[2],構(gòu)建多元線性回歸公式來評估文本的閱讀難度。這些方法因其薄弱的統(tǒng)計基礎(chǔ)而受到詬病[1]。隨著計算機和自然語言處理技術(shù)的發(fā)展,越來越多的復(fù)雜模型被構(gòu)建出來應(yīng)用于文本可讀性評估工作[3-5]。有監(jiān)督的機器學(xué)習(xí)方法是現(xiàn)行自動評估文本可讀性的主流方法。相關(guān)研究包括構(gòu)建統(tǒng)計語言模型評估網(wǎng)頁文本難度[3],或者把可讀性評估任務(wù)視為分類任務(wù),構(gòu)建分類模型預(yù)測文本的可讀性級別[6-7]。從20世紀20年代以來,各個語言的研究者根據(jù)自身語言的特點,構(gòu)建線性或者非線性的模型進行自動評估[6]。這些基于特征工程的方法[8]發(fā)現(xiàn),語言特征的選擇對于可讀性評估起著重要的作用[9]。但有效特征的預(yù)測能力與語言特點有關(guān)[10]。這些研究中預(yù)測能力強的語言特征部分適用于漢語,已在于東等[11]的工作中得到驗證。
到目前為止,深度學(xué)習(xí)方法[12]在很多自然語言處理任務(wù)中都有很好的表現(xiàn),尤其是與語義相關(guān)的任務(wù)[13-14],但是只有很少的學(xué)者將深度學(xué)習(xí)方法用于可讀性研究。Matrinc等[15]在幾大公開的文本級可讀性數(shù)據(jù)集如WeeBit[16]、OneStopEnglish[17]、Newsela[18]以及Slovenian SB[15]上分別用HAN[19]、BiLSTM[20]和BERT[21]模型進行了有監(jiān)督的可讀性自動評估研究。這項研究使用現(xiàn)有的深度學(xué)習(xí)方法在可讀性問題上進行初嘗試,探究了不同深度學(xué)習(xí)模型在不同數(shù)據(jù)集上的表現(xiàn)。深度學(xué)習(xí)模型自動學(xué)習(xí)到的特征在多大程度上表征難度?這種自動學(xué)習(xí)獲取的特征與人工抽取的語言難度特征的差別體現(xiàn)在何處?現(xiàn)階段還沒有工作使用深度學(xué)習(xí)方法對漢語可讀性問題進行研究。本研究主要是在漢語可讀性問題上,結(jié)合深度學(xué)習(xí)方法與外部語言難度特征,探究深度學(xué)習(xí)方法自動學(xué)習(xí)獲取的特征表征能力及其與外部語言難度特征表征能力是否互補的問題。
本文首先參考于東等[11]基于五點量表和錨點對比構(gòu)建可讀性語料庫的方法,提出改進思路,構(gòu)建了新的句子可讀性語料庫?;谟跂|等構(gòu)建的語料庫(以下簡稱set1)和本次構(gòu)建的語料庫(以下簡稱set2),探究了機器學(xué)習(xí)方法在句子絕對難度評估任務(wù)上的表現(xiàn)。本次工作使用的語言特征為吳思遠等[8]構(gòu)造的漢語可讀性語言特征體系,包含漢字層面、詞匯層面、句法層面。實驗結(jié)果表明,在通過改進方法構(gòu)造的語料庫set2上能達到比set1更高的準確率,證明了改進方法的有效性。同時,探究了深度學(xué)習(xí)方法在句子絕對難度評估任務(wù)上的表現(xiàn)。實驗結(jié)果表明,深度學(xué)習(xí)方法通過自動學(xué)習(xí)提取特征,能達到比機器學(xué)習(xí)方法略勝一籌的效果,說明深度學(xué)習(xí)方法獲得的特征可以很好地表征難度。本文試圖通過向深度學(xué)習(xí)特征中加入外部語言難度特征來提高模型的難度表征能力,實驗結(jié)果表明,外部語言難度特征能不同程度地提高深度學(xué)習(xí)特征向量的難度表征能力。
本研究的主要貢獻包含以下三個方面:第一,構(gòu)建了一個規(guī)模更大、噪點更低、質(zhì)量更高的句子級可讀性標注語料庫。該語料庫包含37 247條漢語句子,具有五個難度等級,為漢語可讀性研究提供了數(shù)據(jù)支持。第二,將深度學(xué)習(xí)方法應(yīng)用于漢語句子可讀性等級評估任務(wù),驗證了深度學(xué)習(xí)方法在漢語句子可讀性等級評估任務(wù)上的有效性。第三,通過在深度學(xué)習(xí)特征中融入外部語言難度特征來探究深度學(xué)習(xí)特征與語言難度特征的互補性,結(jié)果表明語言難度特征能夠不同程度地提高模型整體性能[22]。
自動評估可讀性的方法試圖發(fā)現(xiàn)和利用與可讀性感知密切相關(guān)的因素來達到自動評估的目的。傳統(tǒng)的可讀性公式試圖建立一個簡單的人類可理解公式,其與人類認為的可讀性程度有良好的相關(guān)性,它們考慮各種統(tǒng)計因素,如詞長、句長等。這些公式最初用于英語的可讀性研究,后來也被借鑒用于其他語言的相關(guān)研究。目前,大多數(shù)的文本可讀性公式都將句子長度和詞數(shù)納入計算,如針對成人的Flesh公式[23],便于個人使用的SMOG公式[24],估計文本等級的The Gunning Fog公式[25],以及用于評價書本的Dale-Chall公式[26]等。較新的方法是在人工標注的可讀性數(shù)據(jù)集上訓(xùn)練機器學(xué)習(xí)模型,通過一系列的語言難度特征來預(yù)測給定的無難度標簽的文本的難度。這些方法通常依賴于大量的特征工程,構(gòu)造許多人類易于理解的特征。
現(xiàn)行的測量可讀性的新方法是將其視為一項分類任務(wù),并構(gòu)建自動預(yù)測模型,根據(jù)多種特征屬性自動預(yù)測文本的可讀性得分[27-28]。更復(fù)雜和適應(yīng)性更強的方法通常能達到更好的效果,但是需要大量額外的數(shù)據(jù)資源作為支撐。特征的選擇大多依賴專家進行判定,人工抽取特征耗時耗力,所以這些方法在不同語言、不同數(shù)據(jù)集之間的可遷移性比較差。目前,幾乎還沒有工作涉及跨語言、多語言,甚至多體裁、多數(shù)據(jù)庫的有監(jiān)督可讀性自動評估。基于多層面語言特征的機器學(xué)習(xí)方法是可讀性自動評估的主流方法,其核心是從詞匯、句法和篇章等層面分析和篩選可以預(yù)測文本難度的有效特征[6,29]。語言特征的選擇與文本的語言屬性有關(guān),其他語言研究中的有效特征對漢語的特征選擇具有啟發(fā)意義,但不能直接應(yīng)用于漢語可讀性評估[30-31]。
句子是語言學(xué)習(xí)中常用的語言單位,也是多項自然語言處理任務(wù)的基本處理單元。Pilan等[29]從第二語言學(xué)習(xí)的角度探討了影響瑞典句子難易度的語言因素。該研究將句子可讀性評估抽象為多分類問題,支持向量機分類器在該任務(wù)上達到了71%的準確率。Dell’Orletta等[32]對比了表層特征、詞匯特征、形態(tài)特征與句法特征在意大利語文本可讀性評估中的作用。他們的研究表明,無論是句子級還是文檔級的可讀性評估,句法特征都是預(yù)測意大利語文本可讀性最重要的預(yù)測指標。Brunato等[33]發(fā)現(xiàn),在表層特征、形態(tài)特征和句法特征中,與句子結(jié)構(gòu)相關(guān)的句法特征與英語文本的閱讀難度高度相關(guān)。Schumacher等[34]評估了一組句子在有上下文和無上下文條件下的相對閱讀難度。該研究使用眾包標注的方法收集了人類對句子相對難度的判斷,然后使用詞法和句法特征訓(xùn)練了邏輯回歸模型以預(yù)測句子對的相對難度。研究發(fā)現(xiàn),詞匯相關(guān)特征可以幫助預(yù)測句子對相對難度,句子在文本中的上下文信息會影響人類對句子難度的判斷。句子級的可讀性研究受到越來越多的關(guān)注,于東等[11]按照任務(wù)的不同把句子級可讀性評估分為單句絕對難度評估和句子對相對難度評估兩項任務(wù),通過抽取一系列難度特征訓(xùn)練機器學(xué)習(xí)模型來進行句子可讀性自動評估。
國內(nèi)句子難易度自動評估的研究仍處于起步階段。江少敏[35]采用調(diào)查問卷和對比分析的方法,從漢字、詞匯和句法層面收集了被試者對語言特征預(yù)測能力的主觀評價,并建立了句子難易度測量公式。龐成[36]把影響句子難度的因素分為內(nèi)部結(jié)構(gòu)、外部結(jié)構(gòu)和意義形式三個范疇。郭望皓[37]對漢字層面和詞匯層面的特征進行了量化,并使用CRITIC加權(quán)賦值法計算了各指標在預(yù)測句子難度上的權(quán)重,構(gòu)建了線性公式。于東等[11]等通過機器學(xué)習(xí)的方法進行了語文教材句子的難易度評估工作,也對語言特征的預(yù)測作用進行了系統(tǒng)的考察。深度學(xué)習(xí)方法在英語文本可讀性上的應(yīng)用研究使可讀性研究有了進一步的突破[15],然而深度學(xué)習(xí)方法在漢語可讀性上的研究工作甚少,本次工作希望深度學(xué)習(xí)方法在句子級可讀性問題上取得突破,并探究融合語言特征和深度學(xué)習(xí)特征的模型是否具有更好的性能。
于東等[11]的工作中已經(jīng)構(gòu)建了一個包含18 411條句子的開放的可讀性數(shù)據(jù)集set1,難度標簽為5個等級。這個數(shù)據(jù)集的優(yōu)點是數(shù)據(jù)集中的數(shù)據(jù)來源于權(quán)威的語文教材,五點量表的標注方法和錨點對比標注流程的科學(xué)性也是不容置疑的。不足之處在于:第一,構(gòu)建這個數(shù)據(jù)集的錨點集的數(shù)據(jù)量太少,各等級占比不均衡;第二,雖然采用眾包標注可以節(jié)省成本,但是眾包標注也意味著難度衡量標準的穩(wěn)定性更差,噪聲更多;第三,標注數(shù)據(jù)集(標3次)與錨點集(標5次)的標注次數(shù)不一致,在很大程度上會影響句子的最終標簽,偏差更大。針對這些問題,本文提出了相對應(yīng)的數(shù)據(jù)集構(gòu)建改進方法,首先擴充錨點集,然后采取固定標注人員的方式進行標注,每條數(shù)據(jù)標注5次?;谝陨细倪M方法,我們重新構(gòu)建了一個句子級可讀性數(shù)據(jù)集set2,我們的句子數(shù)據(jù)集來源于具有權(quán)威性的北師大版、人教版和蘇教版的漢語語文教材。我們在處理數(shù)據(jù)的過程中去掉了使用特殊體裁的文本和不完整的文本,如詩歌、詞賦、識字文本等,經(jīng)過句子去重,最后得到的句子數(shù)據(jù)集包含40 192個句子,句子的平均長度為29字。
我們采用錨點比較法進行數(shù)據(jù)標注,在正式標注之前,首先要構(gòu)建錨點數(shù)據(jù)集,我們在于東等[11]的錨點數(shù)據(jù)集的基礎(chǔ)上進行了擴充。首先在原始數(shù)據(jù)集中選取500條沒有進行任何標注的句子集,邀請5名小學(xué)語文教師認真閱讀句子,并根據(jù)五點量表對句子進行等級評定,1表示非常簡單,5表示非常難。完成500個句子的難度評定工作大約需要一個小時。最終收集到每個句子被標注5次的數(shù)據(jù),5位專家之間的肯德爾一致性系數(shù)為0.723(p<0.001),說明5位專家的標注一致性較高。
對于每一個句子,我們采用多數(shù)投票原則確定錨點句的難度等級。為了保證作為錨點句的句子難易程度一致,我們計算了每個句子被標注為最終難度的概率。如句子A被標注了5次,其中三位專家標注A的難度為等級3,一位專家標注A的難度為等級1,一位專家標注A的難度為等級4,那么該句子A最終難度為等級1的概率為20%,等級2的概率為0%,等級3的概率為60%,等級4的概率為20%,等級5的概率為0%。我們選取概率大于或者等于80%的難度等級作為該句子的最終等級,并確定該句子為錨點句。
經(jīng)過概率篩選后,我們確定了205個句子的最終難度等級,除去難度為5的10個句子,剩余的195個句子為最終的錨點句,其中,等級1的錨點句數(shù)量為60句,等級2的錨點句數(shù)量為48句,等級3的錨點句數(shù)量為75句,等級4的錨點句數(shù)量為12句。為了保證四組錨點句在難度上具有較高的差異性,對四組錨點句的難度差異進行了測量,單因素方差分析結(jié)果顯示,四組句子的難度差異顯著(F=580,p<0.01)。更多統(tǒng)計信息如表1所示。
表1 錨點句對比詳情統(tǒng)計
2.2.1 標注流程
我們共招募了20名標注員對數(shù)據(jù)進行標注,標準規(guī)則為與錨點句成對比較,每個句子將在2~3次比較后被劃分到最終難度等級。我們收集了標注員的年齡、性別、教育程度等個人信息。標注者年齡在19至27歲之間,學(xué)歷為本科到博士,男女比例為1∶5。 在正式標注之前,我們對標注人員進行了簡單的培訓(xùn),明確標注任務(wù)和規(guī)則,然后客觀負責地完成標注任務(wù)。我們每天定時在微信標注小程序上發(fā)布標注任務(wù),并定期抽查,以監(jiān)控標注質(zhì)量。為了減少標注工作量,我們在匹配過程中使用了折半插入策略。例如,一個待標注句首先與錨點2 的某個句子進行匹配,根據(jù)標注結(jié)果,該句子與錨點1 或者錨點3 的某個句子再次進行配對。重復(fù)這個過程,直至確定該句子的難度級別。每個句子由至少5位標注員進行標注,即每個句子至少被標注5次。我們的標注周期為4周,每周對標注員的工作進行檢查。
2.2.2 數(shù)據(jù)集構(gòu)建
正式標注結(jié)束后,我們收集了40 192條數(shù)據(jù),每條數(shù)據(jù)都被標注了5次并且刪除了標注時間小于15 s(1%)的句子。我們使用多數(shù)投票原則決定單個句子的難度級別,3名以上標注員(包含3名)意見一致則確定最終難度標簽。最終我們構(gòu)建了一個基于語文教材的句子難度語料庫。該語料庫共包含37 427 個漢語句子,每個句子被標注為1 至5 的某個難度級別,其中級別1 表示很簡單,級別5 表示很難。表2 給出了每個難度級別上的示例句子。語料庫中5 個難度級別的統(tǒng)計信息如表3 所示。表中除了包含每個級別中句子的數(shù)量信息, 還包括了每個級別上句子的平均長度(以字為單位)和句子的平均
表2 句子難度標注語料庫示例
表3 標注數(shù)據(jù)集詳情統(tǒng)計
難度值。句子的難度值的計算方式來自于江少敏[35],值越大說明難度越高。
我們將于東等構(gòu)造的set1與之進行對比。set1來源為漢語語文教材,基于五點量表,1表示很簡單,5表示很難,通過專家標注獲得錨點句,然后通過眾包的方式進行大規(guī)模標注,標注以目標句與錨點句對比的方式進行。每個句子被標注三次,通過投票原則確定句子的難度等級。最后經(jīng)過數(shù)據(jù)處理得到的語料庫包含18 411個漢語句子。set1與set2是兩個既有相同之處存在差異的句子可讀性數(shù)據(jù)集,二者的相同點包括:句子數(shù)據(jù)均來源于權(quán)威的蘇教版、北師大版和人教版的漢語語文教材;在數(shù)據(jù)標注的過程中首先基于五點量表,通過專家標注獲得錨點數(shù)據(jù)集,然后通過目標句與錨點句的對比來得到目標句的難度等級;標注過程中的數(shù)據(jù)處理方式為投票原則,評判標準為肯德爾系數(shù)和方差分析。
二者的不同點之一則在于set1是通過眾包的方式進行標注,而set2是通過招募固定的優(yōu)秀標注員進行標注。每個人由于受教育水平和文化背景的差異,對于難度的評判標準是不一致的,那么眾包標注就意味著在數(shù)據(jù)集構(gòu)建過程中的評判標準差異性更大,在數(shù)據(jù)處理的時候會引入更多的噪聲,從而降低數(shù)據(jù)集的質(zhì)量。那么對比而言,固定標注員會使整個數(shù)據(jù)集的評判標注趨于統(tǒng)一,會提高數(shù)據(jù)集的質(zhì)量。不同點之二在于構(gòu)建set2的錨點句的數(shù)量為195,而構(gòu)建set1的錨點數(shù)據(jù)集包含62條錨點句,其中錨點一的數(shù)據(jù)量為33,錨點二的數(shù)據(jù)量為16,錨點三的數(shù)據(jù)量為10,錨點四的數(shù)據(jù)量為3??梢园l(fā)現(xiàn),錨點句的總量相對較少,且各錨點句數(shù)量的比例相差較大,不同等級的句子在字數(shù)、句式和結(jié)構(gòu)等方面都存在很大差異。若可對比的錨點句的數(shù)量過少,則可作為評判指導(dǎo)的依據(jù)就少,這對于整個數(shù)據(jù)集的質(zhì)量會產(chǎn)生一定的負面影響。不同點之三在于set1中的數(shù)據(jù)內(nèi)容與set2中的數(shù)據(jù)內(nèi)容完全不重合,set1中每條數(shù)據(jù)被標注3次,set2中每條數(shù)據(jù)被標注5次,標注次數(shù)越多,產(chǎn)生偏差的概率越低,數(shù)據(jù)質(zhì)量越高。在之后的實驗中,我們分別基于這兩個數(shù)據(jù)集進行實驗。
可讀性特征體系的設(shè)計參考了吳思遠等[8]的特征框架,該研究把評估文本可讀性的指標劃分為四個層面,分別是漢字、詞匯、句法和篇章結(jié)構(gòu)。于東等[11]從漢字、詞匯和句法三個層面實現(xiàn)句子語言特征的量化,達到了較好的分類結(jié)果。
(1) 漢字是漢語的書寫符號,漢字的識別難度影響句子的閱讀難度。漢字層面的語言特征是從字形復(fù)雜度、漢字熟悉度和漢字多樣性三個角度進行量化,共22個指標,如漢字筆畫數(shù)、字頻等。
(2) 詞是語言中最基本的造句單位,詞匯復(fù)雜性在句子理解中起著關(guān)鍵作用。影響詞匯難度的特征主要包括詞長、詞匯熟悉度、詞匯多樣性和詞匯語義難度四個維度,共25個指標,如詞頻、詞長等。
(3) 句法結(jié)構(gòu)層面共包括三個維度的句法特征:句子表層的復(fù)雜度、詞性復(fù)雜度、句法結(jié)構(gòu)復(fù)雜度,共計25個指標。
在深度學(xué)習(xí)特征向量融合外部語言難度特征的實驗部分,本文采用的外部語言難度特征即為漢字、詞匯和句法層面的特征以及三個層面的組合特征。深度學(xué)習(xí)特征向量的抽取則根據(jù)模型的不同而不同,對于雙向循環(huán)神經(jīng)網(wǎng)絡(luò),則抽取模型最后一層的第一個神經(jīng)元和最后一個神經(jīng)元輸出的特征向量組合。對于卷積神經(jīng)網(wǎng)絡(luò),則抽取最后一個卷積層經(jīng)過不同卷積核卷積之后輸出的特征向量的組合,對于基于Transformer的神經(jīng)網(wǎng)絡(luò)模型BERT,則使用肖涵博士開發(fā)的BERT-as-service(1)https://github.com/hanxiao/bert-as-service默認抽取倒數(shù)第二個Transformer層的輸出向量。
正如前文中提到,近年來文本分類任務(wù)的趨勢表明,采用自動特征構(gòu)建的深度學(xué)習(xí)方法占主導(dǎo)地位。Martinc等[15]首次將深度學(xué)習(xí)方法用于英文可讀性研究,為了確定不同深度學(xué)習(xí)模型在可讀性研究中的性能和不足,他們評估了大量模型。在此之前的可讀性研究大多依賴人工構(gòu)造的特征進行機器學(xué)習(xí)分類器的訓(xùn)練[17,38]。在漢語可讀性研究中,即使是最新的中文可讀性分類方法也依賴于人工構(gòu)造的特征和傳統(tǒng)的機器學(xué)習(xí)分類器[8,11]。在這一部分中,我們將重點介紹三大特征提取器RNN、CNN和Transformer,以及語言特征融入實驗的框架流程,如圖1所示。
圖1 語言特征融入流程圖
RNN:在一些自然語言處理任務(wù)中,當對序列進行處理時,我們一般會采用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,尤其是它的一些變種,如BiLSTM[20]、GRU[39]等。循環(huán)神經(jīng)網(wǎng)絡(luò)善于捕捉長的序列信息。LSTM因在文本分類任務(wù)上的效果非常好而受到重視。LSTM在每個時間步上的輸入有兩部分信息,一部分是前一個時間步的保留信息,另一部分是當前時間步對應(yīng)的原始信息,由此,LSTM可以在最后一個時間步獲取整個序列的信息,并且丟棄掉模型認為沒有用的信息。句子作為序列,其長度是相對篇章來說較短的長度,所以LSTM模型可以很好地勝任句子的特征抽取任務(wù)。在實驗中,我們采用基于雙向LSTM的textRNN模型[40],在該模型上,抽取模型最后一層的第一個神經(jīng)元和最后一個神經(jīng)元輸出的特征向量組合。
CNN:卷積神經(jīng)網(wǎng)絡(luò)因其在句子分類任務(wù)上的突出表現(xiàn)而被選中。本文使用的CNN模型是基于Kim[41]描述的textCNN模型。將卷積神經(jīng)網(wǎng)絡(luò)CNN應(yīng)用到文本分類任務(wù)中,利用多個不同尺寸的卷積核進行一維卷積來提取句子中的關(guān)鍵信息,每次能處理不同尺寸長度的完整的詞向量,從上往下依次滑動卷積,這個過程中的輸出就成了我們需要的特征向量,類似于多窗口大小的n-gram,能夠更好地捕捉局部相關(guān)性。CNN的并行計算能力非常強,可以快速實現(xiàn)特征提取。在textCNN模型上,我們抽取最后一個卷積池化層后輸出的特征向量組合。
Transformer:Transformer[42]是使用自注意力的Encoder-Decoder模型,其在包括可讀性評估在內(nèi)的眾多自然語言處理任務(wù)上取得了最新的結(jié)果[15]。Transformer利用注意力機制,使得模型在構(gòu)造輸出向量時能夠注意到輸入的特定部分。盡管它們被表示為序列到序列模型,但是可以通過在網(wǎng)絡(luò)的末端放置一個額外的線性層并訓(xùn)練該層以適配各種NLP任務(wù)。這種方法在與預(yù)訓(xùn)練模型相結(jié)合時通常會獲得最好的結(jié)果。本文使用了基于Transformer的BERT中文模型[21],該模型是在圖書館語料庫(800M words)[43]和中文維基百科上預(yù)先訓(xùn)練的,然后在特定的可讀性語料庫上對模型進行微調(diào)。預(yù)訓(xùn)練的BERT模型來源于Huggingface的Transformer庫[44],由12個隱藏層組成,每個隱藏層的大小為768包含,12個自注意力頭。Transformer模型突破了RNN 模型不能并行計算的限制。相比CNN模型,Transformer計算兩個位置之間的關(guān)聯(lián)所需的操作次數(shù)不隨距離增長。自注意力可以產(chǎn)生更具可解釋性的模型。我們可以從模型中檢查注意力分布。各個注意力頭可以學(xué)會執(zhí)行不同的任務(wù)。在語言特征融入的實驗中,本文使用肖涵博士開發(fā)的BERT-as-service 默認抽取倒數(shù)第二個Transformer層的輸出向量。
為了驗證本文提出的數(shù)據(jù)集構(gòu)建改進方法的有效性,我們在set1與set2上對比了支持向量機(Support Vector Machine, SVM)和邏輯回歸(Logistic Regression,LogR)兩種模型的表現(xiàn),我們以于東等[11]基于TF-IDF的詞袋向量作為輸入構(gòu)建的模型作為基線模型,然后分別把漢字、詞匯、句法層面的語言特征以及三個層面的組合特征作為句子的向量表示,構(gòu)建特征模型。在實驗過程中訓(xùn)練集與測試集的比例為8:2,采用五折交叉驗證,評價指標為準確率。我們使用Python語言,在scikit-learn庫[45]中實現(xiàn)了模型。
我們對比分析了SVM和LogR兩種不同分類模型在set1與set2上的表現(xiàn),實驗結(jié)果如表4所示。相對于基線模型,各個層面的語言難度特征都表現(xiàn)出了較好的效果,驗證了語言難度特征的使用可以提升模型的效果?;趩我粚用娴恼Z言特征的模型甚至比基于字詞句組合特征的模型效果更好,說明特征的使用并不是越多越好。漢字層面和詞匯層面特征的效度要比單一句法層面和三個層面的組合特征的效度更好[11]。同時驗證了機器學(xué)習(xí)方法在set2上的有效性??梢钥闯鰏et1的整體效果在61.79%到63.08%之間,set2的整體效果在74.61%到78.19%之間,set1的最優(yōu)結(jié)果是在LogR上以漢字層面特征作為特征向量的模型,準確率達到63.08%,set2的最優(yōu)結(jié)果是在SVM上以詞匯層面特征作為輸入的模型,準確率為78.19%。set2的整體效果高出set1約15%,說明set2數(shù)據(jù)集更加優(yōu)質(zhì),噪聲更低,證明了本文提出的數(shù)據(jù)集改進方法的有效性。set2在可讀性評估上的效果更好,以set1作為可讀性評估數(shù)據(jù)集具有更高的挑戰(zhàn)性。
表4 兩個數(shù)據(jù)集在機器學(xué)習(xí)上的表現(xiàn) (單位:%)
為了進一步對比兩個數(shù)據(jù)集,以set1作為訓(xùn)練集,set2作為測試集進行實驗,混淆矩陣的結(jié)果顯示set2會更大程度上被分到比原等級更低的等級,如圖2 所示。以set2作為訓(xùn)練集,set1作為測試集,混淆矩陣的結(jié)果顯示set1會更大程度上被分到比原等級更高的等級,如圖3所示。
圖2 train set1,test set2
圖3 train set2,test set1
由圖2、圖3可以得出,set1與set2兩個數(shù)據(jù)集的難度中心點不一致,set1的難度中心點更高,set2的難度中心點較set1偏低,set1的整體難度比set2高。這大約是因為固定的優(yōu)秀標注員都有著相對較高的語言水平,對難度的感知相對較低,得到的句子難度等級更低,而在眾包標注過程中,參與標注的人語言水平門檻相對較低,使得參與標注的所有人的語言水平差異較大,低語言水平的標注員對難度的感知會更高,得到的句子難度等級更高,所以會使得set1的整體難度比set2高。合并set1與set2,隨機混合數(shù)據(jù),以8∶2的比例切分訓(xùn)練集與測試集,以各個層面的特征作為輸入。結(jié)果如表4所示,最優(yōu)結(jié)果為69.47%。set1最高準確率為63.08%,set2最高準確率為78.19%,合并數(shù)據(jù)集得到的是一個折中的實驗效果。通常來說,合并數(shù)據(jù)集之后,數(shù)據(jù)量更大,會得到更高的準確率,但是這里合并數(shù)據(jù)集之后,得到的結(jié)果是以set1與set2分別進行實驗的結(jié)果的折中效果,并且兩個數(shù)據(jù)集的難度中心點不一致,所以本文認為,set1與set2是兩個獨立的數(shù)據(jù)集,合并set1與set2會得到一個更具挑戰(zhàn)性的可讀性數(shù)據(jù)集。
深度學(xué)習(xí)方法在漢語可讀性研究中的應(yīng)用是可讀性研究的更進一步,通過深度學(xué)習(xí)模型來自動學(xué)習(xí)獲取特征,可以有效避免大規(guī)模的人工特征抽取。對于基于卷積神經(jīng)網(wǎng)絡(luò)和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型,利用預(yù)訓(xùn)練的百度百科靜態(tài)詞向量sgns.baidubaike.bigram-char[46],詞嵌入維度為128,對于基于Transformer的模型,則在BERT上進行分類任務(wù)的微調(diào)。訓(xùn)練集和測試集采用機器學(xué)習(xí)方法中的數(shù)據(jù),以兩個數(shù)據(jù)集在機器學(xué)習(xí)模型上的最優(yōu)結(jié)果作為基線,評價指標為準確率和F1值。整個模型基于Pytorch深度學(xué)習(xí)框架[47]。
我們以SVM和LogR的實驗結(jié)果作為基線,對比分析了TextCNN模型、TextRNN模型以及BERT模型在句子級漢語可讀性評估任務(wù)上的表現(xiàn),實驗結(jié)果如表5所示。實驗結(jié)果證明了深度學(xué)習(xí)方法在漢語可讀性評估任務(wù)上的有效性。
表5 兩個數(shù)據(jù)集在深度學(xué)習(xí)上的表現(xiàn) (單位:%)
從表5可以看出,以百度百科詞向量作為輔助的TextCNN和TextRNN模型的效果不及機器學(xué)習(xí)模型的效果,這在set2上表現(xiàn)得更加突出。以BERT-as-service生成的預(yù)訓(xùn)練BERT字向量和BERT詞向量作為TextCNN與TextRNN輸入的模型,則在之前實驗的基礎(chǔ)上表現(xiàn)出了顯著的性能提升,整體效果比機器學(xué)習(xí)模型更好,說明普通的靜態(tài)詞向量對這兩個模型的難度特征的捕獲沒有起到很好的輔助作用。以普通靜態(tài)詞向量作為輸入的TextCNN和TextRNN的難度表征能力不如人工抽取的語言特征的難度表征能力強。同時對比以BERT向量作為輸入的實驗結(jié)果,可以發(fā)現(xiàn)以BERT字特征向量為輸入的模型具有更優(yōu)的性能,說明相比BERT詞向量,BERT字向量在該數(shù)據(jù)集能更大程度地表征難度信息。同時,在BERT模型上進行微調(diào)的實驗結(jié)果在set1和set2上的準確率分別為62.09%和78.69%,在set2上達到了最好的結(jié)果。說明BERT預(yù)訓(xùn)練語言模型自動捕獲的特征向量在很大程度上代表了難度信息[22]。對比TextRNN和TextCNN的所有實驗結(jié)果可以發(fā)現(xiàn),TextRNN的效果總是比TextCNN模型好,說明在漢語句子級可讀性評估任務(wù)上TextRNN的難度表征能力比Text-CNN更強。
將人工抽取的語言特征應(yīng)用于機器學(xué)習(xí)模型,在可讀性難度判別任務(wù)上得到了不錯的效果。為了探究人工抽取的語言難度特征能否提升深度學(xué)習(xí)模型的整體性能,我們以深度學(xué)習(xí)模型作為特征提取器,向深度學(xué)習(xí)特征向量中融入不同層面的語言難度特征進行實驗,以期這種組合的特征向量可以更好地表征難度。本實驗中的特征提取器分別是TextCNN模型、TextRNN模型和BERT預(yù)訓(xùn)練語言模型,TextCNN和TextRNN不使用中文靜態(tài)詞向量。語言難度特征采用吳思遠等[8]的可讀性特征體系,在實驗中分別加入各個層面的語言難度特征進行實驗。將深度學(xué)習(xí)特征與語言難度特征融合后,將其再經(jīng)過SVM模型進行再次學(xué)習(xí),以期得到綜合了兩種特征的可讀性模型。
以三種深度學(xué)習(xí)特征提取器抽取的特征向量單獨作為輸入的模型作為基線,通過向TextCNN、TextRNN和BERT的特征向量中融入不同層面的語言特征,可以發(fā)現(xiàn)語言特征能不同程度地提高模型的效果[22],實驗結(jié)果如表6所示。橫向?qū)Ρ?,在set1上的性能提升不顯著,在set2上的性能提升則更加顯著??v向?qū)Ρ?,在BERT上的性能提升不顯著,在TextCNN和TextRNN上的性能提升則更加顯著。在TextCNN和TextRNN上,融入漢字層面的特征和融入詞匯層面的特征,得到的性能提升更多,而在融入句法特征的模型上則性能提升更少,說明TextCNN和TextRNN模型捕獲的難度特征更偏向于類似句法層面的特征,對于整句信息的保留能力更強,因而與漢字和詞匯層面特征的互補性更強。在BERT的一系列組合特征模型中,在融合句法層面特征的模型和融合所有層面特征的模型上性能提升更多,說明BERT模型自動捕獲的難度特征類型更偏向于漢字和詞匯層面的細粒度特征,所以與句法層面特征的互補性更強。在整個實驗中,TextCNN和TextRNN的基線效果比BERT的基線效果相差許多,其融入特征的最優(yōu)模型尚且沒有達到BERT的基線效果,說明Transformer作為特征提取器,其難度特征捕獲能力在各個層面都優(yōu)于CNN和RNN特征提取器。
表6 深度學(xué)習(xí)融入外部語言特征的表現(xiàn)(%)
本文首先提出了改進語料庫構(gòu)建的方法,基于改進的方法思路,我們構(gòu)建了一個規(guī)模更大、噪點更低、質(zhì)量更高的句子級可讀性語料庫,該語料庫包含37 247條數(shù)據(jù)。通過在機器學(xué)習(xí)模型中加入漢字層面、詞匯層面、句法層面以及三個層面的組合語言特征來探究在set2上的表現(xiàn),并且與set1的結(jié)果進行對比。實驗結(jié)果顯示,set2的準確率比set1高出約15%,驗證了本文改進方法的有效性,以及該數(shù)據(jù)集的有效性,說明擴充錨點句對提高數(shù)據(jù)集質(zhì)量有直接影響。固定標注人員可以保證難度衡量標準的一致性和穩(wěn)定性,標注次數(shù)越多,難度等級偏差越小。
將深度學(xué)習(xí)方法應(yīng)用于漢語可讀性評估,驗證了深度學(xué)習(xí)方法在該任務(wù)上的有效性,并且得到比機器學(xué)習(xí)略勝一籌的效果,說明深度學(xué)習(xí)自動捕獲的特征在很大程度上能夠代表難度信息。在這兩個非平行語義的數(shù)據(jù)集中,效果最好的模型都與BERT相關(guān),說明非平行語義的可讀性評估與語義不可分割。TextRNN的難度特征捕獲能力比Text-CNN更勝一籌。深度學(xué)習(xí)模型自動捕獲特征的能力可以有效減少人工抽取語言特征的成本,促進可讀性研究。我們探討了語言難度特征融入深度學(xué)習(xí)模型的難度表征能力,深度學(xué)習(xí)特征與語言特征的互補性關(guān)系。實驗結(jié)果表明,在漢語可讀性評估中,語言難度特征可以不同程度地提升深度學(xué)習(xí)模型的表征能力。TextCNN和TextRNN模型捕獲的特征與漢字和詞匯層面的語言特征互補性更強,BERT預(yù)訓(xùn)練語言模型捕獲的特征與句法層面的語言特征互補性更強。
總的來說,深度學(xué)習(xí)方法在可讀性評估上的應(yīng)用是一條必由之路,語言特征對深度學(xué)習(xí)模型的難度表征能力的提升不顯著,那么我們今后的工作會更加關(guān)注深度學(xué)習(xí)特征在多大程度上代表了難度信息,深度學(xué)習(xí)模型如何能捕獲到更多區(qū)別于語言特征的難度信息。未來,我們的數(shù)據(jù)集會進行開放,便于更多學(xué)者的研究。同時,我們的研究也將在更具挑戰(zhàn)性的兩個數(shù)據(jù)集的合并集上進行。