吳思遠(yuǎn),蔡建永,于 東,江 新
(1. 北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100083;2. 北京語(yǔ)言大學(xué) 對(duì)外漢語(yǔ)研究中心,北京 100083;3. 北京語(yǔ)言大學(xué) 漢語(yǔ)速成學(xué)院,北京 100083)
閱讀是人類獲取信息和知識(shí)的重要途徑。難度適當(dāng)?shù)拈喿x材料不僅可以使閱讀過(guò)程順利進(jìn)行,還可以提升讀者的閱讀能力。相應(yīng)地,超出或低于讀者水平的文本不僅會(huì)影響讀者的閱讀體驗(yàn),還可能對(duì)基本文本信息的提取造成阻礙[1]。隨之而來(lái)的問(wèn)題是: 是什么導(dǎo)致了文本之間的難度差距?影響文本難度的核心特征是什么?文本難度是否可以進(jìn)行度量?是否可以借助計(jì)算機(jī)對(duì)文本難度進(jìn)行自動(dòng)分析?學(xué)者們從不同角度對(duì)文本難度問(wèn)題進(jìn)行了探討,這些研究后來(lái)被統(tǒng)稱為可讀性(readability)研究[2]。
可讀性研究是語(yǔ)言學(xué)和心理學(xué)領(lǐng)域的重要課題之一,對(duì)文本進(jìn)行可讀性分析是可讀性研究的核心??勺x性分析的任務(wù)是,給定一篇文本,通過(guò)對(duì)文本進(jìn)行分析,給出該文本的難度值或判斷該文本適合哪一水平的讀者。最初的可讀性分析主要是請(qǐng)有經(jīng)驗(yàn)的專家或教師對(duì)文本難度進(jìn)行主觀評(píng)定,這種方法具有很強(qiáng)的主觀性,評(píng)定者的標(biāo)準(zhǔn)不同,目的不同,評(píng)定結(jié)果也往往不同。
文本可讀性的自動(dòng)分析可以追溯到20世紀(jì)20年代[3]。所謂可讀性的自動(dòng)分析,就是對(duì)文本難度進(jìn)行定量、自動(dòng)的評(píng)估與分析,是一種預(yù)測(cè)性的手段,具有客觀性和經(jīng)濟(jì)性的優(yōu)點(diǎn)??勺x性的自動(dòng)分析有很多應(yīng)用場(chǎng)景。在教育領(lǐng)域,評(píng)估文本難度可以幫助教師為學(xué)習(xí)者選擇合適的閱讀材料[4],為教材編寫(xiě)提供科學(xué)依據(jù)[5],對(duì)閱讀測(cè)試、課程規(guī)劃有一定參考價(jià)值[6]。在自然語(yǔ)言處理領(lǐng)域,計(jì)算機(jī)科學(xué)家把可讀性分析應(yīng)用于智能改編[7]、作文自動(dòng)評(píng)分[8]等任務(wù);或借助可讀性自動(dòng)分析提煉和歸納源文檔的主要內(nèi)容,對(duì)自動(dòng)文摘的質(zhì)量進(jìn)行評(píng)估[9];或通過(guò)分析網(wǎng)頁(yè)文本,對(duì)用戶的閱讀興趣和搜索習(xí)慣進(jìn)行預(yù)測(cè)和推薦[10]。
根據(jù)分析思路和關(guān)鍵技術(shù)的不同,我們將可讀性的自動(dòng)分析方法分為公式法、分類法、排序法三類。①公式法: 通過(guò)建立線性方程的方式,把文本難度最相關(guān)的一些語(yǔ)言特征作為變量來(lái)預(yù)測(cè)文本的難度值,使用的特征一般為淺層的語(yǔ)言特征,如詞長(zhǎng)、句長(zhǎng)等;②分類法: 研究者把文本難度的預(yù)測(cè)作為分類任務(wù),從不同等級(jí)的文本中學(xué)習(xí)一系列具有區(qū)別性的文本特征,構(gòu)造分類模型,輸入沒(méi)有標(biāo)簽的新文本后,分類模型根據(jù)學(xué)習(xí)的結(jié)果估計(jì)文本的難度等級(jí);③排序法: 構(gòu)建比較器或人工標(biāo)注得到文本的兩兩相對(duì)難度,對(duì)文本進(jìn)行排序,得到按難度排序的文本集合,缺點(diǎn)是不能給出具體的難度值或難度等級(jí)。
本文主要梳理已有的可讀性研究,組織如下: 第1節(jié)總結(jié)可讀性自動(dòng)分析的主要方法和基本技術(shù);第2節(jié)對(duì)可讀性分析中的重要環(huán)節(jié)——文本特征選擇和現(xiàn)有數(shù)據(jù)資源進(jìn)行梳理;第3節(jié)回顧漢語(yǔ)文本的可讀性研究;最后一節(jié)對(duì)未來(lái)的可讀性研究進(jìn)行展望。
所謂可讀性公式,就是針對(duì)某種閱讀文本,將影響閱讀難度的、可進(jìn)行量化的文本因素綜合起來(lái),制定的一個(gè)評(píng)估文本難易程度的公式[11]。它通常給出數(shù)值結(jié)果作為文本難度分?jǐn)?shù)。
可讀性公式的構(gòu)建主要包括兩方面的內(nèi)容: ①與可讀性級(jí)別密切相關(guān)的文本因素;②各因素與可讀性級(jí)別之間的函數(shù)關(guān)系。可讀性公式以學(xué)生的閱讀理解成績(jī)作為文本難度,在客觀數(shù)據(jù)的基礎(chǔ)上,利用相關(guān)性分析確定影響文本難度的主要因素,根據(jù)因變量(文本可讀性)與自變量(文本各因素)之間的關(guān)系,擬合文本可讀性公式。
可讀性公式假設(shè)因變量與自變量線性相關(guān),其模型被定義為式(1)。
在20世紀(jì)20年代,Vogel等[3]首次使用回歸方程的方式,將多個(gè)文本特征納入可讀性公式,該研究方法對(duì)后來(lái)的可讀性公式研究影響深遠(yuǎn)。20世紀(jì)50年代之后可讀性公式的構(gòu)建逐漸興盛,到80年代,超過(guò)200個(gè)可讀性公式被構(gòu)建出來(lái)并廣泛應(yīng)用于出版社、研究所、醫(yī)療說(shuō)明、法律、保險(xiǎn)等行業(yè)[12]。美國(guó)教育部和國(guó)防部也建立了以可讀性公式為中心的可讀性分析體系,用來(lái)對(duì)教育體系中使用的教材、國(guó)家政策中使用的文件進(jìn)行評(píng)估和定級(jí)。英文中幾個(gè)較為權(quán)威的可讀性公式如表 1所示。
表 1 具有代表性的英文可讀性公式
注: RL(Reading Level):可讀性級(jí)別;SL:平均句長(zhǎng),即平均每個(gè)句子的平均單詞數(shù);DW:不在3 000常用詞表的非常用詞的數(shù)量;HW指文本中難詞的比例;WL:平均單詞長(zhǎng)度;sent: 句子數(shù);150 words: 在150詞表里的詞數(shù)。
使用可讀性公式評(píng)估文本的難易程度具有客觀性、簡(jiǎn)便性和經(jīng)濟(jì)性等特點(diǎn)。使用公式可以快速地獲得文本難度的分析結(jié)果,比較實(shí)用。但是,影響文本難度的因素很多,可讀性公式只能考慮有限的可計(jì)量的文本特征,無(wú)法把所有影響文本可讀性的變量如語(yǔ)法語(yǔ)義、句法、篇章等考慮在內(nèi)[10,18],因此可讀性公式的效度一直頗受爭(zhēng)議[19]。不可否認(rèn)的是,可讀性公式法,是研究者試圖針對(duì)特定閱讀人群,通過(guò)量化手段客觀地評(píng)估文本閱讀難度的方法??勺x性公式的構(gòu)建是傳統(tǒng)性公式的重要內(nèi)容,也為后來(lái)的可讀性研究奠定了基礎(chǔ)。
在機(jī)器學(xué)習(xí)中,分類被定義為:給定一組訓(xùn)練實(shí)例X1,X2,…,Xn,每個(gè)訓(xùn)練實(shí)例有類別標(biāo)簽。通過(guò)學(xué)習(xí)有標(biāo)簽的訓(xùn)練實(shí)例,訓(xùn)練模型f(X→Y)從而對(duì)新的實(shí)例給出類別預(yù)測(cè)[20]?;诜诸惖目勺x性分析方法把可讀性評(píng)估任務(wù)當(dāng)成分類任務(wù),通過(guò)學(xué)習(xí)一系列具有區(qū)別性的語(yǔ)言特征,訓(xùn)練分類模型,以確定未知文本的可讀性級(jí)別不同可讀性級(jí)別的語(yǔ)料中學(xué)習(xí)一系列具有區(qū)別性的語(yǔ)言特征,構(gòu)建分類模型,分類模型通過(guò)對(duì)未知文本特征進(jìn)行分析,判別該文本是否屬于某一難度級(jí)別。
大量研究表明,除了淺層的句長(zhǎng)、詞長(zhǎng)等,基于分類方法的可讀性自動(dòng)分析能考慮更多的語(yǔ)言特征,如詞匯熟悉度、句法復(fù)雜度等,評(píng)估結(jié)果比可讀性公式準(zhǔn)確,而且在區(qū)分高難度文本上有顯著優(yōu)勢(shì)[21-23]。研究常使用的分類模型有N元詞串隸屬度模型和支持向量機(jī)。
1.2.1 N元詞串隸屬度模型
N元詞串隸屬度模型是一種基于詞概率的統(tǒng)計(jì)語(yǔ)言模型。該方法把文本當(dāng)成一連串的字符序列,并假定文本的可讀性級(jí)別和文本的用詞有關(guān)且文本的可讀性級(jí)別互相獨(dú)立。在訓(xùn)練階段,該方法首先根據(jù)訓(xùn)練樣本數(shù)據(jù),統(tǒng)計(jì)每個(gè)N元詞串隸屬于每個(gè)級(jí)別的概率模型。在預(yù)測(cè)階段,對(duì)于一個(gè)未知級(jí)別文本T,計(jì)算其屬于所有級(jí)別的隸屬度,取隸屬度最大的為與文本相匹配的難度等級(jí),如式(2)所示。
給定某一級(jí)別的概率模型Gi,w為文本T的用詞,C(w)為詞匯w在T中出現(xiàn)的頻次。
不同難度的文本詞匯的使用和分布不同,文本詞匯信息能有效預(yù)測(cè)文本的難易程度[22]。Si等[24]首次在文本可讀性分析上使用一元詞串隸屬度模型。該研究在3個(gè)等級(jí)共91篇文本的數(shù)據(jù)集上訓(xùn)練了一元模型,并和句長(zhǎng)一起進(jìn)行文本可讀性預(yù)測(cè),模型準(zhǔn)確率為75.4%,而Flesch-Kincaid公式[17]的準(zhǔn)確率僅為21.3%。實(shí)驗(yàn)表明,使用該模型預(yù)測(cè)文本難易度比僅使用句長(zhǎng)、詞長(zhǎng)特征的可讀性公式表現(xiàn)更好。Collins-Thompson等[25]收集了12個(gè)難度等級(jí)共550篇網(wǎng)頁(yè)文本來(lái)訓(xùn)練概率模型,該研究通過(guò)相鄰等級(jí)文本之間的關(guān)系,使用Good-Turing平滑算法對(duì)預(yù)測(cè)文本出現(xiàn)在某一等級(jí)的概率進(jìn)行估計(jì),模型的預(yù)測(cè)結(jié)果與原等級(jí)的相關(guān)性最高為0.93。
通過(guò)文本的詞匯信息判斷文本難度等級(jí)的統(tǒng)計(jì)語(yǔ)言模型比可讀性公式的準(zhǔn)確率更高。其次,N元詞串隸屬度模型在網(wǎng)頁(yè)文本和短文本上表現(xiàn)較好,而可讀性公式一般要求文本長(zhǎng)度大于200詞。
1.2.2 支持向量機(jī)
支持向量機(jī)是Cortes 等[26]提出的基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的統(tǒng)計(jì)學(xué)習(xí)理論,主要應(yīng)用于分類問(wèn)題。
Schwarm[27]使用支持向量機(jī)進(jìn)行可讀性分析。訓(xùn)練過(guò)程中使用了從N元模型中學(xué)習(xí)到的文本特征,以及一些詞法、句法特征。該模型評(píng)估結(jié)果的準(zhǔn)確率在79%到94.5%之間,而傳統(tǒng)的Flesch-Kincaid可讀性公式的準(zhǔn)確率則在21%到41%之間??梢?jiàn),支持向量機(jī)分類器的方法要明顯優(yōu)于傳統(tǒng)的評(píng)估方法。該研究在低年級(jí)、短文本的分類中顯示出了良好的性能,但對(duì)較高等級(jí)的文本卻難以得到令人滿意的區(qū)分結(jié)果。Petersen等[27]在Schwarm的基礎(chǔ)上,選取了相同的語(yǔ)言特征,通過(guò)在訓(xùn)練集中加入負(fù)樣本的方法,提升了分類器的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果顯示,加入負(fù)樣本的支持向量機(jī)分類器在高等級(jí)文本的區(qū)分上有明顯進(jìn)步。支持向量機(jī)的訓(xùn)練要求求解計(jì)算復(fù)雜度極高的二次規(guī)劃問(wèn)題,為了緩解訓(xùn)練樣本數(shù)越多、實(shí)際任務(wù)中的開(kāi)銷越大的問(wèn)題,Aluisio等[28]在訓(xùn)練支持向量機(jī)時(shí)使用了序列最小優(yōu)化算法,高效優(yōu)化了分類器的訓(xùn)練過(guò)程。
鑒于支持向量機(jī)在可讀性評(píng)估上的優(yōu)異表現(xiàn),后來(lái)的研究者嘗試在支持向量機(jī)的基礎(chǔ)上對(duì)整個(gè)評(píng)估流程進(jìn)行改進(jìn)?;蚴褂觅|(zhì)量更高的訓(xùn)練語(yǔ)料[29],或?qū)φZ(yǔ)言特征進(jìn)行進(jìn)一步篩選整合[30-31]。Chen[32]借助從 E-HowNet 中學(xué)習(xí)的詞匯關(guān)系為中學(xué)課文構(gòu)建了詞匯鏈,并結(jié)合詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)所篩選的詞作為特征,支持向量機(jī)分類器在低年級(jí)的最好分類準(zhǔn)確率為96%,在中級(jí)的最好分類結(jié)果為85%。Cha等[33]在預(yù)測(cè)文本的可讀性時(shí)使用Word2Vec和FastText兩種方法構(gòu)建詞向量和段落向量,然后分別使用布朗聚類(Brown clustering)和K近鄰進(jìn)行聚類,支持向量機(jī)通過(guò)自主學(xué)習(xí)的特征對(duì)文本的難度進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果與原等級(jí)的相關(guān)性超過(guò)80%。
良好的分類模型需要帶有文本難度標(biāo)注的語(yǔ)料庫(kù)。英文的可讀性研究起步較早,資源較多,其他語(yǔ)言中分級(jí)文本語(yǔ)料庫(kù)較少且難以獲取,如果使用標(biāo)注準(zhǔn)確度很高的教材課文文本,又可能涉及版權(quán)問(wèn)題。因此,如何在缺乏帶有標(biāo)注的大規(guī)模語(yǔ)料庫(kù)的情況下對(duì)文本的可讀性進(jìn)行評(píng)估,是可讀性分析面臨的問(wèn)題之一。
在缺乏帶難度等級(jí)標(biāo)簽數(shù)據(jù)的情況下,Tanaka-Ishii等[34]使用基于排序的方法對(duì)文本的難度進(jìn)行測(cè)定。假定文本存在難易值,對(duì)于任意兩個(gè)文本 ,它們的難易關(guān)系有三種:
γ(x)>γ(y);γ(x)<γ(y);γ(x)=γ(y)(3)
如果可以從數(shù)據(jù)中學(xué)習(xí)一個(gè)難度比較器,就可以對(duì)語(yǔ)料庫(kù)中的文本進(jìn)行排序。對(duì)于排序好的文本集C中的任意兩個(gè)文本都滿足γ(Ci)≤γ(Ci+1)。該研究首先利用只有難易兩個(gè)類標(biāo)注的文本訓(xùn)練比較器,然后使用二分插排算法對(duì)經(jīng)過(guò)比較的文本進(jìn)行排序,如此循環(huán)直到數(shù)據(jù)集中的所有文本全部被比較,即可得到排序好的文本集C。
該研究開(kāi)發(fā)了基于排序方法的Terrace網(wǎng)頁(yè)分析器,如圖 1所示。網(wǎng)頁(yè)分析器每天收集CNN的新聞文本,文本經(jīng)過(guò)支持向量機(jī)比較器后,所有新聞文本在后臺(tái)以有序狀態(tài)排列。當(dāng)用戶上傳文本后, 分析器會(huì)給出分析文本在后臺(tái)語(yǔ)料庫(kù)中的難度位置,并向用戶推薦語(yǔ)料庫(kù)中與待分析文本可讀性距離最近的文章。
圖1 Terrace網(wǎng)頁(yè)分析器
在理想的情況下,比較器可以對(duì)兩篇文本進(jìn)行準(zhǔn)確的難易判斷,但事實(shí)是,比較器總存在一定的誤差,從而影響比較器的判斷。佐藤理史[35]在對(duì)文本進(jìn)行難度排序時(shí)考慮了ρ誤差的存在,把比較器修改為式(4)。
除了構(gòu)建比較器外,Schumacher等[36]使用人工標(biāo)注的方法得到排序文本,要求眾包平臺(tái)上的評(píng)估者閱讀兩篇文本,并判斷這兩篇文本的相對(duì)難度。研究者得到兩兩比較的數(shù)據(jù),通過(guò)使用評(píng)分排序算法如Trueskill[37]得到最終的排序文本集。
排序法的優(yōu)勢(shì)在于: 第一,文本的相對(duì)難度更符合實(shí)際認(rèn)知,人們不能給出文本絕對(duì)的難度值,但對(duì)于給定的兩篇文本,人們可以判定哪篇文本更難。同時(shí),文本的難度值是一個(gè)連續(xù)統(tǒng),文本與文本之間有難度的連續(xù)關(guān)系。第二,排序算法對(duì)標(biāo)注信息要求不高,在缺乏多等級(jí)標(biāo)注語(yǔ)料庫(kù)的情況下不失為一種好的選擇。三種方法的對(duì)比如表 2所示。
表 2 公式法、分類法、排序法的主要思路及優(yōu)缺點(diǎn)
目前可讀性研究主要集中在對(duì)文本特征的分析及效度驗(yàn)證上[38],本文把英文可讀性研究中使用的特征分為四個(gè)一級(jí)特征,在此基礎(chǔ)上,將該范疇下所涉及的子特征細(xì)分為二級(jí)特征,將具體可度量的文本特征作為三級(jí)特征,從而構(gòu)建一個(gè)層級(jí)化的可讀性特征體系,如表 3所示。
表 3 英文可讀性特征體系表
大多數(shù)可讀性公式把詞匯難度和句子難度作為衡量文本難度的標(biāo)準(zhǔn)。平均句長(zhǎng)是僅有的衡量句子難度的特征。一些公式使用詞長(zhǎng)、音節(jié)數(shù)和字母數(shù)作為衡量詞匯復(fù)雜度的指標(biāo),但Dale-Chall可讀性公式[39]在衡量詞匯復(fù)雜度時(shí)使用了常用詞表來(lái)計(jì)算文本中常用詞的占比: 文本使用的常用詞越多,讀者對(duì)詞匯越熟悉,文本越簡(jiǎn)單。Petersen 等[27]在四個(gè)語(yǔ)料庫(kù)上分別訓(xùn)練了一元、二元和三元語(yǔ)言模型,把這12個(gè)語(yǔ)言模型的困惑度(perplexity)作為詞匯難度的指標(biāo)。Feng[23]使用了四種文本序列表示方法,即詞序列、詞性序列、詞+詞性序列、信息增益(information gain)選擇后的詞+詞性序列來(lái)表示四個(gè)訓(xùn)練集,也分別訓(xùn)練了三個(gè)語(yǔ)言模型,把48個(gè)困惑度作為文本詞匯特征。Schwarm等[21]把機(jī)器學(xué)習(xí)的方法應(yīng)用于文本可讀性分析,可以納入更多的特征,如衡量詞匯多樣性常用的類符/形符比(the type-token ratio ,TTR)和文本的句法特征,包括句法樹(shù)的高度、從句及復(fù)雜從句的數(shù)量和長(zhǎng)度、實(shí)詞和功能詞的數(shù)量、動(dòng)詞短語(yǔ)和名詞短語(yǔ)的數(shù)量等。
Graesser等[40]認(rèn)為,文本的銜接和連貫影響文本的可讀性,在對(duì)文本可讀性進(jìn)行分析時(shí),不僅要考慮詞匯句法特征,還要加入深層篇章語(yǔ)義特征。為了更好地分析文本,該團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)文本分析工具Coh-Metrix。Coh-Metrix作為一個(gè)基于網(wǎng)絡(luò)的文本分析工具,融合了計(jì)算語(yǔ)言學(xué)和語(yǔ)料庫(kù)語(yǔ)言學(xué)的多種技術(shù),可以對(duì)文本的106個(gè)詞匯語(yǔ)法和篇章特征進(jìn)行自動(dòng)抽取。Feng[18]從實(shí)體詞密度、詞匯鏈、指代推理和實(shí)體網(wǎng)格(entity grid)[41]三種范疇出發(fā)抽取了共20個(gè)篇章有關(guān)的特征來(lái)評(píng)估文本可讀性。Lin等[42]在評(píng)估文本可讀性時(shí)使用了語(yǔ)義網(wǎng)和WordNet的詞匯關(guān)系。其做法是,對(duì)于給定的名詞,根據(jù)其在WordNet中的位置,找出其上位詞和下位詞,將閱讀者最容易理解的概念定義為基礎(chǔ)詞,基于由基礎(chǔ)詞構(gòu)成的短語(yǔ)頻率和上下位詞的長(zhǎng)度差異,利用目標(biāo)文本中基礎(chǔ)詞的比例來(lái)估計(jì)文本可讀性等級(jí)。
表 4對(duì)比了相同數(shù)據(jù)集下使用不同特征及其組合進(jìn)行預(yù)測(cè)時(shí)模型的準(zhǔn)確率。
從數(shù)量上看,一般情況下,特征的數(shù)量與模型的效度成正比,特征越多,模型的預(yù)測(cè)能力越好。Feng等[18]的研究中,經(jīng)過(guò)擴(kuò)充的特征集(8→21)使得模型準(zhǔn)確率從50.91%提升到57.79%。研究也同時(shí)顯示,加入所有特征的模型表現(xiàn)最好,但在相同的范疇下,與所有特征相比(72.21%),經(jīng)過(guò)篩選的28個(gè)特征也有不錯(cuò)的預(yù)測(cè)能力(70.06%)。
從范疇上看,公式特征、詞匯特征和句法特征是被廣泛使用的文本特征,三者的效度得到了相關(guān)研究的證實(shí)[28,32]。三個(gè)范疇特征的組合使得Vajjala 等[29]模型的準(zhǔn)確率達(dá)到91.3%。從單個(gè)特征來(lái)說(shuō),詞匯特征的預(yù)測(cè)效度最好。Collins-Thompson等[25]研究顯示,以詞匯特征為基礎(chǔ)建立的語(yǔ)言模型在預(yù)測(cè)1~12等級(jí)的網(wǎng)頁(yè)文本時(shí)表現(xiàn)更好。Flor等[43]基于回歸模型考察了詞匯緊密度與文本復(fù)雜度之間的關(guān)系。結(jié)果顯示,詞匯緊密度都和文本復(fù)雜度密切相關(guān);文本等級(jí)越高,詞匯的緊密度就越小,預(yù)測(cè)能力越小;文本中的詞匯緊密度與文本復(fù)雜度的關(guān)系受文本類型的影響。詞匯特征的貢獻(xiàn)率大于語(yǔ)法特征,但二者結(jié)合起來(lái)的模型預(yù)測(cè)能力更好。雖然詞匯特征的效度高于句法特征,但句法特征在面向二語(yǔ)者的文本可讀性預(yù)測(cè)任務(wù)時(shí)表現(xiàn)更為突出[44-45]。篇章特征的效度還有待驗(yàn)證。一些研究者認(rèn)為,篇章特征與閱讀時(shí)的認(rèn)知過(guò)程有關(guān),是重要的評(píng)估文本難度的特征[40]。Pitler等[46]從六個(gè)角度(詞匯特征、句法特征、指代特征、實(shí)體詞和篇章特征)對(duì)比了文本難度相關(guān)的特征,發(fā)現(xiàn)每句中動(dòng)詞短語(yǔ)的數(shù)量、詞數(shù)、詞匯似然度、篇章似然度與文本難度等級(jí)密切相關(guān)。但在另一些研究中,加入了篇章特征的模型,其性能并沒(méi)有明顯的提高[23,47]。
表 4 Weekly Reader 下不同特征的效度對(duì)比
文本可讀性的自動(dòng)分析多是有監(jiān)督任務(wù),需要帶有難度標(biāo)記的數(shù)據(jù)集來(lái)訓(xùn)練預(yù)測(cè)模型。英語(yǔ)國(guó)家擁有較早的讀物分級(jí)意識(shí),數(shù)據(jù)資源比較豐富。帶難度標(biāo)注的數(shù)據(jù)集主要有各州共同核心標(biāo)準(zhǔn)(Common Core State Standards,CCSS)中附屬的文本、the Weekly Reader分級(jí)雜志、The Weebit Corpus等。CCSS由美國(guó)教育部官方制定推廣,旨在為數(shù)學(xué)、藝術(shù)、文學(xué)領(lǐng)域的教育提供統(tǒng)一、具體的教育標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)對(duì)美國(guó)各年級(jí)(從幼兒園到初中)學(xué)生的學(xué)習(xí)目標(biāo)和閱讀能力進(jìn)行了明確的劃分,并給出了具體的符合各年級(jí)能力的閱讀文本范例。除了等級(jí)的劃分,該語(yǔ)料還標(biāo)注了文本類型,如故事、詩(shī)詞、說(shuō)明文、戲劇等。The Weekly Reader(WR)分級(jí)雜志[注]http://classroommagazines.scholastic.com/是針對(duì)青少年發(fā)行的在線教育類周刊。Vajjala 等[29]綜合了The Weekly Reader 分級(jí)雜志和the BBC-Bitesize 網(wǎng)站[注]https://www.bbc.com/education的文本,建立了規(guī)模更大的語(yǔ)料庫(kù)——The Weebit Corpus。三個(gè)語(yǔ)料庫(kù)的對(duì)比如表5所示。
為了抽取文本的篇章特征,Pitler等[46]在可讀性研究中使用了賓州語(yǔ)篇樹(shù)庫(kù)(The Penn Discourse Treebank,PDTB)[48]語(yǔ)料庫(kù)。賓州語(yǔ)篇樹(shù)庫(kù)是Prasad等于2004年建立的大規(guī)模語(yǔ)料庫(kù)。賓州語(yǔ)篇樹(shù)庫(kù)標(biāo)注了文本的局部篇章關(guān)系,沒(méi)有難度標(biāo)注。該研究隨機(jī)選取了PDTB的30篇文本,從賓州樹(shù)庫(kù)中抽取篇章關(guān)系作為文本特征,同時(shí)對(duì)文本可讀性進(jìn)行了人工標(biāo)注,請(qǐng)大學(xué)生限時(shí)閱讀文本并按照一定規(guī)則對(duì)文本進(jìn)行1~5分的難易度評(píng)價(jià),把每篇文本得分的均值作為文本的可讀性級(jí)別。
表 5 CCSS、WeeklyReader、WeeBit語(yǔ)料庫(kù)對(duì)比
對(duì)于缺乏成熟數(shù)據(jù)集的語(yǔ)言,如日語(yǔ)、漢語(yǔ)等,研究者們選擇自己構(gòu)建語(yǔ)料庫(kù),語(yǔ)料來(lái)源一般為教材課文文本[42,49]。眾包平臺(tái)的成熟使得部分研究者選擇利用眾包構(gòu)建語(yǔ)料庫(kù)[32,36,47]。Clercq等[50]的研究中,要求標(biāo)注者閱讀兩個(gè)段落并對(duì)比它們的相對(duì)難易度,把標(biāo)注者的標(biāo)注結(jié)果與專家的標(biāo)注結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)二者并沒(méi)有顯著差別。
英語(yǔ)文本的可讀性研究發(fā)展較早,且成果豐富。 與英語(yǔ)不同,漢語(yǔ)文本可讀性研究仍處于起步階段,多集中在可讀性公式的研制上。
漢語(yǔ)可讀性公式的構(gòu)建大致遵循了英語(yǔ)可讀性公式的研究范式,但在特征選擇和應(yīng)用領(lǐng)域上具有自己的特點(diǎn)。特征選擇的不同是由漢、英各自的語(yǔ)言特點(diǎn)決定的。漢語(yǔ)的文字載體是漢字,從形體上來(lái)說(shuō),漢字是由筆畫(huà)構(gòu)成的方塊字;從性質(zhì)上來(lái)說(shuō),漢字是語(yǔ)素音節(jié)文字,一個(gè)漢字通常表示漢語(yǔ)里的一個(gè)詞或一個(gè)語(yǔ)素,具有音形義相統(tǒng)一的特點(diǎn)。楊孝溁[51]從字詞句三個(gè)粒度選取了筆畫(huà)數(shù)、完全對(duì)稱字率、單音詞率、成語(yǔ)比例等23個(gè)語(yǔ)言特征對(duì)中文報(bào)刊文本的可讀性進(jìn)行了相關(guān)性分析。Hong[52]應(yīng)用趨勢(shì)分析法,從詞、語(yǔ)義、句法、連貫四個(gè)層面選取了32個(gè)特征進(jìn)行對(duì)比分析。
在應(yīng)用上,漢語(yǔ)文本可讀性研究的成果主要集中在教學(xué)領(lǐng)域。在漢語(yǔ)作為母語(yǔ)的教學(xué)領(lǐng)域,張必隱等[53]利用初中二年級(jí)學(xué)生的完形填空成績(jī)對(duì)20篇字?jǐn)?shù)在250字左右的段落進(jìn)行了可讀性公式的擬合。荊溪昱[54]以年級(jí)作為因變量,對(duì)臺(tái)灣1~12年級(jí)的語(yǔ)文中國(guó)課本進(jìn)行了難度的量化分析,并比較了每篇課本實(shí)際年級(jí)與實(shí)際難度的偏差。
母語(yǔ)教學(xué)領(lǐng)域的工作給漢語(yǔ)作為二語(yǔ)的教學(xué)領(lǐng)域提供了可借鑒的經(jīng)驗(yàn)。對(duì)外漢語(yǔ)教學(xué)領(lǐng)域教材多樣,但多套教材在同一水平上重復(fù),缺乏科學(xué)的語(yǔ)言點(diǎn)設(shè)置和對(duì)外漢語(yǔ)教材評(píng)估體系[55-56]。基于此狀,張寧志[57]借鑒母語(yǔ)教材的評(píng)估經(jīng)驗(yàn),使用每百字的句子數(shù)、平均句子長(zhǎng)度、非常用詞數(shù)對(duì)常用的16本中高級(jí)教材進(jìn)行了難度評(píng)估,具有開(kāi)創(chuàng)性價(jià)值。類似研究還有李燕[58]、羅素華[59]等。郭望皓[60]對(duì)外漢語(yǔ)文本難度進(jìn)行了探究,該研究首先通過(guò)問(wèn)卷調(diào)查的方法,對(duì)影響對(duì)外漢語(yǔ)文本難度的因素進(jìn)行了調(diào)查和篩選,篩選后的文本通過(guò)CRITIC加權(quán)賦值法計(jì)算了各因素的權(quán)重系數(shù),最后擬合出對(duì)外漢語(yǔ)文本的可讀性公式,如式(5)所示。
其中x1為平均句長(zhǎng),x2為漢字難度,x3為詞匯難度,該公式的擬合優(yōu)度為0.917。
左虹等[61]在教師問(wèn)卷調(diào)查和學(xué)生完形填空測(cè)試的基礎(chǔ)上,通過(guò)多元線性回歸的方法建立了一個(gè)針對(duì)中級(jí)歐美留學(xué)生的可讀性公式。王蕾[62]以90名初中級(jí)水平日本及韓國(guó)留學(xué)生在記敘性短文上的完形填空成績(jī)作為因變量,從字詞句篇四個(gè)方面篩選了17個(gè)特征對(duì)20篇短文的難度進(jìn)行量化,構(gòu)建了專門(mén)針對(duì)初中級(jí)日韓漢語(yǔ)學(xué)習(xí)者的可讀性公式。這兩項(xiàng)研究明確了所建立可讀性公式的適用范圍,對(duì)教學(xué)來(lái)說(shuō)有一定的針對(duì)性和實(shí)用價(jià)值。
除了教學(xué)領(lǐng)域外,鄒紅建等[63]對(duì)對(duì)外漢語(yǔ)教學(xué)中常用的報(bào)刊文本進(jìn)行了可讀性研究。研究先假設(shè)報(bào)刊文本的難易度與文本長(zhǎng)度和常用詞的比例有關(guān),然后通過(guò)比較文本位置偏移累加和人工標(biāo)注結(jié)果的方法確定二者的最佳系數(shù)。作者也指出,由于語(yǔ)料長(zhǎng)度的限制,該系數(shù)并不是普遍適用的。宋曜廷等[64]對(duì)影響漢語(yǔ)文本可讀性的因素進(jìn)行了探究,并借鑒英文文本分析工具Coh-metrix[40],構(gòu)建了適用于中文的文本分析工具CRIE(the Chinese Readability Index Explorer),該工具主要關(guān)注中文文本的銜接性和連貫性,可以分析的指標(biāo)包括詞性、詞頻、銜接性、詞匯信息、連詞、句子結(jié)構(gòu)等。孫剛[65]選取表面特征、詞匯特征、語(yǔ)法特征和信息熵特征建立線性回歸模型進(jìn)行可讀性預(yù)測(cè),重點(diǎn)探討了特征選擇工程對(duì)最終模型性能的影響。曾厚強(qiáng)等[66]結(jié)合FastText詞向量表示與深度學(xué)習(xí)模型(卷積神經(jīng)網(wǎng)絡(luò))對(duì)文本可讀性進(jìn)行分類預(yù)測(cè)。
漢語(yǔ)文本可讀性的自動(dòng)分析研究雖然取得了一些成果,但仍具有以下不足:
(1) 漢語(yǔ)文本可讀性研究在研究對(duì)象、數(shù)量、方法和應(yīng)用領(lǐng)域等方面都還比較有限,大部分是針對(duì)某個(gè)特定群體的學(xué)生進(jìn)行的教材分析和教學(xué)研究工作。從總體上看,面向二語(yǔ)者的可讀性研究成果豐富,面向廣泛母語(yǔ)人群的可讀性研究有廣闊的發(fā)展空間。
(2) 影響或預(yù)測(cè)漢語(yǔ)文本可讀性的指標(biāo)還有待擴(kuò)充和驗(yàn)證[64]。一方面,影響或預(yù)測(cè)拼音文本可讀性的語(yǔ)言特征不一定適用于漢語(yǔ)文本可讀性研究;另一方面,現(xiàn)有可讀性研究工作中使用的各項(xiàng)特征在范疇歸屬和特征效度上存在沖突,還有待系統(tǒng)地梳理和驗(yàn)證。
(3) 主要以線性模型為主,自然語(yǔ)言處理技術(shù)在中文可讀性的自動(dòng)分析研究上應(yīng)用不足。
(4) 公開(kāi)的文本難度標(biāo)注語(yǔ)料庫(kù)構(gòu)建不足。由于缺乏公開(kāi)的訓(xùn)練和測(cè)試數(shù)據(jù),研究者只能自己構(gòu)建教材課文語(yǔ)料庫(kù),在模型評(píng)價(jià)時(shí)只能采用自評(píng)的辦法,缺少研究的橫向?qū)Ρ取?/p>
本文對(duì)近年來(lái)文本可讀性的自動(dòng)分析研究進(jìn)行了綜述。隨著網(wǎng)絡(luò)文本的大量涌現(xiàn),文本分析日益成為熱點(diǎn),文本可讀性分析是文本分析的重要內(nèi)容,涉及計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、教育學(xué)和心理學(xué)多個(gè)學(xué)科。從最初的可讀性公式的研制,到近期的可讀性自動(dòng)分析工具[40,64]和模型的建立,自然語(yǔ)言處理技術(shù)的進(jìn)步為可讀性的自動(dòng)分析提供了多種思路和方法。文本可讀性研究作為一項(xiàng)有著豐富應(yīng)用場(chǎng)景的課題,今后的發(fā)展呈現(xiàn)以下趨勢(shì):
(1) 知識(shí)信息的加入,包括篇章連接關(guān)系、推理知識(shí)和讀者知識(shí)背景等。知識(shí)信息的加入有助于區(qū)分難度較高的文本,需要分析和抽取文本篇章信息,或結(jié)合讀者的知識(shí)背景等個(gè)體差異。
(2) 探究文本類型對(duì)文本難度的影響。人們閱讀不同類型的文本時(shí)會(huì)采用不同的理解和加工策略[19]??勺x性公式無(wú)法區(qū)分由文本類型帶來(lái)的文本難度的差距,文本難度分類模型會(huì)產(chǎn)生類型偏差(genre bias),模型傾向于把文學(xué)文本(literary texts)劃分為更高的難度級(jí)別,把信息文本(informational text)劃分為更低的難度級(jí)別[67],現(xiàn)有的研究?jī)H有部分注意到了文本類型的影響[68],卻沒(méi)有進(jìn)行更深入的分析。
(3) 使用深度學(xué)習(xí)模型和新的文本表示方法,如神經(jīng)網(wǎng)絡(luò)模型和基于詞向量的文本表示[33,66]。近年來(lái)隨著表示學(xué)習(xí)方法技術(shù)的蓬勃發(fā)展,訓(xùn)練可讀性模型所需要的特征可以不需要仰賴專家知識(shí),這使得可讀性自動(dòng)分析的發(fā)展有了一個(gè)嶄新的研究方向。