閱讀是人類運用語言文字來獲取信息、發(fā)展思維的重要途徑。面對浩如煙海的閱讀材料,如何選擇、供應(yīng)適合于不同年齡階段少年兒童閱讀所需要的讀物,成為困擾老師和家長的難題之一。如果學(xué)習(xí)者的閱讀水平與閱讀材料不匹配,即閱讀文本超出或低于學(xué)習(xí)者的水平,不僅會影響閱讀體驗,還可能會對基本文本信息的提取造成阻礙,因此,如何為學(xué)習(xí)者提供難度適宜的閱讀材料遂成為語言教學(xué)研究的重要問題
。
有學(xué)者指出,“文本易讀性(readability)”是指文本易于閱讀和理解的程度或性質(zhì)
。文本易讀性的研究有著重要的理論意義和應(yīng)用價值。在理論層面上,通過分析挖掘得到的關(guān)鍵文本特征,是影響文本閱讀難度差異的重要因素,能夠為閱讀心理學(xué)的相關(guān)理論及青少年分級閱讀標(biāo)準(zhǔn)的制定提供參考
。同時,易讀性的研究還要面對很多應(yīng)用場景,對文本難度的評估分析,可以幫助教師和相關(guān)研究人員為學(xué)習(xí)者選擇合適的閱讀材料,為閱讀測試、課程規(guī)劃提供一定的參考價值
。此外,在自然語言處理領(lǐng)域,文本的易讀性分析可應(yīng)用于作文自動評分等
。隨著人工智能、語言信息處理技術(shù)的發(fā)展,學(xué)界開始嘗試讓機器對文本的易讀性進行自動分析和判別,從而輔助教師、家長為孩子選擇適合的讀物。
文本易讀性研究起源于美國,針對英文文本的易讀性,在特征的選擇、分析、預(yù)測和效度驗證上,已取得豐富的成果。漢語文本易讀性研究則起步較晚,相關(guān)研究在借鑒英文易讀性公式的同時,也構(gòu)建了適合中文特點的易讀性公式
。Yang首次從文字、詞語、句子三個層面出發(fā),對85篇漢語文本的39個指標(biāo)進行量化分析,最終選取最相關(guān)的難詞比、完整句子數(shù)和平均筆畫數(shù)三個指標(biāo),構(gòu)建出易讀性公式
。孫漢銀認(rèn)為,字均筆畫數(shù)、句子的平均字?jǐn)?shù)以及平均詞數(shù)和難詞比例,是影響漢語文本易讀性的重要指標(biāo),并綜合這些指標(biāo)構(gòu)建了易讀性公式
。王蕾則以構(gòu)建面向日韓留學(xué)生的可讀性公式為主,以90名學(xué)生的20篇記敘性短文的完型填空成績?yōu)橐蜃兞?,?7個可能影響閱讀難度的變量進行量化,以總詞數(shù)、簡單詞數(shù)、虛詞數(shù)、分句數(shù)等變量為預(yù)測變量,來構(gòu)建可讀性公式
。程勇等從字、詞、句子、篇章等不同層面,對影響文本閱讀難度的關(guān)鍵因素進行了統(tǒng)計關(guān)聯(lián)分析,主要涉及到頻率、長度、詞類、詞義類別、詞語豐富性、句子變化度等17類、53種因素,在這一基礎(chǔ)上,利用多元線性回歸方程來檢驗這些因素與難度級別的預(yù)測效度,并最終建立文本易讀性公式
??傮w而言,通過構(gòu)建易讀性公式能夠較好地預(yù)測文本材料的難易程度。不過,目前以漢語為母語的文本易讀性研究相對較少,因此,需要對影響閱讀難度的相關(guān)因素,如用詞、句式、語義、篇章等,進行深入探討,從而為母語人群提供閱讀支持。
有鑒于此,本研究以人民教育出版社出版的小學(xué)義務(wù)教育課程標(biāo)準(zhǔn)實驗教科書《語文》教材(以下簡稱“人教版”)、江蘇教育出版社出版的小學(xué)義務(wù)教育課程標(biāo)準(zhǔn)實驗教科書《語文》教材(以下簡稱“蘇教版”)、北京師范大學(xué)出版社出版的小學(xué)義務(wù)教育課程標(biāo)準(zhǔn)實驗教科書《語文》教材(以下簡稱“北師大版”)為研究對象,并構(gòu)建教材語料庫,從字、詞、句、篇四個層面,將可能影響漢語文本的易讀性因素納入指標(biāo)體系,對不同層面文本特征在漢語文本易讀性預(yù)測中的表現(xiàn)進行分析,為建立有效的易讀性預(yù)測模型奠定基礎(chǔ)。
本研究選取人教版、蘇教版、北師大版小學(xué)一至六年級的語文教材作為語料庫,在課文體裁方面則過濾掉了教材中的詩歌、文言文等類型,這樣一來,總共采集到976篇課文,其中,人教版353篇,蘇教版284篇,北師大版339篇。語文教材分級語料庫信息,如表1所示:
在漢語文本閱讀過程中,詞匯發(fā)揮著關(guān)鍵作用,是影響文本閱讀難度的重要因素。我們首先對課文的所有詞語進行了分詞和詞性標(biāo)注,接著從詞形、詞性、詞義等方面,來探討詞匯與閱讀難度級別之間的關(guān)系。
圖4顯示的是工況三時滿載地鐵車廂截面半個周期的風(fēng)速分布云圖,該云圖與圖3無太大區(qū)別,最大風(fēng)速位置出現(xiàn)在幅流風(fēng)機出風(fēng)口,約為2.8 m/s,截面平均風(fēng)速為0.51 m/s,符合人體舒適性要求。
漢字是構(gòu)成漢語文本的最小單位,漢字的難度直接影響著文本的閱讀難度,而影響漢字難度的最重要因素便是筆畫數(shù)。通常來說,漢字越復(fù)雜,筆畫數(shù)就越多,識別起來也就相對困難。沈烈敏、朱曉平指出:“筆畫數(shù)效應(yīng)的大小與漢字頻率的高低有關(guān),即筆畫數(shù)在高頻字的識別中作用小,在低頻字的識別中作用大。”
字頻是影響漢字難度的又一重要因素。所謂“字頻”,是指漢字的使用頻率,也就是我們通常所說的漢字熟悉度。一般情況下,生僻字的出現(xiàn)頻率較低,識別起來比較困難。同時,字種數(shù)也不可忽視。所謂“字種數(shù)”,即字的種類數(shù),指的是某一級別所有文本中所使用的字種數(shù)量?;谏鲜稣J(rèn)識,在文字層面,本研究設(shè)計了字種數(shù)、平均字頻、平均筆畫、總字?jǐn)?shù)四項指標(biāo),并統(tǒng)計了這些指標(biāo)的相關(guān)數(shù)據(jù)。具體如圖1所示:
從圖1可以看出,隨著文本難度級別的提升,字種數(shù)、平均筆畫數(shù)、總字?jǐn)?shù)均呈上升趨勢,平均字頻則呈下降趨勢。以蘇教版為例,小學(xué)一年級的字種數(shù)最少,共831個漢字;隨后逐年上升,六年級達到最高,共2435個漢字。平均字頻則從一年級的最高值0.1168下降到六年級的最低值0.0762。我們還計算了難度級別與這三種指標(biāo)的Spearman相關(guān)系數(shù),其中,總字?jǐn)?shù)的相關(guān)度為0.683,字種數(shù)的相關(guān)度為0.754,平均字頻的相關(guān)度為-0.464,平均筆畫的相關(guān)度為0.257。數(shù)據(jù)顯示,總字?jǐn)?shù)、字種數(shù)、平均字頻與文本難度級別有著很高的相關(guān)性,而漢字的平均筆畫與文本難度級別的相關(guān)性最小。
本文從文字、詞匯、句子、篇章四個層面,來挖掘與文本閱讀難度有關(guān)的語言特征因素。首先利用Python工具對每篇課文進行統(tǒng)計,提取相關(guān)特征因素,并統(tǒng)計了每篇課文的相關(guān)指標(biāo)信息。具體如表2所示:
1.詞形分析
本文所設(shè)計的與詞形的相關(guān)因素,主要包括詞種數(shù)、平均詞長、平均詞頻、詞匯豐富度。其中,詞種數(shù)是指某一級別所有文本中所使用的詞語種類數(shù)量;平均詞長是指某一級別文本中使用的所有詞種的平均長度;平均詞頻是指某一級別文本中使用的所有詞種的平均詞頻值;詞匯豐富度是指文本中詞的多樣性。其計算公式是:K=(a-1)/ln(s)。其中,K表示文本中詞的多樣性,a為詞種數(shù),s為詞語總數(shù)。
生物學(xué)學(xué)科核心素養(yǎng)是學(xué)生在進行生物課程學(xué)習(xí)中逐漸內(nèi)化形成的品格和能力,初中生物課程教學(xué)中就要有意識地對學(xué)生進行核心素養(yǎng)的滲透內(nèi)化,以下以福建省生物統(tǒng)考試題為例進行分析。
我們對這四項指標(biāo)進行了統(tǒng)計分析,具體結(jié)果如圖2所示:
從圖2可以看出,隨著難度級別的提升,詞種數(shù)、詞匯豐富度隨之增加,平均詞頻則逐步降低,變化趨勢較為明顯。平均詞長的整體變化幅度較小,從一年級到四年級呈線性增長,四年級到五年級逐漸下降,五年級到六年級趨于穩(wěn)定。其中,小學(xué)一年級的平均詞長最短,為1.760;小學(xué)四年級的最長,為1.881。在平均詞頻方面,以蘇教版為例,小學(xué)一年級最高,為0.1183;小學(xué)五年級最低,為0.0424。
水的問題解決了,就抓住了擺脫貧困的牛鼻子!省水利廳供水排水處處長石生新表示,飲水安全工程建成后,解放了農(nóng)村大量勞動力,促進了勞務(wù)經(jīng)濟的發(fā)展壯大。同時,帶動了農(nóng)民種養(yǎng)結(jié)構(gòu)調(diào)整,加快了脫貧致富步伐。
在詞性層面,我們主要統(tǒng)計了課文中所有詞語的詞性分布比例。在對詞語進行詞性標(biāo)注時,主要采用的是北京大學(xué)現(xiàn)代漢語語料庫的標(biāo)記集
,共包含名詞、動詞、形容詞等24種不同詞性標(biāo)記。這里需要說明的是,本文將其中的介詞、連詞、代詞歸于篇章層面。我們統(tǒng)計了各類詞性與難度級別之間的相關(guān)關(guān)系,具體如表3所示:
我們還計算了難度級別與這四項指標(biāo)的Spearman相關(guān)系數(shù)。其中,詞種數(shù)的相關(guān)系數(shù)為0.706,平均詞頻的相關(guān)系數(shù)為-0.535,平均詞長的相關(guān)系數(shù)為0.219,詞匯豐富度的相關(guān)系數(shù)為0.720。由此可知,在詞形層面,詞種數(shù)、平均詞頻、詞匯豐富度均與難度級別有著較高的相關(guān)性。
五六年級的孩子已開始步入青春期,開始對異性有一些朦朦朧朧的感覺。這說明孩子長大了,對自己的性別有了認(rèn)同,對異性也產(chǎn)生了認(rèn)識欲望,這是很正常的事。但我認(rèn)為“談戀愛”三個字用在他們身上還不合適,頂多就是對異性的一種好感,一種認(rèn)同。該如何疏導(dǎo)呢?說重了,怕給他們造成心理陰影,說輕了,反而使他們對異性更加好奇,說不定,還會影響其他孩子。思前想后,我決定從小雨身上找突破口。
在上文統(tǒng)計分析的基礎(chǔ)上,我們又過濾掉了Spearman相關(guān)系數(shù)低于0.4的影響因素,最終保留了3種漢字相關(guān)因素:總字?jǐn)?shù)、字種數(shù)、平均字頻;3種詞匯相關(guān)因素:詞種數(shù)、平均詞頻、詞匯豐富度;2種句子相關(guān)因素:句子數(shù)、分句數(shù);1種篇章相關(guān)因素:連詞比例。然后,在這些指標(biāo)的基礎(chǔ)上,我們對人教版、蘇教版、北師大版的小學(xué)語文教材進行對比分析。
水庫擁有土地、山林、水面等豐富的資源,還有供水、供電等資產(chǎn),要將資源和資產(chǎn)優(yōu)勢轉(zhuǎn)化為經(jīng)濟優(yōu)勢,必須盤活存量資產(chǎn),推進產(chǎn)權(quán)制度改革。一是組建股份制公司,按水庫供水、發(fā)電、旅游等興利項目組建股份制公司,將其推向市場。二是開展租賃經(jīng)營和承包經(jīng)營,水庫的土地、山林、水面、房產(chǎn)、設(shè)備可由個人或集體租賃或承包經(jīng)營。三是轉(zhuǎn)讓使用權(quán),把水庫部分資源或資產(chǎn)在一定期限內(nèi)的使用權(quán)公開有償出讓。四是聯(lián)合經(jīng)營,本著優(yōu)勢互補、利益共享的原則,在自愿的基礎(chǔ)上,相近或同一流域的水庫在供水、供電、旅游等項目上實行多種形式的聯(lián)合經(jīng)營、合作經(jīng)營,以增加效益。
從表3可以看出,詞性與文本難度等級的相關(guān)性整體偏低。其中,難度級別與連詞、處所詞、慣用語等詞類的相關(guān)系數(shù)均在0.3以上,隨著難度級別的升高,文本中這些詞語的占比也逐漸增加。
數(shù)據(jù)顯示,一年級的句子數(shù)(1101)、分句數(shù)(2490)、平均句長(17.477)、句長變化度(6.532)都是最低的,句子重復(fù)率(0.007)則最高。這說明小學(xué)一年級的課文篇幅較短,句式簡單,重復(fù)率高。隨著年級的升高,課文篇幅也有所增加,其中,小學(xué)四年級課文的句長變化度(13.900)最高,小學(xué)四年級的平均句長(24.972)最長,小學(xué)六年級的句子數(shù)(5526)、分句數(shù)(14080)最多。
在詞義層面,本文主要借鑒了《同義詞詞林》的分類體系
,對每個詞語的語義類型進行劃分。此書由梅家駒等于1983年編撰,之后,哈爾濱工業(yè)大學(xué)信息檢索實驗室又對它進行了細(xì)化和補充,推出了同義詞詞林?jǐn)U展版,共收錄詞語七萬多條。我們首先將語義劃分為人、物、時空、抽象、特征、動作、心理、活動、狀態(tài)、關(guān)聯(lián)、助語、敬語等12類,并把文本中的相關(guān)詞語歸入到這12個語義類中。然后,對不同級別文本中的詞義類分布情況進行統(tǒng)計,并計算出難度級別與所有詞義因素的Spearman相關(guān)系數(shù)。具體結(jié)果如表4所示:
從表4可以看出,難度級別與“抽象”“關(guān)聯(lián)”等語義類相關(guān)度較高。在小學(xué)學(xué)習(xí)階段,抽象概念類名詞的占比隨著年級的增長而增加,具體事物類名詞的占比則逐步下降,這遵循了小學(xué)學(xué)生認(rèn)知發(fā)展從具體到抽象的客觀規(guī)律?!瓣P(guān)聯(lián)”類詞語主要用于表達事物之間的聯(lián)系,在一定程度上增加了文本的復(fù)雜性。
改進LeNet-5模型所得到的CNN-4C模型各層具體的的卷積池化范圍特征圖矩陣大小以及特征圖個數(shù)如表4所示。
句子是表達意義、傳遞情感的最基本的語言單位,與閱讀難度高度相關(guān)。在句子層面,我們共設(shè)計了5項指標(biāo),它們分別是:句子數(shù)、分句數(shù)、平均句長、句長變化度、句子重復(fù)率。其中,這里的句子數(shù)是指以句號、感嘆號、問號、省略號結(jié)尾的句子的數(shù)量;分句數(shù)是指以逗號、分號等分割的句子的數(shù)量;平均句長則是指文本中句子的平均字符數(shù)。
對白藜蘆醇DPPC脂質(zhì)粉霧劑進行的體外肺部沉積研究結(jié)果表明,甘露醇與DPPC質(zhì)量比為2∶1時,制備得到的粉霧劑具有優(yōu)良的粉末性質(zhì),有助于藥物在肺內(nèi)不同部位的沉積。在60 L/min氣流速度條件下,接收盤2~7級藥物肺部沉積率為28.1%,明顯優(yōu)于原料藥(13.3%)。分析原因,可能由于原料藥多為晶體結(jié)構(gòu)相互吸附,流動性欠佳,易于聚集。最優(yōu)處方制備的白藜蘆醇DPPC脂質(zhì)粉霧劑更能滿足吸入顆粒的要求,易沉積在肺深部。
句長變化度反映了文本中句子長度的變化情況,它是文本中所有句子長度的標(biāo)準(zhǔn)方差值。其計算公式是:
句子重復(fù)率是指某一文檔中相鄰句子之間詞語的重復(fù)比例,其計算公式是:
句子層面的指標(biāo)與難度級別之間的關(guān)系,可如圖3所示(見下頁):
3.詞義分析
我們還計算了難度級別與上述因素的Spearman相關(guān)系數(shù),具體結(jié)果如表5所示:
現(xiàn)代翻譯學(xué)中等值或者說對等理論是一重要的思想。諸多西方翻譯理論家都在探討翻譯等值問題。當(dāng)提及等值之時,并不是指本體論上的絕對等同,而是認(rèn)識論上的等值,也就是說,在認(rèn)識事物的實踐中是等值的。
從表5可以看出,在句子層面,分句數(shù)、句子數(shù)與難度級別之間的相關(guān)性最高,句子重復(fù)率與難度級別的相關(guān)性最低。
可以說,篇章在文本難度分析中最容易被忽略。實際上,篇章的段落組織方式、主題緊密程度、句間和段落間的銜接連貫等,都會對文本的理解難度產(chǎn)生影響。Graesser等從敘事性、指代銜接和深層銜接三個維度,闡述了它們與篇章難度的關(guān)系
。Sung等從指代、連接和隱喻三個方面,對文本的銜接程度進行衡量,其中,指代、連接分別是通過統(tǒng)計文本中代詞和連詞的數(shù)量來量化的
?;谏鲜鲅芯?,我們在篇章層面設(shè)計了連詞比例、代詞比例、介詞比例三個指標(biāo)。在詞匯層面對詞性進行分析時,已經(jīng)得出代詞、連詞、介詞與難度等級之間的相關(guān)性分別為0.132、0.428、-0.131。由此可知,在篇章層面,連詞比例對文本難度的影響是比較高的。具體可如圖4所示:
2.詞性分析
就如何安排、設(shè)計針對學(xué)生、家長和教師的正確激勵機制,以實現(xiàn)學(xué)習(xí)成績最優(yōu)化問題。Hanushek et al(2003)在教育的同伴效應(yīng)研究中指出經(jīng)濟機制起著重要作用[24]。有大量證據(jù)證實學(xué)生學(xué)習(xí)成績受他們同伴影響,學(xué)生成績依賴于對其他人行為的研究(不僅僅是他們的個性特性和社會背景),這會導(dǎo)致個人最優(yōu)行為和群體最優(yōu)行為之間的差異,這一問題至今沒有被分析。
我們對這三種版本教材的文字層面的相關(guān)指標(biāo)進行了比較,具體如表6所示:
從表6的相關(guān)統(tǒng)計數(shù)據(jù)中,我們可以得到以下結(jié)論:第一,隨著年級的升高,三種版本教材的字種數(shù)、總字?jǐn)?shù)整體上是逐步增加的。其中,從一年級到三年級,每個年級的數(shù)量均大幅增加;四年級之后,增長率呈下降趨勢,并趨于穩(wěn)定。同時,人教版教材的字種數(shù)、總字?jǐn)?shù)均高于北師大版和蘇教版,蘇教版教材的字種數(shù)、總字?jǐn)?shù)在三個版本中都是最低的。第二,從小學(xué)一到六年級,這三種版本教材的平均字頻在整體上呈下降趨勢。同時,從小學(xué)一年級到三年級以及小學(xué)六年級,蘇教版教材的平均字頻要高于人教版和北師大版;小學(xué)四年級、五年級,北師大版教材的平均字頻要高于人教版和蘇教版。
我們對這三種版本教材的詞匯層面的相關(guān)指標(biāo)進行了比較,具體如表7所示:
根據(jù)土壤污染風(fēng)險等級,將耕地劃分為3個類別,將無污染的耕地劃為優(yōu)先保護類,低風(fēng)險和中度風(fēng)險的耕地劃為安全利用類,高風(fēng)險和極高風(fēng)險的耕地劃為嚴(yán)格管控類。稻田土壤重金屬污染風(fēng)險等級見表2。根據(jù)現(xiàn)階段Cd污染治理技術(shù)水平,以0.5為間隔劃分農(nóng)產(chǎn)品風(fēng)險等級。
從表7的相關(guān)統(tǒng)計數(shù)據(jù)中,我們可以得到以下結(jié)論:第一,隨著年級的升高,三種版本教材的詞種數(shù)總體上呈逐步增加趨勢。其中,從一年級到四年級,每個年級的數(shù)量均大幅增加;五年級、六年級則趨于穩(wěn)定。同時,除個別情況外,人教版教材小學(xué)階段的詞種數(shù)均高于蘇教版和北師大版,其中,蘇教版的詞種數(shù)最低。第二,隨著年級的升高,難詞比例增加,詞匯熟悉度下降,平均詞頻亦呈逐步下降趨勢。在這三種版本的教材中,人教版的平均詞頻基本上是最低的。
我們對這三種版本教材的句子層面的相關(guān)指標(biāo)進行了比較,具體如表8所示:
從表8可以看出,作為使用最廣泛的語文教材,人教版的選文篇幅較長、內(nèi)容豐富、涵蓋面廣,其課文的句子數(shù)和分句數(shù)在三種版本中基本上都是最高的。
在篇章層面,我們主要對這三種版本教材的連詞比例進行了比較,具體如表9所示:
從表9可以看出,三種版本教材中的連詞比例普遍較低;隨著年級的升高,連詞比例逐步增加,基本上是在四年級至六年級達到最高,并穩(wěn)定在1%左右。
綜上所述,本文構(gòu)建了以人教版、蘇教版、北師大版語文教材為基礎(chǔ)的分級語料庫,該語料庫共收錄了976篇課文。在這一基礎(chǔ)上,從字、詞、句、篇四個層面出發(fā),考察了49項影響文本難易度的語言因素與難度級別之間的相關(guān)性,并確定了9項與文本難易度相關(guān)性較高的因素(相關(guān)性大于0.4),分別為:字種數(shù)、總字?jǐn)?shù)、平均字頻、詞種數(shù)、平均詞頻、詞匯豐富度、句子數(shù)、分句數(shù)、連詞比例。然后,從這些影響因素出發(fā),對這三種版本教材進行了對比分析。研究表明,作為使用最廣泛的語文教材,人教版的選文篇幅較長、內(nèi)容豐富、涵蓋面廣,因此,在字種數(shù)、總字?jǐn)?shù)、詞匯豐富度、句子數(shù)、分句數(shù)等影響因素的統(tǒng)計占比方面,均高于北師大版和蘇教版。在連詞比例方面,三種版本教材的占比則非常接近。需要指出的是,本文的研究主要是基于教材語料庫的統(tǒng)計與分析,下一步將以來自于真實數(shù)據(jù)的定量分析為基礎(chǔ),構(gòu)建文本易讀性公式,從而為文本閱讀難度標(biāo)準(zhǔn)的制定提供參考和建議,并為母語人群閱讀提供實證支持。
[1]Wolfe,M.B.W.,Schreiner,M.E.,Rehder,B.,Laham,D.,Foltz,P.W.,Kintsch,W. & Landauer,T.K.Learning from text:Matching readers and texts by latent semantic analysis[J].Discourse Processes,1998,(2-3).
[2]王蕾.可讀性公式的內(nèi)涵及研究范式——兼議對外漢語可讀性公式的研究任務(wù)[J].語言教學(xué)與研究,2008,(6).
[3]李紹山.易讀性研究概述[J].解放軍外國語學(xué)院學(xué)報,2000,(4).
[4]白學(xué)軍,閆國利,等.閱讀心理學(xué)[M].上海:華東師范大學(xué)出版社,2017.
[5]Sheehan,K.M.,Kostin,I.,Napolitano,D. & Flor,M.The TextEvaluator tool:Helping teachers and test developers select texts for use in instruction and assessment[J].The Elementary School Journal,2014,(2).
[6]Sato,S.,Matsuyoshi,S. & Kondoh,Y.Automatic assessment of Japanese text readability based on a textbook corpus[A].Proceedings of the Sixth International Conference on Language Resources and Evaluation(LREC’08)[C].2008.
[7]王藝璇.漢語二語者詞匯豐富性與寫作成績的相關(guān)性——兼論測量寫作質(zhì)量的多元線性回歸模型及方程[J].語言文字應(yīng)用,2017,(2).
[8]程勇,徐德寬,董軍.基于多元語言特征與深度特征融合的中文文本閱讀難度自動分級研究[J].中文信息學(xué)報,2020,(4).
[9]Yang,S.A readability formula for Chinese language[D].Ph.D.Dissertation:The University of Wisconsin-Madison,1971.
[10]孫漢銀.中文易懂性公式[D].北京:北京師范大學(xué)碩士學(xué)位論文,1992.
[11]王蕾.初中級日韓留學(xué)生文本可讀性公式初探[D].北京:北京語言大學(xué)碩士學(xué)位論文,2005.
[12]程勇,徐德寬,董軍.基于語文教材語料庫的文本閱讀難度分級關(guān)鍵因素分析與易讀性公式研究[J].語言文字應(yīng)用,2020,(1).
[13]沈烈敏,朱曉平.漢字識別中筆畫數(shù)與字頻效應(yīng)的研究[J].心理科學(xué),1994,(4).
[14]俞士汶,段慧明,朱學(xué)鋒,孫斌.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學(xué)報,2002,(5).
[15]梅家駒,竺一鳴,高蘊琦,殷鴻翔.同義詞詞林[M].上海:上海辭書出版社,1983.
[16]Graesser,A.C.,McNamara,D.,Cai,Z.,Conley,M.,Li, H. & Pennebaker,J.Coh-Metrix measures text characteristics at multiple levels of language and discourse[J].The Elementary School Journal,2014,(2).
[17]Sung,Y-T.,Chen,J-L.,Cha,J-H.,Tseng,H-C.,Chang,T-H.& Chang,K-E.Constructing and validating readability models:the method of integrating multilevel linguistic features with machine learning[J].Behavior Research Methods,2015,(2).