基于小學(xué)語文教材的文本易讀性研究
——以人教版、蘇教版、北師大版為例

2022-09-01 10:34:40張倩倩

現(xiàn)代語文 2022年8期

一、研究背景

閱讀是人類運用語言文字來獲取信息、發(fā)展思維的重要途徑。面對浩如煙海的閱讀材料，如何選擇、供應(yīng)適合于不同年齡階段少年兒童閱讀所需要的讀物，成為困擾老師和家長的難題之一。如果學(xué)習(xí)者的閱讀水平與閱讀材料不匹配，即閱讀文本超出或低于學(xué)習(xí)者的水平，不僅會影響閱讀體驗，還可能會對基本文本信息的提取造成阻礙，因此，如何為學(xué)習(xí)者提供難度適宜的閱讀材料遂成為語言教學(xué)研究的重要問題

。

有學(xué)者指出，“文本易讀性（readability）”是指文本易于閱讀和理解的程度或性質(zhì)

。文本易讀性的研究有著重要的理論意義和應(yīng)用價值。在理論層面上，通過分析挖掘得到的關(guān)鍵文本特征，是影響文本閱讀難度差異的重要因素，能夠為閱讀心理學(xué)的相關(guān)理論及青少年分級閱讀標(biāo)準(zhǔn)的制定提供參考

。同時，易讀性的研究還要面對很多應(yīng)用場景，對文本難度的評估分析，可以幫助教師和相關(guān)研究人員為學(xué)習(xí)者選擇合適的閱讀材料，為閱讀測試、課程規(guī)劃提供一定的參考價值

。此外，在自然語言處理領(lǐng)域，文本的易讀性分析可應(yīng)用于作文自動評分等

。隨著人工智能、語言信息處理技術(shù)的發(fā)展，學(xué)界開始嘗試讓機器對文本的易讀性進行自動分析和判別，從而輔助教師、家長為孩子選擇適合的讀物。

文本易讀性研究起源于美國，針對英文文本的易讀性，在特征的選擇、分析、預(yù)測和效度驗證上，已取得豐富的成果。漢語文本易讀性研究則起步較晚，相關(guān)研究在借鑒英文易讀性公式的同時，也構(gòu)建了適合中文特點的易讀性公式

。Yang首次從文字、詞語、句子三個層面出發(fā)，對85篇漢語文本的39個指標(biāo)進行量化分析，最終選取最相關(guān)的難詞比、完整句子數(shù)和平均筆畫數(shù)三個指標(biāo)，構(gòu)建出易讀性公式

。孫漢銀認(rèn)為，字均筆畫數(shù)、句子的平均字?jǐn)?shù)以及平均詞數(shù)和難詞比例，是影響漢語文本易讀性的重要指標(biāo)，并綜合這些指標(biāo)構(gòu)建了易讀性公式

。王蕾則以構(gòu)建面向日韓留學(xué)生的可讀性公式為主，以90名學(xué)生的20篇記敘性短文的完型填空成績?yōu)橐蜃兞?，?7個可能影響閱讀難度的變量進行量化，以總詞數(shù)、簡單詞數(shù)、虛詞數(shù)、分句數(shù)等變量為預(yù)測變量，來構(gòu)建可讀性公式

。程勇等從字、詞、句子、篇章等不同層面，對影響文本閱讀難度的關(guān)鍵因素進行了統(tǒng)計關(guān)聯(lián)分析，主要涉及到頻率、長度、詞類、詞義類別、詞語豐富性、句子變化度等17類、53種因素，在這一基礎(chǔ)上，利用多元線性回歸方程來檢驗這些因素與難度級別的預(yù)測效度，并最終建立文本易讀性公式

?？傮w而言，通過構(gòu)建易讀性公式能夠較好地預(yù)測文本材料的難易程度。不過，目前以漢語為母語的文本易讀性研究相對較少，因此，需要對影響閱讀難度的相關(guān)因素，如用詞、句式、語義、篇章等，進行深入探討，從而為母語人群提供閱讀支持。

有鑒于此，本研究以人民教育出版社出版的小學(xué)義務(wù)教育課程標(biāo)準(zhǔn)實驗教科書《語文》教材（以下簡稱“人教版”）、江蘇教育出版社出版的小學(xué)義務(wù)教育課程標(biāo)準(zhǔn)實驗教科書《語文》教材（以下簡稱“蘇教版”）、北京師范大學(xué)出版社出版的小學(xué)義務(wù)教育課程標(biāo)準(zhǔn)實驗教科書《語文》教材（以下簡稱“北師大版”）為研究對象，并構(gòu)建教材語料庫，從字、詞、句、篇四個層面，將可能影響漢語文本的易讀性因素納入指標(biāo)體系，對不同層面文本特征在漢語文本易讀性預(yù)測中的表現(xiàn)進行分析，為建立有效的易讀性預(yù)測模型奠定基礎(chǔ)。

二、文本易讀性特征體系的構(gòu)建

本研究選取人教版、蘇教版、北師大版小學(xué)一至六年級的語文教材作為語料庫，在課文體裁方面則過濾掉了教材中的詩歌、文言文等類型，這樣一來，總共采集到976篇課文，其中，人教版353篇，蘇教版284篇，北師大版339篇。語文教材分級語料庫信息，如表1所示：

在漢語文本閱讀過程中，詞匯發(fā)揮著關(guān)鍵作用，是影響文本閱讀難度的重要因素。我們首先對課文的所有詞語進行了分詞和詞性標(biāo)注，接著從詞形、詞性、詞義等方面，來探討詞匯與閱讀難度級別之間的關(guān)系。

圖4顯示的是工況三時滿載地鐵車廂截面半個周期的風(fēng)速分布云圖，該云圖與圖3無太大區(qū)別，最大風(fēng)速位置出現(xiàn)在幅流風(fēng)機出風(fēng)口，約為2.8 m/s，截面平均風(fēng)速為0.51 m/s，符合人體舒適性要求。

三、文本易讀性關(guān)鍵因素分析

（一）文字層面

漢字是構(gòu)成漢語文本的最小單位，漢字的難度直接影響著文本的閱讀難度，而影響漢字難度的最重要因素便是筆畫數(shù)。通常來說，漢字越復(fù)雜，筆畫數(shù)就越多，識別起來也就相對困難。沈烈敏、朱曉平指出：“筆畫數(shù)效應(yīng)的大小與漢字頻率的高低有關(guān)，即筆畫數(shù)在高頻字的識別中作用小，在低頻字的識別中作用大。”

字頻是影響漢字難度的又一重要因素。所謂“字頻”，是指漢字的使用頻率，也就是我們通常所說的漢字熟悉度。一般情況下，生僻字的出現(xiàn)頻率較低，識別起來比較困難。同時，字種數(shù)也不可忽視。所謂“字種數(shù)”，即字的種類數(shù)，指的是某一級別所有文本中所使用的字種數(shù)量?；谏鲜稣J(rèn)識，在文字層面，本研究設(shè)計了字種數(shù)、平均字頻、平均筆畫、總字?jǐn)?shù)四項指標(biāo)，并統(tǒng)計了這些指標(biāo)的相關(guān)數(shù)據(jù)。具體如圖1所示：

從圖1可以看出，隨著文本難度級別的提升，字種數(shù)、平均筆畫數(shù)、總字?jǐn)?shù)均呈上升趨勢，平均字頻則呈下降趨勢。以蘇教版為例，小學(xué)一年級的字種數(shù)最少，共831個漢字；隨后逐年上升，六年級達到最高，共2435個漢字。平均字頻則從一年級的最高值0.1168下降到六年級的最低值0.0762。我們還計算了難度級別與這三種指標(biāo)的Spearman相關(guān)系數(shù)，其中，總字?jǐn)?shù)的相關(guān)度為0.683，字種數(shù)的相關(guān)度為0.754，平均字頻的相關(guān)度為－0.464，平均筆畫的相關(guān)度為0.257。數(shù)據(jù)顯示，總字?jǐn)?shù)、字種數(shù)、平均字頻與文本難度級別有著很高的相關(guān)性，而漢字的平均筆畫與文本難度級別的相關(guān)性最小。

（二）詞匯層面

本文從文字、詞匯、句子、篇章四個層面，來挖掘與文本閱讀難度有關(guān)的語言特征因素。首先利用Python工具對每篇課文進行統(tǒng)計，提取相關(guān)特征因素，并統(tǒng)計了每篇課文的相關(guān)指標(biāo)信息。具體如表2所示：

1.詞形分析

本文所設(shè)計的與詞形的相關(guān)因素，主要包括詞種數(shù)、平均詞長、平均詞頻、詞匯豐富度。其中，詞種數(shù)是指某一級別所有文本中所使用的詞語種類數(shù)量；平均詞長是指某一級別文本中使用的所有詞種的平均長度；平均詞頻是指某一級別文本中使用的所有詞種的平均詞頻值；詞匯豐富度是指文本中詞的多樣性。其計算公式是：K＝（a－1）/ln（s）。其中，K表示文本中詞的多樣性，a為詞種數(shù)，s為詞語總數(shù)。

生物學(xué)學(xué)科核心素養(yǎng)是學(xué)生在進行生物課程學(xué)習(xí)中逐漸內(nèi)化形成的品格和能力，初中生物課程教學(xué)中就要有意識地對學(xué)生進行核心素養(yǎng)的滲透內(nèi)化，以下以福建省生物統(tǒng)考試題為例進行分析。

我們對這四項指標(biāo)進行了統(tǒng)計分析，具體結(jié)果如圖2所示：

從圖2可以看出，隨著難度級別的提升，詞種數(shù)、詞匯豐富度隨之增加，平均詞頻則逐步降低，變化趨勢較為明顯。平均詞長的整體變化幅度較小，從一年級到四年級呈線性增長，四年級到五年級逐漸下降，五年級到六年級趨于穩(wěn)定。其中，小學(xué)一年級的平均詞長最短，為1.760；小學(xué)四年級的最長，為1.881。在平均詞頻方面，以蘇教版為例，小學(xué)一年級最高，為0.1183；小學(xué)五年級最低，為0.0424。

水的問題解決了，就抓住了擺脫貧困的牛鼻子！省水利廳供水排水處處長石生新表示，飲水安全工程建成后，解放了農(nóng)村大量勞動力，促進了勞務(wù)經(jīng)濟的發(fā)展壯大。同時，帶動了農(nóng)民種養(yǎng)結(jié)構(gòu)調(diào)整，加快了脫貧致富步伐。

在詞性層面，我們主要統(tǒng)計了課文中所有詞語的詞性分布比例。在對詞語進行詞性標(biāo)注時，主要采用的是北京大學(xué)現(xiàn)代漢語語料庫的標(biāo)記集

，共包含名詞、動詞、形容詞等24種不同詞性標(biāo)記。這里需要說明的是，本文將其中的介詞、連詞、代詞歸于篇章層面。我們統(tǒng)計了各類詞性與難度級別之間的相關(guān)關(guān)系，具體如表3所示：

我們還計算了難度級別與這四項指標(biāo)的Spearman相關(guān)系數(shù)。其中，詞種數(shù)的相關(guān)系數(shù)為0.706，平均詞頻的相關(guān)系數(shù)為－0.535，平均詞長的相關(guān)系數(shù)為0.219，詞匯豐富度的相關(guān)系數(shù)為0.720。由此可知，在詞形層面，詞種數(shù)、平均詞頻、詞匯豐富度均與難度級別有著較高的相關(guān)性。

五六年級的孩子已開始步入青春期，開始對異性有一些朦朦朧朧的感覺。這說明孩子長大了，對自己的性別有了認(rèn)同，對異性也產(chǎn)生了認(rèn)識欲望，這是很正常的事。但我認(rèn)為“談戀愛”三個字用在他們身上還不合適，頂多就是對異性的一種好感，一種認(rèn)同。該如何疏導(dǎo)呢？說重了，怕給他們造成心理陰影，說輕了，反而使他們對異性更加好奇，說不定，還會影響其他孩子。思前想后，我決定從小雨身上找突破口。

在上文統(tǒng)計分析的基礎(chǔ)上，我們又過濾掉了Spearman相關(guān)系數(shù)低于0.4的影響因素，最終保留了3種漢字相關(guān)因素：總字?jǐn)?shù)、字種數(shù)、平均字頻；3種詞匯相關(guān)因素：詞種數(shù)、平均詞頻、詞匯豐富度；2種句子相關(guān)因素：句子數(shù)、分句數(shù)；1種篇章相關(guān)因素：連詞比例。然后，在這些指標(biāo)的基礎(chǔ)上，我們對人教版、蘇教版、北師大版的小學(xué)語文教材進行對比分析。

水庫擁有土地、山林、水面等豐富的資源，還有供水、供電等資產(chǎn)，要將資源和資產(chǎn)優(yōu)勢轉(zhuǎn)化為經(jīng)濟優(yōu)勢，必須盤活存量資產(chǎn)，推進產(chǎn)權(quán)制度改革。一是組建股份制公司，按水庫供水、發(fā)電、旅游等興利項目組建股份制公司，將其推向市場。二是開展租賃經(jīng)營和承包經(jīng)營，水庫的土地、山林、水面、房產(chǎn)、設(shè)備可由個人或集體租賃或承包經(jīng)營。三是轉(zhuǎn)讓使用權(quán)，把水庫部分資源或資產(chǎn)在一定期限內(nèi)的使用權(quán)公開有償出讓。四是聯(lián)合經(jīng)營，本著優(yōu)勢互補、利益共享的原則，在自愿的基礎(chǔ)上，相近或同一流域的水庫在供水、供電、旅游等項目上實行多種形式的聯(lián)合經(jīng)營、合作經(jīng)營，以增加效益。

從表3可以看出，詞性與文本難度等級的相關(guān)性整體偏低。其中，難度級別與連詞、處所詞、慣用語等詞類的相關(guān)系數(shù)均在0.3以上，隨著難度級別的升高，文本中這些詞語的占比也逐漸增加。

數(shù)據(jù)顯示，一年級的句子數(shù)（1101）、分句數(shù)（2490）、平均句長（17.477）、句長變化度（6.532）都是最低的，句子重復(fù)率（0.007）則最高。這說明小學(xué)一年級的課文篇幅較短，句式簡單，重復(fù)率高。隨著年級的升高，課文篇幅也有所增加，其中，小學(xué)四年級課文的句長變化度（13.900）最高，小學(xué)四年級的平均句長（24.972）最長，小學(xué)六年級的句子數(shù)（5526）、分句數(shù)（14080）最多。

在詞義層面，本文主要借鑒了《同義詞詞林》的分類體系

，對每個詞語的語義類型進行劃分。此書由梅家駒等于1983年編撰，之后，哈爾濱工業(yè)大學(xué)信息檢索實驗室又對它進行了細(xì)化和補充，推出了同義詞詞林?jǐn)U展版，共收錄詞語七萬多條。我們首先將語義劃分為人、物、時空、抽象、特征、動作、心理、活動、狀態(tài)、關(guān)聯(lián)、助語、敬語等12類，并把文本中的相關(guān)詞語歸入到這12個語義類中。然后，對不同級別文本中的詞義類分布情況進行統(tǒng)計，并計算出難度級別與所有詞義因素的Spearman相關(guān)系數(shù)。具體結(jié)果如表4所示：

從表4可以看出，難度級別與“抽象”“關(guān)聯(lián)”等語義類相關(guān)度較高。在小學(xué)學(xué)習(xí)階段，抽象概念類名詞的占比隨著年級的增長而增加，具體事物類名詞的占比則逐步下降，這遵循了小學(xué)學(xué)生認(rèn)知發(fā)展從具體到抽象的客觀規(guī)律?！瓣P(guān)聯(lián)”類詞語主要用于表達事物之間的聯(lián)系，在一定程度上增加了文本的復(fù)雜性。

改進LeNet-5模型所得到的CNN-4C模型各層具體的的卷積池化范圍特征圖矩陣大小以及特征圖個數(shù)如表4所示。

（三）句子層面

句子是表達意義、傳遞情感的最基本的語言單位，與閱讀難度高度相關(guān)。在句子層面，我們共設(shè)計了5項指標(biāo)，它們分別是：句子數(shù)、分句數(shù)、平均句長、句長變化度、句子重復(fù)率。其中，這里的句子數(shù)是指以句號、感嘆號、問號、省略號結(jié)尾的句子的數(shù)量；分句數(shù)是指以逗號、分號等分割的句子的數(shù)量；平均句長則是指文本中句子的平均字符數(shù)。

對白藜蘆醇DPPC脂質(zhì)粉霧劑進行的體外肺部沉積研究結(jié)果表明，甘露醇與DPPC質(zhì)量比為2∶1時，制備得到的粉霧劑具有優(yōu)良的粉末性質(zhì)，有助于藥物在肺內(nèi)不同部位的沉積。在60 L/min氣流速度條件下，接收盤2～7級藥物肺部沉積率為28.1%，明顯優(yōu)于原料藥（13.3%）。分析原因，可能由于原料藥多為晶體結(jié)構(gòu)相互吸附，流動性欠佳，易于聚集。最優(yōu)處方制備的白藜蘆醇DPPC脂質(zhì)粉霧劑更能滿足吸入顆粒的要求，易沉積在肺深部。

句長變化度反映了文本中句子長度的變化情況，它是文本中所有句子長度的標(biāo)準(zhǔn)方差值。其計算公式是：

句子重復(fù)率是指某一文檔中相鄰句子之間詞語的重復(fù)比例，其計算公式是：

句子層面的指標(biāo)與難度級別之間的關(guān)系，可如圖3所示（見下頁）：

3.詞義分析

我們還計算了難度級別與上述因素的Spearman相關(guān)系數(shù)，具體結(jié)果如表5所示：

現(xiàn)代翻譯學(xué)中等值或者說對等理論是一重要的思想。諸多西方翻譯理論家都在探討翻譯等值問題。當(dāng)提及等值之時，并不是指本體論上的絕對等同，而是認(rèn)識論上的等值，也就是說，在認(rèn)識事物的實踐中是等值的。

從表5可以看出，在句子層面，分句數(shù)、句子數(shù)與難度級別之間的相關(guān)性最高，句子重復(fù)率與難度級別的相關(guān)性最低。

（四）篇章層面

可以說，篇章在文本難度分析中最容易被忽略。實際上，篇章的段落組織方式、主題緊密程度、句間和段落間的銜接連貫等，都會對文本的理解難度產(chǎn)生影響。Graesser等從敘事性、指代銜接和深層銜接三個維度，闡述了它們與篇章難度的關(guān)系

。Sung等從指代、連接和隱喻三個方面，對文本的銜接程度進行衡量，其中，指代、連接分別是通過統(tǒng)計文本中代詞和連詞的數(shù)量來量化的

?；谏鲜鲅芯?，我們在篇章層面設(shè)計了連詞比例、代詞比例、介詞比例三個指標(biāo)。在詞匯層面對詞性進行分析時，已經(jīng)得出代詞、連詞、介詞與難度等級之間的相關(guān)性分別為0.132、0.428、－0.131。由此可知，在篇章層面，連詞比例對文本難度的影響是比較高的。具體可如圖4所示：

四、教材文本易讀性對比分析

2.詞性分析

就如何安排、設(shè)計針對學(xué)生、家長和教師的正確激勵機制，以實現(xiàn)學(xué)習(xí)成績最優(yōu)化問題。Hanushek et al(2003)在教育的同伴效應(yīng)研究中指出經(jīng)濟機制起著重要作用[24]。有大量證據(jù)證實學(xué)生學(xué)習(xí)成績受他們同伴影響，學(xué)生成績依賴于對其他人行為的研究(不僅僅是他們的個性特性和社會背景)，這會導(dǎo)致個人最優(yōu)行為和群體最優(yōu)行為之間的差異，這一問題至今沒有被分析。