王進(jìn)+周慧+羅國(guó)峰+顧翔
摘 要: 圖書閱讀難度自動(dòng)分級(jí)系統(tǒng)能夠幫助兒童讀者快速找到適合自己認(rèn)知水平的圖書。文章基于圖書句子難度和字難度兩個(gè)維度,建立了一個(gè)圖書難度分級(jí)模型,并開發(fā)出對(duì)應(yīng)的圖書閱讀難度自動(dòng)分級(jí)系統(tǒng)。利用該系統(tǒng)對(duì)常見的兒童圖書進(jìn)行了測(cè)試,初步實(shí)驗(yàn)表明:從圖書中隨機(jī)選取字?jǐn)?shù)達(dá)到2500-3000字時(shí),圖書閱讀難度分級(jí)算法測(cè)試結(jié)果誤差較小,綜合使用字難度和句子難度的分級(jí)算法比單純字難度分級(jí)算法和單純句子難度分級(jí)算法的效果更好。該系統(tǒng)目前僅限于白話文圖書應(yīng)用。
關(guān)鍵詞: 分級(jí)閱讀; 句子難度; 字難度; 漢字常用字詞庫(kù)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)08-01-05
Abstract: The automatic grading system of reading difficulty degree can help children find books that are suitable for their own cognitive level. Based on the two dimensions of sentence difficulty and word difficulty, this paper establishes a hierarchical model of reading difficulty degree, and develops an automatic grading system of reading difficulty degree. The common children's books are tested by this system, preliminary experiments show that when the randomly selected books with words up to 2500-3000, the grading algorithm of reading difficulty degree results in less errors, and the grading algorithm using both sentence difficulty and word difficulty has a better result than that only using sentence difficulty or word difficulty. The system is currently limited to the books of using vernacular.
Key words: graded reading; the sentence difficulty; the word difficulty; Chinese characters commonly used thesaurus
0 引言
2011年8月國(guó)務(wù)院制定的《中國(guó)兒童發(fā)展綱要(2011-2020)》[1]首次明確提出“推廣面向兒童的圖書分級(jí)制”,為不同年齡兒童提供適合其年齡特點(diǎn)的圖書。圖書分級(jí)閱讀[2]是指從少兒的年齡特征、思維特征、社會(huì)化特征出發(fā),根據(jù)閱讀者不同年齡段的智力和心理發(fā)育程度,有針對(duì)性地為不同閱讀能力的孩子提供合適的圖書,為讀者提供科學(xué)的閱讀計(jì)劃。
孩子的閱讀熱情可能因不能閱讀到合適的圖書而降低[3]。兒童在不同成長(zhǎng)期的閱讀興趣和閱讀發(fā)展有很大的變化,如何實(shí)現(xiàn)圖書分級(jí)閱讀以滿足孩子不同的閱讀需求已經(jīng)成為一個(gè)亟待解決的問題[4]。
近年來一些國(guó)內(nèi)出版社已經(jīng)開始為兒童圖書做分級(jí)標(biāo)引,按照不同年齡段孩子的需要,重新編輯、出版一些作家的作品。但這種分級(jí)方法不但需要耗費(fèi)大量的人力財(cái)力,還要花費(fèi)大量的時(shí)間[5]。由于信息時(shí)代新書增長(zhǎng)速度越來越快,傳統(tǒng)的圖書分級(jí)方法已經(jīng)捉襟見肘,不能滿足兒童迫切的閱讀分級(jí)需求。因此,圖書自動(dòng)分級(jí)研究具有重要的現(xiàn)實(shí)意義[6]。
與西方發(fā)達(dá)國(guó)家相比,國(guó)內(nèi)的圖書分級(jí)閱讀還不成熟[7-8]。中文圖書分級(jí)閱讀,需要學(xué)習(xí)國(guó)外的圖書分級(jí)理論與實(shí)踐成果,但由于歐美語系與漢語差異很大,針對(duì)其英文開發(fā)的分級(jí)系統(tǒng)并不適用于中文圖書。因此,要促進(jìn)國(guó)內(nèi)分級(jí)閱讀的推廣,需要研究一種針對(duì)中文圖書的分類方法。
本研究是以圖書分級(jí)閱讀為背景,研究圖書閱讀難度分級(jí)技術(shù),通過抽取圖書的自然語言特征,結(jié)合兒童認(rèn)知發(fā)展規(guī)則,建立一套中文圖書閱讀難度分級(jí)模型,并實(shí)現(xiàn)一個(gè)可以在線測(cè)試圖書的閱讀難度分級(jí)系統(tǒng),為兒童分級(jí)閱讀提供服務(wù)。
1 圖書分級(jí)閱讀標(biāo)準(zhǔn)
歐美比較常見的分級(jí)閱讀標(biāo)準(zhǔn)有兩種。一種是A—Z分級(jí)閱讀標(biāo)準(zhǔn)(Guided Reading Level),是一種指導(dǎo)型的閱讀方式,把圖書由易到難分成A—Z 26個(gè)級(jí)別。它是由凡塔斯和皮內(nèi)爾兩位閱讀專家開發(fā)的一套圖書分級(jí)系統(tǒng)。其原理是把全文詞匯數(shù)量、單詞數(shù)量、高頻詞匯數(shù)量與比例、低頻詞匯數(shù)量與比例、句子長(zhǎng)度、句子復(fù)雜度、明晰度、句式、內(nèi)容深度、主體熟悉度等作為分級(jí)因子,利用電腦自動(dòng)分析,但其中的圖例、句子復(fù)雜度、思想內(nèi)涵等主觀因素則靠閱讀專家進(jìn)行分析。A-Z法是一個(gè)應(yīng)用較廣泛的分級(jí)方法,被很多數(shù)據(jù)庫(kù)所采用。
第二個(gè)分級(jí)標(biāo)準(zhǔn),就是藍(lán)思(Lexile)分級(jí)系統(tǒng)[9],藍(lán)思是衡量讀者閱讀水平和標(biāo)識(shí)出版物難易程度時(shí)使用的單位。簡(jiǎn)單來說,一個(gè)藍(lán)思(Lexile)是一個(gè)難度單位,讀懂一本初級(jí)低幼讀物與讀懂一本百科全書之間差距的千分之一被定義為1個(gè)Lexile,藍(lán)思最高分值為1700L。藍(lán)思有一套閱讀水準(zhǔn)測(cè)評(píng)系統(tǒng),包括詞匯、閱讀理解、熟練程度及寫作幾個(gè)部分的考核,兒童可以先對(duì)自己閱讀水平進(jìn)行測(cè)試,得到一個(gè)分值,然后選擇相同分值的書籍。我國(guó)尚未形成出版社以外的第三方研究機(jī)構(gòu)指定的權(quán)威性分布標(biāo)準(zhǔn),2009年南方分級(jí)閱讀研究中心推出“兩個(gè)標(biāo)準(zhǔn)”后,還計(jì)劃根據(jù)國(guó)際上流行的方法推出“兒童青少年分級(jí)閱讀評(píng)價(jià)方法”。2009年接力兒童分級(jí)閱讀研究中心推出了“分級(jí)閱讀參考書目”,它在參考了國(guó)內(nèi)外各種推薦書目以及頂級(jí)兒童文學(xué)獎(jiǎng)項(xiàng)的基礎(chǔ)上,精選出首批200種兒童分級(jí)閱讀參考書目。國(guó)內(nèi)的分級(jí)標(biāo)準(zhǔn)存在一些弱點(diǎn),如:分級(jí)標(biāo)準(zhǔn)不夠本地化、難以快速推廣等。
2 基于自然語言處理的圖書分級(jí)模型
圖書閱讀難度是基于自然語言處理[10]的研究,其主要研究圖書字、詞、語義、語法等因素對(duì)圖書閱讀理解的影響。本課題使用的是圖書句子難度[11]和圖書字難度兩個(gè)特征。
與英語單詞之間有空格不同,中文文本的處理需要首先進(jìn)行分詞。中文分詞技術(shù)是將句子按照一定漢語序列分成一個(gè)一個(gè)單獨(dú)的且有意義的詞組。本課題采用的分詞器是IKAnalyzer分詞技術(shù)[12],能夠較好地支持中英文、日期、羅馬數(shù)字等的分詞。
2.1 圖書字難度
2013年6月5號(hào)國(guó)務(wù)院公開發(fā)布《通用規(guī)范漢字表》,其中一級(jí)字表收用了3500個(gè)常用漢字表[13],我們根據(jù)其使用頻率的高低依次分為五個(gè)等級(jí),建立起幾個(gè)字難度(該字在常用漢字中使用頻率[14])依次遞增的字庫(kù)。各級(jí)字頻庫(kù)信息如表1所示。
圖書閱讀分級(jí)系統(tǒng)計(jì)算圖書字難度時(shí),先把圖書拆分為單個(gè)字符,再到五個(gè)字頻庫(kù)中依次匹配,在某級(jí)字庫(kù)中匹配到則乘以該字庫(kù)難度系數(shù)。如果五個(gè)常用字頻庫(kù)中都沒有包含該字符,則自動(dòng)建立一個(gè)新字頻庫(kù),命名為六級(jí)字頻庫(kù),難度系數(shù)賦值為6,并把該字符歸結(jié)入這個(gè)新的字頻庫(kù)。
2.1.1 圖書字難度算法設(shè)計(jì)
圖書字難度算法公式的設(shè)計(jì)是基于常用漢字字頻庫(kù)來實(shí)現(xiàn)的,圖書字難度與圖書的字總數(shù)無關(guān),與圖書中陌生漢字成正相關(guān),與圖書中出現(xiàn)頻率較高的漢字成負(fù)相關(guān)。因此設(shè)計(jì)圖書字難度算法模型如下:
其中,
WD:圖書字難度;
WF:圖書中某個(gè)中文字符出現(xiàn)的頻數(shù);
L:常用漢字字符難度,級(jí)別分別為1、2、3、4、5、6;
WN:過濾掉StopWord后的圖書字符數(shù)。
根據(jù)建立好的常用漢字字頻庫(kù),把圖書拆分為單個(gè)字符,統(tǒng)計(jì)其中每個(gè)漢字出現(xiàn)的頻數(shù),帶入字難度計(jì)算公式得出圖書字難度值。其過程如下:第一,過濾掉圖書中StopWord和標(biāo)點(diǎn)字符并保存到新文檔中;第二,拆分過濾后的圖書為單個(gè)字符并統(tǒng)計(jì)字頻數(shù);第三,每個(gè)字符逐一從六個(gè)難度依次遞增的常用漢字字頻庫(kù)中匹配,匹配到之后用字符頻數(shù)乘以該字符所在字頻庫(kù)級(jí)別即(WF*L)。
2.2 圖書句子難度
閱讀難度高的句子特征:句子長(zhǎng)度過長(zhǎng)(包含中文字符過多);包含多個(gè)陌生詞組;包含多個(gè)陌生短語;句子語法冗余;包含多個(gè)多義詞等。相對(duì)長(zhǎng)句而言,短句理解就相對(duì)容易得多,最短的句子可能就幾個(gè)字,這樣的句子沒有研究的意義,在后期句子難度的計(jì)算中將作為過濾對(duì)象。對(duì)文章的理解是在對(duì)字、詞理解的基礎(chǔ)上串聯(lián)而來,本研究中句子難度主要從句子長(zhǎng)度、包含詞組數(shù)和短語數(shù)以及詞組和短語屬于幾級(jí)詞匯表來計(jì)算評(píng)估,不涉及到語法功能和語義功能。例如:
A.喝酒就不能開車不然會(huì)很危險(xiǎn)。
B.現(xiàn)在放學(xué)了。
C.今天下午開始進(jìn)行畢業(yè)答辯了我想你應(yīng)該準(zhǔn)備得很充分了吧。
D.干嘛呢,討厭。
從以上四句話中我們很直觀得出四句話從難到易依次為C、A、D、B,從句子中的詞組量多到少的排序也是C、A、D、B。
句子難度的計(jì)算需要建立詞組庫(kù),將常用詞組劃分為甲、乙、丙,分別代表三個(gè)級(jí)別的詞匯庫(kù),在此劃分為兒童讀物常用詞匯、青少年讀物常用詞匯、成年讀物常用詞匯,各級(jí)詞組庫(kù)如表2所示。
在測(cè)試圖書句子難度時(shí),需要對(duì)整篇文章過濾掉一些沒有意義的句子(只包含幾個(gè)字符的句子),并以“。?!”為分割標(biāo)志,拆分為單個(gè)句子,分別計(jì)算出每個(gè)句子的難度值,最后計(jì)算出一個(gè)平均值表示這篇文章的句子難度值。
初步設(shè)計(jì)圖書句子難度的模型為:
圖書句子難度=句子長(zhǎng)度+詞組因素
該模型選擇三個(gè)因素,分別為句子包含字符數(shù)(即句子長(zhǎng)度)、詞組總數(shù)、所包含的甲乙丙三個(gè)等級(jí)詞匯量。其中,甲乙丙三個(gè)等級(jí)詞匯對(duì)圖書的分級(jí)起到很重要的作用。最終得到句子難度度量公式為:
其中:
SD:圖書句子難度。
SL:句子長(zhǎng)度。
PN:句子中包含詞組數(shù)量。
LN:句子中詞匯的等級(jí)值之和。
λ:詞難度系數(shù)在字、詞、語法三個(gè)層面的難度選擇的比例,λ1選擇取1,λ2取5.625,λ1,λ2的取值引用文獻(xiàn)[]的句子難度初步公式。
SN:過濾掉簡(jiǎn)單句子后的圖書句子總數(shù)。
SD的值越大,句子閱讀難度也較大。原因可能是句子長(zhǎng)度過長(zhǎng),句子包含詞匯量和乙丙級(jí)詞匯較多。
3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
本課題從圖書字難度和句子難度兩個(gè)維度來測(cè)評(píng)圖書閱讀難度值。結(jié)合常用字頻庫(kù)和詞頻庫(kù)將圖書拆分為單個(gè)字和詞組來分析,計(jì)算出圖書字難度和句子難度并把兩個(gè)系數(shù)作為參考量,最后帶入閱讀難度公式得到一個(gè)較為可靠有效的圖書閱讀難度分?jǐn)?shù)。
具體分級(jí)系統(tǒng)模塊流程圖如圖1所示。其中,待測(cè)圖書是一本txt格式的圖書,StopWord[15]是圖書中需要過濾的停止詞,字頻匹配計(jì)算是從建立的字難度依次遞增的六級(jí)字庫(kù)中逐一匹配出該字符并得出字符難度值,詞頻匹配計(jì)算是從建立的詞難度依次遞增的三級(jí)詞庫(kù)中逐一匹配出該詞組并得出該詞組難度值。
系統(tǒng)的要點(diǎn)分析如下。
⑴ 下載漢字常用字頻庫(kù),由3500個(gè)常用中文漢字組成。并依據(jù)漢字出現(xiàn)頻率高低把其分為五個(gè)等級(jí)的字頻庫(kù),依次為一級(jí)字頻庫(kù)、二級(jí)字頻庫(kù)、三級(jí)字頻庫(kù)、四級(jí)字頻庫(kù)、五級(jí)字頻庫(kù),作為評(píng)估圖書字難度系數(shù)的參考標(biāo)準(zhǔn)。
⑵ 建立三個(gè)詞難度依次遞增的常用漢字詞組庫(kù),作為評(píng)估句子難度的參考標(biāo)準(zhǔn)。
⑶ 構(gòu)造出兩個(gè)過濾類,并建立StopWord字庫(kù)和StopWordGroup詞組庫(kù)過濾圖書中停止詞和停止詞組。如:“的”、“地”、“得”、“哎呀”、“好啊”等。
⑷ 結(jié)合常用漢字字頻庫(kù)與常用中文詞組庫(kù),設(shè)計(jì)圖書字難度算法公式和圖書句子難度公式,用來計(jì)算圖書的字難度系數(shù)和句子難度系數(shù)。
⑸ 最后通過圖書字難度系數(shù)和句子難度系數(shù)兩個(gè)變量,帶入圖書閱讀難度公式計(jì)算得出最終閱讀難度系數(shù)。
該系統(tǒng)在測(cè)試時(shí)只選擇圖書中某頁或某幾頁的內(nèi)容參與測(cè)試,測(cè)評(píng)出的分?jǐn)?shù)只能作為一個(gè)參考不能作為一個(gè)定性指標(biāo)。
3.1 圖書閱讀難度分級(jí)算法設(shè)計(jì)與實(shí)現(xiàn)
在字難度和句子難度都已經(jīng)確定的情況下,可以設(shè)計(jì)最終的圖書閱讀難度分級(jí)算法,本文設(shè)計(jì)的算法模型如下:
其中,RD為圖書閱讀難度值;WD為圖書字難度值;SD為圖書句子難度值;α為圖書字難度系數(shù);β為圖書句子難度系數(shù)。
α與β是由經(jīng)驗(yàn)確定兩個(gè)參數(shù),在后期圖書閱讀難度對(duì)比實(shí)驗(yàn)組中得出當(dāng)α和β取值為0.5時(shí)得出的圖書閱讀難度值更加接近人工圖書評(píng)分。即RD=0.5*WD+0.5*SD。
4 圖書閱讀難度分級(jí)系統(tǒng)評(píng)測(cè)
4.1 系統(tǒng)對(duì)比試驗(yàn)分析與改進(jìn)
4.1.1 圖書閱讀難度分級(jí)系統(tǒng)算法對(duì)比試驗(yàn)
根據(jù)圖書閱讀難度值的公式模型:RD=α*WD+β*SD,我們可以看出圖書閱讀難度值是一個(gè)線性分布的點(diǎn),那其中α和β兩個(gè)系數(shù)該如何賦值,即是否偏重于圖書句子難度或者圖書字難度呢?我們?cè)O(shè)計(jì)了三種算法:算法1混合使用字難度和句子難度,其α=β=0.5;算法2偏重于句子難度,α=0,β=1;算法3偏重于字難度,α=1,β=0。實(shí)驗(yàn)以人工專家評(píng)分值為參考標(biāo)準(zhǔn),將本系統(tǒng)計(jì)算的圖書閱讀難度結(jié)果與之對(duì)比,算出不同圖書分級(jí)算法與人工評(píng)分的誤差值。誤差定義為:不同系統(tǒng)測(cè)評(píng)算法的評(píng)分值與人工測(cè)評(píng)的評(píng)分值的差絕對(duì)值的加權(quán)平均值。即:
實(shí)驗(yàn)數(shù)據(jù)如圖2所示。
從三組對(duì)比試驗(yàn)數(shù)據(jù)可以明顯看出:只有當(dāng)圖書閱讀難度計(jì)算模型中圖書字難度和句子難度系數(shù)取值相等,即圖書閱讀難度計(jì)算既不側(cè)重于圖書句子難度,也不側(cè)重于圖書字難度時(shí),得到的結(jié)果更加接近人工專家的評(píng)分。
4.1.2 圖書字?jǐn)?shù)試驗(yàn)
測(cè)試圖書時(shí),僅抽取圖書中部分內(nèi)容測(cè)試,用該結(jié)果近似表示該圖書的閱讀難度。進(jìn)行不同數(shù)量的字?jǐn)?shù)抽取,評(píng)分結(jié)果存在差異,實(shí)驗(yàn)結(jié)果如圖3所示。
通過對(duì)比實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn):當(dāng)圖書類型和圖書閱讀難度算法固定不變時(shí),從同一本書中抽取不同數(shù)字的圖書內(nèi)容進(jìn)行測(cè)試,測(cè)試結(jié)果差異很大。隨著抽檢字?jǐn)?shù)增加,誤差逐漸收斂。試驗(yàn)數(shù)據(jù)顯示當(dāng)測(cè)試圖書字?jǐn)?shù)在2500-3000時(shí),得到的圖書閱讀難度值與專家評(píng)分更接近,即測(cè)試出的圖書閱讀難度更準(zhǔn)確。
4.1.3 圖書類型試驗(yàn)
通過測(cè)試不同類型的圖書,來探索本圖書閱讀難度分級(jí)系統(tǒng)是否能測(cè)評(píng)所有類型的圖書,我們?cè)O(shè)計(jì)幾組針對(duì)不同圖書類型測(cè)評(píng)的對(duì)比實(shí)驗(yàn)。見圖4。
在本次對(duì)比試驗(yàn)中,抽取測(cè)試的圖書字?jǐn)?shù)和進(jìn)行計(jì)算的圖書閱讀難度公式模型為定量,以不同類型圖書參與測(cè)試。從實(shí)驗(yàn)數(shù)據(jù)得出本系統(tǒng)在測(cè)評(píng)文言文類型的文章時(shí)會(huì)出現(xiàn)很大的誤差。因此本圖書閱讀難度分級(jí)系統(tǒng)是以現(xiàn)代白話文為研究對(duì)象,測(cè)評(píng)出的分?jǐn)?shù)才較為準(zhǔn)確。
5 結(jié)束語
通過圖書句子難度和字難度兩個(gè)參數(shù)的分析與計(jì)算,通過IKAnalyzer分詞技術(shù)和自行設(shè)計(jì)建立的字、詞庫(kù)可以實(shí)現(xiàn)圖書字難度與句子難度的計(jì)算,以Eclipse開發(fā)軟件為平臺(tái),能夠?qū)崿F(xiàn)圖書閱讀難度分級(jí)系統(tǒng)。為了使系統(tǒng)測(cè)評(píng)的結(jié)果更加具有說服力,使用幾十本不同類型的圖書做對(duì)比實(shí)驗(yàn)。結(jié)果表明:采用算法1(混合算法)針對(duì)測(cè)試字?jǐn)?shù)為2500至3000字的現(xiàn)代白話文類型的圖書,本文圖書閱讀難度自動(dòng)分級(jí)系統(tǒng)可以達(dá)到與人工對(duì)圖書難度的測(cè)評(píng)接近的水平。該系統(tǒng)應(yīng)用在圖書館,為兒童快速選擇適合的圖書提供了便利。
參考文獻(xiàn)(References):
[1] 國(guó)務(wù)院.中國(guó)兒童發(fā)展綱要(2011-2020年)[EB/OL].(2011)[2017-03-17].http://www.ccc.org.cn/html/Home/report/1076-1.htm.
[2] 白冰.少年兒童分級(jí)閱讀及其研究[J].出版發(fā)行研究,2009.9:16-18
[3] 王新利.我國(guó)兒童分級(jí)閱讀存在的問題及對(duì)策[J].圖書館,2012.2:114-116
[4] 詹莉波,尤建忠.兒童圖書“分級(jí)閱讀”在我國(guó)的生存現(xiàn)狀與問題研究[J].中國(guó)圖書評(píng)論,2010.6:114-118
[5] 吳亮芳,李建紅.分級(jí)閱讀推廣的尷尬與出路[J].出版發(fā)行研究,2010.10:15-18
[6] 尤建忠.新世紀(jì)中國(guó)兒童分級(jí)閱讀的發(fā)展現(xiàn)狀與前景[J].出版廣角,2011.2011.6:8-11
[7] 孫南南.美國(guó)分級(jí)閱讀教育體系探究[J].沈陽師范大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2011.35(3):48-50
[8] 王曄.英美兩國(guó)兒童分級(jí)閱讀對(duì)我國(guó)的啟示[J].現(xiàn)代情報(bào),2013.33(12):95-98
[9] STENNER A J. Measuring Reading Comprehension with the Lexile Framework[J],1996.
[10] 成慶宗.統(tǒng)計(jì)自然語言處理[M].清華大學(xué)出版社,2008.
[11] 江少敏.句子難度度量研究[D].廈門大學(xué)碩士學(xué)位論文,2009.
[12] HONG C. Research on Chinese segmentation algorithm based on Hadoop cloud platform[C]//Information Technology and Mechatronics Engineering Conference,2015.
[13] 江銘虎.自然語言處理[M].高等教育出版社, 2006.
[14] 高定國(guó),鐘毅平,曾鈴娟.字頻影響常用漢字認(rèn)知速度的實(shí)驗(yàn)研究[J].心理科學(xué),1995.4:225-229
[15] YAO Z, ZE-WEN C. Research on the construction and filter method of stop-word list in text preprocessing[C]//2011 International Conference on Intelligent Computation Technology and Automation (ICICTA). IEEE,2011:217-221