郭 娜,趙向軍
(1.江蘇師范大學(xué) 信息化建設(shè)與管理處,江蘇 徐州 221116;2.南京曉莊學(xué)院,江蘇 南京 210017)
教學(xué)是學(xué)校教育的核心,教材是教學(xué)的主要依據(jù),是師生相互作用的橋梁,更是學(xué)生吸收科學(xué)文化知識(shí)、啟迪智慧、培養(yǎng)能力的源泉.其中,語文教材肩負(fù)著傳播文化知識(shí)和培養(yǎng)學(xué)生語言能力的重任,開發(fā)和利用豐富多彩的語文課程資源是充實(shí)課程內(nèi)容,提高教學(xué)質(zhì)量的關(guān)鍵.
雖然計(jì)算機(jī)技術(shù)及眾多相關(guān)應(yīng)用已普及教育領(lǐng)域,但關(guān)于教材選編的研究仍停留在理論方面,語文教材的選編工作也多選用人工收集、過濾和編排的方式.于是,一些問題隨之產(chǎn)生:(1)語文教材選編時(shí)間長(zhǎng),過程耗時(shí)耗力.(2)編寫一旦完成就難以改動(dòng),易導(dǎo)致內(nèi)容陳舊,缺乏時(shí)代感.(3)過于依賴人的經(jīng)驗(yàn),缺乏量化指標(biāo)的參與.在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)上的漢語言教學(xué)素材不斷涌現(xiàn),為素材需求者提供了豐富的資源.如若充分利用這些海量教學(xué)素材,定時(shí)更新學(xué)生使用的語文教材,有益于增強(qiáng)教材內(nèi)容的時(shí)代感.但不可避免的是,急劇增的教學(xué)素材也誘發(fā)了資源過載問題,如何從豐富的文本類漢語言教學(xué)素材中,依據(jù)規(guī)范的準(zhǔn)則,設(shè)計(jì)自動(dòng)化或半自動(dòng)化的推薦方法,快速挑選出優(yōu)質(zhì)的教學(xué)素材是一個(gè)值得研究的問題.
為此,本文廣泛收集學(xué)生經(jīng)典讀物,通過分詞、詞頻統(tǒng)計(jì)、詞量化和文檔量化等操作形成文本庫.同時(shí),分析教材選文依據(jù),設(shè)計(jì)選文推薦算法,保證語文教材在詞匯上具有連續(xù)性、順序性、重復(fù)性和整體性特征.
文本類教學(xué)素材在計(jì)算機(jī)領(lǐng)域被稱為文檔,要想讓計(jì)算機(jī)高效地處理文檔,就必須設(shè)計(jì)出一種理想的文檔表示方法,這個(gè)設(shè)計(jì)過程被稱為文檔建模.文檔建模既要能真實(shí)地反映文檔的內(nèi)容,又要能區(qū)分不同文檔.
詞的向量化是文檔量化表示的前提.詞的向量化是將自然語言中的詞映射成向量,主要有2種表示方式:第一種是one-hot representation方式.第二種是Distributed representation方式,最早由Hinton[1]提出.分布式表示是將詞匯量化到一個(gè)維數(shù)固定的實(shí)數(shù)空間中,相對(duì)于第一種表示方式,該空間中的詞向量具有低維、密集的特點(diǎn).對(duì)于語義越相近的詞匯,其在向量空間中的距離也相對(duì)接近,很好地克服了one-hot representation方式的缺陷.
獲取Distributed representation形式的詞向量的方法有很多,包括LSA、LDA 、神經(jīng)網(wǎng)絡(luò)和word2vec工具等.其中,由google在2013年提出的word2vec工具因具有良好的量化效果而被廣泛使用.Word2vec是由Mikolov通過借鑒NNLM(Neural Network Language Model)[2]以及Log_linear模型[3]提出的,它利用詞的上下文信息將一個(gè)詞轉(zhuǎn)化成一個(gè)低維實(shí)數(shù)向量,具有高效便捷的特點(diǎn).Word2vec包含兩種不同的模型,其中CBOW模型的目標(biāo)是利用當(dāng)前詞語的上下文來預(yù)測(cè)當(dāng)前詞語的概率.當(dāng)利用詞向量表示一個(gè)詞時(shí),可以發(fā)現(xiàn)類似這樣的規(guī)律:“king”-“man”+“woman”=“queen”,由此說明了詞向量強(qiáng)大地表達(dá)語義的能力.
用于表示文檔的基本單位通常稱為文檔的特征或特征項(xiàng).目前中文文本量化多采用詞作為特征項(xiàng),稱作特征詞.用特征詞表示文檔,可計(jì)算文檔與文檔間的相似度,然而,如何選取文檔的最佳特征詞是量化文檔的關(guān)鍵點(diǎn).
本文采用文檔頻數(shù)法(Document Frequency,DF)進(jìn)行文檔特征選取.文檔頻數(shù)是最為簡(jiǎn)單的一種特征選擇算法,它指的是在整個(gè)數(shù)據(jù)集中有多少個(gè)文檔包含這個(gè)單詞.在訓(xùn)練文本集中對(duì)每個(gè)特征計(jì)算它的文檔頻數(shù),若該項(xiàng)的DF 值小于某個(gè)閾值則將其刪除,若其DF值大于某個(gè)閾值也將其去掉.
常用的文檔表示模型有詞袋模型(Bag of Word,BOW)[4]和向量空間模型(Vector Space Model,VSM)[5].在詞袋模型中,文檔被表示為一組詞匯的無序集合,詞匯之間相互獨(dú)立,特征維數(shù)較高,且忽略語法和語義信息.向量空間模型較為靈活,它以詞匯的統(tǒng)計(jì)信息作為特征權(quán)值,相對(duì)于詞袋模型來說,它所建模出的文檔向量的維度有所降低,但仍然無法處理文檔中詞匯的語義聯(lián)系.為此,本文基于詞向量提出了文檔的矩陣表示方法,矩陣中的行向量對(duì)應(yīng)文檔的特征詞,行與行的角距離表征了特征詞之間的某種聯(lián)系.該種表達(dá)方式充分利用了文檔中每個(gè)詞匯所表達(dá)的信息內(nèi)涵,利于挖掘文檔的語義關(guān)系.由前文介紹可知,通過訓(xùn)練word2vec模型獲得的詞向量不僅具有低維、稠密特性,還能夠充分表達(dá)詞語間的語義信息.所以,利用詞向量間的組合或運(yùn)算是量化表示文檔的有效方法之一.目前,關(guān)于這方面的研究進(jìn)展緩慢,常見的方法是對(duì)一篇文檔所包含的所有詞向量進(jìn)行求平均值[6]或?qū)υ~向量進(jìn)行聚類[7],但這兩種方法均未重視單個(gè)詞對(duì)整個(gè)文檔的影響力,同時(shí),前者在求平均之后,詞向量所表達(dá)的含義已經(jīng)喪失,利用平均詞向量表示文檔具有不合理性.本文將一篇精選文檔可表示為(W1,…,Wi,…,Wn),其中,Wi表示文檔的第i個(gè)特征項(xiàng),實(shí)際上為一詞向量,在詞向量表中可找到與之對(duì)應(yīng)的實(shí)際詞,n表示文檔包含的特征詞數(shù).利用該表示方法和合理的文檔距離度量公式,可挖掘包含相似詞匯的文檔.
詞匯是學(xué)生遣詞造句的基礎(chǔ),是閱讀與寫作的前提,教材中詞匯的編排是否科學(xué)直接關(guān)系著學(xué)生的學(xué)習(xí)效果.如果教材中包含過多超綱詞匯,文章將晦澀難懂,如果過于簡(jiǎn)單,文章又味如嚼蠟,只有一本詞匯編排合理的教材才能使語言學(xué)習(xí)事半功倍.
在[8]一文中,作者研究發(fā)現(xiàn),小學(xué)生認(rèn)知詞匯是一個(gè)循序漸進(jìn)的過程,我們應(yīng)了解學(xué)生習(xí)得詞語的規(guī)律,按照詞匯的順序選編教材,保證詞匯在教材整體上呈現(xiàn)連續(xù)性.詞頻是詞匯被使用的頻度,如果先導(dǎo)課文中包含過量的低頻詞匯,將不利于后繼課文的教學(xué),也不符合學(xué)生由淺入深的認(rèn)知規(guī)律.因此,按照詞匯頻度的大小設(shè)置學(xué)習(xí)詞匯的先后順序,保證高頻詞先學(xué),低頻詞后學(xué),是符合學(xué)生的認(rèn)知規(guī)律的一種體現(xiàn).
同時(shí),推薦選文應(yīng)實(shí)現(xiàn)相鄰選文間具有一定的重復(fù)詞匯,即當(dāng)前選文應(yīng)包含少量的前文詞匯和后文詞匯,以便達(dá)到溫故和學(xué)新的效果.
此外,相關(guān)詞之間存在著緊密聯(lián)系,如“學(xué)生”和“老師”之間存在“教”與“學(xué)”的關(guān)系.在同一課文或相鄰課文中編排關(guān)系密切的詞匯,有益于學(xué)生感知詞匯之間的關(guān)系,保持知識(shí)間的聯(lián)系.然而,在現(xiàn)有教材中,密切相關(guān)的詞匯分布較為分散,使得教師在教學(xué)過程中必須補(bǔ)充相關(guān)知識(shí).為了捕獲這些關(guān)系緊密的詞匯,本文采用k-means聚類算法對(duì)詞匯表中的詞匯進(jìn)行聚類,每個(gè)類可稱為一個(gè)詞包,詞包內(nèi)的詞匯具有緊密的關(guān)系.
綜上所述,語文教材選文推薦的準(zhǔn)則主要包括以下幾點(diǎn):
圖1 語文教材選文推薦過程
(1) 小學(xué)生認(rèn)知詞匯是一個(gè)循序漸進(jìn)的過程,應(yīng)以詞匯序表中的詞匯作為推薦選文的依據(jù),保證選文的詞匯遵循連續(xù)性、有序性.
(2) 應(yīng)保持相鄰選文具有一定的重復(fù)詞匯,保證溫習(xí)和學(xué)新效果.
(3) 盡可能地使密切相關(guān)詞匯分布在同一選文或相鄰選文中.
(4) 教材選文在滿足各學(xué)段的學(xué)生學(xué)習(xí)需要的同時(shí),不得逾越學(xué)生的詞匯接受能力.
在確定選文推薦的原則后,可設(shè)計(jì)出教材選文推薦的整體過程,如圖1所示.從圖中可以看出,教材選文推薦工作是在獲得各學(xué)段必學(xué)詞匯表的基礎(chǔ)上,將待推薦精選文章通過選文推薦算法與必學(xué)詞匯表相匹配,挑選出最佳選文.
(1)
(2)
(3)
除去該類詞,文檔a,b中尚有如下詞集合
S2={s|s∈{1..n},?t∈{1..m},(s,t)?S1},
(4)
S3={t|t∈{1..m},?s∈{1..n},(s,t)?S1},
(5)
則,文檔a,b的相似度可定義為:
(6)
其中第一項(xiàng)為相匹配詞的距離,后兩項(xiàng)體現(xiàn)了無匹配詞所起作用,在各項(xiàng)前可以增加調(diào)和系數(shù),用于協(xié)調(diào)各成分所起作用.
教材選文推薦算法是基于各年級(jí)的必學(xué)詞匯表,從待推薦的優(yōu)質(zhì)文章庫中挑選出與之匹配度最高的一系列選文,形成教材的過程.一般來說,一篇課文所包含的新詞數(shù)應(yīng)被嚴(yán)格控制.所以,在推薦選文前,需將必學(xué)詞匯表劃分成若干個(gè)有序詞匯集,詞匯集的數(shù)量由本年級(jí)教材所需課文數(shù)決定.由前文選文推薦依據(jù)可知,相鄰選文之間應(yīng)具有一定的重復(fù)詞匯.解決該問題的方法是在劃分詞匯集時(shí),使得詞匯集之間存在一定的交集.獲得每一篇教材選文的過程實(shí)質(zhì)是文本分類問題,即將待推薦選文歸類到對(duì)應(yīng)詞匯集的過程.教材選文推薦算法描述如下:
輸入:各年級(jí)的必學(xué)詞匯表V{D1,D2,D3,D4,D5,D6},其中,Di表示i年級(jí)的必學(xué)詞匯表.待推薦選文集C={A1,…,Ai,…,An},其中,Ai表示第i篇文章的特征矩陣,矩陣的每一行對(duì)應(yīng)一個(gè)特征詞的詞向量.需推薦教材選文的年級(jí)class,教材的選文數(shù)count,文章間的重復(fù)詞匯數(shù)rep.
輸出:O={B1,B2, …,Bcount} ,即對(duì)應(yīng)class年級(jí)的一套語文教材.
算法步驟:
(1) 劃分class年級(jí)的必學(xué)詞匯表Dclass為若干個(gè)詞匯集M{W1,…,Wi,…,Wcount},且詞匯集之間存在重復(fù)部分.假設(shè)詞匯集Wi中最后一個(gè)詞匯對(duì)應(yīng)必學(xué)詞匯表中的下標(biāo)記為x(i),則詞匯集Wi所包含的詞匯可表示為:
Wi{wx(i-1)-rep+1,wx(i-1)-rep+2,…,wx(i)}.
(7)
(2) 量化詞匯集
wi=FV(wi)Wi{wx(i-1)-rep+1,wx(i-1)-rep+2,…,wx(i)},
(8)
其中FV(.)為特征向量算子,Wi就是量化后的第i個(gè)詞匯集.
(3) 依據(jù)公式(6),計(jì)算所有待推薦選文C與各詞匯集M之間的相似度,構(gòu)成距離矩陣
(9)
(4) 對(duì)于每個(gè)詞匯集,根據(jù)距離矩陣(9),按距離由小到大的順序?qū)Υ扑]選文C排序,可得:
Si={
(10)
其中,di1表示在C中與詞匯集Wi距離最近的文章的下標(biāo),Ddi1則是文章Adi1與詞匯集Wi的距離.
(5) 為每個(gè)詞匯集匹配候選文章集
Hi={Adij|Ddij>=ε,dij∈Si},j∈[1,n].
(11)
其中,ε為選文與詞匯集Wi的距離閾值.
(6) 確定每個(gè)詞匯集的最佳選文
① 對(duì)于?Hi(i∈[1,count]),如果Hi≠?,令Bi=Adi1,否則從Hi向上、向下各找到一個(gè)不為空的候選文章集Hprior和Hnext,將Hprior和Hnext兩個(gè)集合中的元素按序合并,并賦值給Hi,令Bi=Adi3
② 對(duì)于?Bi,如果?Bi=Bj(j∈[1,count]),找到Hi中的Dindex(Bi)和Hj中的Dindex(Bj)的值, 如果Dindex(Bi)>Dindex(Bj),Bj=Anext(Hj),否則,Bi=Anext(Hi).其中,index()是求一篇文章下標(biāo)的函數(shù),next()是求Hj集合中尚未訪問的第一個(gè)元素的d值.
③ 重復(fù)②,直到求出所有Bi,且對(duì)于?Bi,不存在Bi=Bj(j∈[1,count])
算法分析:該算法的實(shí)質(zhì)是將必學(xué)詞匯表劃分為若干個(gè)有交集的詞匯表,且交集的大小固定.然后,利用文檔相似度函數(shù),為每個(gè)詞匯集匹配選文.算法的關(guān)鍵步驟是(6),該步驟的作用是在各選文候選集中,挑選與詞匯集匹配度最高,且與其他詞匯集的選文不沖突的最佳選文.對(duì)于部分詞匯集來說,由于精選文本庫中的文章有限,有可能出現(xiàn)選文候選集為空的情況.當(dāng)某詞匯集的選文候選集為空時(shí),本文選取與之最近且不為空的兩個(gè)選文候選集,將他們中的元素合并排序作為該詞匯集的選文候選集.在保證每個(gè)詞匯集的選文候選集不為空后,從選文候選集中選擇與詞匯集相似度最大的文章作為該詞匯集的最佳選文.但是,對(duì)于不同的詞匯集,可能出現(xiàn)相同的最佳選文.為了避免教材中出現(xiàn)重復(fù)選文,對(duì)于所有匹配到相同選文的詞匯集,D值最大的詞匯集的最佳選文不變,其余的詞匯集均需在各自的候選集中重新選擇未被匹配且D值最大的文章作為最佳選文,反復(fù)比較選文是否有重復(fù),直到所有詞匯集都具有唯一的最佳選文.
本實(shí)驗(yàn)以新課標(biāo)蘇教版小學(xué)1—6年級(jí)語文課文為精選文本庫.同時(shí),借助Matlab平臺(tái),實(shí)現(xiàn)語文教材選文推薦算法.如果想要獲取各學(xué)段的教材,必須保證精品文本庫足夠大.因此,在精選文本庫中文章數(shù)量有限的情況下,故本文僅實(shí)現(xiàn)了部分學(xué)段的教材選文推薦,并與某版本原學(xué)段的課文進(jìn)行了對(duì)比分析,證明本文算法的有效性.
本文通過廣泛收集學(xué)生經(jīng)典閱讀書目,通過文本處理技術(shù),去除過于簡(jiǎn)單和無意義的詞匯,經(jīng)過詞頻統(tǒng)計(jì)、詞聚類等操作獲得約含3490個(gè)詞匯的詞匯序表.依據(jù)每學(xué)段可接受的詞匯量,劃分出各學(xué)段的必學(xué)詞匯表.如表1所示,列出了二年級(jí)的部分必學(xué)詞匯及詞匯頻度,其中,序號(hào)標(biāo)識(shí)了詞匯在詞表中的順序.從表中我們可以看出,序號(hào)為11“媽媽”和序號(hào)為12“爸爸”是關(guān)系密切的詞匯,他們?cè)谠~匯序表中處于相鄰位置,這樣便于為學(xué)生推薦同時(shí)包含這兩個(gè)詞匯的文章.
表1 二年級(jí)部分必學(xué)詞匯及其詞匯頻度
設(shè)置相鄰詞匯集間的重復(fù)詞匯數(shù)rep=8,同時(shí),實(shí)現(xiàn)教材選文推薦算法可得到二年級(jí)上冊(cè)語文教材選文的推薦結(jié)果,如表2所示.為了方便觀察,本文用result〔〔〔表示選文及課文名稱,其中result是總文件夾的名稱,英文one,two,three,four,five,six分別代表一到六年級(jí),A代表上冊(cè),B代表下冊(cè),“i.xls”表示相應(yīng)年級(jí)和冊(cè)數(shù)下的第i篇文章.
表2 二年級(jí)上冊(cè)語文教材部分選文推薦結(jié)果
從表2中可以看出,利用選文推薦算法所推薦出的選文與原二年級(jí)上冊(cè)課文存在較大差異,例如,本文推薦的二年級(jí)上冊(cè)第1篇課文應(yīng)為原二年級(jí)上冊(cè)第9篇課文.與此同時(shí),我們統(tǒng)計(jì)了推薦選文與相應(yīng)詞匯集之間的重復(fù)詞匯數(shù),在表中第3列已經(jīng)列出,需要注意的是,這里的相同詞匯是指具有實(shí)際意義的詞匯,單個(gè)字不計(jì)入統(tǒng)計(jì)范圍.在表中,我們可以看出,有些推薦出的選文與詞匯集間相同的詞匯數(shù)較少,如第11、12個(gè)詞匯集,相同詞匯數(shù)僅為2和3.這是因?yàn)樵谔K教版小學(xué)語文教材內(nèi),還沒有可以較好地匹配該詞匯集的文章.如果進(jìn)一步豐富精選文本庫,為其收納更多的優(yōu)質(zhì)文章,推薦結(jié)果將得到改善.由于本文制定的詞匯序表符合學(xué)生的認(rèn)知規(guī)律,而教材選文推薦算法又以詞匯序表為依據(jù),所以,我們所推薦的選文在詞匯上符合學(xué)生的認(rèn)知規(guī)律.此外,從表2也可看出,推薦選文間的相同詞匯數(shù)遠(yuǎn)遠(yuǎn)超過原教材課文間的相同詞匯數(shù),由此說明了選文推薦算法能夠更好地保證選文詞匯的合理分布.
針對(duì)目前教材選文缺乏自動(dòng)方法的現(xiàn)狀,設(shè)計(jì)了語文教材選文推薦算法.在分析學(xué)生認(rèn)知詞匯規(guī)律的基礎(chǔ)上,廣泛收集學(xué)生的經(jīng)典讀物,使用文本分析方法生成用于指導(dǎo)教材選編的詞匯序表,經(jīng)過標(biāo)準(zhǔn)化各學(xué)段所需學(xué)習(xí)的詞匯量,將詞匯序表劃分成各學(xué)段的必學(xué)詞匯表.基于必學(xué)詞匯表,設(shè)計(jì)半自動(dòng)化的語文教材選文推薦方法,為編者推薦最佳選文,且推薦的選文在教材的整體上滿足詞匯的連續(xù)性、順序性和整體性規(guī)則.
但本文選用蘇教版小學(xué)語文1—6年級(jí)課文作為待推薦選文,如果能收集大量的優(yōu)質(zhì)文章作為待推薦內(nèi)容,可保證推薦出的選文具有更高的科學(xué)性.此外,本文僅僅從詞匯的角度考慮推薦教材選文,還未綜合考慮文章的體裁、題材和主題等復(fù)雜因素,以后可綜合考慮多種因素進(jìn)一步推進(jìn)教材選文的自動(dòng)化進(jìn)程.