孫未未 夏菁 曾致中
摘 要:本研究開展對外漢語閱讀材料難度評估,也稱可讀性研究,即應用特征結合機器學習的方法,通過計算機文本分析工具對六套對外漢語中高級上下冊教材文章和閱讀材料進行自然語言處理,提取文本中漢字、詞語、句子、段落等影響文本可讀性(難度)的不同維度特征,通過均勻分割的方法解決設置可讀性取值標簽的問題,并利用SVM算法進行回歸建模。在獨立的測試集上實驗結果顯示,相比SVM算法的分類方法,本研究提出的均勻標簽后的回歸方法具有顯著更高的準確性。
關鍵詞:對外漢語教學;機器學習;回歸模型;可讀性評估
中圖分類號:G40-057 文獻標志碼:A 文章編號:1673-8454(2018)15-0067-08
一、引言
隨著我國綜合實力的提升和“一帶一路”戰(zhàn)略的實施,對外漢語教學的需求量與日俱增。[1]在對外漢語教學專業(yè)設立近30年間,該教學事業(yè)獲得蓬勃發(fā)展,但也伴隨著不規(guī)范的問題。[2]北京語言文化大學張志寧副教授認為在漢語教材尤其是中高級教材的選擇和編排上,對難度的控制和安排還遠遠說不上是科學和合理的,仍存在缺乏客觀統(tǒng)一的標準和過度依賴教師主觀經(jīng)驗的問題。[3]目前對外漢語閱讀材料難度評估成果較少,仍以形式較為簡單的“可讀性公式”評估為主,其效果離實際應用還有一定差距。[4]因此,本研究利用機器學習等先進的信息科學統(tǒng)計方法,重在對多維特征數(shù)據(jù)的深度挖掘與科學分析,探究特征背后的對外漢語編制內在規(guī)律的隱性關系以實現(xiàn)對外漢語閱讀材料更高質量的可讀性評估,此項研究具有十分重要的現(xiàn)實意義和應用價值。
對外漢語閱讀材料的可讀性評估屬于漢語文本可讀性研究的一個分支。目前,漢語可讀性研究方法主要有以下四種:①可讀性公式法,如黃敏[6]、荊溪昱[10]等人建立的中文可讀性公式。②基于認知理論法,例如WordNet(單詞語義關系網(wǎng)絡)在線詞匯數(shù)據(jù)庫和Coh-Metrix可讀性相關指標計算工具等研究成果。該方法為文本難度評估提供了更好的理論支撐和解釋說明,但是相比較傳統(tǒng)的可讀性公式法,其結果并不具有特別的優(yōu)越性。[11]③基于單詞統(tǒng)計的語言模型法,單詞統(tǒng)計語言模型主要通過特定可讀性級別的語言模型生成文本中特定單詞或單詞組的概率大小來預測文本可讀性級別。[12]對比可讀性公式,該方法較好地解決了Web短文本難度評估問題。[13][14]④特征結合機器學習的方法是基于NLP(自然語言處理技術)和機器學習的發(fā)展,結合復雜特征和新的方法應用于文本難度評估中。[5]機器學習中的分類或者回歸方法有支持向量機、多元線性回歸等。按照與學習算法結合的方式,將監(jiān)督特征選擇技術分為嵌入特征選擇、包裝特征選擇和排序特征選擇三類。該方法可以將公式法、認知理論方法和語言模型方法的預測結果作為特征指標加入到分類模型中進而提高評估性能,較其他評估方法具有較大的優(yōu)越性。[15][16][17][18][19][20]比如Yaw-Huei Chen等人基于術語TF-IDF值選擇結合SVM的方法評估小學教科書三門學科的文章難度,有效地識別出適合低中年級學生的文章。[21]Schwarm和Ostendorf應用SVM算法結合三元語言模型方法評估英語新聞文章的可讀性,實驗結果顯示SVM算法對文本難度評估準確率顯著高于傳統(tǒng)公式法。[14]
對外漢語的教授對象是以漢語為第二語言的學習者,閱讀材料能使其掌握漢語的特殊規(guī)律。對外漢語閱讀材料難度評估領域主要針對兩個方面進行研究:一方面是文本的哪些特征與難度相關,且相關性更強;另一方面是對如何測定這些特征與文本難度關系的方法研究。下面主要針對這兩方面的研究介紹相關的兩種方法——可讀性公式法和特征結合機器學習法。對外漢語領域中的可讀性公式有:一是張志寧改進愛德華·弗萊提出的“句長-音節(jié)數(shù)”測量法[3];二是王雷主要用詞匯和句子作為影響因素制定的可讀性公式[22][23][24];三是楊金余通過統(tǒng)計不同等級詞頻和固定詞組來測定高級精讀教材在詞匯層面上難度的方法[4][23][24];四是鄒紅建、楊爾弘等人利用文本通用詞的覆蓋率和文本長度實現(xiàn)的文本難度分類方法[25]。公式法一方面存在易被理解、易于實現(xiàn)和易統(tǒng)計所需變量等優(yōu)點,另一方面也存在因涉及的特征因素過于簡單,導致直接使用中對文本難易程度表達不充分的缺點。特征結合機器學習的方法在漢語中大量的研究結果表明其具有更高的準確性,然而在對外漢語中的應用還比較少,僅有臺灣學者Yao-Ting Sung等人提出的“基于CEFR框架特征結合SVM算法”分類方法[26]。他的方法是基于分類的,本研究創(chuàng)新性地將SVM回歸方法應用于對外漢語閱讀材料難度評估?;貧w方法的優(yōu)點在于教材中的文本可讀性明顯是可以定量刻畫的,彼此存在大小偏序關系,更能針對問題有效地說明這種內在特征。
本研究通過計算機文本分析工具對六套對外漢語高級教材中的閱讀材料進行自然語言處理,提取文本中漢字、詞語、句子、段落等影響文本可讀性(難度)的多層級特征。通過均勻分割的方法解決設置回歸中可讀性取值標簽的問題,并利用SVM算法進行回歸建模。主要步驟包括采集甄選對外漢語閱讀材料,抽取對外漢語文章特征,通過經(jīng)典機器學習算法——SVM算法評估,應用特征工程優(yōu)化算法評估性能。
二、研究方法
本研究所使用的方法屬于特征結合機器學習的方法,該方法總體架構如圖1所示,主要包括對外漢語教材閱讀材料收集甄選、特征抽取、機器學習模型訓練與優(yōu)化三個主要階段,其過程相當于抽取經(jīng)典教材中權威專家的經(jīng)驗,以形成一個智能化的專家評估系統(tǒng)。下面介紹這三個階段的具體實施步驟。
1.對外漢語教材閱讀材料收集甄選
對外漢語教材內容的編輯應該循序漸進,代表性教材更能體現(xiàn)權威專家編制教材的內在規(guī)律,也正是本研究構建的評估模型數(shù)據(jù)來源。[27]同時考慮到特征選擇一致性,比如并非所有的對外漢語閱讀材料都有“生詞”特征。我們通過專家咨詢、對話訪談、數(shù)據(jù)分析等方法甄選了具有代表性和特征一致性的六套教材(見表1),利用掃描儀和pdf轉換工具獲取文章閱讀材料電子版,教材及對應的文章數(shù)量如表2所示。
從以上教材閱讀文章數(shù)量上看,除了《漢語閱讀教程》教材文章中高級上下冊數(shù)量相對較多以外,將其他5套教材的數(shù)量進行統(tǒng)計分析:中級上冊文章數(shù)量平均16篇,中級下冊文章數(shù)量平均16篇,高級上冊文章數(shù)量平均14篇,高級下冊文章數(shù)量平均14篇。中級文章數(shù)略高于高級文章數(shù)但相差不大。
2.特征抽取
對外漢語閱讀材料難度自動評估中,特征抽取相當于深度挖掘專家編制教材的內在規(guī)律,使之數(shù)量化、形式化、技術化和科學化。對外漢語教學過程是在漢字、詞語、句子、語法等不同層次上循序漸進的一個教學體系。[28]因此在特征抽取階段,通過自然語言處理的方法,經(jīng)過分詞、詞頻統(tǒng)計、VBA編程等步驟抽取對外漢語文章在漢字、詞語、句子、語法等不同維度上更精煉且質量更高的特征。[29]詳細抽取過程如圖2所示。
特征抽取首先要將對外漢語文本進行自然語言處理,使用中科院NLPIR漢語分詞系統(tǒng)(該系統(tǒng)由中國科學院計算技術研究所研制,分詞精度達到98.45%)進行分詞處理和詞頻統(tǒng)計,得到對應的詞語和詞頻,進而構建文章詞語特征數(shù)據(jù)庫。本實驗中選用《HSK詞匯等級標準大綱》和《HSK詞性表》作為詞語等級評判的標準?!禜SK詞匯等級標準大綱》由國家對外漢語教學領導小組辦公室漢語水平考試部編制,對HSK考試和教材編寫起了很大的指導作用,是當前所有漢語詞表中比較權威的一種。[30][31]《HSK詞性表》由北京語言大學漢語國際教育技術研發(fā)中心制定。構建HSK詞匯等級評判標準數(shù)據(jù)庫和多等級字標準數(shù)據(jù)庫,將創(chuàng)建好的文章詞語特征數(shù)據(jù)庫與對應的HSK詞匯等級標準數(shù)據(jù)庫的數(shù)據(jù)進行查找匹配,統(tǒng)計得出每篇文章甲乙丙丁等級個數(shù)和對應的詞語特征頻數(shù),共有8個不同的詞語特征,見表3中的序號為1-8的特征名。由此將8個詞語特征通過SUM和比例重新組合得到9個特征,另外“生詞數(shù)”是一個很重要的特征,它反映了學生閱讀該篇文章要學習的生詞數(shù)量,體現(xiàn)文章閱讀的難易程度,具體特征表示見表3中的序號為9-18的特征名。
在詞語維度上,不僅有不同等級的詞語對應的詞頻,還有詞性。表面上詞性的多少體現(xiàn)詞性的數(shù)量,然而這更體現(xiàn)了句子結構和語法的復雜性。句子是由比它小的語法單位詞或短語組成,那么判斷句子復雜性的方法之一就是通過分辨詞性來進行。從語法角度上分析,一個相對簡單的句子結構是“主語+謂語+賓語”,通過定語、狀語、補語的加入可以增加句子的復雜度,比如“[狀語(修飾全句的)]+(定語)主語+[狀語]謂語<動補>+(定語)賓語<賓補>”的句子結構。句子結構中不同成分的具體詞性表示如表4所示。
所以,如果一篇文章中出現(xiàn)了形容詞、數(shù)量詞、狀態(tài)詞、副詞、介詞等比較多的情況,可以視其中涉及了較多的復雜句,這篇文章的難度系數(shù)增加。語法的難點和重點對教材閱讀材料的編輯影響重大,[32]由此我們統(tǒng)計了每篇文章的22種詞性特征,按照不同的詞性類別進行分類,具體特征名如表5所示。
從對外漢語文章篇幅角度抽取特征,主要有文章的字符總數(shù)、段落數(shù)、句子總數(shù)等特征體現(xiàn)文章的難易程度。在Microsoft Word中的“審閱——字數(shù)統(tǒng)計”中可以得到字符總數(shù)、段落數(shù)這兩個特征值。然而如何提取文章的句子總數(shù)呢?由于對外漢語文章每個句子由標點符號分隔,因此分別統(tǒng)計每篇文章中 “,”、“?!?、“!”、“?”、“…”的詞頻總數(shù),得出句子總數(shù)的兩種不同表示形式(有無逗號)的特征值。另外利用公式“詞頻總數(shù)/句子總數(shù)(分兩種,有無逗號)”得出平均每個句子的詞語個數(shù)。總共八個特征,詳細特征名如表6所示。
綜上,為衡量文章的難易程度,較全面且多層次地還原專家編制教材的內在規(guī)律,本實驗共抽取了六套教材600篇文章在漢字、詞語、句子、語法等不同維度的48個特征。
3.SVM算法評估與優(yōu)化
(1)SVM算法介紹
在20世紀90年代早期支持向量機(SVMs)文本最優(yōu)分類器在Vapnik的統(tǒng)計學習理論中首次提出。[39]在訓練樣本數(shù)相對較小的情況下,SVM算法也能達到很好的分類推廣能力,在線性不可分的情況下,SVM算法通過核函數(shù)將數(shù)據(jù)反映到高維空間,在高維空間中構建線性決策函數(shù)以解決維數(shù)問題,[33]其中核函數(shù)決定回歸函數(shù)集的復雜度,通過體現(xiàn)結構風險最小化原則的學習策略來控制算法性能,最終通過解決凸二次規(guī)劃問題得到全局最優(yōu)解。在解決一系列實際問題中獲得成功,從而引起人們對它的極大關注。
(2)SVM算法評估
構建SVM監(jiān)督學習算法分類和回歸模型的過程能衡量專家編制教材內在規(guī)律客觀性、準確性和統(tǒng)一標準性程度,其過程包括選擇實驗數(shù)據(jù)集、數(shù)據(jù)預處理、構建訓練和測試模型三個步驟,整體結構如圖3所示。詳細內容如下:①小數(shù)據(jù)量樣本建模中,訓練集和測試集劃分原則遵循數(shù)量比為70%和30%比較合理,同時確保每一條數(shù)據(jù)存在且有效。②特征數(shù)據(jù)預處理包括標準化處理、打標處理和特征屬性選擇處理。使用Min-max標準化將每一套教材所有文章的每一個特征進行標準化處理。例如 《漢語閱讀與寫作教程》教材共80篇文章,針對生詞這一個特征,即x1,x2……xn(n=80)進行變換:yi=■,生成的新序列即為y1,y2……yn∈[0,1]。標簽代表每一套教材中每一篇文章的前后順序,是專家編制教材內在規(guī)律的量化。打標規(guī)則如下:在分類模型中,每篇文章的label標簽即為該篇文章所屬的教材類別,有中級上冊、中級下冊、高級上冊、高級下冊四個類別。在回歸模型中,對應四個類別區(qū)間分別用[0-0.25]、[0.25-0.5]、[0.5-0.75]、[0.75-1]表示。應用公式:yi=0.25×(m-1)+■;該公式能夠精確到每一篇文章的難度值,yi代表m等級中第i篇文章的難度值,比較直觀地反映出與真實值之間的差距以及作為如何調整文章難度的參考依據(jù)。m代表數(shù)值中級上為1、中級下為2、高級上為3、高級下為4;im代表在m等級下的第i篇文章;nm代表在m等級下的文章總數(shù)n;特征數(shù)據(jù)屬性選擇中標簽作為特殊屬性,其他特征數(shù)據(jù)是一般屬性。[3][4]SVM模型訓練涉及SVM模型選擇和參數(shù)標定,模型選擇包括模型類型選擇、核函數(shù)選擇和損失函數(shù)選擇。[3-5]模型類型選擇LibSVM,因其在精度和效率上超過傳統(tǒng)學習算法。核函數(shù)選擇RBF核函數(shù),因其學習收斂速度快、泛化能力好,應用更加廣泛。損失函數(shù)選擇ε不敏感損失函數(shù),因其在小樣本訓練中具有計算優(yōu)勢,確保全局最小解的存在。[3-6]在參數(shù)標定中,主要調整C值和rbf核函數(shù)中的Gamma值。測試該模型的準確率,根據(jù)效果驗證逐步優(yōu)化。以上過程深度挖掘與探索對外漢語文章多層面上的特征與難度之間的內在關系。
(3)評估性能優(yōu)化
機器學習方法中特征的數(shù)量和選擇十分關鍵。選擇不合適的特征或特征數(shù)量過小或過大會導致欠擬合和過擬合問題,影響模型精度,特征選擇能夠解決這類問題。本文選用RMS_Error指標來衡量一個特征是否重要和顯著,因為RMS_Error能夠針對回歸模型作精度評估,從而反映出測量精密度。為了進一步提高SVM算法性能,通過特征工程——應用“排序特征選擇”和“包裝特征選擇”技術來降低均方根誤差值以達到優(yōu)化算法性能。
排序特征選擇技術是根據(jù)特征對學習算法分類能力的重要性和顯著性來對所有的特征排序,然后根據(jù)排序結果選取排名靠前的特征作為最終學習算法的特征集。排序式特征選擇主要是根據(jù)每個特征單獨地對分類或回歸的貢獻大小來評估其重要性,這類方法對剔除無關和弱相關特征是非常有效的。包裝特征選擇技術在選擇是否保留某個特征時主要依據(jù)該特征的加入能否給學習算法的性能帶來提升。理論上來說,使用包裝特征選擇技術是可以窮舉所有特征組合并且找出其中表現(xiàn)最好的特征子集,但存在耗時巨大的問題。另外還包括序列前向搜索和序列后向捜索的啟發(fā)式特征選擇技術。序列前向搜索的過程是:開始選擇特征空集T,每一輪加入一個特征,使當前學習算法性能提升最大,直到所有的待選特征的加入都無法使學習算法性能得到提升時就終止該過程。以此類推,得出最優(yōu)結果。序列后向搜索的過程相反:開始時r為所有特征集合,每一輪刪除一個特征,使該特征的剔除能夠最大程度地提升學習算法性能,直到r中剩下的所有特征都不能被剔除為止。排序特征選擇和包裝特征選擇技術的應用能夠很好地排除無關特征和弱相關特征,使SVM算法性能得到提高與優(yōu)化。實際上該過程體現(xiàn)的是用更精簡的標準來達到專家編制教材難度設定的統(tǒng)一性。
三、計算結果和分析
為了評估SVM算法分類模型和回歸模型應用于對外漢語文本難易程度評估的不同效果,我們在Windows10、32位系統(tǒng)下使用Rapidminer數(shù)據(jù)挖掘工具進行不同的實驗,所有的結果都是在對參數(shù)進行調整后的情況下得到的。
構建SVM模型在對外漢語文本難度評估中,我們分別使用了分類和回歸兩種不同的模型。在分類和回歸建模中,重點是標簽的不同。分類模型中標簽是中級上、中級下、高級上、高級下四個類別,而不是數(shù)值。在回歸模型中是用區(qū)間[0,1]數(shù)值表示文章的難易程度,輸出的是每一篇文章對應的難易程度表示的觀測值,具體的打標規(guī)則在“SVM算法評估”中有介紹。也正因為此,本實驗選用均方根誤差值來表示難度評估的準確度。我們希望通過這一系列實驗來驗證回歸模型評估性能高于分類模型。
經(jīng)過“排序特征選擇”和“包裝特征選擇”技術等一系列實驗后,我們得到最優(yōu)組合特征結果如下:十四個特征(見表7)組合作為第一個模型,應用序列反向搜索依次減少特征得到的評估結果RMS_Error值如圖4所示。
得到的RMS_Error值比較好的是13個特征組合的SVM評估結果0.172和4個特征組合的SVM評估結果0.168的兩種情況,下面兩張圖(見圖5和圖6)具體展示了對應兩種情況的各個特征的評估結果。圖5表示了其中13個特征組合的SVM算法評估結果,圖6表示了4個特征組合的SVM算法評估結果。回歸和分類模型下的不同準確率如圖7所示,SVM算法回歸模型的準確率是62.28%,分類模型的準確率是59.65%,說明回歸模型更能精確地表現(xiàn)每一篇文章的難易程度,評估性能更好。
實驗結果表明,圖5中的十三個特征在對外漢語難度評估中起著較大的影響作用。重點分析介詞和助詞突出文章難易程度的原因:為什么是介詞和助詞,而不是名詞或者動詞對難易程度的影響大;從文章的語法上分析,存在語法結構序,由易到難的次序,從簡式到繁式的過程。[37][38]筆者認為不管是中級還是高級的閱讀材料,都會出現(xiàn)一定量的名詞和動詞等。但是如果出現(xiàn)介詞或者助詞在不同文章中占比相差較大的情況,反映出文章的不同難易程度。在一個句子中介詞是不能作為獨立成分存在的,詞與詞和詞與句子之間的關系是用介詞表示的。名詞、代詞、短語或者從句會作介詞的賓語,構成介賓結構,通常作為補語,因此介詞的出現(xiàn)往往象征著更復雜的句子結構。另外助詞有結構助詞、時態(tài)助詞和語氣助詞三種:“的”、“地”、“得”屬于結構助詞,“了”、“著”屬于時態(tài)助詞,“嗎”、“呢”、“吧”屬于語氣助詞。在中級文章中,文章篇幅較小,但在高級文章中篇幅較長且句子結構更復雜,其他詞性的占比更大。這時,助詞在中級文章中的占比就比較突出,而在高級文章中,其作用就會小得多。由此可見,助詞在文中占有的比例反映出文章的篇幅和句子復雜度進而影響著文章的難易程度。另外SVM算法回歸模型的準確率要明顯高于分類模型的準確率,說明回歸模型具有明顯的優(yōu)勢且更能說明每一套教材的每一篇文章的難易程度,回歸模型更接近于專家編制教材設定難度值的過程。
四、結論
本文提出了一種適用于小數(shù)據(jù)量對外漢語閱讀材料的難度評估方法,相比較傳統(tǒng)的專家人工評估,智能化專家評估系統(tǒng)具有以下優(yōu)勢:①評估的規(guī)則和標準更加明確,并且可以定量地加以描述;②評估規(guī)則具有更好的可擴展性,可以基于大數(shù)據(jù)自適應地學習和修正;③可以顯著提高評估的效率,節(jié)省對外漢語閱讀材料編寫的時間、人力、物力等資源。但該方法對于大規(guī)模應用也存在一定的局限性,比如所需數(shù)據(jù)準備工作過于復雜和煩瑣,后續(xù)也可以通過繼續(xù)增加特征種類來進一步提高評估性能等。
參考文獻:
[1]馬莉.“一帶一路”背景下的漢語作為第二語言教學[J].中外交流,2017(29):53.
[2]鄭艷群.對外漢語教育技術概論[M].北京:商務印書館,2011.
[3]張寧志.漢語教材語料難度的定量分析[J].世界漢語教學,2000(3):83-88.
[4]楊金余.高級漢語精讀教材語言難度測定研究[D].北京大學,2008.
[5]孫剛.基于線性回歸的中文文本可讀性預測方法研究[D].南京大學,2015.
[6]黃敏.漢語特質與中文新聞易讀性公式研究[J].新聞與傳播研究,2010(4):93-97.
[7]劉瀟.文本易讀度相關研究評述[J].湖北大學學報(哲學社會科學版),2015(3):141-146.
[8]章田鑫.基于語義的學習資源難度評價和推薦[D].東華大學,2015.
[9]別小雷.基于“新大綱”的《新實用漢語課本》語料難度定量分析[D].西南交通大學,2017.
[10]荊溪昱.中文國文教材的適讀性研究:適讀年級值的推估[J].教育研究資訊,1995(5):114-127.
[11]Crossley, S. A. D. D.Toward a New Readability: A Mixed Model Approach [C].Proceedings of the 29th Annual Meeting of the Cognitive Science Society,2007:197-202.
[12]Benjamin, R. G.Reconstructing Readability: Recent Developments and Recommendations in the Analysis of Text Difficulty[J].Educational Psychology Review,2012,24(1):63-88.
[13]Collins-Thompson, K., Callan, J. R. A language modeling approach to predicting reading difficulty[C]. Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, 2004:193-200.
[14]Schwarm, S.E., Ostendorf, M. Reading level assessment using support vector machines and statistical language models[C].Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics,2005:523-530.
[15]Petersen, S. E., Ostendorf, M.A machine learning approach to reading level assessment[J].Computer Speech And Language,2009,23(1):89-106.
[16]Rohit J. Kate, X. L. S. P.Learning to Predict Readability using Diverse Linguistic Features[J].Association for Computational Linguistics, 2010:546-554.
[17]Feng, L., Jansche, M., Huenerfauth, M., Elhadad, N.. A comparison of features for automatic readability assessment[C].Proceedings of the 23rd international Conference on Computational Linguistics: Posters, Association for Computational Linguistics,2010:276-284.
[18]Ma,Y.,F(xiàn)osler-Lussier,E.,Lofthus, R.. Ranking-based readability assessment for early primary childrens literature[C].Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Association for Computational Linguistics. 2012:548-552.
[19]Francois, T., Miltsakaki, E.. Do nlp and machine learning improve traditional readability formulas[C].Proceed-ings of the First Workshop on Predicting and Improving Text Readability for target reader populations, Association for Computational Lingusties,2012:49-57.
[20]Chen,Y.T.,Chen, Y.H., Cheng, Y.C.. Assessing Chinese readability using term frequency and lexical chain[J]. Computational Linguistics and Chinese Language Processing, 2013,18(2):1-17.
[21]Yaw-Huei Chen, Y. T. Y. C. CHINESE READABILITY ASSESSMENT USING TF-IDF AND SVM: Proceedings of the 2011 International Conference on Machine Learning and Cybernetics[Z].2011:705-710.
[22]牛士偉.對外漢語文本可讀性研究的回顧與展望[J].廣東外語外貿(mào)大學學報,2015(6):105-109.
[23]羅素華.漢語中級泛讀教材難度定量分析——以三部中級漢語泛讀教材為例[D].湖南師范大學,2015.
[24]左虹,朱勇.中級歐美留學生漢語文本可讀性公式研究[J].世界漢語教學,2014(2):263-276.
[25]鄒紅建,楊爾弘.面向對外漢語報刊教學的文本難易度分類[Z].第三屆學生計算語言學研討會論文集,2006:363-367.
[26]Sung, Y., Lin, W., Dyson, S. B., et al.Leveling L2 Texts Through Readability: Combining Multilevel Linguistic Features with the CEFR[J].The Modern Language Journal,2015,99(2):371-391.
[27]李泉.對外漢語教材研究[M].北京:商務印書館,2006.
[28]李如龍,吳茗.略論對外漢語詞匯教學的兩個原則[J].語言教學與研究,2005(2):41-45.
[29]廖一星.文本分類及其特征降維研究[D].浙江大學,2012.
[30]馬清華.唯頻率標準的不自足性——論面向漢語國際教育的詞匯大綱設計標準[J].世界漢語教學,2008(2):119-134.
[31]姜德梧.關于《漢語水平詞匯與漢字等級大綱》的思考[J].世界漢語教學,2004(1):81-89.
[32]李泉.對外漢語教學語法研究述評[J].世界漢語教學,2006(2):110-118.
[33]鄧乃揚,田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機[M].北京:科學出版社,2004.
[34]Dr. Matthew North. Data Mining for the Masses[M].Global Text Project,2012.
[35]蘇高利,鄧芳萍.關于支持向量回歸機的模型選擇[J].科技通報,2006(2):154-158.
[36]付旻,王煒,王昊,項晙.多分類支持向量機在公交換乘識別的應用[J].哈爾濱工業(yè)大學學報,2018(3):1-8.
[37]呂文華.對外漢語教材語法項目排序的原則及策略[J].世界漢語教學,2002(4):86-95.
[38]孫瑞珍.中高級漢語教學語法等級大綱的研制與思考[J].語言教學與研究,1995(2): 96-106.
(編輯:王天鵬)