任夢(mèng) 王方偉
摘 要:針對(duì)HSK(漢語(yǔ)水平考試)各類閱讀材料難度判定與等級(jí)對(duì)應(yīng)中缺乏有效參照標(biāo)準(zhǔn)和分析工具的問(wèn)題,以歷年HSK真題閱讀文本為研究對(duì)象,提取文本可讀性特征,采用支持向量機(jī)、隨機(jī)森林、極端梯度增強(qiáng)等9種監(jiān)督學(xué)習(xí)算法,建立可將自選文本自動(dòng)歸類于相應(yīng)HSK等級(jí)的模型,采用準(zhǔn)確率、AUC等多項(xiàng)指標(biāo)評(píng)價(jià)各模型的分級(jí)效果,并選擇最佳模型制成在線工具。結(jié)果表明,監(jiān)督學(xué)習(xí)在HSK閱讀材料文本分析及分級(jí)方面具有較高性能,9種模型中極端梯度增強(qiáng)的分級(jí)效果最好,準(zhǔn)確率為0.913,AUC為0.994。建立的分級(jí)模型和在線工具能夠以較高的準(zhǔn)確率對(duì)HSK自選文本進(jìn)行分級(jí),幫助用戶有針對(duì)性地遴選文本,提高學(xué)習(xí)效率。
關(guān)鍵詞:自然語(yǔ)言處理;監(jiān)督學(xué)習(xí);HSK閱讀文本;可讀性特征;分級(jí)模型
中圖分類號(hào):TP391.77? 文獻(xiàn)標(biāo)識(shí)碼:A???文章編號(hào):1008-1542(2024)02-0150-09
Research on automatic grading model of HSK reading texts based on supervised learning
REN Meng1,WANG Fangwei2
(1.College of Chinese and Literature,Hebei Normal University,Shijiazhuang,Hebei 050024,China;2.College of Computer and Cyber Security,Hebei Normal University,Shijiazhuang,Hebei 050024,China)
Abstract:Aiming at the problem that there are few effective reference standards and analysis tools available in classifying and grading Hanyu Shuiping Kaoshi(HSK) reading materials, with HSK reading texts in the past years as study object, the text readability features were extracted, and nine supervised learning algorithms, such as support vector machine, decision tree and extreme gradient enhancement, etc., were employed to build a model that could automatically classify self-selected text to the corresponding HSK level. Multiple indicators such as accuracy and AUC were adopted to evaluate the grading effect of each model, and the best model was chosen to design an online tool. The results show that supervised learning has high performance in analyzing and grading HSK reading materials. Among the nine supervised learning models, extreme gradient enhancement is the best, with an accuracy of 0.913 and an AUC of 0.994. The grading model and online tool can grade HSK self-selected texts with high accuracy, help users select texts pertinently and improve learning efficiency.
Keywords:natural language processing;supervised learning; HSK reading text; readability feature;grading model
HSK(漢語(yǔ)水平考試)是一項(xiàng)國(guó)際標(biāo)準(zhǔn)化考試 [1]。自2022年11月起,HSK在1—6級(jí)基礎(chǔ)上新增了7—9級(jí)考試,從不同層面考查應(yīng)試者的綜合能力。當(dāng)前互聯(lián)網(wǎng)文本信息規(guī)模龐大,內(nèi)容豐富,用戶可以非常容易地獲取各類漢語(yǔ)閱讀材料。但如何判斷這些材料的難度,是否能與HSK等級(jí)相對(duì)應(yīng),往往靠的是個(gè)人經(jīng)驗(yàn),缺乏有效的參照標(biāo)準(zhǔn)和分析工具。監(jiān)督學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的一種,指的是利用一組帶有標(biāo)簽的數(shù)據(jù),學(xué)習(xí)從輸入到輸出的映射,然后將這種映射關(guān)系應(yīng)用到未知數(shù)據(jù)上,達(dá)到分類或回歸的目的。目前已經(jīng)有研究者將漢語(yǔ)可讀性特征和監(jiān)督學(xué)習(xí)應(yīng)用到HSK閱讀文本的分析中。江新等[2]以HSK(5級(jí)、6級(jí))閱讀文本為實(shí)驗(yàn)材料,建立了包含相異詞比率和虛詞數(shù)在內(nèi)的可讀性公式,依據(jù)該公式計(jì)算得出的可讀性分?jǐn)?shù)與專家對(duì)文本難度的評(píng)定分?jǐn)?shù)高度相關(guān);杜月明等[3]基于文本可讀性特征集合,引入特征選擇算法,通過(guò)對(duì)比6種監(jiān)督學(xué)習(xí)模型的效果,實(shí)現(xiàn)了HSK閱讀文本可讀性的自動(dòng)評(píng)估,其結(jié)果表明支持向量機(jī)模型在評(píng)估中的表現(xiàn)最好。但是通過(guò)梳理發(fā)現(xiàn)這些研究存在以下問(wèn)題:第一,研究?jī)?nèi)容主要是從特征選擇、文本分析、優(yōu)化算法等理論層面進(jìn)行的,建立的公式和模型雖達(dá)到了較好的分析效果,但未能將其轉(zhuǎn)化為學(xué)習(xí)者可以利用的工具[4];第二,已有研究主要聚焦于分析教材和考試文本,未能詳述如何將研究成果具體應(yīng)用在課外或者自選閱讀材料上[5];第三,研究大多采用傳統(tǒng)回歸算法,部分使用監(jiān)督學(xué)習(xí)算法的研究主要采用的是經(jīng)典的支持向量機(jī)、樸素貝葉斯等算法,或是隨機(jī)森林等Bagging(又稱袋裝法)算法,文本分析結(jié)果的準(zhǔn)確率有待進(jìn)一步提高[6-7]。近年來(lái)在監(jiān)督學(xué)習(xí)領(lǐng)域,極端梯度增強(qiáng)、梯度提升決策樹(shù)等Boosting(又稱提升法)算法以更好的分類、泛化性能和更高的運(yùn)行效率得到廣泛應(yīng)用[8-16],但尚未應(yīng)用于與HSK相關(guān)的分析中。
針對(duì)以上情況,本研究以歷年HSK真題閱讀文本為研究對(duì)象,利用包括Boosting在內(nèi)的9種監(jiān)督學(xué)習(xí)算法,篩選與HSK等級(jí)相關(guān)的可讀性特征,建立可將自選文本自動(dòng)歸類于相應(yīng)HSK等級(jí)的模型,幫助用戶有針對(duì)性地選取文本材料。
1 研究?jī)?nèi)容
1.1 研究對(duì)象
本研究收集了2010—2018年出版的《漢語(yǔ)水平考試HSK真題集》,同時(shí)結(jié)合網(wǎng)絡(luò)資源,收集真題193套。經(jīng)掃描錄入、光學(xué)字符識(shí)別和排版整理,共采集文本560 520字。由于HSK各等級(jí)題型不同,部分題目字?jǐn)?shù)過(guò)少,部分選項(xiàng)為單個(gè)或者并列詞匯,可讀性特征不全,不利于文本分析,故本研究根據(jù)題目類型和字?jǐn)?shù),將每5題或6題合并為一條文本,并剔除部分選項(xiàng),最終納入文本1 350條,共448 173字。詳細(xì)數(shù)據(jù)信息見(jiàn)表1。
1.2 研究方法
1.2.1 監(jiān)督學(xué)習(xí)算法
本研究使用9種不同的監(jiān)督學(xué)習(xí)算法對(duì)數(shù)據(jù)集進(jìn)行分析,包括支持向量機(jī)(support vector machine,SVM)、決策樹(shù)(decision tree,DT)、K近鄰(K-nearest neighbor,KNN)、隨機(jī)森林(random forest,RF)、極端隨機(jī)樹(shù)(extra trees classifier,ETC)、梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)、輕量級(jí)梯度提升(light gradient boosting machine,LGBM)、自適應(yīng)增強(qiáng)(adaptive boosting,AdaBoost)和極端梯度增強(qiáng)(extreme gradient boosting,XGBoost)。使用Python 3.11軟件Sklearn模塊編寫監(jiān)督學(xué)習(xí)算法代碼,依據(jù)Z-Score將各項(xiàng)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,便于對(duì)不同單位或量級(jí)的指標(biāo)進(jìn)行比較和加權(quán)。為盡量減少過(guò)擬合現(xiàn)象,在算法允許的情況下進(jìn)行5倍交叉驗(yàn)證。同時(shí),在同等數(shù)據(jù)條件下使用SPSS 27.0軟件進(jìn)行Logistic回歸分析,比較監(jiān)督學(xué)習(xí)和傳統(tǒng)回歸算法的差異。
1.2.2 評(píng)估方法
利用網(wǎng)格搜索法編寫調(diào)參代碼輔助調(diào)整模型參數(shù),采用5倍交叉驗(yàn)證計(jì)算,使各模型均達(dá)到自身最優(yōu)效果,計(jì)算各模型的準(zhǔn)確率、精確率、召回率、平衡F分?jǐn)?shù)(F1-Score)。為便于和以往研究相比較,本研究主要采用準(zhǔn)確率評(píng)價(jià)模型分級(jí)效果。同時(shí),由于受試者工作特征(receiver operating characteristic,ROC)曲線和其曲線下面積(area under curve,AUC)兼顧分類的正例和負(fù)例,可全面反映靈敏度和特異性的關(guān)系,是一個(gè)較均衡的評(píng)估指標(biāo),故本研究結(jié)合AUC值評(píng)估模型性能。本數(shù)據(jù)集各組間文本量差距較大,準(zhǔn)確率、精確率、召回率和F1-Score采用結(jié)合樣本權(quán)重的加權(quán)平均值,AUC采用結(jié)合不同類別貢獻(xiàn)大小的微平均值。以上過(guò)程均重復(fù)進(jìn)行5次,取均值作為最后結(jié)果,以減弱隨機(jī)抽樣的偶然性,使結(jié)果更加穩(wěn)定。
1.2.3 在線運(yùn)行環(huán)境
選擇分級(jí)效果最好的模型,對(duì)各可讀性特征的重要度進(jìn)行計(jì)算和排名。使用遞歸式特征消除(recursive feature elimination,RFE)計(jì)算最佳特征個(gè)數(shù),結(jié)合特征重要度排名,選出與HSK等級(jí)最相關(guān)的特征。最后,使用效果最好的模型和最相關(guān)的特征重新進(jìn)行訓(xùn)練,達(dá)到最佳分級(jí)效果。利用Python中的Flask框架編寫Web代碼,上傳至云服務(wù)器,使分級(jí)模型可通過(guò)網(wǎng)頁(yè)工具的形式使用。
本研究的具體流程見(jiàn)圖1。需要說(shuō)明的是,由于HSK 7—9級(jí)考試開(kāi)始較晚,尚未有官方出版發(fā)行的真題供參考研究,故本研究暫未納入該級(jí)別的閱讀文本。
1.2.4 文本可讀性特征
目前,關(guān)于漢語(yǔ)可讀性已形成較為成熟的特征集合。本研究從提升模型準(zhǔn)確率和兼顧運(yùn)算性能的角度出發(fā),主要從以下4個(gè)方面進(jìn)行特征選擇:1)根據(jù)以往研究?jī)?nèi)容和HSK閱讀文本特點(diǎn),選取漢字、詞匯、句法和篇章4個(gè)維度共59個(gè)特征[15];2)根據(jù)《HSK考試大綱》(以下簡(jiǎn)稱《大綱》)詞匯表,制定1—6級(jí)詞匯比例共6個(gè)特征;3)結(jié)合《國(guó)際中文教育中文水平等級(jí)標(biāo)準(zhǔn)》(GF 0025—2021)(以下簡(jiǎn)稱《標(biāo)準(zhǔn)》),制定1—9級(jí)漢字和詞匯比例等19個(gè)特征;4)加入BCC構(gòu)建的漢語(yǔ)詞頻表,該詞頻表來(lái)自BCC語(yǔ)料庫(kù)的報(bào)刊、博客、微博和文學(xué)頻道,共1 818 656詞。選取特征共計(jì)85個(gè),如表2所示。
為提取和計(jì)算上述文本可讀性特征,本研究采用Python軟件下的Jieba分詞工具進(jìn)行詞語(yǔ)切分、詞性標(biāo)注和詞頻統(tǒng)計(jì),使用HanLP自然語(yǔ)言處理工具進(jìn)行命名實(shí)體識(shí)別和句法分析,編寫字、詞、句、篇4個(gè)代碼模塊。同時(shí),結(jié)合人工校對(duì)方式,構(gòu)建HSK真題閱讀文本可讀性特征數(shù)據(jù)集。
2 研究結(jié)果
2.1 文本可讀性特征數(shù)據(jù)集
按照前文所述方法收集資料,形成HSK真題閱讀文本可讀性特征數(shù)據(jù)集,見(jiàn)表3。所有數(shù)據(jù)經(jīng)K-S正態(tài)分布檢驗(yàn),將符合正態(tài)分布的數(shù)據(jù)采用均數(shù)±標(biāo)準(zhǔn)差表示,不符合的數(shù)據(jù)采用中位數(shù)和四分位間距表示。由于篇幅限制,表3 中僅列出部分特征。
2.2 監(jiān)督學(xué)習(xí)模型分級(jí)效果
各監(jiān)督學(xué)習(xí)模型和Logistic回歸的分級(jí)效果見(jiàn)表4。
由表4可以看出,分級(jí)效果最好的是XGBoost模型,準(zhǔn)確率為0.913,AUC為0.994,其他3項(xiàng)指標(biāo)也均位列第一。其余監(jiān)督學(xué)習(xí)模型分級(jí)準(zhǔn)確率均在0.758以上,AUC均在0.917以上。而Logistic回歸模型分級(jí)性能較監(jiān)督學(xué)習(xí)模型有一定的差距,準(zhǔn)確率為0.598,AUC為0.857,其他3項(xiàng)指標(biāo)也均排在末位。
XGBoost模型的混淆矩陣和ROC曲線見(jiàn)圖2,圖中數(shù)值均為5次建模結(jié)果的中值。
2.3 特征重要性
為進(jìn)一步辨別各特征對(duì)分級(jí)結(jié)果的影響程度,進(jìn)行特征重要性分析。由于XGBoost模型分級(jí)效果最好,且具有特征分析功能,故使用該模型進(jìn)一步計(jì)算特征權(quán)重?cái)?shù)值。圖3列出了權(quán)重排名前20的特征。結(jié)果表明,與分級(jí)最相關(guān)的是《大綱》和《標(biāo)準(zhǔn)》部分級(jí)別的詞匯比例,其中《大綱》6級(jí)詞匯比例的重要性明顯高于其他特征。
只觀察特征權(quán)重排名尚無(wú)法確定將多少個(gè)特征納入模型可以達(dá)到最好的效果,故使用RFE計(jì)算最佳特征個(gè)數(shù)。常用的RFE基礎(chǔ)算法包括回歸以及SVM,DT和RF等。由于RF在本次實(shí)驗(yàn)中得分相對(duì)較高,故將其作為基礎(chǔ)算法,使用5倍交叉驗(yàn)證計(jì)算,得出最佳特征數(shù)為21個(gè),如圖4所示。
2.4 模型優(yōu)化
根據(jù)特征重要性和最優(yōu)特征個(gè)數(shù)的計(jì)算結(jié)果,將權(quán)重排名前21位的特征納入各監(jiān)督學(xué)習(xí)算法,建模結(jié)果顯示仍以XGBoost算法的分級(jí)效果最好,準(zhǔn)確率和AUC分別達(dá)到0.919和0.995。其余模型的分級(jí)效果也有不同程度的提高。
從特征權(quán)重排名可以看出,3項(xiàng)與文本長(zhǎng)度相關(guān)的指標(biāo)(單文本總字?jǐn)?shù)、總詞數(shù)和總句數(shù))與分級(jí)結(jié)果相關(guān)性較高,這與HSK各級(jí)別題目的文字量相一致??紤]到用戶自選的文本在字詞方面的難度不一定與文本長(zhǎng)度成正比,為避免文本過(guò)長(zhǎng)或過(guò)短對(duì)分級(jí)結(jié)果的影響,本研究結(jié)果呈現(xiàn)為包括和去除文本長(zhǎng)度特征2種情況。
在可讀性特征集中去除上述3項(xiàng)文本長(zhǎng)度特征后,再次使用XGBoost算法和RFE進(jìn)行建模、特征權(quán)重排序和最優(yōu)特征個(gè)數(shù)計(jì)算。由于去除的特征權(quán)重較高,因而XGBoost模型分級(jí)效果有所下降,準(zhǔn)確率為0.903,AUC為0.990。剩余各特征之間的相對(duì)排名較前無(wú)明顯變化,最佳特征數(shù)為25個(gè)。對(duì)納入排名前25位的特征再次使用XGBoost算法進(jìn)行建模,模型分級(jí)準(zhǔn)確率為0.908,AUC為0.992,分級(jí)效果如表5所示。
2.5 在線工具
分別使用表5中的第2和第4項(xiàng)模型建立文本自動(dòng)分級(jí)工具,網(wǎng)址為http://www.hskclassify.online,可通過(guò)Web瀏覽器訪問(wèn)。
3 分析與討論
3.1 監(jiān)督學(xué)習(xí)在HSK閱讀文本分級(jí)中的應(yīng)用
本研究中,特征篩選后的XGBoost模型分級(jí)準(zhǔn)確率達(dá)到了0.913,較已有研究[2-3]有了明顯提升,其余監(jiān)督學(xué)習(xí)模型的準(zhǔn)確率也均在0.758以上。與之相比,Logistic回歸模型在相同數(shù)據(jù)條件下的準(zhǔn)確率僅為0.598。Logistic回歸是一種線性分類器,主要處理二分類問(wèn)題,并且要求數(shù)據(jù)必須線性可分,不能有效處理多分類問(wèn)題或者非線性數(shù)據(jù)。當(dāng)特征空間很大時(shí),Logistic回歸的性能也會(huì)受到明顯影響[17]。相比之下,監(jiān)督學(xué)習(xí)包含多種類型的算法和技術(shù),具有優(yōu)秀的計(jì)算效能和良好的魯棒性,可以提升文本分類的準(zhǔn)確度和靈活性[18],能夠處理規(guī)模較大的數(shù)據(jù)和任務(wù),如多分類問(wèn)題、回歸問(wèn)題和聚類問(wèn)題等[19]。
在監(jiān)督學(xué)習(xí)中,Boosting算法是一個(gè)比較新的分支,其核心思想是通過(guò)迭代方式,不斷調(diào)整數(shù)據(jù)的權(quán)重分布,使得前一個(gè)弱分類器分錯(cuò)的樣本在后續(xù)模型中得到更多的關(guān)注,從而使整體模型更好地對(duì)這些困難樣本進(jìn)行分類[20]。在本研究建立的9種監(jiān)督學(xué)習(xí)模型中,4種Boosting算法(XGBoost,LGBM,GBDT和AdaBoost)均達(dá)到了較好的分級(jí)效果,準(zhǔn)確率均在0.901以上;2種Bagging算法(ETC,RF)性能稍弱,準(zhǔn)確率分別為0.895和0.894;而3種經(jīng)典模型(DT,SVM和KNN)準(zhǔn)確率分別為0.812,0.782和0.758,與上述模型相比有一定的差距。整體來(lái)看,Boosting算法在HSK閱讀文本分析方面具有優(yōu)勢(shì)。這表明在遇到漢語(yǔ)文本可讀性數(shù)據(jù)分析問(wèn)題時(shí),應(yīng)當(dāng)納入監(jiān)督學(xué)習(xí)特別是Boosting算法,并與其他算法進(jìn)行對(duì)比,擇優(yōu)選用,以達(dá)到更好的分析效果,使研究結(jié)果更具指導(dǎo)性和針對(duì)性。
采用準(zhǔn)確率、AUC等多項(xiàng)指標(biāo)評(píng)價(jià)各模型的分級(jí)效果,可以全面了解模型性能。準(zhǔn)確率是文本可讀性研究中使用較多的一個(gè)指標(biāo),指的是被正確分類的樣本數(shù)與總樣本數(shù)的比值。如果一個(gè)分類模型的準(zhǔn)確率高,說(shuō)明該模型能夠很好地將不同類別的樣本區(qū)分開(kāi)。但在樣本不均衡的情況下,準(zhǔn)確率可能無(wú)法準(zhǔn)確反映模型性能[21]。AUC是一個(gè)在監(jiān)督學(xué)習(xí)領(lǐng)域更加常用的評(píng)估指標(biāo),衡量模型在所有可能的分類閾值下的表現(xiàn),可以反映模型對(duì)多類別的整體排序能力。AUC同時(shí)考量對(duì)正例和負(fù)例的區(qū)分,在樣本不均衡的情況下,依然能夠合理評(píng)估模型性能[22]。本研究中,HSK不同級(jí)別的文本字?jǐn)?shù)和所生成的文本條數(shù)差距較大:1級(jí)為6 451字,102條文本;6級(jí)為191 669字,352條文本。因此,除了準(zhǔn)確率等指標(biāo),本研究還采用AUC作為評(píng)估標(biāo)準(zhǔn)。在9種監(jiān)督學(xué)習(xí)算法中,XGBoost算法的AUC值最高,為0.994,表明該算法具有較高的分級(jí)性能和實(shí)用價(jià)值。
3.2 HSK閱讀文本分級(jí)模型的啟示
語(yǔ)言的本質(zhì)是詞匯和語(yǔ)法的組合,通過(guò)考查詞匯的掌握情況,可以更準(zhǔn)確地評(píng)估語(yǔ)言水平和實(shí)際應(yīng)用能力。本研究主要采用《大綱》1—6級(jí)和《標(biāo)準(zhǔn)》1—9級(jí)詞匯表。從特征篩選結(jié)果來(lái)看,《大綱》和《標(biāo)準(zhǔn)》不同級(jí)別的詞匯比例在前10項(xiàng)中占據(jù)了7項(xiàng),在去除3個(gè)文本長(zhǎng)度特征后更是占據(jù)了9項(xiàng),且分級(jí)準(zhǔn)確率較高。這表明不同難度等級(jí)的詞匯是影響HSK閱讀文本分級(jí)的最主要因素。因此,在針對(duì)HSK的研究中,應(yīng)當(dāng)特別重視對(duì)詞匯的學(xué)習(xí)和使用。
《標(biāo)準(zhǔn)》的制定與《大綱》關(guān)系密切。在詞匯量方面,《大綱》詞匯總量為5 000個(gè),《標(biāo)準(zhǔn)》以《大綱》為基礎(chǔ)進(jìn)行了擴(kuò)充和更新,詞匯總量為11 092個(gè)。研究顯示,《大綱》中的4 392個(gè)詞匯被收入《標(biāo)準(zhǔn)》中。本研究特征篩選結(jié)果表明,《大綱》和《標(biāo)準(zhǔn)》的各級(jí)詞匯比例對(duì)于HSK分級(jí)的影響程度基本等同,這與兩者共有詞匯較多的現(xiàn)象相符。為了判斷本研究成果對(duì)HSK變化的適應(yīng)能力,在數(shù)據(jù)集中去除了《大綱》1—6級(jí)詞匯比例這6個(gè)特征,再次進(jìn)行模型訓(xùn)練和特征篩選。結(jié)果顯示,分級(jí)準(zhǔn)確率仍可達(dá)0.881,《標(biāo)準(zhǔn)》各級(jí)詞匯比例在特征權(quán)重排名前10項(xiàng)中占據(jù)了6項(xiàng)。
文本長(zhǎng)度也是影響HSK分級(jí)的重要因素。在HSK 1—6級(jí)中,每份閱讀部分的平均字?jǐn)?shù)為190~7 114,HSK 6級(jí)的閱讀大題單篇文字量可達(dá)1 000字。這提示在遴選HSK閱讀材料時(shí),應(yīng)注意文本長(zhǎng)度與難度之間的相關(guān)性,適當(dāng)增加單篇千字以上的長(zhǎng)文本閱讀訓(xùn)練。
本研究建立了在線分級(jí)工具,可對(duì)自選文本進(jìn)行相應(yīng)的HSK分級(jí),對(duì)于介于兩級(jí)之間的文本,可顯示屬于每一級(jí)的概率數(shù)值,便于用戶綜合判斷。在具體操作中,根據(jù)HSK各級(jí)閱讀真題的字?jǐn)?shù)情況,建議輸入文本的字?jǐn)?shù)在50~1 000之間。對(duì)于過(guò)長(zhǎng)或過(guò)短的文本,應(yīng)以去除文本長(zhǎng)度特征后的分級(jí)結(jié)果為主。
4 結(jié) 語(yǔ)
1)基于監(jiān)督學(xué)習(xí)的HSK閱讀材料自動(dòng)分級(jí)模型研究結(jié)果顯示,各級(jí)詞匯比例是影響文本分級(jí)的主要因素。經(jīng)參數(shù)優(yōu)化和特征篩選,XGBoost算法在各監(jiān)督學(xué)習(xí)模型中的分級(jí)效果最好,準(zhǔn)確率為0.919。在HSK閱讀文本分析方面,監(jiān)督學(xué)習(xí)較Logistic回歸有明顯優(yōu)勢(shì),其中又以Boosting表現(xiàn)最佳。
2)本研究建立的分級(jí)模型和在線工具能夠以較高的準(zhǔn)確率對(duì)自選文本進(jìn)行HSK等級(jí)分類,幫助用戶有針對(duì)性地遴選,提高學(xué)習(xí)效率。
后續(xù)研究將根據(jù)HSK閱讀文本在詞匯和其他可讀性特征上的變化,調(diào)整模型參數(shù)和特征權(quán)重,及時(shí)更新研究成果。同時(shí),緊跟監(jiān)督學(xué)習(xí)領(lǐng)域的發(fā)展,對(duì)所建立的模型和在線工具不斷進(jìn)行優(yōu)化,添加更多功能,達(dá)到更好的使用效果。
參考文獻(xiàn)/References:
[1] PENG Yue,YAN Wei,CHENG Liying.HSK:A multi-level,multi-purpose proficiency test[J].Language Testing,2021,38(2):326-337.
[2] 江新,宋冰冰,姜悅,等.漢語(yǔ)水平考試(HSK)閱讀測(cè)試文本的可讀性分析[J].中國(guó)考試,2020(12):30-37.JIANG Xin,SONG Bingbing,JIANG Yue,et al.A study on the readability of reading test texts in Chinese proficiency test(HSK)[J].China Examinations,2020(12):30-37.
[3] 杜月明,王亞敏,王蕾.漢語(yǔ)水平考試(HSK)閱讀文本可讀性自動(dòng)評(píng)估研究[J].語(yǔ)言文字應(yīng)用,2022(3):73-86.DU Yueming,WANG Yamin,WANG Lei.A study on the automatic text readability assessment of reading texts in Hanyu Shuiping Kaoshi(HSK)[J].Applied Linguistics,2022(3):73-86.
[4] 張慶翔,張瑩.國(guó)際中文教育的文本可讀性研究回顧[J].現(xiàn)代語(yǔ)文,2022(10):89-95.ZHANG Qingxiang,ZHANG Ying.A review of research on the readability of international Chinese language education texts[J].Modern Chinese,2022(10):89-95.
[5] 夏菁,孫未未.多向度計(jì)量語(yǔ)體特征下的對(duì)外漢語(yǔ)教材可讀性自動(dòng)評(píng)估研究[J].華中學(xué)術(shù),2020,13(2):181-193.
[6] 孫未未,夏菁,曾致中.基于回歸模型的對(duì)外漢語(yǔ)閱讀材料的可讀性自動(dòng)評(píng)估研究[J].中國(guó)教育信息化,2018(15):67-74.
[7] 楊文娣,曾致中.基于隨機(jī)森林算法的對(duì)外漢語(yǔ)文本可讀性評(píng)估[J].中國(guó)教育信息化,2019(14):89-96.
[8] 許琦,姚錦江.基于特征提取和機(jī)器學(xué)習(xí)的數(shù)據(jù)可視化模型構(gòu)建研究[J].自動(dòng)化與儀器儀表,2023(12):38-41.XU Qi,YAO Jinjiang.Research on data and information visualization model construction based on feature extraction and machine learning[J].Automation & Instrumentation,2023(12):38-41.
[9] 盛雪晨.基于分布式機(jī)器學(xué)習(xí)的文本分類模型研究[D].南京:南京郵電大學(xué),2023.SHENG Xuechen.Text Classification Model Basedon Distributed Machine Learning[D].Nanjing:Nanjing University of Posts and Telecommunications,2023.
[10]李艷,朱倩倩,董秀萍.基于機(jī)器學(xué)習(xí)模型的客服短文本分類技術(shù)研究[J].現(xiàn)代計(jì)算機(jī),2023,29(15):64-68.LI Yan,ZHU Qianqian,DONG Xiuping.Research on short text classification technology of customer service based on machine learning model[J].Modern Computer,2023,29(15):64-68.
[11]劉濱,詹世源,劉宇,等.基于密度Canopy的評(píng)論文本主題識(shí)別方法[J].河北科技大學(xué)學(xué)報(bào),2023,44(5):493-501.LIU Bin,ZHAN Shiyuan,LIU Yu,et al.Topic recognition method of comment text based on density Canopy[J].Journal of Hebei University of Science and Technology,2023,44(5):493-501.
[12]劉濱.分布式數(shù)據(jù)挖掘綜述[J].河北科技大學(xué)學(xué)報(bào),2014,35(1):79-90.LIU Bin.Survey on distributed data mining[J].Journal of Hebei University of Science and Technology,2014,35(1):79-90.
[13]于衛(wèi)紅.多類別文本分類方法比較研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2022,32(1):54-60.YU Weihong.Study on comparison of multi-class text classification methods[J].Computer Technology and Development,2022,32(1):54-60.
[14]GONZLEZS S, GARCA S,SER J D,et al.A practical tutorial on bagging & boosting based ensembles for machine learning:Algorithms,software tools,performance study,practical perspectives & opportunities[J].Information Fusion,2020(64):205-237.
[15]吳思遠(yuǎn),蔡建永,于東,等.文本可讀性的自動(dòng)分析研究綜述[J].中文信息學(xué)報(bào),2018,32(12):1-10.WU Siyuan,CAI Jianyong,YU Dong,et al.A survey on the automatic text readability measures[J].Journal of Chinese Information Processing,2018,32(12):1-10.
[16]DU Yueming.The relationship of lexical richness to the quality of CSL writings[C]//Lecture Notes in Computer Science.Cham:Springer,2023:116-131.
[17]WESTREICH D,LESSLER J,F(xiàn)UNK M J.Propensity score estimation: Neural networks, support vector machines, decision trees (CART), and meta-classifiers as alternatives to logistic regression[J].Journal of Clinical Epidemiology,2010,63(8):826-833.
[18]楊曉哲,王晴晴,蔣佳龍.基于人工智能的課堂師生對(duì)話分析:IRE的自動(dòng)分類與分水平構(gòu)建[J].電化教育研究,2023,44(10):79-86.YANG Xiaozhe,WANG Qingqing,JIANG Jialong.Analysis of classroom teacher-student dialogue based on artificial intelligence:Automatic classification and sub-level construction of IRE[J].E-education Research,2023,44(10):79-86.
[19]FEURER M,KLEIN A,EGGENSPERGER K,et al.Efficient and robust automated machine learning[J].Advances in Neural Information Processing Systems,2016,28:2944-2952.
[20]MAYR A,BINDER H,GEFELLER O,et al.The evolution of boosting algorithms[J].Methods of Information in Medicine,2014,53(6):419-427.
[21]ABDELRAHMAN S M A,ABRAHAM A.A review of class imbalance problem[J].Journal of Network and Innovative Computing,2013,1:332-340.
[22]LINGC X,HUANG J,ZHANG H.AUC:A better measure than accuracy in comparing learning algorithms[C]//Advances in Artificial Intelligence.Berlin:Springer,2003:329-341.
責(zé)任編輯:張士瑩
基金項(xiàng)目:國(guó)家自然科學(xué)基金(61572170);河北師范大學(xué)2023年度人文社會(huì)科學(xué)校內(nèi)科研基金(S23AI001)
第一作者簡(jiǎn)介:任夢(mèng)(1990—),女,河北石家莊人,講師,博士研究生,主要從事自然語(yǔ)言處理等方面的研究。E-mail:olivia24rm@126.com任夢(mèng),王方偉.基于監(jiān)督學(xué)習(xí)的HSK閱讀文本自動(dòng)分級(jí)模型研究[J].河北科技大學(xué)學(xué)報(bào),2024,45(2):150-158.REN Meng,WANG Fangwei.Research on automatic grading model of HSK reading texts based on supervised learning[J].Journal of Hebei University of Science and Technology,2024,45(2):150-158.