梁瓊芳 莎仁
摘 要:為了實(shí)現(xiàn)教育領(lǐng)域的“個(gè)性化”,無(wú)論是自由組卷的個(gè)性化,還是試題推薦的個(gè)性化,都首先需要確定試題難易度。研究目標(biāo)為尋找新的方法解決基于試題難易度的分類(lèi)問(wèn)題,提高分類(lèi)準(zhǔn)確率。以高中數(shù)學(xué)為例,采用2018年多套高考數(shù)學(xué)試題作為實(shí)驗(yàn)數(shù)據(jù),對(duì)原始數(shù)據(jù)各個(gè)特征進(jìn)行相關(guān)性分析,剔除影響較小的特征,再采用隨機(jī)森林算法探索試題難易度分類(lèi)問(wèn)題,對(duì)參數(shù)進(jìn)行改進(jìn)優(yōu)化,并與其它分類(lèi)方法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果證明,采用隨機(jī)森林的高中數(shù)學(xué)試題分類(lèi)準(zhǔn)確率高達(dá)90%,而其它3種分類(lèi)算法準(zhǔn)確率分別為72%、74%、74%。因此得出結(jié)論,隨機(jī)森林算法在高中數(shù)學(xué)試題難易度分類(lèi)上有較好表現(xiàn),能夠大幅提高分類(lèi)準(zhǔn)確率。
關(guān)鍵詞:高中數(shù)學(xué);試題難易度;分類(lèi)算法;決策樹(shù);隨機(jī)森林
DOI:10. 11907/rjdk. 191358 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)002-0122-05
英標(biāo):Classification of Mathematics Testability Difficulty Based on Random Forest
英作:LIANG Qiong-fang, SHA Ren
英單:(School of Information Science & Technology, Northeast Normal University, Changchun 130117,China)
Abstract: In order to realize individualization in the field of education, whether it is the individualization of the free test papers or the personalization of the test questions, the difficulty of the test questions must firstly be determined. Therefore, the research goal of this paper is to find new ways to solve the test questions. The classification problem of difficulty is easy, and the accuracy of classification is improved. Taking high school mathematics as an example, in this paper, the mathematics test questions of the college entrance examination in 2018 are used as experimental data, and the correlation analysis of each feature of the original data is carried out to eliminate the features with less influence. Then the random forest algorithm is used to explore the difficulty classification of the test questions, and the parameters are improved and optimized and compared with other classification methods. Experiments show that the accuracy rate of random forests for high school mathematics test classification is as high as 90%, while the accuracy of other classification algorithms is 72% and 74%. Therefore, it is concluded that the random forest algorithm has excellent performance in the classification of high school mathematics questions and can greatly improve the classification accuracy.
Key Words: high school mathematics; test difficulty; classification algorithm; decision tree; random forest
0 引言
近年來(lái),個(gè)性化推薦技術(shù)正在各個(gè)領(lǐng)域迅速興起,而教育領(lǐng)域作為當(dāng)今社會(huì)必不可少且不容忽視的一部分,越來(lái)越需要“個(gè)性化”的引入。如今網(wǎng)絡(luò)試題題庫(kù)、組卷系統(tǒng)層出不窮,都是為了實(shí)現(xiàn)學(xué)生的高效練習(xí),而確定試題難易程度是題庫(kù)構(gòu)建,以及自由組卷與試題個(gè)性化推薦的基礎(chǔ)。
在數(shù)學(xué)試題難易度研究方面,國(guó)外Pollitt等[1]在1985年提出難度的3個(gè)來(lái)源,1996年劍橋考試委員會(huì)研究者[2]從權(quán)威角度提出影響數(shù)學(xué)試題難易度的因素,1999年Ahmed等[3]研究了試題認(rèn)知要求程度對(duì)問(wèn)題難度的影響,直至2006年Leong[4]歸納了影響試卷難度的4個(gè)因素,分別為內(nèi)容、材料、主體因素與命題者決策。在國(guó)內(nèi),1994年任子朝等[5]提出可從多個(gè)客觀角度評(píng)估試題難度;2002年李紅松等[6]提出試題難易度與學(xué)生成績(jī)分布有關(guān),并采用主觀模糊評(píng)價(jià)方法結(jié)合成績(jī)分布確定試題難易度;2008年,教育部考試中心[7]歸納總結(jié)了影響試題難易度的因素,包括知識(shí)點(diǎn)個(gè)數(shù)、運(yùn)算過(guò)程步驟數(shù)、推理轉(zhuǎn)折數(shù)、設(shè)陷數(shù)、創(chuàng)新度、繁瑣度、啟發(fā)度、猜測(cè)度等;2016年,候飛飛[8]根據(jù)試題自身特點(diǎn),結(jié)合C4.5決策樹(shù)方法,對(duì)物理試題進(jìn)行難易程度分類(lèi)研究,驗(yàn)證了決策樹(shù)分類(lèi)算法的可行性;2018年,陳薈慧等[9]進(jìn)行基于在線測(cè)評(píng)系統(tǒng)的編程題目難度研究,但仍然依賴(lài)于被試的作答通過(guò)率;同年曹開(kāi)奉等[10]總結(jié)歸納了我國(guó)高考理科試題難度影響因素,為本文研究打下了基礎(chǔ)。本文致力于實(shí)現(xiàn)高中數(shù)學(xué)試題的客觀難易度分類(lèi),以避免通過(guò)人為主觀判斷或過(guò)分依賴(lài)于被試作答通過(guò)率進(jìn)行難易度分類(lèi)造成的偏差。
常用分類(lèi)算法如下:典型的樸素貝葉斯方法,針對(duì)大量數(shù)據(jù)訓(xùn)練速度較快,并支持增量式訓(xùn)練,對(duì)結(jié)果的解釋便于理解,但在大數(shù)據(jù)集下才能獲得較為準(zhǔn)確的分類(lèi)結(jié)果,且忽略了數(shù)據(jù)各屬性值之間的關(guān)聯(lián)性[11];K-最近鄰分類(lèi)算法比較簡(jiǎn)單,訓(xùn)練過(guò)程迅速,抗噪聲能力強(qiáng),新數(shù)據(jù)可以直接加入訓(xùn)練集而不必重新進(jìn)行訓(xùn)練,但在樣本不平衡時(shí)結(jié)果偏差較大,且每次分類(lèi)都需要重新進(jìn)行一次全局運(yùn)算[12];決策樹(shù)分類(lèi)算法易于理解與解釋?zhuān)蛇M(jìn)行可視化分析,運(yùn)行速度較快,可擴(kuò)展應(yīng)用于大型數(shù)據(jù)庫(kù)中,但容易出現(xiàn)過(guò)擬合問(wèn)題,且易忽略數(shù)據(jù)屬性間的關(guān)聯(lián)性[13]。
自2000年以來(lái),深度學(xué)習(xí)等人工智能技術(shù)得到了迅速發(fā)展,在很多領(lǐng)域都取得了較好的應(yīng)用效果。其中隨機(jī)森林算法在分類(lèi)方面表現(xiàn)突出,其避免了決策樹(shù)分類(lèi)算法中容易出現(xiàn)的過(guò)擬合問(wèn)題,并在運(yùn)算量未顯著增加的前提下,提高了分類(lèi)準(zhǔn)確率[14]。因此,本文旨在利用隨機(jī)森林算法實(shí)現(xiàn)一種更精確、客觀的試題難易度分類(lèi)方法,既能節(jié)省人力,又可提升分類(lèi)準(zhǔn)確率與客觀性。
1 隨機(jī)森林
1.1 決策樹(shù)——隨機(jī)森林的基分類(lèi)器
決策樹(shù)作為隨機(jī)森林的基分類(lèi)器,是一種單分類(lèi)器的分類(lèi)技術(shù),也是一種無(wú)參有監(jiān)督的機(jī)器學(xué)習(xí)算法[15]。決策樹(shù)可視為一個(gè)樹(shù)狀模型,由節(jié)點(diǎn)與有向邊組成,其中包括3種節(jié)點(diǎn):根節(jié)點(diǎn)、中間節(jié)點(diǎn)和葉子節(jié)點(diǎn)。決策樹(shù)構(gòu)建不需要先驗(yàn)知識(shí),并且比諸如神經(jīng)網(wǎng)絡(luò)的方法更容易解釋。決策樹(shù)分類(lèi)思想實(shí)際上是一個(gè)數(shù)據(jù)挖掘過(guò)程,其通過(guò)產(chǎn)生一系列規(guī)則,然后基于這些規(guī)則進(jìn)行數(shù)據(jù)分析。構(gòu)建決策樹(shù)的一個(gè)關(guān)鍵問(wèn)題是節(jié)點(diǎn)分裂特征選擇,由于不同分裂標(biāo)準(zhǔn)對(duì)決策樹(shù)的泛化誤差有很大影響,因此根據(jù)不同劃分標(biāo)準(zhǔn),學(xué)者們提出了大量決策樹(shù)算法[16]。
其中Hunt等[17]提出的CLS算法隨機(jī)選擇分裂節(jié)點(diǎn),Quinlan等[18]提出的ID3算法基于信息嫡,C4.5算法基于信息增益率[19],Breiman等[20]提出的CART算法基于Gini指標(biāo),然而沒(méi)有一種算法在各種數(shù)據(jù)集上都能得到最好結(jié)果。決策樹(shù)采用單一決策方式,因此具有以下缺點(diǎn):一是包含復(fù)雜的分類(lèi)規(guī)則,一般需要決策樹(shù)事前剪枝或事后剪枝;二是收斂過(guò)程中容易出現(xiàn)局部最優(yōu)解;三是因決策樹(shù)過(guò)于復(fù)雜,容易出現(xiàn)過(guò)擬合問(wèn)題。
1.2 隨機(jī)森林構(gòu)建
為了克服以上所述決策樹(shù)算法的不足,結(jié)合集成學(xué)習(xí)思想[21],研究者們提出了“森林”的概念。森林中的決策樹(shù)按照一定精度進(jìn)行分類(lèi),最后所有決策樹(shù)參與投票決定最終分類(lèi)結(jié)果,這是隨機(jī)森林的核心概念。隨機(jī)森林構(gòu)建主要包括以下3個(gè)步驟:
(1)為N棵決策樹(shù)抽樣產(chǎn)生N個(gè)訓(xùn)練集。 每一棵決策樹(shù)都對(duì)應(yīng)一個(gè)訓(xùn)練集,主要采用Bagging抽樣方法從原始數(shù)據(jù)集中產(chǎn)生N個(gè)訓(xùn)練子集。Bagging抽樣方法是無(wú)權(quán)重的隨機(jī)有放回抽樣,在每次抽取樣本時(shí),原數(shù)據(jù)集大小不變,但在提取的樣本集中會(huì)有一些重復(fù),以避免隨機(jī)森林決策樹(shù)中出現(xiàn)局部最優(yōu)解問(wèn)題[22]。
(2)決策樹(shù)構(gòu)建。該算法為每個(gè)訓(xùn)練子集構(gòu)造單獨(dú)的決策樹(shù),最終形成N棵決策樹(shù)以形成“森林”。節(jié)點(diǎn)分裂原則一般采用CART算法或C4. 5算法,在隨機(jī)森林算法中,并非所有屬性都參與節(jié)點(diǎn)分裂指標(biāo)計(jì)算,而是在所有屬性中隨機(jī)選擇某幾個(gè)屬性,選中的屬性個(gè)數(shù)稱(chēng)為隨機(jī)特征變量。隨機(jī)特征變量的引入是為了使每棵決策樹(shù)相互獨(dú)立,減少彼此之間的關(guān)聯(lián)性,同時(shí)提升每棵決策樹(shù)的分類(lèi)準(zhǔn)確性,從而提高整個(gè)森林的性能。
(3)森林形成及算法執(zhí)行。重復(fù)步驟(1)、(2),構(gòu)建大量決策樹(shù),形成隨機(jī)森林。算法最終輸出由多數(shù)投票方法實(shí)現(xiàn)。將測(cè)試集樣本輸入隨機(jī)構(gòu)建的N棵決策子樹(shù)進(jìn)行分類(lèi),總結(jié)每棵決策樹(shù)分類(lèi)結(jié)果,并將具有最大投票數(shù)的分類(lèi)結(jié)果作為算法最終輸出結(jié)果。
隨機(jī)森林算法原理如圖1所示。
2 基于隨機(jī)森林的試題難易度分類(lèi)模型構(gòu)建及優(yōu)化
2.1 數(shù)據(jù)特征分析與選擇
本文采用的試題數(shù)據(jù)為2018年全國(guó)各省高考數(shù)學(xué)試題,部分試題特征來(lái)源于組卷網(wǎng),但其涵蓋的試題特征不夠全面,故其它影響難易度的試題特征可通過(guò)對(duì)答案的解析加以確定,并自主進(jìn)行數(shù)據(jù)標(biāo)記,主要字段說(shuō)明見(jiàn)表1。
(1)無(wú)關(guān)數(shù)據(jù)剔除。表1中序1、2、3、5特征對(duì)試題難易度分類(lèi)沒(méi)有價(jià)值,不作為訓(xùn)練特性,故刪除該字段。
(2)對(duì)連續(xù)性變量,采用Pearson(皮爾森)相關(guān)系數(shù)方法驗(yàn)證與試題難易度值相關(guān)關(guān)系是否顯著[23],屬性中連續(xù)變量有textLength和guessMeasure,其與難度值的Pearson相關(guān)性系數(shù)分別為0.325 031和-0.095 424,故保留textLength,刪除guessMeasure。
(3)對(duì)于二分類(lèi)變量,采用點(diǎn)二列相關(guān)系數(shù)方法驗(yàn)證與試題難易度值相關(guān)關(guān)系是否顯著[24],特征中二分變量與難易度的點(diǎn)二列相關(guān)系數(shù)分別為type0.295 424、knowledgePos-0.149 294、conditionSatisfact-0.442 642、expressionWay-0.011 241和inspireMeasure0.011 241,故只保留type與conditionSatisfact特征,刪除其它特征。
(4)對(duì)于等級(jí)變量,采用Spearman(斯皮爾曼)等級(jí)相關(guān)系數(shù)方法驗(yàn)證與試題難易度值相關(guān)關(guān)系是否顯著[25],特征中等級(jí)變量與難易度Spearman相關(guān)系數(shù)分別為knowledgeNum0.460 722、backgroundLevel0.266 939、solveStep 0.580 002、physicalLevel0.587 000、mathLevel0.514 686、moduleNum0.406 973、thinkingWay0.066 568和novelMeasure0.130 309,刪除thinkingWay與novelMeasure特征,保留其它特征。
綜上,最終選擇影響試題難易度的9個(gè)特征。采用隨機(jī)森林算法作特征選擇,可以很好地解決過(guò)擬合問(wèn)題,同時(shí)也能過(guò)濾掉重要性很低的特征,提高模型分類(lèi)準(zhǔn)確率。
2.2 模型構(gòu)建與優(yōu)化
采用CART 算法作為隨機(jī)森林構(gòu)建決策樹(shù)的方法,采用Gini系數(shù)最小準(zhǔn)則進(jìn)行節(jié)點(diǎn)分裂。CART 算法在訓(xùn)練過(guò)程中需要計(jì)算每個(gè)屬性的Gini指標(biāo),并選擇一個(gè)具有最小Gini指標(biāo)的變量對(duì)當(dāng)前節(jié)點(diǎn)進(jìn)行分裂,通過(guò)遞歸形式構(gòu)建決策樹(shù),直至達(dá)到停止條件。Gini系數(shù)計(jì)算公式如下:
式(1)中K表示有K個(gè)類(lèi)別,[pmk]表示節(jié)點(diǎn)m中類(lèi)別k所占比例,當(dāng)Gini取最小值0時(shí),此時(shí)數(shù)據(jù)類(lèi)別最純;當(dāng)Gini取最大值1時(shí),則表示當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)類(lèi)別不同。根據(jù)式(1)計(jì)算特征的Gini系數(shù),將Gini值最小的點(diǎn)作為該層分裂節(jié)點(diǎn),遞歸地構(gòu)建決策樹(shù)。重復(fù)上述步驟,形成隨機(jī)森林。構(gòu)建過(guò)程中各特征重要性見(jiàn)表2。
對(duì)隨機(jī)森林的minimal node size與mtry進(jìn)行參數(shù)尋優(yōu),最終確定構(gòu)建的最優(yōu)隨機(jī)森林node size為33,mtry為4。其中minimal node size尋優(yōu)過(guò)程中測(cè)試集分類(lèi)準(zhǔn)確率變化見(jiàn)圖2。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)分為兩個(gè)階段:模型訓(xùn)練階段與測(cè)試階段。將數(shù)據(jù)集按7∶3的比例劃分為訓(xùn)練集和測(cè)試集,分別利用樸素貝葉斯分類(lèi)、KNN分類(lèi)、決策樹(shù)分類(lèi)以及本文構(gòu)建的隨機(jī)森林方法進(jìn)行分類(lèi)預(yù)測(cè)實(shí)驗(yàn),并將不同算法的混淆矩陣指標(biāo)及準(zhǔn)確率Accuracy進(jìn)行對(duì)比[26]。
3.2 實(shí)驗(yàn)結(jié)果
KNN分類(lèi)算法中,neighbors值變化與最終分類(lèi)準(zhǔn)確率關(guān)系變化見(jiàn)圖3,故最終選用5-nearest neighbor model模型。
4種分類(lèi)算法實(shí)驗(yàn)結(jié)果見(jiàn)表3、表4。
將樸素貝葉斯、KNN、決策樹(shù)和隨機(jī)森林分類(lèi)算法的實(shí)驗(yàn)結(jié)果召回率Sensitivity、特異度Secificity與準(zhǔn)確率Accuracy進(jìn)行對(duì)比,結(jié)果如圖4-圖6所示。
由上圖可以看出,隨機(jī)森林的召回率和特異度優(yōu)于其它3種分類(lèi)算法,且分類(lèi)準(zhǔn)確率明顯高于其它3種分類(lèi)算法,故驗(yàn)證了本文方法的正確性及有效性。
4 結(jié)語(yǔ)
本文將隨機(jī)森林分類(lèi)方法應(yīng)用于高考數(shù)學(xué)試題客觀難易度分類(lèi),大幅提高了分類(lèi)準(zhǔn)確率,為試題個(gè)性化推薦與自由組卷系統(tǒng)奠定了基礎(chǔ)。但由于網(wǎng)上開(kāi)源的教育數(shù)據(jù)較少,故應(yīng)用的實(shí)驗(yàn)數(shù)據(jù)集較小,使用大數(shù)據(jù)集應(yīng)能進(jìn)一步提高分類(lèi)準(zhǔn)確率,但有待后續(xù)進(jìn)一步驗(yàn)證。另外,本文只分析了影響數(shù)學(xué)學(xué)科試題難易度的因素,對(duì)于英語(yǔ)、語(yǔ)文、生物等學(xué)科試題,其難易度影響因素還有待進(jìn)一步分析與探索,這也將是未來(lái)的研究方向。
參考文獻(xiàn):
[1] ALASTAIR P, CAROLYN M, et al. Language, contextual and cultural constraints on examination performance[C]. Jerusalem:the International Association for Educational Assessment,2000.
[2] HANNAH F H, SARAH H. What makes mathematics exam questions difficult[R].? Research and Evaluation University of? Cambridge Local Examinations Syndicate,2006.
[3] AYESHA A,ALASTAIR P. Curriculum demands and question difficulty [C]. Slovenia:IAEA Conference,1999.
[4] CHENG L S. On varying the difficulty of test items[C].? Annual Conference of theInternational Association for Educational Assessment, Singapore, 2006.
[5] 任子朝. 高考數(shù)學(xué)命題研究[J]. 中學(xué)數(shù)學(xué)教學(xué)參考,1994(5):1-4.
[6] 李紅松,田益祥. 試題難易程度的判斷及其集對(duì)分析測(cè)定方法研究[J]. 武漢科技大學(xué)學(xué)報(bào):自然科學(xué)版,2002, 25(2):216-217.
[7] 教育部考試中心. 2008年普通高等學(xué)校招生全國(guó)統(tǒng)一考試大綱:理科[M]. 北京:高等教育出版社,2008.
[8] 候飛飛. 基于C4.5決策樹(shù)的試題難易程度分類(lèi)研究[D]. 新鄉(xiāng):河南師范大學(xué),2016.
[9] 陳薈慧,熊楊帆, 蔣滔滔,等. 基于在線測(cè)評(píng)系統(tǒng)的編程題目難度研究[J]. 現(xiàn)代計(jì)算機(jī):專(zhuān)業(yè)版,2018(13):28-32,36.
[10] 曹開(kāi)奉,王偉群,劉芳. 我國(guó)高考理科試題難度影響因素的文獻(xiàn)分析[J]. 考試研究,2018 (3): 40-46.
[11] LEWIS D D. Naive (Bayes) at forty: the independence assumption in information retrieval[C]. European Conference on Machine Learning,1998.
[12] TANG Q Y, ZHANG C X. Data Processing System (DPS) software with experimental design, statistical analysis and data mining developed for use in entomological research [J]. 中國(guó)昆蟲(chóng)科學(xué):英文版, 2013, 20(2):254-260.
[13] ROMERO C, VENTURA S. Educational data mining: a survey from 1995 to 2005[J].? Expert Systems with Applications, 2007, 33(1):135-146.
[14] SVETNIK V, LIAW A, TONG C, et al. Random forest: a classification and regression tool for compound classification and QSAR modeling[J].? Journal of Chemical Information & Computer Sciences, 2003, 43(6):1947.
[15] 張琳,陳燕,李桃迎,等.? 決策樹(shù)分類(lèi)算法研究[J]. 計(jì)算機(jī)工程, 2011,37(13):66-67.
[16] 王奕森,夏樹(shù)濤. 集成學(xué)習(xí)之隨機(jī)森林算法綜述[J]. 信息通信技術(shù),2018,12(1):49-55.
[17] 曹正鳳. 隨機(jī)森林算法優(yōu)化研究[D]. 北京:首都經(jīng)濟(jì)貿(mào)易大學(xué), 2014.
[18] UTGOFF P E. ID: an incremental ID3[M]. Massachusetts:University of Massachusetts,1987.
[19] QUINLAN J R. C4.5: programs for machine learning [M]. San Mateo:Morgan Kaufmann Publishers Inc,1992.
[20] DEATH G, FABRICIUS K E. Classification and regression trees:a powerful yet simple technique for ecological data analysis [J].? Ecology, 2000, 81(11):3178-3192.
[21] 孔英會(huì).? 基于混淆矩陣和集成學(xué)習(xí)的分類(lèi)方法研究[J].? 計(jì)算機(jī)工程與科學(xué), 2012, 34(6):111-117.
[22] 沈?qū)W華,周志華,吳建鑫,等.? Boosting和Bagging綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2000, 36(12):31-32.
[23] HUBER P J, STRASSEN V. Minimax tests and the neyman-pearson lemma for capacities[J]. Annals of Statistics, 1973 (2):251-263.
[24] 陳冠民, 張選群, 陳華. 多序列相關(guān)系數(shù)及其估計(jì)[J]. 數(shù)理醫(yī)藥學(xué)雜志, 1999, 12(2):101-102.
[25] ZAR J H. Significance testing of the Spearman rank correlation coefficient[J]. Publications of the American Statistical Association, 1972,67(339):578-580.
[26] 宋亞飛,王曉丹,雷蕾. 基于混淆矩陣的證據(jù)可靠性評(píng)估[J]. 系統(tǒng)工程與電子技術(shù),2015,37(4):974-978.
(責(zé)任編輯:黃 ?。?/p>