佟 威 汪 飛 劉 淇 陳恩紅
(中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院 合肥 230027)
教育是人才培養(yǎng)的重要途徑,而考試自古以來(lái)就是評(píng)價(jià)教育成果、進(jìn)行人才選拔的重要方式,在國(guó)家經(jīng)濟(jì)社會(huì)發(fā)展中發(fā)揮著重要的作用.黨和國(guó)家高度重視教育工作,提出了加快建設(shè)教育現(xiàn)代化、建設(shè)教育強(qiáng)國(guó)以及辦好人民滿意的教育的總體要求.新時(shí)代的教育考試改革要緊密結(jié)合當(dāng)前和今后一個(gè)時(shí)期國(guó)家和社會(huì)層面對(duì)人才價(jià)值的需求和判斷,緊密結(jié)合先進(jìn)的信息技術(shù)手段,為新一輪高考改革和政策制定提供更多的體現(xiàn)著中國(guó)智慧的中國(guó)解決方案.
長(zhǎng)久以來(lái),試題難度,特別是高考試題難度,都是教育考試國(guó)家題庫(kù)建設(shè),甚至全社會(huì)重點(diǎn)關(guān)注的指標(biāo)參數(shù),對(duì)保障考試安全平穩(wěn)順利實(shí)施、服務(wù)高校人才選拔、合理引導(dǎo)中學(xué)教學(xué)都有關(guān)鍵影響.如今教育越來(lái)越受重視,對(duì)教育質(zhì)量的要求逐漸增加,如何高效、準(zhǔn)確地評(píng)估試題難度自然也成為了一個(gè)重要的研究問(wèn)題.
傳統(tǒng)方法中,試題難度評(píng)估大多是由人工進(jìn)行[1].通常考試的命題人員和審校人員由具有充足專業(yè)知識(shí)和豐富教學(xué)經(jīng)驗(yàn)的老師或?qū)<覔?dān)任,在設(shè)計(jì)試題時(shí)除了考慮涵蓋的必備知識(shí)和關(guān)鍵能力等內(nèi)容相關(guān)的屬性和維度,也需要控制試題難度在合理范圍,命題和審校人員以自身知識(shí)和經(jīng)驗(yàn)評(píng)估試題難度.另外也有以試測(cè)的形式請(qǐng)部分樣本學(xué)生試做樣題,根據(jù)學(xué)生實(shí)際答題情況評(píng)估試題難度,之后對(duì)樣題稍作更改和重組投入使用,例如TOEFL考試和SAT(scholastic assessment test)考試題等[1].
在教育數(shù)據(jù)挖掘領(lǐng)域,試題評(píng)估是一個(gè)重要的研究方向,現(xiàn)有方法已經(jīng)對(duì)試題多種參數(shù)(如難度、區(qū)分度、猜測(cè)度等)進(jìn)行了評(píng)估分析[2-3].其中應(yīng)用最為廣泛的是來(lái)自教育心理學(xué)的認(rèn)知診斷理論.認(rèn)知診斷通過(guò)利用學(xué)生答題記錄對(duì)學(xué)生試題得分進(jìn)行建模,從而評(píng)估試題參數(shù)和學(xué)生能力.常見的認(rèn)知診斷模型包括基于項(xiàng)目反映理論(item response theory,IRT)[4]的潛在特質(zhì)模型和以DINA(deterministic inputs, noisy “and” gate)模型[5]為代表的潛在分類模型等.其中IRT通過(guò)類邏輯斯蒂回歸模型,結(jié)合學(xué)生的潛在能力,可以評(píng)估試題在難度、區(qū)分度和猜測(cè)度屬性上的數(shù)值;而DINA進(jìn)一步結(jié)合Q矩陣(或稱“試題關(guān)聯(lián)知識(shí)點(diǎn)矩陣”),且將學(xué)生能力描述成多維知識(shí)點(diǎn)掌握向量,建模學(xué)生得分,可以得到試題失誤率、猜測(cè)率等參數(shù).其中Q矩陣是人工標(biāo)注的用以表示試題包含知識(shí)點(diǎn)的矩陣.表1是一個(gè)簡(jiǎn)單的Q矩陣示例,其中每一行代表一個(gè)試題,每一列代表一個(gè)知識(shí)點(diǎn).如表1第1行表示試題q1包含知識(shí)點(diǎn)s1和s4,但不包含知識(shí)點(diǎn)s2和s3.Q矩陣的完備性將影響到建模結(jié)果的準(zhǔn)確性,然而Q矩陣通常由人工提供,因此其完備性也常常難以保證.另外,也有學(xué)者通過(guò)特征工程的方式,提取試題諸如考察點(diǎn)、迷惑性、復(fù)雜性等特征后利用機(jī)器學(xué)習(xí)方法(如線性回歸、神經(jīng)網(wǎng)絡(luò)等)實(shí)現(xiàn)難度預(yù)測(cè)[1,6].
Table 1 Example of Item Associated Q-matrix表1 試題關(guān)聯(lián)知識(shí)點(diǎn)Q矩陣示例
然而,不論是傳統(tǒng)的人工評(píng)估,還是現(xiàn)有的認(rèn)知診斷或機(jī)器學(xué)習(xí)建模,在國(guó)家教育日益深化改革的背景下,應(yīng)對(duì)試題難度預(yù)測(cè)這個(gè)問(wèn)題上,都有各自的局限性,具體體現(xiàn)在3個(gè)方面:
1) 人力、時(shí)間消耗大.人工的試題難度評(píng)估較為耗時(shí)耗力,而入庫(kù)試題資源量龐大,且某些學(xué)科試題更迭頻繁,這些都使得純?nèi)斯さ脑囶}難度預(yù)測(cè)變得不切實(shí)際.且認(rèn)知診斷中的Q矩陣也由人工標(biāo)注,同樣需要消耗較多的人力與時(shí)間.
2) 對(duì)先驗(yàn)知識(shí)的依賴.人工的試題難度評(píng)估結(jié)果除試題本身外,很大程度上依賴于評(píng)估者自身的水平和對(duì)試題的認(rèn)知程度;同樣,認(rèn)知診斷模型通常也需要預(yù)先提供試題的Q矩陣.這些都使得評(píng)估或預(yù)測(cè)結(jié)果客觀性或準(zhǔn)確性不足.
3) 特征工程中人工定義的特征較為缺少試題語(yǔ)義,是試題的淺層表示.且部分特征(如試題復(fù)雜性、靈活性、干擾性等)的判定仍然需要人工進(jìn)行,非客觀性和界限模糊等問(wèn)題同樣存在.
我國(guó)國(guó)家考試具有高利害性、社會(huì)關(guān)注度極高等特點(diǎn),很難通過(guò)考前試測(cè)等方式提前獲取試題難度參數(shù),目前仍然按照傳統(tǒng)的試題難度評(píng)估方式,由人工進(jìn)行[1].隨著大數(shù)據(jù)、人工智能時(shí)代的到來(lái),眾多先進(jìn)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法為國(guó)家題庫(kù)現(xiàn)代化建設(shè)和入庫(kù)試題的難度參數(shù)估計(jì)賦予了更多方法和途徑.基于人工智能的試題難度預(yù)測(cè)以往年產(chǎn)生的大量數(shù)據(jù)作為訓(xùn)練樣本,能夠有效解決試題安全保密要求和試測(cè)曝光兩者之間的矛盾,有效調(diào)整傳統(tǒng)人工估計(jì)難度中存在的偏差和波動(dòng).要實(shí)現(xiàn)高效、準(zhǔn)確的試題難度評(píng)估,需要解決3個(gè)挑戰(zhàn):
1) 如何從包含復(fù)雜語(yǔ)義的試題文本出發(fā),挖掘其中可用于難度預(yù)測(cè)的重要信息.高效的試題難度預(yù)測(cè)自動(dòng)化方法應(yīng)盡量避免知識(shí)點(diǎn)標(biāo)注等人工勞動(dòng),因此要求模型具有較強(qiáng)的文本信息挖掘能力.
2) 如何減少人工干預(yù),使得評(píng)價(jià)結(jié)果更加客觀.諸如試題知識(shí)點(diǎn)標(biāo)注或經(jīng)驗(yàn)性的特征設(shè)計(jì)等都難以避免地引入個(gè)人傾向,使得結(jié)果客觀性難以保證.
3) 如何克服不同考生群體在不同試卷版本中作答數(shù)據(jù)的比較.這些數(shù)據(jù)得到的試題得分率往往具有樣本依賴性,實(shí)際難度差異很大的試題從數(shù)據(jù)呈現(xiàn)的結(jié)果來(lái)看可能非常接近,反之亦然.如果不能克服這個(gè)問(wèn)題,預(yù)估結(jié)果會(huì)出現(xiàn)很大誤差.
各項(xiàng)考試,特別是國(guó)家考試,都在一定程度上存在此類問(wèn)題.本文從數(shù)學(xué)試題難度預(yù)測(cè)著手,提出了針對(duì)數(shù)學(xué)試題的模型C-MIDP(CNN for mathematical item difficulty prediction),R-MIDP(RNN for mathe-matical item difficulty prediction)和H-MIDP(hybrid model for mathematical item difficulty prediction),利用試題文本和學(xué)生答題記錄進(jìn)行難度預(yù)測(cè).3種模型均為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中C-MIDP以CNN(convolutional neural network)為基礎(chǔ),R-MIDP以RNN(recurrent neural network)為基礎(chǔ),H-MIDP則為二者的混合模型.難度的預(yù)測(cè)分為3步:1)使用word2vec詞向量對(duì)訓(xùn)練集的試題文本進(jìn)行表征,作為模型輸入.以word2vec詞向量構(gòu)建的試題表征,可以較好地保留試題語(yǔ)義,使得神經(jīng)網(wǎng)絡(luò)能夠基于試題文本自身挖掘出重要信息,同時(shí)保證客觀性.2)從答題記錄中獲取各場(chǎng)考試中試題的得分率,考慮得分率的適用范圍,設(shè)計(jì)context相關(guān)的方式進(jìn)行模型訓(xùn)練,將“以偏概全”變?yōu)椤耙孕∫姶蟆?3)將需要預(yù)測(cè)難度的試題文本進(jìn)行表征,輸入到訓(xùn)練好的模型中,獲得難度預(yù)測(cè)值.本文的主要貢獻(xiàn)點(diǎn)有3個(gè)方面:
1) 提出針對(duì)數(shù)學(xué)試題的難度預(yù)測(cè)模型,實(shí)現(xiàn)高效的數(shù)學(xué)試題難度預(yù)測(cè),并在真實(shí)數(shù)據(jù)集上取得了較好的實(shí)驗(yàn)結(jié)果;
2) 模型是數(shù)據(jù)驅(qū)動(dòng)的,訓(xùn)練和預(yù)測(cè)都不需要人工提供關(guān)于試題的先驗(yàn)知識(shí),提高了預(yù)測(cè)結(jié)果的客觀性,且因減少了人工參與因而提高了預(yù)測(cè)效率;
3) 考慮到不同考試中學(xué)生群體能力的差異性,訓(xùn)練時(shí)采用的是context相關(guān)的訓(xùn)練方式,提高了預(yù)測(cè)的準(zhǔn)確率.
本節(jié)將從難度預(yù)測(cè)和文本建模2個(gè)方面介紹相關(guān)工作.
傳統(tǒng)教育中,難度評(píng)估大多是人工進(jìn)行的.教育者利用自己的知識(shí)儲(chǔ)備和教學(xué)經(jīng)驗(yàn)評(píng)估試題難度,以設(shè)計(jì)或選擇合適的試題,評(píng)估的結(jié)果通常隨評(píng)估者知識(shí)、經(jīng)驗(yàn)的差異出現(xiàn)不同.
在教育學(xué)領(lǐng)域中,有學(xué)者研究影響試題難度的具體因素,如Beck等人[7]認(rèn)為試題特征和學(xué)生能力都是試題難度的影響因素.在試題方面,Kubinger等人[8]指出試題類型、試題結(jié)構(gòu)以及知識(shí)深度等因素都與試題難度有關(guān);而在學(xué)生能力方面,也有許多理論和模型被提出,其中認(rèn)知診斷是重要的研究方向,其目標(biāo)是利用試題和學(xué)生的答題記錄,對(duì)學(xué)生的學(xué)習(xí)過(guò)程進(jìn)行建模,挖掘?qū)W生對(duì)知識(shí)或技能的掌握程度.
在教育數(shù)據(jù)挖掘領(lǐng)域,認(rèn)知診斷是一類重要的研究方向,其目標(biāo)是利用試題和學(xué)生的答題記錄,對(duì)學(xué)生的學(xué)習(xí)過(guò)程進(jìn)行建模,挖掘?qū)W生對(duì)知識(shí)或技能的掌握程度,從而通過(guò)能力分析、試題推薦、學(xué)生分組等方式優(yōu)化學(xué)生的學(xué)習(xí)過(guò)程[9-10].認(rèn)知診斷模型根據(jù)不同的分類方式可分為離散模型和連續(xù)模型,或分為一維技能模型和多維技能模型.常見認(rèn)知診斷模型包括基于項(xiàng)目反應(yīng)理論(item response theory, IRT)的模型、DINA模型和它們的改進(jìn)模型[1,4,11-13]等,模型中通常會(huì)考慮試題的難度、區(qū)分度、失誤可能性、猜對(duì)可能性等因素[11,14],有些研究中還會(huì)融合教育學(xué)理論,如學(xué)習(xí)曲線和遺忘曲線[15]等.盡管這些模型考慮了試題難度等因素,但通常作為參數(shù),或是通過(guò)已知的Q矩陣計(jì)算,因而需要人為提供較多的先驗(yàn)知識(shí).
有學(xué)者將傳統(tǒng)機(jī)器學(xué)習(xí)結(jié)合特征工程的方法運(yùn)用到試題難度預(yù)測(cè)中.文獻(xiàn)[1]中作者定義了試題考察的能力、知識(shí)點(diǎn)重要程度、試題迷惑性、復(fù)雜性、靈活性等特征,將這些特征值作為神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)測(cè)試題難度.盡管這些人工定義的特征能夠反映試題的一些重要信息,但是基于經(jīng)驗(yàn)人工篩選出的試題表征,對(duì)試題語(yǔ)義沒(méi)有加以利用.且部分此類特征值的確定并非是可統(tǒng)計(jì)的,而是由經(jīng)驗(yàn)判斷的,其客觀性和準(zhǔn)確性難以保證.
以上工作具有相同的局限性:即都需要較多的人為干預(yù),如提供先驗(yàn)知識(shí)或教學(xué)經(jīng)驗(yàn)和勞動(dòng)力.而本文所提出的模型是數(shù)據(jù)驅(qū)動(dòng)的,所需要的只是試題文本和答題記錄,從而避免上述問(wèn)題.
目前已有學(xué)者進(jìn)行了針對(duì)英語(yǔ)試題的難度預(yù)測(cè)工作[16],受其啟發(fā),本文提出了針對(duì)數(shù)學(xué)試題的難度預(yù)測(cè)模型.
本文提出的模型針對(duì)試題的純文本輸入,且不需要提供試題的諸如知識(shí)點(diǎn)等先驗(yàn)信息,因此對(duì)模型的文本建模與信息提取能力要求較高.
隨著大數(shù)據(jù)時(shí)代的到來(lái),文本數(shù)據(jù)挖掘現(xiàn)已廣泛運(yùn)用于互聯(lián)網(wǎng)[17]、教育[18]、醫(yī)療[19]、媒體[20]等領(lǐng)域,涉及的技術(shù)包括文本聚類、文本分類[21]、情感分析[22]、文本推薦[23]等.與之相關(guān)的自然語(yǔ)言處理(natural language process, NLP)也在文本處理、自然語(yǔ)言理解、人機(jī)交互等領(lǐng)域具有重要意義.Mikolov等人[24-25]提出word2vec和doc2vec,盡管作為語(yǔ)言模型訓(xùn)練的副產(chǎn)物,但由于其維度低和保持部分語(yǔ)義特征等優(yōu)點(diǎn),被大量運(yùn)用到文本建模的數(shù)據(jù)表征中,使得許多模型的效果得以提升.
在模型方面,過(guò)去文本數(shù)據(jù)挖掘方法通常需要分析文本的詞法、語(yǔ)法、語(yǔ)義特征,人為地構(gòu)造一些具體的結(jié)構(gòu).近年來(lái),深度學(xué)習(xí)的興起使得文本數(shù)據(jù)挖掘有了新的探索路徑,CNN[26]和RNN[27]對(duì)文本類數(shù)據(jù)具有較好的擬合能力,避免了對(duì)詞法、語(yǔ)法等先驗(yàn)知識(shí)的要求.相關(guān)工作如情感識(shí)別[28]、文本蘊(yùn)含[29]、機(jī)器理解[30]等.
多層CNN神經(jīng)網(wǎng)絡(luò)可從詞、短語(yǔ)、句子等不同層次挖掘文本信息;RNN則適合挖掘長(zhǎng)程的邏輯關(guān)系.因此2種模型都可用于試題難度預(yù)測(cè)的建模當(dāng)中.基于此,本文提出了基于CNN的難度預(yù)測(cè)模型C-MIDP和基于RNN的難度預(yù)測(cè)模型R-MIDP,并且考慮到CNN和RNN各自的優(yōu)缺點(diǎn),將CNN和RNN結(jié)合,提出H-MIDP,進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確率.
本節(jié)中將給出問(wèn)題的形式化定義,介紹模型的整體框架,具體介紹3種不同的難度預(yù)測(cè)模型.
模型訓(xùn)練所需要的數(shù)據(jù)為真實(shí)的數(shù)學(xué)考試試題及答題記錄,考試為正式的統(tǒng)一測(cè)評(píng)(如期中考試、期末考試、月考等),試題為常規(guī)考試題型(如選擇、填空或簡(jiǎn)答題).表2為1道數(shù)學(xué)試題文本數(shù)據(jù)示例,數(shù)據(jù)包括試題ID、題面、答案和解析.表3為答題記錄結(jié)構(gòu)示例,1條記錄代表1個(gè)學(xué)生在1場(chǎng)考試中某道題的得分,將具有相同試卷ID、學(xué)校ID和考試日期的答題記錄集合定義為同一場(chǎng)考試Ti記錄集合.
對(duì)于考試、試題、得分率等概念的形式化定義及本文應(yīng)對(duì)的問(wèn)題定義如下:
(1)
Table 2 Example of Mathematical Item表2 數(shù)學(xué)試題示例
Table 3 Example of Answer Log表3 答題記錄示例
定義1.給定數(shù)學(xué)試題集合Q和數(shù)學(xué)考試記錄集合T,其中Q包含每道試題的文本,T包含每場(chǎng)考試的試題和對(duì)應(yīng)的得分率,目標(biāo)是對(duì)數(shù)學(xué)試題建模,使得通過(guò)輸入試題特征到模型中可以得到試題的難度預(yù)測(cè)值.
表4給出了問(wèn)題涉及到的符號(hào)和對(duì)應(yīng)的描述:
Table 4 Related Symbols and Explanations表4 試題難度預(yù)測(cè)問(wèn)題涉及的符號(hào)及解釋
本節(jié)介紹本文提出的數(shù)學(xué)試題難度預(yù)測(cè)模型的整體框架,整體流程如圖1,分成2個(gè)階段:訓(xùn)練階段和預(yù)測(cè)階段.在訓(xùn)練階段,根據(jù)將答題記錄中的試題文本進(jìn)行表征后得到訓(xùn)練特征,作為模型訓(xùn)練的輸入,并從答題記錄獲取每一場(chǎng)考試中各道試題的得分率作為試題難度的標(biāo)簽,考慮不同考試中試題得分率的不可比性,訓(xùn)練時(shí)采用context相關(guān)的成對(duì)試題目標(biāo)函數(shù);在預(yù)測(cè)階段,將待預(yù)測(cè)試題的文本經(jīng)同樣的表征方式得到預(yù)測(cè)特征,將其輸入訓(xùn)練得到的模型,獲得難度的預(yù)測(cè)值.模型分3部分介紹:
1) 模型結(jié)構(gòu).C-MIDP,R-MIDP,H-MIDP這3個(gè)模型均為神經(jīng)網(wǎng)絡(luò)模型,其中C-MIDP以CNN網(wǎng)絡(luò)為基礎(chǔ),R-MIDP以RNN網(wǎng)絡(luò)為基礎(chǔ),H-MIDP為前兩者的融合.
2) 模型訓(xùn)練.訓(xùn)練時(shí)以試題文本的詞向量特征作為輸入,試題得分率作為標(biāo)簽.考慮到不同考試中不同學(xué)生群體的得分率具有一定的不可比性,本模型采用context相關(guān)(context-dependent)的方式,將同一場(chǎng)考試中成對(duì)試題預(yù)測(cè)難度的差值與實(shí)際差值比較,計(jì)算目標(biāo)函數(shù)值.
3) 預(yù)測(cè).試題難度預(yù)測(cè)是context無(wú)關(guān)的,將預(yù)處理過(guò)的試題特征作為輸入,得到試題的絕對(duì)難度.
Fig. 1 Model framework圖1 模型框架圖
本文提出的3種模型接受試題特征作為輸入,輸出為試題的預(yù)測(cè)難度.試題特征通過(guò)對(duì)文本字符的詞向量拼接獲得,具體步驟:
將試題文本轉(zhuǎn)換成向量特征后,輸入模型進(jìn)行語(yǔ)義理解.圖2是3種模型的結(jié)構(gòu)圖,其中圖2(a)~(c)分別是C-MIDP模型、R-MIDP模型和H-MIDP模型.
Fig. 2 Model structures圖2 模型結(jié)構(gòu)
2.3.1 C-MIDP模型
試題文本包含較豐富的語(yǔ)義,要使模型能夠不依賴Q矩陣等先驗(yàn)知識(shí),就必須能夠從文本中挖掘足夠的信息.相關(guān)研究表示,局部重要的詞句對(duì)于文本理解具有重要的意義[30].例如在理解試題時(shí),我們只需理解其中最重要的知識(shí)概念描述(如公式、定義等)即可理解整個(gè)試題的語(yǔ)義.因此,本文利用CNN中的卷積-池化從局部到整體的方式挖掘試題文本中的主要信息[30].具體地,本文提出C-MIDP模型,它以CNN為基礎(chǔ),使用的多層卷積與池化層可以從不同層次學(xué)習(xí)試題信息.例如C-MIDP可以以試題中的數(shù)字或運(yùn)算符為基礎(chǔ)擴(kuò)大范圍,提取由這些數(shù)字或運(yùn)算符等組成公式信息;再進(jìn)一步聯(lián)系公式的上下文獲取更大范圍的信息,逐步獲取整個(gè)試題的主要信息,這個(gè)過(guò)程也符合人真實(shí)的閱讀習(xí)慣.
(2)
(3)
2.3.2 R-MIDP模型
除此之外,文本的序列語(yǔ)義與邏輯信息對(duì)于理解試題也非常重要.例如公式中的一個(gè)數(shù)字本身可能不包含多少信息,但若與它前面的若干個(gè)字符聯(lián)系,可能就表現(xiàn)出重要的語(yǔ)義.基于此,本文提出R-MIDP模型,它以RNN為基礎(chǔ),利用RNN中的Cell模塊保存歷史信息,學(xué)習(xí)到試題文本的序列語(yǔ)義或邏輯信息.具體地,R-MIDP模型是一個(gè)雙向LSTM的網(wǎng)絡(luò)結(jié)構(gòu),LSTM采用經(jīng)典的3門結(jié)構(gòu)[31-32],在理解試題的過(guò)程中,可以從正向和反向2個(gè)方向?qū)W習(xí)試題語(yǔ)義邏輯,使語(yǔ)義更加完整.
it=σ(Wiiwt+bii+Whiyt-1+bhi),
(4)
ft=σ(Wifwt+bif+Whfyt-1+bhf),
(5)
gt=σ(Wigwt+big+Whgyt-1+bhg),
(6)
ot=σ(Wiowt+bio+Whoyt-1+bho),
(7)
ct=ft*ct-1+it*gt,
(8)
yt=ot*tanh(ct),
(9)
Hrp再經(jīng)過(guò)一層全連接層,最終輸出試題難度的預(yù)測(cè)值Pq.
2.3.3 H-MIDP模型
在通常的有監(jiān)督模型中,常規(guī)的訓(xùn)練方法是以訓(xùn)練數(shù)據(jù)的試題表征向量作為輸入,以試題得分率作為標(biāo)簽,模型的損失函數(shù)(loss function):
(10)
其中,T為整個(gè)數(shù)學(xué)考試訓(xùn)練集,Pq和Rq分別為試題q的預(yù)測(cè)難度和實(shí)際得分率.
這種方式在計(jì)算試題得分率時(shí)常以試題為單位進(jìn)行,其訓(xùn)練時(shí)其實(shí)是不區(qū)分不同學(xué)生群體或不同場(chǎng)考試的.但實(shí)際上,不同考試中由于學(xué)生群體的不同,得分率是具有一定不可比性的.例如假設(shè)A校和B校使用同一份試卷進(jìn)行考試,A校的試題a得分率為0.8,B校的試題b得分率為0.7,不能簡(jiǎn)單地認(rèn)為試題b比試題a更難,因?yàn)锳校學(xué)生的整體水平可能強(qiáng)于B校學(xué)生,而實(shí)際A校的試題b得分率為0.9,B校的試題a得分率0.6,因而判斷試題a的難于試題b更合理.
由此可知,試題得分率受到學(xué)生群體水平差異性的影響.為了能夠消除這種影響,本文認(rèn)為,當(dāng)考試學(xué)生群體處于相同的context范圍下,通過(guò)考試計(jì)算的試題得分率才具有可比性.此處,context可以定義為同一個(gè)班級(jí)、同一所學(xué)校、同一場(chǎng)考試等.例如,在同一場(chǎng)考試中,若試題a得分率低于試題b,即可認(rèn)為a比b難.本文將在實(shí)驗(yàn)部分中具體對(duì)此范圍進(jìn)行實(shí)驗(yàn)說(shuō)明.
具體地,本文的3種模型采用context相關(guān)的訓(xùn)練方式,模型的損失函數(shù):
(11)
使用這樣的模型損失函數(shù)可以消除不同學(xué)生群體的差異性,獲取其中的共性,使得訓(xùn)練得到的模型能夠預(yù)測(cè)試題的真實(shí)難度(對(duì)于所有答題記錄涉及到的學(xué)生全體而言的難度,而不是對(duì)于其中某場(chǎng)考試的學(xué)生群體).
模型訓(xùn)練完畢,進(jìn)行試題難度的預(yù)測(cè)時(shí),將需要預(yù)測(cè)的試題表征向量輸入訓(xùn)練得到的模型中(C-MIDP或R-MIDP或H-MIDP),得到的模型輸出值即為試題難度的預(yù)測(cè)值.在實(shí)際應(yīng)用情境下,如果收集的群體答題數(shù)據(jù)量充足且答題分布均勻,則可以認(rèn)為模型的輸出值可以預(yù)測(cè)試題對(duì)于該群體的難度值(或得分率).
數(shù)據(jù)來(lái)自科大訊飛股份有限公司采集的國(guó)內(nèi)多個(gè)中學(xué)2014—2017年的考試試題和答題記錄,相關(guān)統(tǒng)計(jì)見表5.
Fig. 4 Scoring rates of 6 schools in a final exam圖4 6所學(xué)校在同場(chǎng)期末考試中的得分率
AttributeValueAmount of Schools1314Amount of Tests5185Average Amount of Items per Test18.33Amount of Different Items53027Amount of Logs57457353Amount of Students1035526
對(duì)試題文本數(shù)據(jù)預(yù)處理后統(tǒng)計(jì)每道題的特征長(zhǎng)度(即分詞后有效詞項(xiàng)數(shù)目),得到其分布如圖3所示,圖3中橫坐標(biāo)為特征長(zhǎng)度,縱坐標(biāo)為試題數(shù)量.由統(tǒng)計(jì)結(jié)果知特征長(zhǎng)度大于600的不到總試題數(shù)的0.2%,因此實(shí)驗(yàn)中取特征向量長(zhǎng)度N=600,實(shí)際少于600的試題用零填充,多于600的試題截取前600個(gè)詞項(xiàng)作為試題特征.
Fig. 3 Distribution of item feature length圖3 試題特征長(zhǎng)度分布
選取使用某一份試卷不同場(chǎng)考試的答題記錄,繪制不同學(xué)校的試題得分率折線圖如圖4所示,可以看到,不同學(xué)校在各個(gè)試題上的得分率雖有明顯差異,但試題之間的得分率相對(duì)差異卻相近.圖4中A校(最上方綠色折線)的試題Q10的得分率為0.3,B校(最下方橙色折線)的試題Q9的得分率為0.22,但不能簡(jiǎn)單以此判斷試題Q10的難度低于Q9,因?yàn)锳校的整體能力強(qiáng)于B校.實(shí)際上,A校的試題Q9的得分率為0.4,B校的試題Q10的得分率為0.08,可以看到不論是A校還是B校,試題Q9的得分率高于試題Q10的得分率,因此判斷試題Q9的難度低于Q10更合理.這正驗(yàn)證了2.4節(jié)中的觀點(diǎn).
3.2.1 皮爾森相關(guān)系數(shù)(Pearson correlation coeffi-cient, PCC)
PCC是教育學(xué)常用的評(píng)價(jià)指標(biāo),可以衡量每一場(chǎng)考試中試題實(shí)際難度與模型預(yù)測(cè)難度之間的相關(guān)性[33].實(shí)驗(yàn)中PCC具體定義為
(12)
PCC取值在區(qū)間[-1,1],越大的絕對(duì)值意味著越高的線性相關(guān)性,且PCC>0表示正相關(guān),PCC<0表示負(fù)相關(guān).
3.2.2 一致性(degree of agreement, DOA)
DOA可以衡量一場(chǎng)考試中試題對(duì)之間難度預(yù)測(cè)值相對(duì)大小的準(zhǔn)確性[34].其計(jì)算為
(13)
(14)
DOA取值范圍在區(qū)間[0,1],DOA越大表明預(yù)測(cè)的試題對(duì)之間相對(duì)難度大小關(guān)系越準(zhǔn)確.
為驗(yàn)證本文提出的模型效果,將與4種baseline預(yù)測(cè)方法進(jìn)行對(duì)比:
1) logistic回歸[35].傳統(tǒng)的線性回歸模型,模型輸入特征為試題的詞袋特征,采用context無(wú)關(guān)的訓(xùn)練方式.
2) 支持向量機(jī)(SVM)[36].SVM在線性和非線性回歸問(wèn)題中都比較常見,是機(jī)器學(xué)習(xí)中重要的算法.對(duì)比模型采用非線性高斯核,輸入為試題的詞袋特征,并采用context無(wú)關(guān)的訓(xùn)練方式.
3) 隨機(jī)森林(random forest)[37].隨機(jī)森林回歸模型是常用的非線性模型,在許多回歸任務(wù)上具有良好的表現(xiàn).模型輸入同樣采用試題的詞袋特征,且采用context無(wú)關(guān)的訓(xùn)練方式.
4) 神經(jīng)網(wǎng)絡(luò)context無(wú)關(guān)訓(xùn)練方式.本文的3種模型結(jié)構(gòu)不變,但訓(xùn)練方式改為context無(wú)關(guān),即采用式(10)作為損失函數(shù),以試題的預(yù)測(cè)難度與實(shí)際得分率的差值平方和作為目標(biāo)函數(shù).3種模型分別以CNN-I,RNN-I,Hybrid-I指代.
3.4.1 模型對(duì)比實(shí)驗(yàn)
本節(jié)將比較C-MIDP,R-MIDP,H-MIDP這3種模型的實(shí)驗(yàn)結(jié)果,以及分析與baseline模型實(shí)驗(yàn)結(jié)果的對(duì)比.此處,C-MIDP,R-MIDP,H-MIDP這3種模型中的context定義為同一場(chǎng)考試范圍,即式(11)中的Tt表示第t場(chǎng)考試.實(shí)驗(yàn)分別取數(shù)據(jù)集中考試數(shù)量的40%,30%,20%,10%作為測(cè)試集,同時(shí)刪除訓(xùn)練集中在測(cè)試集出現(xiàn)的試題,這些重復(fù)試題若在訓(xùn)練集中得到擬合,將不適合用作模型測(cè)試.注意到,考試可能是一個(gè)班級(jí)單獨(dú)的測(cè)試,也可能是整個(gè)年級(jí)統(tǒng)考,或者多所學(xué)校聯(lián)考,這里我們采取的劃分方式是:同一所學(xué)校同一天使用同一份試卷劃分為一場(chǎng)考試,作為計(jì)算試題得分率的context,在此基礎(chǔ)上訓(xùn)練C-MIDP,R-MIDP,H-MIDP模型.最終得到各個(gè)模型在測(cè)試集上的 PCC與DOA指標(biāo)的值如圖5所示.
Fig. 5 Experiment results of three models圖5 3種模型實(shí)驗(yàn)結(jié)果
從圖5中實(shí)驗(yàn)結(jié)果可知,C-MIDP,R-MIDP,H-MIDP模型都有良好的表現(xiàn),并且可以看到,在測(cè)試集比例為40%,30%,20%,10%情況下,H-MIDP的測(cè)試指標(biāo)均高于C-MIDP和R-MIDP.
圖6是本文3種模型與對(duì)比模型實(shí)驗(yàn)結(jié)果,從圖6中可以看出3項(xiàng)對(duì)比信息:
1) 在使用context無(wú)關(guān)的訓(xùn)練方式前提下,logistic回歸效果最差,顯然線性回歸不能夠勝任試題難度預(yù)測(cè)任務(wù);SVM回歸效果較logistic回歸更好;隨機(jī)森林回歸在3種非神經(jīng)網(wǎng)絡(luò)baseline模型中表現(xiàn)最好;CNN-I,RNN-I,Hybrid-I這3種神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果明顯優(yōu)于前3種非神經(jīng)網(wǎng)絡(luò)模型,說(shuō)明神經(jīng)網(wǎng)絡(luò)對(duì)此任務(wù)的建模能力更強(qiáng).
2) 比較3種神經(jīng)網(wǎng)絡(luò)模型的context相關(guān)與context無(wú)關(guān)2種訓(xùn)練方式的實(shí)驗(yàn)結(jié)果,可以看到,盡管使用context無(wú)關(guān)訓(xùn)練方式(CNN-I,RNN-I,Hybrid-I)已經(jīng)獲得良好的實(shí)驗(yàn)結(jié)果,但使用context相關(guān)訓(xùn)練方式后,模型效果有了進(jìn)一步的提升,說(shuō)明在試題難度預(yù)測(cè)這個(gè)任務(wù)當(dāng)中,context相關(guān)的訓(xùn)練方式更適合.
3) 隨著測(cè)試集比例的降低(即訓(xùn)練數(shù)據(jù)的增加),3種模型的效果均提升.測(cè)試集的比例降到10%時(shí),3種神經(jīng)網(wǎng)絡(luò)模型的PCC達(dá)到0.66以上,DOA達(dá)到0.74以上.在實(shí)際教育環(huán)境中,數(shù)據(jù)量足夠的情況下,能夠達(dá)到良好的預(yù)測(cè)效果.
3.4.2 context劃分方式對(duì)預(yù)測(cè)結(jié)果的影響
本節(jié)將討論不同的context劃分對(duì)于試題難度預(yù)測(cè)結(jié)果的影響.這里的context劃分等價(jià)于考試的劃分,例如在一場(chǎng)多校聯(lián)考中,可以將一個(gè)班級(jí)的記錄劃分為一場(chǎng)考試,也可以將一所學(xué)校的記錄劃分為一場(chǎng)考試,或者將各個(gè)學(xué)校的所有記錄共同作為一場(chǎng)考試.本節(jié)針對(duì)數(shù)據(jù)采用2種不同的劃分方式:1)將同一所學(xué)校同一天使用相同試卷劃分為一個(gè)context;2)將使用相同試卷的所有記錄劃分為一個(gè)context.依此進(jìn)行實(shí)驗(yàn),研究context劃分方式對(duì)試題難度預(yù)測(cè)結(jié)果的影響.
圖7是2種劃分方式的在測(cè)試集上的PCC和DOA指標(biāo)的直方圖.可以看到2種劃分方式的實(shí)驗(yàn)結(jié)果有明顯差距,第1種劃分方式的實(shí)驗(yàn)結(jié)果優(yōu)于第2種劃分方式,說(shuō)明context的劃分方式對(duì)預(yù)測(cè)結(jié)果是有影響的.在本實(shí)驗(yàn)數(shù)據(jù)集上,若將考試的范圍細(xì)化到學(xué)校層面,可以更好地區(qū)分來(lái)自不同學(xué)校學(xué)生群體的差異性,從而獲得更穩(wěn)定的試題難度.在實(shí)際應(yīng)用中,模型的實(shí)際訓(xùn)練與使用中需根據(jù)測(cè)試結(jié)果選擇合適的context劃分方式.
本節(jié)選取測(cè)試集比例為40%時(shí)測(cè)試集中的1場(chǎng)考試試題,使用C-MIDP,R-MIDP,H-MIDP模型進(jìn)行難度預(yù)測(cè),比較預(yù)測(cè)結(jié)果,以說(shuō)明本文的3種模型的有效性.圖8是各模型預(yù)測(cè)結(jié)果折線圖,其中實(shí)際得分率是將數(shù)據(jù)集中所有使用該份試卷試題的答題記錄得分率取平均得到,以更準(zhǔn)確反映試題實(shí)際難度.
Fig. 8 Comparison between score rates predicted by 3 models and ground truth on a test paper圖8 某試卷3種模型預(yù)測(cè)得分率與真實(shí)值比較
表6是評(píng)價(jià)指標(biāo)PCC,DOA,RMSE值.可以看到H-MIDP的3種指標(biāo)的值均優(yōu)于C-MIDP和R-MIDP,但C-MIDP和R-MIDP的評(píng)價(jià)值也在可接受范圍.觀察圖8,可以看到3種模型在大多數(shù)試題上的預(yù)測(cè)值能夠接近實(shí)際得分率,或者在試題相對(duì)難度關(guān)系上接近,其中H-MIDP的預(yù)測(cè)曲線與真實(shí)值最為接近,說(shuō)明模型能夠通過(guò)context相關(guān)的訓(xùn)練方式來(lái)預(yù)測(cè)試題絕對(duì)難度.
Table 6 Metrics Values of Models in Case Study表6 案例分析各模型評(píng)價(jià)指標(biāo)值
為解決準(zhǔn)確、高效地預(yù)測(cè)數(shù)學(xué)試題難度所面臨的難題,輔助中國(guó)特色教育考試國(guó)家題庫(kù)建設(shè),本文提出了數(shù)據(jù)驅(qū)動(dòng)的基于神經(jīng)網(wǎng)絡(luò)的難度預(yù)測(cè)模型.具體地,首先設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的C-MIDP模型和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的R-MIDP模型學(xué)習(xí)試題文本的序列邏輯信息;進(jìn)一步,結(jié)合2種模型的優(yōu)勢(shì),提出混合H-MIDP模型.3種模型均直接對(duì)試題文本進(jìn)行理解和語(yǔ)義表征,可保留試題描述的局部語(yǔ)義和語(yǔ)序信息;然后,為應(yīng)對(duì)不同考試中學(xué)生群體具有不可比性的問(wèn)題,在模型訓(xùn)練時(shí)考慮答題記錄的上下文,采用context相關(guān)的訓(xùn)練方式;最后,所提出的模型只需根據(jù)試題文本即可預(yù)測(cè)新試題難度屬性,無(wú)需人工標(biāo)注先驗(yàn)知識(shí)信息.本文在真實(shí)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了本文所提出的模型具有良好的性能.
本文的模型具有進(jìn)一步改良的空間和向其他學(xué)科擴(kuò)展的可能性.在未來(lái)研究中,可以考慮新的模型結(jié)構(gòu)對(duì)試題文本理解的影響,如Attention網(wǎng)絡(luò)、Memory網(wǎng)絡(luò)等.其次,探索更為準(zhǔn)確和穩(wěn)定的context的劃分方式,以減少對(duì)試題難度預(yù)估結(jié)果的影響.我們還將考慮針對(duì)不同試題類型設(shè)計(jì)更為精準(zhǔn)的預(yù)測(cè)模型.