何屹松 徐 飛 劉 惠 孫媛媛 竺 博 儲林林
(1.安徽省教育招生考試院,合肥 230001;2.科大訊飛股份有限公司,合肥 230001)
2014年9 月國務(wù)院頒布的《關(guān)于深化考試招生制度改革的實(shí)施意見》提出“改進(jìn)評分方式,加強(qiáng)評卷管理,完善成績報告”[1]。2015年國家發(fā)展改革委、科技部等頒布的《“互聯(lián)網(wǎng)+”人工智能三年行動實(shí)施方案》以及2018年國務(wù)院頒布的《新一代人工智能發(fā)展規(guī)劃》提出了人工智能在各行業(yè)應(yīng)用的總體思路與主要任務(wù)。探索將人工智能評分技術(shù)與網(wǎng)上評卷方式進(jìn)行深度融合,更好實(shí)現(xiàn)對閱卷過程的質(zhì)量監(jiān)控和考試成績的定量分析,是考試機(jī)構(gòu)的一項重要研究課題。
目前普通高考網(wǎng)上評卷方式是將掃描后的答題卡切分為圖像,以計算機(jī)為載體,組織評卷教師在網(wǎng)上閱卷。評卷過程中評卷教師根據(jù)計算機(jī)上呈現(xiàn)的考生答題信息,依照評分細(xì)則對考生的答題內(nèi)容進(jìn)行評分,由系統(tǒng)實(shí)時將成績傳送至中心機(jī)房服務(wù)器中,并自動調(diào)取下一位考生答題信息繼續(xù)評閱。網(wǎng)上評卷方式從2005年開始規(guī)?;瘧?yīng)用以來,在各類國家教育考試閱卷工作中發(fā)揮了重要作用。
現(xiàn)行網(wǎng)上評卷所遵循的技術(shù)規(guī)范是教育部2008年頒布的《國家教育考試網(wǎng)上評卷暫行實(shí)施辦法》《國家教育考試網(wǎng)上評卷技術(shù)暫行規(guī)范》《國家教育考試網(wǎng)上評卷統(tǒng)計測量暫行規(guī)范》。隨著技術(shù)和考試需求的發(fā)展,這些技術(shù)規(guī)范目前已經(jīng)不能完全滿足考試發(fā)展的需要,其評卷模式存在的一些問題,如評卷教師打保險分的現(xiàn)象并不能完全發(fā)現(xiàn)和得到及時糾正,對評卷結(jié)果的質(zhì)量評價也很難做到更加精準(zhǔn)的定量分析。因此,需要開發(fā)新一代智能網(wǎng)上評卷系統(tǒng)。
對人工智能評分技術(shù)的研究,國外經(jīng)歷了一個發(fā)展過程。美國教育考試服務(wù)中心(ETS)從2005年開始將計算機(jī)評分系統(tǒng)(E-Rater)應(yīng)用于托福和GMAT考試的作文評分,該系統(tǒng)的機(jī)器評分與評卷員的一致率達(dá)到97%,高于2名評卷員通常的一致率95%~97%;對于人機(jī)大分差的分歧樣本由第三人進(jìn)行仲裁評分[2]。這種人工加機(jī)器、再加仲裁的評分模式,一經(jīng)公布便引起各國考試機(jī)構(gòu)的高度關(guān)注。2010年后,隨著以深度神經(jīng)網(wǎng)絡(luò)為代表的新一代機(jī)器學(xué)習(xí)算法的發(fā)展,以及文檔圖像識別、自然語言理解等技術(shù)的突破,推動了人工智能評測技術(shù)在考試領(lǐng)域的研究應(yīng)用。
人工智能用于輔助評分的3大技術(shù)要點(diǎn)有:一是文檔圖像識別技術(shù)。包括手寫體識別、公式識別、圖形識別等,最終將識別后的文字、字符、公式等轉(zhuǎn)換成文本格式,用于評分分析,要求識別準(zhǔn)確率在95%以上,從而滿足輔助評分的需要。二是基于深度神經(jīng)網(wǎng)絡(luò)建模的評分模型訓(xùn)練。這類自然語言技術(shù)用于評測算法,具備了處理文本信息的能力,并且可以科學(xué)全面地挑選樣本用于人工專家定標(biāo)集合、學(xué)習(xí)和擬合人工專家評分,以訓(xùn)練機(jī)器評分模型。三是多維度計算機(jī)智能評分算法。在該算法中,各個評分維度建立在海量數(shù)據(jù)分析處理的基礎(chǔ)上,并綜合考慮課程標(biāo)準(zhǔn)、評分標(biāo)準(zhǔn)、不同學(xué)科知識圖譜等多方面因素,以提高評分的準(zhǔn)確性。目前,基于全連接的卷積神經(jīng)網(wǎng)絡(luò)(Fully Connected Convolutional Neural Networks)的圖像文檔版面分析理解和文字識別技術(shù)核心算法[3],使得智能閱卷評分系統(tǒng)已經(jīng)形成了一套完整的從圖片輸入端到文字輸出端的識別處理方案,對漢字和英文字符的識別率能夠達(dá)到一個較高的水平。在多維度評分方面,可將待評樣本按照某種算法進(jìn)行特征向量提取,并對定標(biāo)集合樣本進(jìn)行同樣的特征提取,然后以定標(biāo)樣本的專家評分作為目標(biāo),通過基于注意力編解碼機(jī)制的循環(huán)迭代神經(jīng)網(wǎng)絡(luò)(Attention Based Encoder-Decoder Recurrent Neural Networks)建模[4],形成基于當(dāng)次考試精準(zhǔn)的評分模型,進(jìn)行計算機(jī)智能輔助評分。
與人工評卷方式相比,計算機(jī)智能輔助評分具有較高的效率、良好的評分準(zhǔn)確性、多方位的輔助質(zhì)檢功能,能夠克服網(wǎng)上評卷中評卷教師易受自身主觀因素影響等不足,有效保證評卷質(zhì)量,可以提供更客觀的第三方質(zhì)量評價。
新一代智能網(wǎng)上評卷系統(tǒng)的設(shè)計思想是圍繞人工智能測評技術(shù)與網(wǎng)上評卷技術(shù)相結(jié)合的應(yīng)用研究,實(shí)現(xiàn)網(wǎng)上評卷系統(tǒng)和人工智能測評系統(tǒng)在網(wǎng)絡(luò)層面的相互訪問和數(shù)據(jù)層面的實(shí)時共享。在千兆局域網(wǎng)條件下,通過相關(guān)數(shù)據(jù)接口,實(shí)現(xiàn)對1 000萬級別的掃描圖像和計算機(jī)智能測評結(jié)果的訪問和應(yīng)用,既充分發(fā)揮人工閱卷在學(xué)科先導(dǎo)、教師評閱、專家仲裁和社會接受程度方面的特點(diǎn),又充分發(fā)揮人工智能的高效率、高準(zhǔn)確度和高可靠性的特點(diǎn),以人機(jī)結(jié)合的方式全面加強(qiáng)對評分過程的數(shù)據(jù)分析和監(jiān)管。
新一代智能網(wǎng)上評卷系統(tǒng)以現(xiàn)有閱卷組織管理模式為基礎(chǔ),主要包括答題卡掃描系統(tǒng)、智能評分系統(tǒng)和網(wǎng)上閱卷系統(tǒng)3個部分。本文主要討論智能評分系統(tǒng)和網(wǎng)上評卷系統(tǒng)的融合問題,融合后的系統(tǒng)結(jié)構(gòu)見圖1。
從圖1可知,該方案的核心是在保留原有網(wǎng)上評卷系統(tǒng)和人工智能評分系統(tǒng)各自主體功能和操作方式不變的情況下,通過評卷輔助控制決策系統(tǒng)平臺(以下簡稱“評卷輔助平臺”)進(jìn)行系統(tǒng)升級,將新增功能嵌入到原有系統(tǒng)當(dāng)中,以平滑過渡的方式構(gòu)造新一代智能網(wǎng)上評卷系統(tǒng),為后期拓展應(yīng)用以及系統(tǒng)的進(jìn)一步融合和升級奠定基礎(chǔ)。
圖1 高考網(wǎng)上評卷系統(tǒng)和人工智能輔助評分系統(tǒng)融合的系統(tǒng)結(jié)構(gòu)示意圖
表1 評卷輔助平臺所需服務(wù)器配置
評卷輔助平臺為WEB架構(gòu),采用JAVA面向?qū)ο笳Z言開發(fā),關(guān)鍵業(yè)務(wù)數(shù)據(jù)的傳輸和存儲均進(jìn)行加密處理。硬件方面,主要由數(shù)據(jù)庫服務(wù)器、文件服務(wù)器、應(yīng)用服務(wù)器和網(wǎng)絡(luò)設(shè)備組成,服務(wù)器參考配置見表1。網(wǎng)上評卷系統(tǒng)和人工智能評分系統(tǒng)之間不能進(jìn)行直接訪問,需各自與評卷輔助平臺進(jìn)行連接,完成數(shù)據(jù)交換。在訪問策略控制方面,數(shù)據(jù)庫服務(wù)器的用戶和權(quán)限單獨(dú)設(shè)置,網(wǎng)上評卷系統(tǒng)和人工智能系統(tǒng)都不能訪問數(shù)據(jù)庫服務(wù)器,網(wǎng)上評卷系統(tǒng)只能訪問平臺的應(yīng)用服務(wù)器,人工智能評分系統(tǒng)只能訪問平臺的應(yīng)用服務(wù)器和文件服務(wù)器,見圖2。
評卷輔助平臺包括數(shù)據(jù)交換子系統(tǒng)和監(jiān)控、統(tǒng)計、處理子系統(tǒng)2個部分,其中:數(shù)據(jù)交換子系統(tǒng)通過Web service接口技術(shù),提供數(shù)據(jù)交換服務(wù);監(jiān)控、統(tǒng)計、處理子系統(tǒng)對交換過程進(jìn)行監(jiān)控,對數(shù)據(jù)進(jìn)行處理、統(tǒng)計、分析、決策。
圖2 評卷輔助平臺設(shè)備連接示意圖
監(jiān)控、統(tǒng)計、處理子系統(tǒng)主要監(jiān)控考生圖像數(shù)據(jù)的上傳下載、定標(biāo)集圖像信息及專家評分結(jié)果的上傳下載、樣卷、機(jī)器評分、空白題給分卷、抄襲題干卷、抄襲范文卷、相似卷(疑似雷同卷)、復(fù)核卷等接口數(shù)據(jù)的接收與下發(fā)情況。對人工智能評分結(jié)果進(jìn)行數(shù)據(jù)導(dǎo)入,對機(jī)評成績和人評成績進(jìn)行質(zhì)檢比對。管理人員可根據(jù)條件設(shè)定,對大分差評分生成需要進(jìn)行復(fù)核的試題信息,通過網(wǎng)上評卷系統(tǒng)發(fā)放給學(xué)科組進(jìn)行復(fù)核,計入仲裁成績,并將復(fù)核結(jié)果反饋至評卷輔助平臺,供進(jìn)一步統(tǒng)計分析使用。監(jiān)控、統(tǒng)計、處理子系統(tǒng)及其程序設(shè)計,可根據(jù)智能網(wǎng)上評卷系統(tǒng)的功能設(shè)計進(jìn)行不斷升級和完善。
與評卷輔助平臺相對應(yīng),原有網(wǎng)上評卷系統(tǒng)需進(jìn)行升級后才能滿足新一代智能網(wǎng)上評卷系統(tǒng)的應(yīng)用需要。基于上述技術(shù)方案,對新增功能采用服務(wù)引擎方式進(jìn)行設(shè)計。服務(wù)引擎主要完成網(wǎng)上評卷系統(tǒng)與評卷輔助平臺的交互,包括上傳掃描完成考生的圖像信息、接收人工智能系統(tǒng)的輔助定標(biāo)樣卷及分?jǐn)?shù)、上傳人評最終成績、接收復(fù)核數(shù)據(jù)(包括人評與機(jī)評評分差值較大的考生數(shù)據(jù)、抄襲題干、抄襲范文、空白卷有分的考生數(shù)據(jù)、相似考生數(shù)據(jù)等)、上傳復(fù)核反饋結(jié)果等。服務(wù)引擎設(shè)計遵循新增模塊不能影響原有系統(tǒng)主體結(jié)構(gòu),新增功能不修改或少修改原有功能的設(shè)計思路。既保證原有網(wǎng)上評卷系統(tǒng)穩(wěn)定運(yùn)行,又確保新增業(yè)務(wù)(如人工智能輔助網(wǎng)上評卷質(zhì)量控制)能夠以實(shí)時在線方式應(yīng)用。
新一代智能網(wǎng)上評卷系統(tǒng)具有5個特點(diǎn):一是系統(tǒng)的獨(dú)立性。評卷輔助平臺通過對數(shù)據(jù)接口的定義和網(wǎng)絡(luò)訪問的控制,保證自身的獨(dú)立性,使其既不依賴于特定的人工智能系統(tǒng),又不依附于特定的網(wǎng)上評卷系統(tǒng),可與國內(nèi)現(xiàn)行主流的網(wǎng)上評卷系統(tǒng)、人工智能評分系統(tǒng)對接,開放而兼容。二是數(shù)據(jù)交互的靈活性。掃描圖像數(shù)據(jù)通過評卷輔助平臺提供給人工智能評分系統(tǒng),人工智能評分系統(tǒng)的計算機(jī)自動評分結(jié)果又通過評卷輔助平臺提供給網(wǎng)上評卷系統(tǒng),數(shù)據(jù)的導(dǎo)入導(dǎo)出交換能力安全高效,過程可追溯,日志可審計。三是在線控制的實(shí)時性。例如,安徽省2018年在高考網(wǎng)評過程中實(shí)現(xiàn)了對高考語文作文題和高考英語作文題評分結(jié)果的定時定點(diǎn)比對,人工評分結(jié)果和計算機(jī)智能評分結(jié)果可以隨時在系統(tǒng)控制端進(jìn)行實(shí)時動態(tài)分析,對人機(jī)大分差樣本、抄寫題干等異常答題樣本等情況進(jìn)行精準(zhǔn)質(zhì)檢反饋,質(zhì)量監(jiān)控的針對性大大提高。四是對離線方式的包容性。2018年安徽省增加了對高考語文簡答題、文科綜合能力測試簡答題、數(shù)學(xué)證明題的智能評分和實(shí)驗(yàn)驗(yàn)證,方法是通過評卷輔助平臺將機(jī)評結(jié)果導(dǎo)入網(wǎng)評系統(tǒng)當(dāng)中,經(jīng)過監(jiān)控、統(tǒng)計、處理子系統(tǒng)和服務(wù)引擎進(jìn)行質(zhì)檢反饋,結(jié)果顯示對多科目、多題型的輔助質(zhì)量監(jiān)控高效有序。五是系統(tǒng)的可擴(kuò)展性。通過評卷輔助平臺這種中間雙向介入模式,可以將人工智能評分系統(tǒng)的評分結(jié)果作為一評直接提交給網(wǎng)上評卷系統(tǒng),為智能評分替代人工一評提供了更好的解決方案,也為人工智能評分技術(shù)在非高利害性考試閱卷組織管理中的推廣應(yīng)用提供了思路。
評卷輔助平臺在安徽省2018年高考評卷中進(jìn)行了試驗(yàn),試驗(yàn)內(nèi)容包括:一是對高考英語作文題、高考語文作文題以在線方式實(shí)現(xiàn)智能評分,并將評分結(jié)果應(yīng)用于輔助質(zhì)量監(jiān)控;二是對高考語文簡答題、高考數(shù)學(xué)證明/計算題、高考文科綜合能力測試政治簡答題以離線方式驗(yàn)證智能評分效果,探索人工智能評卷技術(shù)在多科目、多題型上應(yīng)用的可行性。
2018年安徽省實(shí)際參加高考統(tǒng)考人數(shù)為42萬,統(tǒng)考科目為語文、數(shù)學(xué)、英語和文科/理科綜合能力測試。掃描及評卷用各類服務(wù)器40臺,采用虛擬化技術(shù)對H3C UIS8000刀片服務(wù)器進(jìn)行物理和邏輯劃分。評卷輔助平臺使用的3臺服務(wù)器單獨(dú)部署,按照特定的網(wǎng)絡(luò)連接方案與網(wǎng)評系統(tǒng)和人工智能評分系統(tǒng)進(jìn)行連接。人工智能評分系統(tǒng)安排在獨(dú)立場地,由6臺高配置服務(wù)器及2臺操作終端進(jìn)行處理。各服務(wù)器、交換機(jī)(千兆)、網(wǎng)絡(luò)安全設(shè)備、控制終端和移動硬盤等少量外設(shè)組成局域網(wǎng),與外網(wǎng)進(jìn)行物理隔離。人工智能評分系統(tǒng)用到的服務(wù)器主要配置要求CPU為Intel Xeon V3 12核24線程;內(nèi)存≥64GB,4通道及以上;千兆網(wǎng)口;高性能GPU顯卡4塊(顯存大小≥16GB);操作系統(tǒng)為Windows Server 2008R2 64位。
此次試驗(yàn)語文作文題、英語作文題、語文簡答題(第6題)各掃描圖像419 119份,其中定標(biāo)樣本:語文作文601份,英語作文542份,語文簡答題(第6題)500份;文科綜合能力測試簡答題(第38題)、數(shù)學(xué)文科證明題(第18題)各掃描圖像175 863份,其中定標(biāo)樣本:文科綜合能力測試第38題571份,數(shù)學(xué)文科第18題1 996份,見表2。
從表2可以看出,人工智能評分系統(tǒng)對除定標(biāo)集、異常作答(包括特殊異常作答和非準(zhǔn)確識別)2部分以外的樣本進(jìn)行了計算機(jī)評分,語文作文389 299份,占全部樣本量的92.89%;英語作文390 701份,占全部樣本量的93.22%;語文第6題413 232份,占全部樣本量的98.60%;文科綜合能力測試第38題171 881份,占全部樣本量的97.74%;數(shù)學(xué)文科第18題125 773份,占全部樣本量的71.52%。所有樣本的評分結(jié)果均經(jīng)閱卷系統(tǒng)完整性、準(zhǔn)確性檢查。
表2 試驗(yàn)用樣本數(shù)量
人工智能評分檢測出的特殊異常作答樣本,包括與范文庫中文本內(nèi)容相似度高、與當(dāng)次考試試卷題干相似度高、考生之間作答內(nèi)容相似度高3種情況,語文作文共有237份,英語作文共有2 557份,語文第6題10份,文科綜合能力測試第38題40份,見表3。
人工智能評分系統(tǒng)還對樣本的機(jī)評平均分和標(biāo)準(zhǔn)差進(jìn)行統(tǒng)計分析,見表4。
此外,在人工智能評分系統(tǒng)檢測出的各類異常作答樣本以及定標(biāo)數(shù)據(jù)集中,隨機(jī)挑選語文作文和英語作文各100份圖片進(jìn)行識別率的統(tǒng)計對比,結(jié)果為:語文中文字符的識別準(zhǔn)確率為96.93%,英語單詞的識別準(zhǔn)確率為98.88%,這說明系統(tǒng)已經(jīng)達(dá)到了一個較高的水平。根據(jù)智能評分得到的數(shù)據(jù),通過評卷輔助平臺將相應(yīng)結(jié)果與評卷教師的評分情況(報道分)進(jìn)行了比對,并對以上各類異常作答樣本以及人機(jī)(報道分和機(jī)評分)產(chǎn)生大分差樣本進(jìn)行標(biāo)注,通過條件控制,將這些大分差樣本數(shù)據(jù)下發(fā)給各學(xué)科組評卷專家進(jìn)行復(fù)核,各題型復(fù)核結(jié)果見表5至表8。
從上述復(fù)核情況看,人工智能評分系統(tǒng)對輔助質(zhì)量監(jiān)控起到精準(zhǔn)定位、精細(xì)復(fù)核、精確評分的作用。
目前,基于人工智能的計算機(jī)自動評分系統(tǒng)在評分過程的智能程度、算法的先進(jìn)性、結(jié)果的準(zhǔn)確性和極高的效率方面等已經(jīng)得到證明[5];同時,還具有強(qiáng)大的數(shù)據(jù)處理能力,完備的輔助質(zhì)檢功能,能夠提供客觀的質(zhì)量評價標(biāo)準(zhǔn),從而能夠在更大程度上保證評分的客觀公正。在實(shí)際應(yīng)用過程中,如何更好地將人工智能技術(shù)與網(wǎng)上評卷技術(shù)結(jié)合起來,實(shí)現(xiàn)二者完美對接與深度融合,解決現(xiàn)有評卷組織管理模式中的一些深層次問題,依然有很長的路要走。
表3 人工智能評分系統(tǒng)檢測出特殊異常作答樣本數(shù)量
表4 人工智能評分樣本集合的平均分和標(biāo)準(zhǔn)差
表5 高考語文作文題復(fù)核結(jié)果 份
表6 高考英語作文題復(fù)核結(jié)果 份
表7 高考文科綜合能力測試第38題復(fù)核結(jié)果 份
表8 高考數(shù)學(xué)文科第18題復(fù)核結(jié)果 份
蓬勃發(fā)展的圖像識別和字符識別技術(shù),使人工智能在各類考試中的測評應(yīng)用成為可能;但是,一旦到了應(yīng)用層面,人們所關(guān)心的就不僅僅是結(jié)果如何,而是新技術(shù)所涉及的全部內(nèi)容。如何做到讓考生、家長和社會接受,需要一個長期的、認(rèn)識上的轉(zhuǎn)變過程和技術(shù)本身的不斷進(jìn)步。要擴(kuò)大人工智能在更多科目、更多題型上的處理能力,推動人工智能測評技術(shù)的發(fā)展,要加強(qiáng)對轉(zhuǎn)寫識別、智能評分等核心算法的研究,提升人工智能在識別精度和評分準(zhǔn)確度方面的能力。例如,經(jīng)過對比發(fā)現(xiàn),考生在方格內(nèi)書寫作文和在開放區(qū)域內(nèi)書寫作文、在有下劃線的區(qū)域內(nèi)作答簡答題和在開放區(qū)域內(nèi)作答簡答題、在開放區(qū)域內(nèi)作答數(shù)學(xué)證明題和計算題等,其轉(zhuǎn)寫識別的精度都不盡相同,前者會高于后者,這些都是擺在考試管理者面前需要考慮的問題。在評分準(zhǔn)確度方面,在人機(jī)大分差的樣本中,尤其是機(jī)器評分大于人工評分的樣本中,人工評分的準(zhǔn)確度要高于智能評分。對于經(jīng)智能閱卷系統(tǒng)檢出的抄寫題干、相似作答等異常樣本,其分?jǐn)?shù)經(jīng)復(fù)核后無一例外都是向下修正。因此,在人工智能全面參與高利害性考試的閱卷過程中,依然有很多的關(guān)鍵技術(shù)需要突破。
隨著人工智能技術(shù)以及其他新技術(shù)的突破,將會有更多企業(yè)參與到教育考試及評卷工作中來,也必將對現(xiàn)有網(wǎng)上評卷技術(shù)服務(wù)商提出更多更高的要求。因此,克服現(xiàn)有網(wǎng)評系統(tǒng)中的固有弊端,加強(qiáng)對人工智能輔助網(wǎng)上評卷的規(guī)范性研究,成為一個緊迫的研究課題。就網(wǎng)上評卷的流程而言,無論是人工閱卷還是計算機(jī)智能評卷,或是將二者結(jié)合起來形成的人工智能網(wǎng)上評卷系統(tǒng),其流程可以歸納為圖3。由圖3可知,這一流程在保留了二者獨(dú)立性的同時,進(jìn)行了關(guān)聯(lián)融合,其目的是將智能評分結(jié)果及時反饋到人工評分的過程中,同步對分?jǐn)?shù)進(jìn)行比對、分析、計算,從而形成有針對性的應(yīng)用方案,比如質(zhì)量控制方案等。
圖3 人工智能評分系統(tǒng)深度融合網(wǎng)評系統(tǒng)實(shí)施流程示意圖
目前的問題是如何進(jìn)一步加強(qiáng)對人工智能與網(wǎng)上評卷相結(jié)合的規(guī)范性研究,從而形成一套有效的人機(jī)結(jié)合的智能網(wǎng)上評卷標(biāo)準(zhǔn)化實(shí)施流程。安徽省在2017年、2018年高考閱卷過程中對這一流程進(jìn)行了積極探索,增加了人工智能輔助網(wǎng)上評卷質(zhì)量監(jiān)控功能,第二步將要實(shí)現(xiàn)的是在評卷過程中對考生異常答題信息的動態(tài)提示,包括對教師閱卷界面的調(diào)整等,第三步是人機(jī)融合后對網(wǎng)上評卷組織管理模式的改革創(chuàng)新。在應(yīng)用上,只有實(shí)現(xiàn)了二者的融合,才能利用智能閱卷系統(tǒng)的文字轉(zhuǎn)寫功能和自主學(xué)習(xí)能力,更有針對性地為學(xué)科評卷組挑選專家樣卷;才能實(shí)現(xiàn)機(jī)器評分和人工評分相結(jié)合的新的雙評模式,節(jié)省人力和提高效率;才能使評卷系統(tǒng)具備及時發(fā)現(xiàn)人工評分偏差的能力,動態(tài)實(shí)現(xiàn)對機(jī)器評分與人工評分分差較大的樣本進(jìn)行有針對性的質(zhì)檢反饋;才能使計算機(jī)智能閱卷系統(tǒng)通過不斷地數(shù)據(jù)挖掘和自主學(xué)習(xí),在某種程度上達(dá)到專家水平。
人工智能評分系統(tǒng)在文字轉(zhuǎn)寫識別上的高識別率和建立在自然語義理解等核心算法上的多維度智能評分的高準(zhǔn)確度和高效率,使其有著非常廣闊的發(fā)展空間??梢灶A(yù)見:在某些人工智能技術(shù)瓶頸得到突破后,其能夠在更多科目、更多題型上進(jìn)行精準(zhǔn)評分;在閱卷組織和管理模式上形成規(guī)范化和程序化的操作之后,以智能評分替代一評或部分替代人工評卷,將成為一種可能。未來在學(xué)業(yè)水平考試、自學(xué)考試及社會化考試等相對低利害的考試中,可以考慮用計算機(jī)智能評分替代多評模式下的人工一評,甚至可以直接替代某些高可信度分?jǐn)?shù)段內(nèi)的人工評分。這種人機(jī)結(jié)合的智能閱卷組織管理模式,將成為未來考試閱卷智能化應(yīng)用的發(fā)展方向。