汪張龍
(廣東訊飛啟明科技發(fā)展有限公司,廣州 510530)
1956年的達(dá)特茅斯會(huì)議(Dartmouth Confer?ence)被公認(rèn)為是人工智能的起源。在這個(gè)會(huì)議上,麥肯錫、明斯基、香農(nóng)等科學(xué)家共同提出了人工智能的概念:“我們將試圖找出一種方法,能讓機(jī)器使用語(yǔ)言形成抽象概念和觀念、幫助人類解決不同種類的問(wèn)題,并且能夠自我改進(jìn)?,F(xiàn)階段人工智能研究的目標(biāo)是,試圖讓機(jī)器作出能被人類稱為‘智能’的行為?!盵1]
人工智能自1956年被正式提出到2016年,經(jīng)歷了三次發(fā)展浪潮。第一次發(fā)展高潮在1970年。自達(dá)特茅斯會(huì)議后,人們陸續(xù)發(fā)明了第一款的感知神經(jīng)網(wǎng)絡(luò)軟件和聊天軟件,證明了數(shù)學(xué)定理,那個(gè)時(shí)候大家都驚呼“人工智能來(lái)了,再過(guò)十年機(jī)器要超越人類了”。70年代后期,人們發(fā)現(xiàn)過(guò)去的理論和模型,只能解決一些非常簡(jiǎn)單的問(wèn)題,人工智能很快進(jìn)入了第一次冬天。隨著1982年霍普菲爾德網(wǎng)絡(luò)和反向傳播算法[2]的提出,使得大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成為可能,人們?cè)俅慰吹搅松窠?jīng)網(wǎng)絡(luò)人工智能的希望,人工智能進(jìn)入第二次高潮。不過(guò),由于神經(jīng)網(wǎng)絡(luò)本身算法的局限性,同時(shí)也受到當(dāng)時(shí)整個(gè)運(yùn)算能力的限制,到了90年代后期,人們發(fā)現(xiàn)離真正實(shí)用還很遙遠(yuǎn),人工智能進(jìn)入了第二個(gè)冬天。隨著2006年Hinton提出的深度學(xué)習(xí)技術(shù)和圖形處理單元運(yùn)算能力的進(jìn)步,深度學(xué)習(xí)在圖像、語(yǔ)音識(shí)別以及其他領(lǐng)域內(nèi)取得的成功令人鼓舞[3]。加上大數(shù)據(jù)、云計(jì)算和移動(dòng)互聯(lián)網(wǎng)源源不斷地把各種訓(xùn)練數(shù)據(jù)收到后臺(tái),以深度學(xué)習(xí)為基礎(chǔ)的人工智能開(kāi)始進(jìn)入了第三次浪潮。伴隨AlphaGo和李世石的圍棋對(duì)決,人工智能引起了社會(huì)各界的高度關(guān)注,可以說(shuō)2016年成為全世界以及中國(guó)人工智能的歷史元年。
深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域最具影響力的突破發(fā)生在2012年,Hinton的研究小組采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學(xué)習(xí)模型贏得了ImageNet圖像Top5分類的比賽,錯(cuò)誤率僅為15%,比第二名的26%低10%以上。隨后,以卷積神經(jīng)網(wǎng)絡(luò)為代表的各種深度學(xué)習(xí)算法被廣泛應(yīng)用于傳統(tǒng)的圖像識(shí)別中,并不斷刷新紀(jì)錄。到2014年,ImageNet圖像Top5分類的識(shí)別錯(cuò)誤率已經(jīng)降低到6.73%,2015年更是下降到3.57%。在計(jì)算機(jī)視覺(jué)領(lǐng)域另一個(gè)重要的挑戰(zhàn)人臉識(shí)別中,深度學(xué)習(xí)算法可以達(dá)到99.47%的識(shí)別率,非深度學(xué)習(xí)算法的最高識(shí)別率是96.33%[4]。
在語(yǔ)音領(lǐng)域,深度學(xué)習(xí)同樣大放異彩。2011年微軟研究院率先使用深度學(xué)習(xí)將SwitchBoard語(yǔ)音識(shí)別評(píng)測(cè)數(shù)據(jù)集上的錯(cuò)誤率從27.4%降到18.5%,相對(duì)改善幅度達(dá)30%以上。2017年3月,該紀(jì)錄被IBM再次刷新,識(shí)別錯(cuò)誤率已降到5.5%,達(dá)到堪比人類的準(zhǔn)確度[5]。得益于識(shí)別錯(cuò)誤率的大幅降低,語(yǔ)音識(shí)別已達(dá)到實(shí)用水平,各種形式的應(yīng)用產(chǎn)品如雨后春筍般爆發(fā)出來(lái),如以科大訊飛公司為代表的移動(dòng)端語(yǔ)音輸入法、車載語(yǔ)音交互系統(tǒng)、智能音箱等。在語(yǔ)音合成領(lǐng)域,深度學(xué)習(xí)也取得了重大突破,DeepMind公司提出了基于復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)的通用語(yǔ)音合成框架,合成語(yǔ)音的自然度大大超過(guò)傳統(tǒng)的參數(shù)合成和拼接合成框架。在語(yǔ)音評(píng)測(cè)領(lǐng)域,深度學(xué)習(xí)大大提升了聲學(xué)模型評(píng)價(jià)發(fā)音正確與否的能力,使得中英文字詞、句子和篇章層面的發(fā)音評(píng)測(cè)效果大大提升[6]。語(yǔ)音評(píng)測(cè)技術(shù)的發(fā)展,推動(dòng)了智能語(yǔ)音技術(shù)在語(yǔ)言評(píng)測(cè)與學(xué)習(xí)的應(yīng)用,如普通話水平測(cè)試機(jī)器自動(dòng)評(píng)分、英語(yǔ)口語(yǔ)考試自動(dòng)評(píng)分使得口語(yǔ)考試能夠大規(guī)模地得以實(shí)施。
人工智能的另一個(gè)重大領(lǐng)域——自然語(yǔ)言處理,深度學(xué)習(xí)也是嶄露頭角,在語(yǔ)言模型、序列標(biāo)注、語(yǔ)義理解、機(jī)器翻譯等方向都有重大突破,取得優(yōu)于傳統(tǒng)算法的效果。特別是機(jī)器翻譯方向,深度學(xué)習(xí)帶來(lái)的效果提升甚至已超過(guò)過(guò)去十幾年的總和。國(guó)內(nèi)科研機(jī)構(gòu)和科技公司緊跟國(guó)際主流的機(jī)器翻譯技術(shù),尋求突破。2014年,科大訊飛公司首次參加國(guó)際口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽(International Workshop on Spoken Language Translation),在中譯英和英譯中均以顯著優(yōu)勢(shì)獲得第一,打破了中英口語(yǔ)翻譯領(lǐng)域由歐洲機(jī)構(gòu)長(zhǎng)期壟斷第一的局面,體現(xiàn)了我國(guó)機(jī)器翻譯技術(shù)在國(guó)際上的領(lǐng)先水平。
人工智能技術(shù)的快速發(fā)展對(duì)考試測(cè)評(píng)也產(chǎn)生巨大影響,命題、考試實(shí)施、評(píng)卷等都將發(fā)生巨大變化。傳統(tǒng)的考試評(píng)卷完全是通過(guò)人工進(jìn)行,費(fèi)時(shí)費(fèi)力,效率低。目前即使是使用了網(wǎng)上評(píng)卷掃描系統(tǒng),主觀題評(píng)分依然需要人工,書面筆試之外的口語(yǔ)考試更是無(wú)法大規(guī)模開(kāi)展。人工智能技術(shù)完全可以解決上述需求,通過(guò)人工智能技術(shù)學(xué)習(xí)專家評(píng)分,計(jì)算機(jī)可以完成紙筆作答主觀題智能評(píng)分,并且具有較高的評(píng)分準(zhǔn)確度和穩(wěn)定性。目前在國(guó)內(nèi),人工智能技術(shù)應(yīng)用于大規(guī)??荚囈延谐晒Π咐缈拼笥嶏w公司開(kāi)發(fā)的智能評(píng)分系統(tǒng)已應(yīng)用于廣東高考英語(yǔ)聽(tīng)說(shuō)考試、江蘇中考英語(yǔ)聽(tīng)力口語(yǔ)考試等??梢灶A(yù)見(jiàn),人工智能技術(shù)將給考試行業(yè)帶來(lái)革命性變化。本文從考試命題、英語(yǔ)聽(tīng)說(shuō)考試、紙筆考試評(píng)卷和標(biāo)準(zhǔn)化考場(chǎng)建設(shè)4個(gè)方面闡述人工智能技術(shù)的應(yīng)用。
《國(guó)務(wù)院關(guān)于深化考試招生制度改革的實(shí)施意見(jiàn)》中明確提出要“加強(qiáng)題庫(kù)建設(shè)”,“完善高中學(xué)業(yè)水平考試”,其中要求“創(chuàng)造條件為有需要的學(xué)生提供同一科目參加兩次考試的機(jī)會(huì)”。這就給教育考試機(jī)構(gòu)提出了更高的要求。根據(jù)問(wèn)題導(dǎo)向的思路,“同一科目一年兩考”最突出的問(wèn)題是解決兩次考試的試卷難度等值問(wèn)題,為確??荚嚦煽?jī)公平、可信,對(duì)命題提出更高要求。
題庫(kù)作為命題的輔助工具,它不僅僅需要具有試題管理和組卷的功能,更重要的是收集測(cè)試數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與分析,從中發(fā)現(xiàn)試題編制中的問(wèn)題、教學(xué)過(guò)程中的問(wèn)題以及學(xué)生學(xué)習(xí)過(guò)程中的問(wèn)題。題庫(kù)的建設(shè)不僅會(huì)帶來(lái)命題模式和工作方式的變化,而且將進(jìn)一步推動(dòng)教育考試的標(biāo)準(zhǔn)化,有利于推進(jìn)考生能力評(píng)價(jià)模式的改革,推進(jìn)教育考試的改革。因此,從長(zhǎng)期發(fā)展的角度看,題庫(kù)建設(shè)有助于促進(jìn)現(xiàn)行學(xué)業(yè)水平考試命題理論和技術(shù)的提高[7]。
題庫(kù)建設(shè)涉及一系列關(guān)鍵問(wèn)題,這些問(wèn)題包括:作為題庫(kù)基本單元的題目的命制、篩選、分類及管理;由題目組成試卷的流程、實(shí)施、評(píng)分及評(píng)價(jià);題庫(kù)系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)、硬件與軟件的特征及管理;題庫(kù)使用和維護(hù)的原則等[8]。隨著人工智能技術(shù)的發(fā)展,人工智能技術(shù)在試題難度預(yù)測(cè)和等值處理方面可以發(fā)揮重要作用。
難度預(yù)測(cè)的技術(shù)路線主要有兩個(gè)分支:人工特征工程方案和深度學(xué)習(xí)方案。人工特征方案主要是通過(guò)人工設(shè)定難度相關(guān)特征的計(jì)算規(guī)則,機(jī)器依據(jù)規(guī)則從試題中抽取這些特征,直接對(duì)難度進(jìn)行回歸,預(yù)測(cè)試題的難度系數(shù);深度學(xué)習(xí)方案則不需要人工設(shè)定特征提取規(guī)則,而是通過(guò)深層的神經(jīng)網(wǎng)絡(luò)自動(dòng)地從試題中抽取與難度系數(shù)相關(guān)的特征,并進(jìn)行難度預(yù)測(cè)。兩種方案各有利弊,深度學(xué)習(xí)方案需要大量的考試數(shù)據(jù),當(dāng)數(shù)據(jù)量比較小的時(shí)候,人工特征方案得到的性能比深度學(xué)習(xí)方案要略微好點(diǎn),而深度學(xué)習(xí)方案的性能隨著數(shù)據(jù)量的上升可以有穩(wěn)步且顯著的提升,并且顯著地超越人工特征方案。下面主要介紹深度學(xué)習(xí)方案的技術(shù)路線。
從2014年開(kāi)始,深度學(xué)習(xí)在諸多領(lǐng)域異軍突起的重要原因不僅僅是有深層的神經(jīng)網(wǎng)絡(luò),有更加強(qiáng)大的模型表達(dá)能力,更為關(guān)鍵的一個(gè)因素是深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)的注意力模型機(jī)制算法。深度學(xué)習(xí)中的注意力模型機(jī)制算法賦予了神經(jīng)網(wǎng)絡(luò)一個(gè)非常強(qiáng)大的能力,即神經(jīng)網(wǎng)絡(luò)能夠在每個(gè)決策階段,對(duì)所有的輸入信息,能夠自洽地選取對(duì)此時(shí)決策有用的信息,忽略對(duì)此刻決策無(wú)關(guān)的信息,這樣的能力非常類似于人類在聽(tīng)說(shuō)讀寫過(guò)程中集中注意力的能力。在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行難度預(yù)測(cè)時(shí),非常需要神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)每道題的難度時(shí),能夠準(zhǔn)確地在整篇文章中找到與該題相關(guān)的內(nèi)容,這樣的功能恰好能夠使用注意力機(jī)制來(lái)完成,但是要讓神經(jīng)網(wǎng)絡(luò)準(zhǔn)確地將注意力機(jī)制學(xué)習(xí)好,不僅僅需要非常多的數(shù)據(jù),還需要設(shè)計(jì)精密巧妙的網(wǎng)絡(luò)結(jié)構(gòu)[9]。
以英語(yǔ)試題為例,基于深度學(xué)習(xí)方案實(shí)現(xiàn)英語(yǔ)難度預(yù)測(cè)方法的主要思想為:通過(guò)深層的神經(jīng)網(wǎng)絡(luò)提取出被預(yù)測(cè)文章的深層次語(yǔ)義特征表示;使用神經(jīng)網(wǎng)絡(luò)提取該篇文章問(wèn)題的語(yǔ)義特征表示;使用特殊的網(wǎng)絡(luò)注意力模型確定問(wèn)題在文章深層語(yǔ)義特征表示中對(duì)應(yīng)答案的信息;使用神經(jīng)網(wǎng)絡(luò)抽象出該提問(wèn)的多個(gè)選項(xiàng)答案的語(yǔ)義特征表示,并設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)度量多個(gè)選項(xiàng)答案與語(yǔ)義特征之間的距離關(guān)系,從而判斷該題目的難度系數(shù)。實(shí)際研究表明,人工專家間對(duì)試題難度預(yù)測(cè)的相關(guān)系數(shù)約為0.4~0.5,采用計(jì)算機(jī)輔助難度預(yù)測(cè)后,人工專家間對(duì)試題難度預(yù)測(cè)的相關(guān)系數(shù)可以達(dá)到0.7~0.8,未來(lái)隨著數(shù)據(jù)量的增加,效果還會(huì)有進(jìn)一步的提升。
聽(tīng)說(shuō)考試是外語(yǔ)教學(xué)中必不可少的一種考試形式。傳統(tǒng)的英語(yǔ)聽(tīng)說(shuō)考試采用的是人工面對(duì)面測(cè)試或計(jì)算機(jī)錄音、人工評(píng)分的方式,這種測(cè)試方式組織難度大、實(shí)施成本高且測(cè)試結(jié)果容易受到評(píng)卷人的主觀性影響,不利于大規(guī)模開(kāi)展。
聽(tīng)說(shuō)智能考試則是在計(jì)算機(jī)教室中,采用人機(jī)對(duì)話、智能評(píng)分方式進(jìn)行的一種新型考試。聽(tīng)說(shuō)智能考試系統(tǒng)能夠?qū)⒖记啊⒖贾泻涂己蟾黜?xiàng)工作納入其中,大大降低人工工作量,降低人力成本,提升評(píng)分的準(zhǔn)確性和一致性,是考試組織方式的一次重大革新。聽(tīng)說(shuō)智能考試系統(tǒng)如圖1所示。
聽(tīng)說(shuō)智能考試系統(tǒng)的核心是人工智能技術(shù)??紙?chǎng)內(nèi)使用的考試子系統(tǒng)和考后使用的智能評(píng)分子系統(tǒng),人工智能技術(shù)在這兩個(gè)子系統(tǒng)中均發(fā)揮了重要作用。
圖1 聽(tīng)說(shuō)智能考試系統(tǒng)
考試子系統(tǒng)的主要目標(biāo)是,確保在復(fù)雜多變的考場(chǎng)環(huán)境中,采集到清晰完整的考生答題錄音,并能夠應(yīng)對(duì)停電、死機(jī)、噪聲過(guò)大等各類突發(fā)情況。因此,在系統(tǒng)設(shè)計(jì)上不僅要充分考慮各種異常情況的出現(xiàn),滿足考試的正常開(kāi)展,更重要的是應(yīng)用智能音質(zhì)檢測(cè)技術(shù),在考試過(guò)程中對(duì)考生的語(yǔ)音數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)測(cè),確保監(jiān)考機(jī)收回的語(yǔ)音數(shù)據(jù)物理參數(shù)(如音量、信噪比等)符合要求。如果一旦檢測(cè)到考生的語(yǔ)音數(shù)據(jù)不完整或者音質(zhì)很差,系統(tǒng)應(yīng)實(shí)時(shí)預(yù)警,由監(jiān)考老師進(jìn)行處理,必要時(shí)可安排在下一批次重考,避免在評(píng)分階段才發(fā)現(xiàn)數(shù)據(jù)不可用。
智能評(píng)分子系統(tǒng)的目標(biāo)是實(shí)現(xiàn)計(jì)算機(jī)對(duì)朗讀題、問(wèn)答題、話題表述題等非完全開(kāi)放性題目進(jìn)行自動(dòng)化評(píng)分,其中最核心的是智能口語(yǔ)評(píng)測(cè)技術(shù)。智能口語(yǔ)評(píng)測(cè)技術(shù)首先從考生語(yǔ)音數(shù)據(jù)中提取到反映口語(yǔ)發(fā)音的標(biāo)準(zhǔn)程度、語(yǔ)速、正確性、語(yǔ)氣語(yǔ)調(diào)等各方面表現(xiàn)的物理特征;其次,分析實(shí)際環(huán)境下的噪聲對(duì)各個(gè)物理特征的影響,通過(guò)累積分布函數(shù)匹配(Cumulative Distribution Function Matching)等規(guī)整化處理[10],建立從帶噪語(yǔ)音物理特征到干凈語(yǔ)音物理特征之間的映射,實(shí)現(xiàn)噪聲干擾在打分特征層面的補(bǔ)償,最終使評(píng)分系統(tǒng)具備較好的抗噪性能;最后,通過(guò)收集大量的語(yǔ)音數(shù)據(jù),由人工專家對(duì)數(shù)據(jù)進(jìn)行細(xì)致的標(biāo)注,用標(biāo)注結(jié)果訓(xùn)練計(jì)算機(jī)系統(tǒng),建立物理特征與人工專家評(píng)測(cè)及檢錯(cuò)結(jié)果間的高精度映射模型,最終實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)評(píng)分。
目前,計(jì)算機(jī)智能口語(yǔ)評(píng)測(cè)技術(shù)已在國(guó)內(nèi)多項(xiàng)大規(guī)模考試中進(jìn)行了應(yīng)用。如廣東省高考英語(yǔ)聽(tīng)說(shuō)考試從2013年開(kāi)始采用科大訊飛公司的智能口語(yǔ)評(píng)分技術(shù),年測(cè)試考生約70萬(wàn)人,計(jì)算機(jī)系統(tǒng)在兩天內(nèi)完成所有考生的評(píng)分,同時(shí)組織少量人工專家對(duì)計(jì)算機(jī)評(píng)分結(jié)果進(jìn)行復(fù)審,保證了評(píng)分結(jié)果的客觀公正,大幅度降低了考試的組織難度,提高了效率。此外,計(jì)算機(jī)智能口語(yǔ)評(píng)測(cè)技術(shù)在江蘇、浙江、重慶、山東、遼寧等地的中考英語(yǔ)聽(tīng)說(shuō)考試中也得到了應(yīng)用。
智能口語(yǔ)評(píng)測(cè)技術(shù)不僅能應(yīng)用于大規(guī)模正式考試,在學(xué)校內(nèi)部的模擬考試、日常教學(xué)中也發(fā)揮著積極作用。應(yīng)用于日常教學(xué),計(jì)算機(jī)系統(tǒng)不僅能實(shí)現(xiàn)自動(dòng)化評(píng)測(cè),減輕教師負(fù)擔(dān),而且可以為每一個(gè)學(xué)生提供詳細(xì)的診斷分析報(bào)告,指出學(xué)生當(dāng)前的主要問(wèn)題,并自動(dòng)生成有針對(duì)性的學(xué)習(xí)資源。在學(xué)習(xí)的過(guò)程中,計(jì)算機(jī)系統(tǒng)可以實(shí)時(shí)對(duì)學(xué)生的發(fā)音情況進(jìn)行評(píng)測(cè),陪伴學(xué)生的整個(gè)學(xué)習(xí)過(guò)程,提高學(xué)習(xí)興趣和效率。
另外,最近幾年隨著微電子技術(shù)的發(fā)展,考試專用耳麥已經(jīng)擺脫原先簡(jiǎn)單的耳機(jī)加麥克風(fēng)的結(jié)構(gòu),朝著專業(yè)化、智能化方向快速發(fā)展。一些新型號(hào)的考試專用耳麥,采用微電子機(jī)械系統(tǒng)(Micro Electromechanical System,MEMS)麥克風(fēng)陣列,輔以先進(jìn)的降噪算法,可以在嘈雜的聽(tīng)說(shuō)考試考場(chǎng)中采集到更加純凈的錄音。還有一些智能化的耳機(jī),內(nèi)置有微處理器和存儲(chǔ)芯片,可以將考生的語(yǔ)音數(shù)據(jù)直接存儲(chǔ)在耳機(jī)中。有關(guān)智能耳機(jī)的發(fā)展此處不再展開(kāi),不過(guò)可以確定的是,創(chuàng)新硬件的應(yīng)用會(huì)為聽(tīng)說(shuō)智能考試的組織帶來(lái)極大的便利。
20世紀(jì)80年代之前,國(guó)內(nèi)所有考試評(píng)卷工作均由人工批改。隨著考生數(shù)量的增加,人工評(píng)卷所耗費(fèi)的時(shí)間、精力大大增加,評(píng)卷結(jié)束后的統(tǒng)分工作也變得極其困難。1991年,國(guó)內(nèi)開(kāi)始自主研究光標(biāo)閱讀器(簡(jiǎn)稱“OMR技術(shù)”),利用掃描儀將考生答題卡掃描成圖像,并在掃描過(guò)程中對(duì)客觀題自動(dòng)判分。1999年,利用OMR技術(shù)的計(jì)算機(jī)網(wǎng)上評(píng)卷在廣西的高考中首次得到應(yīng)用。相對(duì)于傳統(tǒng)的手工評(píng)卷,這種方式具備多評(píng)機(jī)制、答卷留存、過(guò)程監(jiān)控等諸多優(yōu)勢(shì),科學(xué)化程度顯著提高,對(duì)考試評(píng)卷工作起到重要保障作用。
隨著高精準(zhǔn)度的手寫文字識(shí)別、自然語(yǔ)言理解、智能評(píng)測(cè)等科技的發(fā)展,計(jì)算機(jī)評(píng)閱主觀題已經(jīng)成為可能。自20世紀(jì)60年代以來(lái),國(guó)外就已經(jīng)有許多專家和學(xué)者致力于人工智能技術(shù)在主觀題評(píng)卷領(lǐng)域的應(yīng)用研究,出現(xiàn)了各種不同的自動(dòng)評(píng)卷系統(tǒng),比如美國(guó)的管理類研究生考試(GMAT)、托福考試分別在2000年和2010年就應(yīng)用了E-rater系統(tǒng),國(guó)內(nèi)的英語(yǔ)教學(xué)研究機(jī)構(gòu)也專門進(jìn)行了語(yǔ)言能力等級(jí)量表的相關(guān)研究[11]。國(guó)內(nèi)也有個(gè)別技術(shù)公司,從20世紀(jì)90年代末開(kāi)始就進(jìn)行口語(yǔ)智能評(píng)卷技術(shù)的研究,并逐漸拓展到主觀題智能評(píng)卷,形成了相對(duì)成熟的針對(duì)中英文主觀題智能評(píng)卷的人工智能技術(shù)成果。語(yǔ)音識(shí)別、手寫文字識(shí)別、自然語(yǔ)言理解等人工智能相關(guān)技術(shù)應(yīng)用于考試評(píng)卷環(huán)節(jié),具有技術(shù)應(yīng)用的前瞻性,并具有重大的突破意義。
主觀題智能評(píng)卷技術(shù)通過(guò)對(duì)不同考試、不同試題專家評(píng)分標(biāo)準(zhǔn)的學(xué)習(xí)、調(diào)整和程序化設(shè)計(jì),使得評(píng)分標(biāo)準(zhǔn)可以在更大范圍內(nèi)被“具備專家評(píng)分水平”的計(jì)算機(jī)標(biāo)準(zhǔn)化地執(zhí)行和實(shí)施。一方面,具備專家評(píng)價(jià)水平的智能評(píng)分系統(tǒng)可以被設(shè)置為類專家評(píng)分標(biāo)準(zhǔn)來(lái)使用,在全局上作為一評(píng)參考分,充分有效地保證人工評(píng)分的質(zhì)量;另一方面,在驗(yàn)證有效的前提和標(biāo)準(zhǔn)下,可作為某些考試或某些分?jǐn)?shù)段的一評(píng)分,逐步替代多評(píng)情況下的人工一評(píng)分甚至最終分,以節(jié)省人力,緩解評(píng)卷員短時(shí)間高強(qiáng)度的工作壓力。類似這樣人機(jī)結(jié)合的智能評(píng)卷方式能夠有效優(yōu)化配置人力投入成本,保證評(píng)分效果進(jìn)一步提升。主觀題智能評(píng)卷的流程如圖2所示。
圖2 主觀題計(jì)算機(jī)智能評(píng)卷流程圖
智能評(píng)卷技術(shù)通過(guò)精準(zhǔn)的圖文識(shí)別以及文本檢索技術(shù),能夠準(zhǔn)確地從海量考生樣本中,篩選出與目標(biāo)文本相似的作答片段,以有效提升對(duì)考生作答規(guī)范性檢測(cè)的準(zhǔn)確度。對(duì)于特殊作答、疑似套作、疑似雷同等樣本能夠快速提取并標(biāo)注,這有利于輔助提升人工評(píng)卷評(píng)分的準(zhǔn)確性和公平性。智能評(píng)卷技術(shù)對(duì)空白答卷、異常答卷的檢出,提供了一種新的質(zhì)檢校驗(yàn)評(píng)分合理性的評(píng)價(jià)手段。
2016年3月,教育部考試中心和科大訊飛公司成立聯(lián)合實(shí)驗(yàn)室,共同開(kāi)展智能評(píng)卷的相關(guān)技術(shù)研究,并已取得階段性進(jìn)展。在大學(xué)英語(yǔ)四六級(jí)、高考、中考等不同考試的數(shù)據(jù)上進(jìn)行試驗(yàn),結(jié)果表明,計(jì)算機(jī)在中文以及英文考試主觀題(包括作文)評(píng)分上已達(dá)到現(xiàn)場(chǎng)評(píng)卷教師的水平,可以滿足大規(guī)??荚嚨膶?shí)際需要。
此外,計(jì)算機(jī)系統(tǒng)不僅能夠進(jìn)行智能評(píng)分,還能夠從語(yǔ)法、用詞、內(nèi)容表達(dá)等不同維度給出診斷分析報(bào)告,實(shí)現(xiàn)自動(dòng)化作文批改,滿足學(xué)生日常學(xué)習(xí)和提高的需要。
2011年,教育部啟動(dòng)標(biāo)準(zhǔn)化考點(diǎn)建設(shè),以全面提升國(guó)家教育考試管理水平和服務(wù)質(zhì)量。標(biāo)準(zhǔn)化考點(diǎn)建設(shè)主要包括建設(shè)并完善考務(wù)指揮視頻會(huì)議系統(tǒng)、網(wǎng)絡(luò)巡查系統(tǒng)、考生身份驗(yàn)證系統(tǒng)、作弊防控系統(tǒng)和考務(wù)綜合業(yè)務(wù)系統(tǒng)。隨著人工智能技術(shù)的發(fā)展,教育考試部門已經(jīng)充分認(rèn)識(shí)到人工智能技術(shù)應(yīng)用于標(biāo)準(zhǔn)化考場(chǎng)建設(shè)的重要性。
首先,傳統(tǒng)的網(wǎng)絡(luò)電子巡查系統(tǒng)是通過(guò)每個(gè)考點(diǎn)安裝高清攝像頭,通過(guò)網(wǎng)絡(luò)傳輸?shù)娇键c(diǎn)及上級(jí)考試管理部門,系統(tǒng)建成后,考試管理部門在辦公室通過(guò)網(wǎng)絡(luò)就能實(shí)時(shí)了解各個(gè)考點(diǎn)的實(shí)際情況。隨著圖像識(shí)別技術(shù)的不斷成熟,在此基礎(chǔ)上研究分析,未來(lái)能夠?qū)Ω鱾€(gè)考場(chǎng)的動(dòng)態(tài)視頻數(shù)據(jù)進(jìn)行跟蹤,并利用云技術(shù),在海量的視頻監(jiān)控圖像中實(shí)時(shí)偵測(cè)并智能識(shí)別,自動(dòng)發(fā)現(xiàn)考場(chǎng)異常行為,讓考試管理部門從以往的麻木看視頻到有針對(duì)性的分析視頻。
其次,考生身份驗(yàn)證系統(tǒng)通過(guò)人體生物特征判別考生身份,目前普遍采用的是指紋、人臉、聲紋等識(shí)別技術(shù)。需要說(shuō)明的是,任何單一識(shí)別技術(shù)都無(wú)法做到100%的準(zhǔn)確,因此在實(shí)際應(yīng)用時(shí)通常采用組合的方式進(jìn)行驗(yàn)證,比如指紋+人臉、指紋+聲紋的方式。為滿足未來(lái)考試多元化的需要,越來(lái)越多的考試機(jī)構(gòu)開(kāi)始重視考生生物特征庫(kù)的建設(shè)??忌锾卣鲙?kù)建成以后,一個(gè)考生只需要一次采集,即可滿足未來(lái)參加多次考試的身份驗(yàn)證需要。除了身份驗(yàn)證以外,考生生物特征庫(kù)還可以被廣泛應(yīng)用于未來(lái)的新生入學(xué)、就業(yè)等。
最后,人工智能技術(shù)應(yīng)用于考務(wù)綜合業(yè)務(wù)系統(tǒng)建設(shè),可以讓考務(wù)系統(tǒng)由原來(lái)的功能單一、人工決策變得更加智能。例如考試管理部門通過(guò)考務(wù)管理平臺(tái)能夠?qū)崟r(shí)了解各考點(diǎn)的真實(shí)情況,還能實(shí)時(shí)了解考點(diǎn)周邊情況、天氣變化、交通、突發(fā)事件預(yù)警等,并對(duì)考試過(guò)程中的事物進(jìn)行智能決策。
目前,人工智能技術(shù)已在考試命題、英語(yǔ)聽(tīng)說(shuō)考試、紙筆考試評(píng)卷和標(biāo)準(zhǔn)化考場(chǎng)建設(shè)等方面得到成功應(yīng)用。人工智能技術(shù)起到了良好的輔助人工、提高效率、提升準(zhǔn)確度的作用,實(shí)踐證明智能化信息建設(shè)已經(jīng)為學(xué)生、教師提供了高水平的服務(wù)并產(chǎn)生了積極的效果。
未來(lái),隨著教育和考試改革的不斷深入推進(jìn),其他越來(lái)越多的綜合素質(zhì)類考試也將逐步開(kāi)展,基于人工智能技術(shù)的機(jī)器智能評(píng)測(cè)技術(shù)將極大地輔助人工完成高水平的評(píng)卷評(píng)分工作,使得綜合素質(zhì)類考試大規(guī)模實(shí)施也成為可能。
我們相信,隨著智能信息化建設(shè)的不斷提升,科學(xué)理論、技術(shù)的不斷進(jìn)步與發(fā)展,再結(jié)合大數(shù)據(jù)用戶的反饋支撐,人工智能技術(shù)在教育考試中必將發(fā)揮更大作用。
[1]Artificial Intelligence Defined As A New Research Discipline:This Week In Tech History[EB/OL].[2017-08-18].https://www.forbes.com/sites/gilpress/2016/08/28/artificial-intelligence-defined-as-anew- research- discipline- this- week- in- tech- history/#b80aa8a6dd15.
[2]RUMELHART D E,HINTON G E,WILLIAMS R J.Learning repre?sentations by back-propagating errors[J].Nature,1986,323(6088):533-536.
[3]HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionali?ty of data with neural networks[J].Science,2006,313(5786):504-507.
[4]RUSSAKOVSKY O,DENG J,SU H,et al.ImageNet Large Scale Vi?sual Recognition Challenge[J].International Journal of Computer Vi?sion,2015,115(3):211-252.
[5]WaveNet:A Generative Model for Raw Audio[EB/OL].[2017-08-18].https://www.ibm.com/blogs/watson/2017/03/reaching-new-re?cords-in-speech-recognition/.
[6]Reaching new records in speech recognition[EB/OL].[2017-08-18].https://deepmind.com/blog/wavenet-generative-model-raw-audio/.
[7]姜鋼.建立多樣化考試評(píng)價(jià)體系 推動(dòng)高考綜合改革[J].中國(guó)高教研究,2009(3).
[8]李光明,關(guān)丹丹.關(guān)于題庫(kù)建設(shè)的若干問(wèn)題的思考[J].中國(guó)考試,2014(9).
[9]LECUN Y,BENGIO Y,HINTON G.Deep Learning[J].Nature,2015,521(7553):436-444.
[10]WEI S,WANG H K,LIU Q S.WANG R H.CDF-Matching for Au?tomatic Tone Error Detection in Mandarin Call System[C].IEEE In?ternational Conference on Acoustics,2007.
[11]楊惠中,朱正才,方緒軍.全國(guó)語(yǔ)言能力等級(jí)共同量表研究:理論、方法與實(shí)驗(yàn)研究[M].上海:上海外語(yǔ)教育出版社,2012.
Application of Artificial Intelligence Technology in Examinations