孫雅琳 文福安
摘要:北京郵電大學(xué)人文學(xué)院每學(xué)期都利用通用計(jì)算機(jī)化考試平臺(tái)(大學(xué)英語語言技能訓(xùn)練系統(tǒng))來進(jìn)行英語測(cè)試,其中客觀題系統(tǒng)能夠?qū)φ沾鸢钢苯咏o出分?jǐn)?shù),但是主觀題只能依靠英語教師來逐個(gè)批改。本研究是利用tensorflow深度學(xué)習(xí)平臺(tái)對(duì)英語口語表達(dá)題進(jìn)行智能批改,取音素后驗(yàn)概率、語速ROS、關(guān)鍵詞覆蓋率、文本覆蓋率、用詞變化程度等維度作為特征,學(xué)生考試成績?yōu)槟繕?biāo),用tensorflow深度學(xué)習(xí)平臺(tái)進(jìn)行模型訓(xùn)練,實(shí)現(xiàn)學(xué)生成績的預(yù)測(cè)。
關(guān)鍵詞:tensorflow;深度學(xué)習(xí);大學(xué)英語;神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391.42 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.l003-6970.2017.08.027
引言
國內(nèi)的批改系統(tǒng)主要有以下幾個(gè)方面:電路類虛擬實(shí)驗(yàn)自動(dòng)批改與智陡指導(dǎo)系統(tǒng)、智目纟導(dǎo)師系統(tǒng)、英語作文智能評(píng)閱系統(tǒng)、英語口語智能評(píng)閱系統(tǒng)。對(duì)于正確答案有一定規(guī)則的問題可以利用智能導(dǎo)師系統(tǒng)進(jìn)行評(píng)閱,像用英語口語圍繞主題闡述一定觀點(diǎn)這種開放性題目,現(xiàn)有的系統(tǒng)不能評(píng)閱這種題型。所以,在語言訓(xùn)練中,智能批改仍有一定局限性[1又國外研究現(xiàn)狀與國內(nèi)類似,對(duì)于口語口語表達(dá)題目等答案固定或者具有一定規(guī)則的題目評(píng)分有比較成熟的機(jī)器學(xué)習(xí)模型,而對(duì)于答案規(guī)則不明顯的題型目前還不能利用深度學(xué)習(xí)模型來進(jìn)行智能批改。在2000年本領(lǐng)域的一篇經(jīng)典論文就列舉了人工老師打分情況,他提出的觀點(diǎn)是使用“平均”帶來打分穩(wěn)定性和準(zhǔn)確度提高。多個(gè)句子的平均,可以更好的對(duì)整體水平進(jìn)行打分,句子越多,打分越準(zhǔn)確。瑞士IDIAP在2016年也提出了更新和復(fù)雜的深度學(xué)習(xí)技術(shù)來進(jìn)行評(píng)分。
1 人工智能
近幾年,人工智能是計(jì)算機(jī)領(lǐng)域中的一個(gè)熱門話題,它的應(yīng)用非常廣泛,可以利用機(jī)器學(xué)習(xí)算法解決一些傳統(tǒng)計(jì)算機(jī)無法解決的復(fù)雜問題。而深度學(xué)習(xí)可以看做是機(jī)器學(xué)習(xí)的另一次升華,深度學(xué)習(xí)可以解決傳統(tǒng)機(jī)器學(xué)習(xí)算法無法解決的問題,大大地提高了人工智能的發(fā)展速度。
一些深度學(xué)習(xí)平臺(tái)有tensor flow、Caffe、Deeplearning4j、CNTK、MXNet、Theano等。Tensorflow作為是最主流和應(yīng)用最廣泛的深度學(xué)習(xí)平臺(tái)之一、Caffe:—款集表達(dá)、速度和模塊化思想于一身的深度學(xué)習(xí)框架。其圖像處理優(yōu)勢(shì)明顯,只用一個(gè)單一的NVIDIAK40的GPU就可以每天處理60M圖像數(shù)據(jù)。Deeplearning4j:Deepleaming4j是java科學(xué)計(jì)算引擎驅(qū)動(dòng)的矩陣操作。CNTK:是一個(gè)描述神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)工具。MXNet:MXNet能夠運(yùn)行在CPU/GPU、集群、服務(wù)器、手機(jī)上。支持分布式計(jì)算,也能夠在AWS,GCE,Azure和Yam集群上運(yùn)行。Theano:一個(gè)可以定義、優(yōu)化、評(píng)估多維數(shù)組的python庫。Torch:有強(qiáng)大的N維數(shù)組,能夠索引、切片、換位,快速高效的GPU支持。H20:H20可以與最流行的開源產(chǎn)品ApacheHadoop和Spark結(jié)合來給客戶靈活地解決具有挑戰(zhàn)性的數(shù)據(jù)問題的機(jī)器學(xué)習(xí)平臺(tái),可以進(jìn)行大規(guī)模可目前Tensorflow的應(yīng)用有如下兒個(gè)方面:圖像識(shí)別、語言識(shí)別、自然語言處理與人機(jī)博弈等。像最近的人機(jī)博弈大戰(zhàn),例如李世石和DeepMindalphago的圍棋之戰(zhàn)、騰訊Master圍棋大戰(zhàn)、百度大腦和人類大腦的對(duì)戰(zhàn)都無疑是機(jī)器略勝一籌。其實(shí)早在1997年,IBM的deepblue就打敗了國際象棋冠軍Garry Kasparov。這二十年里,機(jī)器學(xué)習(xí)技術(shù)的發(fā)展是巨大的,不僅能掌握國際象棋的規(guī)則,還能通過大量的數(shù)據(jù)運(yùn)用深度學(xué)習(xí)方法訓(xùn)練出解決無規(guī)則復(fù)雜問題的程序。這對(duì)于人工智能的發(fā)展來說意義重大,因?yàn)楝F(xiàn)實(shí)生活中,很多問題都是無規(guī)則的。比如,自動(dòng)駕駛、人機(jī)對(duì)話等。讓機(jī)器通過數(shù)據(jù)學(xué)習(xí)像人一樣處理和解決問題的能力,這是飛躍性的進(jìn)步。目前人工智能還不能夠理解語義含義,不能理解人類語言中的情緒,但是我相信在不久的將來,人工智能通過大量的數(shù)據(jù)和深度學(xué)習(xí)框架一定能夠解決這些問題。
3 評(píng)分系統(tǒng)
3.1 評(píng)分系統(tǒng)工作原理
評(píng)分系統(tǒng)主要分為識(shí)別端和評(píng)分端:
擴(kuò)展的數(shù)據(jù)分析。OpenNN:opennn是一個(gè)用C++語言編寫的實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的開源類庫,機(jī)器學(xué)習(xí)研究的主要領(lǐng)域。用于實(shí)現(xiàn)監(jiān)督學(xué)習(xí)的任意數(shù)量的非線性處理單元。它的存儲(chǔ)速度和處理速度都很高。OpenCyc:OpenCyc是Cyc的開源版本,Cyc是世界上最龐大的、最完備的通用知識(shí)庫與常識(shí)推理引擎。OpenCyc是對(duì)人工智能與語義萬維網(wǎng)科學(xué)研究的貢獻(xiàn),在人工智能、語義萬維網(wǎng)及其應(yīng)用領(lǐng)域具有很廣泛的應(yīng)用價(jià)值。
2 Tensor flow平臺(tái)
早在2011年,谷歌內(nèi)部就開發(fā)了一個(gè)深度學(xué)習(xí)工具——Dist Belief,這個(gè)工具只在谷歌內(nèi)部使用。之后,由Jeff Dean帶領(lǐng)的谷歌大腦團(tuán)隊(duì)將Dist Belief框架進(jìn)行改進(jìn),終于在2011年發(fā)布了一款基于Apache2.0的開源通用計(jì)算框架。它是一個(gè)可以支持大規(guī)模數(shù)據(jù)計(jì)算的機(jī)器學(xué)習(xí)框架,工作流程如下:
(1)識(shí)別端:只有通過識(shí)別,計(jì)算機(jī)才能“聽懂”發(fā)音人的發(fā)音內(nèi)容。首先對(duì)于當(dāng)前考生,基于考生口語表達(dá)題的數(shù)據(jù),通過科大訊飛語音識(shí)別接口,生成口語表達(dá)題語音所對(duì)應(yīng)的詞圖來表示識(shí)別結(jié)果。
(2)評(píng)分端:首先基于詞圖提取多維與專家人工評(píng)分標(biāo)準(zhǔn)相關(guān)的機(jī)器評(píng)分特征,其過程可以利用范文本身及聘請(qǐng)專家手工標(biāo)注的本篇范文在被口語表達(dá)中應(yīng)該提及的一些關(guān)鍵詞列表。然后,將各維評(píng)分特征輸入訓(xùn)練好的評(píng)分模型,得到的口語表達(dá)題自動(dòng)評(píng)分結(jié)果。
3.2 評(píng)分特征選取
通過對(duì)分類、回歸、聚類等深度學(xué)習(xí)算法的研究,提取出評(píng)分系統(tǒng)評(píng)分特征,包括音素后驗(yàn)概率、語速、吸收模型占有聲段比例、關(guān)鍵詞覆蓋率、文本覆蓋率等。利用現(xiàn)有的通用計(jì)算機(jī)化考試平臺(tái)收集到的學(xué)生考試數(shù)據(jù)以及評(píng)分特征,對(duì)智能批改模型進(jìn)行多次訓(xùn)練,最終利用機(jī)器來批閱批改英語口語表達(dá)題。通過機(jī)器評(píng)分和教師評(píng)分的相關(guān)度來驗(yàn)證機(jī)器評(píng)分的準(zhǔn)確性。與人工評(píng)分相關(guān)度越高,機(jī)器評(píng)分準(zhǔn)確度越高。
(1)音素后驗(yàn)概率
PPP(Phone Posterior Probability)發(fā)音的標(biāo)準(zhǔn)程度是評(píng)價(jià)一個(gè)英語口語水平的重要方面,提取了音素后驗(yàn)概率這樣一維評(píng)分特征。采用的聲學(xué)模型是基于標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)訓(xùn)練得到的標(biāo)準(zhǔn)發(fā)音模型。
(2)語速ROS(Rateof Speech)
語速是評(píng)判說英語流利程度的一個(gè)比較好的特征,語速越快而且中間沒有停頓猶豫說明英語說得很流利。相反,語速很慢說明思考時(shí)間長而且不流利。
(3)關(guān)鍵詞覆蓋率(keycoverrate,KCR)
口語表達(dá)題要求考生的口語表達(dá)在語義上覆蓋范文的主要內(nèi)容,但是目前語義分析的技術(shù)水平還很難達(dá)到實(shí)用水平,因此,需要手工標(biāo)注對(duì)于一篇范文在被表達(dá)中應(yīng)該提及的一些關(guān)鍵性的詞的集合(關(guān)鍵詞未必一定包含在原始范文中),以這樣一^個(gè)關(guān)鍵詞集合的覆蓋度來代替范文內(nèi)容在語義上的覆蓋度,這雖然是一種很大程度的近似,但是一種目前比較可行的辦法。
(4)文本覆蓋率(textcoverrate,TCR)
經(jīng)分析發(fā)現(xiàn),人工選出的關(guān)鍵詞并不能表征完整程度,因?yàn)樵S多考生會(huì)用自己的語言繞過關(guān)鍵詞進(jìn)行描述。因此,定義文本覆蓋率作為表征考生口語表達(dá)完整與否的度量。
4 總結(jié)
目前國內(nèi)對(duì)語言訓(xùn)練的指導(dǎo)和批改大多還停留在智能導(dǎo)師系統(tǒng)的階段,通過深度學(xué)習(xí)模型來實(shí)現(xiàn)主觀題目的評(píng)價(jià)少之又少,本文在訓(xùn)練通用計(jì)算機(jī)化考試平臺(tái)(大學(xué)英語語言技能訓(xùn)練系統(tǒng))數(shù)據(jù)的基礎(chǔ)上,闡述了各個(gè)模型在語言訓(xùn)練指導(dǎo)和批改中的應(yīng)用,通過各模型在語言訓(xùn)練指導(dǎo)和批改中的應(yīng)用,將理論落實(shí)到具體實(shí)踐中,實(shí)現(xiàn)學(xué)生成績智能評(píng)分。根據(jù)教師評(píng)分規(guī)則,通過深度學(xué)習(xí)技術(shù)對(duì)口語進(jìn)行評(píng)分,實(shí)現(xiàn)批改的自動(dòng)化,是語言訓(xùn)練指導(dǎo)和批改的重大突破。