肖靈云,劉軍庫(kù)
(廣東海洋大學(xué)寸金學(xué)院 智能制造學(xué)院,廣東 湛江 524000)
隨著互聯(lián)網(wǎng)技術(shù)、信息技術(shù)和經(jīng)濟(jì)的發(fā)展速度的提高,對(duì)現(xiàn)代教育以及企業(yè)的影響逐漸顯現(xiàn)出來(lái),使得現(xiàn)代教育及企業(yè)的變革迎來(lái)了新的機(jī)遇及挑戰(zhàn)。在現(xiàn)代教育教學(xué)中,許多現(xiàn)代化教育手段(如線上授課、在線考試等)被普遍應(yīng)用于日常教學(xué)中[1]。通過(guò)自動(dòng)評(píng)分系統(tǒng)的應(yīng)用,教師不僅可以減少閱卷的工作量,而且可以使閱卷結(jié)果更加公平公正[2]。在企業(yè)發(fā)展的過(guò)程中,企業(yè)進(jìn)行招聘人員及日??己思芭嘤?xùn)時(shí),需要進(jìn)行考試。尤其是經(jīng)過(guò)疫情之后,現(xiàn)代教育中的線上授課及線上考試現(xiàn)象更加普遍,企業(yè)的招聘和日常測(cè)試的試題也轉(zhuǎn)到了線上。隨之而來(lái)的問(wèn)題就更加明顯,如何對(duì)主觀題進(jìn)行自動(dòng)評(píng)分,就成為困擾教師和企業(yè)考核者的難題。
考試作為一種選拔人才及檢測(cè)考生水平的工具,普遍被用在學(xué)校、企業(yè)中,考試的題型主要有客觀題和主觀題??荚囍袑?duì)于單選題、多選題等的自動(dòng)批改技術(shù)已經(jīng)較成熟,而主觀題自動(dòng)評(píng)分方法涉及了自然語(yǔ)言處理、人工智能等多方面的理論知識(shí),使得主觀題的評(píng)分難度增加。目前的主觀題評(píng)分方式仍采用人工方式,不僅時(shí)間耗量大、工作量大,而且不同批閱者之間的評(píng)分標(biāo)準(zhǔn)有差異,易受改卷人主觀因素影響,造成評(píng)分偏差,體現(xiàn)不出考試的公平性。因此,研究并實(shí)現(xiàn)主觀題自動(dòng)評(píng)分系統(tǒng),能提高教師批改試卷的效率及公平性。
由于主觀題題型的復(fù)雜性,目前還沒(méi)有完善且成熟的主觀題自動(dòng)評(píng)分系統(tǒng)。而在已有的主觀題自動(dòng)評(píng)分系統(tǒng)中,其可用性與實(shí)際的需求差距還很大。因此,對(duì)于主觀題的自動(dòng)評(píng)分,不僅是當(dāng)前亟需解決的問(wèn)題,也是一件難度很大的問(wèn)題。通過(guò)對(duì)文本、語(yǔ)義、關(guān)鍵詞等方法計(jì)算主觀題相似度進(jìn)行研究,發(fā)現(xiàn)文本相似度、語(yǔ)義相似度、關(guān)鍵詞相似度計(jì)算算法都存在著不同的短板。文本語(yǔ)義所包含的信息較多,能夠代表文本所表達(dá)的整體意思,但這種方法有時(shí)會(huì)忽略掉關(guān)鍵詞的作用;語(yǔ)句語(yǔ)義能夠準(zhǔn)確地提取語(yǔ)句的信息,但容易忽略掉語(yǔ)句與前后文之間的關(guān)聯(lián);關(guān)鍵詞相似度能夠以更小的單位提取信息,但僅依據(jù)一些關(guān)鍵詞,往往會(huì)將語(yǔ)句信息和文本信息忽略掉,而且會(huì)存在只寫(xiě)出關(guān)鍵詞就能得高分的弊端,如果這種弊端被考生利用,那么評(píng)分也就沒(méi)有意義。
針對(duì)這些不足,本文對(duì)主觀題自動(dòng)評(píng)分方法進(jìn)行研究,所涉及的核心技術(shù)是基于相似度組合的方法來(lái)計(jì)算考生得分。它涉及到人工智能(artificial intelligence,AI)、自然語(yǔ)言處理(natuarl language processing,NLP)等多方面理論知識(shí)[3],以及一些自然語(yǔ)言范疇的先進(jìn)關(guān)鍵技術(shù)。在理論意義上,將相似度組合模型應(yīng)用在主觀題自動(dòng)評(píng)分上,擴(kuò)展了主觀題評(píng)分模型;在應(yīng)用意義上,可以積累主觀題自動(dòng)評(píng)分的經(jīng)驗(yàn),為后續(xù)進(jìn)一步深入研究主觀題的自動(dòng)評(píng)分提供一定的借鑒與參考。
文本向量化的作用主要是將文本轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),即將文本用可以表達(dá)文本語(yǔ)義信息的向量來(lái)表示。對(duì)文本向量化的很多探究都是在Word2vec(詞向量化)的基礎(chǔ)上來(lái)完成,而Doc2vec(段向量化或句向量化)是將文本段落或句子作為文本處理的基礎(chǔ)單元進(jìn)行處理。這里僅介紹Doc2vec模型。
基于分布假說(shuō)理論,Word2vec能夠較好地挖掘出文本中詞語(yǔ)所蘊(yùn)含的潛在的語(yǔ)義信息,能夠計(jì)算詞語(yǔ)與詞語(yǔ)之間的相似度、句子與句子之間或其他長(zhǎng)文本之間的相似度。由于該方法沒(méi)有將文本中的語(yǔ)序信息考慮進(jìn)去,從而也就丟失了很多的主要信息,所以Word2vec技術(shù)存在不足之處。
Doc2vec技術(shù)中包含的模型有DM和DBOW兩種[4]。在DM模型中,增加了一個(gè)段向量,該段向量與詞向量的長(zhǎng)度相同,也就是說(shuō)該模型中上下文所包含的范圍更廣泛。它既涵蓋了文本中上下文中的單詞,又涵蓋了其所對(duì)應(yīng)的段落。它可以通過(guò)文本中上下文中的詞向量和段向量,對(duì)目標(biāo)詞的概率分布進(jìn)行預(yù)測(cè)。而且在對(duì)文本進(jìn)行向量訓(xùn)練的過(guò)程中,在DM模型中增加了一個(gè)paragraph ID,首先將其映射成一個(gè)向量。在后面的計(jì)算中,可以將段落向量與詞向量進(jìn)行累加,也可以將它們連接起來(lái),并將其輸入給softmax層。在對(duì)文本中的語(yǔ)句或者整個(gè)文檔進(jìn)行訓(xùn)練時(shí),要保證paragraph ID是固定的,它不發(fā)生改變,共同使用同一個(gè)paragraph vector,相當(dāng)于每次在預(yù)測(cè)目標(biāo)詞的概率時(shí),都用到了該句子的整體語(yǔ)義信息。在對(duì)文本進(jìn)行預(yù)測(cè)時(shí),需要給待預(yù)測(cè)的語(yǔ)句新分配一個(gè)paragraph ID,輸入到詞向量和輸出層softmax的參數(shù),應(yīng)該與訓(xùn)練階段得到的參數(shù)保持一致;然后利用隨機(jī)梯度下降算法對(duì)待預(yù)測(cè)的語(yǔ)句進(jìn)行訓(xùn)練;等誤差達(dá)到一定的要求,收斂后,即得到待預(yù)測(cè)語(yǔ)句的段向量。DM模型示意圖如圖1所示。
圖1 DM模型示意圖Fig.1 Schematic diagram of DM model
DBOW模型在只給出某個(gè)段落的情景下,應(yīng)用DBOW模型預(yù)測(cè)相應(yīng)段落中的一些隨機(jī)詞的概率。DBOW模型示意圖如圖2所示。
圖2 DBOW模型示意圖Fig.2 Schematic diagram of DBOW model
應(yīng)用Doc2vec技術(shù)既可以將文本中的語(yǔ)義信息進(jìn)一步提取出來(lái),又能將文本中的語(yǔ)序信息有效保留。
本文采用余弦相似度[5-6]來(lái)計(jì)算考生提交的答案和參考答案之間的相似度,其中以參考答案作為標(biāo)準(zhǔn)。將考生答案和參考答案進(jìn)行段向量化,依據(jù)兩個(gè)文本答案的向量之間夾角的余弦值大小,評(píng)估兩個(gè)文本向量之間的相似程度,計(jì)算公式如式(1)所示:
(1)
其中,sim表示相似度,M為已給出的參考答案中文本的語(yǔ)義信息段向量,N為考生提交的答案中文本的語(yǔ)義信息段向量,θ為文本向量M和N之間的夾角,Mi、Ni為文本向量M、N中的各個(gè)分向量,n為各個(gè)分向量的總個(gè)數(shù)。
通過(guò)分析對(duì)比基于TF-IDF相似度算法、Word2vec語(yǔ)義相似度及Doc2vec文本相似度算法,發(fā)現(xiàn)各種算法中存在的問(wèn)題。為了充分應(yīng)用各種算法的優(yōu)點(diǎn),構(gòu)建了一種基于相似度組合的主觀題(簡(jiǎn)答題、論述題)自動(dòng)評(píng)分模型。
利用Doc2vec計(jì)算文本相似度的原理為:通過(guò)文本中上下文中的詞向量和段向量,對(duì)目標(biāo)詞的概率分布進(jìn)行預(yù)測(cè),并利用該向量計(jì)算文本相似度。具體步驟如下:1)對(duì)文本進(jìn)行預(yù)處理;2)將文本向量化;3)進(jìn)行文本相似度計(jì)算。
基于Doc2vec計(jì)算文本相似度的具體算法如圖3所示:
圖3 基于Doc2vec計(jì)算文本相似度的具體算法Fig.3 Specific algorithm of text similarity calculation algorithm based on Doc2vec
評(píng)分模型構(gòu)建的思想為:1)考慮整體語(yǔ)義的準(zhǔn)確性;2)將文本、語(yǔ)義、關(guān)鍵詞相似度3種方法組合起來(lái)使用,并設(shè)置閥值,通過(guò)靈活調(diào)節(jié)閥值的大小來(lái)保證評(píng)分的公平性,閥值為C,取值范圍為[0.85,0.99]。本文設(shè)置的閥值為0.9。依次計(jì)算參考答案與考生答案的文本相似度、語(yǔ)義相似度及關(guān)鍵詞相似度。如果任一種算法的相似度值達(dá)到0.9,則將該考生答案判為滿分(該道題的分值);如果這3種算法的相似度值都低于0.9,則從這3種相似度中選擇最大的相似度值作為該考生答案的最終相似度值,并計(jì)算出考生的得分。構(gòu)建的評(píng)分模型如式(2)所示,構(gòu)建的評(píng)分模型流程如圖4所示。
圖4 評(píng)分模型流程Fig.4 Scoring model flow
(2)
式中,yi為第i道題的評(píng)分,C為設(shè)置的閥值,Si為第i道題的分值,sim為相似度。
本文以《系統(tǒng)建模與仿真》考試中的簡(jiǎn)答題、論述題構(gòu)建試題庫(kù),共165道題目。55名考生參加考試, 155道題選自《系統(tǒng)建模與仿真》試題庫(kù)。通過(guò)考生答題情況,收集有效數(shù)據(jù)1 539份,作為實(shí)驗(yàn)數(shù)據(jù)集。將考生作答的答案輸入系統(tǒng)中,并由老師對(duì)簡(jiǎn)答題、論述題進(jìn)行人工評(píng)分及系統(tǒng)自動(dòng)評(píng)分,將評(píng)分結(jié)果存儲(chǔ)到系統(tǒng)中。
本文采用平均值、方差及偏離率3個(gè)指標(biāo)來(lái)衡量相似度組合評(píng)分與人工評(píng)分的一致程度。平均值的計(jì)算公式為
(3)
方差是指數(shù)據(jù)點(diǎn)的離散程度。其數(shù)學(xué)定義為
(4)
本文采用的偏差率是指實(shí)際值比理論值或者估計(jì)值的偏差程度[7],用于表征實(shí)驗(yàn)效果的好壞情況。偏差率計(jì)算公式為
(5)
(6)
式中,D為偏差率,Davg為平均偏差率。
為了驗(yàn)證提出的基于相似度組合的主觀題自動(dòng)評(píng)分方法的有效性、準(zhǔn)確率及實(shí)用性,以《系統(tǒng)建模與仿真》試題作為實(shí)驗(yàn)數(shù)據(jù),并將評(píng)分結(jié)果與傳統(tǒng)方法的評(píng)分結(jié)果進(jìn)行對(duì)比。
1 539份《系統(tǒng)建模與仿真》試題利用本文構(gòu)建的基于相似度組合自動(dòng)評(píng)分模型進(jìn)行評(píng)分,并與基于Word2vec算法評(píng)分、基于TF_IDF算法評(píng)分、基于Doc2vec算法評(píng)分進(jìn)行對(duì)比,然后再分別與人工評(píng)分進(jìn)行兩兩對(duì)比。表1僅展示了4種自動(dòng)評(píng)分方法與人工評(píng)分結(jié)果對(duì)比的部分?jǐn)?shù)據(jù)。這幾種算法計(jì)算的簡(jiǎn)答題、論述題的自動(dòng)評(píng)分結(jié)果(共1 539份)的平均值、方差比較如表2所示。自動(dòng)評(píng)分結(jié)果的偏差率比較如表3所示。
表1 4種自動(dòng)評(píng)分方法與人工評(píng)分結(jié)果對(duì)比表Tab.1 Analysis of four automatic scoring methods and manual scoring results
表2 自動(dòng)評(píng)分結(jié)果比較Tab.2 Automatic scoring result comparison
表3 自動(dòng)評(píng)分結(jié)果偏差率(D)Tab.3 Deviation rate(D) of automatic scoring results
由表2可知,相對(duì)于其他評(píng)分方法,本文所提出的評(píng)分方法計(jì)算得到的分?jǐn)?shù)與人工評(píng)分的分?jǐn)?shù)最吻合。本文提出的算法,能夠準(zhǔn)確進(jìn)行整體文本語(yǔ)義分析,有效提高文本相似度計(jì)算的準(zhǔn)確性。而其他評(píng)分方法無(wú)法準(zhǔn)確分析文本語(yǔ)義信息,得到的評(píng)分結(jié)果與教師評(píng)分的結(jié)果就有較大的偏差。說(shuō)明基于相似度組合算法評(píng)分較穩(wěn)定,評(píng)分效果較好。
從表3,更能進(jìn)一步說(shuō)明本文提出的基于相似度組合算法的評(píng)分是有效的,與其他幾種算法的自動(dòng)評(píng)分結(jié)果相比,基于相似度組合算法自動(dòng)評(píng)分結(jié)果的平均偏差率為0.199,偏差率波動(dòng)范圍為1。
本文以《系統(tǒng)建模與仿真》的主觀題試題作為數(shù)據(jù)集,研究中文主觀題自動(dòng)評(píng)分問(wèn)題。針對(duì)文本相似度、語(yǔ)義相似度、關(guān)鍵詞相似度的不足,提出一種新的主觀題評(píng)分模型,實(shí)現(xiàn)了一個(gè)主觀題評(píng)分系統(tǒng)。
采用本文構(gòu)建的基于相似度組合的主觀題評(píng)分模型進(jìn)行主觀題自動(dòng)評(píng)分,通過(guò)對(duì)比分析,得出評(píng)分模型的評(píng)分結(jié)果波動(dòng)性較小,穩(wěn)定性較好,說(shuō)明提出的評(píng)分模型是可行有效的。由于構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集需耗費(fèi)大量的人力,導(dǎo)致實(shí)驗(yàn)所使用的數(shù)據(jù)集的科目范圍較少,無(wú)法全面地評(píng)估主觀題自動(dòng)化評(píng)分方法的有效性及普適性。因此,如何構(gòu)建一個(gè)文本覆蓋面廣、涉及多領(lǐng)域的評(píng)分?jǐn)?shù)據(jù)集,將是后續(xù)的一個(gè)研究方向。