基于相似度組合的主觀題評(píng)分方法研究

2021-09-26 06:34肖靈云劉軍庫(kù)

貴州大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年5期

肖靈云，劉軍庫(kù)

(廣東海洋大學(xué)寸金學(xué)院智能制造學(xué)院，廣東湛江 524000)

隨著互聯(lián)網(wǎng)技術(shù)、信息技術(shù)和經(jīng)濟(jì)的發(fā)展速度的提高，對(duì)現(xiàn)代教育以及企業(yè)的影響逐漸顯現(xiàn)出來(lái)，使得現(xiàn)代教育及企業(yè)的變革迎來(lái)了新的機(jī)遇及挑戰(zhàn)。在現(xiàn)代教育教學(xué)中，許多現(xiàn)代化教育手段(如線上授課、在線考試等)被普遍應(yīng)用于日常教學(xué)中[1]。通過(guò)自動(dòng)評(píng)分系統(tǒng)的應(yīng)用，教師不僅可以減少閱卷的工作量，而且可以使閱卷結(jié)果更加公平公正[2]。在企業(yè)發(fā)展的過(guò)程中，企業(yè)進(jìn)行招聘人員及日?？己思芭嘤?xùn)時(shí)，需要進(jìn)行考試。尤其是經(jīng)過(guò)疫情之后，現(xiàn)代教育中的線上授課及線上考試現(xiàn)象更加普遍，企業(yè)的招聘和日常測(cè)試的試題也轉(zhuǎn)到了線上。隨之而來(lái)的問(wèn)題就更加明顯，如何對(duì)主觀題進(jìn)行自動(dòng)評(píng)分，就成為困擾教師和企業(yè)考核者的難題。

考試作為一種選拔人才及檢測(cè)考生水平的工具，普遍被用在學(xué)校、企業(yè)中，考試的題型主要有客觀題和主觀題?？荚囍袑?duì)于單選題、多選題等的自動(dòng)批改技術(shù)已經(jīng)較成熟，而主觀題自動(dòng)評(píng)分方法涉及了自然語(yǔ)言處理、人工智能等多方面的理論知識(shí)，使得主觀題的評(píng)分難度增加。目前的主觀題評(píng)分方式仍采用人工方式，不僅時(shí)間耗量大、工作量大，而且不同批閱者之間的評(píng)分標(biāo)準(zhǔn)有差異，易受改卷人主觀因素影響，造成評(píng)分偏差，體現(xiàn)不出考試的公平性。因此，研究并實(shí)現(xiàn)主觀題自動(dòng)評(píng)分系統(tǒng)，能提高教師批改試卷的效率及公平性。

由于主觀題題型的復(fù)雜性，目前還沒(méi)有完善且成熟的主觀題自動(dòng)評(píng)分系統(tǒng)。而在已有的主觀題自動(dòng)評(píng)分系統(tǒng)中，其可用性與實(shí)際的需求差距還很大。因此，對(duì)于主觀題的自動(dòng)評(píng)分，不僅是當(dāng)前亟需解決的問(wèn)題，也是一件難度很大的問(wèn)題。通過(guò)對(duì)文本、語(yǔ)義、關(guān)鍵詞等方法計(jì)算主觀題相似度進(jìn)行研究，發(fā)現(xiàn)文本相似度、語(yǔ)義相似度、關(guān)鍵詞相似度計(jì)算算法都存在著不同的短板。文本語(yǔ)義所包含的信息較多，能夠代表文本所表達(dá)的整體意思，但這種方法有時(shí)會(huì)忽略掉關(guān)鍵詞的作用；語(yǔ)句語(yǔ)義能夠準(zhǔn)確地提取語(yǔ)句的信息，但容易忽略掉語(yǔ)句與前后文之間的關(guān)聯(lián)；關(guān)鍵詞相似度能夠以更小的單位提取信息，但僅依據(jù)一些關(guān)鍵詞，往往會(huì)將語(yǔ)句信息和文本信息忽略掉，而且會(huì)存在只寫(xiě)出關(guān)鍵詞就能得高分的弊端，如果這種弊端被考生利用，那么評(píng)分也就沒(méi)有意義。

針對(duì)這些不足，本文對(duì)主觀題自動(dòng)評(píng)分方法進(jìn)行研究，所涉及的核心技術(shù)是基于相似度組合的方法來(lái)計(jì)算考生得分。它涉及到人工智能(artificial intelligence，AI)、自然語(yǔ)言處理(natuarl language processing，NLP)等多方面理論知識(shí)[3]，以及一些自然語(yǔ)言范疇的先進(jìn)關(guān)鍵技術(shù)。在理論意義上，將相似度組合模型應(yīng)用在主觀題自動(dòng)評(píng)分上，擴(kuò)展了主觀題評(píng)分模型；在應(yīng)用意義上，可以積累主觀題自動(dòng)評(píng)分的經(jīng)驗(yàn)，為后續(xù)進(jìn)一步深入研究主觀題的自動(dòng)評(píng)分提供一定的借鑒與參考。

1 相關(guān)技術(shù)

文本向量化的作用主要是將文本轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)，即將文本用可以表達(dá)文本語(yǔ)義信息的向量來(lái)表示。對(duì)文本向量化的很多探究都是在Word2vec(詞向量化)的基礎(chǔ)上來(lái)完成，而Doc2vec(段向量化或句向量化)是將文本段落或句子作為文本處理的基礎(chǔ)單元進(jìn)行處理。這里僅介紹Doc2vec模型。

1.1 Doc2vec模型

基于分布假說(shuō)理論，Word2vec能夠較好地挖掘出文本中詞語(yǔ)所蘊(yùn)含的潛在的語(yǔ)義信息，能夠計(jì)算詞語(yǔ)與詞語(yǔ)之間的相似度、句子與句子之間或其他長(zhǎng)文本之間的相似度。由于該方法沒(méi)有將文本中的語(yǔ)序信息考慮進(jìn)去，從而也就丟失了很多的主要信息，所以Word2vec技術(shù)存在不足之處。

Doc2vec技術(shù)中包含的模型有DM和DBOW兩種[4]。在DM模型中，增加了一個(gè)段向量，該段向量與詞向量的長(zhǎng)度相同，也就是說(shuō)該模型中上下文所包含的范圍更廣泛。它既涵蓋了文本中上下文中的單詞，又涵蓋了其所對(duì)應(yīng)的段落。它可以通過(guò)文本中上下文中的詞向量和段向量，對(duì)目標(biāo)詞的概率分布進(jìn)行預(yù)測(cè)。而且在對(duì)文本進(jìn)行向量訓(xùn)練的過(guò)程中，在DM模型中增加了一個(gè)paragraph ID，首先將其映射成一個(gè)向量。在后面的計(jì)算中，可以將段落向量與詞向量進(jìn)行累加，也可以將它們連接起來(lái)，并將其輸入給softmax層。在對(duì)文本中的語(yǔ)句或者整個(gè)文檔進(jìn)行訓(xùn)練時(shí)，要保證paragraph ID是固定的，它不發(fā)生改變，共同使用同一個(gè)paragraph vector，相當(dāng)于每次在預(yù)測(cè)目標(biāo)詞的概率時(shí)，都用到了該句子的整體語(yǔ)義信息。在對(duì)文本進(jìn)行預(yù)測(cè)時(shí)，需要給待預(yù)測(cè)的語(yǔ)句新分配一個(gè)paragraph ID，輸入到詞向量和輸出層softmax的參數(shù)，應(yīng)該與訓(xùn)練階段得到的參數(shù)保持一致；然后利用隨機(jī)梯度下降算法對(duì)待預(yù)測(cè)的語(yǔ)句進(jìn)行訓(xùn)練；等誤差達(dá)到一定的要求，收斂后，即得到待預(yù)測(cè)語(yǔ)句的段向量。DM模型示意圖如圖1所示。

圖1 DM模型示意圖Fig.1 Schematic diagram of DM model

DBOW模型在只給出某個(gè)段落的情景下，應(yīng)用DBOW模型預(yù)測(cè)相應(yīng)段落中的一些隨機(jī)詞的概率。DBOW模型示意圖如圖2所示。

圖2 DBOW模型示意圖Fig.2 Schematic diagram of DBOW model

應(yīng)用Doc2vec技術(shù)既可以將文本中的語(yǔ)義信息進(jìn)一步提取出來(lái)，又能將文本中的語(yǔ)序信息有效保留。

1.2 文本相似度技術(shù)

本文采用余弦相似度[5-6]來(lái)計(jì)算考生提交的答案和參考答案之間的相似度，其中以參考答案作為標(biāo)準(zhǔn)。將考生答案和參考答案進(jìn)行段向量化，依據(jù)兩個(gè)文本答案的向量之間夾角的余弦值大小，評(píng)估兩個(gè)文本向量之間的相似程度，計(jì)算公式如式(1)所示：

(1)

其中，sim表示相似度，M為已給出的參考答案中文本的語(yǔ)義信息段向量，N為考生提交的答案中文本的語(yǔ)義信息段向量，θ為文本向量M和N之間的夾角，Mi、Ni為文本向量M、N中的各個(gè)分向量，n為各個(gè)分向量的總個(gè)數(shù)。

2 基于相似度組合的評(píng)分方法

通過(guò)分析對(duì)比基于TF-IDF相似度算法、Word2vec語(yǔ)義相似度及Doc2vec文本相似度算法，發(fā)現(xiàn)各種算法中存在的問(wèn)題。為了充分應(yīng)用各種算法的優(yōu)點(diǎn)，構(gòu)建了一種基于相似度組合的主觀題(簡(jiǎn)答題、論述題)自動(dòng)評(píng)分模型。

2.1 基于Doc2vec計(jì)算文本相似度

利用Doc2vec計(jì)算文本相似度的原理為：通過(guò)文本中上下文中的詞向量和段向量，對(duì)目標(biāo)詞的概率分布進(jìn)行預(yù)測(cè)，并利用該向量計(jì)算文本相似度。具體步驟如下：1)對(duì)文本進(jìn)行預(yù)處理；2)將文本向量化；3)進(jìn)行文本相似度計(jì)算。

基于Doc2vec計(jì)算文本相似度的具體算法如圖3所示：

圖3 基于Doc2vec計(jì)算文本相似度的具體算法Fig.3 Specific algorithm of text similarity calculation algorithm based on Doc2vec

2.2 評(píng)分模型構(gòu)建

評(píng)分模型構(gòu)建的思想為：1)考慮整體語(yǔ)義的準(zhǔn)確性；2)將文本、語(yǔ)義、關(guān)鍵詞相似度3種方法組合起來(lái)使用，并設(shè)置閥值，通過(guò)靈活調(diào)節(jié)閥值的大小來(lái)保證評(píng)分的公平性，閥值為C，取值范圍為[0.85，0.99]。本文設(shè)置的閥值為0.9。依次計(jì)算參考答案與考生答案的文本相似度、語(yǔ)義相似度及關(guān)鍵詞相似度。如果任一種算法的相似度值達(dá)到0.9，則將該考生答案判為滿分(該道題的分值)；如果這3種算法的相似度值都低于0.9，則從這3種相似度中選擇最大的相似度值作為該考生答案的最終相似度值，并計(jì)算出考生的得分。構(gòu)建的評(píng)分模型如式(2)所示，構(gòu)建的評(píng)分模型流程如圖4所示。

圖4 評(píng)分模型流程Fig.4 Scoring model flow

(2)

式中，yi為第i道題的評(píng)分，C為設(shè)置的閥值，Si為第i道題的分值，sim為相似度。

3 實(shí)驗(yàn)數(shù)據(jù)收集與評(píng)價(jià)指標(biāo)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文以《系統(tǒng)建模與仿真》考試中的簡(jiǎn)答題、論述題構(gòu)建試題庫(kù)，共165道題目。55名考生參加考試， 155道題選自《系統(tǒng)建模與仿真》試題庫(kù)。通過(guò)考生答題情況，收集有效數(shù)據(jù)1 539份，作為實(shí)驗(yàn)數(shù)據(jù)集。將考生作答的答案輸入系統(tǒng)中，并由老師對(duì)簡(jiǎn)答題、論述題進(jìn)行人工評(píng)分及系統(tǒng)自動(dòng)評(píng)分，將評(píng)分結(jié)果存儲(chǔ)到系統(tǒng)中。

3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

本文采用平均值、方差及偏離率3個(gè)指標(biāo)來(lái)衡量相似度組合評(píng)分與人工評(píng)分的一致程度。平均值的計(jì)算公式為

(3)

方差是指數(shù)據(jù)點(diǎn)的離散程度。其數(shù)學(xué)定義為

(4)

本文采用的偏差率是指實(shí)際值比理論值或者估計(jì)值的偏差程度[7]，用于表征實(shí)驗(yàn)效果的好壞情況。偏差率計(jì)算公式為

(5)

(6)

式中，D為偏差率，Davg為平均偏差率。

3.3 實(shí)驗(yàn)結(jié)果分析與對(duì)比

為了驗(yàn)證提出的基于相似度組合的主觀題自動(dòng)評(píng)分方法的有效性、準(zhǔn)確率及實(shí)用性，以《系統(tǒng)建模與仿真》試題作為實(shí)驗(yàn)數(shù)據(jù)，并將評(píng)分結(jié)果與傳統(tǒng)方法的評(píng)分結(jié)果進(jìn)行對(duì)比。

1 539份《系統(tǒng)建模與仿真》試題利用本文構(gòu)建的基于相似度組合自動(dòng)評(píng)分模型進(jìn)行評(píng)分，并與基于Word2vec算法評(píng)分、基于TF_IDF算法評(píng)分、基于Doc2vec算法評(píng)分進(jìn)行對(duì)比，然后再分別與人工評(píng)分進(jìn)行兩兩對(duì)比。表1僅展示了4種自動(dòng)評(píng)分方法與人工評(píng)分結(jié)果對(duì)比的部分?jǐn)?shù)據(jù)。這幾種算法計(jì)算的簡(jiǎn)答題、論述題的自動(dòng)評(píng)分結(jié)果(共1 539份)的平均值、方差比較如表2所示。自動(dòng)評(píng)分結(jié)果的偏差率比較如表3所示。

表1 4種自動(dòng)評(píng)分方法與人工評(píng)分結(jié)果對(duì)比表Tab.1 Analysis of four automatic scoring methods and manual scoring results

表2 自動(dòng)評(píng)分結(jié)果比較Tab.2 Automatic scoring result comparison

表3 自動(dòng)評(píng)分結(jié)果偏差率(D)Tab.3 Deviation rate(D) of automatic scoring results

由表2可知，相對(duì)于其他評(píng)分方法，本文所提出的評(píng)分方法計(jì)算得到的分?jǐn)?shù)與人工評(píng)分的分?jǐn)?shù)最吻合。本文提出的算法，能夠準(zhǔn)確進(jìn)行整體文本語(yǔ)義分析，有效提高文本相似度計(jì)算的準(zhǔn)確性。而其他評(píng)分方法無(wú)法準(zhǔn)確分析文本語(yǔ)義信息，得到的評(píng)分結(jié)果與教師評(píng)分的結(jié)果就有較大的偏差。說(shuō)明基于相似度組合算法評(píng)分較穩(wěn)定，評(píng)分效果較好。

從表3，更能進(jìn)一步說(shuō)明本文提出的基于相似度組合算法的評(píng)分是有效的，與其他幾種算法的自動(dòng)評(píng)分結(jié)果相比，基于相似度組合算法自動(dòng)評(píng)分結(jié)果的平均偏差率為0.199，偏差率波動(dòng)范圍為1。

4 結(jié)束語(yǔ)

本文以《系統(tǒng)建模與仿真》的主觀題試題作為數(shù)據(jù)集，研究中文主觀題自動(dòng)評(píng)分問(wèn)題。針對(duì)文本相似度、語(yǔ)義相似度、關(guān)鍵詞相似度的不足，提出一種新的主觀題評(píng)分模型，實(shí)現(xiàn)了一個(gè)主觀題評(píng)分系統(tǒng)。

采用本文構(gòu)建的基于相似度組合的主觀題評(píng)分模型進(jìn)行主觀題自動(dòng)評(píng)分，通過(guò)對(duì)比分析，得出評(píng)分模型的評(píng)分結(jié)果波動(dòng)性較小，穩(wěn)定性較好，說(shuō)明提出的評(píng)分模型是可行有效的。由于構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集需耗費(fèi)大量的人力，導(dǎo)致實(shí)驗(yàn)所使用的數(shù)據(jù)集的科目范圍較少，無(wú)法全面地評(píng)估主觀題自動(dòng)化評(píng)分方法的有效性及普適性。因此，如何構(gòu)建一個(gè)文本覆蓋面廣、涉及多領(lǐng)域的評(píng)分?jǐn)?shù)據(jù)集，將是后續(xù)的一個(gè)研究方向。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看