彭星源,柯登峰,趙 知,陳振標,徐 波,2
(1. 中國科學院 自動化研究所 數(shù)字內(nèi)容技術研究中心, 北京 100190;2. 中國科學院 自動化研究所 國家模式識別實驗室, 北京 100190)
作文自動評分已經(jīng)成為寫作評估發(fā)展的一個必然趨勢[1]。MHK(民族漢語水平等級考試)的評分準則從語言、條理、內(nèi)容三方面對考生的作文進行評價。其中,語言表現(xiàn)為句子流暢,用詞恰當;條理表現(xiàn)為記敘、論述中,各部分銜接符合條理;內(nèi)容表現(xiàn)為按規(guī)定的主題進行寫作。最早的作文評分系統(tǒng)PEG[1],以及國內(nèi)的李亞男[2]所側重的研究是對語言形式的考察。而IEA[3],以及曹亦薇、楊晨[4]的方法則著重于比較相同內(nèi)容的出現(xiàn),以內(nèi)容得分為主得到最終的作文評分。再有綜合的系統(tǒng),如e-rater[5]、JESS[6]等,則是從語言、條理、內(nèi)容三方面綜合考慮評分。
本文的研究思路是對作文的用詞進行評分,進而通過作文的詞匯評分來對作文進行自動評分。首先,優(yōu)美而富于變化的詞匯,能夠體現(xiàn)作文的語言水平;其次,詞匯的特定指代意義,在很大程度上能夠反映作文的內(nèi)容。因此,詞匯對作文評分的語言和內(nèi)容兩方面都有較大地意義。本文提出的作文的評分是由作文所使用的詞匯的評分疊加而得到的假設下通過實現(xiàn)詞匯評分估計,進而計算作文評分。本文提出行之有效的詞匯評分估計方法,在準確估計詞匯評分的基礎上可以獲得較高的作文評分性能,融合各種估計方法后,性能還可進一步提升。本文的結構如下: 第二節(jié)介紹一般化的基于詞匯評分的作文自動評分方法和用于對比的e-rater的方法;第三節(jié)介紹本文提出的經(jīng)過改進的估計詞匯評分方法;第四節(jié)分別介紹語料庫、實驗參數(shù)的影響和選定以及最終實驗的結果;最后一節(jié)對基于詞匯評分的作文自動評分進行總結。
基于作文詞匯評分的作文自動評分的思想,最初來源于考試詞匯大綱。在語言學習中,詞匯依據(jù)掌握的難度,在詞匯大綱中分為不同的等級。由此容易得到如下假設: 詞匯的難度與作文水平有密切關系。基于這個假設,可以得到一個等價的衡量作文評分的假設: 作文的評分等于作文所包含詞匯的評分的加權均值。用公式表示為:
(1)
其中,tj表示j詞在作文中出現(xiàn)的次數(shù),wj表示j詞的評分,b為一個線性偏移量。這個公式為本文所提出方法的假設前提。在獲得詞匯的評分wj后,便能夠通過式(1)對作文進行評分。
通常詞匯等級表是通過廣泛的詞頻統(tǒng)計為基本依據(jù),同時依靠資深的語言教師們進行經(jīng)驗判斷得出的,MHK考試詞匯等級表也同樣如此[7]。
本文采用了一份包含三個等級的詞匯表作為通用詞匯表,共計7 277詞。考慮到作文的人工評分范圍為1~6分,本文將以上的詞匯以一級詞匯按1分統(tǒng)計,二級詞匯按3.5分統(tǒng)計,三級詞匯按6分統(tǒng)計。通過式(1)計算出作文的最終得分,b值取0。通用詞匯評分方法中,利用廣泛的詞頻和人工建立的評分等級,進行作文評分的賦值,實現(xiàn)作文評分的自動評定。
常規(guī)的詞匯等級方法是按照式(1)類比得到的。既然假定了作文的評分是由詞匯的評分所決定,由對偶的原則,估計詞匯的評分也同樣可以由作文的評分入手,因此有如下假設: 作文詞匯的評分為詞匯所出現(xiàn)作文的人工評分的均值。公式表示如下:
(2)
其中wj表示j詞的評分,tij表示j詞出現(xiàn)在作文i中的次數(shù),scorei表示作文i的人工評分。
E-rater的方法表面上并不完全相似于以上的方法。它通過作文向量與各評分等級向量之間的相似度,對作文進行評分等級歸屬劃分,得到作文評分。但是,其本質上仍然是通過純粹的詞匯統(tǒng)計,得到作文等級劃分的向量,此向量上的詞匯的特征類似于詞匯評分。其方法介紹如下[3]。
每一篇作文都將由一個詞匯向量表示,同樣每一個作文評分等級也可以由一個詞匯向量表示。每一個詞在向量中都由一個權重表示。其中評分等級的詞匯向量權重的計算公式為:
wjs=(Fjs/Max(Fs))×log(N/Nj)
(3)
其中Fjs為詞匯j在s評分等級中出現(xiàn)的頻數(shù),Max(Fs)表示所有詞在s評分等級中出現(xiàn)的最高頻數(shù)的那個詞的頻數(shù),N是訓練集的作文數(shù),Nj表示j詞在N篇作文中出現(xiàn)的作文的數(shù)量。公式的前半部分為詞匯在s評分等級的歸一化頻率;公式的log函數(shù)部分為一個倒排文檔頻率,是一個詞語普遍重要性的度量。作文的詞匯向量權重的計算公式為:
wj=(Fj/Max(F))×log(N/Nj)
(4)
其中Fj為詞匯j在某篇作文中出現(xiàn)的頻數(shù),Max(F)表示作文中所有詞中出現(xiàn)頻率最高的那個詞的頻數(shù),N和Nj的含義同上。式(4)含義與式(3)一樣,只不過針對的是單獨的一篇作文。
E-rater V2中,有兩種方法由詞匯向量得到最終的作文評分。其一是計算待評作文向量與各評分等級的詞匯向量的相似度,作文評分為相似度最高的評分等級的評分;另一方法是計算待評作文向量與最高等級評分向量的相似度,最終的作文評分為相似度與最高分的乘積。
現(xiàn)在重新回到式(1)這個假設上??梢钥闯?,如果能夠知道每一個詞匯準確的評分,那么就能夠計算出作文的得分。而估計詞匯的評分wj通常的做法就是利用相關的訓練集。已知作文評分,可以通過式(1)建立起一個方程組,此方程組在最小二乘的方法下有一個全局最優(yōu)解。因此,由一個已知人工評分的訓練集,可以通過最小二乘法直接得到對wj的全局最優(yōu)估計,進而就可以通過式(1)完成對作文的自動評分。此方法在實際操作中,會遇到兩個問題: I.實際j的取值范圍非常大,方程組中的未知變量個數(shù)過多,也即方程組矩陣過度龐大。在運用最小二乘法對方程組求解的時候,需要對矩陣求逆,過大的矩陣將導致求逆的難度增大。II.式(1)對每一個詞匯都有一個單獨的詞匯評分,也即模型的參數(shù)變量過多,如果求得訓練集中的最優(yōu)解之后,會出現(xiàn)過擬合現(xiàn)象。本文為這兩個問題提出一種解決的思路。
將全部詞匯評分劃分為c個評分,每個詞將屬于其中一個評分,不再如式(1)中那樣對每一個詞匯給予一個單獨的評分變量。也即式(1)變?yōu)椋?/p>
(5)
其中Tij表示(1)式中歸一化后的詞匯頻數(shù)值,也即詞匯頻率。pjc表示當詞匯j屬于c評分類的概率。wc表示第c類詞匯評分的確切評分值。b為一個線性偏移量。這樣,就將對詞匯的評分wj的估計轉化為對c個評分類的評分wc的估計和詞匯j屬于c類的概率分布的估計兩個過程?,F(xiàn)在本文提出三種方法來實現(xiàn)這兩個過程的估計,同時在實現(xiàn)的過程中解決了以上提到的兩個問題。
分步求解pjc和wc來解決計算困難的問題,并且通過求得一個局部最優(yōu)解替代全局最優(yōu)解以防止過擬合的情況發(fā)生。在本方法中,pjc的取值固定為(0,1)。
算法流程:
I. 隨機對初始pjc賦值,實現(xiàn)分布初始化。
II. 固定pjc值,這樣待求解的方程組將化簡為僅包含C個變量wc的線性方程組。通過最小二乘法求得此分布情況下的最優(yōu)解。
III. 固定wc值,對N個詞匯的pjc分布按貪心算法進行逐詞搜索,尋找能夠讓訓練集作文按式(5)評分的方差最小的pjc分布。
IV. 計算訓練集作文按式(5)評分方差減小量ε,如果ε小于某一預設值或者達到一定迭代次數(shù)K,則進入步驟V;否則回到步驟II。
V. 按當前求得的pjc和wc值求得作文評分方程。按此方程得到作文的評分。
此方法中由于wc的類別數(shù)C值較小,因此在用最小二乘計算的時候計算復雜度也在可操作之內(nèi)。同時,求得的pjc和wc并非全局最優(yōu)的,避免了過擬合現(xiàn)象的發(fā)生。具體的循環(huán)次數(shù)K以及變量個數(shù)C值如何確定將在后面的實驗參數(shù)設置中討論。
此方法試圖將詞匯直接分為c類,將詞匯在每一類人工評分中的分布概率通過訓練集計算出來,并以此作為特征對詞匯進行聚類。同一類的詞匯將獲得同樣的類別評分wc。在確定了詞匯的類別分布pjc和類別評分wc后,也即確定了式(5)中的待估變量,實現(xiàn)了作文自動評分的方程。
此方法試圖通過聚類的方法,直接求得詞匯的評分類別所屬。方法考慮了詞匯在人工評分等級中的分布情況,一定程度上減少了數(shù)據(jù)帶來的過擬合情況。但同時,引入了一個要判斷的變量,即聚類的數(shù)目。具體的聚類數(shù)目C的確定將在后面的實驗參數(shù)設置中討論。
算法流程:
I. 人工的作文評分有11類,計算每一個詞匯j在此11類上的分布情況。
II. 用聚類方法對N個詞匯在這11類上的分布情況進行聚類,得到每一個詞匯分為某一類的判別。也即得到pjc分布。
III. 在已知pjc分布后,待求解的方程組將化簡為僅包含C個變量wc的線性方程組。通過最小二乘法求得最優(yōu)解。
IV. 按當前求得的pjc和wc值求得作文評分方程。按此方程得到作文的評分。
訓練集的作文有11等級人工評分,因此假設詞匯的等級也分為11類。在訓練集上計算詞匯每一類的分布概率。詞匯中出現(xiàn)頻率低的詞,并不具有良好的統(tǒng)計意義,因此可以作為噪聲剔除;同樣,人工評分分數(shù)段分布較為均勻的詞匯,其對于作文評分起不到區(qū)分意義,這樣的詞匯也應剔除。這樣就可以得到有效(被剔除的詞匯不再參與計算當中)詞匯的概率分布,再通過最小二乘法得到當前分布下的最優(yōu)wc值,也即確定了式(5)中待估變量,完成了作文自動評分方程。
算法流程:
I. 人工的作文評分有11類,計算每一個詞匯j在此11類上的分布情況,即求得pjc。
II. 計算每個詞出現(xiàn)的頻率(f)和每個詞在11類上的分布方差(dv)。對于詞匯頻率低于特定頻率F或者其分布方差小于某一特定值DV的詞匯,刪除其對作文分數(shù)的影響。即對于符合情況的詞匯j有:pjc=0對于任意的c∈C。
III. 在確定了pjc后,待求解的方程組將化簡為僅包含C個變量wc的線性方程組。通過最小二乘法求得最優(yōu)解。
IV. 按當前求得的pjc和wc值求得作文評分方程。按此方程得到作文的評分。
此方法將人工評分等級等價于詞匯等級。將詞匯屬于詞匯評分等級的情況,用概率分布的方式描述,而不再是上面方法中的只屬于某一評分等級。將統(tǒng)計特性不明顯的詞匯和分布較均勻沒有區(qū)分作文評分意義的詞匯去除,減少了噪聲的引入。這里有兩個需要得到的經(jīng)驗變量,一個是截斷頻率的取值,一個是分布方差的截斷最小值。取值確定將在后面的參數(shù)設置中探討。
總結起來,三種方法的基本思路一致,均是將式(1)變化為式(5),通過分別求得詞匯的分布pjc和評分類別的評分值wc來解決以上提到的兩個問題。其區(qū)別在于具體的實現(xiàn)方法上。方法一通過貪心算法求得詞匯的劃分,方法二則是通過對詞匯的分布特征進行聚類來得到詞匯的類別劃分,方法三則是直接利用了詞匯在人工評分中的分布結果。相比于直接去求每一個詞的評分wj,求一個類別的評分值wc能夠明顯地減少模型的參數(shù),從而避免了過擬合現(xiàn)象的發(fā)生。
本文中的作文數(shù)據(jù)的人工作文分數(shù)評分設定為1~6分,間隔為1分。每一篇作文由至少兩個評分員進行評分。最終的人工作文評分分值為兩評分員均分,分值區(qū)間1~6分,間隔為0.5分一檔,共分為11檔。
表1 訓練集與測試集人工相關度
本文實驗的數(shù)據(jù)取自一作文集。此作文集中,最初的兩個人工評分的相關度約為0.54??紤]到作文評分中人工評分較低的相關度,為避免人工評分的不可靠性對實驗帶來的影響,本文的實驗對象均選自兩個人工評分中分差不大于1分的作文。本文共抽取8 000篇作文作為實驗對象,其中5 000篇作為訓練集,3 000篇作為測試集,測試集分為3份,每份1 000篇。每個數(shù)據(jù)集中兩位老師人工評分相關度數(shù)據(jù)如表1所示。在此四個數(shù)據(jù)集上的人工評分分布見圖1(數(shù)據(jù)集選自兩個人工評分中分差不大于1分的作文,其中測試集按原始分布抽取獲得;訓練集則為剩余作文,因此訓練集在.5分數(shù)段比例較少)。實驗中,對于三份測試集分別做參數(shù)分析,通過參數(shù)的一致性分析獲得最優(yōu)的參數(shù)選擇。
圖1 數(shù)據(jù)集上人工評分分布
4.2.1 改進算法一中的迭代次數(shù)以及詞匯評分等級數(shù)
對于改進方法一中,過大的迭代次數(shù)將導致評分公式出現(xiàn)過擬合,導致方程的泛化能力下降。因此,如何決定迭代次數(shù),將是本小節(jié)所要解決的問題。圖2所示,在一次迭代后,就出現(xiàn)過擬合現(xiàn)象。因此迭代次數(shù)選1次。由于迭代次數(shù)較少,這樣也極大地減少了運算消耗的時間。
在確定了迭代次數(shù)后,由圖3可見,詞匯評分種類數(shù)在此方法下對評分效果的影響有限而且并無顯著規(guī)律,因此按人工對作文的評分分為11級評分,而選取詞匯評分種類數(shù)C=11。
4.2.2 改進方法二中聚類類別數(shù)
在方法二中的聚類方法選用K-means方法。對于此聚類方法,聚類數(shù)目是一個預先需要確認的變量。為了獲得合適的K值,本文在三個測試集上對不同K值下的測試集相關度進行統(tǒng)計。
圖4可見,當聚類數(shù)目較小的時候,在測試集乃至訓練集上的評分相關度較低,且極為不穩(wěn)定,說明此時的類別數(shù)不足以反映實際的情況;當聚類數(shù)目達到30以后,測試集上的評分相關度逐步趨于穩(wěn)定。因此選取聚類數(shù)目K值為30。也即此情況下,詞匯評分等級數(shù)C為30。
圖2 迭代次數(shù)對測試集相關度的影響曲線(方法一)
圖3 詞匯評分種類數(shù)對測試集相關度的影響曲線(方法一)
在方法三中,需要去掉統(tǒng)計特性不明顯以及沒有區(qū)分意義的詞匯,以減少這部分詞匯帶來的噪聲影響。實驗采用網(wǎng)格搜索的方法對可能的參數(shù)進行逐一嘗試,通過性能最優(yōu)來決定參數(shù)。本文通過大致的參數(shù)嘗試的方法初步得到截斷頻率的tf取值和截斷分布方差tdv的初步值。隨后,本文將log(tf)的取值定在-10~-3之間,而log(tdv)的取值在-7~-3之間。網(wǎng)格搜索的步長設為1。
圖4 詞匯評分種類數(shù)對測試集相關度的影響曲線(方法二)
由圖5可見,三個集上的最大評分相關度約為0.68。其中,log(tf)取值高于-4時,相關度急劇下降;取值低于-4時,相關度非常平緩的下降。log(tdv)的取值對相關度影響較低,約在-6附近達到一個極值。本實驗選取tf的最優(yōu)取值為0.015 625(2-6),tdv的最優(yōu)取值為0.062 5(2-4)。
圖5 詞匯過濾參數(shù)對測試集相關度的影響曲線(方法三)
本文將對各個基于詞匯評分的作文自動評分方法進行對比。其結果見表2。
各方法的性能如表2所見。從圖6中可以直觀地看到通用詞表方法的相關度極低,這表明一個廣泛通用的詞表等級對于作文評分并沒有代表性的意義。而常規(guī)的估計方法,由于其估計的粗略性,因此準確度并不高,影響了其最終的評分效果。本文將E-rater提出的兩種方法作為改進方法的性能對比對象??梢钥吹?,在本實驗中的數(shù)據(jù)集上,E-rater_1方法性能較好,自動評分與人工評分相關度達到了0.6左右;相對而言,E-rater_2方法性能則不夠理想,分析其原因,應該是由于各個分數(shù)段作文并非完全是高分段作文的部分縮影,而可能具有每個分數(shù)段內(nèi)自身的詞匯分布特色。因此僅用與高分段作文的相似度來衡量,顯得有些不足。從圖6中可以看到,本文所提出的三種改進方法在性能上均較平衡,平均相關度達到了0.65以上的水平,已經(jīng)超過了E-rater方法的相關度。因此,本文提出的對于式(1)的假設是成立的。由于三種改進方法在本質上是一樣的,差別在于具體的實現(xiàn)方法,因此它們在性能上也較為接近??紤]到各種方法在實現(xiàn)上的差別,本文試圖將各個方法進行線性融合,以期望獲得基于詞匯等級評分方法的一個綜合性結果。
表2 各方法下測試集自動評分與人工評分相關度
圖6 各方法下三個測試集上的相關度
將以上方法結果中,性能較優(yōu)的E-rater_1方法和三種改進方法進行線性融合。在三個測試集中抽取1~2個作為擬合方法的訓練集,剩余的一個作為測試集。實驗結果如表3所示。
表3 基于詞匯評分等級的作文評分性能
從表3中可以看到,融合后的結果與單一的方法比較均有一定的提升,在測試集上的相關度均值達到了0.698 8,而此三個測試集上的人工評分相關度均值為0.754 4(本實驗中數(shù)據(jù)集是經(jīng)過人工挑選的初始兩人工評分不大于1分的作文,實際人工評分相關度約為0.54)。雖然自動評分的相關度低于人工評分相關度,但已經(jīng)超過了實際全部數(shù)據(jù)的人工評分相關度。分析其原因是由于實際全部數(shù)據(jù)的人工評分中,多個評分員存在的個人差異以及人工評分疲勞的存在導致了數(shù)據(jù)中存在大量的人工噪聲(不準確的作文評分),影響了人工評分相關度;而基于詞匯評分的方法,在大數(shù)據(jù)量的情況下能夠從帶噪數(shù)據(jù)中學習到正確的詞匯評分,一定程度上通過數(shù)據(jù)數(shù)量的優(yōu)勢彌補了噪聲數(shù)據(jù)帶來的影響,因此可以在最終結果上獲得比實際人工評分相關度更高的結果。另一方面,本文僅僅考慮在詞匯評分等級上對作文進行評分,并沒有考慮其他許多能夠表現(xiàn)作文水平的特征,能夠取得如此接近人工評分相關度的性能已經(jīng)表明本文提出的方法具有可行性。如果進一步融合其他作文評分的方法與特征,作文自動評分的性能還將進一步提高,但這已經(jīng)超出了本文所討論的范圍。
本文從詞匯評分和作文評分之間的關系入手,通過建立合理的關系假設,從方法上討論了如何通過詞匯的評分得到作文的評分,并通過實驗驗證了假設的正確性,實現(xiàn)了基于詞匯評分的作文評分。實驗結果表明,如何通過相關的訓練數(shù)據(jù)獲得準確的詞匯評分是進行基于詞匯評分的作文評分的關鍵?;谠~匯評分的作文評分在相關度性能上高于E-rater的同樣基于詞匯的方法,并且在融合了各種方法之后,最終的評分相關度可以接近0.7,說明了方法的有效性。
詞匯僅是體現(xiàn)作文水平的一個重要特征。雖然基于詞匯評分的作文自動評分方法在性能上已經(jīng)達到較好的程度,但是相對于作文自動評分研究而言還僅僅是冰山一角。將來,可以繼續(xù)從作文的語言、條理、內(nèi)容三方面進行探索,從更加豐富而綜合的層面進行作文自動評分的研究。
[1] S. Dikli. An overview of automated scoring of essays[J]. Journal of Technology, Learning, and Assessment, 2006, 5(1): 1-35.
[2] 李亞男. 漢語作為第二語言測試的作文自動評分研究[D]. 北京: 北京語言大學, 2006.
[3] T. Landauer, D. Laham, P. Foltz. Automatic essay assessment[J]. Assessment in Education: Principles, Policy and Practice, 2003, 10(3): 295-309.
[4] 曹亦薇, 楊晨. 使用潛在語義分析的漢語作文自動評分研究[J]. 考試研究, 2007, 3 (1): 63-71.
[5] Y. Attali, J. Burstein. Automated essay scoring with e-rater v.2[J]. Journal of Technology, Learning, and Assessment, 2006, 4(3): 1-30.
[6] T. Ishioka, M. Kameda. Automated Japanese essay scoring system based on articles written by experts[C]//Proceedings of ACL. Sydney, Australia, 2006: 233-240.
[7] 彭恒利. 中國少數(shù)民族漢語水平等級考試[J]. 中國考試, 2005, 10:57-59.