基于文檔發(fā)散度的作文跑題檢測

2017-04-25 08:26:59陳志鵬陳文亮

中文信息學(xué)報 2017年1期

關(guān)鍵詞：跑題文檔閾值

陳志鵬，陳文亮

(1.蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006；2.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心，江蘇蘇州 215006)

基于文檔發(fā)散度的作文跑題檢測

陳志鵬1,2，陳文亮1,2

(1.蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006；2.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心，江蘇蘇州 215006)

作文跑題檢測是作文自動評分系統(tǒng)的重要模塊。傳統(tǒng)的作文跑題檢測一般計算文章內(nèi)容相關(guān)性作為得分，并將其與某一固定閾值進行對比，從而判斷文章是否跑題。但是實際上文章得分高低與題目有直接關(guān)系，發(fā)散性題目和非發(fā)散性題目的文章得分有明顯差異，所以很難用一個固定閾值來判斷所有文章。該文提出一種作文跑題檢測方法，基于文檔發(fā)散度的作文跑題檢測方法。該方法的創(chuàng)新之處在于研究文章集合發(fā)散度的概念，建立發(fā)散度與跑題閾值的關(guān)系模型，對于不同的題目動態(tài)選取不同的跑題閾值。該文構(gòu)建了一套跑題檢測系統(tǒng)，并在一個真實的數(shù)據(jù)集中進行測試。實驗結(jié)果表明基于文檔發(fā)散度的作文跑題檢測系統(tǒng)能有效識別跑題作文。

跑題檢測；文檔發(fā)散度；文本相似度

1 引言

作文跑題指文章偏離了預(yù)先給定的主題。例如,現(xiàn)在有一個題目“on food safety”,要求寫關(guān)于食品安全的文章。如果學(xué)生寫的文章與此主題無關(guān)，而是關(guān)于其他主題，比如讀書或者關(guān)于大學(xué)生活，我們就認(rèn)為該作文跑題。作文的質(zhì)量和是否跑題沒有必然聯(lián)系，有的文章雖然寫的很短很差，但是并沒有跑題。作文跑題的原因很多，可能是作者有意為之，也可能是無意間的提交錯誤[1]。

作文跑題檢測用于判斷文章是否跑題，是作文自動評分系統(tǒng)的重要組成模塊。傳統(tǒng)的作文跑題檢測系統(tǒng)一般計算內(nèi)容相似度，將其與一個固定的閾值進行比較，然后判斷文章是否跑題。這種方法簡單有效，但是沒有考慮文章得分和題目類型之間的關(guān)系，而是簡單假設(shè)所有題目下的跑題閾值都一樣。

針對傳統(tǒng)方法的不足，本文提出基于文章發(fā)散度設(shè)立動態(tài)閾值的方法。這種方法考慮不同類型的題目，研究題目下文章集合發(fā)散度的概念，挖掘跑題閾值與文檔發(fā)散度之間的關(guān)系，根據(jù)文檔發(fā)散度動態(tài)選取題目對應(yīng)的閾值，實驗證明此方法可以提高檢測系統(tǒng)的性能。

本文的其余部分安排如下:第二節(jié)對相關(guān)工作進行介紹；第三節(jié)詳細(xì)介紹我們提出的作文跑題檢測方法。第四節(jié)介紹實驗和結(jié)果分析，第五節(jié)是結(jié)論和下一步工作介紹。

2 相關(guān)工作

作文跑題檢測的核心是文本相似度計算。文本相似度是表示兩個文本之間相似程度的一個度量參數(shù)。除了用于文章跑題檢測，在文本聚類[2]、信息檢索[3]、圖像檢索[4]、文本摘要自動生成[5]、文本復(fù)制檢測[6]等諸多領(lǐng)域，文本相似度的有效計算都是解決問題的關(guān)鍵所在。

傳統(tǒng)文本相似度計算一般基于向量空間模型VSM (Vector Space Model)。向量空間模型的基本思想是用向量形式來表示文本:vd=[w1,w2,w3……wn]，其中wi是第i個特征項的權(quán)重，一般用詞的TF-IDF值[7]作為特征權(quán)重*TF-IDF是常用的特征權(quán)重計算方法。除此之外，亦可采用二元特征或者以詞頻作為權(quán)重。。TF-IDF值表示該詞對于文本的重要程度，它由詞頻和逆文檔頻率構(gòu)成。

詞頻(Term Frequency)，即一個詞在文檔中出現(xiàn)的次數(shù):一個詞在文章中出現(xiàn)的次數(shù)越多，它對這篇文章就越重要，它與文章的主題相關(guān)性也就越高。要注意的是停用詞(stop words)，像中文中的“的”、“了”，英文中的“a”、“the”，這些詞并不具備這種性質(zhì)，它們雖然出現(xiàn)的次數(shù)比較多，但是它們不能反映文章的主題。應(yīng)該將它們過濾掉。

逆文檔頻率(Inverse Document Frequency)，如果一個詞在文檔集合中出現(xiàn)的次數(shù)越多，說明這個詞的區(qū)分能力越低，越不能反映文章的特性；反之，如果一個詞在文檔集合中出現(xiàn)的次數(shù)越少，那么它越能夠反映文章的特性。例如，有100篇文檔，如果一個詞A只在一篇文檔中出現(xiàn)，而詞B在100篇文檔中都出現(xiàn)，那么，很顯然，詞A比詞B更能反映文章的特性。

將上面兩個概念結(jié)合起來，可以計算出一個詞項的TF-IDF值，對于一個詞項wi:

TFIDF(wi)=tf(wi)×idf(wi)

(1)

其中TFIDF(wi)表示當(dāng)前詞項wi的TF-IDF值，tf(wi)表示wi的詞頻，idf(wi)表示wi的逆文檔頻率。很顯然，詞頻就等于一篇文檔中該詞項出現(xiàn)的次數(shù)除以文章的總詞數(shù)，而逆文檔頻率的計算如式(2)所示。

(2)

N表示的是文檔集合中文檔的總數(shù)，df(wi)是包含詞項wi的文檔的總數(shù)，加1是為了保證分子大于0。

對于文本D，基于向量空間模型，我們可以將D表示為向量[a1,a2..ak..an]，其中ak為詞表中第k個單詞對應(yīng)的TF-IDF值。將文章表示為向量后，便可使用余弦公式計算向量間的相似度，以此來度量文本之間的相似度，如式(3)所示。

(3)

其中D1和D2表示兩篇文本，假設(shè)詞表中一共有n個詞，a1k表示第一篇文本D1中單詞的TF-IDF值，a2k表示第二篇文本D2中單詞的TF-IDF值。

基于向量空間模型的文本相似度計算方法簡單有效，但是這種方法忽略了文本中詞項的語義信息，沒有考慮到詞與詞之間的語義相似度。例如“筆記本”和“手提電腦”這兩個詞在向量空間模型中被認(rèn)為兩個獨立的特征而沒有考慮這兩個詞在語義上的相近性。針對這一問題，很多研究人員進行了研究，其中詞擴展是最常見的一種策略。現(xiàn)有詞擴展方法主要采用基于詞典的方法，比如使用WordNet[8]、HowNet等詞典。Yan[9]提出了基于WordNet詞擴展計算英語詞匯相似度的方法。Zhu[10]提出了基于HowNet計算詞匯語義相似度的方法，并將其用于文本分類。這些方法嚴(yán)重依賴于人工構(gòu)造的詞典資源，在新語言和新領(lǐng)域應(yīng)用中會遇到很多問題。近年來，隨著深度學(xué)習(xí)的興起，詞向量獲得了越來越多重視，許多研究者研究嘗試將其融入文本相似度計算，Chen[1]提出利用詞向量快速構(gòu)建詞項之間語義關(guān)系并進行詞擴展，不需要依賴人工構(gòu)造的字典，面對不同領(lǐng)域的作文檢測也有較好的效果。

作文跑題檢測源于對作文自動評分系統(tǒng)的研究。傳統(tǒng)的作文評分系統(tǒng)，如PEG[11]、IEA[12]、E-rater[13]等并未直接判斷文章是否跑題，而是將內(nèi)容相關(guān)度作為文章特征之一，利用分類或者回歸的方法計算新文章的得分。這種方法直接給出文章總體得分，用戶無法從中判斷出文章是否跑題。針對這種不足，通用的方法是設(shè)定一個閾值，將內(nèi)容相關(guān)度與閾值進行對比，以此來判斷文章是否跑題。Louis[14]提出了利用主題描述來檢測作文跑題的方法，通過計算文章與主題描述的相似性并與閾值進行對比來判斷文章是否跑題。Ge[15]提出一種利用文本聚類來判斷文章是否跑題，同樣是設(shè)定相似度閾值作為聚類終止條件。這些方法相較于傳統(tǒng)方法的優(yōu)點是可以顯示判斷文章是否跑題，但是傳統(tǒng)方法設(shè)置的都是固定閾值，即所有題目的閾值都相同，沒有考慮不同題目的特點。

與上述方法不同，本文在研究題目發(fā)散性的基礎(chǔ)上，提出一種設(shè)立動態(tài)閾值的方法。研究文本集合發(fā)散性值的概念和度量方法，分析發(fā)散性值和跑題閾值的關(guān)系，構(gòu)建二者的線性關(guān)系模型。通過這種方法，我們可以動態(tài)計算出每一個題目下的跑題閾值。實驗表明，相對于固定設(shè)定閾值，基于發(fā)散性的閾值設(shè)定方法有更好的性能。

3 基于文檔發(fā)散度的作文跑題檢測

本部分3.1、3.2節(jié)詳細(xì)闡述本文的創(chuàng)新點:文檔發(fā)散度和基于文檔發(fā)散度的跑題檢測。3.3節(jié)介紹基于詞擴展的文本相似度計算方法[1]，實驗中用此方法計算文章和范文的相似度。

3.1 文檔發(fā)散度

文檔的發(fā)散度指的是某一題目下文章集合的發(fā)散程度。例如，有兩個題目:“一場足球賽”和“一次難忘的經(jīng)歷”。相對而言，后者的作文集合會更加“多種多樣”，不僅僅會有寫足球賽的，可能還會有寫旅游、料理等主題的作文。這些文章所敘述的事情沒有統(tǒng)一的主題，不同文章的內(nèi)容之間也沒有太多相似性，但是它們卻沒有跑題。像這樣的題目，我們認(rèn)為其發(fā)散度就比較高。這個題目也被稱為發(fā)散性題目。

由于發(fā)散性題目下文章之間的相似性不高，差異較大，本文用文章之間兩兩相似度均值來表示文章集合的發(fā)散程度。假設(shè)某一題目下有M篇文章{D1,D2…D…m}，文章之間兩兩相似度的均值稱為文章發(fā)散度值，為div，則有式(4):

(4)

其中，Num指1,2,3…m個數(shù)的組合數(shù)目，Sim(Di,Dj)表示文章D1和D2的相似度，使用TF-IDF方法(即式(3))計算。如果一個題目的發(fā)散度越高，則它的發(fā)散度值div就越低。

我們挑選了十個真實的題目，每個題目下都有100篇文章。計算出每個題目下文章集合的發(fā)散度值，按發(fā)散性值從低到高排序，如表1所示。

表1 不同發(fā)散性值的題目及其發(fā)散性值

從表1中我們可以看到:發(fā)散性較高的題目，如 “Free topic”、“Book Report”，對應(yīng)文章集合的發(fā)散性值比較低，而發(fā)散性較低的題目，如“Translation on page 59”和“unit4 翻譯”的發(fā)散性值相對來說比較高。

3.2 基于文檔發(fā)散度的跑題檢測

在本文跑題檢測任務(wù)中，對于每一篇學(xué)生提交的文章，需要與范文計算相似度，然后與閾值對比。如果相似度小于閾值，則判斷為跑題作文；反之，則為不跑題作文。顯然，閾值的選取很關(guān)鍵，本文使用基于文檔發(fā)散度的方法動態(tài)選取閾值。

每個題目下的跑題閾值是不同的，所以很難選取一個固定的經(jīng)驗值作為閾值。通過觀察可知:發(fā)散性題目下，文章與范文相似度較低，閾值較低。而非發(fā)散性題目下，文章與范文的相似度較高，閾值相對而言較高。這意味著跑題閾值和發(fā)散性值之間是有聯(lián)系的，我們假設(shè)二者之間存在著線性關(guān)系。

本文使用線性回歸模型來構(gòu)造文檔發(fā)散度值與跑題閾值的關(guān)系。線性回歸模型反應(yīng)兩種或者兩種以上變量之間相互依賴的定量關(guān)系，應(yīng)用十分廣泛。

根據(jù)以上分析，本文假設(shè)發(fā)散度值和跑題閾值的關(guān)系如式(5)所示。

thresholder=a×div+b

(5)

其中，thresholder表示該題目的跑題閾值，div為該題目下文章的發(fā)散度值，a和b是模型的參數(shù)。線性回歸是一種有監(jiān)督的學(xué)習(xí)方法，所以我們需要搜集一定量的樣本，對模型進行訓(xùn)練，得到模型參數(shù)a和b。構(gòu)建好線性回歸模型后，我們只需要計算出題目下面文章集合的發(fā)散性值，就可以根據(jù)已經(jīng)構(gòu)建好的模型動態(tài)地計算出每個文章下面的跑題閾值。

3.3 基于詞擴展的文本相似度計算

在計算文章與范文相似度的時候，本文使用基于詞擴展的文本相似度計算方法。該方法由chen[1]等人提出，在計算文本相似度的時候利用單詞的語義信息，快速有效。

傳統(tǒng)的文本相似度計算方法如之前所述，采用基于向量空間模型的TF-IDF方法?；谠~擴展的相似度計算方法是對于傳統(tǒng)方法的改進:對于某一個文本單詞集合，找出其擴展的相似詞集合，將其加入到原來的文本集合中，得到新的文本表示集合。在這個新的文本表示集合的基礎(chǔ)上，使用TF-IDF方法計算相似度。具體來說:

對于文章D，有文本單詞集合d:{w1,w2,w3…wi…wn}。對于任一單詞wi，找出與其語義上相近的k個單詞集合{vi1,vi2,vi3……vik}。對于d中所有單詞，我們都找出它們的相似詞集合，得到一個總的相似詞集合E={v11,v12…v1k…vi1,vi2……vik}。去除集合E中重復(fù)的擴展詞，得到最終的擴展集合E′。最后將E′加入到原文本單詞集合中，得到最終用于計算的文本表示單詞集合。

在計算文章和范文之間相似度的時候，對兩篇文章都進行詞擴展，然后使用TF-IDF方法計算相似度。

4 實驗

4.1 實驗數(shù)據(jù)

本次實驗中，我們向合作機構(gòu)申請了30 111篇不同的文章用于實驗，一共400個不同的題目。平均每個題目下有75篇文章。這些題目下文章的平均長度分布如圖1所示。

圖1 題目下文章的數(shù)量的分布

從圖1中我們可以看出，這些題目下文章數(shù)量都大于50篇，文章數(shù)在60～70篇和90～100篇這兩個區(qū)間的題目占了絕大多數(shù)。這些題目下文章的平均字?jǐn)?shù)見圖2。

圖2 題目下文章平均字?jǐn)?shù)的分布

從圖2中可以看出，這些題目下文章的平均字?jǐn)?shù)集中在100～200字的區(qū)間。

對于每個題目，我們都進行人工標(biāo)注，找出其中的跑題文章。為了減少工作量，先用中心向量法找出每個題目下的范文，再計算每篇文章與范文計算相似度。按照評分從低到高進行標(biāo)注，直到大部分文章都不跑題。不同題目下作文發(fā)散性值與跑題文章比例的關(guān)系如圖3所示。

從圖3中可以看出:如果題目下文章的發(fā)散性較強或者較弱，即處于上圖橫軸的兩端，這些文章中跑題作文的比例都不高；而發(fā)散性中等的(0.2-0.3左右)題目下，跑題文章占的比例相對較高。這符合我們標(biāo)注時發(fā)現(xiàn)的規(guī)律:發(fā)散性題目下跑題文章的較少。同一性較高的題目下，比如文章翻譯，跑題作文的比例也不高。

另外，我們還統(tǒng)計出了發(fā)散性值與題目下文章數(shù)量的關(guān)系，如圖4所示。

圖3 發(fā)散性值與跑題文章比例關(guān)系

圖4 發(fā)散性值與題目下文章數(shù)量的關(guān)系

實驗中使用了Google開源的word2vec[16-18]工具包*https://github.com/NLPchina/Word2VEC_java。這個工具包可以根據(jù)給定的語料庫，通過訓(xùn)練后的模型將詞表示成向量形式，并能找出與某個詞語義上相近的詞。為此，我們又申請了3 209 128篇學(xué)生作文作為word2vec的訓(xùn)練語料。同時，這3 209 128篇文章還用來生成詞表，以及訓(xùn)練單詞的idf值。在生成詞表的時候，我們過濾掉了出現(xiàn)次數(shù)低于五次的單詞，主要是為了過濾掉拼寫錯誤的單詞。

為了學(xué)習(xí)每個題目下跑題閾值和文章發(fā)散度的關(guān)系，需要一個訓(xùn)練集。每個訓(xùn)練實例為一個題目下的文章發(fā)散度和跑題閾值，發(fā)散度用之前所述的方法計算，跑題閾值根據(jù)人工標(biāo)注的結(jié)果來選取:對題目下所有文章按照系統(tǒng)得分從低到高排序，選取跑題文章中得分最高的文章和它下一篇不跑題文章的得分的均值作為閾值。例如，一個題目下，跑題文章中得分最高的文章分?jǐn)?shù)為0.1，它下一篇文章為不跑題文章，得分0.2，那么閾值就等于(0.1+0.2)÷2=0.15。如果一個題目下沒有跑題作文，那么閾值就選取最低得分的一半。

4.2 選取范文

由于實驗所使用的題目數(shù)量較多，很難人工選取每個題目下的范文。因為這會耗費大量的時間和人力。為此我們采用了中心向量法自動選取范文。

首先，基于向量空間模型，將所有文章表示成向量。同樣，使用TF-IDF值作為權(quán)重。假設(shè)有M篇文章，詞表中有n個詞，每篇文章表示成如下向量形式:

其中，等號左側(cè)V(Dm)表示第m篇文章的向量形式，右側(cè)是其向量的具體表示，共n維，每一維都是相應(yīng)單詞的TF-IDF值。我們定義中間向量為所有向量相加后和的均值。使用式(6)計算。

(6)

如果把一個文章向量看成向量空間中的一個點，那么中心向量就是這些點的中心。離中心向量的距離最近的文章就可以作為范文。即:

(7)

4.3 實驗評價

我們利用準(zhǔn)確率(Precision)、召回率(Recall)和F1值來評價系統(tǒng)。將400個題目按照題目分為十份，做十倍交叉驗證。每次取其中的一份，共40個題目，作為測試集，其余九份作為訓(xùn)練集。通過訓(xùn)練集訓(xùn)練出閾值和發(fā)散度的回歸關(guān)系模型。測試時，首先計算出每個題目下的文章發(fā)散度，然后根據(jù)學(xué)習(xí)好的回歸模型求出閾值，找出系統(tǒng)評分小于閾值的文章，假設(shè)有N篇，其中K個是正確的判斷(即和人工判斷一致)，設(shè)這個題目下所有跑題文章數(shù)為M，則:

如果M=0,K=0，說明題目下沒有跑題文章，而且預(yù)測出結(jié)果也是沒有跑題文章，那么R=1。每一次測試都計算出測試集的準(zhǔn)確率，召回率和F1值。最后求十次實驗結(jié)果的平均。

4.4 系統(tǒng)實現(xiàn)

在本文提出的方法中，我們使用weka開源工具包*http://www.cs.waikato.ac.nz/ml/weka/學(xué)習(xí)跑題閾值和文章發(fā)散度的線性回歸模型參數(shù)。

除了本文提出的方法，本次試驗還實現(xiàn)了其他兩種閾值選取方法用于對比:

? 固定閾值法該方法來自于陳志鵬等[1]。我們使用訓(xùn)練集選取固定閾值。和其他方法一樣，首先用中心向量法找出每個題目下的范文。再使用詞擴展方法計算出每篇文章與范文的相似度，作為系統(tǒng)評分。接著選取固定閾值，我們構(gòu)造一個預(yù)測集用于選取閾值。首先按照系統(tǒng)評分對所有文章排序。我們按照得分從低到高選取文章作為預(yù)測集。一開始選取得分最低的文章加入到預(yù)測集中，然后選取得分第二低的文章加入……以此類推，得到一個個預(yù)測集。我們計算出預(yù)測集召回率為0.1,0.2,0.3…1.0時的F1值，F(xiàn)1值最大時說明這時候預(yù)測集判斷的效果最好。取此時預(yù)測集中跑題文章得分的最大值作為固定閾值。找到固定閾值后，對測試集中所有文章均使用此閾值進行判斷。

? 估計閾值法這個方法和本文提出的動態(tài)選取閾值的方法大體一致。唯一的不同點是訓(xùn)練時沒有通過人工標(biāo)注來獲得每個題目的閾值，而是采用了一種估計的方法判斷文章是否跑題。首先在訓(xùn)練集中隨機選取20個題目進行人工標(biāo)注，得到里面跑題文章的集合。計算出跑題文章所占的百分比，比如0.01。假設(shè)所有題目下跑題文章都占該比例，計算出題目下跑題文章的數(shù)量，以此估計出跑題的文章。例如,題目下有100篇文章，那么估計有100×0.01=1篇文章跑題，即認(rèn)為系統(tǒng)得分最低的一篇文章是跑題作文。用這個方法估計出訓(xùn)練集中每個題目下文章的閾值。然后和動態(tài)選取閾值的方法一樣，訓(xùn)練出閾值與發(fā)散度的關(guān)系曲線，使用測試集進行測試。這個方法的優(yōu)點是省時省力，不需要標(biāo)注太多題目。

4.5 實驗結(jié)果

我們首先用測試集中所有文章來進行測試，十倍交叉驗證，取平均值作為最后結(jié)果。表2是實驗結(jié)果，所有實驗中詞擴展的數(shù)目為3，即每個詞擴展三個詞。

表2 實驗結(jié)果(測試集中所有題目)

從結(jié)果中我們看到基于發(fā)散度的動態(tài)閾值法效果最好；固定閾值法效果次之，十次實驗中固定閾值平均在0.1附近；效果最不好的是估計閾值法。估計閾值法是動態(tài)閾值法的簡化版本，比較簡單，效果和我們的方法比有明顯差距。

測試集有一些題目沒有跑題作文,這部分題目占題目總數(shù)的31%。我們針對這個情況做了具體分析。如果考慮測試集中有跑題文章的題目，而不考慮沒有跑題文章的題目，實驗結(jié)果如表3所示。

表3 實驗結(jié)果(只考慮有跑題文章的題目)

從表3可以看出，只考慮有跑題文章的題目時，選取動態(tài)閾值的方法效果要比選取固定閾值的方法好?；诎l(fā)散度的動態(tài)閾值法比固定閾值法高出3個百分點，效果最好。固定閾值法和估計閾值法效果差不多。固定閾值的方法準(zhǔn)確率較高，估計閾值法召回率較高。

結(jié)合表2和表3還可以看出，固定閾值方法的變化幅度較大，F(xiàn)1值降低了四個百分點；而選取動態(tài)閾值的方法變化卻不是很大，這說明動態(tài)選取閾值的方法有著較好的穩(wěn)定性。在判斷有跑題文章的題目時，動態(tài)選取閾值的方法性能要明顯優(yōu)于固定選取閾值的方法。

最后，我們對實驗結(jié)果做進一步分析，研究題目發(fā)散性和F1值之間的關(guān)系。我們將所有題目按照文章的發(fā)散性值由低到高排序，分為五份，每份80個題目，第一份到第五份的平均發(fā)散性值依次增高。在發(fā)散性最強的1區(qū)間中，有31個題目沒有跑題文章，占區(qū)間總體的38%。計算每份的平均F1值。結(jié)果如圖5所示。

圖5 發(fā)散性值與F1值關(guān)系

從圖中可以看出，在面對發(fā)散性較強的題目時選取動態(tài)閾值的方法比固定閾值法的性能好。隨著題目發(fā)散性逐漸變?nèi)酰烙嬮撝捣ǖ腇1值明顯下降，其他兩種方法的F1值都不斷上升?？傮w來看，對于發(fā)散性較強和較弱的兩種題目，基于發(fā)散度動態(tài)選取閾值的方法要好于固定閾值的方法，而對于發(fā)散性一般的題目，兩種方法差距并不明顯。

綜上所述，基于發(fā)散度選取動態(tài)閾值的方法性能最好。處理有跑題作文的題目時，該方法明顯好于固定閾值的方法。面對發(fā)散性較強的題目時，該方法性能也優(yōu)于固定閾值的方法。

5 總結(jié)和展望

本文構(gòu)造了一個跑題檢測系統(tǒng)，相對于傳統(tǒng)選取固定閾值的方法，該方法的創(chuàng)新之處是基于文檔發(fā)散度動態(tài)地選取閾值，從而判斷文章是否跑題。經(jīng)過實驗比較，該方法在面對有跑題文章的題目時，尤其是發(fā)散性較強的題目時，性能明顯優(yōu)于固定選取閾值的方法。作文跑題檢測還有許多研究空間，比如如何更加準(zhǔn)確地對發(fā)散度較高的題目進行檢測等，還有許多方向可以進一步研究。

[1] 陳志鵬,陳文亮,朱慕華.利用詞的分布式表示改進作文跑題檢測[J].中文信息學(xué)報,2015,29(5):178-184.

[2] A.Huang.Similarity measures for text document clustering[C]//Proceedings of the New Zealand Computer Science Research Student Conference,2008:44-56.

[3] Kumar N.Approximate string matching algorithm[J].International Journal on Computer Science and Engineering,2010,2(3):641-644.

[4] Coelho T A S,Calado P P,Souza L V,et al.Image retrieval using multiple evidence ranking[J].IEEE Trans on Knowledge and Data Engineering,2004,16(4):408-417.

[5] Koy,Park J,Seo J.Improving text categorization using the importance of sentences[J].Information Processing and Management,2004,40(1):65-79.

[6] Theobald M,Siddharth J,SpotSigs:robust and efficient near duplicate detection in large web collection[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2008:563-570.

[7] Christopher D Manning,Prabhakar Raghavan,Hinrich Schütze,Introduction to Information Retrieval[M].Cambridge University Press,2008:83-84.

[8] Miller G．Wordnet:An On-line Lexical Database[J].International Journal of Lexicography,1990,3(4):235-244.

[9] 顏偉,荀恩東.基于WordNet的英語詞語相似度計算[C].計算機語言學(xué)研討會論文集.2004:89-97.

[10] 朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學(xué)報,2006,20(1):14-20.

[11] Page E B.Project Essay Grade:PEG[A].In Shermis M D &Burstein J C (eds.).Automated Essay Score:A Cross-Disciplinary Perspective[C]//Proceedings of the NJ:Lawrence Erlbaum Associates,2003:43-54.

[12] Landauer T K,Laham D,Foltz P W.Automated essay scoring and annotation of essays with the Intelligent Essay Assessor.Shermis M D,Burstein J C (eds.).Automated Essay Scoring:A Cross-Disciplinary Perspective[C]//Proceedings of the NJ:Lawrence Erlbaum Associates,2003:87-112.

[13] Burstein J.The E-rater Scoring Engine:Automated essay scoring with natural language processing.In Shermis M D,Burstein J C (eds.).Automated Essay Scoring :A Cross-Disciplinary Perspective[C]//Proceedings of the NJ:Lawrence Erlbaum Associates.2003 :113-121.

[14] A Louis,D Higgins.Off-topic essay detection using short prompt texts[C]//Proceedings of the NAACL HLT 2010 Fifth Workshop on Innovative Use of NLP for Building Educational Applications,Los Angeles,California,2010:92-95.

[15] 葛詩利,陳瀟瀟.文本聚類在大學(xué)英語作文自動評分中應(yīng)用[J].計算機工程與應(yīng)用,2009,45(6):114-121.

[16] Tomas Mikolov,Kai Chen,Greg Corrado,et al.Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of Workshop at ICLR,2013.

[17] Tomas Mikolov,Ilya Sutskever,Kai Chen,et al.Distributed Representations of Words and Phrases and their Compositionality[C]//Proceedings of NIPS,2013.

[18] Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig.Linguistic Regularities in Continuous Space Word Representations[C]//Proceedings of NAACL HLT,2013:746-751.

Off-topic Essays Detection Based on Document Divergence

CHEN Zhipeng1,2,CHEN Wenliang1,2

(1.School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China; 2.Collaborative Innovation Center of Novel Software Technology and Industrialization,Suzhou,Jiangsu 215006,China)

Off-topic detection is important in the automated essay scoring systems.Traditional methods compute similarity between essays and then compare the similarity with a fixed threshold to tell whether the essay is off-topic.In fact,the essay score is heavily dependent on the type of topic,e.g.the essay score for divergent topic ranges very different from that of non-divergent topic.This prevents fixed threshold to identify off-topic for all essays.This paper proposes a new method of off-topic detection based on divergence of essays.We study the divergence of essays,and establish the linear regression model between divergence and threshold.Our method is featured by a dynamic threshold for each topic.Experimental results show that our method is more effective than baseline systems.

off-topic detection; document divergence; document similarity

陳志鵬(1991—),碩士研究生,主要研究領(lǐng)域為自然語言處理。E-mail:chenzhipeng341@163.com陳文亮(1977—),博士,通信作者,主要研究領(lǐng)域為自然語言處理。E-mail:wlchen@suda.edu.cn

1003-0077(2017)01-0023-08

2016-09-10 定稿日期:2016-10-20

國家自然科學(xué)基金(61572338)

TP391

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于文檔發(fā)散度的作文跑題檢測

1 引言

2 相關(guān)工作

3 基于文檔發(fā)散度的作文跑題檢測

4 實驗

5 總結(jié)和展望