• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于局部密度的無(wú)監(jiān)督作文跑題檢測(cè)方法

      2017-03-12 08:47:44溫啟帆
      中文信息學(xué)報(bào) 2017年6期
      關(guān)鍵詞:切題跑題主題詞

      李 霞,溫啟帆

      (1. 廣東外語(yǔ)外貿(mào)大學(xué) 語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510006;2. 廣東外語(yǔ)外貿(mào)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣東 廣州 510006)

      0 引言

      對(duì)于機(jī)器評(píng)分系統(tǒng),當(dāng)應(yīng)試者通過(guò)拷貝、背誦、堆砌詞匯等方式輸入一篇與作文題目無(wú)關(guān)的“優(yōu)秀”作文時(shí),系統(tǒng)如果不做跑題檢測(cè),則可能會(huì)給該作文評(píng)出較高的分?jǐn)?shù),從而影響機(jī)器評(píng)分系統(tǒng)的公平性和準(zhǔn)確性。因此,作文跑題檢測(cè)對(duì)于作文自動(dòng)評(píng)分系統(tǒng)的公平性、魯棒性和準(zhǔn)確性具有重要的意義。

      作文跑題是指作文偏離題目所要求的主題并寫成其他無(wú)關(guān)的主題作文。例如題目要求學(xué)生就“全球淡水資源短缺問(wèn)題”寫一篇議論文,而所寫的作文卻是有關(guān)“對(duì)假冒偽劣商品的看法”或“對(duì)社會(huì)實(shí)踐的重要性的討論”等與淡水資源短缺無(wú)關(guān)的主題時(shí),則該作文將被認(rèn)定為跑題作文。目前作文跑題檢測(cè)方法主要包括有監(jiān)督作文跑題檢測(cè)方法和無(wú)監(jiān)督作文跑題檢測(cè)方法,前者需要事先對(duì)已經(jīng)標(biāo)注好的大規(guī)模跑題作文進(jìn)行訓(xùn)練,使用機(jī)器學(xué)習(xí)方法中的分類等方法實(shí)現(xiàn)跑題作文的檢測(cè)。然而,在很多實(shí)際教學(xué)場(chǎng)景中,當(dāng)英語(yǔ)教師給出一個(gè)新的作文題目時(shí),往往事先并沒(méi)有標(biāo)注好的跑題作文數(shù)據(jù),此時(shí)有監(jiān)督跑題檢測(cè)方法便無(wú)法適用。因此,針對(duì)事先沒(méi)有作文訓(xùn)練集,通過(guò)作文題目的描述信息來(lái)自動(dòng)檢測(cè)作文是否跑題的無(wú)監(jiān)督作文跑題檢測(cè)研究成為近年來(lái)有關(guān)作文跑題檢測(cè)的主要研究?jī)?nèi)容。

      作文跑題檢測(cè)的核心問(wèn)題是判斷作文的主題是否偏離作文題目給定的主題。通常,一篇作文為了論證作者的思想或觀點(diǎn),往往會(huì)通過(guò)幾個(gè)子觀點(diǎn)來(lái)論證其核心觀點(diǎn),因此一篇作文可能會(huì)包含多個(gè)子主題,而這些子主題中有些在語(yǔ)義層面與題目的相關(guān)度較低,這使得單純通過(guò)抽取特征詞來(lái)向量化作文和題目并基于此來(lái)計(jì)算相似度,有可能因?yàn)椴幌嚓P(guān)的子主題詞導(dǎo)致作文和題目相似度的不準(zhǔn)確,從而影響到跑題檢測(cè)的最終結(jié)果。

      基于以上問(wèn)題,本文提出一種不同于現(xiàn)有的作文內(nèi)容向量表示的方法,通過(guò)使用LDA主題生成模型對(duì)待測(cè)作文生成作文所包含的主題集合,并依據(jù)主題概率所占的權(quán)重按一定比例抽取作文主題中的關(guān)鍵詞組合作為作文最終的主題信息,并基于這些核心主題詞信息和作文題目信息之間的語(yǔ)義相似程度來(lái)判斷作文是否跑題,進(jìn)而避免了傳統(tǒng)方法中使用作文特征詞來(lái)判斷作文是否跑題時(shí)所引入的噪聲特征詞問(wèn)題。在此基礎(chǔ)上,本文還提出了有效的作文和題目的相似度計(jì)算方法和基于局部密度的閾值抽取方法,最終實(shí)現(xiàn)了一種無(wú)需作文訓(xùn)練集和主題無(wú)關(guān)的無(wú)監(jiān)督作文跑題檢測(cè)系統(tǒng)。

      1 相關(guān)工作

      現(xiàn)有研究中,Higgins等[1-3]以tf*idf抽取作文的內(nèi)容詞,并將作文和題目表示為包含作文內(nèi)容的空間向量,使用余弦相似度來(lái)計(jì)算作文和題目之間的相關(guān)程度。與傳統(tǒng)方法所不同的是,Higgins等在工作中引入了參考題目,即與作文的目標(biāo)題目不同的題目集合,通過(guò)計(jì)算待測(cè)作文與目標(biāo)題目及給定參考題目之間的相似度,并對(duì)這些相似度進(jìn)行排序,判斷待測(cè)作文與目標(biāo)題目之間的相似度占整個(gè)排序集合中的排名比例來(lái)判斷待測(cè)作文是否跑題,例如,認(rèn)為與目標(biāo)題目相似度排名在前10%時(shí)認(rèn)為是切題作文,否則認(rèn)為是跑題作文。Persing和Ng[4]基于作文的豐富特征和人工事先標(biāo)注好的與主題相關(guān)的句子分值,通過(guò)建立線性回歸方程來(lái)構(gòu)建作文與主題的一致性分值計(jì)算方法。該方法由于需要針對(duì)不同的作文主題訓(xùn)練得到不同的評(píng)分模型,屬于有監(jiān)督的主題一致性計(jì)算方法。Cummins等[5]分別使用分布式語(yǔ)義和信息檢索中的偽相關(guān)反饋方法對(duì)作文題目進(jìn)行擴(kuò)充,提高了作文主題相關(guān)性的計(jì)算結(jié)果,同時(shí)系統(tǒng)還將該主題相關(guān)性模型納入到一個(gè)有監(jiān)督的評(píng)分系統(tǒng)中,結(jié)果表明該方法可以有效提升系統(tǒng)對(duì)作文的綜合評(píng)分性能。Rei和Cummins[6]在句子級(jí)別的主題相關(guān)性判別領(lǐng)域做了一定的研究,其使用Word2Vec詞向量按詞語(yǔ)權(quán)重疊加的方式表示句子向量,結(jié)合tf*idf特征權(quán)值,以余弦相似度計(jì)算句子和主題的相關(guān)程度,實(shí)驗(yàn)結(jié)果表明該方法具有較強(qiáng)的魯棒性。

      陳志鵬等[7]將文本中的單詞采用詞向量表示,并基于分布式表示擴(kuò)展與其語(yǔ)義上相近的詞,基于此提升作文和題目的相似度計(jì)算。在其后續(xù)研究中[8]提出了一種基于文檔發(fā)散度的概念,通過(guò)大規(guī)模作文回歸模型訓(xùn)練得到發(fā)散度與跑題閾值的關(guān)系模型,從而實(shí)現(xiàn)對(duì)不同題目動(dòng)態(tài)選取不同跑題閾值的方法。該方法需要事先具有大規(guī)模來(lái)自不同主題下已經(jīng)標(biāo)注好的作文訓(xùn)練數(shù)據(jù),通過(guò)訓(xùn)練才能得到回歸參數(shù),所以本質(zhì)上還是屬于有監(jiān)督的作文跑題檢測(cè)方法。李曉亞[9]針對(duì)不同的應(yīng)用場(chǎng)景分別提出了幾個(gè)跑題檢測(cè)模型,其中基于題目排序的跑題檢測(cè)方法屬于無(wú)監(jiān)督跑題檢測(cè)方法,該方法延續(xù)使用了空間向量模型方法并基于WordNet進(jìn)行了詞擴(kuò)展來(lái)提升作文和題目的相似度比較。范弘屹等[10-11]也分別研究了基于HowNet或WordNet來(lái)計(jì)算和提升詞語(yǔ)的語(yǔ)義相似度問(wèn)題。梁茂成等[12-13]的工作中也涉及了作文內(nèi)容分析和相似度的計(jì)算,但均需要事先標(biāo)注好的作文訓(xùn)練語(yǔ)料,并采用回歸或分類方法實(shí)現(xiàn)作文的特征抽取和向量表示等工作,屬于有監(jiān)督的方法。

      已有的無(wú)監(jiān)督作文跑題檢測(cè)方法從不同層面改進(jìn)了作文與題目的語(yǔ)義相似度計(jì)算,進(jìn)而提升作文跑題檢測(cè)的結(jié)果,但是這些方法是將作文表示為內(nèi)容向量,并采用tf*idf特征詞抽取方法來(lái)表示作文,依然存在非主題詞被選入所導(dǎo)致的噪聲問(wèn)題。同時(shí),已有的無(wú)監(jiān)督方法中Higgins明確給出了作文跑題的閾值判斷方法,該方法通過(guò)判斷作文與參考題目和目標(biāo)題目之間的相似度差異來(lái)檢測(cè)作文是否為跑題作文。

      針對(duì)現(xiàn)有方法的不足,本文提出一種基于作文主題詞抽取和局部密度閾值選擇的無(wú)監(jiān)督作文跑題檢測(cè)方法,主要貢獻(xiàn)包括: ①基于LDA主題生成模型預(yù)測(cè)待測(cè)作文的主題分布,并根據(jù)主題分布概率抽取更為準(zhǔn)確的作文主題詞信息;②提出面向作文跑題檢測(cè)的有效相似度計(jì)算方法;③根據(jù)作文切題度分布密度實(shí)現(xiàn)對(duì)跑題閾值的自動(dòng)抽取。

      實(shí)驗(yàn)結(jié)果表明本文提出的作文跑題檢測(cè)方法能有效識(shí)別跑題作文。

      2 基于局部密度的無(wú)監(jiān)督作文跑題檢測(cè)方法

      2.1 作文關(guān)鍵詞抽取

      通常,一篇作文為了論證作者的思想或觀點(diǎn),往往會(huì)通過(guò)幾個(gè)子觀點(diǎn)來(lái)論證其核心觀點(diǎn),因此一篇作文可能會(huì)包含多個(gè)子主題,例如一篇描寫關(guān)于“大學(xué)生活”的作文,作者可能從學(xué)習(xí)和娛樂(lè)兩個(gè)方面闡述其大學(xué)生活,并在作文中著重于學(xué)習(xí)方面的描寫。因此,針對(duì)跑題檢測(cè),既要抽取出作文中有關(guān)學(xué)習(xí)方法的子主題,也要抽取其有關(guān)娛樂(lè)方面的子主題,并能夠依據(jù)作文的側(cè)重點(diǎn)對(duì)不同主題分別對(duì)待?;谶@樣一個(gè)思想,本文提出使用LDA主題生成模型[14]對(duì)作文進(jìn)行主題抽取,利用LDA主題模型去“理解”作文的主題分布,并根據(jù)各個(gè)主題分布概率作為權(quán)重在各個(gè)主題下提取不同數(shù)量的關(guān)鍵詞。

      表1分別給出了GlobalShortageofFreshWater、TheEffectsComputershaveonPeople和TheFeaturesoftheSettingAffecttheCyclist三個(gè)題目作文中某一篇待測(cè)作文提取的關(guān)鍵詞及其概率值,表中的主題1~主題5是按照主題概率排序后的前5個(gè)主題,參數(shù)中設(shè)置的抽取主題詞個(gè)數(shù)為h=30。從表1可以看出,在作文的不同子主題下抽取出了不同數(shù)量的作文主題詞,從而能更為真實(shí)地反映作文的內(nèi)容主題。

      2.2 作文題目主題詞擴(kuò)展

      詞的分布式表示是指將詞表中的詞映射為一個(gè)稠密的、低維的實(shí)值向量,每一維表示詞的一個(gè)潛在特征,可以反映詞與詞之間的語(yǔ)義關(guān)系,通過(guò)單詞的詞向量形式可以找出與其語(yǔ)義相近的詞。Word2vec[15-16]是Google在2013年開源的詞向量工具包,可以實(shí)現(xiàn)將詞語(yǔ)表示成具有語(yǔ)義的詞向量,通過(guò)詞向量的余弦相似度可以測(cè)量出詞語(yǔ)間的語(yǔ)義距離,從而用于獲取語(yǔ)義相近的詞語(yǔ)。

      表1 本文方法在3個(gè)主題中各選取一篇待測(cè)作文抽取的特征詞列表

      續(xù)表

      Prompt#3 TheFeaturesoftheSettingAffecttheCyclist主題1主題2主題3主題4主題5makesystemheatstrokewatercycliststrokeringsshirt0.00970.00210.001020.000850.000550.000550.0004640.000453drinkingshowsextremelackeasedhedehydrated0.000610.000540.000230.000210.000140.000140.00009driedcircledgrowingheatendsstory0.019790.002090.001320.001010.000240.00017yosemitelosefeaturesaffectedheatlot0.0003590.0001570.0001430.0001430.0001430.000132makingpastleftdanger0.0001960.0004910.0002610.0002

      本文首先對(duì)題目進(jìn)行分詞和去停用詞等預(yù)處理,假定題目預(yù)處理后的特征詞列表為T=(t1,t2,...,tn),對(duì)該列表中的每個(gè)特征詞ti,首先基于訓(xùn)練好的分布式詞向量模型表示該特征詞為一個(gè)向量,然后計(jì)算出和特征詞ti在分布式向量上余弦相似度較高的單詞作為其擴(kuò)展詞。本文中,我們對(duì)題目的每一個(gè)特征詞選取了前10個(gè)相似度最大的詞作為擴(kuò)展詞,分布式表示詞向量訓(xùn)練和采用的是50維詞向量模型。

      2.3 作文切題度的定義和計(jì)算

      針對(duì)本文的研究,我們將作文切題度定義為作文與題目之間在主題內(nèi)容上的相似程度,通過(guò)判斷作文與題目之間的切題度來(lái)劃分該作文屬于切題作文還是跑題作文。首先通過(guò)2.1節(jié)對(duì)待測(cè)作文進(jìn)行主題詞抽取,然后使用2.2節(jié)介紹的方法對(duì)作文題目基于語(yǔ)義上下文信息進(jìn)行擴(kuò)展,然后計(jì)算兩者之間的相似度。

      考慮到作文的不同子主題具有不同的重要程度,本文的相似度計(jì)算方法是針對(duì)題目擴(kuò)展后的每個(gè)主題詞,分別計(jì)算其與作文每個(gè)主題詞的相似度,并使用最大相似度值作為當(dāng)前主題詞與作文主題詞之間的相似度,以此類推計(jì)算下一個(gè)題目主題詞與作文主題詞的最大相似度,最后以題目主題詞的最大相似度的平均值作為作文的最終切題度分值,詳細(xì)分值計(jì)算如式(1)所示。

      (1)

      其中essay表示待測(cè)作文文本,(w1,w2,...,wm)為從作文essay中抽取出的主題詞,prompt為作文的題目,(t1,t2,...,tn)為作文題目經(jīng)過(guò)擴(kuò)展后的全部主題詞。sim(ti,wj)為題目主題詞ti和作文主題詞wj轉(zhuǎn)換為詞向量后的余弦相似度,N為題目擴(kuò)展后的特征詞的總數(shù)。

      2.4 基于局部密度的閾值選擇

      跑題檢測(cè)的最終目標(biāo)是將待測(cè)作文劃分成跑題和切題兩個(gè)類別,理論上如果能夠找到某一個(gè)維度或多個(gè)維度指標(biāo),使得切題作文和跑題作文各自聚集成獨(dú)立的兩個(gè)簇,則可以比較好地找到兩個(gè)簇的邊界閾值,從而劃分作文為切題簇或跑題簇,達(dá)到跑題檢測(cè)的目的。我們發(fā)現(xiàn),雖然跑題作文本身的內(nèi)容主題差異較大,但在實(shí)際作文數(shù)據(jù)中,由于跑題作文與作文題目無(wú)關(guān),內(nèi)容差異大,因此跑題作文之間切題度的差值會(huì)大于切題作文之間切題度的差值,因此我們認(rèn)為作文的局部密度可以有效劃分開跑題作文和切題作文。基于此,本文提出了一種基于局部密度的閾值選擇策略,具體算法描述如下:

      基于局部密度的閾值選擇算法

      3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      為了驗(yàn)證本文所提方法的有效性,分別選取了以英語(yǔ)為母語(yǔ)的學(xué)習(xí)者和以英語(yǔ)為二語(yǔ)的中國(guó)英語(yǔ)學(xué)習(xí)者所寫的兩個(gè)不同類型的作文語(yǔ)料庫(kù),選取了其中的八個(gè)作文主題下共9 381篇作文進(jìn)行測(cè)試,文中將這八個(gè)作文主題分別標(biāo)號(hào)Prompt#1~Prompt#8,其中Prompt#1~Prompt#4來(lái)自Kaggle的作文評(píng)分比賽數(shù)據(jù)集*https://www.kaggle.com/c/asap-aes/data。,Prompt#5~ Prompt#8來(lái)自中國(guó)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)CLEC作文數(shù)據(jù)集[17],CLEC(Chinese learner English corpus)是由桂詩(shī)春和楊慧中老師主編的中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù),該語(yǔ)料庫(kù)包含了大學(xué)英語(yǔ)四級(jí)和大學(xué)英語(yǔ)六級(jí)等不同級(jí)別考試的作文,并對(duì)所有作文進(jìn)行了手工錯(cuò)誤標(biāo)注和分?jǐn)?shù)歸類,實(shí)驗(yàn)中,我們對(duì)所測(cè)試的作文的錯(cuò)誤標(biāo)注信息進(jìn)行了清除,使其盡量保持原始作文狀態(tài)。

      數(shù)據(jù)集中的跑題作文主要包括兩個(gè)來(lái)源,一是從原始作文集中抽取并經(jīng)過(guò)人工判定為跑題的低分作文,另一部分是從其他題目下隨機(jī)抽取的不同主題的作文。其中,Prompt #1從原始作文集中提取最低分為0分并經(jīng)人工判斷為跑題的作文28篇,從Kaggle數(shù)據(jù)集中其他三個(gè)不同題目下分別隨機(jī)抽取100篇,共300篇,合計(jì)為328篇跑題作文。Prompt #2從最低評(píng)分為5分的作文中人工判斷篩選出跑題作文31篇,從Kaggle數(shù)據(jù)集其他三個(gè)不同題目下分別隨機(jī)抽取90篇,共270篇,合計(jì)為301篇跑題作文。Prompt #3從原始作文集中提取最低分為0分并經(jīng)過(guò)人工判斷為跑題的作文三篇,從Kaggle數(shù)據(jù)集其他三個(gè)不同題目下分別隨機(jī)抽取91篇,共273篇,合計(jì)為276篇跑題作文。Prompt #4從最低評(píng)分為1分的作文中人工判斷篩選出跑題作文43篇,從Kaggle數(shù)據(jù)集其他三個(gè)不同題目下分別隨機(jī)抽取50篇,共150,合計(jì)193篇跑題作文。Prompt #5、Prompt #6、Prompt #7和Prompt #8分別從CLEC語(yǔ)料庫(kù)其他四個(gè)不同題目中隨機(jī)抽取44篇、50篇、20篇和30篇跑題作文。整個(gè)實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)描述如表2所示。

      3.2 評(píng)價(jià)指標(biāo)

      采用信息檢索中常用的檢索正確率P(precision)、召回率R(recall)和F1度量值作為本文算法的評(píng)測(cè)指標(biāo)。

      表2 本文作文數(shù)據(jù)集描述

      同時(shí)也參考了Higgins[1-3]中使用的FP(False Positive)和FN(False Negative)兩個(gè)指標(biāo)作為輔助評(píng)價(jià)指標(biāo),相應(yīng)的五個(gè)指標(biāo)計(jì)算公式描述如下:

      (2)

      (3)

      (4)

      (5)

      (6)

      3.3 實(shí)驗(yàn)參數(shù)和比較的基準(zhǔn)方法

      將傳統(tǒng)基于作文內(nèi)容向量表示的方法作為本文的基準(zhǔn)比較方法(文中以tf*idf方法來(lái)命名),同時(shí)參考了Higgins[2]工作中提到的使用拼寫糾錯(cuò)和詞形還原等預(yù)處理步驟,分別使用這兩個(gè)預(yù)處理步驟加入到本文方法進(jìn)行比較。實(shí)驗(yàn)還對(duì)Higgins提到的基于參考作文題目的閾值劃分方法與本文的局部密度閾值劃分方法進(jìn)行了比較和分析。

      實(shí)驗(yàn)中LDA主題-詞概率分布矩陣所使用的訓(xùn)練語(yǔ)料采用了路透社語(yǔ)料庫(kù)10 788個(gè)新聞文檔共計(jì)130萬(wàn)字和90個(gè)主題,分布式詞向量采用11GB大小的維基百科數(shù)據(jù)源進(jìn)行訓(xùn)練,LDA關(guān)鍵詞提取方法中參數(shù)k選取為5,提取的關(guān)鍵詞數(shù)量為30,超參數(shù)α為0.1,超參數(shù)β為0.1,最大迭代次數(shù)為5 000。

      3.4 實(shí)驗(yàn)結(jié)果與分析

      表3 tf*idf方法和本文方法在八個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比

      首先我們對(duì)傳統(tǒng)基于作文內(nèi)容向量表示的方法和本文方法進(jìn)行了比較, 實(shí)驗(yàn)結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明,本文方法相比傳統(tǒng)的基于tf*idf權(quán)重的向量表示方法在八個(gè)作文數(shù)據(jù)集上F1值均有不同程度的提高,其中tf*idf方法最好的結(jié)果在數(shù)據(jù)集Prompt #3上,在該數(shù)據(jù)集上tf*idf方法的精度、召回率和F1度量值分別為87.98%、83.15%和85.49%,而本文方法在該數(shù)據(jù)集上的精度、召回率和F1度量值則分別為94.54%、95.23%和94.89%,分別提升了6.56%、12.08%和9.4%。在數(shù)據(jù)集Prompt #5上,tf*idf方法的F1度量值為81.31%,而本文方法在該數(shù)據(jù)集上的F1度量值則為95.05%,提升了13.74%。在所有八個(gè)作文數(shù)據(jù)集上,兩種方法整體的平均F1度量值分別為71.77%和78.03%,提升了6.26%,整體效果提升顯著。

      為了進(jìn)一步測(cè)試本文的方法,我們將為本文方法加入拼寫糾錯(cuò)和詞形還原兩個(gè)預(yù)處理方法,并在八個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如表4所示。從表4可以看出,經(jīng)過(guò)拼寫檢查預(yù)處理后,本文方法整體結(jié)果確實(shí)有所提升,在8個(gè)數(shù)據(jù)集上本文方法的平均準(zhǔn)確率、平均召回率和平均F1值相比預(yù)處理前的結(jié)果分別提升了1.96%、1.17%和1.61%,同時(shí)本文方法相比傳統(tǒng)tf*idf方法,經(jīng)過(guò)拼寫檢查預(yù)處理后,平均F1值提升7.87%。表4還表明,詞形還原對(duì)改善跑題檢測(cè)的最終實(shí)驗(yàn)結(jié)果沒(méi)有太大提升。

      表4 各方法在八個(gè)數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對(duì)比

      我們還對(duì)另外兩個(gè)指標(biāo)FN(False Negative)和FP(False Positive)值進(jìn)行了實(shí)驗(yàn)對(duì)比,由于本文的數(shù)據(jù)集來(lái)源于兩個(gè)類別,一個(gè)是以英語(yǔ)為母語(yǔ)學(xué)習(xí)者的作文數(shù)據(jù)集,作文數(shù)量較多,平均每個(gè)數(shù)據(jù)集在2 000篇以上,另一個(gè)是以英語(yǔ)為二語(yǔ)的中國(guó)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù),作文數(shù)量較少,平均為300篇左右。我們分別計(jì)算母語(yǔ)學(xué)習(xí)者和二語(yǔ)學(xué)習(xí)者數(shù)據(jù)集上幾個(gè)跑題方法的效果,結(jié)果如表5所示。從表5可以看出,本文方法相比基準(zhǔn)tf*idf方法在平均F1值和平均FN值、平均FP值上,均有所提升。同時(shí)從表5還可以看出,增加拼寫檢錯(cuò)預(yù)處理后,在二語(yǔ)學(xué)習(xí)者的數(shù)據(jù)集上本文方法平均F1值提升了2.04%,而在母語(yǔ)學(xué)習(xí)者數(shù)據(jù)集上提升了1.29%,這說(shuō)明,增加拼寫檢查后,雖然兩個(gè)指標(biāo)都有所提升,但是針對(duì)二語(yǔ)學(xué)習(xí)者的作文數(shù)據(jù),由于作文的語(yǔ)法錯(cuò)誤相對(duì)比母語(yǔ)學(xué)習(xí)者多,因此經(jīng)過(guò)糾錯(cuò)后,整體提升的效果更大。

      表5 各方法在不同語(yǔ)言學(xué)習(xí)者作文上的平均FN和平均FP值的實(shí)驗(yàn)結(jié)果對(duì)比

      為了能夠更為清晰地比較本文的局部密度劃分和Higgins提到的基于參考作文題目的閾值劃分方法的差異,本文對(duì)所有作文數(shù)據(jù)均采用本文的主題詞抽取和題目擴(kuò)展,并基于本文的相似度計(jì)算方法,但在劃分跑題和切題作文上,分別采用本文的局部密度方法和Higgins的基于參考作文題目的方法,其中基于參考作文題目的方法以排序后是否排在前25%作為判斷是否跑題的標(biāo)準(zhǔn)。實(shí)驗(yàn)中參考題目選取了來(lái)自高考、雅思和中學(xué)作文三個(gè)領(lǐng)域,各取三個(gè)參考題目共九個(gè)參考題目,這九個(gè)參考作文題目的詳細(xì)描述如表6所示,實(shí)驗(yàn)比較結(jié)果如表7所示。實(shí)驗(yàn)結(jié)果表明,本文提出的基于局部密度的閾值劃分方法優(yōu)于基于參考題目的方法,在八個(gè)作文數(shù)據(jù)集上的平均F1值要高出6.52%。同時(shí)我們發(fā)現(xiàn),Higgins的基于參考題目的方法總體召回率較低,我們認(rèn)為這是因?yàn)榕茴}作文的主題具有不確定性,對(duì)不同的參考題目,其相關(guān)度排名有可能高,也有可能低,這是導(dǎo)致召回率較低的原因。

      表6 參考題目描述

      表7 基于參考題目和本文局部密度劃分閾值實(shí)驗(yàn)結(jié)果對(duì)比

      4 總結(jié)

      本文提出了一種基于作文主題詞抽取和基于局部密度閾值選擇的無(wú)監(jiān)督作文跑題檢測(cè)方法,該方法的創(chuàng)新之處在于根據(jù)待測(cè)作文的主題分布提取作文的主題關(guān)鍵詞,并研究出一種基于作文切題度局部密度的閾值抽取方法動(dòng)態(tài)選取跑題閾值,該方法無(wú)需事先標(biāo)注好的作文訓(xùn)練集,并可以適應(yīng)不同的作文主題,具有很好的通用性。在多個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法跑題檢測(cè)性能優(yōu)于傳統(tǒng)的tf*idf向量表示方法。

      實(shí)驗(yàn)中我們發(fā)現(xiàn)在部分?jǐn)?shù)據(jù)集上效果不佳,如在數(shù)據(jù)集Prompt #1上的F1度量值只有64.91%,我們分別計(jì)算八個(gè)作文數(shù)據(jù)集的作文切題度方差,發(fā)現(xiàn)Prompt#1的作文切題度方差在所有數(shù)據(jù)集中值最大,為0.015,其他七個(gè)作文數(shù)據(jù)集的切題度分別為0.008、0.010、0.001、0.005、0.006、0.008和0.006,這說(shuō)明Prompt #1的作文主題發(fā)散性較大。同時(shí)本文在原始作文數(shù)據(jù)集中抽取離題作文時(shí)是針對(duì)分?jǐn)?shù)最低的作文進(jìn)行人工判斷和抽取的,有可能那些分?jǐn)?shù)不為0分或者分?jǐn)?shù)不是最低分的作文也是離題作文,這也可能導(dǎo)致本文算法的結(jié)果降低。針對(duì)發(fā)散性很高的作文集合,如何更有效地采用無(wú)監(jiān)督閾值抽取方法并檢測(cè)跑題作文是未來(lái)本文進(jìn)一步需要研究和改進(jìn)的方向。

      [1] Burstein J, Higgins D. Advanced capabilities for evaluating student writing: Detecting off-topic essays without topic-specific training[C]//Proceedings of the 12th International Conference on Artificial Intelligence in Education, Nether Austerdam, July 2005: 112-119.

      [2] Higgins D, Burstein J, Attali Y. Identifying off-topic student essays without topic-specific training data[J]. Natural Language Engineering, 2006, 12(02): 145-159.

      [3] Louis A, Higgins D. Off-topic essay detection using short prompt texts[C]//Proceedings of NAACL HLT 2010 Fifth Workshop on Innovative Use of NLP for Building Educational Applications, 2010: 92-95.

      [4] Persing I, Ng V. Modeling prompt adherence in student essays[C]//Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics (ACL 2014), MD: Baltimore, June 2014: 1534-1543.

      [5] Cummins R, Yannakoudakis H, Briscoe T. Unsupervised modeling of topical relevance in L2 learner text[C]//Proceedings of 11th Workshop on Innovative Use of NLP for Building Educational Applications, California: San Diego, June 2016: 95-104.

      [6] Rei M, Cummins R. Sentence similarity measures for fine-grained estimation of topical relevance in learner essays[C]//Proceedings of the arXiv, June 2016: 1606.03144.

      [7] 陳志鵬,陳文亮,朱幕華. 利用詞的分布式表示改進(jìn)作文跑題檢測(cè)[J].中文信息學(xué)報(bào), 2015,29(5),PP: 178-184.

      [8] 陳志鵬,陳文亮. 基于文檔發(fā)散度的作文跑題檢測(cè)[J]. 中文信息學(xué)報(bào),2017, 31(1): 23-30.

      [9] 李曉亞,中國(guó)大學(xué)生英語(yǔ)作文跑題檢測(cè)系統(tǒng)的研究與設(shè)計(jì)[D]. 合肥: 中國(guó)科學(xué)技術(shù)大學(xué)碩士學(xué)位論文, 2016.

      [10] 范弘屹,張仰森. 一種基于HowNet的詞語(yǔ)語(yǔ)義相似度計(jì)算方法[J].北京信息科技大學(xué)學(xué)報(bào),2014, 26(4):42-45.

      [11] 顏偉. 基于WordNet的英語(yǔ)詞語(yǔ)相似度計(jì)算[C]. 全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì),2004.

      [12] 梁茂成. 中國(guó)學(xué)生英語(yǔ)作文自動(dòng)評(píng)分模型構(gòu)建[M], 北京: 外語(yǔ)教學(xué)與研究出版社,2011.

      [13] 李霞,劉建達(dá). 適用于中國(guó)外語(yǔ)學(xué)習(xí)者的英文作文全自動(dòng)集成評(píng)分算法[J].中文信息學(xué)報(bào), 2013, 27(5):100-106.

      [14] David M B, Andrewy N, Michael I J. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3: 993-1022.

      [15] Tomas Mikolov, Kai Chen, Greg Corrado,et al. Efficient estimation of word representations in vector space[C]//Proceedings of the arXiv, 2013:1301.3781.

      [16] Tomas Mikolov, Ilya Sutskever, Kai Chen, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the arXiv, 2013: 1310.4546.

      [17] 桂詩(shī)春,楊惠中. 中國(guó)英語(yǔ)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)[M]. 上海: 上海外語(yǔ)教育出版社,2003.

      猜你喜歡
      切題跑題主題詞
      作文跑題不可怕
      李強(qiáng)平面設(shè)計(jì)作品
      我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
      我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
      2014年第16卷第1~4期主題詞索引
      《疑難病雜志》2014年第13卷主題詞索引
      我不會(huì)寫作文
      老爸說(shuō)話愛(ài)“跑題”
      名勝古跡楹聯(lián)切題芻議
      應(yīng)征聯(lián)切題再議——“翼彩五臺(tái)山”征聯(lián)評(píng)選芻議
      宣恩县| 镇巴县| 昌邑市| 右玉县| 镇平县| 乌拉特中旗| 奉贤区| 米易县| 伽师县| 龙川县| 会同县| 古丈县| 霍林郭勒市| 施甸县| 保定市| 香港 | 滨州市| 张家港市| 图木舒克市| 石家庄市| 武强县| 陆良县| 静乐县| 肥城市| 会理县| 遵义县| 永丰县| 平顶山市| 定陶县| 高邮市| 锡林浩特市| 舒城县| 陈巴尔虎旗| 利辛县| 康定县| 四子王旗| 久治县| 宣城市| 华阴市| 广宗县| 常德市|