99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<tr id="u8u4u"></tr>

<noscript id="u8u4u"><optgroup id="u8u4u"></optgroup></noscript>

?

基于語(yǔ)義相似度的主觀題評(píng)分算法研究

2012-12-26 06:44:22張立巖張世民

河北科技大學(xué)學(xué)報(bào) 2012年3期

關(guān)鍵詞：主觀題分詞特征向量

張立巖，張世民

（河北科技大學(xué)信息科學(xué)與工程學(xué)院，河北石家莊 050018）

基于語(yǔ)義相似度的主觀題評(píng)分算法研究

張立巖，張世民

（河北科技大學(xué)信息科學(xué)與工程學(xué)院，河北石家莊 050018）

主觀題閱卷系統(tǒng)在目前較受人們的關(guān)注。主觀題評(píng)分原則常見的是對(duì)比試卷答案與參考答案的相似程度，進(jìn)而得出分?jǐn)?shù)。利用自然語(yǔ)言處理分詞技術(shù)將文本切分為詞的組合，然后通過改進(jìn)語(yǔ)義相似度算法，計(jì)算句子相似度，進(jìn)而得到試卷答案和參考答案的相似程度，給出分?jǐn)?shù)。

主觀題；分詞；語(yǔ)義相似度

考試在任何教育體系中都是不可缺少的重要環(huán)節(jié)，是考察、評(píng)估學(xué)生能否真正掌握相應(yīng)知識(shí)、技術(shù)的較為有效的檢驗(yàn)手段。在考試中主觀題占有相當(dāng)大的比例。主觀題的分值評(píng)定較直觀、全面地反映了學(xué)生掌握知識(shí)的程度，并且對(duì)于考試分?jǐn)?shù)具有重要的影響。但人工閱卷對(duì)主觀題評(píng)閱受到多種因素干擾，并不能高效、準(zhǔn)確地完成。研究一種智能主觀題閱卷系統(tǒng)取代人工閱卷成為教育系統(tǒng)的一個(gè)重要任務(wù)。筆者研究的主觀題閱卷系統(tǒng)主要解決主觀性很強(qiáng)的題目（例如論述題、簡(jiǎn)答題等）的評(píng)分算法問題。

1 主觀題評(píng)分算法相關(guān)理論

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向［1］。主觀題評(píng)分主要涉及中文分詞理論和語(yǔ)義相似度計(jì)算問題。

1.1 中文分詞理論

中文分詞理論主要研究漢字中詞與詞的分隔。中文分詞包括3種方法：1）基于字符串匹配的分詞；2）基于理解的分詞；3）基于統(tǒng)計(jì)的分詞。

根據(jù)系統(tǒng)的要求和特點(diǎn)采用基于字符串匹配分詞方法。它是按照一定的策略將待分析的漢字串與一個(gè)充分大的機(jī)器詞典中的詞條進(jìn)行匹配，若在詞典中找到某個(gè)字符串，則匹配成功（識(shí)別出1個(gè)詞）［2］。考慮到逆向最大匹配法分詞較為準(zhǔn)確，所以系統(tǒng)采用逆向最大匹配法。

1.2 中文文本相似度

文本相似度是表示2個(gè)或多個(gè)文本之間匹配程度的一個(gè)度量參數(shù)，相似度越大，說(shuō)明文本相似程度越高，反之越低。采用基于文本表面特征的相似度計(jì)算方法不需要大規(guī)模語(yǔ)料庫(kù)的支持，也不需要長(zhǎng)時(shí)間的訓(xùn)練，準(zhǔn)確率較高。

對(duì)于文本A和文本B的相似度通常由詞形相似度決定，詞形相似度的計(jì)算公式［3］如式（1）所示。

其中number（A），number（B）代表文本A和B中分詞的個(gè)數(shù)，Sim（A，B）代表文本A，B的相似度，但僅僅這樣計(jì)算，精確度不高。需對(duì)算法進(jìn)行改進(jìn)。

1）將文檔分成若干詞條，由T＝｛T1，T2，…，Tn｝組成。計(jì)算詞語(yǔ)Ti在文本中的權(quán)值Wi，加入評(píng)估參數(shù)δ。如果Wi≥δ，則詞語(yǔ)Ti被提取出來(lái)并加入特征向量中，否則，不加入。評(píng)估參數(shù)δ決定文本特征向量維度的閾值，根據(jù)多次實(shí)驗(yàn)的數(shù)據(jù)獲得。這樣可降低計(jì)算效率，降低計(jì)算復(fù)雜性。

2）對(duì)于文本A和文本B，通過中文分詞、特征向量提取和降維的步驟后得到詞條向量分別為TA＝｛A1，A2，…，An｝，TB＝｛B1，B2，…，Bn｝，由式（1）可得到矩陣M（n，n）＝｛｜Sij｜，即向量TA中第i個(gè)詞與向量TB中第j個(gè)詞的相似度｝。引入評(píng)估參數(shù)δ，如果相似度矩陣中的元素Sij≥δ，2個(gè)詞語(yǔ)相似度較高，這個(gè)元素就被保留下來(lái)用于在算法中構(gòu)建最長(zhǎng)公共子序列矩陣中的一個(gè)判斷條件。評(píng)估參數(shù)δ是決定相似度高低的閾值，根據(jù)多次實(shí)驗(yàn)的數(shù)據(jù)獲得。

3）利用2個(gè)文本得出的詞條向量以及上述判斷語(yǔ)義相似的條件構(gòu)建2個(gè)文本的公共子序列矩陣，從而求2個(gè)文本的最長(zhǎng)公共子序列長(zhǎng)度，最后用求得的長(zhǎng)度之比計(jì)算2個(gè)文本的相似度。

2 算法實(shí)現(xiàn)

基于語(yǔ)義相似度的中文文本相似度算法流程。

步驟1：讀取2個(gè)需要比較的文本A，B，并對(duì)文本A，B進(jìn)行分詞。

步驟2：文本包含的詞為T＝｛T1，T2，…，Ti，…，Tn｝，計(jì)算Ti在文本中的權(quán)重Wi，得到權(quán)重向量W＝｛W1，W2，…，Wi，…，Wn｝，其中Wi＝n×log（M／m）。n為Ti出現(xiàn)的次數(shù)，m為其他文本中Ti出現(xiàn)的次數(shù)，M為文本的總數(shù)。

步驟3：依據(jù)上節(jié)算法2）對(duì)特征向量進(jìn)行提取和降維，并根據(jù)式（1）生成降維后的相似度矩陣Sij。

步驟4：將2個(gè)特征向量存入數(shù)組arr（A）和arr（B）中，計(jì)算2個(gè)特征向量的長(zhǎng)度L（A）和L（B）。

步驟5：構(gòu)建最長(zhǎng)公共子序列矩陣C［L（A）×L（B）］，矩陣大小為L(zhǎng)（A）×L（B）。

3 分?jǐn)?shù)評(píng)定

在評(píng)閱系統(tǒng)設(shè)計(jì)中，對(duì)于某道題，相似度高于Hi的試卷給予最高分HighScorei，語(yǔ)義相似度低于Li的給予最低分LowScorei，相似介于最低與最高之間的，利用式（2）計(jì)算得分：

這樣對(duì)于有m道試題的答卷，其總分由式（3）求得：

4 測(cè)試結(jié)果與分析

為檢驗(yàn)算法分析文本的能力以及系統(tǒng)對(duì)試卷評(píng)閱結(jié)果的準(zhǔn)確程度，進(jìn)行計(jì)算機(jī)自動(dòng)閱卷與人工閱卷方法的比較并計(jì)算其實(shí)際誤差率。計(jì)算機(jī)自動(dòng)閱卷方法總分表示為C（sum），人工閱卷總分表示為P（sum），試卷中的實(shí)際總分表示為R（sum），誤差率η的計(jì)算公式：

隨機(jī)抽取500份語(yǔ)文試卷作為樣本空間進(jìn)行手工評(píng)分和計(jì)算機(jī)自動(dòng)評(píng)分，并將結(jié)果進(jìn)行比較，比較結(jié)果的部分樣本如表1所示。

由表1可以看出計(jì)算機(jī)閱卷系統(tǒng)的自動(dòng)評(píng)閱方法與人工閱卷方法相比，實(shí)際的誤差率相對(duì)較小，并且計(jì)算機(jī)閱卷受人為干擾因素很少，在一定的允許誤差范圍之內(nèi)，表明該閱卷系統(tǒng)具有較好的準(zhǔn)確性和客觀性，同時(shí)在時(shí)間上，系統(tǒng)評(píng)閱的優(yōu)勢(shì)更加明顯。

表1 手工評(píng)分和計(jì)算機(jī)自動(dòng)評(píng)分結(jié)果比較Tab.1 Result comparison of manual score with auto－grade by computer

5 結(jié) 論

主觀題的智能閱卷是計(jì)算機(jī)自動(dòng)閱卷系統(tǒng)必然選擇。模擬了閱卷評(píng)定主觀題時(shí)的思維，對(duì)基于語(yǔ)義的相似度算法進(jìn)行了改進(jìn)，為主觀題評(píng)分提供了計(jì)算公式。當(dāng)然，測(cè)評(píng)科目不同，評(píng)估使用的參數(shù)設(shè)置會(huì)有所變化，算法在實(shí)際應(yīng)用中參數(shù)修正方面還有待深入研究。

［1］梁娜，耿國(guó)華，周明全.自然語(yǔ)言處理中的語(yǔ)義關(guān)系與句法模式互發(fā)現(xiàn)［J］.計(jì)算機(jī)應(yīng)用研究（Application Research of Computers），2008，25（8）：2 295－2 298.

［2］付年鈞，彭昌水，王慰.中文分詞技術(shù)及其實(shí)現(xiàn)［J］.軟件導(dǎo)刊（Software Guide），2011，10（1）：18－20.

［3］王常亮，騰至陽(yáng).語(yǔ)句相似度計(jì)算在FAQ中的應(yīng)用［J］.計(jì)算機(jī)時(shí)代（Computer Era），2006（2）：24－26.

［4］侯貴賓，曹衛(wèi)東.一種面向自然語(yǔ)言表達(dá)的不確定時(shí)態(tài)數(shù)據(jù)的建模方法［J］.河北科技大學(xué)學(xué)報(bào)（Journal of Hebei University of Science and Technology），2010，31（5）：463－467.

Algorithm of subjective item marking based on semantic similarity

ZHANG Li－yan，ZHANG Shi－min
（College of Information Science and Engineerning，Hebei University of Science and Technology，Shijiazhuang Hebei 050018，China）

Subjective item marking system has been a study focus.The common method is to contrast the answers with the reference answers to form a score.This paper uses the technology of natural language processing participle to divide a sentence into the assemble of phrases，and then get the score by computing a sentence similarity degree with improved semantic similarity algorithm.

subjective item；participle；semantic similarity

TP391

A

1008－1542（2012）03－0263－03

2011－11－21；責(zé)任編輯：陳書欣

張立巖（1970－），女，河北藁城人，副教授，碩士，主要從事分布式應(yīng)用開發(fā)方面的研究。

猜你喜歡

主觀題分詞特征向量

二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例

九江職業(yè)技術(shù)學(xué)院學(xué)報(bào)(2022年1期)2022-12-02 09:46:54

淺談“立體幾何主觀題”的復(fù)習(xí)備考

考試與招生(2022年10期)2022-11-17 08:59:04

淺談高中政治“認(rèn)識(shí)類”主觀題答題技巧

井岡教育(2022年2期)2022-10-14 03:11:28

極坐標(biāo)方程主觀題考點(diǎn)分析

中學(xué)生數(shù)理化(高中版.高考數(shù)學(xué))(2022年6期)2022-07-02 03:36:26

克羅內(nèi)克積的特征向量

保定學(xué)院學(xué)報(bào)(2022年2期)2022-04-07 02:26:50

高考政治主觀題對(duì)學(xué)生思維能力的考查

甘肅教育(2021年10期)2021-11-02 06:14:28

結(jié)巴分詞在詞云中的應(yīng)用

智富時(shí)代(2019年6期)2019-07-24 10:33:16

一類特殊矩陣特征向量的求法

許昌學(xué)院學(xué)報(bào)(2018年4期)2018-05-02 12:27:37

EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用

中華建設(shè)(2017年1期)2017-06-07 02:56:14

值得重視的分詞的特殊用法

高中生·天天向上(2016年9期)2016-11-22 09:10:34

河北科技大學(xué)學(xué)報(bào)2012年3期

河北科技大學(xué)學(xué)報(bào)的其它文章: 基于DSP的異步電機(jī)SVPWM控制系統(tǒng)及優(yōu)化研究; 聚類分析法在公交網(wǎng)絡(luò)評(píng)價(jià)中的應(yīng)用; 一種考慮二級(jí)連鎖過載的電網(wǎng)故障關(guān)聯(lián)區(qū)域劃分方法; 卡諾圖化簡(jiǎn)數(shù)學(xué)新方法; 四階非局部邊值問題方程組正解的存在性; 基于壓縮傳感的混沌自適應(yīng)控制

海城市| 中牟县| 登封市| 乐平市| 即墨市| 桦川县| 湖北省| 甘孜县| 南部县| 阳江市| 苍溪县| 金寨县| 奉贤区| 黔东| 广安市| 水富县| 宁强县| 凤翔县| 邵阳县| 石台县| 秦安县| 清涧县| 太湖县| 东城区| 万宁市| 南城县| 象山县| 青龙| 阿坝县| 鸡泽县| 谷城县| 枣强县| 丽江市| 阜新| 柳江县| 公主岭市| 蒲城县| 临沂市| 澄城县| 江华| 松溪县|

<nav id="uuuuu"><code id="uuuuu"></code></nav>

<sup id="uuuuu"><code id="uuuuu"></code></sup>

<noscript id="uuuuu"><optgroup id="uuuuu"></optgroup></noscript>

<noscript id="uuuuu"><optgroup id="uuuuu"></optgroup></noscript>