秦 穎,文秋芳,梁茂成
摘要:試卷自動評分研究中有個十分重要卻常被忽略的環(huán)節(jié)———對于雷同內容的自動檢測。翻譯考試的雷同譯文與一般的重復文檔有著不同的特點。通過對比各種文檔相似算法,最終選擇了特征碼的方法用于檢測漢譯英雷同譯文,并結合翻譯考試的特點,提出了隨機特征碼的方法,解決了特征碼選取位置難以確定的問題,同時降低了特征碼對于編輯差異的敏感度,提高了雷同內容檢測的查準率和查全率。該算法的復雜度為線性,適用于大規(guī)模翻譯試卷的快速檢查。
關鍵詞:自動評分;雷同內容檢測;文本相似度;特征碼