• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于公共詞集對(duì)長(zhǎng)篇小說(shuō)相似度的研究

      2018-12-21 01:56郭濤霸元婕李紹昂
      軟件工程 2018年10期

      郭濤 霸元婕 李紹昂

      摘 要:傳統(tǒng)的文本相似度計(jì)算基于向量空間模型(VSM),文本映射成獨(dú)立的、互不關(guān)聯(lián)的詞構(gòu)成的向量。由于長(zhǎng)篇小說(shuō)具有比普通文本更為復(fù)雜的構(gòu)成元素,以及更加緊密的上下文聯(lián)系,傳統(tǒng)算法忽略詞項(xiàng)的上下文聯(lián)系,并且產(chǎn)生高維向量,因此算法的效率和精度不理想。為此,本文基于公共詞集對(duì)長(zhǎng)篇小說(shuō)進(jìn)行相似度計(jì)算,并對(duì)公共詞集進(jìn)行上下文約束檢查,得到關(guān)聯(lián)比較緊密的詞集,作為小說(shuō)的主要特征。實(shí)驗(yàn)結(jié)果表明,對(duì)于某些小說(shuō)類(lèi)型,效果有很大的提升。

      關(guān)鍵詞:公共詞集;小說(shuō)相似度;上下文約束

      中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A

      Abstract:Traditional text similarity computation is based on Vector Space Model (VSM),where the text is mapped into independent and unrelated words.Because novels have more complex elements and much closer context than ordinary texts,the traditional algorithm ignores the context of the words and produces the high dimensional vector,so that the efficiency and accuracy of the algorithm are not ideal.For this reason,this paper calculates the similarity of the novels based on the common word set,and carries out the context constraint check on the common word set to achieve a more closely related word set as the main feature of the novel.The experimental results show that for some types of novels,the effect is greatly improved.

      Keywords:common word set;novel similarity;context constraint

      1 引言(Introduction)

      隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上的文本數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),文本處理算法的相關(guān)研究也隨之發(fā)展起來(lái)。其中,文本相似度計(jì)算成為熱點(diǎn)研究方向,其目的在于建立一個(gè)合理的衡量模型,對(duì)文本間的相似程度進(jìn)行量化。小說(shuō)作為一種文學(xué)作品,與普通文本有較大區(qū)別,小說(shuō)的構(gòu)成要素要比普通文本復(fù)雜很多,比如時(shí)間、地點(diǎn)、人物、社會(huì)、環(huán)境等等,并且小說(shuō)的上下段落、上下情節(jié)之間聯(lián)系十分緊密。所以,必須要從新的角度建立小說(shuō)相似度的衡量模型。

      目前經(jīng)典的文本相似度計(jì)算算法大部分基于向量空間模型(VSM)[1]。向量空間模型將文本視作由獨(dú)立的、互不關(guān)聯(lián)的詞構(gòu)成的一個(gè)向量,并且把詞語(yǔ)在文中出現(xiàn)的頻數(shù)作為文本的主要特征。通過(guò)將文本映射成一個(gè)向量模型,文本相似度計(jì)算也就轉(zhuǎn)換成向量之間的相似度計(jì)算。小說(shuō)作為一種特殊的文本類(lèi)型,詞語(yǔ)之間的關(guān)聯(lián)比普通的文本更加緊密,如果依然將小說(shuō)表示成向量空間模型,將失去很多重要的特征信息,尤其是詞條間的上下文信息,詞語(yǔ)之間的關(guān)聯(lián)隱含著情節(jié)信息,對(duì)文義的理解起著至關(guān)重要的作用[2]。不僅如此,對(duì)于長(zhǎng)篇小說(shuō)而言,向量空間模型將產(chǎn)生一個(gè)維數(shù)十分巨大的向量,嚴(yán)重影響算法的效率,問(wèn)題將變得不可行。

      本文主要介紹了一種基于公共詞集對(duì)長(zhǎng)篇小說(shuō)相似度研究的算法[3]。對(duì)小說(shuō)進(jìn)行預(yù)處理后,建立Map映射結(jié)構(gòu),在構(gòu)建公共詞集的過(guò)程中,加入上下文約束,最終得到滿(mǎn)足上下文約束的若干詞集簇,并以此作為衡量相似度的依據(jù),建立相似度衡量算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證算法可行。

      2 相關(guān)工作(Related work)

      2.1 向量空間模型

      文本的內(nèi)容特征常常用它所含有的基本語(yǔ)言單位,如字、詞或者短語(yǔ)等來(lái)表示,這些基本的語(yǔ)言單位被統(tǒng)稱(chēng)為文本的項(xiàng)[4]。向量空間模型(Vector Space Model,VSM)將文本D轉(zhuǎn)化為由詞項(xiàng)w構(gòu)成的m維向量,即:

      文本中的每個(gè)項(xiàng)相互獨(dú)立,可以通過(guò)計(jì)算向量之間的距離來(lái)衡量文本之間的相似度。每個(gè)詞項(xiàng)往往都賦予一個(gè)權(quán)重(Term Weight),表示該詞項(xiàng)在文本中的重要程度。TF-IDF(Term Frequency-Inverse Document Frequency)是使用最廣泛的一種權(quán)重計(jì)算方法,公式如下:

      其中,表示詞項(xiàng)的出現(xiàn)頻數(shù),表示文檔集中文本數(shù)量,表示詞項(xiàng)在文檔集中包含該詞項(xiàng)的文本數(shù)量。

      在文本中的出現(xiàn)頻率反映該詞項(xiàng)的重要程度,詞項(xiàng)在多個(gè)文本中的出現(xiàn)情況反映了詞項(xiàng)的文義甄別能力,TF-IDF綜合考慮了以上兩點(diǎn),每一個(gè)詞項(xiàng)的權(quán)重由TF權(quán)值和IDF權(quán)值兩個(gè)部分組成。通過(guò)計(jì)算向量之間的余弦角,可以得到兩個(gè)文本向量之間的相似程度,定義如下:

      2.2 公共詞集

      從小說(shuō)的詞法方面研究其文本特征,如果不考慮詞項(xiàng)之間的先后順序,可以比較小說(shuō)詞域之間的相交程度來(lái)衡量相似度。將小說(shuō)的詞集提取出來(lái),兩篇小說(shuō)的公共詞集可以反映小說(shuō)在用詞造句方面的相似性[5]。相對(duì)于兩篇小說(shuō)的平均文本長(zhǎng)度而言,如果公共詞集包含的詞項(xiàng)數(shù)越多,小說(shuō)的相似程度越高,兩篇小說(shuō)的用詞方式更為接近;反之,若公共詞集包含的詞項(xiàng)數(shù)越少,相似程度越低。在對(duì)小說(shuō)進(jìn)行文本預(yù)處理操作后,分別統(tǒng)計(jì)詞項(xiàng)的頻數(shù)和位置信息,可以得到小說(shuō)N1和N2的公共詞集CWS,公共詞集中的元素由詞項(xiàng)和詞項(xiàng)在小說(shuō)中的頻數(shù)構(gòu)成。可以用采取如下計(jì)算公式計(jì)算相似度:

      讷河市| 富源县| 锦州市| 修水县| 怀仁县| 通化县| 东源县| 石城县| 汉中市| 铁岭市| 遂宁市| 弥渡县| 白沙| 锦屏县| 布尔津县| 集贤县| 伊川县| 阳山县| 威远县| 浪卡子县| 克山县| 西吉县| 临沭县| 海阳市| 广安市| 淅川县| 南城县| 象山县| 肇东市| 金山区| 辽宁省| 时尚| 美姑县| 景德镇市| 南平市| 和林格尔县| 青川县| 保德县| 镇康县| 正阳县| 奈曼旗|