• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于向量空間模型的項(xiàng)目申報(bào)書(shū)查重系統(tǒng)設(shè)計(jì)

      2015-06-27 06:33:38胡偉偉王婷婷
      天津科技 2015年8期
      關(guān)鍵詞:特征詞分詞文檔

      胡偉偉,孫 遜,王婷婷

      (江蘇省生產(chǎn)力促進(jìn)中心 江蘇南京210042)

      應(yīng)用技術(shù)

      基于向量空間模型的項(xiàng)目申報(bào)書(shū)查重系統(tǒng)設(shè)計(jì)

      胡偉偉,孫 遜,王婷婷

      (江蘇省生產(chǎn)力促進(jìn)中心 江蘇南京210042)

      隨著國(guó)家及地方科研財(cái)政經(jīng)費(fèi)的增加,企事業(yè)單位對(duì)科技項(xiàng)目日益重視,項(xiàng)目申報(bào)數(shù)量也逐年遞增。為避免對(duì)類(lèi)似項(xiàng)目的重復(fù)支持,造成科研經(jīng)費(fèi)的浪費(fèi),項(xiàng)目查重就顯得尤為必要。提出了基于向量空間模型的項(xiàng)目申報(bào)書(shū)查重系統(tǒng)設(shè)計(jì)方法,并介紹設(shè)計(jì)流程。

      項(xiàng)目查重 向量空間模型 分詞

      0 引 言

      科技是第一生產(chǎn)力。近年來(lái),隨著國(guó)家對(duì)科技創(chuàng)新工作重視程度的提升,各級(jí)政府科研經(jīng)費(fèi)投入逐年增加,各企事業(yè)單位更加積極地申報(bào)各類(lèi)科研項(xiàng)目。但隨著科研項(xiàng)目申報(bào)數(shù)量的增加,科研成果重復(fù)申報(bào)、多頭申報(bào)現(xiàn)象日益突出。由于項(xiàng)目分屬不同的機(jī)構(gòu)或部門(mén)管理,面對(duì)數(shù)量巨大的申報(bào)材料,傳統(tǒng)的人工形式審查工作量大,且效果也不理想。為避免對(duì)重復(fù)或相似科研內(nèi)容的重復(fù)支持,本文將介紹一種基于向量空間模型的文本相似度算法,通過(guò)該算法來(lái)實(shí)現(xiàn)項(xiàng)目研究?jī)?nèi)容相似度的判斷。

      1 理論介紹

      向量空間模型VSM(Vector Space Model)是20世紀(jì)70年代由Salton等人提出的一種簡(jiǎn)便、高效的文本表示模型。該模型的基本思想是把文檔簡(jiǎn)化為以特征詞(關(guān)鍵詞)的權(quán)重為分量的多維向量表示。通過(guò)該方法將對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中向量的運(yùn)算。文本向量化后,再利用余弦距離來(lái)計(jì)算兩向量之間的關(guān)系,余弦值越大,說(shuō)明文本相似程度越大。當(dāng)余弦值為1時(shí),說(shuō)明文本一致,反之則說(shuō)明文本匹配度較低。通過(guò)向量計(jì)算法判別文本的相似性可以使問(wèn)題的復(fù)雜性大為降低。

      2 設(shè)計(jì)流程

      項(xiàng)目申報(bào)書(shū)向量模型化需要經(jīng)過(guò)分詞、詞權(quán)重計(jì)算、關(guān)鍵字提取等步驟,大致流程如圖1所示。

      圖1 項(xiàng)目申請(qǐng)書(shū)向量模型設(shè)計(jì)流程Fig.1 Design flow of the VSM project application forms

      2.1 申報(bào)書(shū)預(yù)處理

      為便于將項(xiàng)目申報(bào)書(shū)內(nèi)容進(jìn)行分詞,可以通過(guò)正則表達(dá)式去除申報(bào)書(shū)中的文本格式化標(biāo)識(shí)符(HMTL標(biāo)簽)、公式、圖片等信息,將其純文本化。

      2.2 分詞

      分詞是將文本向量化表示的一個(gè)重要步驟,分詞的效率和準(zhǔn)確度將對(duì)文本向量模型的建立和系統(tǒng)速度產(chǎn)生直接影響。

      常用的分詞算法有基于字典的分詞方法、基于知識(shí)理解的分詞方法、基于詞頻統(tǒng)計(jì)的分詞方法等,各種方法各有優(yōu)缺點(diǎn)?;谧值涞姆衷~方法實(shí)現(xiàn)相對(duì)簡(jiǎn)單,應(yīng)用廣泛。分詞時(shí)可以采用中科院計(jì)算所研發(fā)的ICTCLAS分詞系統(tǒng),兼顧效率和準(zhǔn)確率。

      2.3 特征詞提取和向量模型生成

      利用分詞算法將經(jīng)過(guò)預(yù)處理的文本進(jìn)行分詞,并去除分詞后對(duì)文本內(nèi)容識(shí)別意義不大但出現(xiàn)頻率很高的停用詞,如“的”、“是”、“在”等。經(jīng)過(guò)分詞處理后,申報(bào)書(shū)就可以用由若干詞組成的集合來(lái)表示:

      D表示被處理的文檔,Tj表示在D中出現(xiàn)的經(jīng)分詞過(guò)濾后的詞。

      如果把所有詞都作為特征集,那么特征向量的維數(shù)將十分巨大,從而導(dǎo)致計(jì)算量太大,耗時(shí)較長(zhǎng),這時(shí)需要進(jìn)行特征詞提取。特征詞提取的主要功能是在不影響文本核心信息的情況下盡量減少關(guān)鍵詞的集合大小,以此來(lái)降低向量空間的維度,從而降低計(jì)算量,提高系統(tǒng)運(yùn)行效率。

      特征詞的提取可以結(jié)合特征詞權(quán)重一同進(jìn)行。

      詞在文檔中的權(quán)重可以由多種方式來(lái)計(jì)算,TF-IDF是一種常見(jiàn)的方法,該方法用于評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或者一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度,是一種常用的加權(quán)技術(shù)。該方法能過(guò)濾掉常見(jiàn)的詞語(yǔ),而保留重要的詞。TF(Term Frequency)詞頻,指某個(gè)詞在文章中出現(xiàn)的頻率,體現(xiàn)了該詞描述文檔的能力。

      有些常見(jiàn)非停用詞在文檔中出現(xiàn)頻率較高,它的TF值也相對(duì)高些,但是該詞對(duì)文章或語(yǔ)句的“話(huà)語(yǔ)權(quán)”不大,對(duì)語(yǔ)義的影響較弱,因此考慮到詞權(quán)重時(shí)還需要考慮到詞在區(qū)分兩文檔時(shí)起到的效果。IDF(Inverse document frequency)指逆向文本頻率。

      IDF越大,說(shuō)明該詞在文檔中出現(xiàn)的概率較小,利用該詞能較好地區(qū)分文檔。TF-IDF算法,是計(jì)算TF×IDF的值,體現(xiàn)了某個(gè)詞對(duì)文章的重要性,重要性越高,它的TF-IDF值就越大。因此關(guān)鍵詞的提取,可以采用TF-IDF值排在前面的若干詞。經(jīng)特征詞提取及權(quán)重計(jì)算后,項(xiàng)目申報(bào)書(shū)的向量模型可以表示為:Dn(,……,Tn,Wn)(j>n,其中表示為關(guān)鍵詞Tn對(duì)應(yīng)的權(quán)重)。

      2.4 兩申報(bào)書(shū)相似度計(jì)算

      通過(guò)將擬對(duì)比的申報(bào)書(shū)文本向量化后,計(jì)算申報(bào)書(shū)1和申報(bào)書(shū)2的相似度就是計(jì)算向量空間模型D1、D2的余弦值。

      式中D1、D2表示文檔的特征集,W1k、W2k分別表示文本D1和D2第K個(gè)特征項(xiàng)的權(quán)值,1≤j≤N。

      3 結(jié) 語(yǔ)

      通過(guò)對(duì)項(xiàng)目申報(bào)書(shū)相似度對(duì)比,可以開(kāi)展有針對(duì)性的查重,解決大海撈針式查重和印象查重,大幅提高項(xiàng)目查重的效率和準(zhǔn)確率,但項(xiàng)目申報(bào)書(shū)相似度測(cè)算僅是從文本相似程度的角度去測(cè)算,對(duì)于相似程度較高或較低的較容易判斷,介于兩者之間的,研究?jī)?nèi)容是否相似還需要進(jìn)行人工判斷。

      [1] 殷耀明,張東站. 基于關(guān)系向量模型的句子相似度計(jì)算[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,50(2):198-203.

      [2] 方延風(fēng). 科技項(xiàng)目查重中特征詞TF-IDF值計(jì)算方法的改進(jìn)[J]. 情報(bào)探索,2012(1):1-3.

      [3] 陳桂林,王永成. 一種改進(jìn)的快速分詞算法[J]. 計(jì)算機(jī)研究與發(fā)展,2000,37(4):418-423.

      Design of VSM-based Duplication Checking System for Project Application Forms

      HU Weiwei,SUN Xun,WANG Tingting
      (Productivity Centre of Jangsu Province,Nanjing 210042,Jiangsu Province,China)

      With the growth of financial expenditures on scientific research from national and local governments,science projects have attracted more attention from enterprises and public institutions and the number of project applications is increasing year by year.To avoid repetitive support of similar projects and prevent the waste of scientific research funds,project duplication checking has become particularly important and necessary.A design method of Vector Space Model(VSM)-based project application form duplication checking system was presented and design procedures were elaborated.

      project duplication checking;Vector Space Model(VSM);word segmentation

      TP311.1

      :A

      :1006-8945(2015)08-0033-02

      2015-07-03

      猜你喜歡
      特征詞分詞文檔
      有人一聲不吭向你扔了個(gè)文檔
      結(jié)巴分詞在詞云中的應(yīng)用
      基于改進(jìn)TFIDF算法的郵件分類(lèi)技術(shù)
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      值得重視的分詞的特殊用法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      面向文本分類(lèi)的特征詞選取方法研究與改進(jìn)
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      岳西县| 大城县| 孝义市| 武鸣县| 时尚| 高平市| 临江市| 丹阳市| 建昌县| 灵石县| 吉木乃县| 柳江县| 鞍山市| 巴彦县| 晋江市| 辽宁省| 鹤峰县| 白银市| 吴忠市| 开阳县| 义马市| 盐池县| 西安市| 剑阁县| 舒城县| 湟源县| 栖霞市| 东乌| 平安县| 万州区| 额济纳旗| 康定县| 邯郸县| 洪湖市| 江北区| 依兰县| 区。| 十堰市| 东山县| 洪江市| 金门县|