• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種從關聯文獻中提取相關檢測結果生成綜合性能評價的智能語義算法

      2019-02-09 08:16:20張銀冰
      探索科學(學術版) 2019年9期
      關鍵詞:特征詞含義分組

      張銀冰

      湖北大學化學工程與工藝 湖北 武漢 430062

      當前,在文本分類模型中最被廣泛認可的,也是最有效率的模型是由索爾頓及相關人員提出的向量空間模型VSM。而本文提出的FEDCSD算法,英文全稱為FeatureExtractionbasedontheDetectionoftheChineseSimilar Documents,是一種在中文相似程度檢測的基礎上的提取特征的算法。[1]FEDCSD算法運算原理是將關鍵詞進行分類形成聚類后,以關鍵詞為標志,將語義特征進行數字語言化,以權重確定貢獻因子。備選庫中的詞語以權重分類,將語義和數據特征與詞匯關聯起來。但是FEDCSD算法只能在有限的時間和空間內通過提取每篇文獻中權重較重的詞匯構建算法向量來利用向量間距判斷文獻的重復率。

      1 SCAM特征詞提取與TDF-IDF權重計算

      使用將SCAM等待檢驗的中文文獻數量設為k,從中提取的高權重詞匯按1、2、3….m的方式從大到小編號排列。文獻就被分類互相不影響的詞匯分組。

      (FW1,FW2,…FWj…,FWm)(i=1……k,j=1……m).若對每個FWj(j=1…m)

      把第k篇文章按照詞組關鍵程度基于權重WEkm,等待檢驗的中文文獻就成為了向量抽象空間。每篇文獻可用點面積和角度來對文章重復率進行計算,且每篇文章為向量空間中的一部分。TDF-IDF是詞匯權重數據處理方法最傳統(tǒng)的,計算過程如下:

      WEij=FWFij×LOG(k/nj+0.

      將特征詞按1、2、3…..j的次序編號,將i設為詞匯出現的次數。將相同次數的文章進行數據處理,設為nj,表示出現j個特征詞的文獻有n篇。

      將SCAM用于提取詞匯,TDF-IDF用于計算權重,是文獻內部詞匯分布狀況與文獻分組中的集中情況相結合的方法。不僅將高低頻詞匯區(qū)分了重要程度,還能對普通英文文獻進行初步檢測。但是只是將相同詞匯分組,對近義詞,相近語義等情況卻無計可施,有時候特征詞匯并不是一篇文獻的中心主題。并且詞匯出現的次數的多少并不能簡單地用來確定其重要性,這是將SCAM用于提取詞匯,TDF-IDF用于計算權重方法的缺點。

      2 漢語文獻的理解

      2.1 語義特征

      2.1.1 對結構層次的分析 文章的題目名稱、摘要、關鍵詞和正文,透露著文章的層次結構和邏輯關系。標題是包含著文章中心思想的短語或詞組的組合,是對文獻內容最精確簡練的概括。摘要是對文獻內容的簡單描述和評價,比標題更具有描述性,比正文更加有概括性,是與正文一樣包含了同樣的信息量的文字段落。關鍵詞是對論文主要思想的提煉,通常是來自文獻本身的術語或詞匯,能夠直觀地表達出文章的學術類別。最后是正文,正文是文章的主要部分,根據文章的邏輯關系,每段的中心思想通常為最首或最末一句。[2]

      2.1.2 對詞匯搭配的分析 詞匯搭配是詞匯與詞匯形成的有意義的組合,詞匯搭配的的分布是TDF-IDF難以把握的因素。因為詞匯搭配在文中分布較少,且不同的數量分布和全文占比的差異使文章內容各有差異,而TDF-IDF往往抽取權重比重大的詞匯,常常忽略詞匯搭配。一句話中的詞匯之間的距離又使得信息包含量有所差異,關鍵詞距離進,包含的信息量越多。根據統(tǒng)計數據,名詞,形容詞,動詞的最優(yōu)觀測度為[-2,+1],[-1,+2],[-3,+4]。

      2.1.3 對指示語言的分析 一個句子是在交流中包含完整語言信息的最小單位。計算機想要完全理解句子的含義,需要了解語法結構、用語習慣、語言含義等。而漢語體系中總有一些提示性詞匯表示接下來將是重要的總結性語句。比如:“綜上所述”、“根據統(tǒng)計”、“總的來說”之類的詞匯。這類詞匯叫做指示詞,其后的語句一般表示了論述過程的高度總結,或是文章的中心思想。[3]

      2.1.4 對研究領域的分析 在一個學術研究領域中都有一些公認的理論,或是通用的方法。因此,一篇學術論文難免會出現該研究領域內的術語,這種語言的重復在文章中又是合理的,所以這類詞匯的重復率在文章中又是必要的。

      2.1.5 對詞語含義的分析 在中文系統(tǒng)中,相同含義但形式不同語言比比皆是。一般來說,兩篇同義詞或者近義詞分布相似的文章,其內容也是高度相似的。所以同義詞和近義詞也的辨析也是非常重要的,對文章的重復率檢查具有重要的意義。

      2.1.6 對詞語性質的分析 漢語詞匯中除了語法結構,詞匯性質還有虛實之分。實詞具有含義,虛詞無實際含義。虛詞通常不能作為句子成分運用在句子中。在漢語從古至今的演變體系中,實詞是具有重要作用的,而虛詞對語義無太大的幫助。所以在文章重復率檢驗中虛詞并不是很重要。[4]

      2.2 詞語統(tǒng)計的特點 詞匯出現的頻率是文本特征的一個重點,因為重要的詞匯在文中總是頻繁出現。所以權重計算法也是具有其優(yōu)勢的。因為一篇文章中在標題或者摘要中出現的詞匯,大多會在文本中被大量運用。出現頻率較高的詞匯是對文章主要思想的概括和提示,高頻詞匯的分布是文章檢測的一個重要方面。[5]

      3 特征詞匯及其權重計算

      3.1 分解與消除歧義

      3.1.1 關鍵詞分組 詞匯分組在相似度高的文章中較為重要。因為關鍵詞可以對其含義進行引申和外延,以近義或者同義詞匯代替。本文采用[6]的方法完成關鍵詞分組。計算中應當對近義和同義詞進行分組,作好標記,用含義相似的詞匯進行相互替代來解決語句產生歧義的問題,使文章檢驗較為容易一些。

      3.1.2 詞匯備選 本文運用文獻[6]中提出的詞匯分類與消歧算法,將文章用1、2、3….、i按順序編號,而用CFWi代表第i篇文獻的備選詞匯組。將文章中的關鍵詞相分隔和排序,將虛詞從詞匯序列中刪除。將極低頻率的詞匯與極高頻率的詞匯按照文獻庫詞匯進行刪除,最后得到k個包含了已處理過的詞匯分組序列。

      3.2 語言含義屬性 在2.1中我們知道了語言含義分為六個方面的特征。詞意和詞性是關鍵詞集中分組和特征詞匯組的建立的關鍵方面。剩下的四個方面可以進行數據量化處理,如下:

      (1)層次結構的屬性

      將TOPWi、ABSWi、KWi、FTEWi、MTEWi、LTEWi分別代表第i篇漢語文獻的標題詞匯組、摘要詞匯組、關鍵詞組、正文中心詞匯組、正文高頻詞匯組和末段詞匯組。不同分組的詞匯對文章含義及其中心論點的貢獻比重不同。

      則我們有

      CFWi=TOPW1∪ABSWi∪KWi∪FTEWi∪MTEWi∪LTEWi

      從語義分析的角度,本文方法作如下假設:當第i篇漢語文獻的第j個詞∈TOPWi時,則該詞的層次屬性LCFWij=5;當第i篇漢語文獻的第j個詞∈KW1時,LCFWij=4;當第i篇漢語文獻的第j個詞∈ABSWi時,LCFWij=3;當第i篇語文獻的第j個詞∈FTEWi∪LTEWi,LCFWij=2;當第i篇語文獻的第j個詞

      ∈MTEWi時,LCFWij=1.

      (2)詞匯搭配的屬性

      被標記詞匯與詞匯之間的距離也是一個重要方面,詞匯之間距離越近,則對語義的貢獻越大。所以需要將被標記詞匯的觀察范圍定為[-2,+1]。將第i篇文章的第j個詞匯在觀察范圍的設定內,那么它的詞匯搭配權重為WCFWij=1。

      (3)含義指示的屬性

      前面說過,指示語言也對文章中心思想的尋找提供了便利。因為提示詞匯后面跟的很有可能就是文章中心含義。所以當第j個詞處于第i篇的文章中,應該表示指示屬性INDCFWij=1。

      (4)學術領域的屬性

      將學術詞匯與文章相關領域結合,第i篇文章的第j個詞是第k篇文章中出現頻率最高的1/3k個詞匯,那么詞匯學術領域屬性IMPCFWij=1。

      3.3 權重計算及特征詞抽取 被抽取詞匯對語言含義的貢獻程度就是貢獻因子,表示為CONij,代表第i篇第j個詞的貢獻程度。

      令CONij=LCFWij+WCFWij+INDCFWij+IMPCFWij

      第i篇文章中的第j個詞在中出現的頻率表示為FWPij,權重WEij的計算表達式為:

      在第i篇文章中提取權重最高的詞匯作為特征詞,等待被檢測的文獻的特征詞組

      第i篇文章中提取的特征詞表示為Wi,i表示按1、2、3…..、k排列的順序。

      3.4 漢語文獻的向量表示

      令FW=∪ki=1Wi={FWil,FWi2,……FWij……FWim},待檢漢語文獻集中文獻Di將被抽象成為一個m維的特征向量,如下所示:

      {(FWi1,WEi1),(FWi2,WEi2),…(FWij,WEij),(FWim,WEim)}(1≤j≤m).

      4 相關聯文獻檢測算法

      (1)計算前的準備:將文章中的關鍵詞出現頻率及其相似程度進行計算,構建詞組并將同義詞和近義詞進行替換。

      (2)分解詞匯和消除歧義:將全部的被標記詞匯看作象征性標識,依據詞匯組和排序,將預先準備好的替換過的文章進行語法分解,對不同性質的詞匯進行數據化處理。已經經過處理后,對所有詞匯進行消除歧義的處理,計算出詞匯出現頻率。

      (3)對于詞匯權重的計算:按照3.3的計算方法,對每篇文章的特征詞匯進行貢獻因子和權重的計算。

      (5)提取特征詞匯:按權重將詞匯進行按1、2、3….i排列,選出權重較高的特征詞組。

      Wi(i=1……k),FW=

      為等待檢驗的中文文獻的特征詞匯組。

      (6)計算相似程度:將等待檢驗的文章Di抽象成一個維度為m維的空間向量。則兩篇待檢中文文獻的相似度為:

      (7)相似程度的劃分:相似程度等級參數可以劃分為λ1,λ2,λ3。當SIM(Dx,Dy)≥λ1時,第x與y兩篇文章相似程度極高;λ2≤SIM(Dx,Dy)≤λ1時兩篇文章相似程度一般,λ3≤SIM(Dx,Dy)≤λ2時兩篇文章相似程度較低;SIM(Dx,Dy)≤λ3時兩篇文章不相似。

      5 實驗與結論

      使用我們在[7]中方法進行實驗,下面表1、表2、表3是實驗結果:

      表1 完全吻合度與基本吻合度(k=10,m≤300)

      表2 完全吻合度與基本吻合度(k=10,m≤400)

      表3 完全吻合度與基本吻合度(k=10,m≤500)

      從實驗中我們可以看出當樣本數量也就是特征詞的數量大于300時,基本吻合度達到70%,完全吻合度可以達到60%。總實驗結果看,這個方法既可以降低算法空間復雜度又可以提高運行效率和結果的準確度。

      語言分解并抽取特征詞來構建詞匯檢驗體系和計算公式的方法能夠有效地減少文章重復率檢查算法的空間復雜度,提高運算效率和結果準確度,理想地達到了我們的目標。從實驗過程中我們還可以看到,該方法的精確程度不會隨著詞匯數量的增大而提高,所以該方法對于精度的目標的要求不能很好地滿足,還需更好的改善。在實驗過程中,我們了解到了檢驗參數和消除歧義問題上的研究還能又更大的擴展,我們將對其進行更深入的研究,以提高算法的效率。

      猜你喜歡
      特征詞含義分組
      Union Jack的含義和由來
      英語世界(2022年9期)2022-10-18 01:11:46
      分組搭配
      怎么分組
      基于改進TFIDF算法的郵件分類技術
      產品評論文本中特征詞提取及其關聯模型構建與應用
      分組
      虛榮的真正含義
      學生天地(2016年16期)2016-05-17 05:45:55
      面向文本分類的特征詞選取方法研究與改進
      關于“獲得感”之含義
      五星紅旗的含義
      中國火炬(2011年10期)2011-07-24 14:27:45
      九寨沟县| 呼玛县| 新竹县| 万安县| 雅安市| 潼关县| 扎兰屯市| 读书| 通化市| 泰兴市| 莱阳市| 百色市| 富顺县| 安塞县| 望城县| 鹿泉市| 深州市| 台中市| 阿合奇县| 凤翔县| 新营市| 青海省| 泸定县| 临沭县| 年辖:市辖区| 镇沅| 三原县| 四子王旗| 岳阳市| 巴东县| 枣阳市| 舞钢市| 凤台县| 阿图什市| 博野县| 兴文县| 江阴市| 江安县| 新沂市| 阿城市| 民权县|