• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于百度百科多特征信息的詞匯相似度計(jì)算?

      2020-10-09 02:47:24黃樹(shù)成
      關(guān)鍵詞:百科詞條余弦

      仲 遠(yuǎn) 王 芳 黃樹(shù)成

      (江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212003)

      1 引言

      詞匯相似度計(jì)算在現(xiàn)實(shí)生活中使用非常廣泛,如在機(jī)器翻譯、詞義消歧、信息檢索等諸多領(lǐng)域就發(fā)揮著極為重要的作用。例如在信息檢索領(lǐng)域中,詞匯相似度計(jì)算可以用來(lái)衡量用戶查詢內(nèi)容和返回結(jié)果內(nèi)容信息的匹配度,從而實(shí)現(xiàn)改進(jìn)檢索效果,提高檢索結(jié)果內(nèi)容準(zhǔn)確率。

      國(guó)內(nèi)外的學(xué)者們對(duì)詞匯相似度已經(jīng)有了大量的研究。在國(guó)內(nèi),田久樂(lè)等提出了基于同義詞詞林的詞匯相似度計(jì)算方法[1]。張小川等提出以詞語(yǔ)間第一基本義原相似度最高的概念組合為計(jì)算對(duì)象,并引入動(dòng)態(tài)加權(quán)因子實(shí)現(xiàn)了對(duì)詞語(yǔ)語(yǔ)義相似度算法的改進(jìn)[2]。金博提出基于語(yǔ)義理解的文本相似度算法[3]。李海林提出基于分類詞典的文本相似性度量方法[4]。

      在國(guó)外,Aminul Islam 提出基于語(yǔ)料庫(kù)的語(yǔ)義相似度計(jì)算方法[5]。Junji Tomita 等提出利用基于圖形的文本表示模型來(lái)計(jì)算文本相似度[6]。

      通過(guò)分析上述國(guó)內(nèi)外學(xué)者的研究方法,可以將這些方法分為以下兩種[7]:一種是基于統(tǒng)計(jì)的方法,另一種是基于知識(shí)體系的方法。基于統(tǒng)計(jì)的方法,相對(duì)客觀、全面地反映了詞匯所處的上下文,缺點(diǎn)是此方法以綜合訓(xùn)練所使用的語(yǔ)料庫(kù)為依靠,且存在數(shù)據(jù)稀疏的問(wèn)題?;谥R(shí)體系的方法是通過(guò)本體計(jì)算語(yǔ)義相似度,此方法簡(jiǎn)單有效,但是準(zhǔn)確性受語(yǔ)義詞典的規(guī)模和完備性影響較大。

      針對(duì)上文中提到的不足,本文提出一種基于百度百科的多特征信息詞匯相似度計(jì)算方法。該方法經(jīng)由百科名片、詞條正文,開(kāi)放分類和相關(guān)詞條四個(gè)部分的內(nèi)容,分別計(jì)算出它們之間的相似性值,以此來(lái)獲得一對(duì)詞匯間的整體相似性。

      2 相關(guān)工作

      2.1 詞匯相似度概念介紹

      文中的詞匯相似度的概念并非完全指的是詞匯的意思相似度,在這里可以把它看作是一種近似于語(yǔ)義相關(guān)度的概念。假如衡量詞匯之間相似度的取值范圍在0 和1 之間,如果是0,表示兩個(gè)詞匯毫無(wú)關(guān)系,相似度很低;如果是1,則表示兩個(gè)詞匯間關(guān)系緊密,相似度很高?;橥x詞的兩個(gè)詞匯,如“舊金山”和“圣弗朗西斯科”,它們的詞匯相似度可以是1;而互為反義詞的兩個(gè)詞匯,如“嚴(yán)寒”和“酷暑”,它們之間的詞匯相似度也可以是1。但如果是兩個(gè)風(fēng)馬牛不相及的詞匯,如“專家”和“沙發(fā)”,就可以認(rèn)為它們之間的相似度很低,甚至可以將它們的相似度設(shè)為0。綜上,只要兩個(gè)詞匯之間存在很強(qiáng)的關(guān)聯(lián)性,由詞匯A很容易聯(lián)想到詞匯B,那么就可以認(rèn)為詞匯A 和B 之間的相似度很高,否則相似度很低。

      2.2 百度百科詞條介紹

      百度百科中的內(nèi)容五花八門(mén)、包羅萬(wàn)象。截止到2018 年10 月,百度百科已經(jīng)含有15,598,605 個(gè)詞條,多達(dá)6,618,846 人參與了編寫(xiě)詞條內(nèi)容??梢哉f(shuō)百度百科是目前為止規(guī)模最大、內(nèi)容最全面的語(yǔ)料庫(kù)。百科詞條有四個(gè)部分在本文研究中發(fā)揮了重大作用,分別為名片、正文、開(kāi)放分類、相關(guān)詞條。通過(guò)對(duì)詞條各部分內(nèi)容的分析,可以得到許多有用的信息。

      2.3 Words-240測(cè)試集介紹

      為了驗(yàn)證本文提出方法的有效性,實(shí)驗(yàn)中將本文方法與劉群等提出的基于《知網(wǎng)》的相似度計(jì)算方法SSCH 進(jìn)行比較,所以在實(shí)驗(yàn)中同樣采用了Words-240作為測(cè)試集。該測(cè)試集一共有240對(duì)中文詞匯,并且提供了詞對(duì)之間的語(yǔ)義相關(guān)度的參考值,用它來(lái)作為依據(jù),來(lái)衡量本文提出的中文詞匯相似度方法的有效性。詞匯之間相關(guān)性的考量值在0 和1 之間(如果值是1,則這兩個(gè)詞具有極強(qiáng)的關(guān)聯(lián)性;0則表示毫無(wú)聯(lián)系)。

      3 基于百度百科的相似度計(jì)算

      3.1 詞條名片相似度計(jì)算

      詞條的百科是一段短文本,由它來(lái)對(duì)詞條進(jìn)行簡(jiǎn)略的描述。實(shí)驗(yàn)中對(duì)這段短文本建立向量空間模型,然后使用余弦相似度的方法來(lái)計(jì)算這兩段短文本之間的文本相似度。

      該方法的主要思想就是:通過(guò)衡量向量間夾角的大小的余弦值,來(lái)判斷兩個(gè)文本間的相似度。余弦值越大,相似度越高。其中兩邊之間的夾角的余弦計(jì)算公式為

      當(dāng)a 的向量坐標(biāo)是(x1,y2),b 的向量坐標(biāo)是(x1,y2),兩向量的夾角為θ,如果夾角為銳角時(shí),向量a 和向量b 之間的關(guān)系如圖1所示。

      圖1 向量a 和b

      向量a 和向量b 的夾角的余弦計(jì)算如下:

      當(dāng)對(duì)式(2)進(jìn)行擴(kuò)展,即向量a 是(t1,t2,t3,…,tn),b 是(t1,t2,t3,…,tn) 的形式,式(2)依然可行。擴(kuò)展后的公式可以寫(xiě)為

      式(3)中cos(θ)值的范圍是-1~1,為了便于比較,方法中將cos(θ)轉(zhuǎn)換為0~1:

      余弦相似度主要由向量方向決定,向量數(shù)值對(duì)其影響很小。由于這一特點(diǎn),所以在使用中會(huì)存在一些問(wèn)題,需要進(jìn)行修正。

      觀眾對(duì)電影《碟中諜》進(jìn)行評(píng)價(jià),打分是10 分值,小明和小王對(duì)電影的評(píng)分分別為(2,4)和(8,10),直接使用式(3)和式(4)得到的結(jié)果是0.989,兩者對(duì)這部電影的喜好程度似乎相同。但實(shí)際情況是小明不喜歡《碟中諜》這個(gè)電影,小王很喜歡這個(gè)電影。余弦相似度對(duì)數(shù)值的不敏感的特性對(duì)結(jié)果產(chǎn)生很大的誤差,因此有時(shí)不能夠直接使用式(3)、式(4)對(duì)向量數(shù)值進(jìn)行計(jì)算,必須對(duì)向量數(shù)值進(jìn)行預(yù)處理后再進(jìn)行計(jì)算,以實(shí)現(xiàn)對(duì)余弦相似度的修正。預(yù)處理方法是所有的向量數(shù)值都減去一個(gè)它們的平均值,比如小明和小王的評(píng)分均值是6,那么經(jīng)預(yù)處理后為向量變?yōu)椋?4,-2)和(2,4),使用式(3)和式(4)后得到Sim1為0.1,顯然在對(duì)向量數(shù)值進(jìn)行預(yù)處理后,再計(jì)算得到余弦值更符合實(shí)際情況。

      計(jì)算過(guò)程中,將詞條名片的短文本當(dāng)作是一組詞的集合。

      Step1:對(duì)詞條A和B的百科名片短文本進(jìn)行分詞等預(yù)處理,創(chuàng)建分詞向量Ta(t1,t2,…,tm),Tb(t1,t2,…,tn)。

      Step2:統(tǒng)計(jì)每個(gè)詞在文本中出現(xiàn)的次數(shù)。寫(xiě)出詞頻向量,并通過(guò)TF-IDF求權(quán)值。

      Step3:使用式(3)和式(4)計(jì)算得到基于向量空間的百科名片相似度。

      3.2 百度詞條正文相似度計(jì)算

      經(jīng)研究發(fā)現(xiàn),余弦相似度算法在短文本中效果良好,但在長(zhǎng)文本中存在一些不足,而SimHash 算法在長(zhǎng)文本中有著出色的表現(xiàn)。基于詞條正文的文本內(nèi)容多,篇幅大,因此實(shí)驗(yàn)中在對(duì)詞條正文部分的計(jì)算中使用了SimHash算法。

      SimHash 算法有五步:分詞、Hash、加權(quán)、合并、降維。具體過(guò)程如下所述。

      Step1:對(duì)詞條正文進(jìn)行預(yù)處理,建立分詞向量,并且需要為特征向量設(shè)置權(quán)重(權(quán)重可以是這個(gè)詞在正文中出現(xiàn)的頻數(shù))。例如給定一段語(yǔ)句:“慷慨就義重如泰山,或長(zhǎng)流于世自甘墮落”,分詞后為:“慷慨就義,重如,泰山,或,長(zhǎng)流,于世,自甘墮落”,然后為每個(gè)特征向量賦予權(quán)值:慷慨就義(5)、重如(3)、泰山(4)、或(1)、長(zhǎng)流(2)、于世(2)、自甘墮落(5)。

      Step2:Hash 計(jì)算,可以得到每個(gè)特征向量的Hash 值。假設(shè)Hash 值為二進(jìn)制數(shù)0-1 組成的字符串。比如“慷慨就義”的Hash值為001001,“自甘墮落”的Hash值為“100100”。

      Step3:得到特征向量的哈希值后,對(duì)特征向量設(shè)置權(quán)重,即W=Hash*Weight。遇到1,則1 直接和權(quán)值做乘法,遇到0,那么Hash 值和權(quán)值負(fù)相乘。例如給“慷慨就義”的Hash 值“001001”加權(quán)得到:W(慷慨就義)= 001001 5=-5-5 5-5-5 5,給“自甘墮落”的Hash 值“100100”加權(quán)得到:W(自甘墮落)=100100 3=3-3-3 3-3-3。

      Step4:將Step3 得到的W 全部加起來(lái),得到一個(gè)0-1 字符串。拿Step3 中兩個(gè)特征向量舉例,W(慷慨就義)+W(自甘墮落)=-2,-8,2,-2,-8,2。

      Step5:對(duì)于Step4 得到的0-1 字符串進(jìn)行降維處理,是正數(shù)則將值置1,否則為0,經(jīng)過(guò)上述五步的處理,就獲得了正文部分的SimHash值。

      在得到文本的SimHash 簽名值后,就可以計(jì)算它們的海明距離d。海明距離的求法:當(dāng)對(duì)Sim-Hash 簽名值進(jìn)行XOR 計(jì)算時(shí),僅當(dāng)相同位置值不同時(shí)值置為1,否則值置為0。XOR 計(jì)算之后得到的1 的數(shù)量即是漢明距離的大小。詞條正文部分的相似度如以下公式:

      其中d為海明距離,maxL為最長(zhǎng)關(guān)鍵詞數(shù)組長(zhǎng)度。

      3.3 百度詞條開(kāi)放分類相似度計(jì)算

      開(kāi)放分類是一個(gè)詞條的重要組成部分。是詞條的一種不同于傳統(tǒng)目錄式的新的分類方式。具有相同開(kāi)放分類的詞條具有很強(qiáng)的相關(guān)性。

      因此,開(kāi)放分類對(duì)兩個(gè)詞匯之間的相似度的計(jì)算具有很大價(jià)值。如果詞條B 是詞條A 的開(kāi)放分類,則Exist(A,B)=1,否則Exist(A,B)=0 。統(tǒng)計(jì)在詞條A 與B 開(kāi)放分類中相同的個(gè)數(shù),用Common(A,B)表示。Percent(A,B)為Common(A,B)占詞條A和B總的開(kāi)放分類個(gè)數(shù)的比例。

      其中classify(A)是詞條A 中的開(kāi)放分類個(gè)數(shù)。詞條開(kāi)放分類相似度計(jì)算公式為

      其中,α+β=1。

      3.4 相關(guān)詞條相似度計(jì)算

      近年來(lái),SimRank 在信息檢索領(lǐng)域引起了廣泛關(guān)注,并在網(wǎng)頁(yè)排名,協(xié)同過(guò)濾,孤立點(diǎn)檢測(cè)和近似查詢處理等領(lǐng)域取得了巨大成功。

      SimRank 模型根據(jù)遞歸的概念定義兩個(gè)對(duì)象之間的相似性:如果節(jié)點(diǎn)a 的相鄰節(jié)點(diǎn)和節(jié)點(diǎn)b 的相鄰節(jié)點(diǎn)相似,則a 和b 也是相似的。這個(gè)遞歸定義的初始條件是:每個(gè)結(jié)點(diǎn)與它自身最相似。如果τ(a)用于表示節(jié)點(diǎn)a 的所有相鄰節(jié)點(diǎn),用Sim4(a,b)表示兩個(gè)節(jié)點(diǎn)a 和b 之間的相似性,則相關(guān)詞條相似度可表示如下:

      其 中,當(dāng)a=b 時(shí),Sim4(a,b)=1;當(dāng)τ(a)=φ 或τ(b)=φ 時(shí),Sim4(a,b)=0。

      文獻(xiàn)[8]對(duì)式(8)進(jìn)行了擴(kuò)展,擴(kuò)展后的Sim-Rank算法為

      其中k 不等于0,當(dāng)k 趨于無(wú)窮大,能夠準(zhǔn)確得到圖中兩個(gè)節(jié)點(diǎn)之間的相似度。

      對(duì)相關(guān)詞條的相似度計(jì)算步驟有以下三步。

      Step1:在本研究中,百度百科被看作一個(gè)圖,圖中節(jié)點(diǎn)表示詞條,用M=<VN,EN>來(lái)描述該圖,N 是節(jié)點(diǎn)的個(gè)數(shù),PN={p}是所有節(jié)點(diǎn)的集合,EN={e}是所有邊的集合,e={v→w}表示節(jié)點(diǎn)v是w 相鄰節(jié)點(diǎn)。

      Step2:如果A是B的相關(guān)詞條,則在圖中,存在這樣的兩條邊e={A→B}。例如,“特朗普”的相關(guān)詞條有“曼哈頓”、“房地產(chǎn)”等,所以在圖中,存在節(jié)點(diǎn)“特朗普”、“曼哈頓”、“房地產(chǎn)”,并存在邊e={“特朗普”→“曼哈頓”}、e={“特朗普”→“房地產(chǎn)”}等。

      Step3:使用式(9)計(jì)算相關(guān)詞條相似度。

      曹海等給出了迭代過(guò)程中SimRank 算法的精確度分析,提出了犧牲較小精度來(lái)獲得較大性能提升的方法,并定義了如下公式:

      其中,Sim4(a,b) 為節(jié)點(diǎn)a 和b 的相似度表示,Sim4k(a,b)為節(jié)點(diǎn)a 和b 在第k 次迭代時(shí)的Sim-Rank,值,C 為衰減因子常量,Ck+1是在第k 次迭代時(shí)SimRank 算法的最大誤差。所以如果設(shè)C=0.8,最大誤差為0.001,經(jīng)過(guò)29 次計(jì)算就可以獲得相對(duì)確切的結(jié)果。

      3.5 詞條相似度計(jì)算公式

      由上文得到的Sim1、Sim2、Sim3、Sim4,將它們加權(quán)相加得到詞匯之間的綜合相似度,得到詞條的整體相似度:

      其中,k 是可調(diào)節(jié)的參數(shù),且有k1+k2+k3+k4=1,k1≥k2≥k3≥k4,后者表明Sim1到Sim4對(duì)于總體相似度的重要程度逐漸變小。這是考慮到百科名片和百科詞條正文反映了一個(gè)詞條最核心的內(nèi)容,因此他們的權(quán)值應(yīng)大一些。經(jīng)過(guò)多次實(shí)驗(yàn)比較,選取的參數(shù)為α=0.5,β=0.5,k1=0.35,k2=0.35,k3=0.15,k4=0.15 結(jié)果最佳。

      3.6 評(píng)價(jià)指標(biāo)

      將本文計(jì)算出的綜合相似度Similary(A,B)與Words-240 給出的參考標(biāo)準(zhǔn)值作比較,計(jì)算它們的之間的差值Value,Value的絕對(duì)值越接近于0,則本文方法計(jì)算得出的相似度越準(zhǔn)確。

      4 實(shí)驗(yàn)及結(jié)果分析

      本文做了兩個(gè)實(shí)驗(yàn),實(shí)驗(yàn)一使用劉群等提出的基于《知網(wǎng)》的相似度計(jì)算方法SSCH計(jì)算一對(duì)詞匯之間的相似度,實(shí)驗(yàn)二使用本文方法來(lái)計(jì)算相同詞匯對(duì)之間的相似度。分別計(jì)算他們和Words-240測(cè)試集給定的標(biāo)準(zhǔn)值之間的差值,取絕對(duì)值比較。實(shí)驗(yàn)結(jié)果如表1所示。

      表1 詞匯相似度計(jì)

      從實(shí)驗(yàn)結(jié)果可以看到:

      1)在表1 中,一共選取了13 對(duì)詞匯,其中有10對(duì)詞匯使用本文方法計(jì)算出的相似度更接近于標(biāo)準(zhǔn)值,其Value 的絕對(duì)值相比較SSCH 方法的Value的絕對(duì)值更小。這說(shuō)明本文方法在詞匯相似度計(jì)算中更加準(zhǔn)確,本文中方法在多數(shù)情況下優(yōu)于基于《知網(wǎng)》的相似度計(jì)算方法SSCH,且在使用中切實(shí)有效。

      2)在圖2 相似度結(jié)果的折線圖中,可以看出使用本文方法計(jì)算出的相似度折線走勢(shì)更貼合于標(biāo)準(zhǔn)值,且比較穩(wěn)定。

      3)SSCH 方法在醫(yī)生-責(zé)任,員工-公司,學(xué)校-教學(xué)這三個(gè)詞匯對(duì)的相似度的計(jì)算上表現(xiàn)的非常差,這說(shuō)明該方法在通用性上不如本文提出的方法。

      圖2 相似度結(jié)果比較

      5 結(jié)語(yǔ)

      本文提出一種基于百度百科的多特征信息詞匯相似度計(jì)算方法。該方法經(jīng)由百科名片、詞條正文,開(kāi)放分類和相關(guān)詞條四個(gè)部分的內(nèi)容,分別計(jì)算出它們之間的相似性值,以此來(lái)獲得一對(duì)詞匯間的整體相似性。

      從實(shí)驗(yàn)結(jié)果來(lái)看,這種新方法比現(xiàn)有方法更加可靠有效。但本文的方法也存在一些不足,一是對(duì)詞匯的同名異義缺乏研究,沒(méi)有進(jìn)行分歧處理。二是有些詞條并不完整,缺少計(jì)算所需的相關(guān)內(nèi)容。因此仍需在后續(xù)的研究中對(duì)該方法進(jìn)行相對(duì)應(yīng)的改進(jìn)。

      猜你喜歡
      百科詞條余弦
      樂(lè)樂(lè)“畫(huà)”百科
      百科小知識(shí)
      兩個(gè)含余弦函數(shù)的三角母不等式及其推論
      2016年4月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
      2016年3月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
      2016年9月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
      分?jǐn)?shù)階余弦變換的卷積定理
      圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
      大數(shù)據(jù)相關(guān)詞條
      探索百科
      镶黄旗| 曲靖市| 文登市| 资阳市| 临汾市| 海伦市| 工布江达县| 浦北县| 兴安盟| 滦南县| 天气| 克什克腾旗| 中方县| 马尔康县| 普定县| 石渠县| 利津县| 普定县| 平遥县| 霍林郭勒市| 昭平县| 会泽县| 方正县| 姜堰市| 乐安县| 镇巴县| 满洲里市| 两当县| 德兴市| 侯马市| 阳西县| 沁阳市| 新晃| 邻水| 达尔| 察哈| 富民县| 旬阳县| 靖州| 金沙县| 伊宁县|