• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種實(shí)體描述短文本相似度計(jì)算方法

      2015-04-29 00:39:04秦添軼林蟬宋博宇關(guān)毅
      關(guān)鍵詞:知網(wǎng)文本分類

      秦添軼 林蟬 宋博宇 關(guān)毅

      摘 要:中文實(shí)體描述短文本具有詞語(yǔ)稀疏、語(yǔ)義離散、用詞等特點(diǎn)。本文分析《知網(wǎng)》義原網(wǎng)絡(luò)和詞語(yǔ)相似度的關(guān)系,提出了短文本間語(yǔ)義相似度部分和短文本分類部分相結(jié)合的實(shí)體描述短文本間相似度計(jì)算方法。語(yǔ)義相似度部分分析《知網(wǎng)》義原網(wǎng)絡(luò)和詞語(yǔ)間相似度的關(guān)系,在計(jì)算詞語(yǔ)間相似度和短文本間相似度的過(guò)程中弱化了淺層《知網(wǎng)》義原影響并均衡了義原權(quán)重,使義原相似度計(jì)算結(jié)果更加合理。短文本分類部分將短文本分解為義原向量,根據(jù)特定領(lǐng)域短文本的義原分布情況進(jìn)行短文本分類。兩部分結(jié)合得到實(shí)體描述短文本間相似度。本文方法的有效性在百度知識(shí)圖譜數(shù)據(jù)分析競(jìng)賽任務(wù)1的測(cè)試結(jié)果中得到了證明。

      關(guān)鍵詞:實(shí)體描述短文本;文本分類;文本相似度;《知網(wǎng)》

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-2163(2015-)02-

      A Short Text Description Similarity Computation Method for Chinese Entities

      QIN Tian-yi1, LIN Chan2, SONG Bo-yu2, GUAN Yi1

      (1. School of Computer Science and Technology Harbin Institute of Technology, Harbin, Heilongjiang, 150001, China ;

      2. School of Software Harbin Institute of Technology, Harbin, Heilongjiang, 150001, China ; )

      Abstract: Short text description for Chinese entities has features of statistical sparsity, semantic discretization and irregular vocabulary. This research analyses the relationship between sememe network and word similarity in Hownet and presents a short text description similarity computation method that is consist of semantic similarity part and short text classification part. In the semantic similarity part, the method weakens the influence of Hownets shallow sememes and balances weights of sememes. In the short text classification part, the method transforms short texts into sememe vectors and classifies them according to the distribution of sememes in certain fields.Take average results of those two parts to generate short text description similarity. Effectiveness of the method is proved by task 1 of Baidu knowledge map analyzing competition.

      Keywords: Short text description for Chinese entities;Text categorization;Text similarity;Hownet

      0引言

      中文實(shí)體是中文文本中名詞性詞匯或短語(yǔ)的統(tǒng)稱,本文處理的中文實(shí)體,包括電影、電視劇、電視節(jié)目、軟件應(yīng)用、電子游戲和歌曲的名稱,在互聯(lián)網(wǎng)上常用短文本描述。一般認(rèn)為,短文本是長(zhǎng)度不超過(guò)200個(gè)字符的文本[1],具有詞語(yǔ)稀疏、語(yǔ)義離散和用詞隨意等特點(diǎn)[2]。實(shí)體的定義通常由實(shí)體描述短文本給出,實(shí)體描述短文本間的相似度即是對(duì)應(yīng)的實(shí)體間相似度。短文本間相似度計(jì)算是近年來(lái)自然語(yǔ)言處理的研究熱點(diǎn)之一,被廣泛應(yīng)用于信息檢索、反作弊系統(tǒng)、智能問(wèn)答系統(tǒng)、智能推薦系統(tǒng)、文本自動(dòng)分類、機(jī)器翻譯中。

      文本間相似度計(jì)算方法大多通過(guò)統(tǒng)計(jì)分詞后文本的詞頻信息,將文本建模為向量,利用向量間余弦相似度、Jaccard相似度等方法計(jì)算文本相似度。文本間相似度也可以通過(guò)文本分類來(lái)近似。文本間相似度計(jì)算方法通常只考慮文本中單個(gè)詞語(yǔ)的統(tǒng)計(jì)特性而沒(méi)有考慮文本整體的語(yǔ)義特性,并在處理短文本時(shí)會(huì)生成稀疏的高維向量,容易出現(xiàn)語(yǔ)義漂移問(wèn)題。

      本文利用《知網(wǎng)》的語(yǔ)義知識(shí)資源和概念網(wǎng)絡(luò),針對(duì)短文本特點(diǎn),提出了短文本間語(yǔ)義相似度部分和短文本分類部分相結(jié)合的實(shí)體描述短文本間相似度計(jì)算方法。

      1相關(guān)工作

      1.1 《知網(wǎng)》

      《知網(wǎng)》是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)[3]。詞語(yǔ)的語(yǔ)義在《知網(wǎng)》中通過(guò)一個(gè)或多個(gè)概念來(lái)描述,而每一個(gè)概念由義原來(lái)描述。義原是《知網(wǎng)》中最小的、不可再分割的語(yǔ)義單位,《知網(wǎng)》作者用1 600多個(gè)義原對(duì)8萬(wàn)多個(gè)中文詞匯進(jìn)行描述,義原的上下位關(guān)系為所有義原建立起一個(gè)包含多個(gè)子樹(shù)的多層義原網(wǎng)絡(luò)[4]。

      1.2 基于《知網(wǎng)》的文本間語(yǔ)義相似度計(jì)算

      義原間相似度的計(jì)算方法可以分為兩類:基于節(jié)點(diǎn)之間路徑長(zhǎng)度的方法和基于節(jié)點(diǎn)之間共有信息大小的方法[5]。基于節(jié)點(diǎn)之間路徑長(zhǎng)度的方法需要計(jì)算兩個(gè)節(jié)點(diǎn)在義原網(wǎng)絡(luò)上的最短距離,基于節(jié)點(diǎn)之間共有信息大小的方法需要計(jì)算兩個(gè)節(jié)點(diǎn)最近的共同祖先節(jié)點(diǎn)含有的子節(jié)點(diǎn)個(gè)數(shù)。許多學(xué)者已經(jīng)在義原間相似度的問(wèn)題上做了大量的研究,如劉群[4]、李峰[5]、吳健[6]、Dekang Lin[7]、Resnik[8]、江敏[9]等。詞語(yǔ)間相似度可由義原間相似度合成。

      在文本間相似度計(jì)算方面,文獻(xiàn)[10]通過(guò)統(tǒng)計(jì)出兩個(gè)直接義原集合間的共有信息和差異信息來(lái)計(jì)算集合間的相似度,并把該方法引進(jìn)到詞語(yǔ)間和句子間相似度的計(jì)算中去。文獻(xiàn)[11]基于向量空間模型,計(jì)算關(guān)鍵詞的語(yǔ)義相似度并采用最大權(quán)匹配方法計(jì)算兩個(gè)文本向量間的相似度。文獻(xiàn)[12]強(qiáng)調(diào)了除第一獨(dú)立義原以外其它義原的獨(dú)立性,用兩個(gè)文本中實(shí)詞間的相似度構(gòu)成特征矩陣,遞歸刪除最大元素所在行、得到詞語(yǔ)最大組合序列進(jìn)而計(jì)算句子間相似度和段落間相似度。文獻(xiàn)[13]在詞語(yǔ)間相似度中加入了主要義原對(duì)次要義原的抑制因素。

      1.3 短文本間語(yǔ)義相似度計(jì)算

      由于短文本具有詞語(yǔ)稀疏和語(yǔ)義離散的特點(diǎn),其中包含的信息量有限。通過(guò)文本間相似度計(jì)算方法得到的短文本間相似度偏差較大?,F(xiàn)有的短文本間語(yǔ)義相似度計(jì)算方法大多需要構(gòu)建知識(shí)庫(kù)或利用已有的知識(shí)庫(kù),這些方法的普適性普遍較差。

      2實(shí)體描述短文本語(yǔ)義相似度計(jì)算方法概述

      本文從短文本間語(yǔ)義相似度和短文本分類兩個(gè)部分出發(fā)計(jì)算實(shí)體描述短文本間相似度,并將兩部分相似度的平均值作為實(shí)體描述短文本間相似度計(jì)算的最終結(jié)果。

      短文本間語(yǔ)義相似度部分首先根據(jù)《知網(wǎng)》義原網(wǎng)狀結(jié)構(gòu)中的義原節(jié)點(diǎn)深度、義原子節(jié)點(diǎn)數(shù)量、義原節(jié)點(diǎn)間最短路徑長(zhǎng)度等信息計(jì)算義原間相似度,再通過(guò)較小語(yǔ)義單位間相似度計(jì)算較大語(yǔ)義單位間相似度,逐步計(jì)算義項(xiàng)、詞語(yǔ)和短文本間相似度。

      短文本分類部分將短文本分解為義原向量,再?gòu)姆纸鉃榱x原向量的網(wǎng)絡(luò)語(yǔ)料中抽取特征義原,訓(xùn)練一個(gè)樸素貝葉斯分類器,并通過(guò)兩篇短文本的分類結(jié)果計(jì)算兩者之間的相似度。

      3短文本間相似度計(jì)算方法的語(yǔ)義相似度部分

      3.1 義原間相似度計(jì)算

      本文分別采用基于節(jié)點(diǎn)之間路徑長(zhǎng)度的方法和基于節(jié)點(diǎn)間共有信息大小的方法計(jì)算義原間相似度?;诠?jié)點(diǎn)之間路徑長(zhǎng)度的方法以李峰[5]等人的公式為基礎(chǔ):

      (1)

      其中,S1和S2表示兩個(gè)義原,distance(S1,S2)表示兩個(gè)義原在《知網(wǎng)》義原網(wǎng)狀結(jié)構(gòu)上的最短路徑長(zhǎng)度,depth1和depth2是兩個(gè)義原在義原網(wǎng)狀結(jié)構(gòu)中各自所在的層次,即義原深度,是一個(gè)調(diào)節(jié)參數(shù),代表Sim值為0.5時(shí)兩個(gè)義原的最短路徑長(zhǎng)度。這個(gè)公式利用義原之間的上下位關(guān)系,以兩個(gè)義原在義原網(wǎng)絡(luò)上的路徑長(zhǎng)度作為義原間相似度計(jì)算的基礎(chǔ)。

      本文發(fā)現(xiàn),在利用公式(1)進(jìn)行義原間相似度計(jì)算時(shí),義原深度較淺的葉節(jié)點(diǎn)義原參與的相似度計(jì)算結(jié)果普遍偏低,而義原深度較深的非葉節(jié)點(diǎn)義原參與的相似度計(jì)算結(jié)果普遍偏高。由于《知網(wǎng)》的義原形成的是一個(gè)網(wǎng)狀結(jié)構(gòu)而不只是一顆義原樹(shù),義原的絕對(duì)深度不能直接反應(yīng)其相應(yīng)的具體程度。本文提出”義原相對(duì)深度”的概念來(lái)表達(dá)義原的具體程度,義原相對(duì)深度可以通過(guò)義原深度和義原所在樹(shù)深度計(jì)算:

      (2)

      其中,depth1是義原在義原網(wǎng)狀結(jié)構(gòu)中的深度,length(treeof(S1))是義原S1所在的子樹(shù)中,經(jīng)過(guò)S1的根節(jié)點(diǎn)-葉節(jié)點(diǎn)路徑的最短長(zhǎng)度。

      本文提出基于節(jié)點(diǎn)之間路徑長(zhǎng)度的公式:

      (3)

      這個(gè)公式可以平衡”event|事件”樹(shù)等深度較大的樹(shù)對(duì)相似度計(jì)算的影響,使位于深度較小的樹(shù)深層的義原也可以獲得較大的相似度值。

      本文在Dekang Lin[7]的公式基礎(chǔ)上引入義原相對(duì)深度,得到基于共有信息的義原間相似度計(jì)算公式:

      (4)

      其中,p(S)表示兩個(gè)義原最近公共父節(jié)點(diǎn)的子節(jié)點(diǎn)個(gè)數(shù)與其所在義原樹(shù)中所有節(jié)點(diǎn)個(gè)數(shù)的比,p(S1)和p(S2)是兩個(gè)義原連接的節(jié)點(diǎn)個(gè)數(shù)與其所在義原樹(shù)中所有節(jié)點(diǎn)個(gè)數(shù)的比。deep(S1)和deep(S2)表示兩個(gè)義原用(2)式計(jì)算得到的相對(duì)深度。

      本文將(3)式和(4)式結(jié)果的平均值作為義原間相似度計(jì)算的結(jié)果。

      3.2 義項(xiàng)間相似度計(jì)算和詞語(yǔ)間相似度計(jì)算

      《知網(wǎng)》中用于描述一個(gè)實(shí)詞義項(xiàng)的特征結(jié)構(gòu)可以分為四個(gè)部分[4]:第一獨(dú)立義原描述式、其它獨(dú)立義原描述式、關(guān)系義原描述式和符號(hào)義原描述式。

      兩個(gè)義項(xiàng)間的整體相似度可以表示為:

      (5)

      其中,βi(1≤i≤4)是用于調(diào)節(jié)四個(gè)部分權(quán)重的參數(shù),且β1+β2+β3+β4=1。

      不同義項(xiàng)包含的各類義原對(duì)描述義項(xiàng)起到的貢獻(xiàn)不同?!吨W(wǎng)》中不同詞語(yǔ)所對(duì)應(yīng)的義原數(shù)量差別很大,如果將四個(gè)部分的權(quán)重參數(shù)βi(1≤i≤4)設(shè)置為常數(shù),會(huì)導(dǎo)致一定程度的偏差。

      本文根據(jù)參與義項(xiàng)間相似度計(jì)算的兩個(gè)義項(xiàng)的義原分布情況,為其動(dòng)態(tài)設(shè)置權(quán)重:

      (6)

      其中,ci(1≤i≤4)是兩個(gè)義項(xiàng)中四種義原的合計(jì)數(shù)量。

      計(jì)算兩個(gè)詞語(yǔ)間的相似度時(shí),本文把相應(yīng)的義項(xiàng)兩兩結(jié)合,形成一個(gè)完全二分圖,計(jì)算二分圖每條邊上兩個(gè)頂點(diǎn)間的相似度,取相似度的最大值作為兩個(gè)詞語(yǔ)間的相似度。

      3.3 短文本間相似度計(jì)算

      本文用詞語(yǔ)間相似度計(jì)算短文本間相似度,采用文獻(xiàn)[12]的方法,建立起一個(gè)相似度特征矩陣,并通過(guò)詞語(yǔ)間相似度的最大組合序列計(jì)算文本間相似度。

      在計(jì)算短文本間相似度時(shí),本文統(tǒng)計(jì)《知網(wǎng)》中所有詞語(yǔ)的tf-idf值,利用參數(shù)來(lái)降低與高逆文本頻率詞、單字詞和多義項(xiàng)詞相關(guān)的相似度計(jì)算結(jié)果:

      (7)

      其中,c1、c2、c3分別是用于降低高逆文本頻率詞、單字詞和多義項(xiàng)詞參與的詞語(yǔ)相似度的參數(shù)。整句相似度由各集合加權(quán)平均得到。

      4短文本相似度計(jì)算方法的短文本分類部分

      本文將實(shí)體描述短文本分解為義原向量,根據(jù)短文本的義原分布情況為其分類,再根據(jù)分類結(jié)果計(jì)算實(shí)體描述短文本間相似度。短文本語(yǔ)義相似度方法和短文本分類方法輸出的相似度平均值即是實(shí)體描述短文本間相似度的最終結(jié)果。

      4.1 用義原向量描述短文本

      短文本分類部分用義原向量來(lái)表示短文本。本文采用文獻(xiàn)[14]提出了將文本根據(jù)義原系數(shù)分解為義原向量的方法,并結(jié)合文獻(xiàn)[15]的概念排歧方法。系統(tǒng)設(shè)計(jì)如圖1所示。

      圖1 文本分解為義原向量流程圖

      Fig.1 Flow chart of text transforming into sememe vector

      4.2 特征抽取和模型訓(xùn)練

      為了得到一篇短文本屬于各個(gè)分類的概率并保持較高的計(jì)算效率,本文選擇樸素貝葉斯分類器來(lái)為實(shí)體描述短文本分類。研究將每個(gè)實(shí)體的描述短文本按4.1的方法整理為義原向量??紤]到非葉節(jié)點(diǎn)義原的表意模糊,本文從義原向量中刪除所有非葉節(jié)點(diǎn)義原。

      生成義原向量之后,本文需要在葉節(jié)點(diǎn)義原中抽取出n個(gè)適用于分類的義原作為分類特征。文獻(xiàn)[16]提出了四種特征抽取方法:文檔頻率、信息增益、CHI統(tǒng)計(jì)和互信息。本文選擇信息增益(IG)法、χ2統(tǒng)計(jì)量(CHI)法和互信息(MI)法作為特征選擇的方法。當(dāng)一個(gè)義原的信息增益、CHI值和互信息均大于特定閾值時(shí),這個(gè)義原作為表達(dá)文本的特征。

      本文將每個(gè)文本表示為一個(gè)n維特征向量,X={x1,x2,......xn},其中xi表示文本中對(duì)應(yīng)義原的出現(xiàn)次數(shù),以九類電影簡(jiǎn)介信息生成的特征向量作為訓(xùn)練集,建立樸素貝葉斯分類模型。

      4.3 相似度計(jì)算

      本文通過(guò)樸素貝葉斯分類模型,計(jì)算兩篇短文本屬于每一個(gè)類別ci的后驗(yàn)概率P(ci|X),并將其整理為向量形式:Y1=(c1first,p1first,c1second,p1second)和Y2=(c2first,p2first,c2second,p2second)。

      其中,cfirst為特征向量在樸素貝葉斯分類器中后驗(yàn)概率最高的分類,cfirst為其所對(duì)應(yīng)的后驗(yàn)概率,csecond為特征向量在樸素貝葉斯分類器中后驗(yàn)概率次高的分類,psecond為其所對(duì)應(yīng)的后驗(yàn)概率。通過(guò)向量Y1和Y2計(jì)算短文本間相似度的方法如表1所示。

      表1 通過(guò)短文本向量計(jì)算相似度值

      Tab.1 Calculate similarity value using vectors of short text

      條件

      相似度值

      c1first=c2first

      max(c1first,c2first)

      c1second=c2first

      c1second*c2first

      c1first=c2second

      c1first*c2second

      c1second=c2second

      0.8*c1second*c2second

      其它

      0.1

      5.實(shí)驗(yàn)及結(jié)果分析

      本文的實(shí)驗(yàn)建立在百度知識(shí)圖譜數(shù)據(jù)分析競(jìng)賽任務(wù)一:實(shí)體相似度計(jì)算的基礎(chǔ)之上,并以其評(píng)測(cè)結(jié)果為基準(zhǔn)。百度知識(shí)圖譜數(shù)據(jù)分析競(jìng)賽給出的數(shù)據(jù)集包括11 463組實(shí)體屬性數(shù)據(jù)和8 001組實(shí)體間相似度數(shù)據(jù)。參與實(shí)驗(yàn)的實(shí)體描述文本平均長(zhǎng)度約為159字。

      本文用8 001組實(shí)體間相似度數(shù)據(jù)進(jìn)行訓(xùn)練并通過(guò)機(jī)器學(xué)習(xí)得到相似度計(jì)算模型,再用來(lái)為1 991組測(cè)試數(shù)據(jù)進(jìn)行打分。本文方法給出的相似度評(píng)分Sc將與百度給出的人工標(biāo)注結(jié)果Sm進(jìn)行對(duì)比,計(jì)算相似度評(píng)分向量(Sc1,Sc2,......Sc1991)和標(biāo)注結(jié)果(Sm1,Sm2,......Sm1991)的歐氏距離,最終測(cè)試結(jié)果表示為:

      (8)

      短文本間語(yǔ)義相似度計(jì)算公式(7)的參數(shù)設(shè)置如表2所示。

      表2實(shí)驗(yàn)中公式(7)的參數(shù)設(shè)置情況

      Tab.2 Parameter of Eq.(7) in experiment

      參數(shù)名

      參數(shù)意義

      取值條件

      參數(shù)值

      c1

      降低tf-idf值較低詞語(yǔ)參與的相似度計(jì)算結(jié)果

      tf-idf(w1)>α且tf-idf(w2)>α

      1

      tf-idf(w1)<β且tf-idf(w2)<β

      0.5

      其它

      0.8

      c2

      降低單字詞語(yǔ)參與的相似度計(jì)算結(jié)果

      w1或w2是單字詞

      0.9

      其它

      1

      c3

      降低多義項(xiàng)詞語(yǔ)參與的相似度計(jì)算結(jié)果

      w1和w2都是多義項(xiàng)詞

      0.9

      其它

      1

      為了證明方法的有效性和短文本分類部分的必要性,本文對(duì)短文本間語(yǔ)義相似度的計(jì)算結(jié)果和兩種方法結(jié)合后的計(jì)算結(jié)果分別進(jìn)行測(cè)試,測(cè)試結(jié)果如表3所示。

      表3 語(yǔ)義相似度方法和語(yǔ)義相似度、短文本分類綜合方法的實(shí)驗(yàn)結(jié)果

      Tab.3 Result of semantic similarity method and synthetic method of semantic similarity and short text classification

      方法

      D值

      排名

      語(yǔ)義相似度方法

      26.31

      26

      語(yǔ)義相似度、短文本分類綜合方法

      24.80

      5

      兩種方法的綜合結(jié)果得到了較小的D值,證明短文本分類方法有效地提高了實(shí)體描述短文本相似度計(jì)算的準(zhǔn)確率。

      6結(jié)束語(yǔ)

      本文提出了基于分類和語(yǔ)義網(wǎng)的實(shí)體間相似度計(jì)算方法,利用《知網(wǎng)》的語(yǔ)義網(wǎng)絡(luò)資源,提出了自己的義原間相似度、詞語(yǔ)間相似度、短文本間相似度表達(dá)式;并將短文本分解為義原向量,根據(jù)短文本的義原頻率分布訓(xùn)練文本分類器,并通過(guò)分類結(jié)果計(jì)算兩個(gè)文本間的相似度,最后在實(shí)驗(yàn)中分析驗(yàn)證了模型的有效性。

      參考文獻(xiàn):

      [1] 柴春梅.互聯(lián)網(wǎng)短文本信息分類關(guān)鍵技術(shù)研究[D] 上海,上海交通大學(xué),2009.

      [2] 路榮,項(xiàng)亮,劉明榮,楊青. 基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J]. 模式識(shí)別與人工智能,2012,25(3):382-387.

      [5] 董振東,董強(qiáng).知網(wǎng)[DB/OL].[2011-06-23].http://www.keenage.com.

      [4] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集.臺(tái)北:[s.n.],2002:59-76.

      [5] 李峰,李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99-105.

      [6] 吳健,吳朝暉,李瑩,等.基于本體論和詞匯語(yǔ)義相似度的Web服務(wù)發(fā)現(xiàn)[J].Chinese Journal of Computers,2005,28(4).

      [7] LIN Dekang. An information-theoretic definition of similarity semantic distance in WordNet[C]//Proceedings of the Fifteenth International Conference on Machine Learning.San Francisco, CA:[s.n.],1998.

      [8] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy[J]. arXiv preprint cmp-lg/9511007, 1995.

      [9] 江敏,肖詩(shī)斌,王弘蔚,施水才.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,22(5):84-89.

      [10] 劉青磊,顧小豐.基于《知網(wǎng)》的詞語(yǔ)相似度算法研究[J].中文信息學(xué)報(bào),2010,24(5):31-36.

      [11] 朱征宇,苑昆峰,陳杏環(huán).一種基于最大權(quán)匹配計(jì)算的信息檢索方法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(33):176-179.

      [12] 金博,史彥軍,滕弘飛. 基于語(yǔ)義理解的文本相似度算法[J]. 大連理工大學(xué)學(xué)報(bào),2005,45(2):291-297.

      [13] 李培. 基于《知網(wǎng)》的文本相似度研究[D]. 天津:河北工業(yè)大學(xué),2012.

      [14] 蘇偉峰,李紹滋,李堂秋.一個(gè)基于概念的中文文本分類模型[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(5):193-195.

      [15] 蘇偉峰. 基于概念的文本自動(dòng)分類研究[D].廈門(mén):廈門(mén)大學(xué),2002.

      [16] 代六玲,黃河燕,陳肇雄. 中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報(bào),2014,18(1):26-32.

      1 作者簡(jiǎn)介:秦添軼(1993-),男,黑龍江哈爾濱人,主要研究方向:自然語(yǔ)言處理、智能化信息檢索。

      猜你喜歡
      知網(wǎng)文本分類
      著作權(quán)使用聲明
      基于知網(wǎng)的翻譯研究方向畢業(yè)論文寫(xiě)作
      近三年維吾爾語(yǔ)言研究情況綜述
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      基于貝葉斯分類器的中文文本分類
      基于蟻群智能算法的研究文本分類
      基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
      基于K—means算法的文本分類技術(shù)研究
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      富民县| 台东市| 镇赉县| 佳木斯市| 芦溪县| 武冈市| 慈利县| 拜城县| 礼泉县| 西昌市| 大兴区| 水富县| 垣曲县| 中西区| 丽江市| 青冈县| 宜州市| 垦利县| 郸城县| 普宁市| 泸西县| 中宁县| 齐河县| 夏邑县| 繁峙县| 饶河县| 固原市| 林周县| 双辽市| 剑川县| 新余市| 临桂县| 麦盖提县| 宜君县| 遵化市| 双流县| 诸暨市| 葵青区| 万盛区| 岚皋县| 新郑市|