• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文短文本語(yǔ)法語(yǔ)義相似度算法

      2016-03-15 23:17廖志芳周國(guó)恩李俊鋒劉飛蔡飛
      關(guān)鍵詞:語(yǔ)料庫(kù)

      廖志芳 周國(guó)恩 李俊鋒 劉飛 蔡飛

      摘要:通過(guò)分析中文短文本的特征,提出了一種基于語(yǔ)法語(yǔ)義的短文本相似度算法.該算法結(jié)合中文語(yǔ)句語(yǔ)義的相似性以及語(yǔ)句語(yǔ)法的相似性,即計(jì)算具有相同句法結(jié)構(gòu)的短文本的相似度以及考慮語(yǔ)句詞組順序?qū)ο嗨贫鹊呢暙I(xiàn),對(duì)中文短文本相似度進(jìn)行計(jì)算.實(shí)驗(yàn)表明,本文提出的算法在中文短文本相似度計(jì)算結(jié)果上更加接近人們的主觀判斷并且擁有比較好的精確率與召回率.

      關(guān)鍵詞:語(yǔ)法語(yǔ)義相似度;語(yǔ)句相似性計(jì)算;HowNet;語(yǔ)料庫(kù);語(yǔ)法分析;語(yǔ)義分析;相似度計(jì)算

      中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1674-2974(2016)02-0135-06

      短文本相似度計(jì)算在文章查重、信息檢索、圖像檢索、智能機(jī)器問答、詞義消歧和搜索引擎等多個(gè)領(lǐng)域有著非常廣泛的應(yīng)用[1],并在英文處理方面取得了許多實(shí)質(zhì)性的成果,如機(jī)器人語(yǔ)音對(duì)話系統(tǒng)等.但是在中文信息處理中存在一些困難,例如未登錄詞識(shí)別問題、語(yǔ)法結(jié)構(gòu)復(fù)雜和一詞多義等[2].為此本文主要研究中文短文本(語(yǔ)句)相似度計(jì)算方法,并提高計(jì)算結(jié)果的精確度.

      短文本相似度表示的是多個(gè)短文本(語(yǔ)句)之間的相似程度,屬于一種度量參數(shù),相似度值越高,則表明文本間越相似,反之越不相似[3].文本相似度包括語(yǔ)義和語(yǔ)法等方面,但是在實(shí)際中主要考慮語(yǔ)義層次的相似性,往往忽略了文本的語(yǔ)法結(jié)構(gòu)對(duì)文本相似度的重要影響.

      大量的研究證明短文本的語(yǔ)法結(jié)構(gòu)對(duì)相似性的影響是非常重要的[4],但是當(dāng)前基于HowNet[5]的中文短文本相似度計(jì)算大都是分析文本的語(yǔ)義層次的相似性,這樣就會(huì)導(dǎo)致計(jì)算結(jié)果的精確度和召回率都不高,為了提高相似度計(jì)算的精確度和召回率,本文以HowNet為語(yǔ)料庫(kù)和Stanford[6]為語(yǔ)法解析工具,在中文短文本的語(yǔ)義信息基礎(chǔ)上加入了文本的語(yǔ)法結(jié)構(gòu)信息來(lái)研究短文本相似度計(jì)算.

      1語(yǔ)句相似度計(jì)算

      HowNet主要揭示了概念間關(guān)系及概念的屬性間的關(guān)系,有關(guān)HowNet詳細(xì)介紹可見參考文獻(xiàn)[2],在此不贅述.

      義原距離定義為兩個(gè)義原間最短路徑上邊的數(shù)目[7].義原距離反映的是兩個(gè)義原的相對(duì)關(guān)系,距離越大,則表明兩者相似性越低,反之則越高.義原深度定義為兩個(gè)義原的最近公共父節(jié)點(diǎn)到根節(jié)點(diǎn)的層次數(shù).義原深度反映的是兩個(gè)義原在義原層次結(jié)構(gòu)中的絕對(duì)關(guān)系,深度越小,表明兩者越不相似,反之則越相似.

      2基于語(yǔ)法語(yǔ)義的相似度計(jì)算

      目前基于中文短文本的相似度算法中,大多數(shù)研究者著眼于語(yǔ)句的語(yǔ)義層次,然而組成一個(gè)語(yǔ)句的不單單是詞語(yǔ)本身的語(yǔ)義含義,還包括語(yǔ)法結(jié)構(gòu),例如一個(gè)句子包含不同的句法和詞語(yǔ)順序[8]等.

      最近大量實(shí)驗(yàn)證明語(yǔ)句的語(yǔ)法結(jié)構(gòu)對(duì)相似度有著重要的影響,不能忽視[4].例如,“今天我追趕了一只狗.”和“一只狗今天追趕了我.”這兩個(gè)語(yǔ)句根據(jù)人的主觀判斷,是兩種相反的意思,可是目前絕大多數(shù)相似度算法中這兩個(gè)語(yǔ)句的相似度值是極其高的,甚至是1,即完全一樣,這顯然不合適.忽視了語(yǔ)句的語(yǔ)法信息,其計(jì)算結(jié)果往往缺乏合理性.

      本文對(duì)中文語(yǔ)句的相似度算法進(jìn)行改進(jìn),在計(jì)算相似度的時(shí)候,不但考慮語(yǔ)義信息,還將語(yǔ)句的語(yǔ)法結(jié)構(gòu)加進(jìn)來(lái).本文涉及的語(yǔ)法結(jié)構(gòu)主要從3方面來(lái)進(jìn)行考慮:

      1)具有相同語(yǔ)法結(jié)構(gòu)的詞語(yǔ)集合間的相似度;

      2)兩個(gè)語(yǔ)句中所包含的語(yǔ)法結(jié)構(gòu)的相似性;

      3)經(jīng)過(guò)分詞后的詞組在語(yǔ)句中出現(xiàn)的位置的相似性.

      為了解決目前中文領(lǐng)域大多數(shù)短文本相似度計(jì)算僅僅涉及語(yǔ)句語(yǔ)義特性的缺陷,本文結(jié)合語(yǔ)句的語(yǔ)義特性和語(yǔ)法特性,進(jìn)行短文本的相似度計(jì)算.

      2.1語(yǔ)法結(jié)構(gòu)的提取

      要對(duì)語(yǔ)句的語(yǔ)法結(jié)構(gòu)進(jìn)行提取與分析,首先需要對(duì)語(yǔ)句進(jìn)行分詞.本文使用Ictclas4j分詞工具,該工具是Sinboy在中科院張華平和劉群研制的FreeICTCLAS的基礎(chǔ)上完成的一個(gè)開源中文分詞項(xiàng)目.同時(shí)使用Stanford[6]工具進(jìn)行語(yǔ)法解析,該工具是由Stanford NLP Group開發(fā)的開源工具.

      對(duì)于某一中文語(yǔ)句,經(jīng)過(guò)語(yǔ)法工具分析后,能夠得到某個(gè)詞語(yǔ)的具體詞性,斜杠后面表示的就是該詞語(yǔ)的具體詞性,如圖1所示.

      但是,僅僅知道詞語(yǔ)的具體詞性是不夠的,具體的詞性代表的是詞語(yǔ)的特性,并不表示一個(gè)語(yǔ)句的結(jié)構(gòu)組成,我們需要從中提取出語(yǔ)句的語(yǔ)法結(jié)構(gòu),例如簡(jiǎn)單從句、名詞性從句和動(dòng)詞短語(yǔ)等,然后把相應(yīng)的詞語(yǔ)或短語(yǔ)歸類到語(yǔ)法結(jié)構(gòu)集合中.

      本文通過(guò)分析漢語(yǔ)語(yǔ)法結(jié)構(gòu)的多樣性及詞語(yǔ)的具體詞性,提出一種新的語(yǔ)句語(yǔ)法結(jié)構(gòu)的提取方法,提取過(guò)程如下:

      1)使用Ictclas4j與Stanford對(duì)語(yǔ)句進(jìn)行分詞處理以及語(yǔ)法解析,得到最基本的詞語(yǔ)或短語(yǔ)的詞性標(biāo)注.

      2)進(jìn)一步分析以上獲得的結(jié)果,通過(guò)逐層解析以及句法樹分析的方式把已經(jīng)標(biāo)注好語(yǔ)法詞性的詞語(yǔ)或短語(yǔ)進(jìn)行抽取與歸納,抽取出語(yǔ)句的組成結(jié)構(gòu)類型,例如簡(jiǎn)單從句類型和動(dòng)詞短語(yǔ)類型等.

      3)最后把具有相同語(yǔ)法結(jié)構(gòu)類型的詞語(yǔ)或短句存放在相應(yīng)結(jié)構(gòu)類型的集合中,形成不同的語(yǔ)法結(jié)構(gòu)集合,例如簡(jiǎn)單從句類型集合、名詞性從句類型集合和動(dòng)詞短語(yǔ)類型集合等,實(shí)現(xiàn)對(duì)語(yǔ)句的語(yǔ)法組成結(jié)構(gòu)的分析.

      通過(guò)使用上述語(yǔ)句語(yǔ)法結(jié)構(gòu)提取方法進(jìn)行語(yǔ)句語(yǔ)法處理,提取出語(yǔ)句的語(yǔ)法結(jié)構(gòu)以及相應(yīng)所包含的詞組,如圖2所示.

      與圖1相比較,我們發(fā)現(xiàn)一個(gè)中文語(yǔ)句經(jīng)過(guò)語(yǔ)法結(jié)構(gòu)提取后,可以得到該語(yǔ)句的結(jié)構(gòu)組成,例如動(dòng)詞性短語(yǔ)和介詞性短語(yǔ)等,相比于圖1中單個(gè)詞語(yǔ)的詞性標(biāo)注,能夠得到語(yǔ)句的語(yǔ)法結(jié)構(gòu)組成,更加有利于對(duì)中文語(yǔ)句語(yǔ)法語(yǔ)義相似度的研究.因?yàn)檠芯空Z(yǔ)句的語(yǔ)法結(jié)構(gòu)時(shí),我們更加傾向于研究其整體的結(jié)構(gòu)類型組成,而不是單單某個(gè)詞語(yǔ).

      中文語(yǔ)句句法結(jié)構(gòu)類型部分見表1.

      2.2語(yǔ)句句法結(jié)構(gòu)類型相似度計(jì)算

      經(jīng)過(guò)語(yǔ)句語(yǔ)法結(jié)構(gòu)提取方法分析后,每個(gè)語(yǔ)句都被切分成若干個(gè)結(jié)構(gòu)類型,例如有的包含名詞性短語(yǔ)和動(dòng)詞性短語(yǔ)等,有的卻包括簡(jiǎn)單從句、名詞性短語(yǔ)和副詞短語(yǔ)等.

      語(yǔ)句語(yǔ)法結(jié)構(gòu)類型相似度計(jì)算思想就是計(jì)算兩個(gè)語(yǔ)句中含有相同結(jié)構(gòu)類型的個(gè)數(shù)與所有結(jié)構(gòu)類型的個(gè)數(shù)的比值.該比值反映了兩個(gè)語(yǔ)句在句法結(jié)構(gòu)上的相似性.

      定義1假設(shè)語(yǔ)句Sen1包含m個(gè)不同的句法結(jié)構(gòu)類型,分別為ST11,ST12,…,ST1m,Sen2包含n個(gè)不同的句法結(jié)構(gòu)類型,分別為ST21,ST22,…,ST2n,則句法結(jié)構(gòu)上的相似度sst計(jì)算公式如下:

      2.3語(yǔ)句詞組位置相似度計(jì)算

      中文語(yǔ)句中詞組的位置對(duì)短文本間的相似性有著重要影響,所以需要計(jì)算詞組位置的相似度[8].

      本文中采用的方法不是以單個(gè)漢字為基本單位,而是以經(jīng)過(guò)分詞后的詞組為單位,因?yàn)閱蝹€(gè)漢字包含的信息太少,詞組能夠反映更多的信息,所以以詞組為單位計(jì)算詞組位置的相似度更加合理.

      本文計(jì)算語(yǔ)句詞組位置相似度的方法如下:

      2.4基于語(yǔ)法結(jié)構(gòu)的語(yǔ)句語(yǔ)義相似度計(jì)算

      目前絕大多數(shù)的中文語(yǔ)句相似度計(jì)算方法都是根據(jù)第一個(gè)語(yǔ)句中的每個(gè)詞語(yǔ)分別和第二個(gè)語(yǔ)句中的每對(duì)詞語(yǔ)計(jì)算相似度,取最大值作為第一個(gè)語(yǔ)句中的那個(gè)詞語(yǔ)對(duì)第二個(gè)語(yǔ)句的相似度,然后第一個(gè)語(yǔ)句中每個(gè)詞語(yǔ)都這樣計(jì)算,最后取所有相似度值的均值作為第一個(gè)語(yǔ)句對(duì)第二個(gè)語(yǔ)句的相似度.

      上述的方法完全依靠語(yǔ)義信息,而忽視了語(yǔ)法結(jié)構(gòu)信息,計(jì)算結(jié)果都不太理想,因此本文把語(yǔ)法結(jié)構(gòu)信息加入計(jì)算中,即計(jì)算具有相同語(yǔ)法結(jié)構(gòu)類型的詞組間的相似度,綜合了語(yǔ)法和語(yǔ)義兩大方面.

      2.5基于語(yǔ)法語(yǔ)義的語(yǔ)句相似度計(jì)算

      基于語(yǔ)法語(yǔ)義的語(yǔ)句相似度計(jì)算方法綜合考慮了語(yǔ)法和語(yǔ)義兩方面特性,主要包括基于語(yǔ)法結(jié)構(gòu)的語(yǔ)句語(yǔ)義相似度計(jì)算、語(yǔ)句語(yǔ)法結(jié)構(gòu)類型相似度計(jì)算和語(yǔ)句詞組位置相似度計(jì)算.

      通過(guò)公式(5),(6)和(7)可以得到語(yǔ)句間的最終計(jì)算公式,見式(8).

      公式(8)表示,中文語(yǔ)句間的相似度最終由語(yǔ)句的語(yǔ)法和語(yǔ)義的相似性共同構(gòu)成.在計(jì)算短文本(語(yǔ)句)間的相似度時(shí),改變了以往僅僅考慮語(yǔ)句語(yǔ)義相似性的思路,本文不但考慮語(yǔ)義相似性,還考慮了語(yǔ)句語(yǔ)法結(jié)構(gòu)對(duì)相似性的影響.

      本文在計(jì)算語(yǔ)義相似度時(shí),加入語(yǔ)法結(jié)構(gòu)信息,即計(jì)算具有相同語(yǔ)法結(jié)構(gòu)的詞組集合間的相似度,另外充分考慮了句法結(jié)構(gòu)類型和詞組位置相似性對(duì)整體語(yǔ)句相似度的貢獻(xiàn)與影響.最終短文本(語(yǔ)句)間相似度計(jì)算更加符合中文語(yǔ)句的特點(diǎn),計(jì)算結(jié)果更加合理,與人們的主觀判斷更為接近.

      3實(shí)驗(yàn)及分析

      當(dāng)前基于語(yǔ)法的相似度計(jì)算方法多用于英文短文本處理,為進(jìn)行中文短文本相似度計(jì)算,本文采用了以下3種方法來(lái)對(duì)相似度算法進(jìn)行分析.

      方法一:劉群、李素建等[9]提出的一種相似度方法,在計(jì)算時(shí)僅僅考慮義原距離,未考慮深度.

      方法二:一種既考慮義原距離和深度,又在計(jì)算過(guò)程中加入詞語(yǔ)詞頻作為權(quán)重的方法[2],具體參數(shù)設(shè)置詳見參考文獻(xiàn)[2].

      方法三:本文中介紹的基于語(yǔ)法語(yǔ)義的短文本相似度計(jì)算方法.

      利用上述3種方法分別測(cè)試50對(duì)中文語(yǔ)句,計(jì)算語(yǔ)句(短文本)間的相似度值,部分計(jì)算結(jié)果見表2.

      3.1權(quán)重因子實(shí)驗(yàn)與分析

      利用上述實(shí)驗(yàn)數(shù)據(jù),對(duì)方法三的短文本相似度計(jì)算公式中的權(quán)重因子a和b進(jìn)行實(shí)驗(yàn)分析,獲得能夠使得計(jì)算公式的效果最佳的權(quán)重因子組合.

      采用控制變量法對(duì) a=0.35,0.45,0.55,0.65,0.75,0.85,0.90,0.95和b=0.3,0.4,0.5,0.6,0.7,0.8進(jìn)行實(shí)驗(yàn)分析,且設(shè)置相似度閾值為0.6,根據(jù)獲得的結(jié)果進(jìn)而計(jì)算得到不同的精確度和召回率.不管權(quán)重因子a和b取上述的哪個(gè)值,本文提出的相似度計(jì)算方法的召回率基本上都是差不多的,穩(wěn)定在0.882上下,這說(shuō)明了本文方法的穩(wěn)定性. 根據(jù)實(shí)驗(yàn)結(jié)果繪制本文方法在權(quán)重因子a和b不同取值時(shí)的精確度的折線圖,如圖3所示,其中橫坐標(biāo)表示a的取值,縱坐標(biāo)表示精確度,b的不同取值采用不同的線條表示.

      根據(jù)圖3分析可知,當(dāng)權(quán)重因子a的值大于0.6,b的取值在[0.4,0.6]時(shí),本文方法的精確度基本上都在0.75以上,尤其當(dāng)a值在(0.85,0.95]區(qū)間時(shí),本方法的精確度可達(dá)到最大值0.833,且比較穩(wěn)定.

      綜上所述,可以得到本文最終計(jì)算公式中的權(quán)重因子a和b的取值范圍.當(dāng)a值在(0.85,0.95]區(qū)間,且b的取值在[0.4,0.6]時(shí),本文方法的召回率以及精確度能夠同時(shí)達(dá)到比較高的水平,分別為0.882和0.833.

      3.2短文本相似度實(shí)驗(yàn)與分析

      方法三中的權(quán)重因子a和b分別取為0.88和0.5,然后對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,計(jì)算3種不同計(jì)算方法的計(jì)算結(jié)果的精確率和召回率,且設(shè)置相似度閾值為0.6,結(jié)果如圖4所示.

      根據(jù)圖4可知,在召回率基本上比較高的情況下,本文提出的方法的精確率為0.833,比方法一的0.577和方法二的0.619都要高,這說(shuō)明本文方法非常明顯地提高了查準(zhǔn)率,有效地減少了噪音數(shù)據(jù),計(jì)算結(jié)果更加能夠被人們接受.

      把實(shí)驗(yàn)數(shù)據(jù)分為近義的語(yǔ)句對(duì)集合和反義的語(yǔ)句對(duì)集合,分別進(jìn)一步分析.

      對(duì)于近義的語(yǔ)句對(duì)集合,將相似度區(qū)間分為3個(gè),圖5描述了不同方法在每個(gè)區(qū)間內(nèi)近義語(yǔ)句對(duì)占所有近義語(yǔ)句對(duì)的比例.方法一中接近一半的語(yǔ)句對(duì)的相似度值在(0.8,1]間,其在(0.5,8]間的語(yǔ)句對(duì)還不到一半,因?yàn)檎Z(yǔ)句對(duì)沒有完全一樣的,所以計(jì)算結(jié)果偏高,且還有一些語(yǔ)句對(duì)的相似度低于0.5,顯然其計(jì)算結(jié)果不合理.方法二中大概82.00%的語(yǔ)句對(duì)的相似度值都在(0.5,8]之間,比較符合實(shí)際,但是其計(jì)算結(jié)果中仍然有低于0.5的,結(jié)果也不太理想.而方法三中在(0.8,1]之間的不到25.00%,絕大部分都是在(0.5,8]之間,沒有低于0.5的,這樣的計(jì)算結(jié)果顯然更加合理,更接近人們的主觀判斷.

      對(duì)于反義語(yǔ)句對(duì)集合,把相似度區(qū)間分為4個(gè),圖6描述了不同方法分別在每個(gè)區(qū)間中的測(cè)試語(yǔ)句對(duì)所占的比例.由圖可知,方法一和方法二在相似度大于0.5時(shí)大概都有75.00%的反義語(yǔ)句對(duì),而低于0.5的卻只有25.00%,顯然它們的計(jì)算結(jié)果都非常不理想,計(jì)算粗糙.而方法三在(0.5,1]區(qū)間中只有29.00%左右的反義語(yǔ)句對(duì),且約71.00%的語(yǔ)句相似度都是低于0.5.顯然方法三計(jì)算結(jié)果更加合理和精確.另外由表2可知,有些語(yǔ)句意思明明是完全相反的,可方法一和方法二計(jì)算結(jié)果都非常高,甚至是1,而方法三卻能夠得到非常合理的結(jié)果.

      由上述實(shí)驗(yàn)結(jié)果可知,本文提出的方法相比于方法一和方法二,具有比較好的查全率,并且其精確率更高,能夠非常有效地減少噪音數(shù)據(jù)的產(chǎn)生,更加接近人們的主觀判斷.

      4結(jié)論

      本文以HowNet為詞典庫(kù),以Stanford為語(yǔ)法解析工具,并在此基礎(chǔ)上研究了本文提出的基于語(yǔ)法語(yǔ)義的中文短文本的相似度計(jì)算.

      在本文描述的方法中,我們結(jié)合語(yǔ)句的語(yǔ)法結(jié)構(gòu)和語(yǔ)義信息計(jì)算整個(gè)語(yǔ)句的相似度,即計(jì)算具有相同語(yǔ)法結(jié)構(gòu)的詞組間的語(yǔ)義相似度以及考慮語(yǔ)法結(jié)構(gòu)類型間相似性和詞組位置相似性對(duì)整個(gè)語(yǔ)句相似度的影響.即使兩個(gè)語(yǔ)句完全一樣,但是語(yǔ)句結(jié)構(gòu)不同或詞組位置不同,也會(huì)導(dǎo)致意思完全不一樣,這樣的計(jì)算方式與人們的主觀判斷更加接近,也符合中文語(yǔ)句(短文本)的復(fù)雜性特點(diǎn).

      本文研究的方法在一定程度上解決了目前中文領(lǐng)域基于HowNet進(jìn)行短文本相似度計(jì)算的方法中存在的結(jié)果不合理現(xiàn)象.通過(guò)實(shí)驗(yàn)對(duì)3種方法進(jìn)行對(duì)比分析,證明了本文描述的中文短文本相似度方法更合理,具有比較好的召回率和精確率.

      參考文獻(xiàn)

      [1]蔣溢,丁優(yōu),熊安萍,等.一種基于知網(wǎng)的詞匯語(yǔ)義相似度改進(jìn)計(jì)算方法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2009,21(4): 533-537.

      JIANG Yi, DING You, XIONG An-ping, et al. An improved computation method of words semantic similarity based on HowNet[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science, 2009,21(4): 533-537.(In Chinese)

      [2]廖志芳,邱麗霞,謝岳山, 等.一種頻率增強(qiáng)的語(yǔ)句語(yǔ)義相似度計(jì)算[J]. 湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2013,40(2):82-88.

      LIAO Zhi-fang, QIU Li-xia, XIE Yue-shan, et al. A frequency enhanced algorithm of sentence semantic similarity[J]. Journal of Hunan University: Natural Sciences, 2013,40(2): 82-88.(In Chinese)

      [3]李連,朱愛紅,蘇濤.一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):282-284.

      LI Lian, ZHU Ai-hong, SU Tao. Research and implementation of an improved VSM-based text similarity algorithm[J]. Computer Applications and Software, 2012,29(2):282-284.(In Chinese)

      [4]OLIVA J, SERRANO J I, CASTILLO M D, et al. SyMSS: a syntax-based measure for short-text semantic similarity[J]. Data & Knowledge Engineering, 2011,70(4):390-405.

      [5]董振東,董強(qiáng).關(guān)于知網(wǎng)—中文信息結(jié)構(gòu)庫(kù)[EB/OL]//http://www.keenage.com/html/c_index.html.

      DONG Zhen-dong, DONG Qiang.Chinese information database based on CNKI[EB/OL]//www.heenage, com/html/C.cndex.html.(In Chinese)

      [6]The Stanford Natural Language Processing Group. The Stanford NLP[EB/OL]//http://nlp.stanford.edu/software/lex-parser.shtml.

      [7]ISLAM A, INKPEN D. Semantic text similarity using corpus-based word similarity and string similarity[R]. Ottawa:University of Ottawa,2008.

      [8]LI Y H, MCLEAN D, BANDAR Z A, et al. Sentence similarity based on semantic nets and corpus statistics[J]. IEEE Transactions on Knowledge and Data Engineering,2006,18(8):1138-1150.

      [9]劉群,李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆語(yǔ)義學(xué)研討會(huì)論文集. 臺(tái)北:臺(tái)北中央研究院,2002: 149-163.

      LIU Qun, LI Su-jian. How net-based lexical semantic similarity calculation[C]//Third Semantics Workshop Proceedings. Taipei: Academia Sinica, 2002: 149-16. (In Chinese)

      猜你喜歡
      語(yǔ)料庫(kù)
      語(yǔ)料庫(kù)輔助英美文學(xué)教學(xué)模式初探
      可比語(yǔ)料庫(kù)的建立及翻譯教學(xué)研究
      基于語(yǔ)料庫(kù)翻譯學(xué)的廣告翻譯平行語(yǔ)料庫(kù)問題研究
      護(hù)理英語(yǔ)語(yǔ)料庫(kù)建設(shè)探索
      如何利用語(yǔ)料庫(kù)語(yǔ)言學(xué)提高英語(yǔ)教學(xué)
      淺談?wù)Z料庫(kù)分類及用途
      近5年語(yǔ)料庫(kù)應(yīng)用于外語(yǔ)教學(xué)的研究綜述
      國(guó)內(nèi)外語(yǔ)料庫(kù)建設(shè)研究簡(jiǎn)述
      運(yùn)用語(yǔ)料庫(kù)輔助高中英語(yǔ)寫作
      關(guān)于“nothing succeeds without a strong will”的語(yǔ)料庫(kù)研究
      北宁市| 清原| 喀什市| 上林县| 金乡县| 襄汾县| 洛隆县| 霍邱县| 沁阳市| 昭苏县| 鹿邑县| 体育| 称多县| 建湖县| 广东省| 太保市| 五大连池市| 班玛县| 敦煌市| 巨鹿县| 祁门县| 五华县| 大关县| 岗巴县| 莎车县| 庄浪县| 凤山县| 加查县| 南宫市| 英超| 陇南市| 隆林| 荔波县| 潮安县| 罗山县| 景德镇市| 澄城县| 辰溪县| 京山县| 仪陇县| 湖口县|