• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于LabVIEW的通用飛機(jī)鉛酸蓄電池測(cè)試系統(tǒng)設(shè)計(jì)

      2021-01-06 08:57:20呂偉張逸群胡天翔孫亮
      關(guān)鍵詞:決策樹(shù)

      呂偉 張逸群 胡天翔 孫亮

      摘 要:設(shè)計(jì)了一種基于決策樹(shù)算法的N1+N2結(jié)構(gòu)語(yǔ)法關(guān)系判定方法。首先建立了該結(jié)構(gòu)的語(yǔ)料庫(kù),對(duì)每條語(yǔ)料都標(biāo)注構(gòu)建特征集所需的詞性、《同義詞詞林》語(yǔ)義編碼、語(yǔ)法關(guān)系和詞義相似度等信息;然后為證明相似度在判斷語(yǔ)法關(guān)系中的合理性,根據(jù)語(yǔ)言學(xué)原理研究了N1+N2結(jié)構(gòu)兩個(gè)名詞間語(yǔ)義相似度與語(yǔ)法關(guān)系之間的內(nèi)在規(guī)律:①?gòu)恼Z(yǔ)法關(guān)系的角度比較兩個(gè)名詞間的語(yǔ)義相似度結(jié)果為:并列關(guān)系>復(fù)指關(guān)系>定中關(guān)系>主謂關(guān)系;②從語(yǔ)言功能焦點(diǎn)的角度比較兩個(gè)名詞間的語(yǔ)義相似度結(jié)果為:并焦型短語(yǔ)>后焦型短語(yǔ)。最后以此為基礎(chǔ)構(gòu)建了特征集,運(yùn)用決策樹(shù)C4.5算法建立了自動(dòng)判定N1+N2結(jié)構(gòu)語(yǔ)法關(guān)系的方法。運(yùn)用該算法在自建語(yǔ)料庫(kù)的測(cè)試集中進(jìn)行測(cè)試,正確率為89.39%。

      關(guān)鍵詞:詞義相似度;《同義詞詞林》;短語(yǔ)層級(jí);語(yǔ)法關(guān)系;決策樹(shù)

      中圖分類(lèi)號(hào):TP391.1 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

      短語(yǔ)層級(jí)語(yǔ)法關(guān)系判定是自然語(yǔ)言處理中的重要基礎(chǔ)性研究,其研究成果在信息抽取、信息檢索、機(jī)器翻譯等諸多領(lǐng)域都有著實(shí)際應(yīng)用[1]。在自然語(yǔ)言處理過(guò)程中,短語(yǔ)是詞和句子之間的過(guò)度層級(jí),短語(yǔ)層級(jí)的語(yǔ)法關(guān)系判定結(jié)果對(duì)于詞層級(jí)的信息標(biāo)注具有重要的驗(yàn)證作用;對(duì)于句子層級(jí)的信息標(biāo)注也起到至關(guān)重要的基礎(chǔ)性作用。

      N1+N2結(jié)構(gòu)是中文信息處理中的高頻短語(yǔ)結(jié)構(gòu),從語(yǔ)法關(guān)系角度可以分為“并列、復(fù)指、定中、主謂”四種關(guān)系類(lèi)型的短語(yǔ)[2-3],對(duì)N1+N2結(jié)構(gòu)語(yǔ)法關(guān)系判定問(wèn)題實(shí)質(zhì)上就是對(duì)一條語(yǔ)料進(jìn)行四種關(guān)系的分類(lèi)問(wèn)題,對(duì)于該結(jié)構(gòu)語(yǔ)法關(guān)系的準(zhǔn)確分類(lèi),將會(huì)提升自然語(yǔ)言處理在實(shí)際應(yīng)用領(lǐng)域中的使用效果。

      決策樹(shù)(decisiontree)是一種基本的分類(lèi)技術(shù),被廣泛應(yīng)用于中文信息處理[4]、食品安全[5]、醫(yī)療診斷、天氣預(yù)報(bào)和金融分析等領(lǐng)域[6]。一棵決策樹(shù)的內(nèi)部結(jié)點(diǎn)是特征或特征的集合,葉結(jié)點(diǎn)是所要學(xué)習(xí)劃分的類(lèi),它采用自頂向下的遞歸方式,對(duì)決策樹(shù)內(nèi)部結(jié)點(diǎn)進(jìn)行特征值的比較,根據(jù)不同特征值判斷該結(jié)點(diǎn)向下的分支,每個(gè)葉節(jié)點(diǎn)都存放著類(lèi)預(yù)測(cè),跟蹤一條由根到葉節(jié)點(diǎn)的路徑,就可以在決策樹(shù)的葉結(jié)點(diǎn)得到分類(lèi)結(jié)論[7-8]。

      本文擬運(yùn)用應(yīng)用較為廣泛的決策樹(shù)C4.5算法建立了N1+N2結(jié)構(gòu)語(yǔ)法關(guān)系的判定方法,在已有研究成果的基礎(chǔ)上構(gòu)建了語(yǔ)料庫(kù),并為每個(gè)結(jié)構(gòu)標(biāo)注了構(gòu)建決策樹(shù)算法需要的特征信息。本文剩余部分結(jié)構(gòu)如下:第1部分總結(jié)了N1+N2結(jié)構(gòu)兩個(gè)名詞的語(yǔ)義相似度與語(yǔ)法關(guān)系的規(guī)律;第2部分介紹了本文構(gòu)建和使用的N1+N2結(jié)構(gòu)語(yǔ)料庫(kù);第3部分對(duì)N1+N2結(jié)構(gòu)詞義相似度與語(yǔ)法關(guān)系進(jìn)行了分析;第4部分給出了具體的語(yǔ)法關(guān)系決策樹(shù)判斷方法和相應(yīng)的實(shí)驗(yàn)結(jié)果;第5部分對(duì)本文結(jié)論進(jìn)行了總結(jié)。

      1 N1+N2結(jié)構(gòu)語(yǔ)義相似度與語(yǔ)法關(guān)系規(guī)

      律總結(jié)

      從語(yǔ)言學(xué)角度來(lái)看,短語(yǔ)是在語(yǔ)義和語(yǔ)法上都能搭配、沒(méi)有句調(diào)的一組詞,是造句的備用單位。短語(yǔ)是由詞構(gòu)成的,構(gòu)成短語(yǔ)的所有詞的特征屬性對(duì)于短語(yǔ)內(nèi)部語(yǔ)法關(guān)系起到?jīng)Q定性作用。下面具體分析N1+N2結(jié)構(gòu)四種語(yǔ)法關(guān)系短語(yǔ):

      (1)并列關(guān)系短語(yǔ):由語(yǔ)法地位平等的兩個(gè)名詞在一起組成,兩個(gè)名詞之間可以進(jìn)一步細(xì)分為并列、遞進(jìn)和選擇關(guān)系,如哥哥姐姐、賓館飯店。

      (2)復(fù)指關(guān)系短語(yǔ):前項(xiàng)和后項(xiàng)雖然詞語(yǔ)不同,但所指是同一事物,有互相說(shuō)明的關(guān)系,且語(yǔ)法地位相同,如詩(shī)圣杜甫、廠(chǎng)長(zhǎng)老李。

      (3)定中關(guān)系短語(yǔ):由修飾或限定關(guān)系的兩個(gè)部分組成,前面的名詞作定語(yǔ),后面的名詞作中心語(yǔ),定語(yǔ)修飾或限制中心語(yǔ),如教工宿舍、經(jīng)濟(jì)熱點(diǎn)。

      (4)主謂關(guān)系短語(yǔ):由陳述關(guān)系的兩個(gè)成分組成,前面被陳述部分的名詞是主語(yǔ),表示要說(shuō)的是誰(shuí)或什么;后面陳述部分的名詞是謂語(yǔ),說(shuō)明主語(yǔ)是什么或怎么樣,如今天星期天、病毒陽(yáng)性。

      詞性相同的情況下,產(chǎn)生不同語(yǔ)法關(guān)系的主要原因還是由于詞本身的語(yǔ)義類(lèi)別及詞與詞之間的語(yǔ)義關(guān)系不同而造成的。詞與詞之間的語(yǔ)義關(guān)系對(duì)其語(yǔ)法關(guān)系起到?jīng)Q定性作用。兩個(gè)詞之間的語(yǔ)義關(guān)系可以用詞與詞之間的語(yǔ)義相似度來(lái)衡量,因此如果計(jì)算準(zhǔn)確,詞義相似度應(yīng)該可以用來(lái)判定兩個(gè)詞之間的語(yǔ)法關(guān)系。詞義相似度是對(duì)給定的詞語(yǔ)間語(yǔ)義相似或相關(guān)程度的衡量,通常使用[0-1]之間的數(shù)值來(lái)表示,詞義相似度越大說(shuō)明兩個(gè)詞的相關(guān)性越大,緊密程度也越高,當(dāng)相似度值達(dá)到1時(shí)兩個(gè)詞是等義詞。目前詞義相似度計(jì)算的相關(guān)研究較多,計(jì)算方法主要分為兩大類(lèi)[9]:一類(lèi)是根據(jù)某個(gè)語(yǔ)義分類(lèi)詞典,如《知網(wǎng)》、《同義詞詞林》等進(jìn)行計(jì)算[10-13];另一類(lèi)是在大規(guī)模語(yǔ)料庫(kù)的基礎(chǔ)上直接統(tǒng)計(jì)和計(jì)算[14-15];也有一些研究是將這兩種方法結(jié)合在一起計(jì)算詞語(yǔ)相似度的[16]。

      文獻(xiàn)[17]指出在由前后兩個(gè)句法成分組成的句法功能結(jié)構(gòu)中,句法功能的著重點(diǎn)可能有所不同,這種著重點(diǎn)叫做功能焦點(diǎn)。有的結(jié)構(gòu)功能焦點(diǎn)在前,有的結(jié)構(gòu)功能焦點(diǎn)在后,還有的結(jié)構(gòu)功能焦點(diǎn)是并列的。從句法功能焦點(diǎn)的角度來(lái)看,并列關(guān)系和復(fù)指關(guān)系N1+N2結(jié)構(gòu)中兩個(gè)名詞語(yǔ)法地位相同,屬于并焦型短語(yǔ);而定中關(guān)系和主謂關(guān)系N1+N2結(jié)構(gòu)中功能焦點(diǎn)都在第二個(gè)名詞,屬于后焦型短語(yǔ)。語(yǔ)法地位相同的兩個(gè)詞的語(yǔ)義相似度應(yīng)該高于語(yǔ)法地位不同的兩個(gè)詞的語(yǔ)義相似度,因此并焦型短語(yǔ)中兩個(gè)詞的相似度應(yīng)該高于后焦型短語(yǔ)。首先來(lái)看并焦型短語(yǔ),在N1+N2結(jié)構(gòu)中并列關(guān)系的兩個(gè)名詞在語(yǔ)義上相等或相近,常常是同義詞或等義詞關(guān)系;而復(fù)指關(guān)系短語(yǔ)雖然所指相同,但指向同一事物的兩個(gè)詞卻常常不是同義詞關(guān)系,因此并列關(guān)系短語(yǔ)內(nèi)部?jī)蓚€(gè)名詞的語(yǔ)義相似度應(yīng)該高于復(fù)指關(guān)系短語(yǔ)。其次再來(lái)看后焦型短語(yǔ),定中關(guān)系兩個(gè)詞在語(yǔ)義上是修飾或限定關(guān)系;主謂關(guān)系兩個(gè)詞在語(yǔ)義上是陳述或說(shuō)明關(guān)系。從語(yǔ)義關(guān)系來(lái)看,定中關(guān)系內(nèi)部?jī)蓚€(gè)名詞間的相似度應(yīng)該比主謂關(guān)系更高。

      基于以上分析,N1+N2結(jié)構(gòu)兩個(gè)名詞在語(yǔ)言學(xué)上具有如下規(guī)律:①?gòu)恼Z(yǔ)法關(guān)系的角度來(lái)看,N1+N2結(jié)構(gòu)四種語(yǔ)法關(guān)系內(nèi)部?jī)蓚€(gè)名詞間的語(yǔ)義相似度從大到小的順序?yàn)椋翰⒘嘘P(guān)系>復(fù)指關(guān)系>定中關(guān)系>主謂關(guān)系;②從功能焦點(diǎn)的角度比較兩個(gè)名詞間的語(yǔ)義相似度,并焦型短語(yǔ)>后焦型短語(yǔ)。

      2 N1+N2結(jié)構(gòu)語(yǔ)料庫(kù)簡(jiǎn)介

      自然語(yǔ)言處理領(lǐng)域中對(duì)N1+N2結(jié)構(gòu)的研究一般都是在對(duì)語(yǔ)料庫(kù)分析的基礎(chǔ)上進(jìn)行的,研究的主要目標(biāo)是針對(duì)N1+N2結(jié)構(gòu)的自動(dòng)提取和識(shí)別[18]-[20],而在語(yǔ)料庫(kù)基礎(chǔ)上運(yùn)用語(yǔ)義類(lèi)別及語(yǔ)義相似度自動(dòng)判定語(yǔ)法關(guān)系的研究還鮮少有人涉及到。因此本文自建了N1+N2結(jié)構(gòu)語(yǔ)料庫(kù),建庫(kù)過(guò)程如下:

      2.1 語(yǔ)料提取和篩選

      首先從北京語(yǔ)言大學(xué)BCC語(yǔ)料庫(kù)中自動(dòng)提取出N1+N2結(jié)構(gòu)語(yǔ)料共17108條,這些語(yǔ)料來(lái)自四個(gè)子語(yǔ)料庫(kù):人民日?qǐng)?bào)海外版、人民日?qǐng)?bào)、文學(xué)、科技文獻(xiàn)。經(jīng)過(guò)計(jì)算機(jī)自動(dòng)篩選和人工校驗(yàn)后,去掉各種情況的不合格語(yǔ)料,最后剩下合格語(yǔ)料共10398條。

      2.2 短語(yǔ)語(yǔ)法關(guān)系標(biāo)注

      將10398條合格語(yǔ)料進(jìn)行語(yǔ)法關(guān)系標(biāo)注后重新建成“定中、并列、復(fù)指、主謂”四個(gè)子庫(kù),每個(gè)子庫(kù)中的語(yǔ)料標(biāo)注均經(jīng)過(guò)人工校對(duì),將各關(guān)系數(shù)量及比例整理后,詳見(jiàn)表1所示。

      語(yǔ)料庫(kù)中還存在大量重復(fù)語(yǔ)料,因此又對(duì)語(yǔ)料進(jìn)行了去重處理,剩下不重復(fù)合格語(yǔ)料共5098條。

      2.3 名詞語(yǔ)義編碼標(biāo)注

      《同義詞詞林》是梅家駒等1983年編撰的機(jī)用語(yǔ)義詞典[21],后經(jīng)哈工大研究人員擴(kuò)展為《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》(本文簡(jiǎn)稱(chēng)《詞林》)。本文為N1+N2結(jié)構(gòu)每個(gè)名詞自動(dòng)標(biāo)注了其在《同義詞詞林》中的語(yǔ)義編碼,目的是為了計(jì)算詞與詞之間的語(yǔ)義距離,尋找詞的語(yǔ)義類(lèi)別與短語(yǔ)語(yǔ)法關(guān)系之間的規(guī)律。

      經(jīng)統(tǒng)計(jì),《詞林》共有近8萬(wàn)條詞語(yǔ),分別屬于12個(gè)大類(lèi),95個(gè)中類(lèi),1428個(gè)小類(lèi)?!对~林》使用8位編碼來(lái)表示詞語(yǔ)義項(xiàng),如編碼“Aa01A01=”,第1位編碼“A”代表大類(lèi),用1位大寫(xiě)英文字母表示,是第一層;第2位編碼“a”代表中類(lèi),用1位小寫(xiě)英文字母表示,是第二層;第3、4位編碼“01”代表小類(lèi),用十進(jìn)制整數(shù)表示,是第三層;第5位編碼“A”代表詞群,用1位大寫(xiě)英文字母表示,是第四層;第6、7位編碼“01”代表原子詞群,用十進(jìn)制整數(shù)表示,是第五層。前7位編碼可以唯一表示一個(gè)原子詞群,第8位編碼主要用來(lái)表示原子詞群內(nèi)部詞語(yǔ)之間的關(guān)系,共有三種情況:“=、#、@”,分別表示原子詞群中詞語(yǔ)的關(guān)系是“同義詞、相關(guān)詞、獨(dú)立詞”。

      在《詞林》編碼體系中,每個(gè)大類(lèi)都是五層8位編碼體系,如果將第一層作為根結(jié)點(diǎn),第五層作為葉子結(jié)點(diǎn),從根結(jié)點(diǎn)到葉子結(jié)點(diǎn)的每條路徑都代表一個(gè)語(yǔ)義編碼,每個(gè)大類(lèi)都可以用一個(gè)樹(shù)形結(jié)構(gòu)圖表示出來(lái)。前面四層結(jié)點(diǎn)都代表抽象的語(yǔ)義類(lèi)別,只有第五層葉子結(jié)點(diǎn)中才是具體的詞語(yǔ)。其中A、B、C類(lèi)大部分是名詞;D類(lèi)多數(shù)是數(shù)詞和量詞;E類(lèi)大多數(shù)是形容詞;F-J類(lèi)大部分是動(dòng)詞;K類(lèi)多數(shù)是虛詞;L類(lèi)中是難以被劃分到上述類(lèi)別中的一些詞語(yǔ),大類(lèi)和中類(lèi)的排序都是按從具體到抽象的原則[21]??梢?jiàn)《詞林》體系中蘊(yùn)含著詞與詞之間的語(yǔ)義距離關(guān)系,具有相同語(yǔ)義特征的詞語(yǔ)才能共現(xiàn)于同一層中,兩個(gè)詞語(yǔ)的語(yǔ)義編碼越相似,兩個(gè)詞語(yǔ)的相似性越高,語(yǔ)義距離就越近。因此可以通過(guò)對(duì)比兩個(gè)詞語(yǔ)每一層的編碼來(lái)比較兩個(gè)詞語(yǔ)的相似性及語(yǔ)義距離?!对~林》的樹(shù)形結(jié)構(gòu)與決策樹(shù)的通用形式非常接近,每層編碼都可以轉(zhuǎn)化為決策樹(shù)中的特征,全部特征可以轉(zhuǎn)化為決策樹(shù)的特征集。

      3 N1+N2結(jié)構(gòu)詞義相似度計(jì)算與語(yǔ)法關(guān)

      系分析

      3.1 詞義相似度計(jì)算

      因?yàn)椤对~林》中所有詞語(yǔ)都有語(yǔ)義編碼,容易向量化,且詞語(yǔ)整體結(jié)構(gòu)設(shè)計(jì)是從語(yǔ)義相近或相關(guān)的角度出發(fā),因此可以通過(guò)詞語(yǔ)之間的語(yǔ)義距離來(lái)計(jì)算語(yǔ)義相似度。文獻(xiàn)[13]在《詞林》的基礎(chǔ)上,分析了決定詞語(yǔ)相似度的關(guān)鍵因素,提出了使用父結(jié)點(diǎn)深度信息計(jì)算詞語(yǔ)相似度的簡(jiǎn)潔模型,從計(jì)算結(jié)果來(lái)看,該方法簡(jiǎn)潔、易用,具有很好的泛化能力和適應(yīng)性。因此下面以文獻(xiàn)[13]中的算法為主要依據(jù)來(lái)計(jì)算N1+N2結(jié)構(gòu)中兩個(gè)名詞間的語(yǔ)義相似度,具體公式如下:

      上表中“blp、fzp、dzp、zwp”分別代表“并列、復(fù)指、定中、主謂”四種關(guān)系。

      3.2 詞義相似度與語(yǔ)法關(guān)系分析

      在3.1計(jì)算結(jié)果的基礎(chǔ)上對(duì)每種語(yǔ)法關(guān)系的全部相似度結(jié)果取平均值,得到不同語(yǔ)法關(guān)系中N1與N2相似度均值,結(jié)果如下表3所示。

      根據(jù)該計(jì)算結(jié)果,可得如下結(jié)論:

      ①并列關(guān)系語(yǔ)義相似度均值最高。從語(yǔ)言學(xué)角度來(lái)看,N1+N2結(jié)構(gòu)并列關(guān)系內(nèi)部的兩個(gè)名詞在語(yǔ)義上是并列關(guān)系,二者常常具有某種相似的語(yǔ)義特征,同屬于一個(gè)語(yǔ)義類(lèi)別甚至同屬于《詞林》體系中的某個(gè)原子詞群。兩個(gè)名詞語(yǔ)法地位平等,從語(yǔ)言功能焦點(diǎn)的角度來(lái)看,屬于并焦型短語(yǔ),而且短語(yǔ)內(nèi)部?jī)蓚€(gè)名詞一般是同義詞或等義詞關(guān)系,因此N1+N2結(jié)構(gòu)中并列關(guān)系的兩個(gè)名詞在語(yǔ)義上具有最大的相似度。

      ②復(fù)指關(guān)系語(yǔ)義相似度均值排第二。從語(yǔ)義角度來(lái)看,復(fù)指關(guān)系內(nèi)部?jī)蓚€(gè)名詞共指同一人或事物,應(yīng)該也具有較高的相似度。復(fù)指關(guān)系的N1+N2結(jié)構(gòu)中,只有當(dāng)N1是N2的別稱(chēng)時(shí),N1和N2才完全對(duì)等,如“唐太宗李世民”,在多數(shù)情況下N1和N2的語(yǔ)義是不對(duì)等的,這時(shí)N2或是表示對(duì)N1的稱(chēng)謂,如“宋慶齡女士”;或是表示N1的職務(wù)職稱(chēng),“王力教授”;或是用來(lái)說(shuō)明N1的類(lèi)屬等,如“劉胡蘭烈士”。因此從語(yǔ)言學(xué)角度分析來(lái)看,兩個(gè)名詞的相似度沒(méi)有并列關(guān)系高。但是復(fù)指關(guān)系短語(yǔ)內(nèi)部?jī)蓚€(gè)名詞語(yǔ)義所指相同,語(yǔ)法地位平等,從語(yǔ)言功能焦點(diǎn)的角度來(lái)看,也屬于并焦型短語(yǔ),因此兩個(gè)名詞在語(yǔ)義上的相似度均值比另外兩種語(yǔ)法關(guān)系的短語(yǔ)高。

      ③定中關(guān)系語(yǔ)義相似度均值高于主謂關(guān)系。在定中關(guān)系中第一個(gè)名詞對(duì)第二個(gè)名詞起到修飾或限定作用,而主謂關(guān)系短語(yǔ)中第二個(gè)名詞對(duì)第一個(gè)名詞起到陳述或說(shuō)明作用,從語(yǔ)言功能焦點(diǎn)的角度來(lái)看,二者都屬于后焦型短語(yǔ)。但從語(yǔ)義關(guān)系的角度來(lái)看,修飾或限定關(guān)系內(nèi)部,N1與N2常常是屬性、特征、處所、范圍等關(guān)系,這種情況下兩個(gè)名詞間的語(yǔ)義相似程度應(yīng)該比陳述或說(shuō)明關(guān)系更高,因此定中關(guān)系兩個(gè)名詞的相似度比主謂關(guān)系的更高。另外從實(shí)際語(yǔ)言使用的角度來(lái)看,主謂關(guān)系的N1+N2短語(yǔ)在數(shù)量上遠(yuǎn)遠(yuǎn)少于定中關(guān)系短語(yǔ),因此相比之下定中關(guān)系兩個(gè)詞的語(yǔ)義相似度比主謂關(guān)系大。

      ④并焦型短語(yǔ)N1與N2的語(yǔ)義相似度均值高于后焦型短語(yǔ),詳見(jiàn)表4所示。

      在N1+N2結(jié)構(gòu)四種關(guān)系中,并焦型短語(yǔ)包括并列關(guān)系和復(fù)指關(guān)系,將兩種關(guān)系的相似度均值再取平均值后得到并焦型短語(yǔ)中N1和N2的語(yǔ)義相似度平均值。后焦型短語(yǔ)包括定中關(guān)系和主謂關(guān)系,計(jì)算N1和N2的語(yǔ)義相似度平均值的方法與并焦型短語(yǔ)相同。

      從語(yǔ)義角度來(lái)看,并焦型短語(yǔ)中兩個(gè)詞語(yǔ)義相同或相近,這種情況下在《詞林》體系基礎(chǔ)上計(jì)算出來(lái)的結(jié)果是兩個(gè)詞在語(yǔ)義上的相近或相似程度。而后焦型短語(yǔ)中兩個(gè)詞在語(yǔ)義上很多不是同義或近義關(guān)系,而是相關(guān)關(guān)系,因此在《詞林》體系基礎(chǔ)上計(jì)算出來(lái)的結(jié)果是兩個(gè)詞在語(yǔ)義上的相關(guān)程度。

      從功能焦點(diǎn)角度來(lái)看,并焦型短語(yǔ)中兩個(gè)名詞都是焦點(diǎn),語(yǔ)法地位平等;而后焦型短語(yǔ)中功能焦點(diǎn)在第二個(gè)名詞,兩個(gè)詞的語(yǔ)法地位不平等。語(yǔ)法地位平等的兩個(gè)詞之間的相似度應(yīng)該比語(yǔ)法地位不平等的兩個(gè)詞的相似度大,因此并焦型短語(yǔ)中兩個(gè)詞的相似度應(yīng)該比后焦型短語(yǔ)大。

      4 基于決策樹(shù)的語(yǔ)法關(guān)系判定算法

      4.1 構(gòu)造決策樹(shù)

      決策樹(shù)是一種十分常用的機(jī)器學(xué)習(xí)方法,是一種有監(jiān)督的學(xué)習(xí)方法,常用于解決分類(lèi)問(wèn)題。該方法已比較成熟,且使用決策樹(shù)進(jìn)行分類(lèi)的過(guò)程較為簡(jiǎn)單,因此決策樹(shù)分類(lèi)的難點(diǎn)主要在于如何構(gòu)造決策樹(shù)[8]。特別是在使用決策樹(shù)方法對(duì)N1+N2進(jìn)行分類(lèi)時(shí),其主要困難在于如何將判定N1+N2結(jié)構(gòu)語(yǔ)法關(guān)系所需要的語(yǔ)言學(xué)知識(shí)量化為能夠?yàn)闆Q策樹(shù)等人工智能算法所使用的數(shù)據(jù)。

      上文所建N1+N2結(jié)構(gòu)語(yǔ)料已為構(gòu)造決策樹(shù)做好了準(zhǔn)備,該庫(kù)中的語(yǔ)料標(biāo)注信息包括詞語(yǔ)的詞性、《詞林》語(yǔ)義編碼;短語(yǔ)標(biāo)注信息包括語(yǔ)法關(guān)系、兩個(gè)名詞的語(yǔ)義相似度,這些信息都包含了確定N1+N2結(jié)構(gòu)語(yǔ)法關(guān)系的屬性。因此本文構(gòu)造的確定N1+N2結(jié)構(gòu)特征集設(shè)為“propertyName”,其中包含7個(gè)特征,形式化表示為:

      propertyName =

      {'similar', '11', '22', '33', '44', '55', '66'}

      其中“similar”是N1與N2的詞義相似度,“11-55”是《詞林》體系第1-5層的語(yǔ)義編碼;“66”是第8位語(yǔ)義編碼。以“通知+公告”,“皇后+陛下”,“博士+論文”,“抗體+陽(yáng)性”四組結(jié)構(gòu)為例,其特征集構(gòu)成如表5所示。

      決策樹(shù)的內(nèi)部結(jié)點(diǎn)是特征或特征的集合,葉結(jié)點(diǎn)是所要學(xué)習(xí)劃分的類(lèi)[8]。本文所構(gòu)造決策樹(shù)的內(nèi)部結(jié)點(diǎn)是表5中的全部特征;葉結(jié)點(diǎn)是“并列、復(fù)指、定中、主謂”四種語(yǔ)法關(guān)系。運(yùn)用決策樹(shù)算法根據(jù)語(yǔ)料庫(kù)中的標(biāo)注結(jié)果生成判定N1+N2結(jié)構(gòu)語(yǔ)法關(guān)系的決策樹(shù)示例見(jiàn)下圖1所示。

      經(jīng)計(jì)算,特征“22”的熵最小,信息增益最大,因此以其作為根節(jié)點(diǎn),其中包括所有的訓(xùn)練樣本。在“22”特征所對(duì)應(yīng)的子集中,取值為“aa”的子集為第一個(gè)分支,繼續(xù)分析該分支得到特征“similar”的信息增益最大,在該子集中詞語(yǔ)相似度取0.1116的子集中僅包含一類(lèi)樣本,即“dzp”,因該節(jié)點(diǎn)中所有的樣本均為同一類(lèi)別,所以產(chǎn)生葉節(jié)點(diǎn)。遞歸上述劃分子集及產(chǎn)生葉節(jié)點(diǎn)的過(guò)程,每一個(gè)子集都會(huì)產(chǎn)生一個(gè)決策(子)樹(shù),直到所有節(jié)點(diǎn)變成葉節(jié)點(diǎn),最終生成決策樹(shù)。

      4.2 構(gòu)建訓(xùn)練集與測(cè)試集

      由于N1+N2結(jié)構(gòu)的已有研究中沒(méi)有見(jiàn)到符合本文標(biāo)注要求的熟語(yǔ)料庫(kù),因此我們對(duì)于四種語(yǔ)法關(guān)系子庫(kù)語(yǔ)料按8:2的比例分為訓(xùn)練集和測(cè)試集,用測(cè)試集的測(cè)試結(jié)果衡量本文算法的有效性,具體劃分?jǐn)?shù)量及占比見(jiàn)表6所示。

      本文最終在決策樹(shù)算法基礎(chǔ)上判定測(cè)試集中N1+N2結(jié)構(gòu)語(yǔ)法關(guān)系的計(jì)算結(jié)果,語(yǔ)料計(jì)算的正確和錯(cuò)誤結(jié)果見(jiàn)下表7所示。

      運(yùn)用本文設(shè)計(jì)算法最終在測(cè)試集中得到的測(cè)試結(jié)果正確率達(dá)到89.39%。因?yàn)槟壳斑\(yùn)用機(jī)器學(xué)習(xí)算法判定短語(yǔ)結(jié)構(gòu)關(guān)系的研究鮮少見(jiàn)到,無(wú)法與解決該類(lèi)問(wèn)題的相關(guān)算法與進(jìn)行對(duì)比。因此我們將決策樹(shù)算法解決其它問(wèn)題的結(jié)論和運(yùn)用其他算法解決類(lèi)似語(yǔ)言學(xué)問(wèn)題的結(jié)論進(jìn)行了對(duì)比。例如文獻(xiàn)[5]在運(yùn)用決策樹(shù)算法解決實(shí)際應(yīng)用問(wèn)題時(shí),其對(duì)比的算法在不同數(shù)據(jù)集上的計(jì)算準(zhǔn)確率介于61.4%到89.7%之間。劉志杰等[19]研究了“N1+N2”的識(shí)別問(wèn)題,其最高正確率為88. 50%。因此本文研究結(jié)果已經(jīng)達(dá)到了同類(lèi)算法或同類(lèi)問(wèn)題處理中的較高水平,具有一定的應(yīng)用價(jià)值。

      5 結(jié) 論

      結(jié)合語(yǔ)料庫(kù)和詞語(yǔ)相似度計(jì)算方法,從大規(guī)模語(yǔ)料中發(fā)現(xiàn)并驗(yàn)證了N1+N2結(jié)構(gòu)中的語(yǔ)言學(xué)規(guī)律。①?gòu)恼Z(yǔ)法關(guān)系角度來(lái)看,四種關(guān)系內(nèi)部?jī)蓚€(gè)名詞間的語(yǔ)義相似度從大到小的順序是:并列>復(fù)指>定中>主謂;②從語(yǔ)言功能焦點(diǎn)的角度比較語(yǔ)義相似度,結(jié)果是并焦型>后焦型。由此也可以看出在一種語(yǔ)言中,詞與詞之間的語(yǔ)義關(guān)系與語(yǔ)法關(guān)系是密切相關(guān)的,可以利用詞與詞之間的語(yǔ)義相似度去判定其語(yǔ)法關(guān)系。這個(gè)結(jié)論不僅在N1+N2短語(yǔ)結(jié)構(gòu)中存在,在其他兩詞或多詞短語(yǔ)結(jié)構(gòu)中可能也存在相似的結(jié)論。

      短語(yǔ)是詞和句子之間的層級(jí)單位,短語(yǔ)在詞與詞組合的基礎(chǔ)上產(chǎn)生,又可以進(jìn)一步擴(kuò)展為句子,在自然語(yǔ)言處理過(guò)程中,應(yīng)該按照語(yǔ)言單位本身的構(gòu)成規(guī)律,首先進(jìn)行詞層級(jí)的信息標(biāo)注,在此基礎(chǔ)上再進(jìn)一步確定詞與詞之間的短語(yǔ)關(guān)系,然后再進(jìn)行句子層級(jí)的語(yǔ)法和語(yǔ)義分析。

      在大規(guī)模語(yǔ)料庫(kù)的基礎(chǔ)上使用人工智能的方法研究語(yǔ)言學(xué)規(guī)律和處理語(yǔ)言學(xué)問(wèn)題將是未來(lái)的發(fā)展趨勢(shì)。而將語(yǔ)言學(xué)知識(shí)表示為能夠?yàn)槿斯ぶ悄芩惴ㄋ褂玫牧炕卣骷瞧渲械年P(guān)鍵問(wèn)題。本文對(duì)此方法做出的嘗試和得出的結(jié)論對(duì)提升自然語(yǔ)言處理的理論和應(yīng)用水平具有重要作用。

      參考文獻(xiàn)

      [1] 李素建.漢語(yǔ)組塊計(jì)算的若干研究[D].北京:中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),2002.

      [2] 楊泉,馮志偉.“n+n”歧義消解的博弈論模型研究[J].語(yǔ)言科學(xué),2015,14(3):250-257.

      [3] 楊泉,馮志偉.機(jī)用現(xiàn)代漢語(yǔ)“n+n”結(jié)構(gòu)歧義研究[J].語(yǔ)言研究,2005(4):105-111.

      [4] 王振華,孔祥龍,陸汝占,等.結(jié)合決策樹(shù)方法的中文姓名識(shí)別[J].中文信息學(xué)報(bào),2004(6):10-15.

      [5] 陸旭,陳毅紅,熊章瑞,等.一種面向大數(shù)據(jù)分析的快速并行決策樹(shù)算法[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,42(2):244-251.

      [6] 賈濤,韓萌,王少峰,等.數(shù)據(jù)流決策樹(shù)分類(lèi)方法綜述[J].南京師大學(xué)報(bào)(自然科學(xué)版),2019,42(4):49-60.

      [7] 周志華. 機(jī)器學(xué)習(xí) [M]. 北京:清華大學(xué)出版社, 2016.

      [8] 時(shí)念云,褚希,張金明.基于語(yǔ)義的決策樹(shù)挖掘方法研究[J].微計(jì)算機(jī)應(yīng)用,2007(12):1288-1291.

      [9] JUAN J L, JOSU G, MOHAMED A H T, et al. A reproducible survey on word embeddings and ontology-based methods for word similarity: Linear combinations outperform the state of the art[J]. Engineering Applications of Artificial Intelligence,2019(85):645-665.

      [10]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].Computational Linguistics and Chinese Language Processing,2002,7(8):59-76.

      [11]田久樂(lè),趙蔚.基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,28(6):602-608.

      [12]陳宏朝,李飛,朱新華,等.基于路徑與深度的同義詞詞林詞語(yǔ)相似度計(jì)算[J].中文信息學(xué)報(bào),2016,30(5):80-88.

      [13]楊泉,孫玉泉.基于《同義詞詞林》深度的詞義相似度計(jì)算研究[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(17):48-54.

      [14]李小濤,游樹(shù)娟,陳維.一種基于詞義向量模型的詞語(yǔ)語(yǔ)義相似度算法[J].自動(dòng)化學(xué)報(bào),2020,46(8): 1654-1669.

      [15]程婧,劉娜娜,閔可銳,等.一種低頻詞詞向量?jī)?yōu)化方法及在短文本分類(lèi)中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2020(4):1-11.

      [16]GUO Shao-ru,GUAN Yong,LI Ru,et al. Chinese word similarity computing based on combination strategy[C]. International Conference on Computer Processing of Oriental Languages National CCF Conference on Natural Language Processing and Chinese Computing. Springer International Publishing, 2016:744-752.

      [17]馮志偉.自然語(yǔ)言的計(jì)算機(jī)處理[M].上海:上海外語(yǔ)教育出版社,1996.

      [18]王宗華.面向計(jì)算機(jī)的N1+N2句法關(guān)系及語(yǔ)義關(guān)系研究[D].武漢:華中師范大學(xué),2006.

      [19]劉志杰,呂學(xué)強(qiáng),程濤.搜索引擎日志中“N1+N2”型名詞短語(yǔ)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(12):58-63.

      [20]倪廓闊,呂學(xué)強(qiáng),韓艷鏵,等.搜索引擎中“N1+N2”型短語(yǔ)查詢(xún)優(yōu)化研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(9):117-121.

      [21]梅家駒,竺一鳴,高蘊(yùn)琦,等.同義詞詞林[M].上海:上海辭書(shū)出版社,1983.

      猜你喜歡
      決策樹(shù)
      基于決策樹(shù)和神經(jīng)網(wǎng)絡(luò)的高血壓病危險(xiǎn)因素研究
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于改進(jìn)決策樹(shù)的故障診斷方法研究
      決策樹(shù)多元分類(lèi)模型預(yù)測(cè)森林植被覆蓋
      電子制作(2017年24期)2017-02-02 07:14:23
      基于決策樹(shù)算法的數(shù)據(jù)挖掘應(yīng)用研究
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      基于決策樹(shù)的復(fù)雜電網(wǎng)多諧波源監(jiān)管
      基于模糊關(guān)聯(lián)規(guī)則和決策樹(shù)的圖像自動(dòng)標(biāo)注
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      孟津县| 七台河市| 浑源县| 莱阳市| 永仁县| 乌兰县| 冕宁县| 伊金霍洛旗| 都兰县| 新宾| 伊宁县| 宽城| 白银市| 南皮县| 虹口区| 昌宁县| 交城县| 容城县| 石家庄市| 沈丘县| 淮滨县| 浦北县| 鹤壁市| 潞西市| 阿克陶县| 蒙山县| 吴桥县| 福安市| 喜德县| 通化县| 托克逊县| 甘洛县| 光山县| 泾川县| 蓬莱市| 怀仁县| 汉寿县| 洛宁县| 荣昌县| 杭锦后旗| 原阳县|