• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語(yǔ)言特征和復(fù)合測(cè)量的農(nóng)業(yè)術(shù)語(yǔ)自動(dòng)抽取研究

      2022-09-29 09:04:34周志浩李建波
      科學(xué)技術(shù)與工程 2022年24期

      周志浩,李建波

      (南京信息工程大學(xué)新加坡研究中心,南京 210044)

      在自然語(yǔ)言研究中,術(shù)語(yǔ)抽取具有相當(dāng)重要的地位,人類(lèi)文明的成果都要以術(shù)語(yǔ)的形式在自然語(yǔ)言中記錄下來(lái)[1]。術(shù)語(yǔ)既可以用于深入挖掘文本內(nèi)涵,又可以進(jìn)行潛在語(yǔ)義分析,是進(jìn)行進(jìn)一步信息處理的重要準(zhǔn)備工作。術(shù)語(yǔ)一般用于特定的專(zhuān)業(yè)領(lǐng)域,在特定的專(zhuān)業(yè)領(lǐng)域當(dāng)中,一個(gè)術(shù)語(yǔ)一般只有一個(gè)特定的意義。在專(zhuān)業(yè)性較強(qiáng)的領(lǐng)域,術(shù)語(yǔ)會(huì)以較高的頻率出現(xiàn),如科研論文的關(guān)鍵詞就應(yīng)該是能反映研究?jī)?nèi)容和相關(guān)領(lǐng)域特征的術(shù)語(yǔ)。領(lǐng)域術(shù)語(yǔ)對(duì)于建設(shè)語(yǔ)料庫(kù)、計(jì)算機(jī)輔助翻譯、本體構(gòu)建、文本檢索與分類(lèi)、人工智能(artificial intelligence,AI)實(shí)時(shí)翻譯等領(lǐng)域具有至關(guān)重要的價(jià)值。

      對(duì)于領(lǐng)域術(shù)語(yǔ)而言,傳統(tǒng)的人工抽取方式已經(jīng)落后,目前機(jī)器自動(dòng)抽取術(shù)語(yǔ)的方式被廣泛使用。以計(jì)算機(jī)輔助翻譯軟件為例,無(wú)論是Trados還是Memoq這樣的主流翻譯工具,都有自動(dòng)抽取術(shù)語(yǔ)的功能,但效果卻很難盡如人意。抽取得出的術(shù)語(yǔ)可能并非是術(shù)語(yǔ),同時(shí)還存在著抽取術(shù)語(yǔ)不全面、抽取術(shù)語(yǔ)錯(cuò)誤等問(wèn)題。即便是采用人工抽取的方式,除了耗時(shí)耗力難以適應(yīng)大數(shù)據(jù)時(shí)代社會(huì)化大生產(chǎn)的要求,也存在不同的專(zhuān)家觀點(diǎn)不一致的問(wèn)題。所以,如何高效、準(zhǔn)確的實(shí)現(xiàn)領(lǐng)域術(shù)語(yǔ)的自動(dòng)抽取,既能提高領(lǐng)域術(shù)語(yǔ)抽取的自動(dòng)化效率,又能提高術(shù)語(yǔ)抽取的準(zhǔn)確率和召回率,是目前相關(guān)研究的焦點(diǎn)。

      針對(duì)術(shù)語(yǔ)自動(dòng)抽取,目前學(xué)術(shù)界主要提出基于規(guī)則、基于統(tǒng)計(jì)學(xué)的方法。Kapferer等[2]借助領(lǐng)域語(yǔ)言特征的規(guī)則集合,Butenko等[3]使用語(yǔ)料庫(kù)中術(shù)語(yǔ)的特征來(lái)完善規(guī)則集合,識(shí)別術(shù)語(yǔ),直觀而高效,但抽取時(shí)會(huì)形成較多的噪聲詞語(yǔ),且可移植性較差[4],很難跨領(lǐng)域遷移,具有相當(dāng)?shù)木窒扌浴?/p>

      基于統(tǒng)計(jì)的方法是利用語(yǔ)料庫(kù)中詞的分布頻率來(lái)抽取術(shù)語(yǔ),Verberne等[5]提出了以頻率為標(biāo)準(zhǔn)判斷術(shù)語(yǔ),依據(jù)就是術(shù)語(yǔ)會(huì)比噪聲詞出現(xiàn)的頻率高。Azad等[6]借助維基百科的語(yǔ)料和領(lǐng)域語(yǔ)料的詞頻差異來(lái)抽取術(shù)語(yǔ)。Ahuja等[7]認(rèn)為候選術(shù)語(yǔ)和其在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比,能提高領(lǐng)域術(shù)語(yǔ)的顯著程度。以上這些基于統(tǒng)計(jì)的方法不需要語(yǔ)言學(xué)家或領(lǐng)域?qū)<医槿?,?jiǎn)單經(jīng)濟(jì),效率高,但是過(guò)于依賴(lài)詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的頻率,對(duì)于專(zhuān)業(yè)性較強(qiáng)的領(lǐng)域術(shù)語(yǔ)并不適用。很多領(lǐng)域術(shù)語(yǔ)處于中低頻次詞頻分布,單純使用基于統(tǒng)計(jì)的方法會(huì)得到大量的噪聲詞語(yǔ),召回率不高,尤其對(duì)低頻術(shù)語(yǔ)的抽取[8]效果不理想。

      針對(duì)以上問(wèn)題,提出結(jié)合術(shù)語(yǔ)的語(yǔ)言特征和復(fù)合測(cè)量方法,綜合使用語(yǔ)言學(xué)和統(tǒng)計(jì)學(xué)的方法,更有針對(duì)性的抽取農(nóng)業(yè)情報(bào)等極其專(zhuān)業(yè)的領(lǐng)域術(shù)語(yǔ),為術(shù)語(yǔ)翻譯和語(yǔ)料庫(kù)建設(shè)提供了理論依據(jù)。

      1 領(lǐng)域術(shù)語(yǔ)抽取的語(yǔ)言特征

      確定術(shù)語(yǔ)的語(yǔ)言特征主要是從分析術(shù)語(yǔ)的詞性或者淺層語(yǔ)法著手,術(shù)語(yǔ)主要都是由名詞或者名詞性短語(yǔ)組成,很少包括動(dòng)詞、副詞和連詞[9-10]。由此可見(jiàn),首先可以從術(shù)語(yǔ)的詞性類(lèi)別出發(fā),在抽取術(shù)語(yǔ)的準(zhǔn)備階段,排除掉成為術(shù)語(yǔ)概率較低的詞語(yǔ),可以提高術(shù)語(yǔ)抽取的效率。在術(shù)語(yǔ)抽取階段,按詞性進(jìn)行排序,可以確定成為術(shù)語(yǔ)的概率。此外,候選術(shù)語(yǔ)本身的長(zhǎng)度也對(duì)術(shù)語(yǔ)認(rèn)定有直接影響。對(duì)候選領(lǐng)域術(shù)語(yǔ)用語(yǔ)言特征歸納為兩類(lèi)類(lèi):詞性特征和詞長(zhǎng)比特征。

      1.1 詞性特征

      運(yùn)用詞性特征可以過(guò)濾掉大量的領(lǐng)域高頻非術(shù)語(yǔ)詞,在領(lǐng)域術(shù)語(yǔ)中,語(yǔ)氣助詞和狀態(tài)詞幾乎不會(huì)出現(xiàn)。其他如介詞、感嘆詞、方位詞、擬聲詞、成語(yǔ)和代詞也極少見(jiàn),89%以上的領(lǐng)域術(shù)語(yǔ)都是名詞或者名詞性短語(yǔ)[11]。如果將詞性擴(kuò)展到包含名詞、動(dòng)詞、量詞、簡(jiǎn)稱(chēng)、英文單詞等,那么比例就上升到99%以上。這就是關(guān)于領(lǐng)域術(shù)語(yǔ)詞性特征的統(tǒng)計(jì)結(jié)論。為了兼顧效率和準(zhǔn)確性,將極少可能成為屬于的介詞、感嘆詞、方位詞、擬聲詞、成語(yǔ)和代詞排除,同時(shí)將術(shù)語(yǔ)的詞性規(guī)定為名詞及名詞性短語(yǔ)、簡(jiǎn)稱(chēng)和英文單詞,這樣可以盡可能的囊括更多的候選術(shù)語(yǔ),又可以保證效率。對(duì)詞性特征(part-of-speech,POS)賦予權(quán)值,設(shè)值時(shí)以名詞及名詞性短語(yǔ)的值為最高,動(dòng)詞等值依次降低。具體設(shè)值如表1所示。

      表1 詞性特征數(shù)值設(shè)定Table 1 Part-of-speech feature value setting

      1.2 詞長(zhǎng)比特征

      中文語(yǔ)言中雙字詞占多數(shù),有學(xué)者認(rèn)為詞的長(zhǎng)度越長(zhǎng)就越有可能是術(shù)語(yǔ),就英語(yǔ)而言,如在英語(yǔ)語(yǔ)言中,能體現(xiàn)專(zhuān)業(yè)性的詞語(yǔ)很多都來(lái)源于拉丁語(yǔ),詞語(yǔ)的長(zhǎng)度都很可觀。但在中文語(yǔ)言中,并非詞長(zhǎng)度約高,術(shù)語(yǔ)顯著性就會(huì)越充分,賀海濤等[12]指出中文領(lǐng)域術(shù)語(yǔ)的詞長(zhǎng)多在2~6個(gè)字(約77%),超,所以過(guò)6個(gè)字的術(shù)語(yǔ)也很少見(jiàn),據(jù)抽樣統(tǒng)計(jì),6字以上術(shù)語(yǔ)不到1%。當(dāng)然,少于兩個(gè)字的單字詞語(yǔ)成為術(shù)語(yǔ)的概率同樣也很低。在進(jìn)行詞長(zhǎng)統(tǒng)計(jì)時(shí),不能簡(jiǎn)單計(jì)算詞語(yǔ)由幾個(gè)字組成,從而給出判斷是否成為術(shù)語(yǔ)的依據(jù)。原因就在于,術(shù)語(yǔ)是在特定的領(lǐng)域文檔集中存在的,要從文檔集的語(yǔ)料庫(kù)出發(fā),進(jìn)行分析。針對(duì)特定領(lǐng)域術(shù)語(yǔ),采用詞長(zhǎng)比(word length ratio,WLR)的特征,揭示術(shù)語(yǔ)的領(lǐng)域隸屬程度和相關(guān)性。所謂詞長(zhǎng)比就是指術(shù)語(yǔ)的詞長(zhǎng)和語(yǔ)料庫(kù)中詞語(yǔ)的平均詞長(zhǎng)的比值。比值越高,領(lǐng)域術(shù)語(yǔ)的相關(guān)性越大,隸屬程度越高。設(shè)詞長(zhǎng)為L(zhǎng)en(t),表示詞語(yǔ)t的含字長(zhǎng)度,語(yǔ)料庫(kù)中詞語(yǔ)的平均詞長(zhǎng)比公式為

      (1)

      就詞長(zhǎng)比而言,單詞長(zhǎng)度越長(zhǎng),詞長(zhǎng)比值就越高,當(dāng)然中文語(yǔ)言的特征也決定了并非詞長(zhǎng)比值越高越好,而是要在一個(gè)合理的區(qū)間。中文中兩個(gè)字的詞占大多數(shù),雙字詞術(shù)語(yǔ)的詞長(zhǎng)比就為1,又因?yàn)槌^(guò)6個(gè)字以上的術(shù)語(yǔ)不到1%,為提高統(tǒng)計(jì)效率,可以把詞長(zhǎng)比的數(shù)值定在1≤WLR≤3,小于1或者大于3的都不計(jì)入術(shù)語(yǔ)范疇。

      2 復(fù)合測(cè)量方法

      從統(tǒng)計(jì)學(xué)的視角出發(fā),對(duì)術(shù)語(yǔ)抽取有多種方法,如標(biāo)準(zhǔn)差、詞頻、文檔頻率等,這些方法各有特色,但也有不足,如標(biāo)準(zhǔn)差雖然可以根據(jù)文檔主題不同,區(qū)分術(shù)語(yǔ)和非術(shù)語(yǔ),但受主題影響過(guò)大,很多時(shí)候判斷會(huì)有誤差。詞頻作為傳統(tǒng)的術(shù)語(yǔ)抽取指標(biāo),當(dāng)然很有效,但是并不能把低頻詞簡(jiǎn)單的排除在術(shù)語(yǔ)范圍之外,另外高頻詞也不一定是術(shù)語(yǔ),比如介詞、連詞等出現(xiàn)的頻率很高,但它們并非術(shù)語(yǔ)。文檔頻率一般是反向使用的,即文檔頻率越高,詞語(yǔ)的領(lǐng)域性就越低,但是領(lǐng)域術(shù)語(yǔ)的情況是相反的,文檔數(shù)高說(shuō)明術(shù)語(yǔ)的可能性大。針對(duì)以上所提及的諸多方法,可以看出都不完善,問(wèn)題就在于單一性,無(wú)法解決復(fù)雜的術(shù)語(yǔ)判斷和抽取問(wèn)題。所以本文中采用的測(cè)量方法是多種復(fù)合的,以避免單一化的缺點(diǎn)。使用的復(fù)核測(cè)量方法有兩種:C值法[13]和詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)[14],兩種測(cè)量方法本身就是考慮多種因素的復(fù)合方法,兩者結(jié)合使用,可以最大限度保證術(shù)語(yǔ)抽取的準(zhǔn)確性。

      2.1 C值法在術(shù)語(yǔ)抽取中的設(shè)定

      C值法是目前普遍應(yīng)用于領(lǐng)域術(shù)語(yǔ)抽取的方法,和其他方法相比,C值法具有簡(jiǎn)單易行,適應(yīng)性強(qiáng)的特點(diǎn)[15]。C值法在語(yǔ)料經(jīng)過(guò)詞性特征和詞長(zhǎng)比篩選后,針對(duì)候選術(shù)語(yǔ)集進(jìn)行過(guò)濾,從而得到精確的語(yǔ)料。C值的計(jì)算公式為

      式(2)中:a為候選術(shù)語(yǔ);|a|為候選術(shù)語(yǔ)長(zhǎng)度;f(a)為a的詞頻;b為嵌套術(shù)語(yǔ);P(Ta)為集合中術(shù)語(yǔ)的數(shù)量;Ta為含有a的多個(gè)詞的集合,Cvalue(a)為候選術(shù)語(yǔ)C值。

      例如,a是“小麥”,那么,Ta就是“冬小麥”“小麥秋播”“小麥拔節(jié)”“小麥返青”等包含a的多個(gè)詞的集合。在詞串中,這個(gè)參數(shù)對(duì)詞串呈現(xiàn)正面的作用。P(Ta)指的是Ta的個(gè)數(shù),Ta突出的是a的獨(dú)立性,如果參數(shù)Ta數(shù)值大,說(shuō)明a在多個(gè)詞的集合中反復(fù)出現(xiàn),也就說(shuō)明a非常有可能成為一個(gè)術(shù)語(yǔ)??傊瑢?duì)于詞串a(chǎn)來(lái)說(shuō),如果包含a的某個(gè)長(zhǎng)詞串b以較高的頻率出現(xiàn),那么b成為術(shù)語(yǔ)的概率就比較大,a是術(shù)語(yǔ)的概率就比較小。同時(shí),a在多個(gè)詞的集合中反復(fù)出現(xiàn),那么包含a的詞串集合就越大,也就意味著a具有較高的獨(dú)立性,成為術(shù)語(yǔ)的可能性就越大。f(b)和Cvalue呈負(fù)相關(guān)關(guān)系,Ta和Cvalue呈正相關(guān)關(guān)系。

      C值法雖然優(yōu)點(diǎn)突出,但并沒(méi)有考慮到候選術(shù)語(yǔ)的單元性,對(duì)術(shù)語(yǔ)抽取的技術(shù)依賴(lài)于詞頻,較難區(qū)分高頻詞語(yǔ)和高頻術(shù)語(yǔ),此外對(duì)于大量存在于語(yǔ)料庫(kù)中的低頻術(shù)語(yǔ)也沒(méi)有很好的處理策略,所以就需要繼續(xù)引入TF-IDF的領(lǐng)域術(shù)語(yǔ)抽取方法。

      2.2 TF-IDF在術(shù)語(yǔ)抽取中的設(shè)定

      TF-IDF是目前廣泛使用于搜索引擎等互聯(lián)網(wǎng)領(lǐng)域,基本思想是如果一個(gè)詞w在某一篇文檔d里面出現(xiàn)了較多次,即具有較高詞頻,同時(shí)在其他的文檔中出現(xiàn)的頻率[16]較少,那么就可以認(rèn)為該詞w具有較好的區(qū)分度,成為領(lǐng)域術(shù)語(yǔ)的可能性就越高。TF的計(jì)算公式為

      (3)

      式(3)中:count(w)為關(guān)鍵詞w在文章中出現(xiàn)的次數(shù);|Di|為文章里所有詞的總和,TFw,Di為文檔中TF數(shù)值。

      但僅用詞頻高低來(lái)確定文本特征是不夠的,如“的”是一個(gè)常見(jiàn)詞,比“冬小麥”在文檔里出現(xiàn)的頻率高得多,但并不能以此來(lái)確定“的”就是術(shù)語(yǔ)。由此引入逆文本頻率IDF才能更好反映向量化特征,其計(jì)算公式為

      (4)

      式(4)中:IDF(w)為詞的逆文本頻率數(shù)值;N為文本總數(shù);I(w,Di)為文檔是否包含關(guān)鍵詞w,如果是,那么值為1;如果否,那么值為0,如果關(guān)鍵詞w過(guò)于生僻,以至于在所有文檔中均未出現(xiàn),則I(w,Di)的值為0,分母為0,逆文本頻率也就失去了意義,所以在分母上加上1,以實(shí)現(xiàn)對(duì)逆文本頻率的平滑處理。

      IDF反映了關(guān)鍵詞普遍性的問(wèn)題,當(dāng)一個(gè)詞在文檔集合里高頻率出現(xiàn)時(shí),IDF值就低,反之則高。然后把TF和IDF相乘,就可以得出TF-IDF值了,其計(jì)算公式為

      TF-IDF=TFw,DiIDF(w)

      (5)

      總之,TF-IDF的特點(diǎn)是如果一個(gè)詞在文檔中高頻出現(xiàn)且普遍度低,那么TF-IDF的值就越高,成為術(shù)語(yǔ)的可能性就越高。TF-IDF雖然在信息檢索、文檔挖掘等很多領(lǐng)域得到普遍使用,但也存在精度不高的問(wèn)題,此外如果文檔集合中的部分文檔長(zhǎng)度較短的話,文本特征不足會(huì)影響術(shù)語(yǔ)的準(zhǔn)確抽取,擁有相同關(guān)鍵詞的多個(gè)文本也存在相互干擾的問(wèn)題,這些關(guān)鍵詞計(jì)算的TF-IDF的值就低。所以才需要配合詞性特征、詞長(zhǎng)比特征以及C值法共同使用。

      3 領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取模型建構(gòu)

      由于傳統(tǒng)的單一領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法都有缺陷,所以需要綜合使用語(yǔ)言特征和復(fù)合測(cè)量方法,總體模型建構(gòu)如下:首先進(jìn)行分詞和詞性標(biāo)注處理,其次按照詞性特征中的數(shù)值排列,篩選出數(shù)值為1的詞,最后根據(jù)語(yǔ)言特征和復(fù)合測(cè)量方法計(jì)算綜合的數(shù)值,過(guò)濾掉非領(lǐng)域術(shù)語(yǔ)的詞語(yǔ),模型流程圖如圖1所示。

      圖1 領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取模型流程圖Fig.1 Flow chart of domain term automatic extraction model

      3.1 分詞和詞性標(biāo)注

      對(duì)文檔集合進(jìn)行分詞及詞性標(biāo)注其實(shí)是文檔預(yù)處理的過(guò)程。分詞和詞性標(biāo)注工具目前有比較成熟的若干種,如Hanlp分詞器、Jieba分詞、IKAnalyzer等,以上工具各有所長(zhǎng)。其中,Hanlp分詞器具有功能完善、架構(gòu)清晰、語(yǔ)料時(shí)新等特點(diǎn);Jieba分詞安裝簡(jiǎn)單,支持語(yǔ)言廣,比較流行;IKAnalyzer開(kāi)源輕量,可以模擬語(yǔ)義分詞。從權(quán)威性的角度出發(fā),采用NLPIR分詞系統(tǒng),該系統(tǒng)所使用的詞性標(biāo)記集,主要用于中科院計(jì)算技術(shù)研究所研制的詞法分析器、句法分析器和機(jī)器翻譯系統(tǒng),具有相當(dāng)?shù)臋?quán)威性。在分詞流程時(shí),把名詞和名詞詞組作為同意類(lèi)型的詞語(yǔ)進(jìn)行處理,其他詞語(yǔ)按NLPIR默認(rèn)規(guī)則處理。在分詞的同時(shí),NLPIR分詞系統(tǒng)還會(huì)自動(dòng)進(jìn)行詞性標(biāo)注,按22個(gè)一類(lèi)、66個(gè)二類(lèi)、11個(gè)三類(lèi)確定詞性類(lèi)別。

      3.2 詞性特征初篩

      在分詞和詞性標(biāo)注完成后,根據(jù)表1中所列的詞性類(lèi)別以及其數(shù)值,排除掉數(shù)值為0的詞,保留數(shù)值為1的詞。數(shù)值為0的詞一般都是語(yǔ)氣助詞、狀態(tài)詞、介詞、感嘆詞、方位詞、擬聲詞、代詞,這些詞成為術(shù)語(yǔ)的概率是極低的,只保留名詞及名詞性短語(yǔ)、簡(jiǎn)稱(chēng)和英文單詞。但需要注意的是NLPIR分詞系統(tǒng)是以單個(gè)的詞為分詞單位的,如“土壤”和“消毒”在NLPIR分詞系統(tǒng)中是兩個(gè)詞,而實(shí)際上術(shù)語(yǔ)應(yīng)該是“土壤消毒”,也就是說(shuō)在得出NLPIR分詞系統(tǒng)的詞語(yǔ)列表后,要明確候選的術(shù)語(yǔ)也可以是名詞性短語(yǔ)。同樣,在文檔中的領(lǐng)域術(shù)語(yǔ)不僅存在名詞加名詞的情況,還存在形容詞加名詞的情況,一樣也構(gòu)成名詞短語(yǔ)。另外,對(duì)單個(gè)連續(xù)漢字合并,如“桃”“蚜”合并為“桃蚜”,“瓜”“蚜”合并為“瓜蚜”。

      3.3 語(yǔ)言特征和復(fù)合測(cè)量方法

      在詞語(yǔ)完成初篩之后,對(duì)候選術(shù)語(yǔ)集綜合計(jì)算數(shù)值,以此來(lái)確定最終的術(shù)語(yǔ)。將候選術(shù)語(yǔ)的綜合數(shù)值定為WN,設(shè)候選術(shù)語(yǔ)為wt包括語(yǔ)言特征和復(fù)合測(cè)量方法兩個(gè)部分。語(yǔ)言特征包括詞性特征數(shù)值、詞長(zhǎng)比特征數(shù)值,復(fù)合測(cè)量方法包括C值法和TF-IDF,其計(jì)算公式為

      WN(wt)=POS(wt)+WLR(wt)+Cvalue(wt)+

      TF-IDF(wt)

      (6)

      式(6)中:POS(wt)為詞性特征數(shù)值;WLR(wt)為詞長(zhǎng)比;Cvalue為C值;TF-IDF(wt)為詞頻-逆文本頻率;WN(wt)為術(shù)語(yǔ)綜合數(shù)值。

      根據(jù)式(6)可以得出結(jié)論,候選術(shù)語(yǔ)綜合數(shù)值越高,成為術(shù)語(yǔ)的可能性就越大,反之則成為術(shù)語(yǔ)的可能性越小。需要注意的是,候選術(shù)語(yǔ)的數(shù)值高低還可以用來(lái)說(shuō)明術(shù)語(yǔ)對(duì)于文檔的區(qū)分度以及預(yù)測(cè)性,對(duì)于機(jī)器自動(dòng)翻譯、互聯(lián)網(wǎng)搜索、大數(shù)據(jù)挖掘[]等都具有現(xiàn)實(shí)的意義。

      4 實(shí)驗(yàn)與分析

      由于領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取研究的對(duì)象是農(nóng)業(yè)領(lǐng)域上的術(shù)語(yǔ),在文本選擇上需要講究專(zhuān)業(yè)性和權(quán)威性,因此選取的文本來(lái)自中華人民共和國(guó)農(nóng)業(yè)農(nóng)村部網(wǎng)站公開(kāi)欄目中的文件和公告,隨機(jī)選取了500篇,內(nèi)容覆蓋了農(nóng)事指導(dǎo)、農(nóng)業(yè)提案、農(nóng)業(yè)規(guī)劃、農(nóng)業(yè)管理、農(nóng)業(yè)政策等多個(gè)領(lǐng)域,具有相當(dāng)?shù)钠毡樾砸饬x。

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      首先將實(shí)驗(yàn)所使用的語(yǔ)料進(jìn)行分詞處理并標(biāo)注詞性,在NLPIR分詞系統(tǒng)中,將實(shí)驗(yàn)的語(yǔ)料輸入,對(duì)500篇選取的文檔分詞處理后,得到的總詞語(yǔ)數(shù)量為663 195個(gè),除去數(shù)字等,其中漢字詞語(yǔ)為518 210個(gè),英文單詞為1 830個(gè)。在進(jìn)行術(shù)語(yǔ)抽取時(shí),部分術(shù)語(yǔ)的語(yǔ)言特征和復(fù)合測(cè)量方法數(shù)值如表2所示。

      由表2可知,隨機(jī)列舉的術(shù)語(yǔ)都是名詞或名詞短語(yǔ),所以詞性特征數(shù)值都為1,文檔集合的平均詞長(zhǎng)為1.96,也就是說(shuō)語(yǔ)料中的絕大部分詞都是雙字詞,那么詞長(zhǎng)比在1~3都被認(rèn)為是符合領(lǐng)域術(shù)語(yǔ)抽取要求的。根據(jù)C值法可以看出,“農(nóng)業(yè)”這樣的詞語(yǔ)數(shù)值都相對(duì)偏低,像“結(jié)鈴期”這樣的詞語(yǔ)數(shù)值都較高。TF-IDF的數(shù)值也反應(yīng)了類(lèi)似的結(jié)果,最后所得到的WN值就是各項(xiàng)數(shù)值相加的總和,若設(shè)定下限閾值為4,則大于4的候選術(shù)語(yǔ)都將被確定為最終的農(nóng)業(yè)領(lǐng)域術(shù)語(yǔ)。

      表2 部分術(shù)語(yǔ)的語(yǔ)言特征和復(fù)合測(cè)量方法數(shù)值Table 2 Linguistic features of some terms and composite measurement method values

      4.2 實(shí)驗(yàn)結(jié)果分析

      為了了解和傳統(tǒng)的基于規(guī)則、基于統(tǒng)計(jì)學(xué)的方法的區(qū)別,實(shí)驗(yàn)首先采用語(yǔ)言學(xué)模板,在排除掉數(shù)值為0的詞后,在分詞和詞性標(biāo)注完成,得到518 210個(gè)詞語(yǔ),顯然噪聲詞匯大量出現(xiàn),在抽取術(shù)語(yǔ)時(shí),把很多詞語(yǔ)的子串也一并抽取出來(lái)了。其次使用統(tǒng)計(jì)學(xué)詞頻的方法,在實(shí)驗(yàn)語(yǔ)料的準(zhǔn)備階段,文檔分詞和詞性標(biāo)注的同時(shí),統(tǒng)計(jì)了詞頻,其中詞頻最高的是“的”,共出現(xiàn)了5 365次,但它顯然不是術(shù)語(yǔ)。在抽取的頻率最高的前100個(gè)詞語(yǔ)中,只有32個(gè)是術(shù)語(yǔ),準(zhǔn)確度較低,可見(jiàn)傳統(tǒng)的詞頻統(tǒng)計(jì)等方法有著較大的缺陷,對(duì)于高頻詞語(yǔ)和高頻術(shù)語(yǔ)不能進(jìn)行高效準(zhǔn)確的區(qū)分。與此相比,用語(yǔ)言特征和復(fù)合測(cè)量方法抽取出來(lái)的農(nóng)業(yè)領(lǐng)域術(shù)語(yǔ),自動(dòng)排除了介詞、感嘆詞、方位詞等明顯不是術(shù)語(yǔ)的詞,具有較高的準(zhǔn)確率。對(duì)于領(lǐng)域術(shù)語(yǔ)的抽取效果進(jìn)行評(píng)價(jià),一般有兩個(gè)指標(biāo):精確度Precision和召回率Recall。精確度就是指抽取出來(lái)的領(lǐng)域術(shù)語(yǔ)中正確術(shù)語(yǔ)中所占的比例。召回率就是指抽取出來(lái)的領(lǐng)域術(shù)語(yǔ)占全部術(shù)語(yǔ)的比例。精確度可以使用系統(tǒng)正確標(biāo)記的術(shù)語(yǔ)總數(shù)占全部術(shù)語(yǔ)的總數(shù)比例表示,而召回率用系統(tǒng)正確標(biāo)記的名詞術(shù)語(yǔ)數(shù)量占找到的名詞術(shù)語(yǔ)總數(shù)的比例表示,其計(jì)算公式為[18]

      (7)

      式(7)中:Fscore為F值評(píng)價(jià)指標(biāo),取值范圍為0~100%,越接近100%,那么抽取出的領(lǐng)域術(shù)語(yǔ)的精確度和召回率就越高,領(lǐng)域術(shù)語(yǔ)的抽取效果就越好。

      對(duì)抽取出來(lái)的術(shù)語(yǔ)進(jìn)行人工判定真?zhèn)危?dāng)閾值為4時(shí),精確度是71%,召回率是80%。當(dāng)閾值是5時(shí),精確度是80%,召回率是74%。由此可見(jiàn),閾值的設(shè)定對(duì)于最終的領(lǐng)域術(shù)語(yǔ)抽取結(jié)果有著相當(dāng)關(guān)鍵的影響。應(yīng)該通過(guò)多次實(shí)驗(yàn)來(lái)尋找最理想的閾值。

      5 結(jié)論

      (1)針對(duì)傳統(tǒng)單一的領(lǐng)域術(shù)語(yǔ)抽取方法的缺陷提出了綜合使用語(yǔ)言特征和復(fù)合測(cè)量方法來(lái)抽取領(lǐng)域術(shù)語(yǔ)的模型。首先使用詞性特征初篩候選術(shù)語(yǔ)集合,再根據(jù)詞性特征數(shù)值、詞長(zhǎng)比特征數(shù)值、C值法和TF-IDF的綜合數(shù)值確定術(shù)語(yǔ)的權(quán)值。用這種方法抽取出來(lái)的領(lǐng)域術(shù)語(yǔ),具有較高的精確度和召回率,不但可以使用在所研究的農(nóng)業(yè)領(lǐng)域,還可以廣泛應(yīng)用在多種領(lǐng)域,實(shí)現(xiàn)術(shù)語(yǔ)抽取的高效率和正確率。

      (2)由于所使用的方法是多種抽取方法的綜合,所以在單項(xiàng)方法上存在覆蓋面不足,精度不夠的問(wèn)題,比如詞性特征數(shù)值就存在遺漏現(xiàn)象,很容易影響最終的統(tǒng)計(jì)結(jié)果,使抽取出來(lái)的術(shù)語(yǔ)存在不全面的問(wèn)題。詞長(zhǎng)比特征的概念在中文術(shù)語(yǔ)的使用中也可能存在掛一漏萬(wàn)的現(xiàn)象,遺漏多字術(shù)語(yǔ)的可能始終存在。C值法在區(qū)分高頻詞和高頻術(shù)語(yǔ)上存在不足,對(duì)低頻術(shù)語(yǔ)識(shí)別也較困難。TF-IDF始終存在精度不足的問(wèn)題。

      (3)在下一步的研究里應(yīng)該加強(qiáng)對(duì)各個(gè)單項(xiàng)規(guī)則的細(xì)化,完善規(guī)則的機(jī)制,提高術(shù)語(yǔ)抽取的效率和準(zhǔn)確度,同時(shí)對(duì)于閾值的設(shè)定也要進(jìn)一步細(xì)化,以探索最佳的閾值范圍,實(shí)現(xiàn)術(shù)語(yǔ)抽取的最佳效果。

      宣化县| 图木舒克市| 克拉玛依市| 班戈县| 新龙县| 上高县| 江西省| 同德县| 闻喜县| 闸北区| 农安县| 阜宁县| 石阡县| 台南县| 东乡族自治县| 阿拉善左旗| 五华县| 象州县| 青河县| 喀喇| 霍城县| 呈贡县| 博乐市| 潼南县| 永登县| 玉田县| 东莞市| 浠水县| 阳新县| 平江县| 上饶县| 烟台市| 东至县| 安庆市| 白城市| 海口市| 和田市| 仁化县| 肥城市| 溧水县| 青铜峡市|