• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于DC-Value的西班牙語(yǔ)文本詞語(yǔ)提取方法①

      2021-06-28 06:28:20顏煜鈴簡(jiǎn)梓煒
      關(guān)鍵詞:西文詞串西語(yǔ)

      于 娟,顏煜鈴,簡(jiǎn)梓煒,張 晨

      (福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福州 350108)

      1 引言

      隨著“一帶一路”倡議的推進(jìn)和全球化進(jìn)程的加快,國(guó)家之間的經(jīng)濟(jì)交流日益頻繁與深入,跨國(guó)組織的管理決策依據(jù)也不再限于單一語(yǔ)種的信息,而是希望基于來(lái)自全球各語(yǔ)種數(shù)據(jù)的全局視圖.然而,相比圖像、視頻等其它非結(jié)構(gòu)化數(shù)據(jù),文本具有更為顯著的語(yǔ)種差異?閱讀不懂的語(yǔ)種的文本,人們能從中接受到的信息幾乎是零.為此,有必要研究多語(yǔ)種文本的融合分析方法,以快速獲取瞬息萬(wàn)變的國(guó)際情況信息,支持跨國(guó)組織的國(guó)際化戰(zhàn)略管理決策.

      西班牙語(yǔ)(以下簡(jiǎn)稱西語(yǔ))是聯(lián)合國(guó)6 種官方語(yǔ)言之一,是全球19 個(gè)國(guó)家的官方語(yǔ)言,有四億多人作為母語(yǔ)使用,是僅次于漢語(yǔ)的世界第二大母語(yǔ)語(yǔ)言[1].相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,我國(guó)與西語(yǔ)國(guó)家的雙邊經(jīng)貿(mào)關(guān)系發(fā)展迅速,已成為包括西班牙、智利、秘魯、墨西哥等大部分西語(yǔ)國(guó)家的主要貿(mào)易伙伴之一,未來(lái)有著廣闊的合作前景[2,3].另一方面,我國(guó)尚缺乏西語(yǔ)專門人才,因此,如何對(duì)來(lái)自西語(yǔ)國(guó)家的海量文本進(jìn)行高效的數(shù)據(jù)挖掘,已成為我國(guó)相關(guān)組織的一個(gè)重要的管理方法問(wèn)題.

      文本詞語(yǔ)提取是文本挖掘的基礎(chǔ)工作,是指自動(dòng)獲取待分析文本中出現(xiàn)的詞語(yǔ),包括單詞和短語(yǔ).西班牙文(以下簡(jiǎn)稱西文)的單詞之間用空格分開,易于實(shí)現(xiàn)自動(dòng)提取;但文本挖掘所用的特征詞大多是面向文本內(nèi)容的多詞短語(yǔ),因此,西文的短語(yǔ)提取是西語(yǔ)文本詞語(yǔ)提取和文本挖掘的關(guān)鍵環(huán)節(jié).另一方面,相比同屬印歐語(yǔ)系的英語(yǔ),西語(yǔ)的詞形變化規(guī)則更為復(fù)雜:名詞不僅有單復(fù)數(shù)變化,還區(qū)分陰陽(yáng)性;動(dòng)詞、形容詞和代詞均需依據(jù)所修飾或指代的名詞的陰陽(yáng)性進(jìn)行相應(yīng)變化.并且,西語(yǔ)和英語(yǔ)的語(yǔ)序也有所不同:西語(yǔ)中的形容詞位置多樣化,即形容詞或形容詞短語(yǔ)可能位于其所修飾的名詞或名詞短語(yǔ)的前面、后面甚至其它位置[4].種種差異導(dǎo)致現(xiàn)有的比較完善的英語(yǔ)文本詞語(yǔ)提取方法不能直接應(yīng)用于西文詞語(yǔ)提取.

      為此,本文研究西文詞語(yǔ)提取方法,結(jié)合西語(yǔ)語(yǔ)法規(guī)則和串頻統(tǒng)計(jì)方法,從西語(yǔ)文本中自動(dòng)提取包含多詞短語(yǔ)在內(nèi)的詞語(yǔ)集合,以支持西語(yǔ)文本挖掘工作.本文第2 節(jié)介紹詞語(yǔ)提取方法的研究現(xiàn)狀;第3 節(jié)簡(jiǎn)述本文所提出的西文詞語(yǔ)提取方法的框架流程;第4 節(jié)詳細(xì)說(shuō)明西文候選詞語(yǔ)的提取過(guò)程和方法;第5 節(jié)介紹計(jì)算候選詞語(yǔ)成詞可能性的成詞度算法;第6 節(jié)通過(guò)實(shí)驗(yàn)比較分析本文方法與傳統(tǒng)的英文短語(yǔ)提取方法C-value和NC-value;第7 節(jié)給出研究結(jié)論.

      2 相關(guān)工作

      詞語(yǔ)是某一語(yǔ)言里的詞(也稱原子詞、單詞等)和固定短語(yǔ)(也稱合成詞、詞組、多詞術(shù)語(yǔ)等)的總稱.其中,原子詞是詞語(yǔ)組成的基本單元;合成詞是由多個(gè)原子詞依據(jù)一定規(guī)則組合成的短語(yǔ),具有其組成部分不能代表的特定含義.詞語(yǔ)提取是文本挖掘的基礎(chǔ)工作,為文本的結(jié)構(gòu)化建模提供詞庫(kù),因此,其召回率和準(zhǔn)確率顯著影響文本挖掘的效果.現(xiàn)有的詞語(yǔ)提取方法研究大多針對(duì)中文或英文文本詞語(yǔ)提取[5,6].這些詞語(yǔ)提取方法可分為主要的3 類:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和混合方法.

      基于規(guī)則的方法首先根據(jù)語(yǔ)言的詞法或句法特征總結(jié)構(gòu)詞規(guī)則,然后從文本中提取符合規(guī)則的詞串作為詞語(yǔ).因各語(yǔ)言的詞法和句法不同,構(gòu)詞規(guī)則一般僅適用于某一特定語(yǔ)言的文本詞語(yǔ)提取.例如,文獻(xiàn)[7,8]總結(jié)了中文詞語(yǔ)構(gòu)詞規(guī)則及中文詞語(yǔ)提取方法;文獻(xiàn)[9,10]總結(jié)了英文網(wǎng)頁(yè)或?qū)W術(shù)報(bào)告中的詞語(yǔ)構(gòu)詞規(guī)則,用于自動(dòng)提取英文術(shù)語(yǔ);文獻(xiàn)[11–13]等研究總結(jié)了西文的詞語(yǔ)提取規(guī)則.這些基于規(guī)則的詞語(yǔ)提取方法受限于規(guī)則庫(kù)的準(zhǔn)確性和全面性.由于總結(jié)構(gòu)詞規(guī)則耗時(shí)耗力,且難以用少量規(guī)則覆蓋多變的詞法和句法,因此這類詞語(yǔ)提取方法的召回率大都不高.

      基于統(tǒng)計(jì)的方法利用概率論和信息論,從大規(guī)模語(yǔ)料中統(tǒng)計(jì)多個(gè)原子詞的鄰接共現(xiàn)概率,提取得到原子詞和固定短語(yǔ).文獻(xiàn)[14,15]使用字符的共現(xiàn)率、字符串各部分的互信息、字符串的信息熵等指標(biāo)從大規(guī)模語(yǔ)料庫(kù)中提取詞語(yǔ).文獻(xiàn)[16,17]進(jìn)一步將詞語(yǔ)的上下文信息納入考量指標(biāo),提出了C-value 方法及其改進(jìn)方法NC-value.文獻(xiàn)[18]研究了改進(jìn)的C-value/NCvalue 方法,用于提取西文詞語(yǔ).這些基于統(tǒng)計(jì)的詞語(yǔ)提取方法不受構(gòu)詞規(guī)則的限制,也較少受到不同語(yǔ)言的影響,僅在分詞和詞形規(guī)范化階段因不同語(yǔ)言而異[19].這類方法一般都需要大規(guī)模語(yǔ)料的支持才能保證準(zhǔn)確率,不適用于可用語(yǔ)料較少的情況.

      混合的詞語(yǔ)提取方法,結(jié)合使用前述兩種方法,以同時(shí)保證結(jié)果的高準(zhǔn)確率和高召回率.文獻(xiàn)[20]結(jié)合詞性分析與串頻統(tǒng)計(jì),研究了一種提取中文詞語(yǔ)的原子詞步長(zhǎng)法.文獻(xiàn)[21]提出一種結(jié)合HITS與C-value的HC-value 方法,用于提取英文短語(yǔ).文獻(xiàn)[22]提出一種基于西文語(yǔ)義標(biāo)注,結(jié)合TF-IDF和NC-Value 的術(shù)語(yǔ)提取方法.此外,還有一些基于機(jī)器學(xué)習(xí)的術(shù)語(yǔ)提取方法[23,24].文獻(xiàn)[25]基于術(shù)語(yǔ)的詞性特征和上下文等信息訓(xùn)練SVM 模型,以提取具有相似位置特征的命名實(shí)體.這些混合方法既結(jié)合了基于規(guī)則和基于統(tǒng)計(jì)的詞語(yǔ)提取方法的優(yōu)點(diǎn),又能一定程度地克服兩種方法的不足,因此優(yōu)于非混合方法[26].混合方法是當(dāng)前詞語(yǔ)提取方法研究的主流.

      3 本文方法框架

      由于目前針對(duì)西語(yǔ)文本詞語(yǔ)提取的方法研究較少,因此,為了支持西語(yǔ)文本挖掘,本文借鑒前述中、英文文本詞語(yǔ)提取方法,提出一種結(jié)合語(yǔ)言學(xué)規(guī)則和統(tǒng)計(jì)學(xué)方法的西文詞語(yǔ)提取方法,利用詞法規(guī)則和單詞共現(xiàn)規(guī)律,從西語(yǔ)文本中自動(dòng)提取包含單詞和短語(yǔ)在內(nèi)的詞語(yǔ)集合.該方法分為3 步:文本預(yù)處理、候選詞語(yǔ)提取和成詞度計(jì)算.方法流程如圖1所示.

      圖1 西語(yǔ)文本詞語(yǔ)提取方法流程圖

      (1)文本預(yù)處理模塊,首先清洗輸入的西語(yǔ)文本,刪除其中與詞語(yǔ)提取無(wú)關(guān)的圖片、公式、標(biāo)識(shí)符等,輸出統(tǒng)一格式的純文本;然后采用現(xiàn)成工具進(jìn)行詞性標(biāo)注和詞形還原,輸出帶詞性標(biāo)注的標(biāo)準(zhǔn)化文本.詞性標(biāo)注是指為每個(gè)單詞標(biāo)注其POS 詞性.常用的西文詞性標(biāo)注工具有:Pattern.es[27]、NLTK[28]、Apache OpenNLP[29]、Stanford core NLP[30]、Polyglot[31]等.詞形還原是指把名詞復(fù)數(shù)、動(dòng)詞變位等變形的西語(yǔ)單詞還原為單詞原形.常用的西文詞形還原工具有Pattern.es[27]和NLTK[28]等.

      (2)候選詞語(yǔ)提取模塊.本文依據(jù)西語(yǔ)語(yǔ)法特征總結(jié)構(gòu)詞率低的單詞和詞性,總結(jié)形成停用詞表和停用詞性表.該模塊首先刪除前一模塊輸出文本中的停用詞,得到一個(gè)單詞串的序列;然后計(jì)算每一單詞串的子串及其出現(xiàn)頻次,超出頻次閾值的子串為頻繁詞串;刪除出現(xiàn)頻次與父串相同的頻繁詞串,其余的作為候選詞語(yǔ)輸出.后文第4 節(jié)詳細(xì)說(shuō)明該模塊的過(guò)程和方法.

      (3)成詞度計(jì)算模塊的輸入為前一模塊輸出的候選詞語(yǔ)集合,輸出為按成詞度降序排列的候選詞語(yǔ)序列.該模塊計(jì)算每一候選詞語(yǔ)的C'-value和D-value值,然后將加權(quán)和DC-value 值作為候選詞語(yǔ)的成詞度.把候選詞語(yǔ)序列交由西語(yǔ)專業(yè)人士進(jìn)行人工判斷選擇,可得到最終的西文詞語(yǔ)集合.后文第6 節(jié)詳細(xì)介紹成詞度計(jì)算方法.

      4 候選詞語(yǔ)提取

      候選詞語(yǔ)提取分為兩個(gè)步驟:停用詞刪除和頻繁詞串提取.

      停用詞刪除的輸入是帶詞性標(biāo)注的西語(yǔ)純文本、停用詞表和停用詞性表.該子模塊遍歷輸入文本,刪除其中出現(xiàn)在停用詞表和停用詞性表的單詞,僅保留位于句首的停用詞,輸出一個(gè)西文單詞串的序列.停用詞是那些參與造句但不參與構(gòu)詞的單詞,如es(是)、y(和)等;停用詞性是一些鮮少參與構(gòu)成短語(yǔ)的詞性,如代詞、副詞、從屬連詞等.本文在文獻(xiàn)[20]的基礎(chǔ)之上,依據(jù)經(jīng)驗(yàn)總結(jié)了西文詞語(yǔ)提取的停用詞表和停用詞性表.

      頻繁詞串提取的輸入是一個(gè)西語(yǔ)單詞串的序列,輸出是候選詞語(yǔ)集合.該子模塊以單詞為步長(zhǎng),對(duì)輸入的每一詞串以長(zhǎng)度優(yōu)先[32]取子串,并計(jì)算子串的出現(xiàn)頻次,出現(xiàn)頻次大于閾值的作為頻繁詞串.為了避免詞語(yǔ)提取的截?cái)鄦?wèn)題,出現(xiàn)頻次與父串相同的頻繁詞串不列入候選詞語(yǔ).例如,若父輩詞串“conjunto/NN de/IN dato/NNS”(數(shù)據(jù)集)在文本中出現(xiàn)了10 次,且其子串“dato/NNS”(數(shù)據(jù))也出現(xiàn)了10 次,則“dato/NNS”不列入候選詞語(yǔ)集合.

      以一段西語(yǔ)文本的處理為例說(shuō)明本文的候選詞語(yǔ)提取方法.圖2左側(cè)為一段西語(yǔ)文本,右側(cè)為其對(duì)應(yīng)的中文翻譯.圖2中的文本不具有特殊性.圖3為圖2文本經(jīng)文本預(yù)處理的結(jié)果.不失一般性,本文采用Pattern.es 進(jìn)行西文詞性標(biāo)注和詞形還原.圖4為圖3文本刪除停用詞和停用詞性詞之后的結(jié)果.為明晰起見,采用“[”和“]”作為段落起始和終止符.表1為圖4文本提取頻繁詞串所得的候選詞語(yǔ),其中的頻次僅記錄頻繁詞串獨(dú)立出現(xiàn)的次數(shù).

      表1 圖4候選詞語(yǔ)提取結(jié)果

      圖2 西語(yǔ)文本示例及其中文翻譯

      圖3 圖2西語(yǔ)文本的文本預(yù)處理結(jié)果

      圖4 圖3文本刪除停用詞后的結(jié)果

      5 成詞度計(jì)算

      成詞度是候選詞語(yǔ)成詞的可能性,其主要指標(biāo)是單元度(unithood)和領(lǐng)域度(termhood).其中,單元度衡量候選詞語(yǔ)內(nèi)部語(yǔ)言結(jié)構(gòu)的穩(wěn)定性;領(lǐng)域度衡量候選詞語(yǔ)與某一領(lǐng)域相關(guān)的程度.對(duì)每一個(gè)候選詞語(yǔ),本文首先計(jì)算其單元度和領(lǐng)域度,然后結(jié)合起來(lái)計(jì)算成詞度.

      C-value是常用的英文候選詞語(yǔ)單元度計(jì)算方法,但其僅考慮由兩個(gè)及以上單詞組成的詞語(yǔ)[17,18],不能用于計(jì)算僅由一個(gè)單詞構(gòu)成的詞語(yǔ)的單元度.為了全面比較包含單詞和短語(yǔ)在內(nèi)的候選詞語(yǔ)的單元度,本文對(duì)C-value 計(jì)算公式進(jìn)行改進(jìn),將C=log2|t|改為C=1+log2|t|,使其可以計(jì)算單詞的單元度.改進(jìn)后的算式如式(1)所示:

      式(1)中,t為候選詞語(yǔ),C=1+log2|t|,|t|表示t的長(zhǎng)度;t f(t)是t在西語(yǔ)文本中出現(xiàn)的頻次;Tt表示嵌套t的非t候選詞語(yǔ)的集合,|Tt|表示Tt集合中元素的個(gè)數(shù).

      C'-value 值越大,說(shuō)明候選詞語(yǔ)出現(xiàn)的頻次越高且被嵌套的情況越少,則其單獨(dú)成詞的可能性就越大.在出現(xiàn)頻次相等的情況下,較長(zhǎng)的候選詞語(yǔ)成詞的可能性更大.

      在計(jì)算候選詞語(yǔ)的領(lǐng)域度時(shí),本文借鑒文獻(xiàn)[33,34],采用式(2)計(jì)算領(lǐng)域度:

      式(2)中,t為候選詞語(yǔ),t f(t)表示t在西語(yǔ)文本中出現(xiàn)的總頻率,d f(t) 表示t出現(xiàn)的文本頻率;t fi(t)表示t在第i個(gè)文本中出現(xiàn)的次數(shù);N為t出現(xiàn)的文本數(shù).考慮到部分候選詞語(yǔ)僅在1 個(gè)文檔中出現(xiàn),所以引入第N+1 個(gè)文本對(duì)候選詞語(yǔ)的分布進(jìn)行修正,且t fN+1(t)等于t在修正后語(yǔ)料中出現(xiàn)的平均頻次.

      D-value 值越大,則候選詞語(yǔ)在輸入語(yǔ)料中的不同文本之間的分布越不均勻,說(shuō)明其越有可能與特定領(lǐng)域相關(guān),則其是領(lǐng)域?qū)S卸陶Z(yǔ)的可能性越大,因而成詞的可能性也就越大.

      結(jié)合單元度C′-value和領(lǐng)域度D-value 這兩個(gè)指標(biāo)計(jì)算候選詞語(yǔ)的成詞度,算式如式(3)所示:

      式(3)中,α為0 到1 之間的一個(gè)實(shí)數(shù),用于將C'-value和D-value 融合進(jìn)一個(gè)線性模型.多次實(shí)驗(yàn)的結(jié)果表明,α取值0.2 時(shí),成詞度的計(jì)算結(jié)果最準(zhǔn)確.

      6 實(shí)驗(yàn)分析

      目前還沒有檢驗(yàn)西文詞語(yǔ)提取方法優(yōu)劣的通用數(shù)據(jù)集,也沒有標(biāo)準(zhǔn)的評(píng)價(jià)指標(biāo).本文采用兩組實(shí)驗(yàn),比較分析本文所提出的西文詞語(yǔ)提取方法與傳統(tǒng)的Cvalue[17]和NC-value[18]方法的性能.

      6.1 實(shí)驗(yàn)數(shù)據(jù)

      本文采用兩個(gè)題材不同的西語(yǔ)語(yǔ)料比較分析:聯(lián)合國(guó)平行語(yǔ)料庫(kù)[35]和路透社文本分類語(yǔ)料庫(kù)[36].從聯(lián)合國(guó)平行語(yǔ)料庫(kù)中隨機(jī)選取246 篇西語(yǔ)會(huì)議記錄作為實(shí)驗(yàn)數(shù)據(jù)一,共12.8 MB;從路透社語(yǔ)料中選取200 篇新聞報(bào)道作為實(shí)驗(yàn)數(shù)據(jù)二,共162 KB.

      6.2 評(píng)價(jià)指標(biāo)

      常用的文本挖掘方法檢驗(yàn)指標(biāo)是召回率和準(zhǔn)確率.召回率主要受所采用的候選詞語(yǔ)提取方法的影響.西文詞語(yǔ)提取常用的C-value 方法和NC-value 方法在提取候選詞語(yǔ)時(shí),只考慮名詞和形容詞,基于詞性規(guī)則,僅能提取得到符合設(shè)定規(guī)則的名詞和形容詞組合.本文在提取候選詞語(yǔ)時(shí),全面考察各種詞性,僅刪除不參與構(gòu)詞的代詞、副詞、從屬連詞等,然后以單詞為步長(zhǎng)提取由各種詞性單詞組合而成的頻繁詞串,刪除其中僅作為子串出現(xiàn)的頻繁詞串之后得到候選詞語(yǔ)集合.因此,本文的西文詞語(yǔ)提取方法能夠提取得到的候選詞語(yǔ)數(shù)目大幅提高,約為C-value 方法和NC-value 方法的2.2 倍;并且,由于本文方法的準(zhǔn)確率較高,所以召回率也遠(yuǎn)高于C-value 方法和NC-value 方法.因此,本文不再比較3 種西文詞語(yǔ)提取方法的召回率,僅重點(diǎn)評(píng)價(jià)三者的準(zhǔn)確率.

      6.3 實(shí)驗(yàn)結(jié)果與分析

      首先對(duì)每組實(shí)驗(yàn)數(shù)據(jù)進(jìn)行文本預(yù)處理,接著以2為出現(xiàn)頻次的閾值提取頻繁詞串,刪除頻次與父串相同的頻繁詞串,得到候選詞語(yǔ)集合.然后計(jì)算候選詞語(yǔ)的成詞度,即C-value、NC-value和DC-value 值,并按成詞度降序排列輸出給西語(yǔ)專業(yè)人士判斷哪些候選成詞.實(shí)驗(yàn)數(shù)據(jù)一和數(shù)據(jù)二的候選詞語(yǔ)集合分別包含17 058 條和1983 條西文候選詞語(yǔ).

      盡管C-value和NC-value 方法在候選詞語(yǔ)提取階段的召回率遠(yuǎn)低于本文方法,但為了公平比較3 種方法的準(zhǔn)確率,在成詞度計(jì)算時(shí)為3 種方法提供了相同的候選詞語(yǔ)集合,均為由本文方法所得到的候選詞語(yǔ)集合.基于人工判斷的結(jié)果,從正確率和錯(cuò)誤率兩個(gè)方面分析詞語(yǔ)自動(dòng)提取的準(zhǔn)確率,如表2、表3和圖5、圖6所示.

      表2 聯(lián)合國(guó)平行語(yǔ)料庫(kù)詞語(yǔ)提取正確率(%)

      表3 路透社語(yǔ)料詞語(yǔ)提取結(jié)果正確率(%)

      圖5 聯(lián)合國(guó)平行語(yǔ)料庫(kù)詞語(yǔ)提取錯(cuò)誤率

      正確率和錯(cuò)誤率的計(jì)算公式分別如式(4)、式(5)所示:

      其中,候選詞語(yǔ)數(shù)是候選詞語(yǔ)集合中的詞語(yǔ)個(gè)數(shù);成詞數(shù)和不成詞數(shù)分別指由西語(yǔ)專業(yè)人士判斷成詞和不成詞的候選詞語(yǔ)的個(gè)數(shù);頻繁詞串?dāng)?shù)是指閾值大于2 的詞串個(gè)數(shù),其中包含那些出現(xiàn)頻次與父串相同的子串;誤刪詞數(shù)是那些本應(yīng)成詞但因僅作為子串出現(xiàn)而未列入候選詞語(yǔ)的頻繁詞串個(gè)數(shù).從表2、表3和圖5、圖6可以看到:

      圖6 路透社語(yǔ)料詞語(yǔ)提取結(jié)果錯(cuò)誤率

      (1)候選詞語(yǔ)集合相同的情況下,3 種成詞度計(jì)算方法對(duì)候選詞語(yǔ)的排序不同,但準(zhǔn)確率持平.可見,本文提出的西文詞語(yǔ)提取方法在大幅提高召回率的同時(shí),與經(jīng)典的C-value和NC-value 方法的準(zhǔn)確率持平.

      (2)語(yǔ)料的規(guī)模影響著本文方法的準(zhǔn)確率.實(shí)驗(yàn)數(shù)據(jù)二的詞語(yǔ)提取準(zhǔn)確率略低于數(shù)據(jù)一,原因是其語(yǔ)料規(guī)模較小,沒能完備地展現(xiàn)串頻共現(xiàn)的統(tǒng)計(jì)特征.圖2的西語(yǔ)文本較短,其中的頻繁詞串?dāng)?shù)量較少,且常因僅作為子串出現(xiàn)而被誤刪,如“tecnología(技術(shù))”、“sistema(系統(tǒng))”等.可見,本文方法更適用于語(yǔ)料規(guī)模較大的西語(yǔ)文本的詞語(yǔ)提取.

      總之,在西語(yǔ)文本詞語(yǔ)提取方面,本文方法的召回率顯著高于經(jīng)典的C-value和NC-value 方法;在成詞度計(jì)算方面,3 種方法的準(zhǔn)確率區(qū)別不大,都較為令人滿意.并且,語(yǔ)料規(guī)模越大,本文方法的準(zhǔn)確率越高.

      7 結(jié)論

      作為聯(lián)合國(guó)和眾多國(guó)際組織的工作語(yǔ)言,西班牙語(yǔ)在全球具有廣泛的使用范圍,是僅次于漢語(yǔ)的世界第二大語(yǔ)言,但目前西語(yǔ)文本挖掘研究尚不成熟,尤其是針對(duì)西語(yǔ)文本詞語(yǔ)提取的方法研究.我國(guó)與西語(yǔ)國(guó)家的雙邊經(jīng)貿(mào)關(guān)系發(fā)展迅速,為了支持基于西語(yǔ)信息的管理決策,本文提出一種西語(yǔ)文本詞語(yǔ)提取方法,以支持針對(duì)西語(yǔ)文本的文本挖掘和自動(dòng)分析.

      給定待分析的西語(yǔ)文本或語(yǔ)料庫(kù),本文分3 步自動(dòng)提取詞語(yǔ)集合:(1)對(duì)輸入文本進(jìn)行預(yù)處理,包括:文本清洗、詞性標(biāo)注和詞形還原;(2)根據(jù)西語(yǔ)語(yǔ)法特征總結(jié)停用詞表和停用詞性表,刪除文本中的停用詞,然后基于串頻統(tǒng)計(jì)提取得到候選詞語(yǔ)集合;(3)計(jì)算候選詞語(yǔ)的成詞度,以成詞度降序輸出給人工判斷選擇,得到最終的詞語(yǔ)集合.實(shí)驗(yàn)表明,本文方法的召回率顯著高于C-value和NC-value 等經(jīng)典的西語(yǔ)文本詞語(yǔ)提取方法,且準(zhǔn)確率與這些經(jīng)典方法持平.

      本文方法適用于大規(guī)模西語(yǔ)文本語(yǔ)料的詞語(yǔ)提取.在面向西語(yǔ)文本分類、聚類等文本挖掘任務(wù)時(shí),采用本文方法的前兩個(gè)步驟(文本預(yù)處理和候選詞語(yǔ)提取)即可無(wú)監(jiān)督地提取待分析文本中的詞語(yǔ)集合,供文本建模從中選取特征詞.在面向西語(yǔ)文本命名實(shí)體識(shí)別、本體構(gòu)建、機(jī)器翻譯等需要準(zhǔn)確詞語(yǔ)的任務(wù)時(shí),除了前兩個(gè)步驟,還需采用本文方法的第3 步(成詞度計(jì)算)計(jì)算候選詞語(yǔ)的成詞度.候選詞語(yǔ)按成詞度降序排列交由西語(yǔ)專業(yè)人士進(jìn)行人工判斷確定最終的詞語(yǔ)集合,能夠降低人工選詞的工作量.

      本文的西詞文本詞語(yǔ)提取方法的準(zhǔn)確率受到停用詞表和停用詞性表的影響,因此,未來(lái)將在應(yīng)用研究中繼續(xù)完善停用詞表和停用詞性表,進(jìn)一步提高西班牙語(yǔ)文本詞語(yǔ)提取方法的準(zhǔn)確率.

      猜你喜歡
      西文詞串西語(yǔ)
      高校圖書館西文古籍開發(fā)整理實(shí)踐及對(duì)策探討
      ——以河北大學(xué)圖書館為例
      樂(lè)籍西譯:五種《樂(lè)記》西文譯本、譯者及其傳播
      2019年拉美西語(yǔ)國(guó)家熱帶花卉園林景觀研修班結(jié)業(yè)
      靈動(dòng)的詞串,寫話的紐帶
      殯葬展
      《習(xí)近平喜歡的典故——平“語(yǔ)”近人》(西語(yǔ)版)全球上線
      報(bào)紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
      新聞傳播(2018年15期)2018-09-18 03:19:58
      西文圖書編目中RDA書目記錄使用分析
      An Examination of the Main Characters in Heart of Darkness With Freud’s Theory
      高等教育英語(yǔ)專業(yè)建設(shè)回顧
      西乌| 秦皇岛市| 嘉荫县| 齐河县| 兰坪| 明星| 嘉峪关市| 彭阳县| 剑阁县| 长阳| 宝丰县| 武乡县| 天全县| 庆安县| 嘉善县| 阳曲县| 柘荣县| 弥勒县| 松滋市| 呼玛县| 益阳市| 长春市| 凤凰县| 南川市| 开远市| 温州市| 佛冈县| 东城区| 光泽县| 西华县| 岳阳市| 昭通市| 昌平区| 文安县| 启东市| 隆安县| 鄢陵县| 沭阳县| 西安市| 庆云县| 闵行区|