• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      藏文停用詞選取與自動(dòng)處理方法研究

      2015-04-21 09:44:10李天瑞
      中文信息學(xué)報(bào) 2015年2期
      關(guān)鍵詞:用詞藏文詞頻

      珠 杰,李天瑞

      (1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031;2. 西藏大學(xué) 工學(xué)院計(jì)算機(jī)科學(xué)系,西藏 拉薩 850000)

      ?

      藏文停用詞選取與自動(dòng)處理方法研究

      珠 杰1,2,李天瑞1

      (1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031;2. 西藏大學(xué) 工學(xué)院計(jì)算機(jī)科學(xué)系,西藏 拉薩 850000)

      停用詞的處理是文本挖掘中一個(gè)關(guān)鍵的預(yù)處理步驟。該文結(jié)合現(xiàn)有停用詞的處理技術(shù),研究了基于統(tǒng)計(jì)的藏文停用詞選取方法,通過(guò)實(shí)驗(yàn)分析了詞項(xiàng)頻率、文檔頻率、熵等方法的藏文停用詞選用情況,提出了藏文虛詞、特殊動(dòng)詞和自動(dòng)處理方法相結(jié)合的藏文停用詞選取方法。實(shí)驗(yàn)結(jié)果表明,該方法可以確定一個(gè)較合理的藏文停用詞表。

      藏文停用詞;詞頻統(tǒng)計(jì);文檔頻數(shù);熵

      1 前言

      在基于詞袋模型的文本挖掘研究中,詞作為文本的特征,在文本主題信息提取、文本摘要、文本分類(lèi)、文本聚類(lèi)、網(wǎng)絡(luò)輿情分析、社會(huì)網(wǎng)絡(luò)分析、網(wǎng)絡(luò)搜索引擎與問(wèn)答系統(tǒng)等研究中,往往組織成特征向量來(lái)表示文本內(nèi)容。停用詞的處理是文本挖掘中數(shù)據(jù)清洗的重要過(guò)程,能夠大幅減少文本的無(wú)用特征,大大降低向量空間的維數(shù)、節(jié)省存儲(chǔ)空間、減少計(jì)算時(shí)間,提高文本分析的能力和精確度。

      停用詞是指在文本中出現(xiàn)頻率很高但是所包含的信息對(duì)體現(xiàn)主題沒(méi)有多大貢獻(xiàn)的詞。在很多文本挖掘方法中,停用詞被作為“噪音”處理。本文以藏文文本為研究對(duì)象,主要討論藏文停用詞的選取和自動(dòng)處理方法。

      本文的結(jié)構(gòu)如下: 第2部分介紹了停用詞處理的相關(guān)研究工作;第3部分介紹了藏文停用詞的自動(dòng)處理方法,包括詞項(xiàng)頻率(TF)、文檔頻率(DF)、熵(Entropy)計(jì)算等方法;第4部分是藏文停用詞處理過(guò)程的相關(guān)實(shí)驗(yàn)及實(shí)驗(yàn)數(shù)據(jù)分析過(guò)程;第5部分是結(jié)論與展望。

      2 相關(guān)工作

      從國(guó)內(nèi)外研究現(xiàn)狀來(lái)分析,英文停用詞處理的研究成果多,技術(shù)成熟,目前已有公認(rèn)的停用詞表,是其他語(yǔ)言研究的參考對(duì)象。美國(guó)Bell實(shí)驗(yàn)室的Ho認(rèn)為,在典型的英文文章中,停用詞的使用數(shù)量占到一半以上,而這些停用詞的數(shù)量卻不足150個(gè)[1]。英語(yǔ)公開(kāi)發(fā)表的停用詞表中,比較著名的有 Van Rijsbergen發(fā)表的停用詞表以及 Brown corpus的停用詞表[2-3]。

      從停用詞的自動(dòng)選取方法[4]上看,主要采用詞項(xiàng)頻率、文檔頻率、信息增益(IG)、熵計(jì)算、互信息(MI)、χ2-統(tǒng)計(jì)方法等方法。漢語(yǔ)的停用詞處理上,Hao等人提出了χ2-統(tǒng)計(jì)方法[5],顧益軍等人提出依據(jù)聯(lián)合熵選取停用詞的方法[6],Zou等人提出一種基于統(tǒng)計(jì)與信息論模型的停用詞選取方法[7]。

      從停用詞選取上來(lái)看,停用詞的認(rèn)定與實(shí)際應(yīng)用環(huán)境是密不可分的,根據(jù)應(yīng)用環(huán)境的不同,停用詞選取范圍、數(shù)量的確定有所差別。例如,文獻(xiàn)[8]列出了搜索引擎針對(duì)英文的停用詞列表,其數(shù)量達(dá)到658個(gè)。漢語(yǔ)停用詞的選取上,周欽強(qiáng)等人認(rèn)為停用詞主要包括英文字符、數(shù)字、數(shù)學(xué)字符、標(biāo)點(diǎn)符號(hào)以及使用頻率特高的單漢字等[9];羅杰等人認(rèn)為,除數(shù)字等切分標(biāo)記外,停用詞還包括數(shù)詞、量詞、代詞、方位詞、擬聲詞、嘆詞等,沒(méi)有實(shí)際意義的動(dòng)詞,例如,“可能”等,以及一些太過(guò)于常用的名詞,例如,“操作”等[10]。

      從停用詞選取的閾值上來(lái)看,Silva驗(yàn)證了應(yīng)用停用詞表削減特征空間,對(duì)提高基于支持向量機(jī)的文本分類(lèi)器準(zhǔn)確率所產(chǎn)生的積極作用[11]。Yang和Pedersen認(rèn)為,如果對(duì)停用詞按照其出現(xiàn)的文本頻數(shù)降序排序,用前10個(gè)停用詞削減特征向量空間,不會(huì)產(chǎn)生負(fù)面影響;用前100個(gè)停用詞削減特征向量空間,所產(chǎn)生的負(fù)面影響非常小[12]。

      少數(shù)民族語(yǔ)言中,除了介紹蒙文停用詞處理的方法外[13],還沒(méi)有看到針對(duì)藏文停用詞處理的相關(guān)文章。本文借鑒其他語(yǔ)言停用詞處理的研究成果,分析藏文停用詞處理的特殊情況,研究藏文停用詞自動(dòng)處理方法和分析停用詞表確定的可能性,并通過(guò)實(shí)驗(yàn)進(jìn)行驗(yàn)證。

      3 藏文停用詞選取方法

      本文主要采用基于詞項(xiàng)頻率、文檔頻率、熵的自動(dòng)選取方法來(lái)選取藏文停用詞。

      3.1 詞項(xiàng)頻率(TF)

      詞項(xiàng)頻率(termfrequency,TF),簡(jiǎn)稱(chēng)詞頻,指的是某個(gè)給定詞項(xiàng)(本文主要指詞語(yǔ))在該文檔中出現(xiàn)的頻率。通過(guò)對(duì)文本中詞語(yǔ)的詞頻統(tǒng)計(jì),能夠獲得該文本的詞語(yǔ)特征向量。設(shè):

      其中Di為第i個(gè)文檔,aij為第i個(gè)文檔中詞j的詞頻。由于同一個(gè)詞在長(zhǎng)文件里的詞頻會(huì)比短文件更高,為防止偏向長(zhǎng)文件,確保各分量的比重保持不變,對(duì)每個(gè)文本中的詞頻特征向量作歸一化處理,即文本Di中j詞出現(xiàn)的詞頻除以所有詞在該文檔中的詞頻之和。如式(1)所示。

      (1)

      其中wij表示第i個(gè)文檔中詞j的比重,是該詞在文本中的某種特征。

      由于同一個(gè)詞允許在多個(gè)文檔出現(xiàn),設(shè):

      (2)

      其中wj表示詞j在所有文檔中出現(xiàn)的詞的比重,m為文檔的個(gè)數(shù)。根據(jù)詞頻的比重大小從高到低對(duì)詞進(jìn)行降序排序,由于停用詞往往在文本中出現(xiàn)的次數(shù)比較高,規(guī)定閾值前的藏文作為停用詞。

      3.2 文檔頻數(shù)(DF)

      文檔頻數(shù)是指有該詞條出現(xiàn)的文檔數(shù)量。在文本集中對(duì)每個(gè)詞條計(jì)算它的文檔頻數(shù),設(shè):

      (3)

      其中wj為詞j出現(xiàn)的文檔數(shù)量,k為詞j出現(xiàn)的文檔個(gè)數(shù),D為文檔集合,隨著詞的變化出現(xiàn)該詞的文檔個(gè)數(shù)也會(huì)變化。根據(jù)wj的值從高到低對(duì)詞進(jìn)行降序排序,規(guī)定閾值前的詞作為藏文停用詞。

      3.3 熵計(jì)算方法

      熵是信息論中很重要的概念。香農(nóng)用信息熵來(lái)度量信息的不確定性程度,熵越大則不確定性越強(qiáng)。信息熵的定義如下:

      (4)

      在停用詞的處理上,文本中的詞特征向量作為隨機(jī)變量X,每個(gè)詞xi作為X的分量,進(jìn)行單個(gè)詞的熵計(jì)算,這樣基于單詞出現(xiàn)的平均信息量的計(jì)算來(lái)度量文本中詞出現(xiàn)的頻率變化。

      設(shè):

      其中Di為i個(gè)文本的隨機(jī)變量xij(i=1...m,j=1...n)為第i個(gè)文本中出現(xiàn)的詞j。則計(jì)算詞的熵值計(jì)算如式(5)所示。

      (5)

      其中

      (6)

      這里f(xij)為第i個(gè)文本中出現(xiàn)的詞j的詞頻,m為文本個(gè)數(shù)。文本集合中每個(gè)詞的熵值計(jì)算完成后,按照熵值的大小進(jìn)行升序排列,然后取規(guī)定閾值前的詞作為藏文停用詞。

      采用具有統(tǒng)計(jì)特征TF、DF、熵計(jì)算來(lái)選取藏文停用詞,這些停用詞是否具有合理性,指定的閾值是否合適,不能憑空想象。因此,下面通過(guò)實(shí)驗(yàn)來(lái)說(shuō)明自動(dòng)方法選取停用詞的合理性。

      4 停用詞處理實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)語(yǔ)料 語(yǔ)料采用了西藏大學(xué)藏文信息技術(shù)研究中心提供的測(cè)試語(yǔ)料,該語(yǔ)料大小為360KB、25個(gè)文件、共計(jì)2 518條句子。該語(yǔ)料是從不同的類(lèi)別的文本中

      人工提取出來(lái)的句子,包括了歷史、法律、宗教、教育、新聞、文學(xué)、民俗、經(jīng)濟(jì)、政治、地理等內(nèi)容的句子。每個(gè)文件存放了約100條句子,雖然句子個(gè)數(shù)相同,但是句子長(zhǎng)度的不同,文件的大小有所區(qū)別。最大的79KB,最小的10KB。

      4.2 預(yù)處理

      藏文文本語(yǔ)料的預(yù)處理過(guò)程包括藏文自動(dòng)分詞、詞頻統(tǒng)計(jì)過(guò)程。分詞采用了西藏大學(xué)開(kāi)發(fā)的藏文分詞系統(tǒng),該系統(tǒng)分詞正確率能夠達(dá)到90%。為了得到準(zhǔn)確的分詞結(jié)果,對(duì)分詞結(jié)果的每個(gè)文件進(jìn)行人工校對(duì),糾正其分詞錯(cuò)誤。

      詞頻統(tǒng)計(jì)過(guò)程中,經(jīng)過(guò)對(duì)2 518個(gè)句子統(tǒng)計(jì),出現(xiàn)7 490個(gè)詞,詞的總共詞頻數(shù)為36 028個(gè),前100個(gè)詞的詞頻占總詞頻的44.87%,詞頻數(shù)為1的4 479個(gè),占總詞數(shù)的59.84%。

      按照詞頻的高低降序排序后,詞序和詞頻空間中的分布狀況,如圖1所示。其中l(wèi)og10n為詞序的對(duì)數(shù),log10r為詞頻的對(duì)數(shù)。

      詞頻統(tǒng)計(jì)過(guò)程中,發(fā)現(xiàn)不少虛詞和一些特殊動(dòng)詞出現(xiàn)的頻率很高。為此, 以文獻(xiàn)[14]中列出的虛詞為藍(lán)本,收集了180個(gè)藏文虛詞,如表1所示。另外,還收集了部分特殊動(dòng)詞,包括他動(dòng)詞、助動(dòng)詞、存在動(dòng)詞、判斷動(dòng)詞等,如表2所示。

      圖1 詞的分布情況

      表1 藏語(yǔ)虛詞表

      表2 特殊動(dòng)詞表

      按照虛詞表1的內(nèi)容,進(jìn)一步對(duì)實(shí)驗(yàn)數(shù)據(jù)中的虛詞分布情況進(jìn)行分析,發(fā)現(xiàn)虛詞的分布存在三種情況,一種是高頻的虛詞,另一種是低頻的虛詞,而中頻虛詞較少。高頻的虛詞占總虛詞數(shù)的22.78%,中間頻率虛詞占總虛詞數(shù)的12.78%,低頻的虛詞占總虛詞數(shù)的64.44%(包括低頻虛詞和未出現(xiàn)虛詞,是兩個(gè)部分之和)。實(shí)驗(yàn)數(shù)據(jù)中藏文虛詞分布情況,如表3所示。

      表3 虛詞分布情況統(tǒng)計(jì)表

      對(duì)于特殊動(dòng)詞也有類(lèi)似虛詞的分布,在此不再累述。

      從表3中可以看出,頻率區(qū)間是指對(duì)所有詞按照詞頻從高到低降序排序后,某個(gè)詞頻區(qū)間為頻率區(qū)間;累計(jì)詞頻是指在某個(gè)頻率區(qū)間內(nèi)出現(xiàn)的所有虛詞的詞頻之和;分布率是指在某個(gè)頻率區(qū)間內(nèi)出現(xiàn)的虛詞占虛詞表中總虛詞數(shù)的百分比;未出現(xiàn)詞是指在虛詞表1中存在,但在實(shí)驗(yàn)語(yǔ)料中沒(méi)有出現(xiàn)的虛詞。

      4.3 實(shí)驗(yàn)數(shù)據(jù)分析

      根據(jù)預(yù)處理中發(fā)現(xiàn)的虛詞、特殊動(dòng)詞的分布和滿(mǎn)足Zifp定律的情況,實(shí)驗(yàn)分兩組進(jìn)行,第一組實(shí)驗(yàn)中預(yù)處理結(jié)果和分詞后的文本作為輸入,對(duì)語(yǔ)料中的詞進(jìn)行TF、DF、熵計(jì)算的停用詞處理實(shí)驗(yàn)。根據(jù)計(jì)算結(jié)果和參考文獻(xiàn)[11]中停用詞選取閾值的說(shuō)明,列出前100個(gè)高頻率和低熵值的詞條作為藏文停用詞。第二組實(shí)驗(yàn)中,人工選取的180個(gè)虛詞和37特殊動(dòng)詞作為停用詞,去除這些停用詞的基礎(chǔ)上,再進(jìn)行TF、DF、熵計(jì)算的停用詞處理實(shí)驗(yàn),并列出前10個(gè)高頻和低熵值詞條作為藏文停用詞。根據(jù)兩組實(shí)驗(yàn)結(jié)果的分析,說(shuō)明不同策略選取停用詞的影響。

      采用式(1)和(2)進(jìn)行TF方法的停用詞處理實(shí)驗(yàn);采用式(2)和(3)進(jìn)行DF方法的停用詞處理實(shí)驗(yàn);采用式(5)和(6)進(jìn)行熵計(jì)算方法的停用詞處理實(shí)驗(yàn)。經(jīng)過(guò)計(jì)算,按照高頻詞降序排序、熵值升序排序,得到了自動(dòng)處理的藏文停用詞。下面主要以第一組實(shí)驗(yàn)結(jié)果為依據(jù),分析實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果如表4所示。

      表4是按照TF、DF方法對(duì)計(jì)算結(jié)果進(jìn)行降序排序,然后提取前100個(gè)作為停用詞;另外熵計(jì)算是按照熵值低到高進(jìn)行升序排序,提取前100個(gè)作為停用詞,該表稱(chēng)為結(jié)果集。TF的結(jié)果集用A表示,DF的結(jié)果集用B表示,熵的結(jié)果集用C表示。對(duì)結(jié)果集的詞條在詞序-詞頻空間上的分布情況進(jìn)行考察,分布情況如圖2所示。從總體上看具有函數(shù)1/|x|圖的趨勢(shì),可以看出,TF和DF的頻率分布趨勢(shì)基本一致,但熵計(jì)算結(jié)果集的頻率分布有所差別。

      圖2 TF、DF和熵結(jié)果集的停用詞分布

      對(duì)三種方法的結(jié)果集之間進(jìn)行比較,比較情況如表5所示。

      表5 結(jié)果集之間的比較

      在實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),在TF與DF、熵計(jì)算結(jié)果比較,前20個(gè)出現(xiàn)的詞條基本一致,從第20個(gè)詞條之后,TF中出現(xiàn)了不少高頻名詞、數(shù)詞和形容詞;與DF相比,100個(gè)詞匯中有12個(gè)不同的詞條,即各自特有12個(gè)詞匯;與熵計(jì)算相比,有24個(gè)不同的詞條,即各自特有24個(gè)詞匯。DF與熵計(jì)算結(jié)果相比,在100個(gè)詞中有7個(gè)不同的詞匯;在DF和熵計(jì)算中,出現(xiàn)的詞匯基本相同,只是順序上不相同。從總體上看,三種方法出現(xiàn)的詞匯具有75%以上的相同之處,特別是在DF和熵計(jì)算上具有更高的相似度。

      對(duì)結(jié)果集中的數(shù)據(jù)進(jìn)行了詞性的統(tǒng)計(jì),數(shù)據(jù)分析結(jié)果如表6所示。

      表6 停用詞的詞性分布

      從表6中可以看到虛詞和特殊動(dòng)詞將近占到了70%,而且是三種方法結(jié)果集的交集部分,說(shuō)明虛詞和特殊動(dòng)詞在文本中具有較好的穩(wěn)定性。另一方面說(shuō)明,這些詞在表達(dá)文本含義時(shí)不具備較好的區(qū)分能力。

      在實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn), 基于三種方法選取的停用詞基本相似,存在的差別主要是由語(yǔ)料自身特點(diǎn)形成的局部不均衡造成的。其中,TF傾向于高頻詞的特征;DF在高頻的基礎(chǔ)上能夠照顧到文本局部特征;基于熵計(jì)算的選取方式,更傾向于選取文本中穩(wěn)定出現(xiàn)的詞,因此更容易受到文本行文方式等的影響。

      預(yù)處理過(guò)程中知道有些低頻虛詞在文本中出現(xiàn)情況很少,甚至沒(méi)有出現(xiàn),而這些虛詞在文本中也沒(méi)有實(shí)際意義。因此,在第二組實(shí)驗(yàn)中,虛詞和特殊動(dòng)詞作為停用詞,首先去除這些停用詞,然后再采用TF、DF、熵計(jì)算進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),這些停用詞的詞頻數(shù)為13 356個(gè),占總詞頻數(shù)的37.07%,并根據(jù)計(jì)算結(jié)果,列出前20個(gè)詞作為停用詞處理(表7)。

      表7 自動(dòng)處理的停用詞表

      設(shè)TF、DF和熵計(jì)算的結(jié)果集分別為A′、B′、C′,對(duì)三種方法的結(jié)果集之間進(jìn)行比較,比較結(jié)果如表8所示。

      表8 結(jié)果集之間的比較

      從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),TF與DF相比,20個(gè)詞匯中有七個(gè)不同的詞條,即各自特有七個(gè)詞匯;與熵計(jì)算相比,有九個(gè)不同的詞條,即各自特有九個(gè)詞匯。在20個(gè)詞中DF與熵計(jì)算結(jié)果相比,有三個(gè)不同的詞條,即各自特有三個(gè)詞匯。對(duì)結(jié)果集中的數(shù)據(jù)進(jìn)行了詞性的統(tǒng)計(jì),數(shù)據(jù)分析結(jié)果如表9所示。

      表9 停用詞的詞性分布

      從表9中可以看到,三種方法的結(jié)果集交集部分占到了50%以上,即10個(gè)詞條以上。

      從第二組實(shí)驗(yàn)來(lái)看,虛詞和特殊動(dòng)詞為停用詞的前提假設(shè),沒(méi)有通過(guò)實(shí)驗(yàn)和理論來(lái)驗(yàn)證該假設(shè)的正確性。下面通過(guò)參考文獻(xiàn)[15]中的區(qū)分度來(lái)分析該假設(shè)的合理性。根據(jù)區(qū)分度的定義,25個(gè)文件為25個(gè)類(lèi)別,如式(7)所示。

      (7)

      其中l(wèi)=25,m為第i個(gè)文檔中的詞個(gè)數(shù),gij為詞wj的類(lèi)間分布,且為式(8)。

      (8)

      其中fij為詞wj的詞頻,且為式(9)。

      (9)

      其中count(wj)為詞wj在第i個(gè)文檔中出現(xiàn)的次數(shù),分母為第i個(gè)文檔中所有詞條出現(xiàn)的次數(shù)。

      根據(jù)實(shí)驗(yàn)結(jié)果,藏文停用詞選取上藏文虛詞應(yīng)列入停用詞范圍,這與實(shí)際的語(yǔ)言現(xiàn)象也是一致的,因?yàn)椴匚奶撛~在文章中起到承上啟下的作用,不表示實(shí)際意義。另外,藏文的一些特殊動(dòng)詞也應(yīng)列入停用詞范圍,這些動(dòng)詞包括自動(dòng)詞、他動(dòng)詞、助動(dòng)詞、存在動(dòng)詞、判斷動(dòng)詞等,它們只在句子中起到判斷、存在等作用。從實(shí)驗(yàn)分析來(lái)看,藏文虛詞和特殊動(dòng)詞在文本中具有兩頭大中間小的分布特征,如果完全依賴(lài)自動(dòng)處理的方法,很多低頻的虛詞和特殊動(dòng)詞不會(huì)納入到停用詞的范圍,建議虛詞和特殊動(dòng)詞作為藏文的停用詞;在此基礎(chǔ)上,利用TF、DF、熵計(jì)算等方法,提取其他的停用詞。

      另外,在藏文停用詞選取上,藏文編碼國(guó)際標(biāo)準(zhǔn)ISO/IEC10646中的藏文符號(hào)也應(yīng)列入停用詞選取范圍;如果藏文文本中存在其他語(yǔ)種的符號(hào)和詞匯,也應(yīng)列入停用詞范圍。在停用詞選取上閾值的確定參考了Yang和Pedersen的觀點(diǎn)[12],在不使用藏文停用詞表的情況下閾值確定為100,使用藏文停用詞表時(shí)閾值確定為10。

      5 結(jié)論與展望

      本文以詞袋模型的藏文文本挖掘過(guò)程來(lái)考慮,對(duì)藏文文本中停用詞的選取范圍、選取方法進(jìn)行了討論。采用TF、DF、熵計(jì)算方法討論了停用詞選取方法,并通過(guò)對(duì)2 518條藏文句子語(yǔ)料的測(cè)試,對(duì)停用詞選取結(jié)果進(jìn)行了比較。根據(jù)測(cè)試結(jié)果和藏文的虛詞理論、動(dòng)詞理論,本文認(rèn)為完全依靠自動(dòng)處理方式來(lái)處理藏文停用詞,并不是很準(zhǔn)確。建議180個(gè)藏文虛詞和30多個(gè)藏文殊動(dòng)詞、藏文符號(hào)作為基本的停用詞。當(dāng)然停用詞的處理具有很強(qiáng)的應(yīng)用性質(zhì),不同場(chǎng)合需要不同的停用詞選取范圍,在基本的停用詞基礎(chǔ)上,選擇不同應(yīng)用場(chǎng)合的停用詞和停用詞選取方法。本文工作是藏文文本挖掘的一個(gè)預(yù)處理過(guò)程,今后在此基礎(chǔ)上繼續(xù)研究停用詞對(duì)藏文文本分類(lèi)的影響和閾值范圍的選擇,還要進(jìn)一步考慮藏文文本挖掘的更深入的研究?jī)?nèi)容,例如,情感分析、語(yǔ)義分析、社會(huì)網(wǎng)絡(luò)分析等的藏文文本挖掘內(nèi)容,提高藏文文本挖掘的深度和廣度。

      [1]HoTK.StopWordLocationandIdentificationforAdaptiveTextRecognition[J].InternationalJournalonDocumentAnalysisandRecognition, 2000, 3(1): 16-26.

      [2]VanRijsbergenCJ.Informationretrieval[M].London:ButterworthsScientificPublication, 1975.

      [3]FoxC.LexicalanalysisandStoplist,InformationRetrieval:DataStructuresandAlgorithms,UpperSaddleRiver[M].NewJersey:PrenticeHall, 1992.

      [4] 周茜, 趙明生,扈旻. 中文文本分類(lèi)中的特征選擇研究[J]. 中文信息學(xué)報(bào), 2003, 18 (3): 17-23.

      [5]HaoL,HaoL.AutomaticIdentificationofStopWordsinChineseTextClassification[C]//Proceedingsofthe2008InternationalConferenceonComputerScienceandSoftwareEngineeringWuhan,China:IEEEComputer, 2008: 718-722.

      [6] 顧益軍, 樊孝忠, 王建華等. 中文停用詞表的自動(dòng)選取[J]. 北京理工大學(xué)學(xué)報(bào), 2005, 25(4): 337-340.

      [7]ZouF,WangFL,DengXT,etal.AutomaticConstructionofChineseStopWordList[C]//Proceedingsofthe5thWSEASInternationalConferenceonAppliedComputerScience,Hangzhou,China. 2006, 4: 1010-1015

      [8]StopWordList-WordsFilteredoutbySearchEngineSpiders[EB/OL].http://www.seo-innovation.com/support-files/stopwordlist.pdf.2007.

      [9] 周欽強(qiáng), 孫炳達(dá), 王義. 文本自動(dòng)分類(lèi)系統(tǒng)文本預(yù)處理方法的研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2005, 2: 85-86.

      [10] 羅杰, 陳力, 夏德麟等. 基于新的關(guān)鍵詞提取方法的快速文本分類(lèi)系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2006, 4: 32-34.

      [11]SilvaC,RibeiroB.Theimportanceofstopwordremovalonrecallvaluesintextcategorization[J].NeuralNetworks, 2003, 3: 20-24.

      [12]YangY.PedersenJ.Acomparativestudyonfeatureselectionintextcategorization[C]//ProceedingsofICML-97, 14thInternationalConferenceonMachineLearning.SanFrancisco:MorganKaufmannPublishersInc. 1997: 412-420.

      [13] 攻政, 關(guān)高娃. 蒙古文停用詞和英文停用詞比較研究[J]. 中文信息學(xué)報(bào), 2011, 25(4): 35-38.

      [14] 格桑居冕, 格桑央京. 實(shí)用藏文文法教程[M]. 成都: 四川民族出版社, 2004.

      [15] 游榮彥, 鄧志才, 李傳宏. 向量空間模型中特征詞的區(qū)分度的定量研究[J]. 中文信息學(xué)報(bào), 2011, 16(3): 15-19.

      Research on Tibetan Stop Words Selection and Automatic Processing Method

      ZHU Jie1,2, LI Tianrui1

      (1. School of Information Science and Technology, Southwest Jiaotong University, Chengdu, Sichuan 610031, China; 2. Department of Computer Science, Tibet University, Tibet, Lhasa 850000, China)

      Stop words processing is a key preprocessing step in the text mining. In this paper, the selection method of stop words in Tibetan based on statistics is studied by combining with the existing techniques. Through experiments, TF, DF, and entropy calculation methods in the selection of Tibetan stop words are analyzed. An approach for the selection of Tibetan stop words is presented by the combination of Tibetan function words, special verb and automatic approach. The experimental results show that the proposed method can determine a reasonable Tibetan stop words list.

      Tibetan stop word; TF; DF; entropy

      珠杰(1973—),博士研究生,副教授,主要研究領(lǐng)域?yàn)椴匚男畔⑻幚砑夹g(shù)、數(shù)據(jù)挖掘等。E?mail:790139756@qq.com李天瑞(1969—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域智能信息處理、數(shù)據(jù)挖掘和云計(jì)算等。E?mail:trli@swjtu.edu.cn劉勝久(1988—),博士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)等。E?mail:liushengjiu2008@163.com

      1003-0077(2015)02-0125-08

      2012-10-25 定稿日期: 2013-04-08

      國(guó)家自然基金(61262058,60763010),CCF 中文信息技術(shù)開(kāi)放基金項(xiàng)目(CCF2012-02-01),藏文信息技術(shù)教育部“長(zhǎng)江學(xué)者與創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃”(IRT0975)。

      TP391

      A

      猜你喜歡
      用詞藏文詞頻
      需注意的規(guī)范醫(yī)學(xué)用詞
      強(qiáng)化詩(shī)詞用詞的時(shí)代性
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      蒼涼又喧囂:《我與地壇》中的用詞
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      寫(xiě)話(huà)妙計(jì)之用詞準(zhǔn)確
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      現(xiàn)代語(yǔ)境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      詞頻,一部隱秘的歷史
      台东市| 施甸县| 荆门市| 务川| 乌什县| 鄂温| 务川| 崇义县| 集贤县| 延寿县| 喀喇| 安康市| 古田县| 贡山| 政和县| 商城县| 夹江县| 祁门县| 澄迈县| 宝坻区| 九江市| 闽侯县| 达州市| 紫金县| 岳池县| 中西区| 芦山县| 普陀区| 湟源县| 林周县| 清丰县| 武城县| 左云县| 满城县| 德格县| 横山县| 嘉义市| 巍山| 沾化县| 万载县| 聊城市|