• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種具有降噪能力的概率主題模型

      2017-03-02 08:31:06秦永彬黃瑞章
      關(guān)鍵詞:區(qū)分噪音語料庫(kù)

      李 晶 秦永彬 黃瑞章

      (1.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室 貴陽 550025)(2.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴陽 550025)

      一種具有降噪能力的概率主題模型

      李 晶1,2秦永彬1,2黃瑞章1,2

      (1.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室 貴陽 550025)(2.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴陽 550025)

      大數(shù)據(jù)時(shí)代的到來使得文本數(shù)據(jù)的數(shù)據(jù)量暴增,因此準(zhǔn)確而高效地識(shí)別和分析文本數(shù)據(jù)的潛在結(jié)構(gòu)變得越來越重要。要從海量的數(shù)據(jù)中挖掘模式和知識(shí),需要借助于強(qiáng)大的計(jì)算工具,所以機(jī)器學(xué)習(xí)科學(xué)家提出了概率主題模型。當(dāng)前,以隱含狄利克雷分布(LDA)模型為代表的經(jīng)典概率主題模型已經(jīng)被廣泛地應(yīng)用到數(shù)據(jù)挖掘的各個(gè)方面。由于LDA模型對(duì)區(qū)分相似主題的能力非常差,影響了LDA的實(shí)際應(yīng)用性能,為解決這一重要問題,論文基于LDA模型提出了一種名為NRLDA的新模型。考慮到相似主題的文本中存在大量的對(duì)區(qū)分不同主題沒有貢獻(xiàn)的噪音詞語,在NRLDA中引入了相關(guān)變量來區(qū)分有用詞和噪音詞,使噪音詞從一個(gè)噪音主題的詞分布中產(chǎn)生,而有用詞從多個(gè)特征主題的詞分布中產(chǎn)生,從而削弱噪音詞所帶來的不良影響。此外,我們還使用吉布斯抽樣方法對(duì)NRLDA的參數(shù)進(jìn)行了推斷,這些參數(shù)對(duì)分析文本數(shù)據(jù)中潛藏的結(jié)構(gòu)有至關(guān)重要的作用。實(shí)驗(yàn)結(jié)果表明我們的NRLDA模型有較強(qiáng)的區(qū)分相似主題的能力,這同時(shí)也驗(yàn)證了我們建模思想的正確性。

      概率主題模型; 隱含狄利克雷分布; 吉布斯抽樣; 降噪

      Class Number TP181

      1 引言

      大數(shù)據(jù)時(shí)代的到來使得各種類型數(shù)據(jù)的數(shù)據(jù)量急劇增加,而文本作為承載人類知識(shí)的最主要媒介,其增加的速度和幅度是其他類型的數(shù)據(jù)所不能比擬的,更好地把握和理解文本數(shù)據(jù)的潛在結(jié)構(gòu)就變得越來越重要。人工去整理某文本語料庫(kù)的文本結(jié)構(gòu)所需要的時(shí)間開銷是巨大的。當(dāng)前,查找和管理文本數(shù)據(jù)的常見方法是搜索和鏈接,但這種方法只對(duì)詞句做字面上是否全等的比對(duì)而忽略了潛藏在詞句之下的文本結(jié)構(gòu),所以這種方法并不能幫助我們把握文本數(shù)據(jù)的結(jié)構(gòu)。我們需要一種新的計(jì)算工具來幫助發(fā)現(xiàn)潛在的文本結(jié)構(gòu)。基于這種需要,機(jī)器學(xué)習(xí)科學(xué)家提出了主題模型(Topic Model)[1],它是一類通過發(fā)現(xiàn)文本數(shù)據(jù)下潛藏的主題信息來呈現(xiàn)文本數(shù)據(jù)的結(jié)構(gòu)的機(jī)器學(xué)習(xí)算法。這種挖掘出文本中的主題信息,然后利用主題信息來體現(xiàn)文本結(jié)構(gòu)的方法非常符合人類對(duì)文本數(shù)據(jù)的認(rèn)知習(xí)慣[2]。

      主題模型經(jīng)歷了一個(gè)從簡(jiǎn)單到復(fù)雜的發(fā)展過程,其間誕生的比較著名的模型有概率的隱含語義分析(probabilistic Latent Semantic Analysis,pLSA)[3]和隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)[4]等。迄今為止,LDA仍是最為經(jīng)典、應(yīng)用領(lǐng)域最廣泛的主題模型。然而,LDA在某些情況下的性能表現(xiàn)不能讓人滿意,比如,其無監(jiān)督機(jī)器學(xué)習(xí)模型[5]的天性決定了它不能對(duì)珍貴的監(jiān)督信息加以利用;其基于大量詞語的統(tǒng)計(jì)信息來挖掘主題信息的特點(diǎn)致使其針對(duì)短文本的主題信息挖掘的效果很差;其對(duì)文本挖掘主題信息前必須提前指定主題個(gè)數(shù)并且不能動(dòng)態(tài)調(diào)整也給其帶來了一定的局限性等。正是因?yàn)長(zhǎng)DA算法優(yōu)秀的同時(shí)又有許多有待進(jìn)一步改進(jìn)的地方,許多學(xué)者基于LDA提出了一些新的類LDA模型[6~9]來解決LDA所不能解決的問題。比如,針對(duì)LDA不能利用監(jiān)督信息的缺陷,文獻(xiàn)[6~7]分別在LDA模型的基礎(chǔ)上提出了Labeled LDA和PLDA模型,這些模型能夠利用文本的標(biāo)簽信息作為監(jiān)督信息來幫助主題信息的挖掘;類似的,文獻(xiàn)[8]提出的SCLDA模型把先驗(yàn)知識(shí)作為監(jiān)督信息來指導(dǎo)主題信息的挖掘。并且這些文獻(xiàn)中給出的實(shí)驗(yàn)結(jié)果均表明主題信息的挖掘效果均優(yōu)于原始的LDA。再如,針對(duì)LDA對(duì)短文本的主題信息挖掘效果很差的問題,文獻(xiàn)[9]基于LDA模型提出的DLDA模型采用長(zhǎng)文本輔助短文本的方法,使對(duì)短文本主題信息的挖掘效果明顯改善。

      我們發(fā)現(xiàn)LDA模型區(qū)分相似主題的能力很差。假設(shè)某個(gè)文本語料庫(kù)中的所有文檔均來源于三個(gè)相似但又互不相同的主題,可以認(rèn)為所有文檔同屬于一個(gè)大范疇下。使用LDA模型對(duì)該語料庫(kù)進(jìn)行主題信息的挖掘,并根據(jù)每篇文檔中三個(gè)主題的概率分布情況對(duì)所有文章進(jìn)行聚類,最后發(fā)現(xiàn)聚類結(jié)果很差。這是因?yàn)榉浅O嗨频闹黝}會(huì)有許多共享的詞語,這些共享的詞語在這些相似的主題中都會(huì)頻繁出現(xiàn),即它們不是某一個(gè)主題下的特異性詞語,而是這些相似主題所屬的大范疇下的常見詞語,例如,三個(gè)相似而又不同的主題分別是Linux操作系統(tǒng)、Windows操作系統(tǒng)和計(jì)算機(jī)操作系統(tǒng),這三個(gè)主題同屬于計(jì)算機(jī)這個(gè)大范疇下,那么經(jīng)常出現(xiàn)于計(jì)算機(jī)這個(gè)主題下的詞語,像“計(jì)算機(jī)”、“操作系統(tǒng)”、“用戶界面”等,會(huì)頻繁出現(xiàn)在這三個(gè)相似的主題下,這些詞語并不是這三個(gè)主題中的某一個(gè)所特有的,它們并不會(huì)為區(qū)分這三個(gè)主題做貢獻(xiàn),則對(duì)于這三個(gè)主題而言,這些共享詞語就是噪音詞語。這些噪音詞語對(duì)區(qū)分相似的主題不但沒有貢獻(xiàn),反而會(huì)使得相似主題之間的界限變得更加模糊。LDA沒有考慮噪音詞語大量存在的情況,這導(dǎo)致它區(qū)分相似主題的能力很差,所以我們有必要削弱噪音詞語帶來的不良影響,即降噪。我們尚未見到有針對(duì)LDA的這一缺陷而提出解決方案的相關(guān)文獻(xiàn)。

      本文基于LDA模型提出一種具有降噪能力的新模型NRLDA(Noise Reduction LDA)。此模型中在NRLDA中引入了相關(guān)變量來區(qū)分有用詞和噪音詞,使噪音詞從一個(gè)噪音主題的詞分布中產(chǎn)生,而有用詞則遵循LDA中詞的生成過程從多個(gè)特征主題的詞分布中產(chǎn)生,從而削弱噪音詞所帶來的不良影響;使用吉布斯抽樣[10]的方法求解了NRLDA模型中的參數(shù),并給出了詳細(xì)、具體的吉布斯抽樣公式;最后,在真實(shí)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,我們提出的NRLDA模型在區(qū)分相似主題上的表現(xiàn)上明顯優(yōu)于LDA,有較強(qiáng)的降噪能力。

      2 LDA模型

      LDA模型是一個(gè)貝葉斯概率圖模型[11],其將每個(gè)文檔視為潛在主題的混合分布來建模,每篇文檔中的每個(gè)詞都是由某個(gè)主題的詞分布生成的。LDA的圖模型如圖1所示,圖中用兩個(gè)圓圈表示的節(jié)點(diǎn)是證據(jù)節(jié)點(diǎn),代表可見的變量或參數(shù),是已知的;圖中用一個(gè)圓圈表示的節(jié)點(diǎn)是隱藏節(jié)點(diǎn),代表隱含的變量或參數(shù),是未知待求的;對(duì)應(yīng)的生成過程如下所示。

      圖1 LDA的圖模型表示

      3 NRLDA模型及其參數(shù)推斷

      3.1 NRLDA模型

      本文在LDA的基礎(chǔ)上提出了NRLDA模型,其圖模型如圖2所示,對(duì)應(yīng)的生成過程如下:

      2) 對(duì)每一篇文檔m∈{1,…,M}

      圖2 NRLDA的圖模型表示

      3.2 NRLDA模型的參數(shù)推斷

      根據(jù)NRLDA的圖模型和生成過程,可以得到生成某一文檔的似然函數(shù),即給定超參數(shù)時(shí),所有已知變量和隱含變量的聯(lián)合分布:

      (1)

      (2)

      (3)

      (4)

      再由狄利克雷分布的期望公式可得:

      (5)

      (6)

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)集

      在實(shí)驗(yàn)中使用到兩個(gè)數(shù)據(jù)集,分別是News-sim-3和News-diff-3。這兩個(gè)數(shù)據(jù)集都來源于經(jīng)典的文本語料數(shù)據(jù)集20newsgroup[16],此數(shù)據(jù)集由20個(gè)類別的新聞文章構(gòu)成,每個(gè)新聞?lì)悇e下均包含大約1000篇新聞文章。我們從20個(gè)類別中選取3個(gè)彼此非常相似的類別,然后把這3個(gè)類別下的所有文章組成一個(gè)數(shù)據(jù)集,即News-sim-3;再?gòu)?0個(gè)類別中選取3個(gè)彼此差異非常大的類別,然后把這3個(gè)類別下的所有文章組成一個(gè)數(shù)據(jù)集,即News-diff-3。

      實(shí)驗(yàn)之前,先對(duì)這兩個(gè)數(shù)據(jù)集做了一定的文本預(yù)處理,包括去除停用詞,剔除詞頻過高或過低的詞,過濾文章中的一些說明信息,排除過長(zhǎng)和過短的文章等,以盡可能提高文本結(jié)構(gòu)分析的效果。因?yàn)檫M(jìn)行了文本預(yù)處理,所以News-sim-3和News-diff-3這兩個(gè)數(shù)據(jù)集中的文章個(gè)數(shù)并不是三個(gè)類別中的文章數(shù)相加,事實(shí)上,這兩個(gè)數(shù)據(jù)集中的文章數(shù)目均小于3000。數(shù)據(jù)集的基本信息如表3所示。

      表3 數(shù)據(jù)集的基本信息

      4.2 實(shí)驗(yàn)設(shè)計(jì)和評(píng)判標(biāo)準(zhǔn)

      分別使用LDA和NRLDA分析News-sim-3和News-diff-3這兩個(gè)數(shù)據(jù)集的文本結(jié)構(gòu)。在得到數(shù)據(jù)集中每篇文章的主題分布情況后,依據(jù)出現(xiàn)概率最高的主題來對(duì)數(shù)據(jù)集中的文章進(jìn)行聚類,然后檢驗(yàn)聚類的效果。聚類效果越好說明模型對(duì)文本結(jié)構(gòu)分析的能力越強(qiáng)。

      因?yàn)槭孪纫呀?jīng)知道了數(shù)據(jù)集中每篇文章所屬的真實(shí)類別,所以就可以通過比對(duì)聚類結(jié)果和每篇文章的真實(shí)類別來評(píng)判聚類的效果。具體為通過計(jì)算數(shù)據(jù)集中所有文章的聚類結(jié)果和文章真實(shí)類別的NMI(正則化的互信息)值[17]來評(píng)判聚類結(jié)果的好壞。NMI是用來衡量?jī)蓚€(gè)分布的相似程度的,其值介于0和1之間,NMI的值越大,說明兩個(gè)分布越相似,聚類效果越好。NMI的定義式如式(7)所示:

      (7)

      其中d表示數(shù)據(jù)集中的文章數(shù)量,dh表示真實(shí)類別是h的文章數(shù)量,cl表示實(shí)驗(yàn)結(jié)果中類l中的文章數(shù)量。

      4.3 實(shí)驗(yàn)結(jié)果與分析

      首先,將LDA模型和NRLDA模型分別應(yīng)用到對(duì)數(shù)據(jù)集News-sim-3和News-diff-3的文本結(jié)構(gòu)分析中,在每個(gè)數(shù)據(jù)集上都運(yùn)行10次LDA算法和10次NRLDA算法,并記錄每次實(shí)驗(yàn)結(jié)果的NMI值,最后求NMI的平均值,實(shí)驗(yàn)結(jié)果如表4所示。

      表4中的結(jié)果顯示,LDA模型分析數(shù)據(jù)集News-diff-3的結(jié)果較好,而分析數(shù)據(jù)集News-sim-3的結(jié)果則非常差。考慮到數(shù)據(jù)集News-sim-3中的文章來源于三個(gè)非常相似的主題,所以這個(gè)實(shí)驗(yàn)結(jié)果說明了LDA模型對(duì)相似主題的區(qū)分能力很差。表四中,NRLDA在兩個(gè)數(shù)據(jù)集上的NMI結(jié)果是在NRLDA的參數(shù)b最優(yōu)時(shí)得到的,下文中有針對(duì)參數(shù)b的取值對(duì)結(jié)果好壞影響的討論。

      表4 LDA和NRLDA分析不同數(shù)據(jù)集的結(jié)果

      圖3 LDA和NRLDA對(duì)News-sim-3分析結(jié)果對(duì)比

      (8)

      另外,可以通過調(diào)整γ0和γ1的值將b的方差控制得較小,以使整個(gè)語料庫(kù)中所有的文章對(duì)應(yīng)的b的取值相對(duì)集中。

      因?yàn)閜(xi=1)=b,則E(b)越大說明語料庫(kù)中的每個(gè)詞語wm,n對(duì)應(yīng)的xi取值為1的可能性就越大,同時(shí)也意味著模型認(rèn)為的噪音詞語在語料庫(kù)的所有詞語中所占的比重越小。從圖3可知,當(dāng)E(b)的取值非常小時(shí),NRLDA的NMI值甚至低于LDA的NMI值,這是因?yàn)榇藭r(shí)模型認(rèn)為的噪音詞語所占比重非常大,而事實(shí)上語料庫(kù)中噪音詞語所占的真實(shí)比重并沒有那么大,結(jié)果是,模型會(huì)把大量非噪音詞語當(dāng)成噪音詞語來處理,使得大量原本帶有明顯主題傾向的詞語被當(dāng)成了無用的噪音詞,文本結(jié)構(gòu)的分析效果不如LDA是正常的;隨著E(b)不斷增大,模型認(rèn)為的噪音詞語所占的比重不斷減小,NRLDA文本結(jié)構(gòu)分析的效果逐漸改善并優(yōu)于LDA模型;當(dāng)E(b)增大到一定程度時(shí),NMI取到最大值,文本結(jié)構(gòu)分析效果達(dá)到最好,說明此時(shí)模型認(rèn)為的噪音詞語所占的比重和語料庫(kù)中噪音詞語所占的真實(shí)比重最接近;隨著E(b)進(jìn)一步增大,模型認(rèn)為的噪音詞語所占比重進(jìn)一步減小,和語料庫(kù)中噪音詞語的真實(shí)比重相差越來越大,則文本結(jié)構(gòu)分析的效果逐漸變差,反映到圖3上就是NMI的值逐漸減??;直到E(b)增大到1時(shí),模型認(rèn)為的噪音詞語所占比重非常小,此時(shí)NMLDA已經(jīng)基本退化成了LDA,反映到圖3上就是二者NMI的取值幾乎相同。這個(gè)對(duì)比實(shí)驗(yàn)表明,在區(qū)分相似主題的能力上,NRLDA模型明顯要優(yōu)于LDA模型,證明了NRLDA有較強(qiáng)的降噪能力。表4中NRLDA在兩個(gè)數(shù)據(jù)集上取得的NMI值,就是在E(b)最優(yōu)時(shí)得到的;NRLDA在News-diff-3上的實(shí)驗(yàn)結(jié)果表明NRLDA區(qū)分互相之間差別很大的主題的能力和LDA相當(dāng)。

      5 結(jié)語

      本文針對(duì)LDA模型區(qū)分相似主題能力差的缺陷,在LDA模型的基礎(chǔ)上,提出了一種具有一定降噪能力的新主題模型NRLDA,并通過在真實(shí)數(shù)據(jù)集上的一系列實(shí)驗(yàn)對(duì)NRLDA分析文本結(jié)構(gòu)的效果進(jìn)行了分析,證明了NRLDA模型有較強(qiáng)的區(qū)分相似主題的能力。與基于LDA模型做改進(jìn)的其他模型相比,NRLDA模型對(duì)LDA模型的改進(jìn)簡(jiǎn)潔而清晰,但效果卻比較明顯。盡管LDA是最為經(jīng)典的主題模型,但其仍然存在許多缺陷,值得我們?nèi)ジ倪M(jìn),比如將個(gè)人的喜好作為監(jiān)督信息融入到模型中去,我們正在進(jìn)行這方面的工作。另外,相對(duì)于LDA模型,該模型雖然取得了較明顯的性能改善,但如何更大程度地提高文本結(jié)構(gòu)分析的能力,還有待進(jìn)一步研究。

      [1] Blei D M. Probabilistic topic models[J]. Communications of the ACM, 2012, 55(4): 77-84.

      [2] Chang J, Gerrish S, Wang C, et al. Reading tea leaves: How humans interpret topic models[C]//Advances in neural information processing systems. Cambridge: MIT press, 2009: 288-296.

      [3] Hofmann T. Probabilistic latent semantic indexing[C]//Proc of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. New York: ACM, 1999:50-57.

      [4] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation [J]. The Journal of machine learning research, 2003,3:993-1022.

      [5] Murphy K P. Machine learning: a probabilistic perspective [M]. Cambridge: MIT press,2012:9-16

      [6] Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C]//Proc of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Stroudsburg: Association for Computational Linguistics,2009:248-256.

      [7] Ramage D, Manning C D, Dumais S. Partially labeled topic models for interpretable text mining[C]//Proc of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM,2011:457-465.

      [8] Yang Y, Downey D, Boyd-Graber J, et al. Efficient Methods for Incorporating Knowledge into Topic Models[C]//Proc of the 2015 conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics,2015:308-317.

      [9] Jin O, Liu N N, Zhao K, et al. Transferring topical knowledge from auxiliary long texts for short text clustering[C]//Proc of the 20th ACM international conference on Information and knowledge management. New York: ACM,2011:775-784.

      [10] Resnik P, Hardisty E. Gibbs sampling for the uninitiated[R]. Maryland Univ College Park Inst for Advanced Computer Studies,2010.

      [11] Koller D, Friedman N. Probabilistic graphical models: principles and techniques [M]. Cambridge: MIT press,2009.

      [12] Griffiths T L, Steyvers M. Finding scientific topics [J]. Proc of the National Academy of Sciences,2004,101(suppl 1):5228-5235.

      [13] Murphy K P. Machine learning: a probabilistic perspective [M]. Cambridge: MIT press,2012:841-844.

      [14] Jordan M I, Ghahramani Z, Jaakkola T S, et al. An introduction to variational methods for graphical models[J]. Machine learning,1999,37(2):183-233.

      [15] Andrieu C, De Freitas N, Doucet A, et al. An introduction to MCMC for machine learning [J]. Machine learning,2003,50(1-2):5-43.

      [16] UCI KDD 20 newsgroups entry [DB/OL]. [2013-05-10]. Http://Kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html

      [17] Strehl A, Ghosh J, Mooney R. Impact of similarity measures on web-page clustering[C]//Proc of Workshop on Artificial Intelligence for Web Search Austin: AAAI Press. 2000:58-64.

      A Probabilistic Topic Model with Noise Reduction Ability

      LI Jing1,2QIN Yongbin1,2HUANG Ruizhang1,2

      (1. Guizhou Provincial Key Laboratory of Public Big Data, Guiyang 550025) (2. College of Computer Science and Technology, Guizhou University, Guiyang 550025)

      With the arrival of big data era, recognizing and analyzing the hidden structure of text data efficiently has been more and more important. Powerful computational tools are needed to help understand text data better. Probabilistic topic models, especially the Latent Dirichlet Allocation (referred as LDA) model, have been proposed and applied in machine learning and text mining widely. Because the LDA model has very poor ability to distinguish similar topics, which has a bad influence on its practical performance. In order to solve this important problem, a new topic model named Noise Reduction Latent Dirichlet Allocation (referred as NRLDA) is proposed on the basis of LDA. There are a lot noise words making no contribution to discriminating similar topics, so this phenomenon is taken into consideration by introducing new variables to distinguish the different generative processes of noise words and non-noise words, which is absolutely beyond LDA’s ability. Besides, a gibbs sampler is developed to infer NRLDA’s parameters which is critical to investigating the structure of text corpus. Experimental results show that NRLDA model has a much stronger ability to differentiate similar topics, which proves that the idea in our model is reasonable.

      probabilistic topic model, LDA, gibbs sampling, noise reduction

      2016年8月4日,

      2016年9月20日

      國(guó)家自然科學(xué)基金項(xiàng)目(編號(hào):61540050;61462011);貴州省重大應(yīng)用基礎(chǔ)研究項(xiàng)目(編號(hào):黔科合JZ字[2014]2001);貴州省科技廳聯(lián)合基金(編號(hào):黔科合LH字[2014]7636號(hào));貴州大學(xué)研究生創(chuàng)新基金項(xiàng)目(編號(hào):研理工2016051)資助。

      李晶,男,碩士研究生,研究方向:機(jī)器學(xué)習(xí)與文本挖掘,數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用系統(tǒng)。秦永彬,男,博士,副教授,碩士生導(dǎo)師,研究方向:智能計(jì)算與智慧計(jì)算,大數(shù)據(jù)分析與應(yīng)用。黃瑞章,女,博士,副教授,碩士生導(dǎo)師,研究方向:機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,自然語言理解。

      TP181

      10.3969/j.issn.1672-9722.2017.02.032

      猜你喜歡
      區(qū)分噪音語料庫(kù)
      區(qū)分“旁”“榜”“傍”
      你能區(qū)分平衡力與相互作用力嗎
      噪音,總是有噪音!
      《語料庫(kù)翻譯文體學(xué)》評(píng)介
      無法逃避的噪音
      教你區(qū)分功和功率
      噪音的小把戲
      白噪音的三種用法
      Coco薇(2017年9期)2017-09-07 22:09:28
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫(kù)
      基于JAVAEE的維吾爾中介語語料庫(kù)開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      济源市| 无锡市| 巴中市| 三台县| 湟中县| 南京市| 阳东县| 汪清县| 元阳县| 平乐县| 林甸县| 惠安县| 建平县| 常德市| 蒲城县| 韩城市| 渭南市| 葫芦岛市| 石阡县| 图木舒克市| 绥棱县| 吉隆县| 诸城市| 铜山县| 永春县| 台湾省| 呼伦贝尔市| 永顺县| 夏河县| 昌平区| 卫辉市| 宣城市| 百色市| 屏南县| 岳池县| 句容市| 霍州市| 阿尔山市| 汪清县| 浪卡子县| 靖江市|