• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于樸素貝葉斯算法對(duì)論壇文本分類的技術(shù)實(shí)現(xiàn)

      2014-12-16 03:35唐勇
      電腦知識(shí)與技術(shù) 2014年32期
      關(guān)鍵詞:文本分類

      摘要:該文主要探討如何通過樸素貝葉斯算法對(duì)中文論壇中的文本信息進(jìn)行自動(dòng)分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對(duì)中文論壇的文本信息進(jìn)行研究,結(jié)合中文論壇文本的特點(diǎn)對(duì)樸素貝葉斯算法提出了兩點(diǎn)修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫及IKAnalyzer分詞器等工具對(duì)修正樸素貝葉斯算法進(jìn)行技術(shù)實(shí)現(xiàn)。

      關(guān)鍵詞:樸素貝葉斯;論壇文本;文本分類

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7612-04

      通過設(shè)計(jì)一種通用的網(wǎng)絡(luò)論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個(gè)角落的論壇信息有效地進(jìn)行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對(duì)這些論壇文本進(jìn)行自動(dòng)分類,從而為論壇搜索引擎提供具有分類主題的查詢結(jié)果。目前文本自動(dòng)分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機(jī)、決策樹分類法等,其中樸素貝葉斯以算法簡(jiǎn)單高效并且具有嚴(yán)密的數(shù)學(xué)理論支撐而到了較為廣泛的應(yīng)用。但是樸素貝葉斯法假設(shè)條件屬性是彼此獨(dú)立,在文本分類中這就意味著指構(gòu)成文本的特征詞匯彼此相互獨(dú)立。該文結(jié)合論壇文本的特點(diǎn),探討了通過對(duì)特征屬性進(jìn)行加權(quán)來彌補(bǔ)樸素貝葉斯算法在論壇文本分類中的缺陷,并運(yùn)用java多線程技術(shù)和開源的Lucene索引框架來提升論壇文本的分類效率。

      2 對(duì)樸素貝葉斯算法的修正

      針對(duì)樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進(jìn)措施,例如:使用屬性相關(guān)性選擇來進(jìn)行屬性選擇獲得一個(gè)屬性子集,然后對(duì)這個(gè)屬性子集運(yùn)用樸素貝葉斯分類[2];考慮特征項(xiàng)在類內(nèi)和類間的分布情況,結(jié)合特征項(xiàng)之間的相關(guān)度來調(diào)整貝葉斯分類中條件屬性的權(quán)值[3];設(shè)計(jì)一種先“先抑后揚(yáng)”的方法去掉了對(duì)先驗(yàn)概率的計(jì)算,并在后驗(yàn)概率的計(jì)算中引入了一個(gè)放大系數(shù)[4],可見絕大多數(shù)研究者關(guān)注的是如何彌補(bǔ)特征詞的獨(dú)立性假設(shè)這一缺陷。

      本文主要研究樸素貝葉斯算法在論壇文本中的應(yīng)用,該文所指的論壇文本是通過文獻(xiàn)1中所描述的論壇爬蟲程序獲取的來自各個(gè)論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導(dǎo)致類別識(shí)別失敗。論壇文本信息主要由帖子的標(biāo)題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時(shí)間、最后回帖時(shí)間、帖子瀏覽數(shù)、帖子回復(fù)數(shù)等)構(gòu)成。在對(duì)論壇文本進(jìn)行分類時(shí)應(yīng)該充分利用論壇的版塊信息、帖子標(biāo)題、回帖內(nèi)容進(jìn)行綜合判斷,為此本文提出以下的修改方案:

      4 結(jié)束語

      本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨(dú)立性假設(shè)。通過對(duì)論壇文本信息的特點(diǎn)進(jìn)行研究,該文認(rèn)為在采用樸素貝葉斯算法進(jìn)行論壇文本分類時(shí)應(yīng)該在兩個(gè)方面進(jìn)行修改:一是結(jié)合帖子的標(biāo)題和類別的特征詞表,對(duì)類別概率P(Ci)進(jìn)行修正;二是根據(jù)每個(gè)特征詞在待判定文檔中出現(xiàn)的位置,對(duì)條件概率P(Xj|Ci)進(jìn)行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫等工具探究了如何在技術(shù)上對(duì)修正的樸素貝葉斯算法進(jìn)行實(shí)現(xiàn)。

      參考文獻(xiàn):

      [1] 唐勇.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2012(8).

      [2] 魏浩,丁要軍.基于屬性相關(guān)的樸素貝葉斯分類算法[J].河南科學(xué),2014(32).

      [3] 饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進(jìn)加權(quán)樸素貝葉斯分類算[J].廈門大學(xué)學(xué)報(bào),2012(7).

      [4] 邸鵬,段利國(guó).一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).

      摘要:該文主要探討如何通過樸素貝葉斯算法對(duì)中文論壇中的文本信息進(jìn)行自動(dòng)分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對(duì)中文論壇的文本信息進(jìn)行研究,結(jié)合中文論壇文本的特點(diǎn)對(duì)樸素貝葉斯算法提出了兩點(diǎn)修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫及IKAnalyzer分詞器等工具對(duì)修正樸素貝葉斯算法進(jìn)行技術(shù)實(shí)現(xiàn)。

      關(guān)鍵詞:樸素貝葉斯;論壇文本;文本分類

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7612-04

      通過設(shè)計(jì)一種通用的網(wǎng)絡(luò)論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個(gè)角落的論壇信息有效地進(jìn)行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對(duì)這些論壇文本進(jìn)行自動(dòng)分類,從而為論壇搜索引擎提供具有分類主題的查詢結(jié)果。目前文本自動(dòng)分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機(jī)、決策樹分類法等,其中樸素貝葉斯以算法簡(jiǎn)單高效并且具有嚴(yán)密的數(shù)學(xué)理論支撐而到了較為廣泛的應(yīng)用。但是樸素貝葉斯法假設(shè)條件屬性是彼此獨(dú)立,在文本分類中這就意味著指構(gòu)成文本的特征詞匯彼此相互獨(dú)立。該文結(jié)合論壇文本的特點(diǎn),探討了通過對(duì)特征屬性進(jìn)行加權(quán)來彌補(bǔ)樸素貝葉斯算法在論壇文本分類中的缺陷,并運(yùn)用java多線程技術(shù)和開源的Lucene索引框架來提升論壇文本的分類效率。

      2 對(duì)樸素貝葉斯算法的修正

      針對(duì)樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進(jìn)措施,例如:使用屬性相關(guān)性選擇來進(jìn)行屬性選擇獲得一個(gè)屬性子集,然后對(duì)這個(gè)屬性子集運(yùn)用樸素貝葉斯分類[2];考慮特征項(xiàng)在類內(nèi)和類間的分布情況,結(jié)合特征項(xiàng)之間的相關(guān)度來調(diào)整貝葉斯分類中條件屬性的權(quán)值[3];設(shè)計(jì)一種先“先抑后揚(yáng)”的方法去掉了對(duì)先驗(yàn)概率的計(jì)算,并在后驗(yàn)概率的計(jì)算中引入了一個(gè)放大系數(shù)[4],可見絕大多數(shù)研究者關(guān)注的是如何彌補(bǔ)特征詞的獨(dú)立性假設(shè)這一缺陷。

      本文主要研究樸素貝葉斯算法在論壇文本中的應(yīng)用,該文所指的論壇文本是通過文獻(xiàn)1中所描述的論壇爬蟲程序獲取的來自各個(gè)論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導(dǎo)致類別識(shí)別失敗。論壇文本信息主要由帖子的標(biāo)題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時(shí)間、最后回帖時(shí)間、帖子瀏覽數(shù)、帖子回復(fù)數(shù)等)構(gòu)成。在對(duì)論壇文本進(jìn)行分類時(shí)應(yīng)該充分利用論壇的版塊信息、帖子標(biāo)題、回帖內(nèi)容進(jìn)行綜合判斷,為此本文提出以下的修改方案:

      4 結(jié)束語

      本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨(dú)立性假設(shè)。通過對(duì)論壇文本信息的特點(diǎn)進(jìn)行研究,該文認(rèn)為在采用樸素貝葉斯算法進(jìn)行論壇文本分類時(shí)應(yīng)該在兩個(gè)方面進(jìn)行修改:一是結(jié)合帖子的標(biāo)題和類別的特征詞表,對(duì)類別概率P(Ci)進(jìn)行修正;二是根據(jù)每個(gè)特征詞在待判定文檔中出現(xiàn)的位置,對(duì)條件概率P(Xj|Ci)進(jìn)行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫等工具探究了如何在技術(shù)上對(duì)修正的樸素貝葉斯算法進(jìn)行實(shí)現(xiàn)。

      參考文獻(xiàn):

      [1] 唐勇.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2012(8).

      [2] 魏浩,丁要軍.基于屬性相關(guān)的樸素貝葉斯分類算法[J].河南科學(xué),2014(32).

      [3] 饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進(jìn)加權(quán)樸素貝葉斯分類算[J].廈門大學(xué)學(xué)報(bào),2012(7).

      [4] 邸鵬,段利國(guó).一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).

      摘要:該文主要探討如何通過樸素貝葉斯算法對(duì)中文論壇中的文本信息進(jìn)行自動(dòng)分類,文中首先介紹了樸素貝葉斯算法的基本原理,并分析了該算法在文本分類中存在的不足之處,然后針對(duì)中文論壇的文本信息進(jìn)行研究,結(jié)合中文論壇文本的特點(diǎn)對(duì)樸素貝葉斯算法提出了兩點(diǎn)修正,給出了修正后的分類算法公式,最后介紹了如何借助Lucene開源框架、BerkeleyDB數(shù)據(jù)庫及IKAnalyzer分詞器等工具對(duì)修正樸素貝葉斯算法進(jìn)行技術(shù)實(shí)現(xiàn)。

      關(guān)鍵詞:樸素貝葉斯;論壇文本;文本分類

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7612-04

      通過設(shè)計(jì)一種通用的網(wǎng)絡(luò)論壇的爬蟲程序可以將分散在互聯(lián)網(wǎng)各個(gè)角落的論壇信息有效地進(jìn)行聚合,為用戶提供統(tǒng)一的檢索接口[1],然而論壇爬蟲抓取的文本來自于不同主題的論壇版塊,數(shù)據(jù)量龐雜,因此,有必要對(duì)這些論壇文本進(jìn)行自動(dòng)分類,從而為論壇搜索引擎提供具有分類主題的查詢結(jié)果。目前文本自動(dòng)分類的主要有方法有:樸素貝葉斯法、K-最近鄰法、支持向量機(jī)、決策樹分類法等,其中樸素貝葉斯以算法簡(jiǎn)單高效并且具有嚴(yán)密的數(shù)學(xué)理論支撐而到了較為廣泛的應(yīng)用。但是樸素貝葉斯法假設(shè)條件屬性是彼此獨(dú)立,在文本分類中這就意味著指構(gòu)成文本的特征詞匯彼此相互獨(dú)立。該文結(jié)合論壇文本的特點(diǎn),探討了通過對(duì)特征屬性進(jìn)行加權(quán)來彌補(bǔ)樸素貝葉斯算法在論壇文本分類中的缺陷,并運(yùn)用java多線程技術(shù)和開源的Lucene索引框架來提升論壇文本的分類效率。

      2 對(duì)樸素貝葉斯算法的修正

      針對(duì)樸素貝葉斯算法的缺陷,已經(jīng)有許多研究者提出了改進(jìn)措施,例如:使用屬性相關(guān)性選擇來進(jìn)行屬性選擇獲得一個(gè)屬性子集,然后對(duì)這個(gè)屬性子集運(yùn)用樸素貝葉斯分類[2];考慮特征項(xiàng)在類內(nèi)和類間的分布情況,結(jié)合特征項(xiàng)之間的相關(guān)度來調(diào)整貝葉斯分類中條件屬性的權(quán)值[3];設(shè)計(jì)一種先“先抑后揚(yáng)”的方法去掉了對(duì)先驗(yàn)概率的計(jì)算,并在后驗(yàn)概率的計(jì)算中引入了一個(gè)放大系數(shù)[4],可見絕大多數(shù)研究者關(guān)注的是如何彌補(bǔ)特征詞的獨(dú)立性假設(shè)這一缺陷。

      本文主要研究樸素貝葉斯算法在論壇文本中的應(yīng)用,該文所指的論壇文本是通過文獻(xiàn)1中所描述的論壇爬蟲程序獲取的來自各個(gè)論壇的帖子信息。由于論壇文本的主貼內(nèi)容往往以“短文本”的形式出現(xiàn)居多且包含較多的口語詞匯,在這種“短文本”中匹配特征詞匯表的詞也較少,往往導(dǎo)致類別識(shí)別失敗。論壇文本信息主要由帖子的標(biāo)題、主貼內(nèi)容、回帖內(nèi)容及帖子的狀態(tài)信息(如原帖發(fā)表時(shí)間、最后回帖時(shí)間、帖子瀏覽數(shù)、帖子回復(fù)數(shù)等)構(gòu)成。在對(duì)論壇文本進(jìn)行分類時(shí)應(yīng)該充分利用論壇的版塊信息、帖子標(biāo)題、回帖內(nèi)容進(jìn)行綜合判斷,為此本文提出以下的修改方案:

      4 結(jié)束語

      本文介紹了樸素貝葉斯算法的基本原理,分析了該算法在文本分類中存在的主要不足之處是了特征詞匯在待判定文檔中的位置信息以及特征詞匯之間的獨(dú)立性假設(shè)。通過對(duì)論壇文本信息的特點(diǎn)進(jìn)行研究,該文認(rèn)為在采用樸素貝葉斯算法進(jìn)行論壇文本分類時(shí)應(yīng)該在兩個(gè)方面進(jìn)行修改:一是結(jié)合帖子的標(biāo)題和類別的特征詞表,對(duì)類別概率P(Ci)進(jìn)行修正;二是根據(jù)每個(gè)特征詞在待判定文檔中出現(xiàn)的位置,對(duì)條件概率P(Xj|Ci)進(jìn)行修正。借助Lucene開源框架和BerkeleyDB數(shù)據(jù)庫等工具探究了如何在技術(shù)上對(duì)修正的樸素貝葉斯算法進(jìn)行實(shí)現(xiàn)。

      參考文獻(xiàn):

      [1] 唐勇.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2012(8).

      [2] 魏浩,丁要軍.基于屬性相關(guān)的樸素貝葉斯分類算法[J].河南科學(xué),2014(32).

      [3] 饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進(jìn)加權(quán)樸素貝葉斯分類算[J].廈門大學(xué)學(xué)報(bào),2012(7).

      [4] 邸鵬,段利國(guó).一種新型樸素貝葉斯文本分類算法[J].數(shù)據(jù)采集與處理,2014(7).

      猜你喜歡
      文本分類
      基于樸素貝葉斯的Web文本分類及其應(yīng)用
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      基于貝葉斯分類器的中文文本分類
      基于蟻群智能算法的研究文本分類
      基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
      基于K—means算法的文本分類技術(shù)研究
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      不同情境下中文文本分類模型的表現(xiàn)及選擇
      基于內(nèi)容的英語錄音教材標(biāo)注研究與應(yīng)用
      多核SVM文本分類研究
      离岛区| 渝中区| 西吉县| 凤翔县| 龙里县| 徐水县| 沐川县| 通海县| 永丰县| 安康市| 乌兰县| 涟源市| 泰和县| 当涂县| 昆明市| 根河市| 长白| 资源县| 新津县| 辽宁省| 绥江县| 仙桃市| 林西县| 会同县| 平泉县| 方山县| 南郑县| 武冈市| 曲靖市| 时尚| 禹州市| 三河市| 礼泉县| 德庆县| 定南县| 孟州市| 界首市| 曲阳县| 聂拉木县| 新营市| 万宁市|