• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高脂血癥分類特征選擇算法研究

      2012-04-29 18:34:26黃執(zhí)航張啟蕊
      電腦知識與技術(shù) 2012年15期
      關(guān)鍵詞:文本分類特征選擇高脂血癥

      黃執(zhí)航 張啟蕊

      摘要:以高脂血癥文獻分類為背景,通過對傳統(tǒng)特征選擇算法的研究,結(jié)合特征出現(xiàn)概率、特征與類別的相關(guān)度,提出一種基于二類信息差值的特征選擇方法。使用該算法及k近鄰距離分類法在高脂血癥文獻數(shù)據(jù)集上進行分類,實驗顯示該算法優(yōu)于文檔頻率和信息增益,可提高文本分類的查準率。

      關(guān)鍵詞:高脂血癥;文本分類;特征選擇

      中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2012)15-3656-03

      Research of Feature Selection in Hyperlipidemia Classification

      HUANG Zhi-Hang, ZHANG Qi-Rui

      (College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006, China)

      Abstract: To improve the classification performance of hyperlipidemia documents, a feature selection method based on two-class informa? tion variance is proposed. This method combines the feature frequency with the correlation of characteristics and categories. Using the kNN algorithm as the classification method, the experiment shows that the new method outperforms document frequency and informant gain. It can effectively improve the classification accuracy.

      Key words: Hyperlipidemia; Text Classification; Feature Selection

      高脂血癥是中老年的常見病、多發(fā)病,調(diào)查顯示,我國成人血脂異?;疾÷蕿?8.6%,估計目前全國血脂異?;疾∪藬?shù)約為2.4億[1]。預(yù)防和治療高脂血癥是國內(nèi)外研究的熱點課題,每天都有成百上千篇相關(guān)文獻出版[2]。隨著Intemet信息量的迅猛增加,加大了人們獲取有效信息的難度,使得人們無法快速查找到最新的信息,從而造成了時間、資金和精力的巨大浪費。面對網(wǎng)上海量的信息,文本分類應(yīng)運而生。

      在文本分類中,文本表示為向量空間的形式時,訓(xùn)練文本集中的特征項可能多達數(shù)萬個。中文文本數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),在沒進行任何處理的情況下,表示文本的特征空間的維數(shù)高達幾萬甚至是幾十萬。即便是在經(jīng)過了文本預(yù)處理(停用詞過濾、低頻詞過濾等),特征空間依然有很高的維數(shù)。過多的特征詞會導(dǎo)致樣本統(tǒng)計和計算變得更加困難,極易產(chǎn)生“維數(shù)災(zāi)難”的問題[3]。在一定的分類算法下,過高的特征維數(shù)不但不能夠提高分類的精度,反而可能在降低分類精度的同時導(dǎo)致效率低下。因此,在文本分類的過程中,對特征進行選擇顯得至關(guān)重要。本文通過研究高脂血癥文獻的特征選擇算法,對不同的特征選擇算法的分類性能進行比較,并做出進一步的改進。

      除了改進的特征選擇方法,實驗得出的結(jié)論與現(xiàn)有的研究并無沖突,這也從側(cè)面上證明DF&MI的有效性。然而本次實驗還存在一些不足。第一,實驗數(shù)據(jù)的不完善,選擇不同的數(shù)量的文本、不同的類別數(shù)得出來的實驗數(shù)據(jù)有一定的差距。第二,基于計算條件有限,實驗并不是采用分類效果更佳的實驗手段(分類效果更好的分類器及特征權(quán)重賦值,需要更高要求的計算條件)進行的,這也從一定程度影響了實驗的效果。雖然實驗有所不足,但這些不足并不影響各個分類特征選擇算法的效果的對比。本次實驗是有效的。同時,直接將改進的特征選擇算法應(yīng)用到高脂血癥文獻的分類上,具有很強的實用價值。

      猜你喜歡
      文本分類特征選擇高脂血癥
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      基于貝葉斯分類器的中文文本分類
      基于蟻群智能算法的研究文本分類
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      聯(lián)合互信息水下目標特征選擇算法
      高脂血癥對生化檢驗項目的干擾及消除
      食物不耐受與高脂血癥的關(guān)系
      社區(qū)健康促進模式降低老年高脂血癥的效果
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      仁寿县| 巨野县| 上思县| 五常市| 久治县| 榆社县| 墨玉县| 宿松县| 惠东县| 遵义市| 太湖县| 砀山县| 梅河口市| 宁晋县| 浪卡子县| 新河县| 磴口县| 哈密市| 乳山市| 阿巴嘎旗| 延庆县| 家居| 宽甸| 丁青县| 改则县| 昌都县| 盐源县| 揭东县| 布拖县| 凤冈县| 信阳市| 宿迁市| 无极县| 镇坪县| 大英县| 马鞍山市| 龙南县| 安平县| 雅江县| 宝应县| 乃东县|