• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向傳媒領(lǐng)域文本分類訓(xùn)練器的設(shè)計

      2017-09-29 11:19:23宋燕燕
      科學(xué)家 2016年12期
      關(guān)鍵詞:訓(xùn)練器特征提取分類

      宋燕燕

      摘要 傳媒領(lǐng)域存著在大面積的領(lǐng)域知識,這類領(lǐng)域知識將特征項與文本類別相關(guān)聯(lián)在一起,非常有助于區(qū)分文本的具體類別。本文設(shè)計方面一種面向傳媒領(lǐng)域知識的文本分類訓(xùn)練器,旨在提高傳媒領(lǐng)域文本的分類性能。訓(xùn)練器將以非常直觀的方式實現(xiàn)關(guān)鍵詞檢索,特征詞提取,文本分類功能,可以方便地對未知的文件進(jìn)行分類,統(tǒng)計文本關(guān)鍵詞出現(xiàn)的頻率和文本內(nèi)容的訓(xùn)練。

      關(guān)鍵詞 文本分類;傳媒領(lǐng)域;詞頻統(tǒng)計;特征詞

      中圖分類號 TP3 文獻(xiàn)標(biāo)識碼A 文章編號2095—6363(2016)12—0032—02

      伴隨著互聯(lián)網(wǎng)的迅猛發(fā)展和日益遍及,互聯(lián)網(wǎng)數(shù)據(jù)量劇增,電子文本信息迅速的擴(kuò)大,如何有效地安排和管理這些信息,并且迅速、精確地找到用戶所需要的信息是當(dāng)時信息技術(shù)領(lǐng)域面對的一大應(yīng)戰(zhàn)。文本分類作為處理和安排很多文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在較大程度上處理信息亂現(xiàn)象的問題,便利用戶精確地定位所需的信息和分流信息。

      文本分類是指采用計算機(jī)程序?qū)ξ谋炯凑找欢ǖ姆诸愺w系進(jìn)行分類標(biāo)記和有效管理,方便用戶進(jìn)行查詢。文本分類訓(xùn)練器的設(shè)計通常包括文本的特征向量表示、文本特征向量的降維,以及文本分類器的設(shè)計與測試等。

      本文通過分析利用Java技術(shù)構(gòu)建分類訓(xùn)練器的結(jié)構(gòu)框架,明確了基于Java構(gòu)建分類訓(xùn)練器理論可行性,并進(jìn)一步設(shè)計了系統(tǒng)的技術(shù)流程和功能實現(xiàn),從而為面向傳媒領(lǐng)域的文本分類訓(xùn)練器的研究和應(yīng)用提供了一種方法。

      1相關(guān)技術(shù)介紹

      文本分類問題的困難之一便是特征空間的高維性,而特征提取的主要功能就是在保留文本核心信息的情況下盡量減少要處理的單詞數(shù),也就是降低向量空間維數(shù),從而提高文本處理的效率和精度。特征提取方法成為文本分類中首先要解決的問題。

      特征提取的常用辦法分為根據(jù)概率的特征提取辦法和根據(jù)語義的特征提取辦法。根據(jù)概率的特征提取辦法是先對文檔進(jìn)行分詞,過濾掉停用詞,并用傳統(tǒng)算法對詞語權(quán)重進(jìn)行核算,得到權(quán)重的排序后,按權(quán)重值的大小選擇相應(yīng)的特征作為文檔的特征關(guān)鍵字。而根據(jù)語義的特征提取辦法是在過濾掉停用詞后對詞語構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過詞語網(wǎng)絡(luò)結(jié)構(gòu)對特征權(quán)值進(jìn)行核算,從而得到終究文檔的特征詞。

      現(xiàn)在選用的分類辦法根本都是根據(jù)機(jī)器學(xué)習(xí)的思維。對于傳媒范疇,有些專業(yè)詞具有顯著的種類傾向性,是判別文本種類的重要依據(jù),如:當(dāng)文本中較多的呈現(xiàn)“新媒體”“媒體”“移動媒體”等這些詞語時,咱們就簡單將文本聯(lián)想到媒體工業(yè)這一種類。咱們把這些行業(yè)內(nèi)流轉(zhuǎn)度高、盡人皆知、與具體種類有關(guān)的語義常識稱為范疇常識,把握住范疇常識有助于文本分類。

      2文本分類訓(xùn)練器功能需求以及設(shè)計

      面向于傳媒領(lǐng)域的文本分類訓(xùn)練器的功能需求有以下的幾個大的方面:該系統(tǒng)要可以對文本或文件夾進(jìn)行分類、訓(xùn)練、關(guān)鍵字檢索、詞頻查詢、清屏等具體操作來滿足用戶的多種需求;要給用戶提供直觀方便的操作界面,設(shè)計的圖形界面方便用戶直觀快速的找到自己需要的功能和其它的一些信息;盡可能詳細(xì)的優(yōu)化輸出功能,讓使用者可以更直接看到所需要的文本和訓(xùn)練結(jié)果;盡可能多的訓(xùn)練文本,合理設(shè)置傳媒領(lǐng)域關(guān)鍵詞才會使文本分類更加準(zhǔn)確。

      根據(jù)功能需求對系統(tǒng)進(jìn)行設(shè)計,主要設(shè)計流程如圖1所示。

      3文本分類訓(xùn)練器的實現(xiàn)

      文本分類訓(xùn)練器采用Java開發(fā),分類訓(xùn)練器的屬性數(shù)據(jù)可直接存儲于XML文檔中,在系統(tǒng)內(nèi)部可以方便地實現(xiàn)屬性數(shù)據(jù)的讀入和讀出,滿足用戶對屬性數(shù)據(jù)直觀的獲取需求。

      1)分類模塊的實現(xiàn)

      每個關(guān)鍵詞在此類文章里出現(xiàn)的平均比例等于關(guān)鍵詞出現(xiàn)次數(shù)除以文章總字?jǐn)?shù),統(tǒng)計關(guān)鍵詞種類和數(shù)量,然后把這些關(guān)鍵詞所對應(yīng)的類枚舉出來,然后將關(guān)鍵詞出現(xiàn)數(shù)量乘以在訓(xùn)練里面的平均占比,得出概論,再歸一化成百分?jǐn)?shù)排列。部分代碼如下:endprint

      猜你喜歡
      訓(xùn)練器特征提取分類
      拼音拼讀訓(xùn)練器
      連續(xù)被動式運動訓(xùn)練器轉(zhuǎn)速切換協(xié)調(diào)控制方法
      分類算一算
      虛擬維護(hù)訓(xùn)練器在飛機(jī)維修課程中的應(yīng)用實踐
      基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
      電子制作(2019年15期)2019-08-27 01:12:00
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      一種基于LBP 特征提取和稀疏表示的肝病識別算法
      腹腔鏡手術(shù)訓(xùn)練器的攝像頭影像滯后現(xiàn)象及分析
      濮阳县| 罗城| 治多县| 龙门县| 宜君县| 塔城市| 金溪县| 芜湖县| 额敏县| 宾川县| 葫芦岛市| 航空| 息烽县| 彭水| 东台市| 普定县| 政和县| 遵义县| 永新县| 杭锦后旗| 高淳县| 宜阳县| 泸溪县| 永福县| 彭州市| 遂宁市| 嵩明县| 壤塘县| 陆川县| 象山县| 准格尔旗| 高阳县| 峨山| 分宜县| 滕州市| 泾川县| 仁寿县| 司法| 宜阳县| 璧山县| 东平县|