• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類系統(tǒng)

      2009-08-14 07:41孫瑤琴
      中國校外教育(下旬) 2009年7期
      關(guān)鍵詞:分類器特征文本

      孫瑤琴

      [摘 要]文章闡述了國內(nèi)在基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類方面所做研究工作的發(fā)展現(xiàn)狀,分析了已有工作的特點(diǎn);在此基礎(chǔ)上,結(jié)合自己的工作提出了一個(gè)基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類系統(tǒng)分析。給出了系統(tǒng)的總體結(jié)構(gòu)設(shè)計(jì)思想和總體結(jié)構(gòu)框架,以及組成系統(tǒng)的各個(gè)模塊的功能和結(jié)構(gòu)描述。按照該系統(tǒng)的設(shè)計(jì)思想和進(jìn)一步的詳細(xì)設(shè)計(jì)可以搭建一個(gè)系統(tǒng)化的、功能較為全面的、具有較高效率的中文網(wǎng)頁自動(dòng)分類系統(tǒng)平臺。

      [關(guān)鍵詞]中文網(wǎng)頁自動(dòng)分類系統(tǒng) 文本 特征 分類器 測試

      人們在享受Internet給現(xiàn)代文明帶來劃時(shí)代的變革的同時(shí),越來越感覺到在知識檢索上面臨許多需要改進(jìn)和解決的問題。Web自動(dòng)分類涉及Web的文本信息、結(jié)構(gòu)信息和超連接信息。目前人們研究的熱點(diǎn)集中在基于Web文本信息的自動(dòng)分類,即基于文本內(nèi)容的分類。基于內(nèi)容的文本分類的研究內(nèi)容主要包括文本特征的表示、特征提取、分類器設(shè)計(jì)等,其中每一階段的研究以上一階段的工作為基礎(chǔ)?;趦?nèi)容的Web自動(dòng)分類系統(tǒng)平臺的研究是上述研究內(nèi)容的基礎(chǔ)工作,是實(shí)現(xiàn)網(wǎng)頁自動(dòng)分類的工具,目前在該領(lǐng)域的工作者都是根據(jù)自己的側(cè)重點(diǎn)不同搭建各自的平臺,并在此基礎(chǔ)上開展一系列的工作。

      一、系統(tǒng)的用戶需求

      粗略地講,該系統(tǒng)的需求可描述為:建立網(wǎng)頁自動(dòng)分類系統(tǒng)平臺。要求該平臺存儲大量的領(lǐng)域相關(guān)網(wǎng)頁,并動(dòng)態(tài)調(diào)整網(wǎng)頁;該平臺能夠動(dòng)態(tài)生成網(wǎng)頁特征向量,對特征向量做維數(shù)壓縮;該平臺能夠提供若干分類或聚類算法,對網(wǎng)頁對應(yīng)的特征進(jìn)行一定正確率的分類或聚類;該平臺提供友好的測試界面,能夠?qū)﹄S機(jī)選取的領(lǐng)域網(wǎng)頁進(jìn)行自動(dòng)分類;該平臺提供在線幫助系統(tǒng),能夠使得用戶在盡可能短的時(shí)間內(nèi)熟悉和實(shí)用該系統(tǒng)。

      二、系統(tǒng)的總體結(jié)構(gòu)

      系統(tǒng)分析的目的是在需求分析的基礎(chǔ)上,為實(shí)現(xiàn)系統(tǒng)的功能要求而設(shè)計(jì)系統(tǒng)的結(jié)構(gòu),劃分系統(tǒng)的功能模塊,確定各個(gè)模塊之間的邏輯順序關(guān)系。從整體上把握系統(tǒng)的組織結(jié)構(gòu),直觀地了解系統(tǒng)的構(gòu)成和各個(gè)部分之間的相互關(guān)系。

      整個(gè)系統(tǒng)主要有三部分組成,數(shù)據(jù)庫管理系統(tǒng)、任務(wù)管理系統(tǒng)、用戶界面部分。

      三、系統(tǒng)的結(jié)構(gòu)分析

      (1)數(shù)據(jù)庫管理系統(tǒng):該系統(tǒng)主要由4種數(shù)據(jù)庫,分別為原始網(wǎng)頁數(shù)據(jù)庫、詞典庫、文本特征庫、系統(tǒng)開發(fā)文檔庫。

      (2)任務(wù)管理系統(tǒng):該系統(tǒng)是整個(gè)平臺的主要前臺組成部分,用于完成網(wǎng)頁分類的各個(gè)環(huán)節(jié),在實(shí)現(xiàn)上具有一定的前后邏輯關(guān)系。

      (3)網(wǎng)頁自動(dòng)下載系統(tǒng):完成指定領(lǐng)域的網(wǎng)頁按類自動(dòng)下載與存儲

      (4)網(wǎng)頁版面分析系統(tǒng):該系統(tǒng)實(shí)現(xiàn)網(wǎng)頁版面結(jié)構(gòu)分析與結(jié)構(gòu)特征提取。

      (5)切詞系統(tǒng):切詞系統(tǒng)用于統(tǒng)計(jì)領(lǐng)域網(wǎng)頁庫中各詞條出現(xiàn)的頻率。

      (6)特征壓縮系統(tǒng):該系統(tǒng)的目的是特征向量空間壓縮。

      (7)學(xué)習(xí)系統(tǒng):該系統(tǒng)給用戶提供學(xué)習(xí)方法集。

      (8)測試系統(tǒng):系統(tǒng)測試是為了發(fā)現(xiàn)錯(cuò)誤而執(zhí)行程序的過程。

      (9)幫助系統(tǒng):在線幫助功能。該系統(tǒng)應(yīng)提供給用戶較為友好的交互界面,幫助用戶了解各個(gè)部分的功能,提供操作錯(cuò)誤分析和系統(tǒng)運(yùn)行錯(cuò)誤分析和提示等。

      四、系統(tǒng)模塊實(shí)現(xiàn)

      模塊實(shí)現(xiàn)部分提供系統(tǒng)的各個(gè)模塊具體實(shí)現(xiàn)的方法、步驟、流程和實(shí)現(xiàn)的工具等。在前述功能和結(jié)構(gòu)描述的基礎(chǔ)上,規(guī)范各個(gè)模塊的程序接口、統(tǒng)一風(fēng)格、注意事項(xiàng)等。整個(gè)系統(tǒng)開發(fā)平臺選擇VC++6.0系統(tǒng),其中的核心算法部分若不涉及交互界面可以使用標(biāo)準(zhǔn)C。網(wǎng)頁文件管理的操作借助于操作系統(tǒng)的文件管理系統(tǒng),網(wǎng)頁文件索引文件和文本特征向量數(shù)據(jù)庫系統(tǒng)采用Access的數(shù)據(jù)表*.ndb格式。

      (1)數(shù)據(jù)庫管理系統(tǒng):數(shù)據(jù)庫管理系統(tǒng)具備一般數(shù)據(jù)庫的操作,根據(jù)數(shù)據(jù)庫管理內(nèi)容的區(qū)別,在上述操作內(nèi)容上有所不同。管理系統(tǒng)應(yīng)充分利用windows提供的功能和設(shè)計(jì)風(fēng)格實(shí)現(xiàn)數(shù)據(jù)的可視化、實(shí)現(xiàn)快速化等特點(diǎn)。

      (2)任務(wù)管理系統(tǒng):整個(gè)任務(wù)管理系統(tǒng)是系統(tǒng)的方法集中部分,為了縮短開發(fā)周期和提高整個(gè)系統(tǒng)整體性能,特統(tǒng)一系統(tǒng)的開發(fā)規(guī)范如下:

      a)使用統(tǒng)一的編程工具:VC++6.0,便于整個(gè)系統(tǒng)的集成;

      b)使用統(tǒng)一的程序接口格式;例子如下:

      FunctionName(parameter1, parameter 2,…, parameterN)

      {//模塊說明:模塊功能描述,參數(shù)設(shè)置,調(diào)用模塊;輸出結(jié)果說明;

      變量說明;

      調(diào)用函數(shù)說明;

      模塊主體;

      返回值;

      }

      c)使用統(tǒng)一的局部變量規(guī)定;變量的取名規(guī)定為與物理意義的變量對應(yīng)的英文單詞或組合詞使用。

      五、系統(tǒng)模塊測試

      模塊測試又稱單元測試,是針對軟件設(shè)計(jì)的最小單位-程序模塊,進(jìn)行正確性檢驗(yàn)的測試工作。其目的在于發(fā)現(xiàn)各模塊內(nèi)部可能存在的各種差錯(cuò)。單元測試需要從程序的內(nèi)部結(jié)構(gòu)出發(fā)設(shè)計(jì)測試用例。多個(gè)模塊可以平行地獨(dú)立進(jìn)行單元測試。需要從以下五個(gè)方面測試:模塊接口測試、局部數(shù)據(jù)結(jié)構(gòu)測試、路徑測試、錯(cuò)誤處理測試、邊界測試。

      六、系統(tǒng)測試

      在系統(tǒng)測試之前需要做的是聯(lián)合測試:在單元測試的基礎(chǔ)上,需要將所有模塊按照設(shè)計(jì)要求組裝成為系統(tǒng)。需要考慮的問題:

      (1)在把各個(gè)模塊連接起來的時(shí)候,穿越模塊接口的數(shù)據(jù)是否會丟失;

      (2)一個(gè)模塊的功能是否會對另一個(gè)模塊的功能產(chǎn)生不利的影響;

      (3)各個(gè)子功能組合起來,是否達(dá)到預(yù)期要求的父功能;

      (4)全局?jǐn)?shù)據(jù)結(jié)構(gòu)是否有問題;

      (5)單個(gè)模塊的誤差積累起來,是否會放大,從而達(dá)到不能接受的程度。

      系統(tǒng)測試的目的是通過與系統(tǒng)的需求定義作比較,發(fā)現(xiàn)軟件與系統(tǒng)定義不符合或與之矛盾的地方。系統(tǒng)測試的測試用例應(yīng)根據(jù)需求分析說明書來設(shè)計(jì),并在實(shí)際使用環(huán)境下來運(yùn)行。

      七、總結(jié)

      中文文本的自動(dòng)分類是中文信息處理領(lǐng)域中的一項(xiàng)重要研究課題。本文對中文信息分類技術(shù)及其應(yīng)用作了初步的探討,并從實(shí)際應(yīng)用出發(fā)給出一個(gè)基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類系統(tǒng)分析。描述了系統(tǒng)的總體結(jié)構(gòu)設(shè)計(jì)思想和總體結(jié)構(gòu)框架,以及組成系統(tǒng)的各個(gè)模塊的功能和結(jié)構(gòu)。按照該系統(tǒng)的設(shè)計(jì)思想和進(jìn)一步的詳細(xì)設(shè)計(jì)可以搭建一個(gè)系統(tǒng)化的、功能較為全面的、具有較高效率的中文網(wǎng)頁自動(dòng)分類系統(tǒng)平臺。

      由于整個(gè)系統(tǒng)涵蓋的范圍大,設(shè)計(jì)到的技術(shù)細(xì)節(jié)多,在很多實(shí)現(xiàn)細(xì)節(jié)上采用了比較簡單的方法,以便于整個(gè)系統(tǒng)的順利實(shí)現(xiàn)。在很多方面需要進(jìn)行繼續(xù)深入的研究,以提高整個(gè)自動(dòng)分類過程的識別準(zhǔn)確率。

      參考文獻(xiàn):

      [1]王繼成,蕭嶸,孫正興,張福炎.Web信息檢索研究進(jìn)展.計(jì)算機(jī)研究與發(fā)展,2006,38(2):187-193.

      [2]王繼成,潘金貴,張福炎.Web文本挖掘技術(shù)研究.計(jì)算機(jī)研究與發(fā)展,2005,37(5):513-520.

      [3]呂津,趙明生.對因特網(wǎng)上自動(dòng)信息提取的研究.數(shù)據(jù)通信,2007.

      [4]朱明,王軍,王俊普.Web網(wǎng)頁識別中的特征選擇問題研究.計(jì)算機(jī)工程,2006,26(8):35-37.

      [5]肖明,沈英.自動(dòng)分類研究進(jìn)展.現(xiàn)代圖書情報(bào)技術(shù),2000.

      猜你喜歡
      分類器特征文本
      如何表達(dá)“特征”
      在808DA上文本顯示的改善
      不忠誠的四個(gè)特征
      基于doc2vec和TF-IDF的相似文本識別
      BP-GA光照分類器在車道線識別中的應(yīng)用
      抓住特征巧觀察
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      松滋市| 施秉县| 荣昌县| 嫩江县| 西青区| 永年县| 高尔夫| 霞浦县| 临夏市| 盐山县| 定安县| 从化市| 霍林郭勒市| 江山市| 雷波县| 城市| 大悟县| 元氏县| 昔阳县| 泸定县| 茂名市| 泰和县| 多伦县| 江孜县| 龙岩市| 台东市| 屏东市| 绥棱县| 平远县| 阿巴嘎旗| 曲靖市| 华宁县| 尉犁县| 南京市| 奇台县| 南漳县| 施秉县| 南投县| 武胜县| 中超| 凌云县|