孫瑤琴
[摘 要]文章闡述了國內(nèi)在基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類方面所做研究工作的發(fā)展現(xiàn)狀,分析了已有工作的特點(diǎn);在此基礎(chǔ)上,結(jié)合自己的工作提出了一個(gè)基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類系統(tǒng)分析。給出了系統(tǒng)的總體結(jié)構(gòu)設(shè)計(jì)思想和總體結(jié)構(gòu)框架,以及組成系統(tǒng)的各個(gè)模塊的功能和結(jié)構(gòu)描述。按照該系統(tǒng)的設(shè)計(jì)思想和進(jìn)一步的詳細(xì)設(shè)計(jì)可以搭建一個(gè)系統(tǒng)化的、功能較為全面的、具有較高效率的中文網(wǎng)頁自動(dòng)分類系統(tǒng)平臺。
[關(guān)鍵詞]中文網(wǎng)頁自動(dòng)分類系統(tǒng) 文本 特征 分類器 測試
人們在享受Internet給現(xiàn)代文明帶來劃時(shí)代的變革的同時(shí),越來越感覺到在知識檢索上面臨許多需要改進(jìn)和解決的問題。Web自動(dòng)分類涉及Web的文本信息、結(jié)構(gòu)信息和超連接信息。目前人們研究的熱點(diǎn)集中在基于Web文本信息的自動(dòng)分類,即基于文本內(nèi)容的分類。基于內(nèi)容的文本分類的研究內(nèi)容主要包括文本特征的表示、特征提取、分類器設(shè)計(jì)等,其中每一階段的研究以上一階段的工作為基礎(chǔ)?;趦?nèi)容的Web自動(dòng)分類系統(tǒng)平臺的研究是上述研究內(nèi)容的基礎(chǔ)工作,是實(shí)現(xiàn)網(wǎng)頁自動(dòng)分類的工具,目前在該領(lǐng)域的工作者都是根據(jù)自己的側(cè)重點(diǎn)不同搭建各自的平臺,并在此基礎(chǔ)上開展一系列的工作。
一、系統(tǒng)的用戶需求
粗略地講,該系統(tǒng)的需求可描述為:建立網(wǎng)頁自動(dòng)分類系統(tǒng)平臺。要求該平臺存儲大量的領(lǐng)域相關(guān)網(wǎng)頁,并動(dòng)態(tài)調(diào)整網(wǎng)頁;該平臺能夠動(dòng)態(tài)生成網(wǎng)頁特征向量,對特征向量做維數(shù)壓縮;該平臺能夠提供若干分類或聚類算法,對網(wǎng)頁對應(yīng)的特征進(jìn)行一定正確率的分類或聚類;該平臺提供友好的測試界面,能夠?qū)﹄S機(jī)選取的領(lǐng)域網(wǎng)頁進(jìn)行自動(dòng)分類;該平臺提供在線幫助系統(tǒng),能夠使得用戶在盡可能短的時(shí)間內(nèi)熟悉和實(shí)用該系統(tǒng)。
二、系統(tǒng)的總體結(jié)構(gòu)
系統(tǒng)分析的目的是在需求分析的基礎(chǔ)上,為實(shí)現(xiàn)系統(tǒng)的功能要求而設(shè)計(jì)系統(tǒng)的結(jié)構(gòu),劃分系統(tǒng)的功能模塊,確定各個(gè)模塊之間的邏輯順序關(guān)系。從整體上把握系統(tǒng)的組織結(jié)構(gòu),直觀地了解系統(tǒng)的構(gòu)成和各個(gè)部分之間的相互關(guān)系。
整個(gè)系統(tǒng)主要有三部分組成,數(shù)據(jù)庫管理系統(tǒng)、任務(wù)管理系統(tǒng)、用戶界面部分。
三、系統(tǒng)的結(jié)構(gòu)分析
(1)數(shù)據(jù)庫管理系統(tǒng):該系統(tǒng)主要由4種數(shù)據(jù)庫,分別為原始網(wǎng)頁數(shù)據(jù)庫、詞典庫、文本特征庫、系統(tǒng)開發(fā)文檔庫。
(2)任務(wù)管理系統(tǒng):該系統(tǒng)是整個(gè)平臺的主要前臺組成部分,用于完成網(wǎng)頁分類的各個(gè)環(huán)節(jié),在實(shí)現(xiàn)上具有一定的前后邏輯關(guān)系。
(3)網(wǎng)頁自動(dòng)下載系統(tǒng):完成指定領(lǐng)域的網(wǎng)頁按類自動(dòng)下載與存儲
(4)網(wǎng)頁版面分析系統(tǒng):該系統(tǒng)實(shí)現(xiàn)網(wǎng)頁版面結(jié)構(gòu)分析與結(jié)構(gòu)特征提取。
(5)切詞系統(tǒng):切詞系統(tǒng)用于統(tǒng)計(jì)領(lǐng)域網(wǎng)頁庫中各詞條出現(xiàn)的頻率。
(6)特征壓縮系統(tǒng):該系統(tǒng)的目的是特征向量空間壓縮。
(7)學(xué)習(xí)系統(tǒng):該系統(tǒng)給用戶提供學(xué)習(xí)方法集。
(8)測試系統(tǒng):系統(tǒng)測試是為了發(fā)現(xiàn)錯(cuò)誤而執(zhí)行程序的過程。
(9)幫助系統(tǒng):在線幫助功能。該系統(tǒng)應(yīng)提供給用戶較為友好的交互界面,幫助用戶了解各個(gè)部分的功能,提供操作錯(cuò)誤分析和系統(tǒng)運(yùn)行錯(cuò)誤分析和提示等。
四、系統(tǒng)模塊實(shí)現(xiàn)
模塊實(shí)現(xiàn)部分提供系統(tǒng)的各個(gè)模塊具體實(shí)現(xiàn)的方法、步驟、流程和實(shí)現(xiàn)的工具等。在前述功能和結(jié)構(gòu)描述的基礎(chǔ)上,規(guī)范各個(gè)模塊的程序接口、統(tǒng)一風(fēng)格、注意事項(xiàng)等。整個(gè)系統(tǒng)開發(fā)平臺選擇VC++6.0系統(tǒng),其中的核心算法部分若不涉及交互界面可以使用標(biāo)準(zhǔn)C。網(wǎng)頁文件管理的操作借助于操作系統(tǒng)的文件管理系統(tǒng),網(wǎng)頁文件索引文件和文本特征向量數(shù)據(jù)庫系統(tǒng)采用Access的數(shù)據(jù)表*.ndb格式。
(1)數(shù)據(jù)庫管理系統(tǒng):數(shù)據(jù)庫管理系統(tǒng)具備一般數(shù)據(jù)庫的操作,根據(jù)數(shù)據(jù)庫管理內(nèi)容的區(qū)別,在上述操作內(nèi)容上有所不同。管理系統(tǒng)應(yīng)充分利用windows提供的功能和設(shè)計(jì)風(fēng)格實(shí)現(xiàn)數(shù)據(jù)的可視化、實(shí)現(xiàn)快速化等特點(diǎn)。
(2)任務(wù)管理系統(tǒng):整個(gè)任務(wù)管理系統(tǒng)是系統(tǒng)的方法集中部分,為了縮短開發(fā)周期和提高整個(gè)系統(tǒng)整體性能,特統(tǒng)一系統(tǒng)的開發(fā)規(guī)范如下:
a)使用統(tǒng)一的編程工具:VC++6.0,便于整個(gè)系統(tǒng)的集成;
b)使用統(tǒng)一的程序接口格式;例子如下:
FunctionName(parameter1, parameter 2,…, parameterN)
{//模塊說明:模塊功能描述,參數(shù)設(shè)置,調(diào)用模塊;輸出結(jié)果說明;
變量說明;
調(diào)用函數(shù)說明;
模塊主體;
返回值;
}
c)使用統(tǒng)一的局部變量規(guī)定;變量的取名規(guī)定為與物理意義的變量對應(yīng)的英文單詞或組合詞使用。
五、系統(tǒng)模塊測試
模塊測試又稱單元測試,是針對軟件設(shè)計(jì)的最小單位-程序模塊,進(jìn)行正確性檢驗(yàn)的測試工作。其目的在于發(fā)現(xiàn)各模塊內(nèi)部可能存在的各種差錯(cuò)。單元測試需要從程序的內(nèi)部結(jié)構(gòu)出發(fā)設(shè)計(jì)測試用例。多個(gè)模塊可以平行地獨(dú)立進(jìn)行單元測試。需要從以下五個(gè)方面測試:模塊接口測試、局部數(shù)據(jù)結(jié)構(gòu)測試、路徑測試、錯(cuò)誤處理測試、邊界測試。
六、系統(tǒng)測試
在系統(tǒng)測試之前需要做的是聯(lián)合測試:在單元測試的基礎(chǔ)上,需要將所有模塊按照設(shè)計(jì)要求組裝成為系統(tǒng)。需要考慮的問題:
(1)在把各個(gè)模塊連接起來的時(shí)候,穿越模塊接口的數(shù)據(jù)是否會丟失;
(2)一個(gè)模塊的功能是否會對另一個(gè)模塊的功能產(chǎn)生不利的影響;
(3)各個(gè)子功能組合起來,是否達(dá)到預(yù)期要求的父功能;
(4)全局?jǐn)?shù)據(jù)結(jié)構(gòu)是否有問題;
(5)單個(gè)模塊的誤差積累起來,是否會放大,從而達(dá)到不能接受的程度。
系統(tǒng)測試的目的是通過與系統(tǒng)的需求定義作比較,發(fā)現(xiàn)軟件與系統(tǒng)定義不符合或與之矛盾的地方。系統(tǒng)測試的測試用例應(yīng)根據(jù)需求分析說明書來設(shè)計(jì),并在實(shí)際使用環(huán)境下來運(yùn)行。
七、總結(jié)
中文文本的自動(dòng)分類是中文信息處理領(lǐng)域中的一項(xiàng)重要研究課題。本文對中文信息分類技術(shù)及其應(yīng)用作了初步的探討,并從實(shí)際應(yīng)用出發(fā)給出一個(gè)基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類系統(tǒng)分析。描述了系統(tǒng)的總體結(jié)構(gòu)設(shè)計(jì)思想和總體結(jié)構(gòu)框架,以及組成系統(tǒng)的各個(gè)模塊的功能和結(jié)構(gòu)。按照該系統(tǒng)的設(shè)計(jì)思想和進(jìn)一步的詳細(xì)設(shè)計(jì)可以搭建一個(gè)系統(tǒng)化的、功能較為全面的、具有較高效率的中文網(wǎng)頁自動(dòng)分類系統(tǒng)平臺。
由于整個(gè)系統(tǒng)涵蓋的范圍大,設(shè)計(jì)到的技術(shù)細(xì)節(jié)多,在很多實(shí)現(xiàn)細(xì)節(jié)上采用了比較簡單的方法,以便于整個(gè)系統(tǒng)的順利實(shí)現(xiàn)。在很多方面需要進(jìn)行繼續(xù)深入的研究,以提高整個(gè)自動(dòng)分類過程的識別準(zhǔn)確率。
參考文獻(xiàn):
[1]王繼成,蕭嶸,孫正興,張福炎.Web信息檢索研究進(jìn)展.計(jì)算機(jī)研究與發(fā)展,2006,38(2):187-193.
[2]王繼成,潘金貴,張福炎.Web文本挖掘技術(shù)研究.計(jì)算機(jī)研究與發(fā)展,2005,37(5):513-520.
[3]呂津,趙明生.對因特網(wǎng)上自動(dòng)信息提取的研究.數(shù)據(jù)通信,2007.
[4]朱明,王軍,王俊普.Web網(wǎng)頁識別中的特征選擇問題研究.計(jì)算機(jī)工程,2006,26(8):35-37.
[5]肖明,沈英.自動(dòng)分類研究進(jìn)展.現(xiàn)代圖書情報(bào)技術(shù),2000.