徐建忠朱俊趙瑞張亮李嬌嬌
(1. 杭州世平信息科技有限公司,杭州 310012;2. 西昌衛(wèi)星發(fā)射中心,文昌 571300;3. 裝甲兵工程學院,北京 100072)
基于Web技術的航天文本分類系統(tǒng)研究與應用
徐建忠1朱俊2趙瑞3張亮1李嬌嬌1
(1. 杭州世平信息科技有限公司,杭州 310012;2. 西昌衛(wèi)星發(fā)射中心,文昌 571300;3. 裝甲兵工程學院,北京 100072)
海南發(fā)射場的海量文檔缺乏有效的組織和管理,急需開發(fā)一種快速、有效的方法以實現(xiàn)文檔的自動整理、歸類。針對這一實際需求,基于Web技術和文本分類技術,通過Web服務器構建、訓練文本數(shù)據(jù)收集、文本預處理、文本特征表示和分類模型訓練,研發(fā)了一套服務器—客戶端模式的航天文本分類系統(tǒng)。經測試,該分類系統(tǒng)在測試數(shù)據(jù)集上的準確率和召回率均達到90%以上,具有良好的分類性能。
Web技術,文本分類技術,航天文本,貝葉斯算法建好的分類器對用戶上傳的待分類文檔自動分類,最后向用戶返回分類結果。
1.1 系統(tǒng)整體架構
本文設計的航天文本分類系統(tǒng)整體框架如圖1所示。
圖1 航天文本分類系統(tǒng)整體框架
由圖1可以看出,該航天文本分類系統(tǒng)的核心包括分類器訓練和用戶文檔分類兩個階段。在分類器訓練階段,系統(tǒng)收集航天領域的文本,并將這些文本按照辦公類文檔和任務類文檔進行人工預先標注,然后對這些訓練文本進行文本預處理、文本特征提取,以構建特征向量,最后訓練并構建文本分類器。在用戶文檔分類階段,系統(tǒng)獲取用戶通過網絡上傳到服務器的待分類文檔集,然后對這些文檔進行文本預處理,分析并比對其特征向量,最后利用構建的分類器完成文本自動分類,再向用戶返回分類結果。此外,研究人員還設計了方便用戶上傳文檔和展示文本分類結果的界面。
1.2 系統(tǒng)實現(xiàn)
1.2.1 服務器架構和用戶界面設計
為了方便用戶上傳待分類文檔數(shù)據(jù)集,該航天文本分類系統(tǒng)設計有簡單的用戶使用界面,如圖2所示。用戶可通過文件上傳頁面,向服務器上傳doc、docx和pdf格式的文檔。通常,用戶需要分類的文檔比較多,為了加快文檔上傳速度,用戶可以將文檔壓縮成zip格式上傳。當待分類文檔分類完成后,服務器會以表格形式返回文本分類結果。另外,該航天文本分類系統(tǒng)還會將分好類的文本分別放入以類別名稱命名的文件夾中,并壓縮成zip格式供用戶下載。
1.2.2 訓練數(shù)據(jù)集
圖2 航天文本分類系統(tǒng)文檔上傳頁面
研究人員從已累積的航天文檔中選擇出83篇文檔,讓從事航天領域工作的技術人員進行人工閱讀標注。人工閱讀時,技術人員根據(jù)自己的經驗,按照任務類文檔和辦公類文檔對待分類文檔進行類別標注。最終的標注結果為:41篇任務類文檔,42篇辦公類文檔。研究人員以標注好的文檔集合作為該航天文本分類系統(tǒng)的訓練數(shù)據(jù),用于分類模型的構建。
1.2.3 文本預處理
文本的預處理主要完成中文分詞、過濾停用詞和常用詞等工作。中文分詞是后續(xù)進行特征提取和模型訓練的基礎,常用的中文分詞方法包括3種:基于統(tǒng)計的分詞方法[9]、基于詞典的分詞方法[10]和基于AI的分詞方法[11]。另外,該航天文本分類系統(tǒng)還去除了不表達信息的停用詞和常用詞,如“我們”、“這”、“那些”等。
1.2.4 文本特征提取
該航天文本分類系統(tǒng)采用常用的向量空間模型[12,13]來完成文本的特征向量表示。向量空間模型是將每個文本d描述成數(shù)值向量特征w(d),(d)=(t1, t2, t3, …, tm),其中,ti(i=1, 2, 3, …, m)表示詞條在文本中的權重。通過建立文本特征向量,將文本分類轉換成對多維向量分類。
本文選擇常用的TF-IDF特征權重來表示文本向量。TF-IDF實際上是TF和IDF的乘積。TF指的是詞頻(term frequency),即詞條t在文檔d中出現(xiàn)的頻率;IDF指的是逆向文件頻率(Inverse document frequency),度量的是詞條t區(qū)分不同文檔類別的能力。
TF的計算公式為:
其中,ni,j表示詞條ti在文檔dj中的出現(xiàn)次數(shù),而分母則表示文檔dj中所有詞條出現(xiàn)的總次數(shù)。
IDF的計算公式為:
其中,|D|表示訓練集合中的文檔總數(shù),│{j∶ti∈dj}│表示包含詞條ti的文檔數(shù)。
通過上面的計算處理,可以將每個文檔通過TF-IDF權重向量進行表示。
1.2.5 分類模型
適用于文本分類的機器學習算法有多種,如樸素貝葉斯算法[14]、決策樹[15]、人工神經網[16]、SVM算法[17]等。
本文建立航天文本分類系統(tǒng)的目的是將海量航天文檔按照辦公類文檔和任務類文檔進行分類,是一個典型的二分類問題,樸素貝葉斯模型具有訓練速度快、判斷預測準確等優(yōu)點,因此,本文的航天文本分類系統(tǒng)選用了樸素貝葉斯算法,其描述如下:
令C={c1, c2, …, c|c|}為預先定義的類別集,d={w1, w2, …, wn}表示文檔向量,則可以用P(ci|d)表示文檔d屬于類ci的概率。文檔d將被分類到使P(ci|d)最大的類別ci中。直接估計P(ci|d)是比較困難的,但根據(jù)貝葉斯公式:
可以通過估算P(d)、P(ci)和P(d|ci),然后將估算出的值代入貝葉斯公式中,計算出P(ci|d)的估計值。一般情況下,P(d|ci)的估計值難以確定,因為d是一個n維向量,n的取值可以很大,所以,d有很多可能值。為了簡化對P(d|ci)的估計,樸素貝葉斯模型有一個簡單的假設:當文檔d屬于類別ci時,向量d中各個分量取值是相互獨立的。這樣,文檔d在給定類ci的條件概率就可以表示為:
由于上式中,P(d)對于任意類別ci都是一樣的,所以,僅需考慮上式中分子的取值,即當類別為ci時,分子取最大值,則文檔d屬于ci類。
為了驗證該航天文本分類系統(tǒng)的效果,采用其它測試數(shù)據(jù)集(不包含已用于訓練的文檔)對系統(tǒng)的可靠性進行了測試。測試數(shù)據(jù)集包含30篇辦公類文檔和30篇任務類文檔,這些文檔的類別都已經過人工驗證。另外,對于文檔分類的評價標準指標有多種,本文選取準確率(Precision)和召回率(Recall)兩個指標作為評價標準,其具體表達式為:
其中,TPc表示真陽性(正確分類成c類的文檔數(shù))、FPc表示假陽性(錯誤分類成c類的文檔數(shù))、FNc表示假陰性(屬于c類但分類器并沒將其分到c類的文檔數(shù))。將測試數(shù)據(jù)集上傳到服務器進行測試,并對分類結果進行統(tǒng)計,統(tǒng)計結果見表1。
從表1可以看出,該航天文本分類系統(tǒng)能夠按照辦公文檔和任務文檔,準確地分類航天文檔,準確率和召回率均達到90%以上。因此,該航天文本分類系統(tǒng)具有良好的分類效果,能夠滿足航天文本的實際分類需求。
表1 分類結果
本文基于Web技術和文本挖掘技術,構建了一套航天文本自動分類系統(tǒng)。該航天文本分類系統(tǒng)可以接受用戶上傳的多種格式的待分類文檔,然后自動完成分類,最后向用戶返回分類結果。測試結果表明,該航天文本分類系統(tǒng)對航天文本的分類能夠達到較高的準確率和召回率,可基本滿足航天文本分類的實際需求。
目前,該航天文本分類系統(tǒng)的文本分類功能相對單一,僅能粗略將航天文本按照任務類文檔和辦公類文檔分成兩類。在未來的工作中,研究人員將構建更為精細的文本分類模型,進一步豐富和完善航天文本分類系統(tǒng)的功能和性能。
1 高潔, 吉根林. 文本分類技術研究[J]. 計算機應用研究, 2004, (7)∶ 28~30
2 張浩, 汪楠. 文本分類技術研究進展[J]. 科技信息(科技教研), 2007, (23)∶ 95~96
3 張春燕. 基于自然語言處理的文本分類分析與研究[D]. 江西理工大學, 2011
4 劉冬雪. 文本分類技術在信息檢索中的應用[J]. 科技資訊, 2010, (18)∶ 11
5 郭峰, 徐玉生, 陳曉云, 等. 基于信息提取的面向行業(yè)應用文本分類算法[J]. 清華大學學報, 2005, 45(S1)∶ 1810~1813
6 胡新海. 數(shù)據(jù)挖掘與決策樹J48算法在文本分類中的應用[J]. 甘肅高師學報, 2015, 5(20)∶ 25~29
7 王歡, 武剛, 楊抒. 基于文本分類的林業(yè)Web黃頁分類系統(tǒng)[J]. 計算機系統(tǒng)應用, 2012, (1)∶ 21~24
8 趙月齋. 一種基于詞頻統(tǒng)計的中文分詞方法[J]. 科技展望, 2016, (10)∶ 280~283
9 周祺. 基于統(tǒng)計與詞典相結合的中文分詞的研究與實現(xiàn)[D]. 哈爾濱工業(yè)大學, 2015
10 司志剛, 牛琳, 常朝穩(wěn). 基于SVM的公安情報自動分類系統(tǒng)的研究與設計[J]. 計算機工程與應用, 2008, 44(28)∶226~229
11 黃昌寧, 趙海. 中文分詞十年回顧[J]. 中文信息學報, 2007, 21(3)∶ 8~19
12 周洪翠, 莊新妍. 基于向量空間模型的文本信息表示[J]. 呼倫貝爾學院學報, 2011, (19)∶ 111~116
13 Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11)∶ 613~620
14 Dumis S, Platt J, Heckerman D, et al. Inductive learning algorithms and representations for text categorization[C]. Proceedings of the seventh international conference on Information and knowledge management. ACM, 1998∶148~155
15 Baker L D, Mccallum A K. Distributional clustering of words for text classification[C]. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998∶96~103
16 Chickring D M, Heckerman D, Meek C. A Bayesian approach to learning Bayesian networks with local structure[C]. Proceedings of the Thirteenth conference on Uncertainty in artificial intelligence. Morgan Kaufmann Publishers Inc.ACM, 1997∶ 80~89
17 Schutze H, Hull D A, Pedersen J O. A comparison of classifiers and document representations for the routing problem[C]. Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1995∶ 229~237
Research and Application on Aerospace Text Classification System Based on Web Technology
Xu Jianzhong1Zhu Jun2Zhao Rui3Zhang Liang1Li Jiaojiao1
(1. Hangzhou Shiping Information and Technology Co., Ltd, Hangzhou 310012;2. Xichang Satellite Launch Center, Wenchang 571300;3. The Academy of Armored Forces Engineering, Beijing 100072)
Hainan Launch Center has no effective organization and management of massive documents, which is urgent for establishing an effective method to automatically categorize documents. To solve this problem, a serverclient model text classification system has been implemented based on text classification technology and Web technology, through Web construction, text training data preprocessing, feature vectorizing and classification training. Testing results suggest that this classification system has good performances, and both the precision and recall of the data testing are above 90%.
Web technology, Text classification, Aerospace text, Bayes algorithm
1009-8119(2016)12(1)-0048-03
海南發(fā)射場是我國目前正在進行建設的新一代航天發(fā)射基地,其在建設和運行過程中會產生各種類型的海量文檔。這些海量文檔大致分為兩個類別:一是辦公類文檔,包括日常管理、規(guī)章制度、會議記錄等;另一類是任務類文檔,包括航天發(fā)射任務的技術方案、任務訓練、任務記錄等。目前,這些海量文檔尚未實現(xiàn)分門別類的有效組織和管理。文檔資料的整理歸檔是海南發(fā)射場正規(guī)化建設的重要內容之一,因此,隨著各類文檔數(shù)量的不斷增長,急需一種快速、有效的方法來進行文檔整理歸類。文本分類技術,作為一種更為高效的自動分類方法,能夠很好地滿足現(xiàn)實需求。
文本分類技術是根據(jù)文本的內容,在給定分類類別的情況下,自動確定文檔集合中每個文檔類別的過程[1,2]。該技術在自然語言處理[3]、信息檢索[4]、信息提取[5]和數(shù)據(jù)挖掘[6]等領域應用廣泛。例如,王歡[7]等人將文本分類技術應用于林業(yè)Web黃頁的分類,從而輔助Web信息的管理。司志剛[8]等人結合SVM算法設計實現(xiàn)了公安情報的自動分類系統(tǒng)。另外,存放航天文檔的計算機通常以局域網的方式進行連接,所以,本地模式的航天文本分類軟件不利于航天文本分類系統(tǒng)的應用和版本升級維護。
因此,本文基于Web技術和文本分類技術,設計并實現(xiàn)了一種航天文本分類系統(tǒng)。該系統(tǒng)采用服務器—客戶端模式,用戶可以將待分類的文檔通過網絡上傳至服務器,服務器利用人工標注的訓練數(shù)據(jù)完成分類器構建,并用構