吳 昊
【摘要】隨著網(wǎng)絡(luò)信息化程度的不斷提高,英語(yǔ)閱讀教學(xué)模式也發(fā)生了根本性的變化,網(wǎng)絡(luò)環(huán)境下英語(yǔ)閱讀教學(xué)題材選篇的多樣性與靈活性有了質(zhì)的飛躍。由于目前英語(yǔ)閱讀題材選篇多為手工挑選,題材涉及面不夠廣泛并且任務(wù)繁重,提出了一種基于Web信息挖掘的英語(yǔ)閱讀選篇自動(dòng)分類(lèi)的設(shè)計(jì)模式,以期利用計(jì)算機(jī)技術(shù)為構(gòu)建高效實(shí)用的英語(yǔ)閱讀自動(dòng)選篇系統(tǒng)提供有效的解決途徑。
【關(guān)鍵詞】Web信息挖掘;英語(yǔ)閱讀;文本分類(lèi);結(jié)構(gòu)模型
【中圖分類(lèi)號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097 (2009) 02—0067—04
引言
信息化的不斷推進(jìn)給信息獲得方式帶來(lái)前所未有的沖擊,英語(yǔ)閱讀素材的獲取也必然要隨之進(jìn)行相應(yīng)的改進(jìn)和調(diào)整,而有效利用網(wǎng)絡(luò)資源則是未來(lái)英語(yǔ)閱讀材料研究的一個(gè)重點(diǎn)領(lǐng)域。針對(duì)于英語(yǔ)閱讀題材選篇的模式單一、手工操作相對(duì)繁雜、歸類(lèi)困難和數(shù)據(jù)量少等問(wèn)題,本文擬通過(guò)一種高效的、靈活的網(wǎng)絡(luò)文本分類(lèi)的英語(yǔ)閱讀選篇分析方法來(lái)給予解決,為實(shí)現(xiàn)網(wǎng)上海量數(shù)據(jù)的英語(yǔ)閱讀選篇自動(dòng)歸類(lèi)給出可供借鑒的依據(jù),并提出一種實(shí)際有效的解決方案。
為了從海量數(shù)據(jù)中發(fā)現(xiàn)有效、新穎、潛在有用、可最終理解的模式,數(shù)據(jù)庫(kù)領(lǐng)域引入了數(shù)據(jù)挖掘(Data Mining)[1,2]。由于數(shù)據(jù)挖掘的缺陷,Web 挖掘技術(shù)(數(shù)據(jù)挖掘技術(shù)跟 Web技術(shù)相結(jié)合)作為一種新技術(shù)逐漸得到重視。有研究表明,在海量的Web信息資源中,有80%以上的信息是以文本的形式存在的,因此隸屬于Web內(nèi)容挖掘的Web文本挖掘顯得尤為重要[3,4]。Web文本挖掘就是從 Web 文檔和 Web 活動(dòng)中發(fā)現(xiàn)、抽取感興趣的潛在的有用模式和隱藏的信息的過(guò)程。因?yàn)閃eb文檔中的標(biāo)記給文檔提供了額外的信息,所以提高了Web文本挖掘的性能,而Web 文本挖掘是文本挖掘的主要研究?jī)?nèi)容。Web文本挖掘?qū)ξ覀兂浞掷肳eb信息資源很有幫助,能夠使人們比較準(zhǔn)確找到需要的資料,同時(shí)還可以節(jié)約搜索時(shí)間,提高Web文檔的利用價(jià)值等。Web文本挖掘可以對(duì)Web文檔集合的內(nèi)容進(jìn)行總結(jié)、分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析以及趨勢(shì)預(yù)測(cè)等。
隨著Web文本分類(lèi)技術(shù)在信息檢索、智能搜索引擎和文本分類(lèi)器的構(gòu)造等領(lǐng)域的廣泛應(yīng)用[5],Web文本分類(lèi)的研究己經(jīng)成為信息處理的一個(gè)前沿課題,有著廣泛的應(yīng)用前景和重要的研究意義,它的研究和應(yīng)用對(duì)于英語(yǔ)閱讀題材的分類(lèi)和歸納也具有相當(dāng)重要的作用。
一 Web信息挖掘
1 Web信息挖掘及其分類(lèi)
Web是一個(gè)巨大的、開(kāi)放性、動(dòng)態(tài)性、廣泛分布、相互聯(lián)系并且不斷進(jìn)化的信息倉(cāng)庫(kù)[6]。它也是一個(gè)巨大的文檔累積的集合,包括超鏈接信息、訪問(wèn)及使用信息,資源分布分散,這樣一來(lái)也就導(dǎo)致了信息獲取的困難。Web信息挖掘是指對(duì)目標(biāo)樣本進(jìn)行特征分析,并且據(jù)此從Web文檔和Web活動(dòng)中抽取人們感興趣的、潛在的有用模式和隱藏的信息,所挖掘出的知識(shí)能夠用于信息管理、查詢(xún)處理、決策支持、過(guò)程控制等方面。人們利用Web信息挖掘技術(shù)可以從Web海量的數(shù)據(jù)中自動(dòng)地、智能地抽取隱藏在這些數(shù)據(jù)中的知識(shí)。但如何滿足各種用戶(hù)不同的個(gè)性化需求,卻成了新的信息服務(wù)系統(tǒng)面臨的具有挑戰(zhàn)性的課題[7]。Web信息挖掘的一種比較流行的分類(lèi)方法見(jiàn)圖1。
根據(jù)Web信息挖掘的數(shù)據(jù)對(duì)象,將Web挖掘分為3 類(lèi):Web內(nèi)容挖掘(Content Mining) 、Web結(jié)構(gòu)挖掘(Construct Mining) 、Web使用挖掘(Usage Mining)。這里Web內(nèi)容挖掘又可以分為Web文本自動(dòng)分類(lèi)和Web搜索結(jié)果歸納,本文將主要研究其中一個(gè)分支Web文本自動(dòng)分類(lèi),并結(jié)合英語(yǔ)閱讀自動(dòng)選篇進(jìn)行分析。
2 Web信息挖掘的流程
本過(guò)程主要涉及四個(gè)方面問(wèn)題:數(shù)據(jù)收集,數(shù)據(jù)選擇及特征提取,模式發(fā)現(xiàn),模式分析。其流程如圖2所示。
(1)數(shù)據(jù)收集。找到Web信息挖掘的數(shù)據(jù)源,通過(guò)預(yù)先設(shè)置的URL路徑找到合適的信息資源。
(2)數(shù)據(jù)選擇和特征提取。針對(duì)取得的Web信息資源,剔除無(wú)用信息,并將信息按特定要求進(jìn)行特征提取。
(3)模式發(fā)現(xiàn)。利用合理有效的挖掘算法,自動(dòng)對(duì)上一步整理完成的內(nèi)容進(jìn)行深入分析,發(fā)現(xiàn)其中蘊(yùn)含的模式。
(4)模式分析。驗(yàn)證、解釋上一步驟產(chǎn)生的模式,并對(duì)挖掘出來(lái)的模式、規(guī)則進(jìn)行分析,找出其中蘊(yùn)含的讀者感興趣的模式和信息。
3 Web信息挖掘技術(shù)手段
Web信息巨大,要有效處理這么大的數(shù)據(jù)量既要考慮系統(tǒng)運(yùn)行時(shí)的時(shí)間復(fù)雜度,也要考慮空間復(fù)雜度,結(jié)合二者并加以合理分析利用才能使系統(tǒng)的整體性能真正提高。在Web信息挖掘技術(shù)手段方面當(dāng)前主要涉及以下幾點(diǎn):
(1) 統(tǒng)計(jì)分析。它是一種重要的數(shù)據(jù)處理技術(shù)[8],根據(jù)現(xiàn)有大量數(shù)據(jù)應(yīng)用統(tǒng)計(jì)分析的方法進(jìn)行歸納、解析,從而找出某類(lèi)數(shù)據(jù)的分布規(guī)律。
(2) 關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是表示數(shù)據(jù)庫(kù)中一組對(duì)象之間某種關(guān)聯(lián)關(guān)系的規(guī)則[9]。
(3) 文本分類(lèi)。文本分類(lèi)是指按照預(yù)先定義的主題類(lèi)別,為文檔集合中的每個(gè)文檔確定一個(gè)類(lèi)別。
(4) 文本聚類(lèi)。文本聚類(lèi)沒(méi)有預(yù)先定義好的類(lèi)別,它能夠從信息本身出發(fā),自動(dòng)進(jìn)行分類(lèi),它的目標(biāo)是將文檔集合分成若干個(gè)簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能地大,而不同簇間的相似度盡可能地小。
二 英語(yǔ)閱讀Web文本分類(lèi)
1 特征表示
Web文本信息的特征表示,是指自動(dòng)地從Web 文本信息中抽取出代表英語(yǔ)閱讀內(nèi)容主題的特征詞條,形成特征矢量來(lái)表示英語(yǔ)閱讀素材的Web文本。抽取文本特征一般需要先移除HTML標(biāo)簽或其它標(biāo)識(shí)、刪除停用詞、執(zhí)行詞根化等。由抽取的關(guān)鍵詞形成的特征矢量表示特定的英語(yǔ)閱讀文檔。文本特征分為描述性特征和語(yǔ)義性特征。
對(duì)于一篇英語(yǔ)閱讀題材來(lái)說(shuō),詞是題材篇章表意的最基本單位,也是能夠反映內(nèi)容的最主要特征,一篇文章中使用的詞,在某種程度上可以代表文章的內(nèi)容。目前英語(yǔ)閱讀題材的表示模型有很多,其中最普遍使用的是向量空間模型(Vector Space Model)。在這種模型中,每篇英語(yǔ)閱讀題材被表示成特征向量:
式(1)
其中:fi為特征詞條,wi ( d)為特征詞條fi在題材中的權(quán)重[8]??梢詫⒂⒄Z(yǔ)閱讀題材d中出現(xiàn)的所有詞作為fi,然而這樣做會(huì)使得特征向量的維數(shù)特別高,特征不明顯,計(jì)算復(fù)雜。英語(yǔ)閱讀題材的內(nèi)容主要是由動(dòng)詞、名詞、形容詞等實(shí)詞決定的,虛詞和一些在所有題材中均出現(xiàn)的高頻詞對(duì)分類(lèi)是沒(méi)有任何意義的,所以需要進(jìn)行有效特征表示,降低特征空間的維數(shù),以達(dá)到降低計(jì)算的復(fù)雜度、提高分類(lèi)準(zhǔn)確率的目的。然后對(duì)初始特征向量通過(guò)統(tǒng)計(jì)的方法提取有效特征。
2 特征相似度的計(jì)算
利用特征向量空間模型進(jìn)行英語(yǔ)閱讀題材分類(lèi)時(shí),通常是先計(jì)算出待分類(lèi)題材與每一種題材類(lèi)別之間的相似度,然后取相似度最大的類(lèi)作為待分題材的歸屬類(lèi)。一般相似度的計(jì)算公式采用兩個(gè)特征向量間的余弦?jiàn)A角來(lái)表示:
式(2)
其中:Wik、Wjk分別表示題材di和類(lèi)cj第k個(gè)特征項(xiàng)的權(quán)值。
3 英語(yǔ)閱讀文本分類(lèi)方法
如前所述,當(dāng)前許多基于向量空間模型的Web文本自動(dòng)分類(lèi)方法均是通過(guò)比較某個(gè)網(wǎng)頁(yè)與所有類(lèi)之間的相似度,將相似度最大的類(lèi)作為網(wǎng)頁(yè)的歸屬類(lèi)。
對(duì)于任意給定的一篇閱讀題材,設(shè)定合適的閾值是正確分類(lèi)的關(guān)鍵,閾值設(shè)定過(guò)小會(huì)導(dǎo)致分類(lèi)數(shù)太多,而設(shè)定過(guò)大會(huì)導(dǎo)致識(shí)別不出是哪一類(lèi),因此本文根據(jù)每個(gè)待分類(lèi)題材與各個(gè)類(lèi)的相似度的實(shí)際情況動(dòng)態(tài)地計(jì)算出一個(gè)閾值。這樣每個(gè)待分類(lèi)題材在分類(lèi)時(shí)使用的閾值是不相同的,不是固定的。這里預(yù)先將動(dòng)態(tài)閾值設(shè)定為所有相似度的平均值,即:
式(3)
為了使設(shè)定的閾值盡量偏向于相似度較大的類(lèi)別,以減少錯(cuò)誤劃分,本文給每一個(gè)相似度分配一個(gè)權(quán)重 ,其計(jì)算方法如下:
式(4)
則動(dòng)態(tài)閾值 。
通過(guò)計(jì)算出的動(dòng)態(tài)閾值λ,比較每一個(gè)相似度與λ的大小,如果Si>λ,則英語(yǔ)閱讀題材d屬于第i個(gè)類(lèi)。
三 英語(yǔ)閱讀語(yǔ)料選篇實(shí)驗(yàn)
1 語(yǔ)料集的選擇
英語(yǔ)閱讀語(yǔ)料集是在網(wǎng)上各大英語(yǔ)類(lèi)網(wǎng)站上進(jìn)行收集的。常用經(jīng)濟(jì)網(wǎng)站有:金融時(shí)報(bào)、財(cái)富、遠(yuǎn)東經(jīng)濟(jì)評(píng)論、福布斯、商業(yè)周刊等;新聞?lì)惥W(wǎng)站有:CNN、BBC、華盛頓郵報(bào)、泰晤士報(bào)、今日美國(guó)、觀察家、每日電訊等;英美周刊雜志網(wǎng)站有:每周標(biāo)準(zhǔn)、ESL港灣、沙龍、外交事務(wù)雜志、新共和、國(guó)家評(píng)論、外交政策、民族等;時(shí)事類(lèi)網(wǎng)站有:安全政策研究中心、世界各國(guó)地圖、衛(wèi)星照片、網(wǎng)上各國(guó)政府資料等;綜合類(lèi)網(wǎng)站有:華爾街日?qǐng)?bào)、南華早報(bào)、俄羅斯周刊、時(shí)代周刊等。其題材十分廣泛,涉及體育、教育、財(cái)經(jīng)、工業(yè)、農(nóng)業(yè)、法制、交通、科技、軍事、環(huán)保十個(gè)方面的內(nèi)容,這里一共選擇了3000篇文檔資料用于實(shí)驗(yàn),一半用于訓(xùn)練,另一半用于測(cè)試。實(shí)驗(yàn)文檔類(lèi)別構(gòu)成如表1所示。
2 評(píng)價(jià)標(biāo)準(zhǔn)
進(jìn)行Web文本分類(lèi)的最終目標(biāo)都是為了盡可能地得到最滿意的結(jié)果,所以對(duì)分類(lèi)結(jié)果的評(píng)價(jià)才是真正衡量一個(gè)分類(lèi)系統(tǒng)好壞的最終標(biāo)準(zhǔn)。本文目前所做的工作大都是基于試驗(yàn)性的,所用的語(yǔ)料或者仿真數(shù)據(jù)都是已知類(lèi)別數(shù)及其樣本數(shù),所以在我們用分類(lèi)算法對(duì)那些特定語(yǔ)料庫(kù)(已知分類(lèi)結(jié)果)做分析時(shí)就可以參照在信息檢索、文本分類(lèi)中經(jīng)常應(yīng)用的一些評(píng)價(jià)方法。衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)是準(zhǔn)確率(文檔集中正確歸類(lèi)的文檔數(shù)占所有被分入該類(lèi)文檔總數(shù)的百分比)和召回率(文檔集中正確歸類(lèi)的文檔數(shù)占該類(lèi)文檔總數(shù)的百分),同時(shí)也是衡量分類(lèi)算法效果的常用指標(biāo)[9]。本實(shí)驗(yàn)中使用準(zhǔn)確率和召回率兩個(gè)常用的文本分類(lèi)評(píng)估測(cè)試值。
3 實(shí)驗(yàn)分析
針對(duì)表1中的實(shí)驗(yàn)數(shù)據(jù)選取其中的1500篇文檔用于實(shí)驗(yàn)測(cè)試,由于一開(kāi)始搜集的文檔是HTML格式的,所以要經(jīng)過(guò)預(yù)處理,轉(zhuǎn)換為合適的空間向量模型才能進(jìn)行文檔分類(lèi)。實(shí)驗(yàn)結(jié)果如表2所示。
從表2的測(cè)試結(jié)果可以看出,本文方法對(duì)英語(yǔ)閱讀題材分類(lèi)達(dá)到了滿意的分類(lèi)效果,平均準(zhǔn)確率和平均召回率分別為92.5%和92. 3%。這里獲得的準(zhǔn)確率和召回率均有較好的表現(xiàn),因此本文的研究方法是可行的。
四 結(jié)束語(yǔ)
隨著Internet在全世界的普及和廣泛應(yīng)用,網(wǎng)絡(luò)信息成為人們?nèi)≈槐M的信息來(lái)源。然而大部分可以獲取的信息是以電子形式存在的,尤其是以Web文本方式存在居多。英語(yǔ)閱讀手工選篇已經(jīng)不再適應(yīng)日益增加的海量數(shù)據(jù)的處理需求,人們需要能夠自動(dòng)完成Web文檔相應(yīng)題材選篇的技術(shù),這就要求進(jìn)行正確有效的文本挖掘。近年來(lái)針對(duì)英語(yǔ)閱讀的文本挖掘已經(jīng)逐漸成為研究的新課題,并取得了一些成果。
英語(yǔ)閱讀選篇由于分類(lèi)自身的難度和Web數(shù)據(jù)自身的特點(diǎn),其性能還有待進(jìn)一步完善。如需要研究更高效的降維方法來(lái)提高分類(lèi)的質(zhì)量;需要有效降低時(shí)間消耗成本;需要進(jìn)一步的研究分類(lèi)搜索引擎,進(jìn)而把文本分類(lèi)應(yīng)用到搜索引擎中,提高信息檢索的效率。
本文主要闡述了基于Web信息挖掘的英語(yǔ)閱讀自動(dòng)選篇的分類(lèi)研究方法,給出了系統(tǒng)實(shí)現(xiàn)的一般設(shè)計(jì)流程,通過(guò)實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了這種方法有較好的準(zhǔn)確率和召回率。
參考文獻(xiàn)
[1]Iawei Han and Micheline Kamber, Data Mining: Concepts and Techniques[J].Morgan Kaufmann Publishers, 2001
[2]Olivier Vandecruys, David Martens, Bart Baesens, Christophe Mues, Manu De Backer, Raf Haesen, Mining Software Repositories for Comprehensible Software Fault Prediction Models Journal of Systems and Software Vol. 81, Nb. 5, pp. 823-839, 2008
[3]BAI Jing, NIE Jianyun, CAO Guihong. Integrating compound terms in Bayesian text classification[C]//Proc of IEEE /W IC/ACM International Conference. 2005: 598-601.
[4]LI Baoli, LU Q, YU Shiwen. An adaptive k-nearest neighbor text categorization strategy[J].ACM Transactions on Asian Language Information Processing,2004,12(31):215-226.
[5]E.Kirkos,C.Spathis and Y. Manolopoulos, Applying data mining methodologies for auditor selection, Proceedings 11th Pan-Hellenic Conference in Informatics (PCI), Patras, Greece, 2007, pp. 165–178.
[6]Magdalini Eirinaki, Michalis Vazirgiannis, Web Mining for Web Personalization [J].ACM Transactions on Internet Technology, 2003.
[7]He B,Tao T, Chang K. Clustering structured Web sources: A schema-based,model-differentiationapproach[A].International Workshop on Clustering Information over the Web [C]. Crete, Greece, 2004.
[8]MODHA D S, SPAN GL ER W S. Feature weighting in K-Means clustering[J]. Machine Learning, 2003, 52(3): 217-237.
[9]Ma ZhongMiing, Gautam Pant, Olivia R Sheng. Interest-Based Personalized Search [C] //ACM Transactions on Information Systems. New York: ACM, 2007.