莊 彥 未 培
(安徽工商職業(yè)學院電子信息系, 合肥 231131)
?
針對網(wǎng)絡不良信息的字詞過濾系統(tǒng)設計
莊 彥未 培
(安徽工商職業(yè)學院電子信息系, 合肥 231131)
摘要:復雜網(wǎng)絡環(huán)境中的不良信息處理技術需要不斷更新改進。針對大量不良信息難以及時準確予以過濾凈化的問題,重新設計一套字詞過濾系統(tǒng)。詳細介紹該系統(tǒng)中后臺數(shù)據(jù)庫維護、隨機數(shù)據(jù)抽取、信息處理、模式匹配、審核過濾等模塊的功能,并給出程序實現(xiàn)流程。
關鍵詞:字詞過濾; 不良信息; 模式匹配
互聯(lián)網(wǎng)上的網(wǎng)頁具有媒介、互動及傳輸?shù)淖饔?,瀏覽者通過網(wǎng)頁進行尋找信息、發(fā)布信息、下載文件、購物交流等活動。但在互聯(lián)網(wǎng)環(huán)境中,各種信息良莠并存。一些不良信息乘虛而入,大肆傳播,嚴重污染網(wǎng)絡傳播環(huán)境。凈化網(wǎng)絡環(huán)境、剔除網(wǎng)絡中的不良信息成為網(wǎng)絡管理的重要任務。
目前,基于網(wǎng)頁內(nèi)容過濾系統(tǒng)主要采用分級過濾、多媒體信息過濾、文本內(nèi)容過濾等技術。分級過濾主要是指根據(jù)相應原則提取待過濾信息的不同級別的特征值,然后根據(jù)模式匹配算法或其他算法進行匹配,發(fā)現(xiàn)不良信息進行剔除或屏蔽。文本過濾一般采用基于文本信息內(nèi)容理解的過濾方法,通過信息內(nèi)容識別、判斷與分類等環(huán)節(jié)確定過濾本體是否需要過濾,再通過相關檢測控制技術對不良信息呈現(xiàn)出的特征進行過濾。多媒體信息過濾的主要對象是多媒體信息,包括圖形、動畫、音頻、視頻等,通過建立過濾索引庫,對多媒體信息物理和內(nèi)容的判斷來提高過濾效率。以上幾種信息過濾技術各有利弊。從目前網(wǎng)絡環(huán)境來看,市場上一些信息過濾軟件滯后,不能及時準確地過濾不良信息。于是,我們專門設計了一套字詞過濾系統(tǒng),針對網(wǎng)頁不良信息進行過濾,以凈化網(wǎng)絡環(huán)境。
1字詞過濾系統(tǒng)設計
本字詞過濾系統(tǒng)的設計包括5項主要功能模塊。圖1所示為各功能模塊流程圖。當后臺數(shù)據(jù)庫中存儲有需要過濾的不良信息時,隨機數(shù)據(jù)抽取模塊對當前網(wǎng)頁信息進行提取,再經(jīng)信息轉換處理,經(jīng)過模式匹配算法篩出過濾信息,并反饋給管理人員。
圖1 各功能模塊流程圖
1.1后臺數(shù)據(jù)庫維護
后臺數(shù)據(jù)庫維護是指通過數(shù)據(jù)庫來保存網(wǎng)絡上出現(xiàn)的一些不當用語,主要有口頭禪、罵人的臟話、敏感詞語(如法輪大法等)、色情言語等。這些不良信息需要事先存儲在后臺數(shù)據(jù)庫中,后臺數(shù)據(jù)庫的核心工作就是適時維護和更新不良信息。一般采取以下策略實現(xiàn)后臺字詞庫數(shù)據(jù)的動態(tài)更新:
(1)系統(tǒng)自主維護策略。該策略的優(yōu)點是數(shù)據(jù)庫中的字詞維護主要由系統(tǒng)自動完成,不需要太多人工干預,一定程度上減少了人工維護的勞動量,降低了勞動成本。但系統(tǒng)自主維護策略易存在誤判,比如有時將合規(guī)的字詞添加到后臺字詞庫,從而導致系統(tǒng)將一些非不良信息也過濾掉。
(2)人工維護策略。人工維護策略主要是由系統(tǒng)管理員或專門的工作人員定期對數(shù)據(jù)庫中不文明字詞進行更新。該策略的優(yōu)點是對不良信息判斷較為準確、字詞更新及時,但依靠人工進行數(shù)據(jù)庫字詞維護的工作量較大。
在此采用2種策略相結合的方式,及時有效地實現(xiàn)后臺字詞數(shù)據(jù)庫的信息維護。
圖2后臺字詞數(shù)據(jù)庫維護流程
1.2隨機數(shù)據(jù)抽取
隨機數(shù)據(jù)抽取模塊的功能是在系統(tǒng)中將網(wǎng)頁上需要比對的數(shù)據(jù)信息提取出來,等待審核過濾。在字詞過濾系統(tǒng)執(zhí)行過程中,首先要根據(jù)一定的數(shù)據(jù)抽取策略將數(shù)據(jù)源中的待過濾信息抽取出來。數(shù)據(jù)抽取策略有多種,系統(tǒng)管理員可以根據(jù)需要靈活確定抽取策略。在網(wǎng)頁上進行文本數(shù)據(jù)信息抽取并不復雜,本系統(tǒng)中展現(xiàn)的主要是捕獲網(wǎng)頁上表單里的內(nèi)容,比如客戶留言板信息、論壇信息、多媒體播放過程中進行的在線交流互動信息等。這些板塊在網(wǎng)頁上很常見,也是容易出現(xiàn)不良信息的地方,對這些信息的過濾是凈化網(wǎng)絡環(huán)境的重要工作內(nèi)容。
1.3信息處理
在對所抽取的文本信息進行匹配過濾之前,應該對信息進行數(shù)據(jù)轉換,將數(shù)據(jù)轉換成便于進行比較的模式,此過程稱為信息處理。目前采用的文本處理方法有2種:一是中文信息不經(jīng)轉換而直接匹配過濾;二是將中文信息轉換成拼音標識符的形式,再進行匹配過濾。在進行數(shù)據(jù)轉換前系統(tǒng)需保證轉換的效率和轉換后對比的準確率。我國主要使用中文網(wǎng)站,在對中文信息匹配對比時不需要對文字進行處理。對于需要轉換成拼音標識符的形式,可用圖3所示流程來處理。
圖3 拼音轉換法處理流程圖
1.4模式匹配
模式匹配模塊主要通過模式匹配算法對已經(jīng)抽取好的信息和字詞庫里的關鍵詞進行匹配,如果匹配出不良信息則對其進行處理。模式匹配算法是用來描述信息比對的過程和方法,其分類方法有多種:根據(jù)匹配精度可分為模糊匹配算法和精確匹配算法;根據(jù)單次匹配的模式數(shù)量可分為單模式和多模式匹配算法。對于文本信息的匹配過濾采用經(jīng)典的字符串匹配KMP算法較多,其主要優(yōu)點是充分利用匹配失敗后的信息,盡可能地減少匹配次數(shù),從而實現(xiàn)快速匹配。圖4所示為KMP算法匹配示意圖。
圖4 KMP算法匹配示意圖
1.5審核過濾
通過模式匹配模塊,判斷所抽取的文本信息是否含有不合適的詞語。若發(fā)現(xiàn)不良信息,隨即對包含不良信息的文本進行處理??梢载熈畎l(fā)布信息的人員予以修改或者直接采取相關技術進行屏蔽,同時還可以通過相關的程序統(tǒng)計出某些不恰當詞語的出現(xiàn)頻率,進一步完善字詞數(shù)據(jù)庫,提高匹配效率。
2字詞過濾系統(tǒng)的實現(xiàn)
字詞過濾系統(tǒng)的實現(xiàn)是一項非常復雜的工作,在此僅介紹關鍵模塊。首先是不良信息關鍵詞的存儲,在本系統(tǒng)中通過后臺數(shù)據(jù)庫對關鍵詞進行存儲。圖5所示為關鍵詞表的表格結構。
圖5 關鍵詞表的表格結構
在關鍵詞表中存儲了不良詞語的序號、內(nèi)容和類型(類型主要有不文明用語、敏感詞語和色情用語等),以便及時修改、更新關鍵詞表中的信息,保證信息過濾的有效性。系統(tǒng)對網(wǎng)頁上的信息進行過濾,對網(wǎng)頁上提取的信息內(nèi)容和關鍵字詞庫中的關鍵詞進行匹配。如果匹配成功,則表示文本信息中包含相關的不良詞語,遂將其提取出來進一步處理。圖6所示為字詞過濾流程圖。
圖6 字詞過濾流程圖
3結語
凈化網(wǎng)絡信息環(huán)境是一項長期的工作,需要各方面的支持,人文素質的提高和強有力的技術支持都必不可少。本字詞過濾系統(tǒng)僅能實現(xiàn)文本信息的過濾,因多種外在因素的限制,也還沒有完全達到預期效果。同時,網(wǎng)絡上的信息豐富多彩,呈現(xiàn)形式多樣,還需要我們作更多的研究。保護網(wǎng)絡環(huán)境,阻止不良信息對網(wǎng)絡環(huán)境的侵害,為網(wǎng)絡用戶營造健康向上的網(wǎng)絡環(huán)境是網(wǎng)絡管理技術人員的責任。
參考文獻
[1] 段秀紅.探討信息網(wǎng)絡中的信息過濾技術[J].中國職工教育, 2012(14):23.
[2] 楊道勉.基于內(nèi)容的網(wǎng)絡分析與網(wǎng)絡過濾技術研究[D].蘭州:西北師范大學,2006:26-39.
[3] 石巖.一種新的信息過濾技術模型[J].圖書館學刊, 2007(4):45-47.
[4] 周二虎,張水平,謝必昌.信息過濾技術在智能信息推送系統(tǒng)中的應用[J].軟件導刊, 2010(1):24-25.
[5] 楊光.基于信息過濾系統(tǒng)的個性化搜索引擎的設計[J].鞍山師范學院學報,2008(6):54-56.
[6] 未培,莊彥.基于分級特征值的信息摘要過濾算法研究[J].長江大學學報(自然科學版) ,2013(10):24-26.
[7] 林建,張帆.網(wǎng)絡不良信息過濾研究[J].情報理論與實踐,2007(4):534-538.
[8] 余飛.基于模式匹配算法的考生報到結果預測[J].巢湖學院學報, 2012(3): 48-51.
[9] 楊榮,孟進.深度包檢測技術中模式匹配算法分析[J].軟件導刊, 2014(9): 45-47.
[10] 杜治波,明均仁.網(wǎng)絡信息過濾技術研究[J].現(xiàn)代情報, 2008(6): 82-84.
[11] 莊彥.交通路況播報系統(tǒng)設計及其內(nèi)容過濾方法研究[D].合肥:合肥工業(yè)大學,2013:23-26.
Research on Bad Information Filtering System and Its Designing Method
ZHUANGYanWEIPei
(Department of Electron Information, Anhui Business Vocational College, Hefei 231131, China)
Abstract:Bad information processing technology in complicated network environment needs to be constantly updated. The authors designed a new word filtering system in this paper for timely and accurately filtering a lot of bad information, and introduced the function modules in detail, such as the background database management system, random data extraction, information processing, pattern matching, filtering audit and other functions, and finally demonstrated the program realization process.
Key words:words filtering; bad information; pattern matching
收稿日期:2015-09-15
基金項目:安徽高校自然科學研究重點項目“基于分級特征值算法的重復信息過濾研究”(KJ2015A419);安徽省質量工程卓越人才教育培養(yǎng)計劃項目“信息類卓越技能型人才計劃” (2015ZJJH067)
作者簡介:莊彥(1981 — ),女,安徽淮北人,碩士,講師,研究方向為數(shù)據(jù)庫技術、系統(tǒng)開發(fā)。
中圖分類號:TP393
文獻標識碼:A
文章編號:1673-1980(2016)02-0111-03