普措才仁,蔡光波
(西北民族大學數學與計算機科學學院,甘肅蘭州730030)
基于奇異值分解的藏文Web不良信息檢索算法研究
普措才仁,蔡光波
(西北民族大學數學與計算機科學學院,甘肅蘭州730030)
闡述了藏文Web不良信息的特點、類型、危害性,設計了傾向性藏文Web不良文本過濾系統(tǒng)結構.提出一種藏文Web不良文本檢索算法.該算法從不良文本中提取傾向性關鍵詞項,根據矩陣奇異值分解方法中的轉移概率構造出傾向性關鍵詞項的狀態(tài)矩陣,提取平面坐標空間第一像限的奇異值向量作為復特征向量,利用向量間的余弦相似度作為文本檢索的相似度度量.實驗結果表明,該算法在檢索準確率和運算效率上都優(yōu)于傳統(tǒng)的 LSA 算法.
不良信息;轉移概率;奇異值分解;狀態(tài)矩陣
藏文網絡不良信息是指互聯(lián)網上出現(xiàn)的違背社會主義精神文明建設要求,違背中華民族優(yōu)良文化傳統(tǒng)與習慣,以及其他違背社會公德的各類信息,包括文字、圖片、音視頻等形式.從其危害性來說,藏文網絡不良信息是指互聯(lián)網上對人的身體造成損害,給人的精神帶來污染,使人的思想產生混亂,讓人的心理變得異常的垃圾信息,它們包括危害國家安全與穩(wěn)定的信息、色情信息、暴力信息、迷信信息等.那么如何從藏文網絡的信息資源中檢索出滿足用戶需求的不良信息子集,涉及到信息的獲取、表示、組織、存儲及訪問等問題.藏文網絡不良信息檢索的任務主要是研究如何從給定的無結構或半結構化文檔集中找出與用戶相關的文檔子集,并依據相關度排序把檢索結果返回給用戶.由于目前網上信息的表現(xiàn)形式大多為文本,因此我們認為,文本過濾主要是興趣過濾,即根據用戶模型(如用戶背景、興趣、行為、風格等)對文本進行搜集整理,將用戶感興趣的文本提交給用戶,這更多是從文本的主題方面考慮的,譬如,用戶只對體育類的內容感興趣,或者更進一步分,只對足球的內容感興趣,“體育”和“足球”都是描述文本主題的詞.然而,網上還有很多評論性的文章,這些文章往往代表作者對某一個主題的看法和立場,用戶自然會有這樣的需求:我只需要得到對這一主題的某種立場的文檔.為此,作者提出了傾向性文本過濾的概念.文本信息分為三種:與主題完全無關的稱為無關文本,對主題持有積極態(tài)度的稱為正面文本,對主題持有消極態(tài)度的稱為負面文本.在對文本進行分析的時候,不僅分析其包含的主題內容,還判斷它的態(tài)度和立場,即傾向性.文本過濾的條件不是僅僅涉及的主題內容,而是帶有傾向性的主題信息.直接的例子就是不良文本的過濾,即根據領域模型(如領域知識、文本處理和領域組織結構)對文本進行攔截,使用戶無法接觸到不良文本.網絡上的不良文本包括色情、暴力、邪教、賭博等違反國家政策的內容,其中有些文本可以分析其主題從而實施過濾,比如色情、暴力等;但有些文本表現(xiàn)的是對某種問題如政治問題的立場和傾向,如批判和宣揚邪教的,這時不僅得分析出它的主題,還要判斷其傾向以確定過濾與否.文中針對這種傾向性文本過濾,作者提出了基于奇異值分解的傾向性藏文文本檢索算法.該算法利用字母統(tǒng)計的轉移概率矩陣建立關鍵詞的狀態(tài)矩陣,并進行奇異值分解提取復特征向量.
圖1設計了傾向性文本過濾系統(tǒng)結構流程.
1.1 構造頻率矩陣、轉移概率矩陣和狀態(tài)矩陣
對于藏文Web上提取的一篇藏文文本Γ,去掉其非字母的字符如空格、標點、數字等,得到一個用藏文字母組成的有序字符串Γ.設T是藏文30個字母集合,N是自然數集合,描述如下:
N{1,2,3,4,…,…,…,…,…,…,25,26,27,29,30}
我們設計了藏文字母集T和自然數集N的一一對應的有序集,設T與N的對應關系F為F:T→N,比如F∶→10.這樣就可對字符串Γ進行統(tǒng)計了.
設第i個字母后是第j個字母的次數為aij,則得到頻率矩陣A=(aij)30×30.顯然,頻率矩陣A=(aij)30×30滿足[3]:
對藏文文本T,先提取t個傾向性關鍵詞項{T1,T2,…,Tt}.它是指出現(xiàn)在文檔T中且能夠代表該文檔內容的基本語言單位, 主要是由單詞或短語構成.傾向性關鍵詞提取過程主要涉及 2 個環(huán)節(jié):
1) 去除停用詞.將在文本中共有的出現(xiàn)頻率過高而失去檢索意義的單詞剔除,主要選取能表達文本內容的實詞作為關鍵詞,這樣可以提高檢索性能并降低索引向量維度.
2) 抽取詞干,確定基詞.這是一種語法層次的處理措施,通過移除前后綴消除詞形、時態(tài)變化對檢索性能的影響并降低索引向量的維度[2][3].
作為關鍵詞項的藏文單詞可看成一字母串:
Ti=ti,1ti,2ti,3…ti,t,i=1,2,3,…,t
其中,tik為第i個關鍵詞的第k個字母.為方便描述,設字母ti,k對應藏文字母表
即有如下概率關系:
P{Γ中出現(xiàn)單詞Ti}
=P{字母ti,1之后是ti,2}×P{字母ti,2之后是ti,3}×…×P{字母ti,s(i)-1之后是ti,s(i)}.
有條件概率公式可得:
可見,文本Γ中出現(xiàn)單詞的Ti概率由轉移概率azi.1,zi.2,azi.2,zi.3,…,azi.s(i)-1,zi.s(i)決定.由此,可對關鍵詞項{T1,T2,…,Tr}建立如下r階狀態(tài)矩陣:
X=(azi.s(i)-1,zi.s(i)Xi)r×r
1.2 基于奇異值分解的特征提取
由矩陣的奇異值分解理論知,矩陣X1近似保留了矩陣X的大部分相關信息.
1.3 關鍵詞項和統(tǒng)計次數
表1 關鍵詞項和統(tǒng)計次數
另一方面,各關鍵詞Tk在u1、υ1平面的位置關系也反映了關鍵詞在文本空間中的結構特征,既使2篇文本關鍵詞出現(xiàn)的頻率近似相同.由于各字母間的轉移概率不同,關鍵詞在u1、v1平面旳具體位置也不相同.因而復數uk,1+ivk,1的輻角也可以做為藏文文本分類和檢索的重要依據.
這樣θk被限制在第一象限內,得到復數zk=rkeiek,從而得到文本T的復特征向量Z=(z1,z1,…,zk).
1.4 領域知識庫(詞典)分析模塊,過濾模塊[5]
1)對象詞典:包含有語義模式識別的對象,主要有個體和行為知識,用于分析文本中可能的語義模式.
2)模式詞典:存儲代表對當前主題的傾向性的語義模式及其權重.
3)分析模塊:基于對象庫,將文本中可能的語義模式識別出來.
4)過濾模塊:基于模式庫,將識別出的語義模式與模式庫對照,計算權重與文本長度的比率,將超過閾值的文本攔截.
1.5 相似度計算
通過考察兩個藏文Web文檔間意義相同或相近詞出現(xiàn)的分布情況,以此來判斷兩個藏文Web文檔間是否相似.計算兩個藏文Web文檔間相似度方法如下:向量空間模型常將余弦相似度作為兩個各相似向量的度量.設每一檢索目標文本T所抽取的復特征向量分別為c1,c2對應的向量為(x1,x2,…,xm)和(y1,y2,…,ym),則c1與c2的相似度[6]:
其數值在[0,1]之間.
計算完目標文本和所有待檢測文本的相似度后,可根據預先設定的檢索閾值得出檢索結果并將檢索結果排序.
2.1 實驗數據
本文所用測試數據來自西北民族大學藏漢雙語信息處理技術數據語料庫中的藏文文本.在整個數據集中有21 578個文檔,本文從包含文檔較多的6個類中隨機選取40 000篇藏文文本及其段落作為仿真實驗的測試語料.每一類中分別選取5篇作為檢索目標文本,然后將所得結果取平均值作為實驗結果.
2.2 評估指標
文本檢索式從大量的文本集合中找到相關的文本,檢索性能指標主要有檢索準確率和召回率,準確率是返回正確的文本數與返回文本數的比率.準確率和召回率反映了文本檢索質量的2個不同方面,需要同時考慮.綜合考慮時可以使用下面的F指標,計算公式:
其中,Pre表示準確率;R表示召回率.
2.3 實驗結果
為了使實驗結果具有可比性,在實驗數據和相關參數相同的前提條件下,將本文算法的實驗結果和基于詞的LSA算法[7]做了比對,結果見表2.
表2 檢索性能比較(%)
對比試驗結果表明,本文提出的基于奇異值分解的藏文文本檢索算法優(yōu)于傳統(tǒng)的LSA算法.由于本文算法不僅考慮了文本中關鍵詞的統(tǒng)計頻率,而且融洽了關鍵詞在文本空間中的結構特征和詞與詞之間潛在的語義聯(lián)系,通過奇異值分解,原始狀態(tài)矩陣中能反映關鍵詞主要內容的信息被抽取出來,將更多實際意義或不代表對應文本的詞匯作為噪聲過濾掉.同時,奇異值分解對原始數據進行了降維處理,避免了LSA算法中對高維詞匯——文本稀疏矩陣的處理,從而增強了文本表示的準確性,進而提高了檢索精度和檢索效率.
本文提供了一種藏文文本檢索算法,該算法通過對狀態(tài)矩陣的奇異值分解提取既反應關鍵詞在文本空間中結構特征的復特征向量,從而建立了藏文文本檢索系統(tǒng).本文算法是藏文文本檢索研究中的一次有益嘗試,并取得較好的實驗效果,但由于沒有考慮藏文詞匯可能出現(xiàn)的一次多義、一義多詞,以及共同發(fā)生詞匯和特殊的英文語法,因而還無法精確刻畫文檔的詞義關系,這將是下一步的工作目標.
[1] Deerwester S, Dumais S T , Furnas G W, et al. Indexing by Latent Semantic Analysis[J].Journal of the American Society of Information Science,1990,41(6).
[2] 衛(wèi)威,王建民.一種大規(guī)模數據的快速潛在語義索引[J].計算機工程,2009,35(15).
[3] 吳昌愨,魏洪增.矩陣理論與方法[M].北京:電子工業(yè)出版社,2013.
[4] Salton G, Wong A, Yang Chung-Shu. A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613-620.
[5] Kalt T.A New Probabilistic Model of Text Classification and Retrieval[R].Amherst, USA: Center for Intelligent Information Retrieval, University of Massachusetts Amherst, Technical Report IR-78,1996.
[6] Lewis D D. Naive(Bayes)at Forty: The Independence Assumption in Information Retrieval[C]//Proc, of EMCL’98.Berlin,Germany: Springer,1996.
[7] Landauer T K.A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of the Acquisition, Induction, and Representation of Knowledge [J].Psychological Review,1997,104(2).
2015-11-10
西北民族大學研究生教育教學改革研究項目(編號:1671280504).
普措才仁(1966—),男(藏族),青海玉樹人,教授,碩士生導師,主要從事智能信息處理技術和數據挖掘方面的研究.
TP393
A
1009-2102(2015)04-0023-05