陳寶國,宋旸
基于支持向量機的Web日志頻繁序列模式挖掘研究
陳寶國,宋旸
(淮南師范學院 計算機學院,安徽 淮南 232000)
:為了降低Web日志頻繁序列模式挖掘誤差,提出基于支持向量機的Web日志頻繁序列模式挖掘方法。構建Web日志頻繁序列模式檢測序列,采用自相關特征分布式融合方法進行序列重組,提取序列模式的統(tǒng)計特征量,對其特征分布值進行信息融合。建立Web日志頻繁序列模式融合式調度模型,采用支持向量機分析方法進行Web日志頻繁序列模式挖掘的自適應學習與尋優(yōu)控制,實現(xiàn)Web日志頻繁序列模式挖掘。仿真結果表明,采用該方法進行Web日志頻繁序列模式挖掘的誤差較低,收斂性較好。
支持向量機;Web日志;頻繁序列;模式挖掘
Internet累積了大量Web日志文件,通過發(fā)掘用戶的頻繁序列訪問模式,相關人員可以根據(jù)用戶的興趣變更網頁內容,從而提升網站的吸引力,為用戶提供更為個性化的服務,以此達到吸引更多用戶的目的。因此,研究Web日志挖掘已經成為數(shù)據(jù)挖掘領域的重要研究內容,根據(jù)挖掘對象的不同,將頻繁模式挖掘劃分為頻繁序列挖掘、頻繁項集挖掘等。其中,Web日志頻繁序列模式挖掘是因果關系、相關性分析、關聯(lián)規(guī)則等關系研究的基礎,所以,相關的Web日志頻繁序列模式挖掘方法研究受到人們的極大重視[1]。當前,對Web日志頻繁序列模式挖掘主要采用知識庫構造方法,但采用這種方法進行Web日志頻繁序列模式挖掘的自適性不好,時間開銷較大。因此,本文提出基于支持向量機的Web日志頻繁序列模式挖掘方法。
為了實現(xiàn)基于支持向量機的Web日志頻繁序列模式挖掘,需要首先構建Web日志頻繁序列模式檢測序列,采用自相關的特征分布式融合方法進行序列重組,結合Web安全等級保護評價方法,進行Web日志頻繁序列模式的模糊信息分析[2],對Web日志頻繁序列模式挖掘是通過對序列的資產分布、管理要求和技術要求進行用戶運維管理的過程,采用等級方法控制方法進行序列模式挖掘的滲透性測試,滲透性測試實現(xiàn)過程如圖1所示。
圖1 滲透性測試實現(xiàn)過程
結合數(shù)據(jù)冗余和數(shù)據(jù)延時判斷結合方法,建立Web日志頻繁序列的時空特征分布集[4],得到時空特征分布模型滿足:
式中,
圖2 Web安全性檢測模型
綜上分析,構建Web安全性檢測模型[7],如圖2所示。
對Web日志頻繁序列模式的特征分布值進行信息融合,建立Web日志頻繁序列模式融合式調度模型,采用支持向量機分析方法進行Web日志頻繁序列模式挖掘的自適應學習,得到不同空間位置的Web日志序列[8],則Web日志頻繁序列模式的關聯(lián)規(guī)則項表示為
圖3 Web日志頻繁序列模式的收斂曲線
為了獲取Web日志頻繁序列模式挖掘最優(yōu)結果,在支持向量機學習模式下進行Web日志頻繁序列模式挖掘的尋優(yōu)控制,采用多級判斷方法得到挖掘過程的二級綜合評判矩陣為
對來自不同空間位置的Web日志頻繁項集進行特征分解,特征分解模型為
式中,
結合模糊度特征分析方法,得到Web日志頻繁序列挖掘的輸出對象集為
綜上分析,在支持向量機學習模式下實現(xiàn)Web日志頻繁序列模式挖掘過程中的尋優(yōu)控制。
為了測試本文方法在實現(xiàn)Web日志頻繁序列模式挖掘的應用性能,進行仿真測試。其中,設Web日志頻繁序列模式分布長度為1024,Web日志頻繁序列的評分相似度系數(shù)為0.23,資源本體測試集為200,根據(jù)上述參數(shù)設定進行Web日志頻繁序列挖掘,得到Web日志頻繁序列挖掘的時間序列如圖4所示。
分析圖4可知,在60s的測試時間內,Web日志頻繁序列挖掘時間序列幅值始終圍繞0上下波動,說明采用該方法進行Web日志頻繁序列挖掘的穩(wěn)定性好。
測試Web日志頻繁序列挖掘時間序列的誤差,比較結果如圖5所示。
圖4 Web日志頻繁序列挖掘的時間序列
圖5 挖掘的誤差分析
分析圖5得知,文獻[1]方法的挖掘誤差在0.96%~1.04%之間,文獻[2]方法的挖掘誤差在0.95%~1.02%之間,文獻[3]方法的挖掘誤差在0.94%~0.99%之間,文獻[4]方法的挖掘誤差在0.93%~0.98%之間,本文方法的挖掘誤差在0.92%~0.97%之間,采用本文方法進行Web日志頻繁序列模式挖掘的誤差較低,收斂性較好。
為降低Web日志頻繁序列模式挖掘的誤差,提出一種基于支持向量機的Web日志頻繁序列模式挖掘方法。構建Web日志頻繁序列模式檢測序列,采用自相關的特征分布式融合方法進行Web日志頻繁序列重組,提取序列模式的統(tǒng)計特征量并對其進行信息融合處理,建立Web日志頻繁序列模式融合式調度模型,采用支持向量機分析方法進行Web日志頻繁序列模式挖掘的自適應學習與尋優(yōu)控制,實現(xiàn)Web日志頻繁序列模式挖掘。研究得知,采用該方法進行Web日志頻繁序列模式挖掘的準確性較高,收斂性較好,誤差較低,提高了Web日志挖掘的綜合性能。
[1] 李艷輝,劉浩,袁野,等. 基于差分隱私的頻繁序列模式挖掘算法[J]. 計算機應用,2017, 37(02): 316-321
[2] 戴瑀君,徐周波. 基于SAT和BDD的頻繁序列挖掘技術[J]. 廣西科學院學報,2018, 34(02): 59-64, 72
[3] 李洪敏,張建平,黃曉芳,等. 基于序列模式的多步攻擊挖掘算法的研究[J]. 兵工自動化,2017, 36(09): 35-38
[4] 陳倩,劉云,高鈺瑩. 并行動態(tài)位向量頻繁閉合序列模式挖掘算法[J]. 計算機工程與科學,2018, 40(10): 1717-1725
[5] 武優(yōu)西,周坤,劉靖宇,等. 周期性一般間隙約束的序列模式挖掘[J]. 計算機學報,2017, 40(06): 1338-1352
[6] 徐啟寒,徐開勇,郭松,等. 多支持度下用戶行為序列模式挖掘方法研究[J]. 計算機應用與軟件,2018, 35(1): 269-275
[7] 孫文平,常亮,賓辰忠,等. 基于知識圖譜和頻繁序列挖掘的旅游路線推薦[J]. 計算機科學,2019, 46(02): 56-61
[8] 張光蘭,楊秋輝,程雪梅,等. 序列模式挖掘在通信網絡告警預測中的應用[J]. 計算機科學,2018, 45(S2): 535-538, 563
[9] 葉明全,蘇洋,童九翠. 基于多層關聯(lián)規(guī)則挖掘的ADR風險檢測與預警研究[J]. 池州學院學報,2020, 34(03): 23-26
[10] 李同軒,董祥軍. 高效用頻繁模式挖掘技術研究[J]. 齊魯工業(yè)大學學報,2017, 31(01): 45-50
Research on Web log frequent sequence pattern mining based on SVM
CHEN Bao-guo,SONG Yang
(School of Computer Science, Huainan Normal University, Anhui Huainan 232000, China)
In order to reduce the error of mining frequent sequential patterns of Web logs, a method of mining frequent sequential patterns of Web logs based on SVM is proposed. This paper constructs the frequent sequence pattern detection sequence of Web logs, recombines the sequence by using the distributed fusion method of autocorrelation features, extracts the statistical features of sequence patterns, and fuses the feature distribution values. A scheduling model of Web log frequent sequence pattern fusion is established. The adaptive learning and optimization control of Web log frequent sequence pattern mining are carried out by using SVM analysis method. Simulation results show that this method is used to mine frequent sequence patterns of Web logs with low error and good convergence.
SVM;Web logs;frequent sequence;pattern mining
2020-08-19
2018年安徽高校自然科學重點研究項目:關聯(lián)規(guī)則和模糊聚類在Web日志挖掘中的應用(KJ2018A0469);淮南師范學院2019年度校級科學研究項目(2019XJYB14)
陳寶國(1978-),男,安徽安慶人,講師,碩士,主要從事數(shù)據(jù)挖掘、圖形圖像處理、算法設計研究,chenbaoguo1562@163.com。
TP311.13
A
1007-984X(2021)01-0021-05