• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文本挖掘的軟件漏洞信息知識圖譜構(gòu)建方法

      2023-08-21 09:57:42行久紅牛保民
      無線互聯(lián)科技 2023年12期
      關(guān)鍵詞:互聯(lián)網(wǎng)技術(shù)

      行久紅 牛保民

      摘要:針對現(xiàn)階段互聯(lián)網(wǎng)軟件中存在的漏洞問題,文章提出了基于文本挖掘的軟件漏洞信息知識圖譜構(gòu)建方法。先確定軟件漏洞信息知識圖譜構(gòu)建的基本架構(gòu),應(yīng)用文本挖掘技術(shù),完成軟件漏洞信息的采集、預(yù)處理與特征提取,然后設(shè)計本體模型,完成軟件漏洞信息的抽取與融合,最后設(shè)計存儲機制,構(gòu)建軟件漏洞信息知識圖譜。實驗結(jié)果表明,文章所構(gòu)建知識圖譜的軟件漏洞信息完整度均值為93.6%,構(gòu)建所需時間均值為1.52 s,均優(yōu)于對比方法,具有較好的應(yīng)用價值。

      關(guān)鍵詞:文本挖掘技術(shù);互聯(lián)網(wǎng)技術(shù);軟件漏洞信息;構(gòu)建知識圖譜

      中圖分類號:TP751? 文獻(xiàn)標(biāo)志碼:A

      0 引言

      隨著科技的發(fā)展,互聯(lián)網(wǎng)技術(shù)、通信技術(shù)等廣泛應(yīng)用,給人民生活、生產(chǎn)帶來了便利[1],但也帶來了一定危機。目前,網(wǎng)絡(luò)安全問題已經(jīng)成為人民最為重視的問題,信息安全漏洞嚴(yán)重威脅個人隱私和財產(chǎn)安全,如不及時處理將會給人民造成經(jīng)濟(jì)財產(chǎn)損失[2]。因此,如何高效地排查軟件漏洞成為互聯(lián)網(wǎng)技術(shù)領(lǐng)域重點研究的課題之一[3]。知識圖譜可以通過抽取知識融合與分析計算,得到整體描述并挖掘隱藏內(nèi)涵[4],可將其應(yīng)用其中,提升軟件漏洞的排查效果?;诖?,本文研究了基于文本挖掘技術(shù)的軟件漏洞信息知識圖譜構(gòu)建方法,旨在提高網(wǎng)絡(luò)安全管理工作的可靠性,維護(hù)網(wǎng)絡(luò)信息安全。

      1 確定軟件漏洞信息知識圖譜構(gòu)建的基本架構(gòu)

      知識圖譜本質(zhì)上是一種用來描述語義的網(wǎng)絡(luò)結(jié)構(gòu),旨在客觀地描述與反映實體與實體之間的關(guān)系[5]。為實現(xiàn)軟件工程中漏洞信息的實時監(jiān)測與管理,必須擁有完整的軟件漏洞信息之間的關(guān)聯(lián)性文本數(shù)據(jù),結(jié)合相關(guān)的人工智能技術(shù),達(dá)到最終目的[6]?;诖?,綜合考慮軟件漏洞信息的模糊性、海量化等特征,本文應(yīng)用文本數(shù)據(jù)挖掘技術(shù),確定軟件漏洞信息知識圖譜構(gòu)建流程如圖1所示。

      圖1 軟件漏洞信息知識圖譜構(gòu)建流程

      根據(jù)上述流程,分別利用相關(guān)技術(shù),通過不同階段的數(shù)據(jù)分析融合處理,將軟件漏洞相關(guān)的所有有效信息融合到數(shù)據(jù)庫中,應(yīng)用構(gòu)圖軟件,完成軟件漏洞信息知識圖譜的構(gòu)建。

      2 軟件漏洞的文本挖掘分類

      2.1 軟件漏洞的采集及預(yù)處理

      為獲取大量、復(fù)雜的軟件漏洞信息,本文采用文本挖掘技術(shù)采集信息,然后應(yīng)用信息檢索、人工智能學(xué)習(xí)、統(tǒng)計和數(shù)據(jù)挖掘等技術(shù)對軟件漏洞信息進(jìn)行采集、分類、聚類和特征提取,使其形成軟件漏洞信息數(shù)據(jù)庫[7]。再采用Python網(wǎng)絡(luò)爬蟲技術(shù),采集對應(yīng)的漏洞信息,設(shè)真實漏洞數(shù)據(jù)為w,采集過程如下:

      w=P-C

      cmin

      式(1)中,C為爬蟲檢索出的非有效信息,cmin為漏洞最小信息數(shù)據(jù)載量,cmax為漏洞最大信息數(shù)據(jù)載量,P為全部采集信息數(shù)據(jù)。得到的真實漏洞數(shù)據(jù)在于中國國家漏洞數(shù)據(jù)庫中相關(guān)的安全漏洞信息核實,并存儲備用。軟件漏洞信息知識圖譜包括軟件信息、漏洞信息、PoC信息以及補丁信息等,需要進(jìn)行預(yù)處理,如分詞和清洗等提高數(shù)據(jù)信息的有效性,以此來提高構(gòu)建知識圖譜的準(zhǔn)確率和效率。

      2.2 軟件漏洞的特征提取

      為統(tǒng)一軟件漏洞向量映射的維度,使不同長度大小、不同文本數(shù)量、不同計量單位的軟件漏洞信息具有相同維度的向量表示,提高軟件漏洞信息分類的準(zhǔn)確性,本文應(yīng)用文本挖掘技術(shù)中的信息增益算法,對軟件漏洞信息的特征信號進(jìn)行分類與提?。?]。根據(jù)自然語義的漏洞信息轉(zhuǎn)化為數(shù)學(xué)向量形式的公式為

      U=∑wi=1(ψi/σ)(2)

      式(2)中,U表示轉(zhuǎn)化后的自然語義下的漏洞信息,i表示漏洞信息的特征提取條件,ψ表示特征提取條件下的總數(shù)據(jù),σ表示特征提取條件外的非定于數(shù)據(jù)。以此為基礎(chǔ),將其轉(zhuǎn)化后,根據(jù)每段漏洞信息數(shù)學(xué)向量的出現(xiàn)次數(shù)確定該漏洞在整體信息集合中的權(quán)重值,提取出軟件漏洞信息的特征信號,便于后續(xù)知識圖譜的構(gòu)建。

      3 構(gòu)建軟件漏洞信息知識圖譜

      3.1 設(shè)計軟件漏洞的本體模型

      為表述與反映不同軟件漏洞信息之間的關(guān)聯(lián)性,結(jié)合文本挖掘技術(shù)設(shè)計軟件漏洞的本體模型ω,模型的目標(biāo)函數(shù)表示為:

      ω={A,E,G,F(xiàn),H,T,W,Y}(3)

      式(3)中,A表示軟件漏洞名稱;E表示軟件屬性;G表示情報信息;F表示評價標(biāo)準(zhǔn);H表示PoC;T表示補丁;W表示數(shù)據(jù)當(dāng)量值;Y表示模型承載量。將上述本體模型中的信息抽取出來,并建立關(guān)聯(lián)性,以此來實現(xiàn)軟件信息知識圖譜的構(gòu)建。

      3.2 抽取軟件漏洞信息

      為提高軟件漏洞信息知識圖譜構(gòu)建的可靠程度和效率[9],需要進(jìn)行實體識別和抽取,過程如下:

      F1(α)=∑ni∈n,j∈n,i≠j(αi-αj)2(4)

      式(4)中,α表示抽取中限制參數(shù),F(xiàn)1表示識別出的抽取數(shù)據(jù),i,j表示漏洞信息知識圖譜對應(yīng)的漏洞信息起始數(shù)據(jù)和終止數(shù)據(jù),n表示實際抽取數(shù)量。實體抽取技術(shù)使用基于規(guī)則和詞典的方法,可識別并抽取出軟件漏洞信息中的七大類實體數(shù)據(jù);關(guān)系抽取技術(shù)可通過使用統(tǒng)計、規(guī)則和分類器等方法從軟件漏洞信息中提取實體之間的內(nèi)在關(guān)系。針對軟件漏洞的本體模型實體屬性的抽取,需要應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分類和訓(xùn)練[10]。

      3.3 軟件漏洞信息的數(shù)據(jù)融合

      在軟件漏洞信息的處理中,可能存在錯誤、冗余信息和邏輯模糊等問題,這會影響軟件漏洞信息知識圖譜構(gòu)建的準(zhǔn)確性和可靠性。為解決以上問題,本文采用實體消歧技術(shù),將具有歧義命名的實體映射到具體的概念,然后進(jìn)行數(shù)據(jù)融合,過程如下:

      I=θ{(β+ε+η)λ}(5)

      式(5)中,I表示融合后軟件漏洞數(shù)據(jù),θ表示融合指標(biāo),β表示融合數(shù)據(jù)模式,ε表示融合工具,λ表示融合參量的權(quán)值,η表示現(xiàn)有的漏洞信息數(shù)據(jù)。這種融合方式可有效降低信息中的邏輯模糊和層次不匹配現(xiàn)象,并實現(xiàn)數(shù)據(jù)融合。通過概率統(tǒng)計和圖像排序方法,實現(xiàn)軟件漏洞信息實體鏈接的消歧與對齊,使漏洞信息更具體化,同時篩除冗余信息以提高準(zhǔn)確度。該步驟能夠有效提高軟件漏洞信息知識圖譜構(gòu)建的準(zhǔn)確性和可靠性。

      3.4 數(shù)據(jù)的存儲與知識圖譜的構(gòu)建

      為使海量化的軟件漏洞信息全面地、動態(tài)化地展示在同一圖譜中,本文應(yīng)用Neo4j圖數(shù)據(jù)庫存儲軟件漏洞信息,結(jié)合可視化技術(shù),完成基于文本挖掘技術(shù)的軟件漏洞信息知識圖譜的構(gòu)建,過程如下:

      B=(1-y)×L×R(6)

      式(6)中,B表示信息知識圖譜表示當(dāng)量(CVE-2022-N),y表示數(shù)據(jù)挖掘方向,表示重疊度,L表示知識圖譜像元,R表示知識圖譜內(nèi)存量。其中信息知識圖譜表示當(dāng)量CVE-2022-N表示中國國家漏洞數(shù)據(jù)庫中的軟件漏洞信息及其編號。根據(jù)上述軟件漏洞信息的本體模型,并通過相關(guān)的處理操作,構(gòu)成對應(yīng)的軟件漏洞知識圖譜,充分地為后續(xù)相關(guān)的軟件漏洞安全管理工作奠定良好的數(shù)據(jù)基礎(chǔ)。

      4 測試與分析

      4.1 試驗準(zhǔn)備

      為檢測本文設(shè)計的基于文本挖掘的軟件漏洞信息知識圖譜構(gòu)建方法的可行性與應(yīng)用效果,結(jié)合其它方法,本文設(shè)計了仿真模擬對比試驗。試驗在JAVA語言編程環(huán)境下搭建,搭建參數(shù)如表1所示。

      將中國國家漏洞數(shù)據(jù)庫中的軟件漏洞信息作為測試樣本數(shù)據(jù),存儲在數(shù)字?jǐn)?shù)據(jù)庫與圖像數(shù)據(jù)庫中。

      4.2 漏洞信息知識圖譜的完整度檢測

      記錄不同方法構(gòu)建知識圖譜中收錄漏洞數(shù)量的大小,與實際有效漏洞數(shù)量進(jìn)行對比分析,計算完整度,結(jié)果如圖2所示。

      由圖2可知,對于隨機選取10組大小、漏洞種類均不同的數(shù)據(jù)組,試驗組方法融合并構(gòu)建的知識圖譜軟件漏洞信息的完整度高于對照組1、對照組2。試驗組方法構(gòu)建的知識圖譜信息完整度均值為93.6%,分別比對照組1、對照組2高28.4%、13.8%,有效提高了對軟件漏洞有效信息采集與存儲的覆蓋范圍。

      4.4 漏洞信息處理效率檢測

      記錄不同方法從采集漏洞信息到完成知識圖譜構(gòu)建所用時間,對比結(jié)果如圖3所示。

      由圖3可知,通過對10組隨機選取的不同大小和漏洞種類的數(shù)據(jù)組進(jìn)行試驗組方法的數(shù)據(jù)處理,發(fā)現(xiàn)試驗組知識圖譜構(gòu)建時間均低于對照組1和對照組2。試驗組方法平均構(gòu)建時間為1.52 s,比對照組1和2分別快6.02 s和4.11 s。這說明本文設(shè)計的軟件漏洞信息知識圖譜構(gòu)建方法具有高效和實時的特點,能夠準(zhǔn)確而快速地完成漏洞信息的采集和預(yù)處理,為軟件工程項目的安全管理提供可靠的數(shù)據(jù)基礎(chǔ)和依據(jù)。

      5 結(jié)語

      隨著科學(xué)技術(shù)與互聯(lián)網(wǎng)技術(shù)的大范圍應(yīng)用,相關(guān)的軟件漏洞也層出不窮,對用戶的信息安全與個人財產(chǎn)造成了較為嚴(yán)重影響。在此背景下,本文通過應(yīng)用文本挖掘技術(shù),充分結(jié)合現(xiàn)代化技術(shù)手段,構(gòu)建完整、精準(zhǔn)的軟件漏洞信息知識圖譜,為軟件工程安全管理與防御系統(tǒng)的智能化運行提供數(shù)據(jù)基礎(chǔ)。本文所提方法構(gòu)建時間較短、信息完整度更強,可有效保證軟件工程項目運營過程中的安全性與可靠性,為我國網(wǎng)絡(luò)科技市場結(jié)構(gòu)的長久穩(wěn)定發(fā)展,奠定良好基礎(chǔ)。

      參考文獻(xiàn)

      [1]郭軍軍,王樂,王正源,等.軟件安全漏洞知識圖譜構(gòu)建方法[J].計算機工程與設(shè)計,2022(8):2137-2145.

      [2]張瑞,王曉菲.基于混合深度學(xué)習(xí)模型的軟件漏洞檢測方法[J].電腦知識與技術(shù),2021(18):72-73.

      [3]彭佳玲,周茂林,楊青.公眾對上門護(hù)理服務(wù)的態(tài)度和關(guān)注點:基于網(wǎng)絡(luò)爬蟲的文本挖掘[J].護(hù)理學(xué)雜志,2023(5):110-113,116.

      [4]周潔,夏換.基于文本挖掘的微博用戶健康信息關(guān)注熱點研究[J].新媒體研究,2023(2):102-106.

      [5]孫寶生,敖長林,王菁霞,等.基于網(wǎng)絡(luò)文本挖掘的生態(tài)旅游滿意度評價研究[J].運籌與管理,2022(12):165-172.

      [6]梁俊毅,陳靜.基于雙向LSTM的軟件漏洞自動識別方法研究[J].信息與電腦(理論版),2021(8):174-176.

      [7]蔡敏.基于混合深度學(xué)習(xí)模型的網(wǎng)絡(luò)服務(wù)軟件漏洞挖掘方法[J].寧夏師范學(xué)院學(xué)報,2020(7):73-79.

      [8]王曉輝,宋學(xué)坤.基于知識圖譜的網(wǎng)絡(luò)安全漏洞類型關(guān)聯(lián)分析系統(tǒng)設(shè)計[J].電子設(shè)計工程,2021(17):85-89.

      [9]劉存,李晉.安卓平臺軟件漏洞挖掘與分析技術(shù)淺析[J].保密科學(xué)技術(shù),2020(2):33-38.

      [10]陶耀東,賈新桐,吳云坤.一種基于知識圖譜的工業(yè)互聯(lián)網(wǎng)安全漏洞研究方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2020(1):6-13,18.

      (編輯 李春燕)

      Construction method of knowledge graph of software vulnerability information based on text mining

      Xing? Jiuhong, Niu? Baomin

      (School of Big Data and Artificial Intelligence, Zhengzhou University of Science and Technology, Zhengzhou

      450064, China)

      Abstract:? A method for constructing a knowledge graph of software vulnerability information based on text mining is proposed to address the vulnerability issues in current internet software. Firstly, the basic architecture for constructing a knowledge graph of software vulnerability information is determined, and text mining technology is applied to complete the collection, preprocessing, and feature extraction of software vulnerability information. Then, an ontology model is designed to complete the extraction and fusion of software vulnerability information. Finally, a storage mechanism is designed to construct a knowledge graph of software vulnerability information. The experimental results show that the average integrity of software vulnerability information in the constructed knowledge graph is 93.6%, and the average construction time is 1.52 seconds, both of which are superior to the comparison method and have good application value.

      Key words: text mining technology; Internet technology; software vulnerability information; construction of knowledge graph

      猜你喜歡
      互聯(lián)網(wǎng)技術(shù)
      互聯(lián)網(wǎng)+技術(shù)在施工圖審查管理中的應(yīng)用與分析
      在建設(shè)海外周刊遠(yuǎn)程傳輸系統(tǒng)中互聯(lián)網(wǎng)技術(shù)的應(yīng)用與實踐
      基于互聯(lián)網(wǎng)下現(xiàn)代信息技術(shù)如何應(yīng)用于教學(xué)
      基于互聯(lián)網(wǎng)技術(shù)的電力系統(tǒng)廣域保護(hù)通信系統(tǒng)研究
      淺談互聯(lián)網(wǎng)+職務(wù)犯罪預(yù)防工作
      傳播學(xué)門外的互聯(lián)網(wǎng)技術(shù)反思:《Daedalus》互聯(lián)網(wǎng)專輯剖析
      新聞界(2016年15期)2016-12-20 09:45:40
      蜜罐技術(shù)在網(wǎng)絡(luò)安全領(lǐng)域中的應(yīng)用
      網(wǎng)絡(luò)時代大學(xué)生信仰教育問題探析
      互聯(lián)網(wǎng)技術(shù)在廣播電視領(lǐng)域的應(yīng)用與探究
      手機銀行發(fā)展過程中的相關(guān)問題研究
      古交市| 平塘县| 正阳县| 木兰县| 彝良县| 靖宇县| 玛曲县| 分宜县| 东辽县| 洛浦县| 普宁市| 鄂伦春自治旗| 杭锦后旗| 申扎县| 山东| 延津县| 温州市| 庆阳市| 横峰县| 宜兰市| 宁德市| 莎车县| 沐川县| 泸水县| 乌苏市| 清镇市| 乌拉特后旗| 九龙坡区| 象州县| 格尔木市| 正镶白旗| 鸡东县| 福鼎市| 玛沁县| 邯郸县| 浙江省| 海门市| 靖江市| 丰镇市| 九江市| 昆山市|