摘 要 為提高計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)的聚類效果 提出了一種基于改進(jìn)遺傳算法的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類方法 其采用改進(jìn)遺傳算法構(gòu)建初始種群 利用目標(biāo)函數(shù)提取計(jì)算機(jī)網(wǎng)絡(luò)特征 構(gòu)建計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)信息流模型聚類計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù) 仿真結(jié)果表明 該方法的數(shù)據(jù)流處理任務(wù)完成總時(shí)間較短 負(fù)載均衡性較穩(wěn)定cpu 占用率較低 由此證明 該方法數(shù)據(jù)聚類效果較優(yōu)
關(guān)鍵詞 改進(jìn)遺傳算法 計(jì)算機(jī)網(wǎng)絡(luò) 數(shù)據(jù)聚類
中圖法分類號(hào)tp399 ?文獻(xiàn)標(biāo)識(shí)碼a
1 引言
現(xiàn)階段,人工智能技術(shù)得到了飛速發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域[1] ,由此產(chǎn)生了海量的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù),如何有效處理計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)成為目前的研究熱點(diǎn)[2] 。對(duì)計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行聚類處理[3~5] ,可以了解計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)之間的相似程度,為后續(xù)計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)的分類、存儲(chǔ)、查詢等實(shí)際應(yīng)用提供理論基礎(chǔ)。目前,也有相關(guān)學(xué)者進(jìn)行了相應(yīng)的研究,潘繼財(cái)[6] 針對(duì)混合屬性數(shù)據(jù),在考慮樣本同聚類中心距離基礎(chǔ)上,提出了一種基于廣義線性模型的混合屬性數(shù)據(jù)聚類方法。通過計(jì)算混合屬性數(shù)據(jù)的相異度、樣本與聚類集間距實(shí)現(xiàn)數(shù)據(jù)聚類。實(shí)驗(yàn)發(fā)現(xiàn)該方法聚類適應(yīng)度較好,可以有效體現(xiàn)樣本間差異,且具有較高的準(zhǔn)確度,所需迭代次數(shù)也較少。李立生等[7] 提出了一種基于稀疏自編碼的故障數(shù)據(jù)聚類清洗方法,主要對(duì)電網(wǎng)中錄波型故障指示器上傳的海量故障數(shù)據(jù)進(jìn)行特征學(xué)習(xí)與降維,對(duì)故障數(shù)據(jù)的特征進(jìn)行聚類與清洗,實(shí)現(xiàn)去除冗余數(shù)據(jù)的目的,以便運(yùn)維人員獲取故障信息及進(jìn)行后續(xù)處理。
遺傳算法可以對(duì)海量個(gè)體進(jìn)行種群處理,但傳統(tǒng)的遺傳算法容易陷入局部最優(yōu),無法獲取全局最優(yōu)解。為此,本文提出了一種基于改進(jìn)遺傳算法的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類方法,以期為海量計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)的后續(xù)處理提供借鑒。
2 計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)方法設(shè)計(jì)
2.1 構(gòu)建初始種群
遺傳算法中初始種群是隨機(jī)形成的[8] ,在實(shí)際計(jì)算過程中若沒有充分考慮解空間分布情況,則會(huì)導(dǎo)致大量個(gè)體全部集中在一個(gè)區(qū)域內(nèi),不利于最優(yōu)解的搜索。為有效解決上述問題,改進(jìn)遺傳算法并確保個(gè)體均勻分布在求解空間,且保留個(gè)體之間差異性。在設(shè)定數(shù)量以及染色體長(zhǎng)度的情況下,隨機(jī)2 個(gè)染色體之間的相似度為:
3 仿真實(shí)驗(yàn)
為了能夠進(jìn)一步驗(yàn)證該方法(基于改進(jìn)遺傳算法的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類方法)的有效性,與文獻(xiàn)[6]方法(基于廣義線性模型的混合屬性數(shù)據(jù)聚類方法)和文獻(xiàn)[7]方法(基于稀疏自編碼的故障數(shù)據(jù)聚類清洗方法)進(jìn)行對(duì)比實(shí)驗(yàn)分析,對(duì)比內(nèi)容為數(shù)據(jù)流處理任務(wù)完成總時(shí)間、負(fù)載均衡性、計(jì)算機(jī)數(shù)據(jù)聚類過程CPU 占用率。
3.1 仿真環(huán)境設(shè)置
此實(shí)驗(yàn)過程中的全部實(shí)驗(yàn)環(huán)節(jié)將在下述實(shí)驗(yàn)環(huán)境中完成。
(1)硬件。
內(nèi)存:50 GB
RAM:16 GB
MEM:4 GB
硬盤:256 GB
主頻:3.3 GHz
顯卡:512 MB 獨(dú)立顯卡
(2)軟件。
操作系統(tǒng):Windows 8 以上
開發(fā)語言:C++
數(shù)據(jù)庫:SQL server 2019
語料提取工具:NLP
向量訓(xùn)練工具:FastText
3.2 仿真數(shù)據(jù)選擇
在此次網(wǎng)絡(luò)中存在6 個(gè)數(shù)據(jù)服務(wù)器以及20 個(gè)數(shù)據(jù)處理節(jié)點(diǎn)。將KDD 數(shù)據(jù)集中10% 作為訓(xùn)練集,correct 文件作為驗(yàn)證集,共計(jì)6 組數(shù)據(jù)集,具體設(shè)定結(jié)果如表1 所列。
3.3 仿真分析與結(jié)果
3.3.1 數(shù)據(jù)流處理任務(wù)完成總時(shí)間分析
在此次實(shí)驗(yàn)過程中,為增加實(shí)驗(yàn)的對(duì)比性,在實(shí)驗(yàn)網(wǎng)絡(luò)節(jié)點(diǎn)固定的條件下,將任務(wù)數(shù)設(shè)定為10,20,50,100,200 5 組,對(duì)比應(yīng)用不同方法的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類任務(wù)完成總時(shí)間,具體實(shí)驗(yàn)結(jié)果如圖1 所示。
對(duì)比上述實(shí)驗(yàn)結(jié)果可以看出,隨著任務(wù)量的增加,不同方法的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類任務(wù)完成總時(shí)間存在明顯的差異。本文方法的數(shù)據(jù)量處理完成總時(shí)間相對(duì)穩(wěn)定,整體呈線性關(guān)系,無較大波動(dòng)。與本文方法相比,文獻(xiàn)[6]方法和文獻(xiàn)[7]方法的任務(wù)完成總時(shí)間波動(dòng)較大,且均長(zhǎng)于文中方法的任務(wù)完成總時(shí)間。綜合上述實(shí)驗(yàn)結(jié)果可以確定,應(yīng)用本文方法可有效控制聚類時(shí)間,從而進(jìn)一步提升數(shù)據(jù)流處理速度。
3.3.2 負(fù)載均衡性分析
對(duì)任務(wù)量增加后的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類的負(fù)載均衡性進(jìn)行分析,所得結(jié)果如圖2 所示。
對(duì)圖2 中內(nèi)容進(jìn)行分析可以看出,應(yīng)用3 種方法后,計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類的負(fù)載均衡性存在明顯的差異。隨著數(shù)據(jù)聚類任務(wù)不斷增加,各數(shù)據(jù)節(jié)點(diǎn)的負(fù)載均衡性呈現(xiàn)出下降狀態(tài)。但應(yīng)用本文方法后,計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類的負(fù)載均衡性系數(shù)下降速度較為緩慢,且整體均衡性相對(duì)較高。與本文方法相比,應(yīng)用其他2 種對(duì)比方法后,計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類的負(fù)載均衡性下降較為迅速且波動(dòng)較大,存在負(fù)載均衡系數(shù)激降的情況,嚴(yán)重影響了數(shù)據(jù)流處理效果。
3.3.3 計(jì)算機(jī)數(shù)據(jù)聚類過程CPU 占用率分析
在上述2 實(shí)驗(yàn)環(huán)節(jié)的基礎(chǔ)上,對(duì)應(yīng)用不同方法后的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)聚類任務(wù)執(zhí)行CPU 占用率進(jìn)行分析,所得實(shí)驗(yàn)結(jié)果如圖3 所示。
從圖3 所示內(nèi)容可以看出, 當(dāng)應(yīng)用本文方法后,實(shí)驗(yàn)網(wǎng)絡(luò)中各物理機(jī)的CPU 占用率雖然存在細(xì)微的差異,但整體較為穩(wěn)定。應(yīng)用文獻(xiàn)[6]方法后,各物理機(jī)的CPU 占用率雖無明顯波動(dòng),但整體較高。應(yīng)用文獻(xiàn)[7]方法后,各物理機(jī)的CPU 占用率存在較大差異。根據(jù)上述實(shí)驗(yàn)結(jié)果可以確定,本文方法具有較高的應(yīng)用價(jià)值,可進(jìn)一步提高大數(shù)據(jù)流處理網(wǎng)絡(luò)的穩(wěn)定性。
4 結(jié)束語
本文利用改進(jìn)遺傳算法將計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分布式聚類。通過改進(jìn)遺傳算法構(gòu)建初始種群均勻分布數(shù)據(jù);利用目標(biāo)函數(shù)描述特征選擇最優(yōu)化,提取計(jì)算機(jī)網(wǎng)絡(luò)特征;構(gòu)建計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)信息流模型計(jì)算數(shù)據(jù)特征向量屬性,聚類計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,該方法可以有效聚類計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)。
參考文獻(xiàn):
[1] 蘆建蘭.計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)庫安全問題研究[J] .電子測(cè)試,2021(14):133?134.
[2] 諶英敏.?dāng)?shù)據(jù)加密技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)安全中的應(yīng)用[J] .通訊世界,2021,28(4):130?131.
[3] 曾祥銀,鄭伯川,劉丹.基于深度卷積神經(jīng)網(wǎng)絡(luò)和聚類的左右軌道線檢測(cè)[J] .計(jì)算機(jī)應(yīng)用,2021,41(8):2324?2329.
[4] 趙博宇,張長(zhǎng)青,陳蕾,等.生成式不完整多視圖數(shù)據(jù)聚類[J] .自動(dòng)化學(xué)報(bào),2021,47(8):1867?1875.
[5] 廖靜倩,張道文,高立,等.基于NAIS 事故數(shù)據(jù)聚類的丁字路口危險(xiǎn)場(chǎng)景研究[J] .汽車安全與節(jié)能學(xué)報(bào),2021,12(3):336?345.
[6] 潘繼財(cái).基于廣義線性模型的混合屬性數(shù)據(jù)聚類方法[J].信息技術(shù),2021,45(8):6?11.
[7] 李立生,劉洋,盧文華,等.基于稀疏自編碼的故障數(shù)據(jù)聚類清洗方法[J] .科學(xué)技術(shù)與工程,2021,21(15):6330?6336.
[8] 肖釗,鄧杰文,劉曉明,等.基于運(yùn)行規(guī)律和TICC 算法的風(fēng)電SCADA 高維時(shí)序數(shù)據(jù)聚類方法[J].機(jī)械工程學(xué)報(bào),2023,58(23):196?207.
[9] 竇圣霞,程志強(qiáng).基于混沌關(guān)聯(lián)維特征的電能表計(jì)量多維數(shù)據(jù)聚類方法[J] .電力需求側(cè)管理,2022,24(2):100?104.
作者簡(jiǎn)介:
許麗媛(1989—),碩士,研究方向:信息管理。