基于K-means算法的互聯(lián)網(wǎng)有害信息挖掘模型構(gòu)建

2021-06-16 16:43:04尚秋明

電子技術(shù)與軟件工程 2021年4期

尚秋明

（中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心北京市 100190）

當(dāng)今時(shí)代人們多數(shù)通過互聯(lián)網(wǎng)進(jìn)行聊天、交易等活動(dòng)，信息技術(shù)的高速發(fā)展大大提高了信息傳遞效率，虛擬網(wǎng)絡(luò)中越來(lái)越多的有害信息不僅嚴(yán)重危害了網(wǎng)絡(luò)環(huán)境，擾亂了社會(huì)治安，還給網(wǎng)民帶來(lái)經(jīng)濟(jì)損失。因此，對(duì)互聯(lián)網(wǎng)有害信息監(jiān)管是當(dāng)前亟需解決的問題。

隨著互聯(lián)網(wǎng)每時(shí)每刻產(chǎn)生的海量數(shù)據(jù)，傳統(tǒng)的監(jiān)管方式在互聯(lián)網(wǎng)有害監(jiān)管方面存在效能低下、管理松散、數(shù)據(jù)難以共享等難題。隨著大數(shù)據(jù)技術(shù)不斷出現(xiàn)，這一問題逐漸得到一定程度的解決。目前應(yīng)用比較廣泛的數(shù)據(jù)挖掘算法主要有K-means、決策樹、Apriori等，其中K-means 算法運(yùn)行效率高、實(shí)現(xiàn)容易被廣泛應(yīng)用到數(shù)據(jù)挖掘中。本文就K-means 算法在互聯(lián)網(wǎng)違法信息監(jiān)管中應(yīng)用進(jìn)行研究。

1 K-means算法

K-means 算法核心思想是將某些相似的數(shù)據(jù)進(jìn)行分類后聚集在一起方法。該算法首先選取K 個(gè)中心點(diǎn)，然后計(jì)算每個(gè)中心點(diǎn)到各種聚類群體之間的聚類，重新分配中心點(diǎn)。采用迭代方法進(jìn)行聚類中心劃分，直到中心點(diǎn)達(dá)到設(shè)置范圍，算法終止[1-2]?？捎萌缦鹿竭M(jìn)行表達(dá)：

式中：xi表示第j 個(gè)簇類中第i 個(gè)數(shù)據(jù)；cj表示第j 個(gè)簇類中心點(diǎn)。

2 K-means算法在輿情監(jiān)測(cè)管理中應(yīng)用

輿情監(jiān)管是互聯(lián)網(wǎng)有害信息管理重要內(nèi)容。梁曉賀[3]研究了網(wǎng)絡(luò)微博輿情問題，提出了一種微博輿情主題發(fā)現(xiàn)超網(wǎng)絡(luò)模型及超邊相似算法，圖1 為該算法流程圖。

所設(shè)計(jì)的超邊相似度算法微博輿情監(jiān)控模型中假設(shè)輿情主題中網(wǎng)絡(luò)模型共計(jì)N 條超邊，用符號(hào)相似度計(jì)算方法為：

所設(shè)計(jì)的算法與K-means 算法融合后，通過仿真，結(jié)果表明所設(shè)計(jì)的算法在微博輿情監(jiān)控中能夠很快識(shí)別。

王林[4]針對(duì)復(fù)雜的微博熱點(diǎn)問題，當(dāng)前所使用的K-means 算法在初始中心選點(diǎn)存在難點(diǎn)問題，提出了一種基于MapReduce 的并行K-means 算法。該算法核心思想為使用MapReduce 中的map函數(shù)進(jìn)行對(duì)象到聚類中心距離計(jì)算，該過程中需要重新標(biāo)記聚類類別。Reduce 函數(shù)主要進(jìn)行Map 函數(shù)的中間結(jié)果計(jì)算，并形成一個(gè)簇類中心。仿真結(jié)果表明所改進(jìn)算法提高了K-means 算法精度，在輿情監(jiān)測(cè)管理中有重要作用。

田世海[5]為提高輿情監(jiān)管準(zhǔn)確率，將K-means 算法與NRL 結(jié)合融合在一起形成新的算法。該算法核心思想是通過概率事件進(jìn)行輿情監(jiān)管。假設(shè)每個(gè)輿情監(jiān)管事件中都包含兩個(gè)d 維向量，分別為表示節(jié)點(diǎn)作為其它相鄰節(jié)點(diǎn)的d 維向量?？捎糜?jì)算公式表示。使用概率計(jì)算方法得到輿情關(guān)注概率為：將K-means 算法應(yīng)用到概率計(jì)算中得到，輿情事件分類為m 類，符號(hào)中心點(diǎn)用符號(hào)表示簇類劃分點(diǎn)數(shù)，每個(gè)簇類代表每個(gè)輿情事件，事件之間相似度可用符號(hào)表示。中心點(diǎn)平均值計(jì)算方法為：。仿真結(jié)果表明所設(shè)計(jì)的算法能夠較快明確分組數(shù)量，聚類效果好。

圖1：基于超邊相似度算法微博輿情監(jiān)控算法

閆俊伢[6]對(duì)K-means 算法應(yīng)用到輿情監(jiān)管應(yīng)用進(jìn)行詳細(xì)分析，發(fā)現(xiàn)現(xiàn)有的K-means 算法在輿情挖掘中存在挖掘準(zhǔn)確率和穩(wěn)定性有待提升問題。為解決這一問題，提出了將遺傳算法與K-means 算法相結(jié)合?；谶z傳算法、K-means 算法相結(jié)合的聚類算法中使用浮點(diǎn)編碼規(guī)則進(jìn)行編碼；使用均勻變異算子進(jìn)行基因變異；適應(yīng)度計(jì)算方法為，E 表示誤差平方和，b 為常數(shù)。

徐建國(guó)[7]將改進(jìn)的K-means 算法應(yīng)用到高校輿情監(jiān)管中。當(dāng)前K-means 算法容易存在局部最優(yōu)問題，在傳統(tǒng)的聚類算法中增加了相似度計(jì)算方法重新選取新的簇類中心。仿真結(jié)果表明所設(shè)計(jì)的算法相比傳統(tǒng)的K-means 聚類算法性能提升了8%。陳艷紅[8]研究了K-means 算法在高校輿情監(jiān)控中應(yīng)用，提出了將剩余的樣本與中心點(diǎn)進(jìn)行中心點(diǎn)選擇，仿真結(jié)果表明改進(jìn)算法能夠提高算法性能。

謝修娟[9]針對(duì)當(dāng)前K-means 算法初始聚類中心選取容易導(dǎo)致算法陷入局部最優(yōu)問題，對(duì)K-means 算法進(jìn)行改進(jìn)。所設(shè)計(jì)的算法借用DBSCAN 密度算法進(jìn)行改進(jìn)。假定微博文檔集合符號(hào)初始聚類中心集合符號(hào)初始化聚類簇符號(hào)改進(jìn)K-means 算法偽代碼為：

Input:微博數(shù)據(jù)Output:違法信息監(jiān)督結(jié)果Step1:從數(shù)據(jù)庫(kù)中獲取微博文檔數(shù)據(jù)集b，根據(jù)初始類中心c，進(jìn)行聚類劃分Step2:更新聚類中心，清空聚類中心，進(jìn)行下一類操作Step3:重復(fù)Step1 和Step2，如果達(dá)到設(shè)置誤差函數(shù)，跳轉(zhuǎn)到Step4；否則跳轉(zhuǎn)到Step1 Step4:輸出監(jiān)督結(jié)果。

研究結(jié)果表明所改進(jìn)的K-means 算法具運(yùn)行效率、準(zhǔn)確性、穩(wěn)定性指標(biāo)等到提高。

張壽華[10]針對(duì)網(wǎng)絡(luò)輿情熱點(diǎn)話題監(jiān)督提出了使用K-means 算法進(jìn)行挖掘。所構(gòu)建的輿情監(jiān)測(cè)模型中，關(guān)鍵詞提取計(jì)算方法為：

文檔聚類計(jì)算方法為：

（1）熱點(diǎn)新聞分析模型為：

式中：H(t)表示新聞熱度值；n 表示新聞數(shù)量；W(Si)表示新聞網(wǎng)站權(quán)重；表示新聞參與評(píng)論權(quán)重；pni表示新聞參與人數(shù)；cni表示新聞評(píng)價(jià)人數(shù)。

（2）信息轉(zhuǎn)載模型為：

式中：H(t)表示話題論壇熱度值；n 表示話題數(shù)量；W(Si)表示話題的權(quán)重值；表示話題瀏覽次數(shù)和回復(fù)權(quán)重；pni表示話題參與人數(shù)；cni表示話題評(píng)價(jià)人數(shù)；W(ri)表示話題轉(zhuǎn)載次數(shù)權(quán)重。

應(yīng)用結(jié)果表明所設(shè)計(jì)的基于K-means 算法的話題聚類方法能夠很好進(jìn)行話題監(jiān)管。

3 K-means算法在互聯(lián)網(wǎng)有害行為監(jiān)管中應(yīng)用

互聯(lián)網(wǎng)違法信息監(jiān)管是當(dāng)前重點(diǎn)研究課題。汪黎嘉[11]詳細(xì)研究了K-means 算法在網(wǎng)絡(luò)有害信息監(jiān)管中應(yīng)用，所設(shè)計(jì)的算法包括：

（1）網(wǎng)絡(luò)信息初步篩選，計(jì)算方法為：

式中：S 表示互聯(lián)網(wǎng)信息可行度評(píng)價(jià)指標(biāo)；Cc 表示信息變更次數(shù)；Cl 表示信息變更閥值；Ft 表示互聯(lián)網(wǎng)信息訪問次數(shù)；Tt 表示違法信息訪問時(shí)間。

呂飛[12]將改進(jìn)K-means 算法應(yīng)用到互聯(lián)網(wǎng)涉煙違法犯罪區(qū)域劃分研究。針對(duì)傳統(tǒng)的K-means 算法局部容易出現(xiàn)最優(yōu)情況，提出了使用概率方法尋找質(zhì)點(diǎn)。應(yīng)用結(jié)果表明所設(shè)計(jì)的算法能夠準(zhǔn)確識(shí)別煙草互聯(lián)網(wǎng)有害信息。

張玉峰[13]研究了有害信息的類型，包括色情信息、虛假信息、垃圾信息、網(wǎng)絡(luò)安全信息、文化侵略信息等。提出使用數(shù)據(jù)挖掘技術(shù)對(duì)有害信息挖掘。結(jié)果表明K-means 算法在有害信息分類中具有重要應(yīng)用前景。

4 結(jié)語(yǔ)

本文詳細(xì)分析了K-means 算法在互聯(lián)網(wǎng)有害信息挖掘中應(yīng)用。當(dāng)前K-means 算法應(yīng)用到輿情監(jiān)管中發(fā)揮了重要作用，未來(lái)發(fā)展方向是結(jié)合大數(shù)據(jù)技術(shù)、神經(jīng)網(wǎng)絡(luò)算法，能夠提高算法準(zhǔn)確率。K-means算法應(yīng)用到有害監(jiān)管中具有重要作用，未來(lái)可發(fā)展到詐騙行為識(shí)別中。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于K-means算法的互聯(lián)網(wǎng)有害信息挖掘模型構(gòu)建

1 K-means算法

2 K-means算法在輿情監(jiān)測(cè)管理中應(yīng)用

3 K-means算法在互聯(lián)網(wǎng)有害行為監(jiān)管中應(yīng)用

4 結(jié)語(yǔ)