• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于K-means算法的互聯(lián)網(wǎng)有害信息挖掘模型構(gòu)建

      2021-06-16 16:43:04尚秋明
      電子技術(shù)與軟件工程 2021年4期
      關(guān)鍵詞:有害信息中心點(diǎn)結(jié)果表明

      尚秋明

      (中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心 北京市 100190)

      當(dāng)今時(shí)代人們多數(shù)通過互聯(lián)網(wǎng)進(jìn)行聊天、交易等活動(dòng),信息技術(shù)的高速發(fā)展大大提高了信息傳遞效率,虛擬網(wǎng)絡(luò)中越來(lái)越多的有害信息不僅嚴(yán)重危害了網(wǎng)絡(luò)環(huán)境,擾亂了社會(huì)治安,還給網(wǎng)民帶來(lái)經(jīng)濟(jì)損失。因此,對(duì)互聯(lián)網(wǎng)有害信息監(jiān)管是當(dāng)前亟需解決的問題。

      隨著互聯(lián)網(wǎng)每時(shí)每刻產(chǎn)生的海量數(shù)據(jù),傳統(tǒng)的監(jiān)管方式在互聯(lián)網(wǎng)有害監(jiān)管方面存在效能低下、管理松散、數(shù)據(jù)難以共享等難題。隨著大數(shù)據(jù)技術(shù)不斷出現(xiàn),這一問題逐漸得到一定程度的解決。目前應(yīng)用比較廣泛的數(shù)據(jù)挖掘算法主要有K-means、決策樹、Apriori等,其中K-means 算法運(yùn)行效率高、實(shí)現(xiàn)容易被廣泛應(yīng)用到數(shù)據(jù)挖掘中。本文就K-means 算法在互聯(lián)網(wǎng)違法信息監(jiān)管中應(yīng)用進(jìn)行研究。

      1 K-means算法

      K-means 算法核心思想是將某些相似的數(shù)據(jù)進(jìn)行分類后聚集在一起方法。該算法首先選取K 個(gè)中心點(diǎn),然后計(jì)算每個(gè)中心點(diǎn)到各種聚類群體之間的聚類,重新分配中心點(diǎn)。采用迭代方法進(jìn)行聚類中心劃分,直到中心點(diǎn)達(dá)到設(shè)置范圍,算法終止[1-2]??捎萌缦鹿竭M(jìn)行表達(dá):

      式中:xi表示第j 個(gè)簇類中第i 個(gè)數(shù)據(jù);cj表示第j 個(gè)簇類中心點(diǎn)。

      2 K-means算法在輿情監(jiān)測(cè)管理中應(yīng)用

      輿情監(jiān)管是互聯(lián)網(wǎng)有害信息管理重要內(nèi)容。梁曉賀[3]研究了網(wǎng)絡(luò)微博輿情問題,提出了一種微博輿情主題發(fā)現(xiàn)超網(wǎng)絡(luò)模型及超邊相似算法,圖1 為該算法流程圖。

      所設(shè)計(jì)的超邊相似度算法微博輿情監(jiān)控模型中假設(shè)輿情主題中網(wǎng)絡(luò)模型共計(jì)N 條超邊,用符號(hào)相似度計(jì)算方法為:

      所設(shè)計(jì)的算法與K-means 算法融合后,通過仿真,結(jié)果表明所設(shè)計(jì)的算法在微博輿情監(jiān)控中能夠很快識(shí)別。

      王林[4]針對(duì)復(fù)雜的微博熱點(diǎn)問題,當(dāng)前所使用的K-means 算法在初始中心選點(diǎn)存在難點(diǎn)問題,提出了一種基于MapReduce 的并行K-means 算法。該算法核心思想為使用MapReduce 中的map函數(shù)進(jìn)行對(duì)象到聚類中心距離計(jì)算,該過程中需要重新標(biāo)記聚類類別。Reduce 函數(shù)主要進(jìn)行Map 函數(shù)的中間結(jié)果計(jì)算,并形成一個(gè)簇類中心。仿真結(jié)果表明所改進(jìn)算法提高了K-means 算法精度,在輿情監(jiān)測(cè)管理中有重要作用。

      田世海[5]為提高輿情監(jiān)管準(zhǔn)確率,將K-means 算法與NRL 結(jié)合融合在一起形成新的算法。該算法核心思想是通過概率事件進(jìn)行輿情監(jiān)管。假設(shè)每個(gè)輿情監(jiān)管事件中都包含兩個(gè)d 維向量,分別為表示節(jié)點(diǎn)作為其它相鄰節(jié)點(diǎn)的d 維向量??捎糜?jì)算公式表示。使用概率計(jì)算方法得到輿情關(guān)注概率為:將K-means 算法應(yīng)用到概率計(jì)算中得到,輿情事件分類為m 類,符號(hào)中心點(diǎn)用符號(hào)表示簇類劃分點(diǎn)數(shù),每個(gè)簇類代表每個(gè)輿情事件,事件之間相似度可用符號(hào)表示。中心點(diǎn)平均值計(jì)算方法為:。仿真結(jié)果表明所設(shè)計(jì)的算法能夠較快明確分組數(shù)量,聚類效果好。

      圖1:基于超邊相似度算法微博輿情監(jiān)控算法

      閆俊伢[6]對(duì)K-means 算法應(yīng)用到輿情監(jiān)管應(yīng)用進(jìn)行詳細(xì)分析,發(fā)現(xiàn)現(xiàn)有的K-means 算法在輿情挖掘中存在挖掘準(zhǔn)確率和穩(wěn)定性有待提升問題。為解決這一問題,提出了將遺傳算法與K-means 算法相結(jié)合?;谶z傳算法、K-means 算法相結(jié)合的聚類算法中使用浮點(diǎn)編碼規(guī)則進(jìn)行編碼;使用均勻變異算子進(jìn)行基因變異;適應(yīng)度計(jì)算方法為,E 表示誤差平方和,b 為常數(shù)。

      徐建國(guó)[7]將改進(jìn)的K-means 算法應(yīng)用到高校輿情監(jiān)管中。當(dāng)前K-means 算法容易存在局部最優(yōu)問題,在傳統(tǒng)的聚類算法中增加了相似度計(jì)算方法重新選取新的簇類中心。仿真結(jié)果表明所設(shè)計(jì)的算法相比傳統(tǒng)的K-means 聚類算法性能提升了8%。陳艷紅[8]研究了K-means 算法在高校輿情監(jiān)控中應(yīng)用,提出了將剩余的樣本與中心點(diǎn)進(jìn)行中心點(diǎn)選擇,仿真結(jié)果表明改進(jìn)算法能夠提高算法性能。

      謝修娟[9]針對(duì)當(dāng)前K-means 算法初始聚類中心選取容易導(dǎo)致算法陷入局部最優(yōu)問題,對(duì)K-means 算法進(jìn)行改進(jìn)。所設(shè)計(jì)的算法借用DBSCAN 密度算法進(jìn)行改進(jìn)。假定微博文檔集合符號(hào)初始聚類中心集合符號(hào)初始化聚類簇符號(hào)改進(jìn)K-means 算法偽代碼為:

      Input:微博數(shù)據(jù)Output:違法信息監(jiān)督結(jié)果Step1:從數(shù)據(jù)庫(kù)中獲取微博文檔數(shù)據(jù)集b,根據(jù)初始類中心c,進(jìn)行聚類劃分Step2:更新聚類中心,清空聚類中心,進(jìn)行下一類操作Step3:重復(fù)Step1 和Step2,如果達(dá)到設(shè)置誤差函數(shù),跳轉(zhuǎn)到Step4;否則跳轉(zhuǎn)到Step1 Step4:輸出監(jiān)督結(jié)果。

      研究結(jié)果表明所改進(jìn)的K-means 算法具運(yùn)行效率、準(zhǔn)確性、穩(wěn)定性指標(biāo)等到提高。

      張壽華[10]針對(duì)網(wǎng)絡(luò)輿情熱點(diǎn)話題監(jiān)督提出了使用K-means 算法進(jìn)行挖掘。所構(gòu)建的輿情監(jiān)測(cè)模型中,關(guān)鍵詞提取計(jì)算方法為:

      文檔聚類計(jì)算方法為:

      (1)熱點(diǎn)新聞分析模型為:

      式中:H(t)表示新聞熱度值;n 表示新聞數(shù)量;W(Si)表示新聞網(wǎng)站權(quán)重;表示新聞參與評(píng)論權(quán)重;pni表示新聞參與人數(shù);cni表示新聞評(píng)價(jià)人數(shù)。

      (2)信息轉(zhuǎn)載模型為:

      式中:H(t)表示話題論壇熱度值;n 表示話題數(shù)量;W(Si)表示話題的權(quán)重值;表示話題瀏覽次數(shù)和回復(fù)權(quán)重;pni表示話題參與人數(shù);cni表示話題評(píng)價(jià)人數(shù);W(ri)表示話題轉(zhuǎn)載次數(shù)權(quán)重。

      應(yīng)用結(jié)果表明所設(shè)計(jì)的基于K-means 算法的話題聚類方法能夠很好進(jìn)行話題監(jiān)管。

      3 K-means算法在互聯(lián)網(wǎng)有害行為監(jiān)管中應(yīng)用

      互聯(lián)網(wǎng)違法信息監(jiān)管是當(dāng)前重點(diǎn)研究課題。汪黎嘉[11]詳細(xì)研究了K-means 算法在網(wǎng)絡(luò)有害信息監(jiān)管中應(yīng)用,所設(shè)計(jì)的算法包括:

      (1)網(wǎng)絡(luò)信息初步篩選,計(jì)算方法為:

      式中:S 表示互聯(lián)網(wǎng)信息可行度評(píng)價(jià)指標(biāo);Cc 表示信息變更次數(shù);Cl 表示信息變更閥值;Ft 表示互聯(lián)網(wǎng)信息訪問次數(shù);Tt 表示違法信息訪問時(shí)間。

      呂飛[12]將改進(jìn)K-means 算法應(yīng)用到互聯(lián)網(wǎng)涉煙違法犯罪區(qū)域劃分研究。針對(duì)傳統(tǒng)的K-means 算法局部容易出現(xiàn)最優(yōu)情況,提出了使用概率方法尋找質(zhì)點(diǎn)。應(yīng)用結(jié)果表明所設(shè)計(jì)的算法能夠準(zhǔn)確識(shí)別煙草互聯(lián)網(wǎng)有害信息。

      張玉峰[13]研究了有害信息的類型,包括色情信息、虛假信息、垃圾信息、網(wǎng)絡(luò)安全信息、文化侵略信息等。提出使用數(shù)據(jù)挖掘技術(shù)對(duì)有害信息挖掘。結(jié)果表明K-means 算法在有害信息分類中具有重要應(yīng)用前景。

      4 結(jié)語(yǔ)

      本文詳細(xì)分析了K-means 算法在互聯(lián)網(wǎng)有害信息挖掘中應(yīng)用。當(dāng)前K-means 算法應(yīng)用到輿情監(jiān)管中發(fā)揮了重要作用,未來(lái)發(fā)展方向是結(jié)合大數(shù)據(jù)技術(shù)、神經(jīng)網(wǎng)絡(luò)算法,能夠提高算法準(zhǔn)確率。K-means算法應(yīng)用到有害監(jiān)管中具有重要作用,未來(lái)可發(fā)展到詐騙行為識(shí)別中。

      猜你喜歡
      有害信息中心點(diǎn)結(jié)果表明
      通用人工智能提供者內(nèi)容審查注意義務(wù)的證成
      Scratch 3.9更新了什么?
      如何設(shè)置造型中心點(diǎn)?
      電腦報(bào)(2019年4期)2019-09-10 07:22:44
      上半年利用AI技術(shù)清理有害信息312.2億條
      行政法在治理網(wǎng)絡(luò)有害信息中的作用研究
      法制博覽(2018年24期)2018-01-22 22:27:15
      網(wǎng)絡(luò)有害信息的類型及治理措施
      新聞前哨(2016年7期)2016-09-27 21:28:28
      漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
      尋找視覺中心點(diǎn)
      大眾攝影(2015年9期)2015-09-06 17:05:41
      體育鍛煉也重要
      闊世瑪與世瑪用于不同冬小麥品種的安全性試驗(yàn)
      孟连| 徐汇区| 凉山| 弋阳县| 夏邑县| 万年县| 新平| 建瓯市| 乌恰县| 西充县| 乌拉特前旗| 兰西县| 崇义县| 富裕县| 金寨县| 灵台县| 古丈县| 兰考县| 阜平县| 嵩明县| 青河县| 高淳县| 濮阳市| 嘉禾县| 莱州市| 祁连县| 陇川县| 瓮安县| 左贡县| 泸水县| 营口市| 新安县| 上犹县| 鄢陵县| 芦溪县| 墨玉县| 祁阳县| 延川县| 古浪县| 新河县| 枣强县|