• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于區(qū)塊鏈的大型社交類網(wǎng)游敏感信息數(shù)據(jù)挖掘框架

      2021-11-15 06:10:48杜彥輝
      關(guān)鍵詞:網(wǎng)游輿情區(qū)塊

      白 杰 ,杜彥輝

      (1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038;2.溫州大學(xué) 國際教育學(xué)院,浙江 溫州 325035)

      2020年9月29日,中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第46次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,中國網(wǎng)民中網(wǎng)絡(luò)游戲類用戶超過5.3億[1]。社交型網(wǎng)游占網(wǎng)游總數(shù)的85%以上,網(wǎng)絡(luò)游戲社區(qū)的虛擬身份特征,使得參與者會(huì)更隨意地發(fā)表未經(jīng)求證的觀點(diǎn),進(jìn)而成為網(wǎng)絡(luò)輿情的參與者及傳播者。針對(duì)業(yè)務(wù)量大、受眾廣的社交類網(wǎng)絡(luò)游戲輿情,人工智能方法模型為網(wǎng)絡(luò)敏感信息的發(fā)掘提供了工具,例如深度學(xué)習(xí)被廣泛應(yīng)用于自然語言處理領(lǐng)域中的文本分類[2-4]。區(qū)塊鏈以其分布式數(shù)據(jù)庫技術(shù)以及去中心化、共識(shí)機(jī)制等優(yōu)勢(shì),逐漸被應(yīng)用到輿情管控及電子存證領(lǐng)域[5-7],但前人的研究多側(cè)重于事后的數(shù)據(jù)分析,缺少重要的事前防控和事中監(jiān)管對(duì)策[8-9]。如何利用區(qū)塊鏈優(yōu)勢(shì),建立敏感信息的即時(shí)監(jiān)控處理系統(tǒng),從海量大數(shù)據(jù)中抓取敏感詞匯,對(duì)抓取的數(shù)據(jù)運(yùn)用高效的算法加以分析,并進(jìn)行在線監(jiān)測(cè)、預(yù)警、溯源,成為亟待解決的問題。

      本文的主要?jiǎng)?chuàng)新點(diǎn):

      1)本研究提出了一種區(qū)塊鏈架構(gòu)下網(wǎng)游平臺(tái)敏感信息的發(fā)掘、判斷及處理框架;在敏感信息挖掘過程中,結(jié)合區(qū)塊鏈的分布式記賬系統(tǒng)提高敏感信息挖掘效率,利用區(qū)塊鏈的可溯性實(shí)現(xiàn)敏感信息源的快速追溯,有效提高網(wǎng)游中敏感信息的處理精度;

      2)在區(qū)塊鏈模式下改進(jìn)數(shù)據(jù)模型層,應(yīng)用優(yōu)化后的深度學(xué)習(xí)算法提高文本分類標(biāo)注的精準(zhǔn)性和效率,通過數(shù)據(jù)庫測(cè)試取得較高的效率,為后續(xù)多款網(wǎng)游的網(wǎng)絡(luò)安全監(jiān)控提供理論基礎(chǔ)。

      1 敏感信息處理過程及方法綜述

      網(wǎng)絡(luò)敏感信息包含文字、圖片及語音視頻等多種媒體形式,在大型網(wǎng)游中,中/英文短文本是其主要的交流方式。網(wǎng)游中的敏感文本信息可分為主題性文本和帶情感傾向的文本[10]。敏感信息中具有明顯主題詞語(如暴力、色情、詐騙、垃圾信息等)的文本,被判定為主題性文本,技術(shù)上常用Web爬蟲程序抓取特定關(guān)鍵詞,并對(duì)抓取到的消息進(jìn)行屏蔽處理。具有情感傾向性的不良文本,則包含了信息發(fā)布者的觀點(diǎn)、態(tài)度、立場等信息。而網(wǎng)游端的國外玩家占有相當(dāng)一部分比例,使得網(wǎng)游成為政治經(jīng)濟(jì)類敏感言論的集中地。這類信息變化度較大,很難及時(shí)識(shí)別,給控制不良輿情的發(fā)酵帶來了極大的挑戰(zhàn),游戲研發(fā)公司往往通過人工識(shí)別來標(biāo)記,耗費(fèi)大量人力的同時(shí)又很難兼顧效率,因此需要溯源并挖掘其傳播路徑,采用智能化的方法及時(shí)處理。單一點(diǎn)對(duì)點(diǎn)的輸入—輸出往往效率較低,輿情處理通常是依從游戲玩家→信息端→網(wǎng)絡(luò)總控制中心→公安網(wǎng)絡(luò)安全部門→網(wǎng)絡(luò)總控制中心→游戲端→玩家的反饋處理順序,很難滿足輿情控制時(shí)間緊、任務(wù)重的需要,且需要占用大量警力進(jìn)行排查溯源。

      目前Web挖掘標(biāo)志性算法有決策樹、規(guī)則歸納、貝葉斯方法、支持向量機(jī)、神經(jīng)元網(wǎng)絡(luò)等[11-13]。作為當(dāng)前的研究熱點(diǎn),深度學(xué)習(xí)算法利用多個(gè)處理層,逐步強(qiáng)化機(jī)器學(xué)習(xí),對(duì)數(shù)據(jù)集進(jìn)行抽象處理,替代手工獲取特征,提高了抓取的效率[14],最大程度地簡化了特征工程和預(yù)處理。根據(jù)實(shí)際情況,復(fù)雜的網(wǎng)絡(luò)文本需要更多的訓(xùn)練數(shù)據(jù),預(yù)訓(xùn)練的詞向量可以為分類結(jié)果帶來提升,更能體現(xiàn)深度學(xué)習(xí)在敏感信息挖掘方面的優(yōu)勢(shì)。

      隨著區(qū)塊鏈3.0時(shí)代的到來,在網(wǎng)游輿情防控過程中,聯(lián)盟鏈的構(gòu)建能更好地解決網(wǎng)絡(luò)安全管理部門和互聯(lián)網(wǎng)企業(yè)在應(yīng)對(duì)輿情管理時(shí)的層級(jí)問題,分布式賬本不可篡改的特性能充分保障信息傳播全程留痕,智能合約和共識(shí)機(jī)制確保了輿情挖掘中數(shù)據(jù)的真實(shí)性和合約的執(zhí)行力。區(qū)塊鏈獨(dú)有的技術(shù)特征能夠充分提高網(wǎng)絡(luò)輿情管理的準(zhǔn)確度和效率,加大信息安全和隱私保護(hù)力度。

      2 區(qū)塊鏈模式下的網(wǎng)游網(wǎng)絡(luò)敏感信息模型

      2.1 區(qū)塊鏈模式下網(wǎng)絡(luò)敏感信息挖掘系統(tǒng)

      圖1為區(qū)塊鏈模式下網(wǎng)絡(luò)敏感信息挖掘系統(tǒng)架構(gòu)。

      圖1 區(qū)塊鏈模式下網(wǎng)絡(luò)敏感信息挖掘系統(tǒng)架構(gòu)Fig.1 Network sensitive information mining system architecture in blockchain mode

      2.1.1底層P2P網(wǎng)絡(luò)

      游戲玩家發(fā)布文字信息的過程會(huì)采用P2P網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)都同時(shí)保留所有數(shù)據(jù),這樣即使其中一個(gè)節(jié)點(diǎn)刪除了敏感信息詞匯,在其他節(jié)點(diǎn)中也留有證據(jù)。在信息發(fā)布過程中調(diào)用區(qū)塊鏈的發(fā)布接口,采樣節(jié)點(diǎn)通過網(wǎng)絡(luò)爬蟲爬取敏感詞匯,針對(duì)主題性文本建立敏感信息詞庫,從而實(shí)現(xiàn)敏感信息數(shù)據(jù)采集功能。每區(qū)服定時(shí)將所識(shí)別的數(shù)據(jù)使用非對(duì)稱加密通信技術(shù)簽名后發(fā)送給可信存儲(chǔ)服務(wù)模塊。

      2.1.2協(xié)議一致性層(共識(shí)機(jī)制)

      區(qū)塊鏈模式下的敏感信息挖掘系統(tǒng)中,各節(jié)點(diǎn)之間只有達(dá)成共識(shí),確定某一信息為不良輿論,才可以進(jìn)行下一步操作。共識(shí)機(jī)制的主要作用是保持底層區(qū)塊鏈敏感數(shù)據(jù)認(rèn)證的一致性,防止惡意不實(shí)舉報(bào)或者玩家無意識(shí)的舉報(bào)點(diǎn)擊,避免了大量偽敏感信息,從而節(jié)約了計(jì)算空間,減少了無效計(jì)算[15]。通過共識(shí)機(jī)制,確定敏感信息的真實(shí)性后,將當(dāng)前區(qū)塊生成的哈希值加入到父系區(qū)塊中,并存入加密區(qū)塊鏈中進(jìn)行防篡改保護(hù)。

      2.1.3數(shù)據(jù)模型層

      區(qū)塊鏈作為一種分布式存儲(chǔ)數(shù)據(jù)庫技術(shù),用于實(shí)時(shí)存證游戲玩家賬號(hào)信息、信息發(fā)布記錄等。在區(qū)塊鏈中,單個(gè)數(shù)據(jù)區(qū)塊由區(qū)塊頭和區(qū)塊體組成。在區(qū)塊頭上記錄當(dāng)前區(qū)塊的特征值,如信息生成時(shí)間、區(qū)塊數(shù)據(jù)的散列值及上一區(qū)塊的散列值等。在敏感信息發(fā)酵過程中,首先產(chǎn)生第0代區(qū)塊(無Hash地址),之后的交易區(qū)塊依次指向第0代區(qū)塊,且保留了上一個(gè)區(qū)塊的Hash地址(區(qū)塊的特征標(biāo)識(shí)),區(qū)塊代間通過Hash地址(特征性)相連,形成了信息的鏈?zhǔn)浇Y(jié)構(gòu),由此便可記錄區(qū)塊鏈中敏感信息的第一個(gè)發(fā)布者以備追查。散列值在消息挖掘區(qū)塊鏈中起著決定性作用。每個(gè)區(qū)塊個(gè)體(消息)持有唯一性的散列值,散列值隨區(qū)塊內(nèi)容變化而改變。

      2.1.4執(zhí)行及應(yīng)用

      敏感信息挖掘的主要過程如下。

      1)哈希生成:信息檢測(cè)者在本地執(zhí)行深度學(xué)習(xí)改進(jìn)算法,抓取文檔,獲得關(guān)鍵詞集合;然后輸入時(shí)間戳、文檔集合以及關(guān)鍵詞集合,由此獲得確定的作為輸出的哈希索引。

      2)加密共識(shí):區(qū)塊鏈采用非對(duì)稱加密算法,例如,玩家注冊(cè)階段產(chǎn)生一個(gè)私鑰(Private Key),用Private Key和橢圓曲線算法Secp256k1生成65字節(jié)的隨機(jī)數(shù)即公鑰,當(dāng)游戲玩家經(jīng)由網(wǎng)游客戶端發(fā)布信息時(shí),系統(tǒng)對(duì)公鑰進(jìn)行SHA256[10]和RIPEMD160雙哈希運(yùn)算,得到20字節(jié)長度的摘要結(jié)果,將其作為主體信息,附加上版本前綴0x00及地址校驗(yàn)碼,并對(duì)摘要結(jié)果進(jìn)行兩次SHA256運(yùn)算,取生成哈希值的前四位,最后,版本前綴+主體信息+校驗(yàn)位經(jīng)由Base58處理得到地址,將其上傳給云端服務(wù)器。

      3)權(quán)限授予:各區(qū)服的控制端通過算法確認(rèn)發(fā)布的信息屬于非敏感信息后,將密鑰和相關(guān)參數(shù)發(fā)送給數(shù)據(jù)使用者,授予合法權(quán)限(發(fā)言)。

      4)數(shù)據(jù)解密:數(shù)據(jù)的使用者通過執(zhí)行解密算法,輸入密鑰和加密文檔集,輸出明文文檔集。

      5)動(dòng)態(tài)更新:數(shù)據(jù)發(fā)布者向服務(wù)器提出文檔更新請(qǐng)求,增加或刪掉消息。服務(wù)器確認(rèn)原有哈希并對(duì)新生成哈希分類,持續(xù)動(dòng)態(tài)更新,同時(shí)進(jìn)行敏感詞匯判斷。

      2.2 區(qū)塊鏈模式下網(wǎng)絡(luò)敏感信息挖掘模型特性

      在區(qū)塊鏈模式下,可以把敏感信息的挖掘過程等同于節(jié)點(diǎn)之間的交易(舉報(bào))行為,其具體特性對(duì)網(wǎng)絡(luò)敏感信息挖掘模型的影響如下。

      2.2.1敏感信息挖掘節(jié)點(diǎn)的去中心化

      傳統(tǒng)的敏感信息挖掘通常是由玩家舉報(bào)或者系統(tǒng)檢測(cè)來實(shí)現(xiàn),然后上傳到騰訊網(wǎng)絡(luò)安全的總庫,由游戲安全部門進(jìn)行確認(rèn),再進(jìn)行反饋及處理,而確認(rèn)的難度隨著敏感信息的變形、改寫以及表達(dá)形式的多樣化而逐步增加,這使得輿情發(fā)酵期間數(shù)據(jù)的處理時(shí)間很難滿足及時(shí)性的要求。

      對(duì)于敏感信息中的變形詞匯,常用的處理方法是應(yīng)用機(jī)器算法加強(qiáng)對(duì)敏感詞匯的測(cè)試,將變形的敏感信息加入詞庫,以期到達(dá)更準(zhǔn)確的效果。但是這樣需要一個(gè)反饋再學(xué)習(xí)的過程。而大部分玩家(節(jié)點(diǎn))對(duì)于變形詞匯都能夠理解其表達(dá)的意思,在區(qū)塊鏈模式下,只有2個(gè)以上節(jié)點(diǎn)認(rèn)證某位玩家發(fā)表的是政治言論,才可以達(dá)到節(jié)點(diǎn)間的共識(shí),進(jìn)而上傳到區(qū)塊鏈的模塊,使其第一時(shí)間發(fā)現(xiàn)敏感信息。敏感信息在網(wǎng)絡(luò)中被挖掘的整體效率取決于網(wǎng)絡(luò)中所有具有挖掘(舉報(bào))能力的節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)都對(duì)所檢測(cè)出的敏感信息進(jìn)行記錄,當(dāng)節(jié)點(diǎn)間交換數(shù)據(jù)時(shí),節(jié)點(diǎn)間會(huì)進(jìn)行真實(shí)性驗(yàn)證。如果驗(yàn)證成功,確定屬于網(wǎng)絡(luò)敏感信息,則將它接收到的信息提交給網(wǎng)絡(luò)安全部門進(jìn)行認(rèn)定和屏蔽處理,這也極大地提高了信息挖掘效率。

      2.2.2敏感信息的可溯性

      區(qū)塊鏈的時(shí)間戳技術(shù)可被用來確認(rèn)每筆數(shù)據(jù)的發(fā)生,在數(shù)據(jù)中加入時(shí)間維度,通過時(shí)間維度記錄敏感信息轉(zhuǎn)化的順序,使得數(shù)據(jù)挖掘過程具有可追溯性。在交易進(jìn)程中,區(qū)塊鏈技術(shù)的時(shí)間戳機(jī)制能夠?yàn)槊抗P信息的發(fā)布(交易)生成一個(gè)ID,這為信息來源的追查提供了極大的幫助。區(qū)塊鏈將持續(xù)生成的信息加入到現(xiàn)有全部區(qū)塊中,一旦新區(qū)塊的生成條件被所有用戶認(rèn)證,則當(dāng)前區(qū)塊就會(huì)被加入到主區(qū)塊鏈中,每個(gè)區(qū)塊通過特定算法生成的哈希值來標(biāo)記自身的唯一性,且此過程不可逆。由此可以判斷網(wǎng)絡(luò)敏感信息的演進(jìn)發(fā)酵過程以及未來走向。時(shí)間戳技術(shù)在保證數(shù)據(jù)原始性的同時(shí)降低了挖掘(交易)追溯的成本,其時(shí)序性強(qiáng)化了信息的不可篡改性。針對(duì)敏感信息的長期發(fā)布來源,游戲公司網(wǎng)絡(luò)安全部門應(yīng)引起足夠重視,并提交給國家安全部門進(jìn)行偵查處理,以避免國外惡意勢(shì)力針對(duì)國內(nèi)青少年的長期輿論導(dǎo)向作用。

      2.2.3敏感信息發(fā)布者身份數(shù)據(jù)加密及信息鏈?zhǔn)胶霞s

      區(qū)塊鏈技術(shù)應(yīng)用非對(duì)稱密碼學(xué)的原理進(jìn)行數(shù)據(jù)加密。該技術(shù)能夠妥善保障網(wǎng)絡(luò)中挖掘(交易)數(shù)據(jù)的安全,降低由交易數(shù)據(jù)丟失而引起的風(fēng)險(xiǎn)。倘若外部入侵者意圖篡改部分?jǐn)?shù)據(jù),則需要對(duì)所有區(qū)塊的數(shù)據(jù)進(jìn)行修改,因此這種改動(dòng)無法在完善的區(qū)塊鏈中產(chǎn)生保障。另外,區(qū)塊鏈架構(gòu)下的敏感數(shù)據(jù)挖掘模型中,數(shù)據(jù)在網(wǎng)絡(luò)中傳播需要具有數(shù)字簽名,用以作為簽名人的身份標(biāo)識(shí)及簽名人對(duì)交易數(shù)據(jù)內(nèi)容的認(rèn)可。大型社交類網(wǎng)游往往在最初要求實(shí)名制注冊(cè)和手機(jī)注冊(cè)相結(jié)合,以便通過注冊(cè)信息核對(duì)來確保實(shí)名認(rèn)證,從而保證游戲發(fā)言玩家身份(交易者)的安全性。而區(qū)塊鏈的特色就是其自動(dòng)擔(dān)保程序的智能合約是架設(shè)在區(qū)塊鏈上而非服務(wù)器上,這極大地提高了較大數(shù)據(jù)量下的分布處理效率[16]。這樣,對(duì)個(gè)人身份的認(rèn)證則由上傳到整個(gè)區(qū)服的認(rèn)證,轉(zhuǎn)化為在區(qū)塊鏈上(某個(gè)具體區(qū)的服務(wù)器)的認(rèn)證,極大地提高了認(rèn)證效率。有研究認(rèn)為,通過可編程的智能合約能夠預(yù)測(cè)每一個(gè)合約的結(jié)果,一旦觸發(fā)合約成立的條件,則代碼合約立即執(zhí)行。也就是通過最初的簡短信息的發(fā)布,以及該節(jié)點(diǎn)一直以來發(fā)信息的文字規(guī)律,預(yù)測(cè)該節(jié)點(diǎn)即將發(fā)布信息的內(nèi)容,在敏感輿情信息發(fā)布之前進(jìn)行預(yù)警處理,提前屏蔽,在輿情爆發(fā)之前遏制源頭信息。

      本文構(gòu)建的系統(tǒng)保持現(xiàn)有系統(tǒng)的模塊化結(jié)構(gòu)。不同的結(jié)構(gòu)或者應(yīng)用能保證自身模塊的獨(dú)立性和完整性;在保護(hù)數(shù)據(jù)隱私的前提下,允許數(shù)據(jù)的互操作。每個(gè)機(jī)構(gòu)可以定義自己的對(duì)外訪問接口和形式,實(shí)現(xiàn)不同層級(jí)的靈活性。

      3 改進(jìn)深度學(xué)習(xí)算法在區(qū)塊鏈數(shù)據(jù)模型層中的應(yīng)用

      本文嘗試將深度學(xué)習(xí)方法應(yīng)用到區(qū)塊鏈模式下敏感信息挖掘過程的數(shù)據(jù)模型層當(dāng)中。主要有三個(gè)層次,即文本預(yù)處理、詞向量表示和深度學(xué)習(xí)模型。深度學(xué)習(xí)通過其多層結(jié)構(gòu)來提升訓(xùn)練過程中對(duì)數(shù)據(jù)集特征的學(xué)習(xí)能力,以實(shí)現(xiàn)復(fù)雜函數(shù)的逼近,解決了傳統(tǒng)文本分類中對(duì)復(fù)雜問題泛化受限從而導(dǎo)致的準(zhǔn)確率低的問題。

      3.1 文本預(yù)處理

      無論訓(xùn)練深度學(xué)習(xí)模型的文本是否已標(biāo)記,都需要對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,包括過濾非中文信息(數(shù)字、英文字母、標(biāo)點(diǎn)、特殊符號(hào)、全角字符等)、模板提取(根據(jù)具體分類需求,通過模板提取文本樣本中的關(guān)鍵信息,剔除其他信息)、文本分詞(分詞算法根據(jù)預(yù)設(shè)的詞典對(duì)樣本進(jìn)行匹配識(shí)別或標(biāo)注訓(xùn)練)和去停用詞(過濾某些對(duì)分類無作用的字或詞)等操作。

      例如,在一條信息中,網(wǎng)友舉報(bào)有人借助游戲平臺(tái)發(fā)布色情信息廣告,過濾非中文后,歸納提取的模板為“內(nèi)容+費(fèi)用+聯(lián)系方式”。分詞分類詞典一般采用國家語委語料庫、搜狗語料庫等。用戶定義詞典則是由通用詞典未包括的、專業(yè)的單詞組成。網(wǎng)游信息當(dāng)中的詞典,就需要根據(jù)實(shí)際應(yīng)用場景,建立用戶定義詞典,并適時(shí)定時(shí)進(jìn)行更新。例如,在聊天網(wǎng)絡(luò)敏感信息中“操”被列入暴力侮辱性詞匯,但是在網(wǎng)游中,“曹操”這個(gè)詞匯出現(xiàn)幾率非常高,因此要建立兩個(gè)專業(yè)單詞的區(qū)分度。深度學(xué)習(xí)分詞的實(shí)現(xiàn)思路為:通過對(duì)大量漢字和單詞進(jìn)行標(biāo)注訓(xùn)練,利用機(jī)器學(xué)習(xí)工具,識(shí)別文本中的詞語。

      3.2 詞向量表示

      文本預(yù)處理后,為了更好地被深度學(xué)習(xí)模型識(shí)別,需要對(duì)高維度、高稀疏的樣本文本進(jìn)行詞向量表示,以達(dá)到較高質(zhì)量的特征提取以及格式轉(zhuǎn)換。詞向量輸出包含了每個(gè)詞向量的向量矩陣,即將高維度、高稀疏編碼方式的文本數(shù)據(jù)轉(zhuǎn)換為連續(xù)稠密數(shù)據(jù)。在基于深度學(xué)習(xí)的文本分類系統(tǒng)中,將一條網(wǎng)友針對(duì)游戲充值未到賬表達(dá)極度不滿的文字信息設(shè)為50維向量,樣本預(yù)處理后,進(jìn)行Word2Vec計(jì)算,輸出結(jié)果如圖2所示。

      圖2 謠言信息轉(zhuǎn)碼示例Fig.2 Example of rumor information transcoding

      3.3 TextCNN模型

      建立深度學(xué)習(xí)分類模型的過程:①訓(xùn)練過程,即用足夠量的已標(biāo)記類別的文本樣本集來訓(xùn)練分類;②驗(yàn)證過程,用去除標(biāo)記的文本樣本來測(cè)試模型的分類準(zhǔn)確性。再通過多輪訓(xùn)練并優(yōu)化模型,達(dá)到分類模型的穩(wěn)定。本文將深度學(xué)習(xí)改進(jìn)模型的幾種文本測(cè)試結(jié)果,與常見的樸素貝葉斯文本分類結(jié)果進(jìn)行對(duì)比,測(cè)試結(jié)果如圖3所示。

      圖3 TextCNN模型架構(gòu)圖Fig.3 Architecture diagram of TextCNN model

      由于網(wǎng)游對(duì)話的特性及對(duì)話框字?jǐn)?shù)的限制,網(wǎng)游對(duì)話大部分以短文本為主。在深度學(xué)習(xí)理論中,TextCNN對(duì)文本淺層特征的抽取能力很強(qiáng),在短文本領(lǐng)域(如搜索、對(duì)話領(lǐng)域)專注于意圖分類時(shí)效果很好、應(yīng)用廣泛且速度快,具有明顯優(yōu)勢(shì)[17]。

      圖3中,詞向量構(gòu)成文本矩陣,過濾器的卷核大小分別為2、3、4,經(jīng)過卷積池化得到特征向量,其維數(shù)等于卷積核尺寸的個(gè)數(shù)乘以每種尺寸卷積核的個(gè)數(shù),TextCNN分為4層。

      卷積層:在本文的TextCNN模型中,有3個(gè)過濾器(卷積核大小分別為2、3、4)可以分別提取不同的文本特征。過濾器將大小為3×3×1的節(jié)點(diǎn)矩陣轉(zhuǎn)化為單位節(jié)點(diǎn)矩陣,而對(duì)于單位節(jié)點(diǎn)矩陣中的第i個(gè)節(jié)點(diǎn),假設(shè)wix,y表示過濾器輸入節(jié)點(diǎn)(x,y)的權(quán)重,bi表示第i個(gè)輸出節(jié)點(diǎn)對(duì)應(yīng)的偏置項(xiàng)參數(shù),那么單位矩陣中的第i個(gè)節(jié)點(diǎn)的取值a(i)為:

      (1)

      式中:cx,y為過濾器中節(jié)點(diǎn)(x,y)的取值;f為激活函數(shù)。所有a(i)組成的單位向量就是卷積層所得出的特征圖,將其作為池化層的輸入。

      池化層:池化層的匯合操作能夠產(chǎn)生降維的效果,減小計(jì)算量和參數(shù)的個(gè)數(shù),同時(shí)防止過擬合的發(fā)生。

      融合層:將3個(gè)池化層所得的特征進(jìn)行拼接,融合成一個(gè)對(duì)文本向量來說更具有代表性的向量。

      全鏈接層:通過在融合層之后加入隱含層和最后的softmax層,來充當(dāng)一個(gè)分類器,對(duì)文本進(jìn)行最終的分類。

      為了測(cè)試TextCNN模型在數(shù)據(jù)集上的表現(xiàn),實(shí)驗(yàn)數(shù)據(jù)集選取《亂世王者》2019年5月聊天文本信息,分別采用樸素貝葉斯、CNN、TextCNN三種模型對(duì)數(shù)據(jù)集進(jìn)行分類,實(shí)驗(yàn)步驟為:

      1)先對(duì)短文本語料進(jìn)行標(biāo)注,并進(jìn)行預(yù)處理,執(zhí)行數(shù)據(jù)清洗、分詞、去停用詞等操作;

      2)用已訓(xùn)練好的(中文)Word2Vec模型對(duì)分詞結(jié)果進(jìn)行向量化;

      3)利用樸素貝葉斯、CNN、TextCNN三種不同模型對(duì)數(shù)據(jù)集進(jìn)行分類,并計(jì)算其準(zhǔn)確率。

      表1為《亂世王者》2019年5月聊天文本信息的分類模型對(duì)比結(jié)果,其中數(shù)據(jù)集1包含訓(xùn)練樣本14 792條、測(cè)試樣本2 324條,類別數(shù)設(shè)為15;數(shù)據(jù)集2包含訓(xùn)練樣本11 487條、測(cè)試樣本1 794條,類別數(shù)設(shè)為5。數(shù)據(jù)預(yù)處理基于Python的SKLearn庫實(shí)現(xiàn),模型訓(xùn)練和驗(yàn)證基于TensorFlow實(shí)現(xiàn)。

      表1 文本分類模型對(duì)比結(jié)果Tab.1 Comparison results of text classification models

      由表1可知,TextCNN文本分類系統(tǒng)的測(cè)試準(zhǔn)確率明顯高于樸素貝葉斯和CNN文本分類系統(tǒng)。該結(jié)果表明,在社交類網(wǎng)游的短文本語境中,TextCNN文本分類系統(tǒng)具有顯著優(yōu)勢(shì)。

      4 結(jié) 語

      本文結(jié)合業(yè)務(wù)實(shí)際,分析了大型社交類網(wǎng)游中網(wǎng)絡(luò)敏感信息挖掘的常見問題。結(jié)合區(qū)塊鏈技術(shù)的分布式記賬方法、去中心化特性,改進(jìn)了深度學(xué)習(xí)算法,提出了區(qū)塊鏈模式下的網(wǎng)絡(luò)敏感信息挖掘模型,并將數(shù)據(jù)層面和控制層面解耦,其中數(shù)據(jù)層面分類采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取及文本分類。實(shí)驗(yàn)結(jié)果表明,區(qū)塊鏈機(jī)制下的網(wǎng)絡(luò)敏感信息挖掘模型具有較強(qiáng)的安全防誤判能力、快速高效的點(diǎn)對(duì)點(diǎn)識(shí)別機(jī)制,能夠有效發(fā)掘并建立網(wǎng)游中敏感信息的詞典,同時(shí)保持高效精準(zhǔn)的特性。在區(qū)塊鏈技術(shù)架構(gòu)下研發(fā)精準(zhǔn)、高效的網(wǎng)游輿情防控體系,可為網(wǎng)絡(luò)安全提供事前、事中、事后全過程的輿情數(shù)據(jù)辨識(shí)、處理、溯源,具有廣泛的社會(huì)需求、較高的技術(shù)可行性和良好的應(yīng)用前景;同時(shí),也為后續(xù)公安大數(shù)據(jù)網(wǎng)絡(luò)敏感信息的挖掘提供了借鑒。

      猜你喜歡
      網(wǎng)游輿情區(qū)塊
      區(qū)塊鏈:一個(gè)改變未來的幽靈
      科學(xué)(2020年5期)2020-11-26 08:19:12
      區(qū)塊鏈:主要角色和衍生應(yīng)用
      科學(xué)(2020年6期)2020-02-06 08:59:56
      親子協(xié)力擊敗網(wǎng)游成癮
      區(qū)塊鏈+媒體業(yè)的N種可能
      讀懂區(qū)塊鏈
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      被網(wǎng)游點(diǎn)燃的午休時(shí)間
      微博的輿情控制與言論自由
      沁水县| 阜康市| 西峡县| 化州市| 绥芬河市| 闽清县| 新源县| 桂平市| 洪洞县| 华容县| 西城区| 衡阳县| 平罗县| 平乡县| 南召县| 曲周县| 富阳市| 尉氏县| 富源县| 赫章县| 彭山县| 常宁市| 垣曲县| 增城市| 德庆县| 高阳县| 随州市| 江陵县| 曲阜市| 郧西县| 孝昌县| 封丘县| 崇义县| 武夷山市| 晋江市| 金寨县| 乐清市| 瓮安县| 榆社县| 德庆县| 沙河市|