沈 宜,郭先會(huì),石 珺
(1.深圳市網(wǎng)聯(lián)安瑞網(wǎng)絡(luò)科技有限公司,廣東 深圳 518042;2.成都融微軟件服務(wù)有限公司,四川 成都 610095)
隨著科學(xué)技術(shù)的不斷發(fā)展以及人民生產(chǎn)生活水平的不斷提高,社會(huì)中累積的數(shù)據(jù)量在以驚人的速度不斷增長。在很多應(yīng)用場景中,快速增長的數(shù)據(jù)量使得利用傳統(tǒng)的統(tǒng)計(jì)工具和手段已無法有效地對(duì)數(shù)據(jù)進(jìn)行處理和分析,而以數(shù)據(jù)挖掘、深度學(xué)習(xí)、云計(jì)算等技術(shù)為代表的超算技術(shù)正逐步發(fā)展為數(shù)據(jù)分析領(lǐng)域的核心技術(shù)。大數(shù)據(jù)分析與應(yīng)用已經(jīng)與人工智能技術(shù)有了深度的融合,并成為推動(dòng)其發(fā)展的核心因素,數(shù)據(jù)智能的概念也應(yīng)運(yùn)而生。從管理的視角出發(fā),可將數(shù)據(jù)智能定義為:通過大規(guī)模數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等預(yù)測性分析技術(shù),對(duì)現(xiàn)實(shí)應(yīng)用場景的內(nèi)外部多源異構(gòu)大數(shù)據(jù)進(jìn)行處理和分析,從中提取有價(jià)值的信息或知識(shí),并用于提升復(fù)雜實(shí)踐活動(dòng)中的管理與決策水平。
互聯(lián)網(wǎng)上與日俱增的內(nèi)容不僅代表著更多的流量,也預(yù)示著巨大的內(nèi)容風(fēng)險(xiǎn)藏身其中。隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,新的技術(shù)和應(yīng)用不斷涌現(xiàn),以圖像、音頻、長短視頻為載體的新媒體在網(wǎng)絡(luò)空間中的應(yīng)用越來越廣泛,并同時(shí)催生了網(wǎng)絡(luò)直播、微博、微信公眾號(hào)以及各種自媒體等新的業(yè)務(wù)形態(tài),這些新事物在給人們工作生活帶來便利、消弭信息鴻溝的同時(shí),也滋生了一些不良信息。部分網(wǎng)站、內(nèi)容服務(wù)商片面追求經(jīng)濟(jì)利益,對(duì)內(nèi)容把關(guān)不嚴(yán),不良內(nèi)容信息(暴恐、低俗等)被傳播的問題持續(xù)存在。此外,某些居心叵測的人員利用微信、微博等社交媒體不斷進(jìn)行意識(shí)形態(tài)的滲透,組織恐怖極端主義和分裂主義的宣揚(yáng)活動(dòng),特別是隨著“深度偽造”等新技術(shù)的運(yùn)用,這些風(fēng)險(xiǎn)被進(jìn)一步集聚、放大,極易引發(fā)社會(huì)政治穩(wěn)定層面的問題,進(jìn)一步增加網(wǎng)絡(luò)空間中內(nèi)容安全治理的難度。其中,內(nèi)容安全是指對(duì)信息內(nèi)容的保護(hù),以及使信息內(nèi)容符合政治、法律、道德層次的要求[1]。
雖然數(shù)據(jù)智能已經(jīng)被廣泛應(yīng)用于多個(gè)領(lǐng)域,但與內(nèi)容安全治理相結(jié)合的應(yīng)用場景尚不多見。就目前情況來看,傳統(tǒng)的內(nèi)容安全治理手段面臨著如監(jiān)測手段落后、監(jiān)測對(duì)象多、監(jiān)測范圍廣、網(wǎng)絡(luò)環(huán)境復(fù)雜等現(xiàn)實(shí)問題。另外,針對(duì)網(wǎng)絡(luò)空間中傳播的各種多源異構(gòu)數(shù)據(jù),需要著重判斷是否有歷史不良信息內(nèi)容被再次傳播,是否出現(xiàn)了需要重點(diǎn)監(jiān)管的各種主題、特定內(nèi)容,是否存在偽造圖像、虛假新聞等內(nèi)容欺騙。面對(duì)這種形勢,部分監(jiān)管部門以人工研判為主要應(yīng)對(duì)手段,該方式工作量大、效率比較低,識(shí)別的準(zhǔn)確度和及時(shí)性也往往難以保證。此外,基于哈希的常規(guī)視圖像識(shí)別技術(shù)也無法滿足識(shí)別未知場景、形變圖像等新的治理需求。
面對(duì)這種局面,數(shù)據(jù)智能技術(shù)為內(nèi)容安全治理帶來了新的機(jī)遇,自然語言處理、基于深度學(xué)習(xí)的視圖像分析、多模態(tài)數(shù)據(jù)融合、知識(shí)圖譜、跨媒體分析與推理等技術(shù)的發(fā)展,能夠有效提高內(nèi)容鑒別、保護(hù)及違規(guī)審查等能力,將內(nèi)容安全治理向自動(dòng)化、智能化、高效化、精準(zhǔn)化方向推進(jìn)。
基于數(shù)據(jù)智能的內(nèi)容安全技術(shù)通過對(duì)自然語言處理、視圖像內(nèi)容識(shí)別以及跨媒體智能感知等技術(shù)的研究,對(duì)現(xiàn)有數(shù)據(jù)形態(tài)(包括文字、圖片、視頻等)進(jìn)行處理和分析,提取出數(shù)據(jù)中包含的有價(jià)值的信息,提升對(duì)海量數(shù)據(jù)的內(nèi)容安全治理能力?;跀?shù)據(jù)智能的內(nèi)容安全技術(shù)主要包括基于自然語言處理的虛假信息檢測技術(shù)、基于深度學(xué)習(xí)的視圖像內(nèi)容智能分析技術(shù)和跨媒體智能感知技術(shù)。
虛假信息是指經(jīng)過有意地、無意地扭曲過的消息,或憑空捏造的消息。在虛假信息活動(dòng)中,信息本身和該信息來源可能是虛假的、不完整的或誤導(dǎo)性的。隨著社交媒體的蓬勃發(fā)展,虛假信息的傳播量呈爆炸式增長,企業(yè)可能會(huì)利用虛假信息來詆毀競爭對(duì)手,政黨可以以獨(dú)立組織或組織領(lǐng)導(dǎo)人為目標(biāo)制造虛假信息,各國之間可以利用虛假信息來削弱和打擊對(duì)手。虛假信息已被視為對(duì)民主、正義、公眾信任以及公共安全的重大威脅之一。與傳統(tǒng)媒體相比,社交媒體具備的海量的數(shù)據(jù)量、極高的訪問便利性和高速的傳播速度等特性,給虛假信息的監(jiān)管帶來了極大的挑戰(zhàn)。
如圖1 所示,基于自然語言處理的虛假信息檢測技術(shù)包括面向中文的語言、語義特征挖掘與處理技術(shù),基于內(nèi)容的虛假信息檢測技術(shù)和基于多種混合特征的虛假信息檢測技術(shù)。同時(shí),通過構(gòu)建中文虛假信息數(shù)據(jù)集,提高標(biāo)注人員的知識(shí)儲(chǔ)備和個(gè)人判斷能力。
圖1 基于自然語言處理的虛假信息檢測技術(shù)組成
1.1.1 面向中文的語言、語義等特征的挖掘與處理技術(shù)
通過對(duì)語言與語義特征挖掘分析、更高層次特征挖掘以及中文自然語言處理,實(shí)現(xiàn)對(duì)中文語言、語義等特征的挖掘與處理。
(1)語言與語義特征挖掘
虛假信息包括信息的創(chuàng)作者、正文(標(biāo)題)、舉例、引用數(shù)據(jù)等實(shí)體內(nèi)容以及情感、動(dòng)機(jī)、主題等非實(shí)體內(nèi)容,基于語言、語義的特征以及基于風(fēng)格的特征是虛假信息檢測的最常用屬性。通過分析可以發(fā)現(xiàn),虛假信息的文本長度、專業(yè)詞匯、標(biāo)題表達(dá)形式等均與真實(shí)信息存在不同程度的差異,并且真實(shí)信息通過討論來說服,虛假信息往往通過引導(dǎo)來說服。
中文作為一種表意文字,具有高度的概括性和簡潔性,表達(dá)效率高,與英語等表音文字具有顯著的差異。比如,在語言學(xué)上,二者存在顯著的語法特征差異、句式差異、句子長短等差異。此外,中文中還存在大量的成語、俗語以及古語等。因此,需要針對(duì)中文的語言和語義特征進(jìn)行針對(duì)性的研究和建模,進(jìn)而建立特殊的判斷機(jī)制。
(2)更高層次特征挖掘
虛假信息與真實(shí)信息在寫作風(fēng)格、寫作質(zhì)量和表達(dá)的情感等方面存在潛在差異。虛假信息中往往具備特定的寫作風(fēng)格,以吸引或誤導(dǎo)用戶,如虛假信息的標(biāo)題和內(nèi)容往往帶有蠱惑性或煽動(dòng)性的語言,從而吸引不同受眾閱讀和轉(zhuǎn)發(fā)。針對(duì)文本內(nèi)容中主張、意圖、動(dòng)機(jī)、情感等更高層次的語義特征挖掘和建模是研究的主要方向。通過對(duì)高層次特征進(jìn)行提取,可為虛假信息的識(shí)別提供更有力的支撐。
(3)中文自然語言處理
在自然語言處理方面,由于中英文存在顯著的差異,在自然語言處理(Natural Language Processing,NLP)算法設(shè)計(jì)中,需要特別注意中英文的詞性標(biāo)注方法差異、字體特征差異、詞匯粒度處理方法差異、句法結(jié)構(gòu)分析方法差異以及歧義問題與子串轉(zhuǎn)義處理差異等。
1.1.2 基于內(nèi)容的虛假信息檢測技術(shù)
語言和語義等特征是文本信息中最基礎(chǔ)的特征,也是基于內(nèi)容的虛假信息檢測的基礎(chǔ)。在語言與語義特征挖掘時(shí),可利用釋義、語法檢查和詞嵌入工具來提取虛假信息文本中的特征,從而在詞匯層次、句法層次、語義層次和篇章層次上對(duì)文本內(nèi)容進(jìn)行全面的研究和表征。此外,還可以通過文本風(fēng)格評(píng)估虛假信息的意圖,即是否有誤導(dǎo)公眾的意圖。惡意用戶更喜歡用“特殊”風(fēng)格撰寫虛假信息,以鼓勵(lì)他人閱讀并說服他們信任?;谛睦韺W(xué)的方法有助于挖掘用戶意圖、主張、情感等更高層次的特征,進(jìn)而推動(dòng)虛假信息的識(shí)別。
另外,還可以將注意力機(jī)制引入檢測機(jī)制中,注意力機(jī)制可歸結(jié)為給予需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域(注意力焦點(diǎn))更重要的注意力。注意力機(jī)制在自然語言處理中可以看成一種自動(dòng)加權(quán)機(jī)制,它可以把兩個(gè)想要聯(lián)系起來的不同模塊,通過加權(quán)的形式進(jìn)行聯(lián)系。通過設(shè)計(jì)一個(gè)函數(shù)將目標(biāo)模塊和源模塊關(guān)聯(lián),然后通過歸一化函數(shù)得到概率分布。它有一個(gè)很大的優(yōu)點(diǎn)就是可以可視化Attention 矩陣,來告訴研究人員神經(jīng)網(wǎng)絡(luò)在進(jìn)行任務(wù)時(shí)關(guān)注了哪些部分?;谶@些信息可以結(jié)合數(shù)據(jù)模型,對(duì)是否存在虛假信息的概率進(jìn)行進(jìn)一步判斷。注意力機(jī)制的主要計(jì)算公式如下:
式中:at為每個(gè)時(shí)間步對(duì)應(yīng)的權(quán)重向量;mt為當(dāng)前decoder 第t個(gè)時(shí)間步的隱藏狀態(tài);ms為encoder 第s個(gè)時(shí)間步的隱藏狀態(tài);Wa為權(quán)重矩陣;f(mt,ms)為一個(gè)基于內(nèi)容的函數(shù),可以通過4 種方式實(shí)現(xiàn),其中dot 表示點(diǎn)乘/點(diǎn)積,contact 表示把兩個(gè)變量連接起來,general 表示中間加權(quán)參數(shù)。
式(1)表示全注意模式在計(jì)算解碼(decoder)的每個(gè)時(shí)間步的上下文向量時(shí),均考慮編碼(encoder)所有隱藏狀態(tài)。式(2)用于計(jì)算權(quán)重。
1.1.3 基于多種混合特征的虛假信息檢測技術(shù)
由于虛假信息的復(fù)雜性和模糊性,多種方法的結(jié)合運(yùn)用勢在必行??梢酝ㄟ^將虛假信息的文本信息、創(chuàng)作者與相關(guān)用戶的賬戶信息及其可信度、社會(huì)背景信息、傳播網(wǎng)絡(luò)中的兩種或多種特征通過特定的網(wǎng)絡(luò)進(jìn)行融合,有效提高虛假信息檢測的可信度。
1.1.4 構(gòu)建中文虛假信息數(shù)據(jù)集
當(dāng)前,基于虛假信息檢測的中文數(shù)據(jù)集極度缺乏,這無疑是一個(gè)巨大的挑戰(zhàn)。而數(shù)據(jù)智能系統(tǒng)的構(gòu)建往往依賴于大量的標(biāo)注數(shù)據(jù),因此建立一個(gè)有效的虛假信息數(shù)據(jù)集勢在必行。在數(shù)據(jù)集的建立過程中需要特別注意以下幾個(gè)方面的問題:首先,應(yīng)根據(jù)應(yīng)用場景對(duì)虛假信息進(jìn)行準(zhǔn)確定義,避免因個(gè)體的不同對(duì)虛假信息的理解存在差異;其次,根據(jù)虛假信息的定義設(shè)定判斷基線,提高標(biāo)注人員的知識(shí)儲(chǔ)備和個(gè)人判斷能力;最后,需要加強(qiáng)多學(xué)科、跨學(xué)科知識(shí)的積累,盡可能避免信息的準(zhǔn)確性受到時(shí)代背景、前后文關(guān)聯(lián)信息等因素的影響。
隨著網(wǎng)絡(luò)空間業(yè)務(wù)形式和內(nèi)容越來越多元化,海量的多樣化數(shù)據(jù)也在不斷產(chǎn)生,對(duì)網(wǎng)絡(luò)空間中非結(jié)構(gòu)化數(shù)據(jù)及相互關(guān)系的分析和治理已成為必然,這與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)處理相比,在方法和技術(shù)方面都存在巨大挑戰(zhàn)。基于深度學(xué)習(xí)的視圖像內(nèi)容智能分析技術(shù)主要包括圖像近似拷貝檢測技術(shù)、視圖像分類技術(shù)、目標(biāo)檢測識(shí)別技術(shù)和光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)等內(nèi)容。
圖2 基于深度學(xué)習(xí)的視圖像內(nèi)容智能分析技術(shù)組成
1.2.1 圖像近似拷貝檢測技術(shù)
圖像近似拷貝檢測技術(shù)通過從圖像中提取視覺唯一特征(圖像指紋),形成基于圖像內(nèi)容的高效圖像檢索技術(shù)。由于混合局部特征和全局特征描述,圖像近似拷貝檢測技術(shù)具有識(shí)別準(zhǔn)確率高、識(shí)別速度快、抗干擾能力強(qiáng)的特點(diǎn)。圖像近似拷貝檢測技術(shù)可以很好地檢測出翻拍、裁剪、旋轉(zhuǎn)、灰度化等多種人為的特殊處理,如圖3 所示。
圖3 圖像翻拍/圖像裁剪/圖像旋轉(zhuǎn)/灰度化等形變示例
圖像近似拷貝檢測流程分為多步,總的來說可以劃分為提取特征、構(gòu)建索引和相似性度量3 個(gè)模塊,具體的流程如圖4 所示[2]。
圖4 近似拷貝圖像檢測流程
視頻近似拷貝檢測技術(shù)基于尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征計(jì)算與分布式系統(tǒng)視頻特征索引相結(jié)合的方式實(shí)現(xiàn)。該技術(shù)首先利用圖形處理器(Graphics Processing Unit,GPU)上的硬解碼組件對(duì)視頻流進(jìn)行并行解碼處理;其次采用關(guān)鍵幀提取的方法依次從解碼后的視頻序列中取出各個(gè)關(guān)鍵幀信息,并逐個(gè)提取關(guān)鍵幀的SIFT 高維特征點(diǎn),即視覺唯一特征;最后對(duì)這些特征點(diǎn)進(jìn)行索引處理,通過視頻高維特征集的索引與分布式檢索系統(tǒng)相結(jié)合的方式,可實(shí)現(xiàn)大規(guī)模視覺特征集的快速搜索。
1.2.2 視圖像分類技術(shù)
目前較為流行的圖像分類架構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),它將圖像送入網(wǎng)絡(luò),然后對(duì)圖像數(shù)據(jù)進(jìn)行分類。卷積神經(jīng)網(wǎng)絡(luò)從輸入窗口開始,該輸入窗口不會(huì)一次性解析所有的訓(xùn)練數(shù)據(jù)。比如輸入一個(gè)大小為100×100 的圖像,也不需要一個(gè)有10 000 個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)層,只需要?jiǎng)?chuàng)建一個(gè)大小為10×10 的掃描輸入層,掃描圖像的前10×10 個(gè)像素,然后向右移動(dòng)一個(gè)像素,再掃描下一個(gè)10×10 的像素,這就是滑動(dòng)窗口,如圖5 所示[3]。
圖5 卷積神經(jīng)網(wǎng)絡(luò)
輸入數(shù)據(jù)被送入卷積層,而不是普通層。每個(gè)節(jié)點(diǎn)只需要處理離自己最近的鄰近節(jié)點(diǎn),卷積層也隨著掃描的深入而趨于收縮。為了進(jìn)一步提取高維特征并降低計(jì)算量,還需要對(duì)特征進(jìn)行池化,假如得到一個(gè)局部特征,它是一個(gè)圖像的一個(gè)局部放大圖,分辨率很大,那么就可以將一些像素點(diǎn)周圍的像素點(diǎn)(特征值)近似看待,然后統(tǒng)計(jì)平面內(nèi)某一位置及其相鄰位置的特征值,并將匯總后的結(jié)果作為這一位置在該平面的值。
此外,還可以運(yùn)用多模態(tài)特征的視頻分類方法進(jìn)行視頻內(nèi)容的分類。該視頻分類方法采用3D 卷積提取圖像和短視頻特征,并放入長短記憶網(wǎng)絡(luò)LSTM 進(jìn)行序列識(shí)別,實(shí)現(xiàn)對(duì)圖像的識(shí)別,達(dá)到圖像分類的目的。
1.2.3 目標(biāo)檢測識(shí)別技術(shù)
目前,基于深度學(xué)習(xí)的目標(biāo)檢測與識(shí)別算法大致分為以下三大類:
(1)基于區(qū)域建議的目標(biāo)檢測與識(shí)別算法,如R-CNN、Fast-R-CNN、Faster-R-CNN;
(2)基于回歸的目標(biāo)檢測與識(shí)別算法,如YOLO、SSD;
(3)基于搜索的目標(biāo)檢測與識(shí)別算法,如基于視覺注意的AttentionNet、基于強(qiáng)化學(xué)習(xí)的算法。
考慮到網(wǎng)絡(luò)空間治理對(duì)象的特殊性,本文選擇的算法為基于區(qū)域建議的目標(biāo)檢測與識(shí)別算法,即R-CNN、Fast-R-CNN 和Faster-R-CNN。
R-CNN 的基本工作流程如圖6 所示,具體描述如下[4]:
圖6 R-CNN 算法原理
(1)接收一個(gè)圖像,使用Selective Search 選擇大約2 000 個(gè)從上到下的類無關(guān)的候選區(qū)域(proposal);
(2)將提取出來的候選區(qū)域轉(zhuǎn)換為統(tǒng)一大小的圖片(拉升/壓縮等方法),使用CNN 模型提取每一個(gè)候選區(qū)域的固定長度的特征;
(3)使用特定類別的線性支持向量機(jī)(Support Vector Machine,SVM)分類器對(duì)每一個(gè)候選區(qū)域進(jìn)行分類;
(4)Bounding Box 回歸。
快速卷積網(wǎng)絡(luò)目標(biāo)(Region-Convolutional Neural Networks,F(xiàn)ast R-CNN)的主要作用是實(shí)現(xiàn)了對(duì)R-CNN 的加速,它在R-CNN 的基礎(chǔ)上主要有以下幾個(gè)方面的改進(jìn):
(1)借鑒了空間金字塔池化網(wǎng)絡(luò)(Spatial Pyramid Pooling Network,SPP Net)的思路,提出了簡化版的感興趣區(qū)域(Region Of Interest,ROI)池化層(沒有使用金字塔),同時(shí)加入了候選框映射的功能,使得網(wǎng)絡(luò)能夠進(jìn)行反向傳播,解決了SPP的整體網(wǎng)絡(luò)訓(xùn)練的問題。
(2)多任務(wù)Loss 層。首先使用了Softmax 代替SVM 進(jìn)行多分類,其次采用SmoothL1Loss 取代了Bounding Box 回歸。
Faster R-CNN 和Faste R-CNN 的不同點(diǎn)主要是使用區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)進(jìn)行region proposal 的選擇,并且將RPN 合并到CNN 中,從而實(shí)現(xiàn)了端到端的目標(biāo)檢測。
1.2.4 OCR 識(shí)別技術(shù)
在傳統(tǒng)技術(shù)中,OCR 技術(shù)主要采用模板匹配的方式來進(jìn)行分類,通過識(shí)別每個(gè)單字符的字形筆畫進(jìn)而實(shí)現(xiàn)全文的識(shí)別,但通過這一方法可能會(huì)導(dǎo)致上下文信息的丟失。所以,通過使用深度學(xué)習(xí)的方法來對(duì)各種文字的常用字符進(jìn)行建模,并引入上下文的信息進(jìn)行綜合判斷,可以有效地提升識(shí)別的整體準(zhǔn)確率。從數(shù)據(jù)智能技術(shù)來看,要引入上下文這樣的序列信息,RNN 和長短記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)等依賴于時(shí)序關(guān)系的神經(jīng)網(wǎng)絡(luò)是最理想的選擇。CNN+Softmax/CNN+RNN+CTC/CNN+RNN+注意力機(jī)制的結(jié)構(gòu)如圖7 所示[5]。
圖7 CNN+Softmax/CNN+RNN+CTC/CNN+RNN+注意力機(jī)制
網(wǎng)絡(luò)空間中所蘊(yùn)含的話題、事件和模式往往以文本、圖像、視頻和空間位置等不同模態(tài)的媒體數(shù)據(jù)從不同側(cè)面進(jìn)行整體性表現(xiàn)。有著相同語義、主題和事件的跨媒體數(shù)據(jù)在不同網(wǎng)絡(luò)平臺(tái)上瞬時(shí)涌現(xiàn),進(jìn)而迅速演化和二次傳播,往往會(huì)很快引發(fā)熱點(diǎn)話題或者內(nèi)容安全事件。發(fā)現(xiàn)多模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,以及數(shù)據(jù)與現(xiàn)實(shí)生活個(gè)體和群體行為之間的相互影響規(guī)律,揭示以特定事件為內(nèi)容的跨媒體數(shù)據(jù)傳播與演化機(jī)制,對(duì)跨媒體數(shù)據(jù)所蘊(yùn)含話題、事件和模式進(jìn)行語義理解,建立跨媒體推理模型,挖掘話題、事件和模式之間的隱性關(guān)聯(lián),是內(nèi)容安全治理工作中非常關(guān)鍵的問題。
1.3.1 跨媒體數(shù)據(jù)知識(shí)表征
深度神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)分析中不斷取得突破性成功,這給跨媒體統(tǒng)一關(guān)聯(lián)表征帶來了新的思路。針對(duì)不同的跨媒體數(shù)據(jù)表現(xiàn)形式,可以通過構(gòu)建基于規(guī)則的知識(shí)圖譜,使用統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行表征學(xué)習(xí),然后基于深度神經(jīng)網(wǎng)絡(luò)提取出高度抽象的特征,并基于此抽象特征進(jìn)行跨媒體智能感知與分析任務(wù)。
1.3.2 跨媒體融合糾錯(cuò)的媒體要素標(biāo)記
基于深度神經(jīng)網(wǎng)絡(luò),利用卷積層級(jí)網(wǎng)絡(luò)結(jié)構(gòu)和回復(fù)式網(wǎng)絡(luò)結(jié)構(gòu),可以充分學(xué)習(xí)媒體內(nèi)部和媒體之間的多級(jí)關(guān)聯(lián)關(guān)系。同時(shí)利用多任務(wù)學(xué)習(xí)框架自適應(yīng)平衡媒體內(nèi)語義類別約束以及媒體間成對(duì)相似性約束學(xué)習(xí)過程,進(jìn)而對(duì)跨媒體的媒體要素標(biāo)記進(jìn)行融合糾錯(cuò),例如,可以用這種方法將圖片對(duì)應(yīng)的錯(cuò)誤文本描述糾正為正確文本。
1.3.3 跨媒體智能描述與檢索
自生成對(duì)抗網(wǎng)絡(luò)提出以來,便成為學(xué)術(shù)界的研究熱點(diǎn)。其最基本的思想就是從訓(xùn)練集里獲取很多的訓(xùn)練樣本,從而學(xué)習(xí)這些訓(xùn)練案例生成的概率分布。利用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行跨媒體智能描述與生成,給定一種媒體類型的數(shù)據(jù),生成另一種媒體類型的數(shù)據(jù),如給定圖像,生成其文本描述,以及給定文本,生成其描繪的圖像。同時(shí),基于跨媒體數(shù)據(jù)知識(shí)表征技術(shù)得到高度抽象的跨媒體表達(dá),利用典型相關(guān)性分析方法將多個(gè)媒體的特征進(jìn)行關(guān)聯(lián),使其相關(guān)性最大,同時(shí)為了增強(qiáng)多媒體表達(dá)的語義一致性,可以將語義一致性引入多媒體的相關(guān)性學(xué)習(xí)中,從而成功進(jìn)行跨媒體檢索任務(wù)。
1.3.4 跨媒體知識(shí)挖掘與推理
跨媒體知識(shí)挖掘與推理的目的是提供可計(jì)算的知識(shí)表達(dá)結(jié)構(gòu)?;谥R(shí)圖譜的跨媒體知識(shí)挖掘與推理能解決跨模態(tài)認(rèn)知的難題,實(shí)現(xiàn)在跨模態(tài)環(huán)境中進(jìn)行語義關(guān)系分析以及認(rèn)知層級(jí)的推理。通過采用知識(shí)圖譜進(jìn)行跨媒體知識(shí)挖掘與推理,并采用跨媒體智能描述技術(shù)得到語義一致的文本,進(jìn)而建立描述真實(shí)世界的跨模態(tài)知識(shí)圖譜,同時(shí)提供基于知識(shí)圖譜的跨模態(tài)應(yīng)用接口,從而實(shí)現(xiàn)跨模態(tài)推理,高效解決跨模態(tài)認(rèn)知問題。
通過對(duì)自然語言處理、特征提取、深度學(xué)習(xí)以及跨媒體感知等系列數(shù)據(jù)智能技術(shù)進(jìn)行深入研究,并以此為核心,緊密圍繞網(wǎng)絡(luò)安全與信息化,聚焦內(nèi)容安全,本文提出了一種“數(shù)據(jù)+內(nèi)容安全”的思路,將基于數(shù)據(jù)智能的內(nèi)容安全技術(shù)應(yīng)用在網(wǎng)絡(luò)空間治理中,融合多種智能識(shí)別算法,形成覆蓋文字、視頻和圖像的多模態(tài)內(nèi)容監(jiān)測綜合解決方案。系統(tǒng)架構(gòu)如圖8 所示。
圖8 多模態(tài)內(nèi)容監(jiān)測平臺(tái)
(1)基礎(chǔ)設(shè)施層:提供硬件支撐。包含GPU服務(wù)器、中央處理器(Central Processing Unit,CPU)服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備等。
(2)數(shù)據(jù)處理層:提供數(shù)據(jù)支撐,主要負(fù)責(zé)從互聯(lián)網(wǎng)等網(wǎng)絡(luò)平臺(tái)抓取新媒體數(shù)據(jù),完成對(duì)新媒體內(nèi)容的采集,以及數(shù)據(jù)去重、文本提取、視頻轉(zhuǎn)碼、視頻抽幀等系列數(shù)據(jù)處理工作。
(3)數(shù)據(jù)存儲(chǔ):采用分布式存儲(chǔ)架構(gòu)設(shè)計(jì),主要包括分布式數(shù)據(jù)庫管理系統(tǒng)(Database Management System,DBMS)存儲(chǔ)方式和文件存儲(chǔ)方式,除了負(fù)責(zé)存儲(chǔ)采集到的信息,還存儲(chǔ)識(shí)別規(guī)則庫等信息。
(4)內(nèi)容分析層:提供內(nèi)容分析支撐,包括內(nèi)容識(shí)別引擎、有害信息識(shí)別規(guī)則庫和跨媒體智能感知。內(nèi)容識(shí)別引擎根據(jù)內(nèi)容識(shí)別規(guī)則庫,結(jié)合視頻指紋識(shí)別、視圖智能分析、關(guān)鍵字匹配等技術(shù),對(duì)采集到的新媒體內(nèi)容進(jìn)行多維度識(shí)別匹配及智能分析,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)空間中不良信息內(nèi)容的自動(dòng)識(shí)別分析;跨媒體智能感知基于規(guī)則的知識(shí)圖譜和跨媒體知識(shí)挖掘與推理,實(shí)現(xiàn)文本、圖像的感知。
(5)應(yīng)用服務(wù)層:提供各類監(jiān)管應(yīng)用的業(yè)務(wù)邏輯,實(shí)現(xiàn)對(duì)網(wǎng)站、微信公眾號(hào)、微博、小視頻APP、直播等各類應(yīng)用平臺(tái)的內(nèi)容監(jiān)測。
(6)人機(jī)交互層:以web 網(wǎng)頁形式將各類功能進(jìn)行展示。用戶通過web 瀏覽器對(duì)系統(tǒng)進(jìn)行登錄和訪問,并能夠?qū)崟r(shí)查看監(jiān)測的不良信息。
(7)運(yùn)維管理:提供系統(tǒng)平臺(tái)配置,包括參數(shù)配置、權(quán)限管理、系統(tǒng)監(jiān)控和數(shù)據(jù)備份等。
本文對(duì)數(shù)據(jù)智能技術(shù)的發(fā)展情況及網(wǎng)絡(luò)空間內(nèi)容安全治理面臨的問題進(jìn)行分析,結(jié)合工作經(jīng)驗(yàn)和項(xiàng)目實(shí)踐,闡述了如何利用自然語言處理、特征提取、深度學(xué)習(xí)以及跨媒體感知等系列數(shù)據(jù)智能技術(shù)進(jìn)行虛假信息檢測、視頻和圖像內(nèi)容分析以及多模態(tài)內(nèi)容的感知,從而為復(fù)雜形勢下的網(wǎng)絡(luò)空間內(nèi)容安全治理提供了有力支撐。該解決方案形成的識(shí)別引擎、分析工具、系統(tǒng)和平臺(tái)系列化產(chǎn)品已為多個(gè)行業(yè)提供了以數(shù)據(jù)智能為核心的技術(shù)手段,助力網(wǎng)絡(luò)空間內(nèi)容安全治理。