周 南,杜軍平+,姚 旭,梁美玉,薛 哲,LEE JangMyung
1.北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,計(jì)算機(jī)學(xué)院,北京100876
2.釜山國(guó)立大學(xué)電子工程系,韓國(guó)釜山46241
微博作為一種被廣泛應(yīng)用的社交網(wǎng)絡(luò)平臺(tái),因?yàn)槠潢P(guān)注機(jī)制和信息實(shí)時(shí)傳播機(jī)制受到了廣大用戶的青睞[1]?,F(xiàn)階段微博平臺(tái)已經(jīng)成為用戶分享經(jīng)驗(yàn)、感想和看法的公共虛擬平臺(tái)。同時(shí),微博也成為大家獲取信息的關(guān)鍵渠道。通過(guò)微博平臺(tái)用戶可以發(fā)表并討論發(fā)生在身邊的各類(lèi)事件和對(duì)這些事件的看法。用戶談?wù)摰膰?guó)民安全話題內(nèi)容在微博平臺(tái)上廣泛傳播,這些國(guó)民安全話題內(nèi)容往往反映大家對(duì)國(guó)計(jì)民生的看法,因此,在微博數(shù)據(jù)環(huán)境下對(duì)國(guó)民安全事件相關(guān)話題進(jìn)行有效搜索,對(duì)于用戶了解社會(huì)發(fā)展和國(guó)計(jì)民生有著重要意義。
在微博大數(shù)據(jù)環(huán)境下,傳統(tǒng)搜索方法已無(wú)法滿足要求,需要在特定搜索情境下進(jìn)行相關(guān)數(shù)據(jù)發(fā)現(xiàn)與數(shù)據(jù)特征挖掘[2-3]。在傳統(tǒng)方法中,詞項(xiàng)頻率-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)、Okapi Best Matching(BM25)等概率模型方法得到了廣泛應(yīng)用。近年來(lái),深度學(xué)習(xí)方法的發(fā)展和應(yīng)用推進(jìn)了信息搜索研究,以詞嵌入(word embedding)為基礎(chǔ)的端到端神經(jīng)網(wǎng)絡(luò)模型在信息搜索領(lǐng)域研究中有著重要影響[4]。同時(shí),基于深度神經(jīng)網(wǎng)絡(luò)的信息搜索方法也不斷出現(xiàn),如DSSM(deep structured semantic model)[5]和 CLSM(convolutional latent semantic model)[6]等。這些方法基于深度語(yǔ)義特征表示進(jìn)行搜索匹配,適用于傳統(tǒng)信息搜索問(wèn)題。但是對(duì)于具有語(yǔ)義稀疏性的微博數(shù)據(jù)難以適應(yīng)其語(yǔ)義稀疏性。
本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的國(guó)民安全話題微博內(nèi)容搜索方法(microblog search method based on deep convolutional neural networks,MS-DCNN),對(duì)國(guó)民安全話題相關(guān)內(nèi)容進(jìn)行搜索,并依據(jù)搜索目標(biāo)內(nèi)容進(jìn)行匹配和相關(guān)性排序。該方法由微博內(nèi)容篩選模型和微博內(nèi)容匹配兩部分組成。微博內(nèi)容篩選采用卷積神經(jīng)網(wǎng)絡(luò)方法代替?zhèn)鹘y(tǒng)索引模型方法,實(shí)現(xiàn)對(duì)相關(guān)內(nèi)容的快速定位和篩選。微博內(nèi)容匹配基于“配對(duì)查詢(xún)(pair-wise)”思想,依據(jù)查詢(xún)相似度進(jìn)行匹配排序,得到最終結(jié)果。
社交網(wǎng)絡(luò)搜索尤其是微博搜索已經(jīng)成為信息搜索研究領(lǐng)域重要的分支。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在信息搜索領(lǐng)域的廣泛應(yīng)用推動(dòng)了社交網(wǎng)絡(luò)搜索研究的發(fā)展。深度神經(jīng)網(wǎng)絡(luò)可以針對(duì)微博信息特殊的數(shù)據(jù)特性進(jìn)行有效的學(xué)習(xí)和處理,對(duì)提高微博搜索匹配效率和準(zhǔn)確率有極大幫助。
黃河燕[7]提出了采用大數(shù)據(jù)可視化方法對(duì)社交網(wǎng)絡(luò)進(jìn)行分析。Chy等[8]提出了基于微博查詢(xún)時(shí)效和詞嵌入方法,進(jìn)行微博內(nèi)容相關(guān)性查詢(xún)的微博搜索,該方法能解決由于關(guān)鍵詞匯歧義造成的匹配錯(cuò)誤問(wèn)題,并利用時(shí)序關(guān)系和微博上下文進(jìn)行微博內(nèi)容搜索和匹配。Wang等[9]提出一種基于查詢(xún)的反饋概念模型來(lái)解決微博搜索問(wèn)題,該方法通過(guò)挖掘語(yǔ)義概念信息,并將具有相關(guān)關(guān)系的語(yǔ)義概念組織起來(lái)作為一種混合語(yǔ)義概念模型,最終利用該模型進(jìn)行語(yǔ)義擴(kuò)展來(lái)提高微博搜索效率。
Srinivasan等[10]通過(guò)構(gòu)建候選關(guān)鍵字集合來(lái)準(zhǔn)確地關(guān)聯(lián)相關(guān)微博內(nèi)容,用以實(shí)現(xiàn)微博數(shù)據(jù)內(nèi)容自動(dòng)篩選。Hao等[11]提出了一種微博新聞信息相關(guān)查詢(xún)范式,該范式對(duì)用戶提出的查詢(xún)?nèi)蝿?wù)進(jìn)行重新定義,并將微博數(shù)據(jù)定義為動(dòng)態(tài)詞語(yǔ)圖模型,將查詢(xún)范式與微博詞語(yǔ)圖模型進(jìn)行匹配計(jì)算,獲得查詢(xún)結(jié)果。傳統(tǒng)微博搜索多采用查詢(xún)驅(qū)動(dòng)結(jié)合內(nèi)容相關(guān)性、擴(kuò)展查詢(xún)[12]以及時(shí)效信息[13-14]等。
深度神經(jīng)網(wǎng)絡(luò)方法在信息搜索領(lǐng)域的應(yīng)用有效提高了信息搜索效率。Salakhutdinov和Hinton[15]提出了采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行ad-hoc信息搜索。該方法基于深度自編碼方法,用于無(wú)標(biāo)記文檔搜索。Deng等[16]提出了深度堆疊網(wǎng)絡(luò),并將該方法應(yīng)用到以相關(guān)性預(yù)測(cè)為基礎(chǔ)的信息搜索任務(wù)。Bao和Wu[17]提出一種張量神經(jīng)網(wǎng)絡(luò),采用分層預(yù)訓(xùn)練的思想來(lái)解決問(wèn)答搜索問(wèn)題,用于基于社區(qū)的問(wèn)答系統(tǒng)答案自動(dòng)搜索場(chǎng)景。
Wang等[18]利用深度神經(jīng)網(wǎng)絡(luò)方法來(lái)挖掘同源數(shù)據(jù)的多模態(tài)語(yǔ)義相關(guān)性,并利用該多模態(tài)語(yǔ)義相關(guān)性進(jìn)行跨媒體搜索。Ganguly等[19]提出一種廣義語(yǔ)言模型來(lái)實(shí)現(xiàn)基于詞嵌入的查詢(xún)似然語(yǔ)言建模,從而借助語(yǔ)言模型提升計(jì)算查詢(xún)相似度和匹配可靠程度。Shen等[20]對(duì)一些基于潛在語(yǔ)義卷積神經(jīng)網(wǎng)絡(luò)的Web查詢(xún)搜索進(jìn)行了討論,指出了將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于搜索匹配的關(guān)鍵所在。
Mitra等[21]提出了一種通過(guò)深度神經(jīng)網(wǎng)絡(luò)對(duì)查詢(xún)和文檔的局部特征表示進(jìn)行搜索和匹配的方法,依據(jù)輸入的關(guān)鍵局部查詢(xún)項(xiàng)作為模式對(duì)文檔中相應(yīng)的內(nèi)容進(jìn)行匹配。通過(guò)詞嵌入生成的語(yǔ)義向量空間和深度神經(jīng)網(wǎng)絡(luò),對(duì)關(guān)鍵局部查詢(xún)項(xiàng)的表示特征進(jìn)行學(xué)習(xí),可有效進(jìn)行匹配查詢(xún)。Guo等[22]提出利用深度神經(jīng)網(wǎng)絡(luò)對(duì)文本統(tǒng)計(jì)特征進(jìn)行學(xué)習(xí),計(jì)算查詢(xún)相似度進(jìn)行搜索匹配。
采用監(jiān)督學(xué)習(xí)方法對(duì)微博中的國(guó)民安全相關(guān)話題搜索問(wèn)題進(jìn)行建模。定義查詢(xún)?yōu)閝i∈Q,其中qi為某一具體安全事件內(nèi)容,Q為作為查詢(xún)的微博內(nèi)容的集合。國(guó)民安全相關(guān)話題的微博內(nèi)容包含反映國(guó)民安全話題內(nèi)容的語(yǔ)義要素,這些語(yǔ)義要素是識(shí)別和篩選國(guó)民安全話題內(nèi)容的關(guān)鍵局部語(yǔ)義特征。借助在線知識(shí)庫(kù),如維基百科等,來(lái)提取這些語(yǔ)義局部特征,將該過(guò)程定義為如式(1)所示。
其中,r(·,·)將查詢(xún)q映射為在內(nèi)容上構(gòu)成相關(guān)安全事件E的語(yǔ)義要素。每個(gè)e代表某一具體語(yǔ)義要素。k(·)通過(guò)在線知識(shí)庫(kù)為r(·,·)提供知識(shí)參考,以獲得全面的要素集合。
具有相似或相關(guān)的安全話題微博內(nèi)容可以通過(guò)m(·)獲得,定義如式(2)所示。
其中,rela(·)為具有相同或相似事件話題內(nèi)容的微博集合。
通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)可以對(duì)這些以詞匯為載體的局部意義特征進(jìn)行學(xué)習(xí),并在有效訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行篩選和匹配。處理過(guò)程定義如式(3)所示。
其中,f(·,·)在微博C中依據(jù)目標(biāo)語(yǔ)義要素搜索,并篩選相關(guān)微博文本內(nèi)容D。
在此基礎(chǔ)上,對(duì)篩選獲得的微博文本內(nèi)容進(jìn)行匹配排序,依據(jù)查詢(xún)目標(biāo)的相似度對(duì)結(jié)果進(jìn)行排序處理,形成最終結(jié)果,如式(4)所示。
其中,rank(·)將篩選結(jié)果進(jìn)行排序處理。
本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的微博話題內(nèi)容搜索方法(MS-DCNN),包括基于深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)安全話題微博內(nèi)容篩選和微博內(nèi)容匹配。分別以“逐點(diǎn)查詢(xún)(point-wise)”和“配對(duì)查詢(xún)(pair-wise)”為基礎(chǔ),對(duì)查詢(xún)內(nèi)容和篩選結(jié)果進(jìn)行局部語(yǔ)義特征非線性變換處理,進(jìn)行相似度計(jì)算,得到匹配排序結(jié)果。基于卷積神經(jīng)網(wǎng)絡(luò)的微博話題內(nèi)容搜索方法框架如圖1所示。
Fig.1 Microblog content search based on deep convolutional neural networks圖1 基于卷積神經(jīng)網(wǎng)絡(luò)的微博話題內(nèi)容搜索方法
本文提出的方法包括一個(gè)微博內(nèi)容篩選模型和一個(gè)微博內(nèi)容匹配模型,兩種模型分別基于卷積神經(jīng)網(wǎng)絡(luò)。篩選模型基于深度學(xué)習(xí)方法依據(jù)查詢(xún)內(nèi)容篩選相關(guān)微博文本內(nèi)容,代替了傳統(tǒng)搜索方法中的索引功能。微博內(nèi)容匹配模型對(duì)篩選后的微博內(nèi)容進(jìn)行排序。與傳統(tǒng)的信息搜索策略不同,本文提出的方法從局部語(yǔ)義特征學(xué)習(xí)和匹配等方面解決微博內(nèi)容搜索問(wèn)題,相對(duì)于基于詞項(xiàng)頻率和全局語(yǔ)義的傳統(tǒng)微博文本內(nèi)容搜索方法具有一定優(yōu)勢(shì)。
依據(jù)微博數(shù)據(jù)特性,在預(yù)處理階段采用預(yù)訓(xùn)練的詞嵌入方法,將微博數(shù)據(jù)內(nèi)容處理為可計(jì)算張量,為進(jìn)一步利用深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行非線性變換處理做準(zhǔn)備。微博內(nèi)容篩選采用“單點(diǎn)查詢(xún)”,對(duì)與查詢(xún)目標(biāo)微博內(nèi)容相同或相關(guān)的安全話題內(nèi)容進(jìn)行篩選,實(shí)現(xiàn)相關(guān)目標(biāo)內(nèi)容快速定位。微博內(nèi)容匹配基于深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)查詢(xún)目標(biāo)和候選內(nèi)容進(jìn)行并行局部語(yǔ)義特征非線性變換,對(duì)變換結(jié)果進(jìn)行相關(guān)相似度計(jì)算,得到最終的匹配排序結(jié)果。
本文采用中國(guó)科學(xué)院中文文本分析系統(tǒng)(Institute of Computing Technology,Chinese lexical analysis system,ICTCLAS)[23]對(duì)來(lái)自新浪微博的微博數(shù)據(jù)集進(jìn)行分詞處理。在分詞工作完成后進(jìn)行去除停用詞等降噪處理,將經(jīng)過(guò)去停用詞等降噪處理后留下的詞稱(chēng)為有效詞匯。一條由|p|個(gè)有效詞匯構(gòu)成的微博為,其中wi為構(gòu)成一段完整微博的第i個(gè)位置的詞匯。將每個(gè)詞匯映射為對(duì)應(yīng)的d維表示向量,即詞向量V∈?d。可以將一條微博映射為一個(gè)|M|×|P|的表示矩陣,即三維張量M=<Vw1,Vw2,…,Vw|P|> 。
根據(jù)微博內(nèi)容書(shū)寫(xiě)習(xí)慣,長(zhǎng)度一般不超過(guò)140個(gè)字符,并且在表達(dá)和語(yǔ)法上存在書(shū)寫(xiě)隨意的特點(diǎn),采用卷積神經(jīng)網(wǎng)絡(luò)與詞嵌入相結(jié)合的方法對(duì)微博內(nèi)容進(jìn)行處理[24]。微博文本內(nèi)容中夾雜著不規(guī)范的表達(dá)和多種符號(hào)信息,使得微博文本內(nèi)容中的詞序和語(yǔ)法都被削弱,另外微博的主要話題大多通過(guò)分散在文本中的特定詞匯來(lái)表達(dá),導(dǎo)致語(yǔ)義上的稀疏。因此,為適應(yīng)微博內(nèi)容的語(yǔ)義稀疏性,采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)潛在語(yǔ)義空間下的微博內(nèi)容向量進(jìn)行處理,利用卷積神經(jīng)網(wǎng)絡(luò)在局部特征處理上的優(yōu)勢(shì)來(lái)挖掘分散在微博文本內(nèi)容中有用的局部語(yǔ)義。因此,針對(duì)獨(dú)特的微博文本內(nèi)容的表達(dá)特點(diǎn),采用了卷積神經(jīng)網(wǎng)絡(luò)模型作為基礎(chǔ)來(lái)進(jìn)行微博文本內(nèi)容的篩選和匹配,從而實(shí)現(xiàn)微博話題內(nèi)容搜索。
采用卷積神經(jīng)網(wǎng)絡(luò)和詞嵌入方法處理微博內(nèi)容,目的是能夠有效處理微博內(nèi)容中起決定作用的分散的關(guān)鍵詞匯和短語(yǔ),并充分利用其蘊(yùn)含的局部語(yǔ)義特征?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)的微博內(nèi)容篩選如圖2所示,其中包括兩個(gè)卷積層,兩個(gè)最大池化層和兩個(gè)全連接層。定義卷積核為f∈?m,卷積運(yùn)算為*,對(duì)f與相應(yīng)的微博張量Mp∈?|p|進(jìn)行卷積運(yùn)算。參考Severyn和Moschitti[25]的工作,將卷積定義為如式(5)所示。
式(5)中,C_Fp為微博數(shù)據(jù)與卷積核在卷積運(yùn)算下的語(yǔ)義特征表示。該卷積運(yùn)算在微博語(yǔ)義空間中由位置i運(yùn)算到位置i+m-1。池化運(yùn)算與卷積運(yùn)算搭配進(jìn)行,在網(wǎng)絡(luò)結(jié)構(gòu)中卷積層后緊跟池化層。這里采用最大池化,定義如式(6)所示。
Fig.2 Microblog content filtering on topics based on deep convolutional neural networks圖2 基于深度卷積神經(jīng)網(wǎng)絡(luò)微博話題內(nèi)容篩選
基于深度卷積神經(jīng)網(wǎng)絡(luò)的微博內(nèi)容篩選描述如算法1所示。
算法1基于深度卷積神經(jīng)網(wǎng)絡(luò)微博話題內(nèi)容篩選算法
輸入:預(yù)訓(xùn)練微博話題內(nèi)容篩選模型和參數(shù),待篩選微博文本數(shù)據(jù)的嵌入空間表示向量。
輸出:相關(guān)微博內(nèi)容篩選結(jié)果。
步驟1加載預(yù)訓(xùn)練微博話題內(nèi)容篩選模型和參數(shù)。
步驟2輸入待篩選微博文本數(shù)據(jù)。
步驟3通過(guò)微博話題內(nèi)容篩選模型對(duì)待篩選數(shù)據(jù)的嵌入空間表示向量進(jìn)行卷積和最大池化運(yùn)算,獲得面向局部語(yǔ)義特征的深度特征表示。
步驟4通過(guò)全連接神經(jīng)網(wǎng)絡(luò)對(duì)步驟3所獲得的深度特征表示進(jìn)行非線性變換計(jì)算。
步驟5利用Softmax計(jì)算內(nèi)容相關(guān)概率分布。
步驟6記錄結(jié)果。
步驟7重復(fù)步驟2至步驟6直至篩選過(guò)程完成。
步驟8返回篩選結(jié)果。
其中,θ為深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)各部分參數(shù),P(q,d+)為文檔d+的相似度排名高于d-的概率分布,定義如式(8)所示。P(q,d+)依據(jù)帶有標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)計(jì)算。另外,依據(jù)交叉熵的定義,這里取a=2進(jìn)行計(jì)算。
通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)微博文本的局部語(yǔ)義特征進(jìn)行處理,獲取有效微博內(nèi)容特征表示,并篩選了與查詢(xún)目標(biāo)相關(guān)的內(nèi)容。參考Dehghani等[26]提出的模型,采用“配對(duì)查詢(xún)”對(duì)篩選結(jié)果進(jìn)行匹配排序處理。匹配過(guò)程分別對(duì)查詢(xún)目標(biāo)內(nèi)容和篩選結(jié)果進(jìn)行運(yùn)算處理,以微博原始語(yǔ)義空間非線性變換處理為核心,得到更低維的語(yǔ)義空間,并在此低維空間基礎(chǔ)上采用特征融合的方式,計(jì)算篩選結(jié)果與查詢(xún)目標(biāo)的內(nèi)容相似度,對(duì)篩選結(jié)果依據(jù)相似度進(jìn)行排名,微博內(nèi)容匹配框架如圖3所示。采用改進(jìn)的Softmax對(duì)融合特征進(jìn)行相似度分布計(jì)算。在訓(xùn)練過(guò)程中采用正例d+和反例d-的“配對(duì)查詢(xún)”,定義基于交叉熵用于訓(xùn)練的損失函數(shù)如式(7)所示。
P(q,d-)類(lèi)似于P(q,d+)。匹配和排序的目的是計(jì)算查詢(xún)目標(biāo)與篩選得到的微博內(nèi)容之間的相似度,基于改進(jìn)Softmax的相似度定義如式(9)所示。
Pr(q)改進(jìn)于Softmax定義如式(10)所示。
Fig.3 Microblog content matching based on deep convolutional neural networks圖3 基于深度卷積神經(jīng)網(wǎng)絡(luò)的微博話題內(nèi)容匹配
其中,F(xiàn)uq為特征融合的表示向量,用于計(jì)算排序相似度。函數(shù)nlargest(·)用于獲得式(10)中相似度概率分布中具有最大相似度的一項(xiàng),并返回該相似度。基于深度卷積神經(jīng)網(wǎng)絡(luò)的微博內(nèi)容匹配如算法2所示。
算法2基于深度卷積神經(jīng)網(wǎng)絡(luò)的微博內(nèi)容匹配算法
輸入:微博文本內(nèi)容篩選結(jié)果。
輸出:帶有安全類(lèi)話題內(nèi)容的搜索排序結(jié)果。
步驟1加載預(yù)訓(xùn)練微博話題內(nèi)容匹配模型和參數(shù)。
步驟2輸入嵌入空間特征向量表示下的查詢(xún)內(nèi)容和待排序內(nèi)容。
步驟3通過(guò)微博話題內(nèi)容匹配模型對(duì)待篩選數(shù)據(jù)的嵌入空間表示向量進(jìn)行卷積和最大池化運(yùn)算,獲得面向局部語(yǔ)義特征的深度特征表示。
步驟4通過(guò)式(11)、式(12)計(jì)算篩選結(jié)果和查詢(xún)內(nèi)容之間的相似度。
步驟5基于相似度對(duì)結(jié)果排序。
步驟6重復(fù)步驟2至步驟5直至待排序數(shù)據(jù)處理完成。
步驟7返回結(jié)果。
對(duì)查詢(xún)目標(biāo)內(nèi)容和篩選結(jié)果進(jìn)行相似度計(jì)算,相似度定義如式(11)所示。
其中,CNN_non_linear(·)為基于深度卷積神經(jīng)網(wǎng)絡(luò)的非線性變換,由卷積計(jì)算和最大池化計(jì)算組成,如式(5)和式(6)所示。卷積特征Fq∈R|q|和Fd∈R|d|通過(guò)C(·,·)進(jìn)行融合,如式(12)所示。
其中,運(yùn)算*為定義在卷積核f上的卷積計(jì)算,bi和bj為相應(yīng)的偏置項(xiàng)。運(yùn)算⊕定義為融合運(yùn)算。卷積核的尺寸為m,在對(duì)應(yīng)語(yǔ)義空間的位置i開(kāi)始進(jìn)行卷積和最大池化計(jì)算。
采用從新浪微博爬取的數(shù)據(jù)集,通過(guò)實(shí)驗(yàn)對(duì)本文提出的MS-DCNN方法與對(duì)比方法進(jìn)行驗(yàn)證與分析。與傳統(tǒng)信息搜索算法BM25[3]、基于全連接深度神經(jīng)網(wǎng)絡(luò)的搜索算法DSSM[5]、基于深度卷積神經(jīng)網(wǎng)絡(luò)的搜索算法CLSM[6]和Hu等[27]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的搜索方法Architecture-II進(jìn)行對(duì)比。
采用的數(shù)據(jù)集為爬取的新浪微博數(shù)據(jù),時(shí)間跨度為從2009年9月2日至2016年9月7日的621 718條微博數(shù)據(jù),其中238 726條微博為有效正例數(shù)據(jù)。正例數(shù)據(jù)中包括4類(lèi)安全事件話題內(nèi)容,分別為“恐怖襲擊類(lèi)”“意外傷害類(lèi)”“醫(yī)療事故類(lèi)”和“自然災(zāi)害類(lèi)”。除將數(shù)據(jù)集分為正例、噪聲數(shù)據(jù)外,將該數(shù)據(jù)集的70%用作訓(xùn)練集,30%用作測(cè)試集。數(shù)據(jù)分布如表1所示。
5.1.1 數(shù)據(jù)集
Table 1 Microblog data set quantity distribution表1 微博數(shù)據(jù)集數(shù)量分布
5.1.2 評(píng)價(jià)指標(biāo)
采用標(biāo)準(zhǔn)化折扣累積增益(normalized discounted cumulative gain,NDCG)[28]、均值平均精度(mean average precision,MAP)[29]和查詢(xún)準(zhǔn)確率(precision)評(píng)價(jià)上述方法的Topn搜索匹配效果。
在數(shù)據(jù)集上將MS-DCNN與BM25、DSSM、CLSM和Architecture-II四種對(duì)比方法通過(guò)計(jì)算前n項(xiàng)的NDCG、MAP和Precision進(jìn)行對(duì)比與分析。
5.2.1 在恐怖襲擊類(lèi)安全話題上的實(shí)驗(yàn)結(jié)果與分析
在恐怖襲擊類(lèi)安全話題上的實(shí)驗(yàn)結(jié)果如表2和圖4所示。從數(shù)據(jù)特性上看,恐怖襲擊類(lèi)微博話題內(nèi)容包括明顯指代“安全”語(yǔ)義的詞匯,例如“造成傷亡”“恐慌”等。這些詞匯在嵌入語(yǔ)義空間中具有鮮明的特征分布,通過(guò)卷積計(jì)算和池化計(jì)算等非線性變換所得到的語(yǔ)義特征空間中,這些具有鮮明的“安全”語(yǔ)義的詞匯也具有明確的特征分布。本文采用基于深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)這些詞匯在嵌入語(yǔ)義空間下的特征進(jìn)行處理,獲得了針對(duì)局部語(yǔ)義的特征表示,并進(jìn)行篩選和匹配,得到的實(shí)驗(yàn)結(jié)果較其他對(duì)比方法在搜索評(píng)價(jià)指標(biāo)上均有所提高。
Fig.4 Measures of search performance on terrorist attack event topics圖4 在恐怖襲擊類(lèi)安全話題上的搜索評(píng)價(jià)
5.2.2 在意外傷害類(lèi)安全話題上的實(shí)驗(yàn)結(jié)果與分析
如表3和圖5所示,DSSM方法和CLSM方法以全局語(yǔ)義深度特征表示為基礎(chǔ),對(duì)局部語(yǔ)義要素信息也具有一定敏感性,使得兩種方法在相同安全話題內(nèi)容上的評(píng)價(jià)結(jié)果相近。通過(guò)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),對(duì)能夠表示“安全”的語(yǔ)義詞匯要素進(jìn)行處理,使得深度網(wǎng)絡(luò)結(jié)構(gòu)對(duì)此類(lèi)語(yǔ)義要素敏感。意外傷害類(lèi)安全話題微博文本的數(shù)據(jù)特性類(lèi)似于恐怖襲擊類(lèi)微博文本的數(shù)據(jù)特性,包含大量語(yǔ)義要素。通過(guò)預(yù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),可以對(duì)此類(lèi)語(yǔ)義要素所包含的語(yǔ)義特征進(jìn)行有效處理,并獲得適當(dāng)?shù)纳疃忍卣鞅硎?。因此本文方法(MS-DCNN)在恐怖襲擊類(lèi)安全話題和意外傷害類(lèi)安全話題數(shù)據(jù)上的搜索結(jié)果優(yōu)于其他對(duì)比方法。
Table 3 Top nmeasures of search performance on accidental injury event topics表3 在意外傷害類(lèi)安全話題上的搜索性能top n評(píng)價(jià)
Fig.5 Measures of search performance on accidental injury event topics圖5 在意外傷害類(lèi)安全話題上的搜索評(píng)價(jià)
5.2.3 在醫(yī)療事故類(lèi)安全話題上的實(shí)驗(yàn)結(jié)果與分析
如表4和圖6所示,MS-DCNN與對(duì)比方法在評(píng)價(jià)指標(biāo)上低于其他安全類(lèi)話題內(nèi)容的評(píng)價(jià)結(jié)果,原因是此類(lèi)安全類(lèi)話題數(shù)據(jù)內(nèi)容在“安全”語(yǔ)義詞匯上區(qū)別于其他類(lèi)安全話題,造成局部語(yǔ)義差別,使得深度網(wǎng)絡(luò)結(jié)構(gòu)不敏感。這是因?yàn)橛脩粼谟懻撽P(guān)于醫(yī)療事故類(lèi)安全話題時(shí)并非一直關(guān)注于“安全”語(yǔ)義本身,而是較多討論其他相關(guān)主題內(nèi)容,因此導(dǎo)致以全局語(yǔ)義特征表示的對(duì)比方法在此類(lèi)安全話題內(nèi)容上的搜索指標(biāo)值相對(duì)較低。本文方法(MS-DCNN)采用深度卷積和池化計(jì)算來(lái)處理局部語(yǔ)義特征,通過(guò)局部語(yǔ)義要素空間特征計(jì)算獲得的特征表示來(lái)訓(xùn)練,因此可以對(duì)混雜在內(nèi)容中的“安全”話題內(nèi)容進(jìn)行計(jì)算處理。
Table 4 Top nmeasures of search performance on medical accident event topics表4 在醫(yī)療事故類(lèi)安全話題上的搜索性能top n評(píng)價(jià)
Fig.6 Measures of search performance on medical accident event topics圖6 在醫(yī)療事故類(lèi)安全話題上的搜索評(píng)價(jià)
5.2.4 在自然災(zāi)害類(lèi)安全話題上的實(shí)驗(yàn)結(jié)果與分析
如表5和圖7所示,此類(lèi)安全話題數(shù)據(jù)上的整體評(píng)價(jià)結(jié)果優(yōu)于其他安全類(lèi)話題。從數(shù)據(jù)特性上分析可知,此類(lèi)安全話題數(shù)據(jù)的語(yǔ)義特征在深度特征空間中相對(duì)集中,原因是用戶在微博平臺(tái)上討論自然災(zāi)害類(lèi)安全話題的內(nèi)容相對(duì)局限,關(guān)注對(duì)象內(nèi)容較單一,使得該部分內(nèi)容局部語(yǔ)義特征較明顯且集中,深度網(wǎng)絡(luò)結(jié)構(gòu)對(duì)此類(lèi)內(nèi)容特征較敏感。
Table 5 Top nmeasures of search performance on natural disaster event topics表5 在自然災(zāi)害類(lèi)安全話題上的搜索性能top n評(píng)價(jià)
Fig.7 Measures of search performance on natural disaster event topics圖7 在自然災(zāi)害類(lèi)安全話題上的搜索評(píng)價(jià)
為了消除微博數(shù)據(jù)在安全話題類(lèi)別上的差異,將四類(lèi)安全話題數(shù)據(jù)進(jìn)行合并,從方法特性方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。如表6、圖8、圖9和圖10所示,本文提出的MS-DCNN方法較BM25、DSSM、CLSM和Architecture-II在NDCG和MAP兩個(gè)評(píng)價(jià)指標(biāo)上均有所提高。
Table 6 Top nmeasures of search performance on combined dataset of multiple topics表6 在合并數(shù)據(jù)上的搜索性能top n評(píng)價(jià)
Fig.8 NDCGmeasures on combined dataset圖8 在合并數(shù)據(jù)上NDCG評(píng)價(jià)結(jié)果
BM25以自然語(yǔ)言詞袋模型為基礎(chǔ),對(duì)具有語(yǔ)義稀疏性的文本數(shù)據(jù)難以捕獲其語(yǔ)義特征,因此在處理微博文本數(shù)據(jù)內(nèi)容上,由于微博文本與傳統(tǒng)文本具有表達(dá)隨意性和語(yǔ)義模糊性的特點(diǎn),使得BM25在性能上比其他基于卷積神經(jīng)網(wǎng)絡(luò)的方法差。
Fig.9 MAPmeasures on combined dataset圖9 在合并數(shù)據(jù)上MAP評(píng)價(jià)結(jié)果
Fig.10 Precisionmeasures on combined dataset圖10 在合并數(shù)據(jù)上Precision評(píng)價(jià)結(jié)果
如圖9和圖10所示,DSSM和CLSM方法在MAP和Precision上的評(píng)價(jià)結(jié)果相近,原因在于DSSM和CLSM均基于詞語(yǔ)哈希的自然語(yǔ)言表示方法,并通過(guò)有監(jiān)督訓(xùn)練進(jìn)行搜索匹配。這兩種方法在全局語(yǔ)義特征處理上具有一定優(yōu)勢(shì),但是相對(duì)于局部語(yǔ)義噪聲的魯棒性較低,對(duì)于具有獨(dú)特特性的微博短文本數(shù)據(jù)表現(xiàn)相對(duì)較差。
如圖8、圖9和圖10所示,Architecture-II和CLSM在NDCG、MAP和Precision上的評(píng)價(jià)結(jié)果好于DSSM,原因在于Architecture-II和CLSM均采用具有卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法來(lái)處理搜索匹配問(wèn)題。Architecture-II方法將卷積神經(jīng)網(wǎng)絡(luò)所提取的表示空間進(jìn)行融合,在盡可能保證表示空間為原始狀態(tài)下進(jìn)行非線性自然語(yǔ)言表示特征變換。該方法對(duì)局部語(yǔ)義噪聲尤其是語(yǔ)義歧義過(guò)濾不足,同樣存在對(duì)于局部噪聲的魯棒性較低的問(wèn)題。
結(jié)合社交網(wǎng)絡(luò)數(shù)據(jù)特性,有效挖掘并找出隱藏的局部語(yǔ)義信息,是提高社交網(wǎng)絡(luò)搜索效率和準(zhǔn)確率的關(guān)鍵因素。與傳統(tǒng)文本信息檢索搜索數(shù)據(jù)環(huán)境不同,微博文本環(huán)境具有長(zhǎng)度有限、表達(dá)和書(shū)寫(xiě)隨意等特性,導(dǎo)致微博文本內(nèi)容語(yǔ)義具有歧義性。本文提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的微博話題內(nèi)容方法(MS-DCNN),該方法對(duì)微博文本數(shù)據(jù)局部語(yǔ)義進(jìn)行特征挖掘,并以此為基礎(chǔ)實(shí)現(xiàn)搜索和匹配。實(shí)驗(yàn)結(jié)果表明本文方法(MS-DCNN)的有效性和優(yōu)勢(shì)。下一步工作將繼續(xù)完善該方法在局部語(yǔ)義特征處理上的研究,結(jié)合索引模型,對(duì)具有相似局部語(yǔ)義特征的微博數(shù)據(jù)進(jìn)行索引化編碼,尤其是對(duì)語(yǔ)義噪聲進(jìn)行處理,并擴(kuò)展該方法至社交網(wǎng)絡(luò)搜索的其他方面。