白沛沅 夏一雪 楊雨光張雙獅
(1.中國(guó)人民警察大學(xué)網(wǎng)絡(luò)輿情治理研究中心 廊坊 065000;2.香港浸會(huì)大學(xué) 香港 999077)
隨著互聯(lián)網(wǎng)的普及,突發(fā)事件網(wǎng)上網(wǎng)下風(fēng)險(xiǎn)耦合給政府應(yīng)急管理帶來巨大挑戰(zhàn)。突發(fā)事件發(fā)生后,圍繞事件形成的海量互聯(lián)網(wǎng)信息資源已成為典型的大數(shù)據(jù)場(chǎng)景,為突發(fā)事件情報(bào)感知提供了豐富的數(shù)據(jù)源。通過對(duì)互聯(lián)網(wǎng)信息開展深度分析研判,挖掘蘊(yùn)含于大數(shù)據(jù)中的情報(bào)價(jià)值,快速、精準(zhǔn)感知突發(fā)事件情報(bào),為政府應(yīng)急管理提供情報(bào)支持,實(shí)現(xiàn)情報(bào)引領(lǐng)應(yīng)急管理,是網(wǎng)絡(luò)社會(huì)突發(fā)事件應(yīng)急管理亟待解決的關(guān)鍵問題。
通過整理國(guó)內(nèi)突發(fā)事件情報(bào)研究文獻(xiàn),發(fā)現(xiàn)國(guó)內(nèi)研究主要集中在突發(fā)事件情報(bào)體系、情報(bào)技術(shù)、情報(bào)分析、情報(bào)應(yīng)用等幾個(gè)方面。在突發(fā)事件情報(bào)體系研究方面,朱曉峰等從組織保障、流程設(shè)計(jì)以及技術(shù)方法構(gòu)建突發(fā)事件情報(bào)體系模型[1],李綱等從人員、機(jī)構(gòu)、技術(shù)、資源、制度、行為六要素面向智慧城市構(gòu)建應(yīng)急決策情報(bào)體系[2]。在突發(fā)事件情報(bào)技術(shù)研究方面,楊峰等通過基于情景相似度的檢驗(yàn)方法感知情報(bào)資源以實(shí)現(xiàn)突發(fā)事件的態(tài)勢(shì)感知[3];陳祖琴?gòu)摹胺诸?、分?jí)、分期”三個(gè)維度描述與編碼突發(fā)事件特征屬性,構(gòu)建突發(fā)事件特征詞典輔助情報(bào)組織與采集[4];唐明偉等構(gòu)建了物聯(lián)網(wǎng)情報(bào)大數(shù)據(jù)處理框架[5]。在突發(fā)事件情報(bào)分析研究方面,瞿志凱等構(gòu)建了以綜合研判模塊為核心的大數(shù)據(jù)突發(fā)事件情報(bào)分析模型,以期實(shí)現(xiàn)大數(shù)據(jù)與突發(fā)事件情報(bào)分析的深層次融合[6];范煒等認(rèn)為情報(bào)對(duì)應(yīng)急決策起支撐作用,提出了以人為主體,聯(lián)系情報(bào)與決策的“情-人-策” (QRC)模式[7]。在突發(fā)事件情報(bào)應(yīng)用研究方面,徐緒堪等針對(duì)城市水災(zāi)害突發(fā)事件構(gòu)建了“事前預(yù)防、事中控制、事后總結(jié)”的情報(bào)分析框架[8];宋丹等深入剖析美國(guó)自然災(zāi)害應(yīng)急管理情報(bào)服務(wù)案例,提出了“積極參與管理、加強(qiáng)理論研究、建設(shè)專業(yè)中心、加強(qiáng)宣傳”四點(diǎn)突發(fā)事件情報(bào)服務(wù)啟示[9]。
國(guó)內(nèi)突發(fā)事件情報(bào)研究多是宏觀理論研究,而服務(wù)政府應(yīng)急管理的微觀實(shí)踐研究相對(duì)較少。基于此,本文在情報(bào)引領(lǐng)應(yīng)急管理的理念下,突出“以人為本”的應(yīng)急管理原則[10],面向政府主導(dǎo)的特定網(wǎng)絡(luò)媒介中突發(fā)事件民眾訴求信息,生成訴求詞典,構(gòu)建突發(fā)事件情報(bào)感知模型,可以快速過濾海量互聯(lián)網(wǎng)信息,精準(zhǔn)挖掘民眾訴求,為政府應(yīng)急管理提供情報(bào)支撐,也為解決網(wǎng)絡(luò)社會(huì)突發(fā)事件情報(bào)感知問題提供科學(xué)方法與路徑。
民眾訴求是民眾通過媒介開展的陳訴和請(qǐng)求,是表達(dá)自身要求和追求的直接體現(xiàn)。突發(fā)事件往往會(huì)對(duì)自然環(huán)境、社會(huì)功能造成嚴(yán)重破壞,強(qiáng)烈沖擊民眾的生產(chǎn)生活秩序,刺激產(chǎn)生大量民眾訴求。網(wǎng)絡(luò)社會(huì)環(huán)境下,民眾普遍通過社交媒體平臺(tái)、網(wǎng)絡(luò)問政平臺(tái)等載體表達(dá)訴求,其中蘊(yùn)含應(yīng)急信息需求、生活需求、安全需求、心理需求、社交需求、交通需求等個(gè)體訴求,矛盾糾紛、焦慮恐慌、秩序混亂等群體行為,以及針對(duì)突發(fā)事件處置的意見建議等,已成為突發(fā)事件應(yīng)急管理的重要情報(bào)源(見圖1)。
圖1 訴求信息產(chǎn)生機(jī)理
以突發(fā)公共衛(wèi)生事件——新冠肺炎疫情為例,基于2020.01.01—2020.06.30期間百度指數(shù)[11]“疫情”主題和訴求主題“復(fù)工”“網(wǎng)課”“口罩”的檢索數(shù)據(jù),繪制多軸線圖(見圖2)。數(shù)據(jù)表明,突發(fā)事件發(fā)生后,網(wǎng)絡(luò)環(huán)境中存在伴生訴求信息,這些訴求信息突然爆發(fā)、具有一定的生命周期且在突發(fā)事件不同階段訴求信息不同。這些訴求信息能夠反映民眾在突發(fā)事件不同階段的訴求聚焦點(diǎn),因此需要快速、持續(xù)、動(dòng)態(tài)的挖掘其情報(bào)價(jià)值,輔助政府應(yīng)急管理。
圖2 百度指數(shù)民眾訴求主題多軸線圖
面向訴求信息的突發(fā)事件情報(bào)感知過程是突發(fā)事件訴求信息生成過程的逆過程(見圖3),即從海量互聯(lián)網(wǎng)信息中有針對(duì)性的感知突發(fā)事件刺激下產(chǎn)生的訴求信息,形成突發(fā)事件情報(bào)。海量互聯(lián)網(wǎng)信息環(huán)境中充斥著新聞信息、學(xué)術(shù)信息、服務(wù)信息、教育信息、用戶信息、交際信息、公共信息、訴求信息等各類信息,并散布于不同的互聯(lián)網(wǎng)平臺(tái)之上,呈現(xiàn)出訴求密度小,總體信息量大的特征;但其中存在一系列政府主導(dǎo)的特定網(wǎng)絡(luò)媒介,如:政府官網(wǎng)、政媒融合平臺(tái)、政務(wù)微博、政務(wù)公眾號(hào)等,具有總體信息量小但訴求密度大的特征,為情報(bào)感知模型的構(gòu)建提供了精準(zhǔn)的數(shù)據(jù)源。通過提取這些特定網(wǎng)絡(luò)媒介中突發(fā)事件訴求信息的特征形成突發(fā)事件訴求主題詞庫(kù),構(gòu)建突發(fā)事件訴求識(shí)別模型,可以在海量互聯(lián)網(wǎng)信息環(huán)境中識(shí)別突發(fā)事件相關(guān)訴求信息,從而實(shí)現(xiàn)全面、快速的突發(fā)事件情報(bào)感知。
圖3 面向訴求信息的突發(fā)事件情報(bào)感知過程
基于面向訴求信息的突發(fā)事件情報(bào)感知過程,突發(fā)事件情報(bào)感知模型的構(gòu)建可以分為以下兩部分,第一部分:基于民眾訴求信息的訴求主題詞庫(kù)構(gòu)建;第二部分:面向訴求主題詞庫(kù)開展突發(fā)事件情報(bào)感知。由此,本文通過構(gòu)建民眾訴求詞典形成訴求主題詞庫(kù),進(jìn)而通過民眾訴求詞典開展民眾訴求識(shí)別,為突發(fā)事件應(yīng)急管理提供情報(bào)支持。
訴求詞典建構(gòu)的數(shù)據(jù)源是政府主導(dǎo)的特定網(wǎng)絡(luò)媒介中的訴求信息(見表1),通常具有如下特征:政策性,訴求通常包含對(duì)有關(guān)戶籍、教育、拆遷征地等相關(guān)政策的咨詢;事件針對(duì)性,訴求主體通常會(huì)針對(duì)自身發(fā)生的具體事件表達(dá)訴求;表述多樣性,存在一義多詞現(xiàn)象,如繳納一詞就有繳費(fèi)、交費(fèi)、交付、交納、上交等多種表述;信息冗余度高,訴求內(nèi)容關(guān)于問題的描述和請(qǐng)求關(guān)注篇幅占比較高,而真正的訴求表述只占一小部分;主題聚集性,反映問題集中在主要的幾類主題;表達(dá)策略性,文本話語表達(dá)的政治價(jià)值取向可分為賢能話語、民主話語和混合話語。
表1 訴求信息及其來源
詞典構(gòu)造的方法主要有基于經(jīng)驗(yàn)的專家知識(shí)庫(kù)構(gòu)造方法[4,12]、基于TF-IDF的基礎(chǔ)詞典構(gòu)造、基于統(tǒng)計(jì)的PMI擴(kuò)展詞典方法[13-14]和基于機(jī)器學(xué)習(xí)的Word2vec擴(kuò)展詞典方法[15-17]等等。由于本文研究的民眾訴求沒有已構(gòu)建好的通用領(lǐng)域詞典,為實(shí)現(xiàn)詞典構(gòu)造的自動(dòng)化,需要先行構(gòu)造基礎(chǔ)詞典,并且通過基礎(chǔ)詞典擴(kuò)展生成擴(kuò)展詞典。
基礎(chǔ)詞典的構(gòu)造需要使用關(guān)鍵詞提取技術(shù),目前主要有TF-IDF、TextRank以及LDA等算法。TF-IDF提取出現(xiàn)頻率低但是具有代表性的詞,TextRank提取文檔中出現(xiàn)頻率高的詞,LDA使用主題詞表示文檔。三種方法中,TF-IDF對(duì)處理事件針對(duì)性、表述多樣性、信息冗余性強(qiáng)的訴求更具有優(yōu)勢(shì);TextRank傾向于將高頻詞作為關(guān)鍵詞,會(huì)提取到很多無意義詞;LDA模型雖然對(duì)主題可以有很好的處理,但其提取的主題詞是整個(gè)文檔的主題,在訴求識(shí)別中無法準(zhǔn)確定位具體訴求。因此TextRank與LDA并不適合進(jìn)行訴求詞提取,選擇使用TF-IDF構(gòu)建基礎(chǔ)詞典。
TF-IDF(詞頻-逆文件頻率)是用于評(píng)估詞語在文本中關(guān)鍵程度的統(tǒng)計(jì)方法。
TF-IDF(wi)=TF×IDF
(1)
(2)
df(wi)=N(wi)+1
(3)
TF(詞頻):某一詞語在文本中出現(xiàn)的次數(shù)。
IDF(逆文件頻率):一個(gè)詞語普遍重要性的度量。包含詞語的文本越少,表明該詞語具有的類別區(qū)分能力越強(qiáng),IDF值越大,N為語料中的文檔數(shù)。
TF-IDF沒有考慮關(guān)鍵詞之間的位置關(guān)系,需要進(jìn)行擴(kuò)展完善詞典。在擴(kuò)展詞典方面,涉及的擴(kuò)展方法主要有基于概率的PMI、基于距離的Word2vec等。 PMI用于計(jì)算兩個(gè)詞在同一句話的共現(xiàn)程度,Word2vec則是計(jì)算詞之間的余弦相似度來表示語義相似度,因此,使用Word2vec針對(duì)訴求的多樣化表述特征的提取更具有優(yōu)勢(shì)。
Word2vec[18]屬于最簡(jiǎn)單的兩層神經(jīng)網(wǎng)絡(luò),隱藏層沒有激活函數(shù)呈現(xiàn)線性關(guān)系,輸入為獨(dú)熱編碼(one-hot)。訓(xùn)練使用跳字模型(skip-gram)和連續(xù)詞袋模型(Continuous Bag of Words,簡(jiǎn)稱CBOW),skip-gram輸入單個(gè)詞向量,輸出該詞的上下文詞向量,CBOW輸入為上下文詞向量,輸出單個(gè)詞向量。隱藏層到輸出層的方法采用負(fù)采樣(Negative Sampling)或基于哈夫曼樹的層序softmax(Hierarchical Softmax)可以提高模型訓(xùn)練效率。Word2vec可以將文本內(nèi)容映射到N維向量空間,通過計(jì)算向量之間的協(xié)方差來表示文本內(nèi)容的語義相似度。協(xié)方差公式如下:
(4)
w1、w2分別表示文本中的兩個(gè)詞,w1i、w2i分別表示詞語1、2在i維空間上的取值。
選擇突發(fā)事件訴求詞典的構(gòu)造方法后,進(jìn)行技術(shù)路線的設(shè)計(jì),分為兩個(gè)階段(見圖4):a.在數(shù)據(jù)預(yù)處理階段,從政府主導(dǎo)的特定網(wǎng)絡(luò)媒介中獲取訴求信息,通過突發(fā)事件的關(guān)鍵詞篩選得到突發(fā)事件相關(guān)訴求信息,進(jìn)行去重、清洗、并分詞。在數(shù)據(jù)中會(huì)存在大量的無意義詞以及無關(guān)詞,可以將其設(shè)定為停用詞。為準(zhǔn)確去除無關(guān)詞,可以使用詞性標(biāo)注的方法,選擇需要過濾的詞性以生成自定義停用詞典,同時(shí)合并通用停用詞典以去除無意義詞,可以達(dá)到較好的停用詞過濾效果。在分詞時(shí)使用合成停用詞典去停用詞后,得到構(gòu)建詞典所需數(shù)據(jù)。b.在詞典構(gòu)建階段,需要先將數(shù)據(jù)按照訴求主題進(jìn)行分類,再使用TF-IDF提取訴求詞,得到基礎(chǔ)訴求詞典,同時(shí)還需要使用Word2vec算法訓(xùn)練數(shù)據(jù)得到Word2vec模型,并將基礎(chǔ)詞典放入模型中擴(kuò)展得到擴(kuò)展詞典。
圖5 訴求詞典構(gòu)建流程
訴求詞典構(gòu)建后通過構(gòu)建突發(fā)事件情報(bào)感知模型(見圖5)在互聯(lián)網(wǎng)中識(shí)別民眾訴求,主要可以分為:數(shù)據(jù)預(yù)處理、訴求識(shí)別與效果驗(yàn)證。a.數(shù)據(jù)預(yù)處理。去除獲取到的互聯(lián)網(wǎng)信息中的重復(fù)數(shù)據(jù)與無關(guān)符號(hào)并分詞,得到用于識(shí)別的數(shù)據(jù)。b.訴求識(shí)別。在詞典構(gòu)造中,構(gòu)造了基礎(chǔ)詞典與擴(kuò)展詞典,實(shí)際使用中擴(kuò)展詞典效果并不一定優(yōu)于基礎(chǔ)詞典,因此需要選擇合適的詞典進(jìn)行訴求識(shí)別。通過匹配詞典可以得到信息中訴求詞占總字?jǐn)?shù)的比值,即信息占比(公式5)。受信息多樣性的影響,針對(duì)不同結(jié)構(gòu)的信息需要構(gòu)建不同的識(shí)別規(guī)則,保證識(shí)別的精準(zhǔn),如:針對(duì)無關(guān)詞較多的詞典以及信息中的短文本需要以句子中的詞頻先行劃分非訴求信息即詞頻限制規(guī)則,針對(duì)不同語境需要對(duì)不同的訴求詞設(shè)置不同的權(quán)重,針對(duì)不同的訴求詞可能常常組合出現(xiàn)需要設(shè)置多詞共現(xiàn)規(guī)則,針對(duì)訴求詞在句子中的位置,功能需要設(shè)置句法規(guī)則等。根據(jù)信息占比進(jìn)行訴求詞加權(quán)即可得到訴求相似度,并設(shè)定閾值,高于閾值則為訴求信息,低于則非訴求信息。由此得到的訴求信息即可作為突發(fā)事件情報(bào)。c.效果驗(yàn)證。為了評(píng)估訴求詞典與識(shí)別規(guī)則的效果,設(shè)置了效果驗(yàn)證部分,對(duì)互聯(lián)網(wǎng)信息進(jìn)行人工標(biāo)注,根據(jù)驗(yàn)證指標(biāo),比對(duì)模型識(shí)別結(jié)果,即可得到詞典與識(shí)別規(guī)則的實(shí)際效果。
(5)
3.1.1數(shù)據(jù)來源
人民網(wǎng)于2006年開設(shè)的“地方領(lǐng)導(dǎo)留言板”是一個(gè)備受網(wǎng)民關(guān)注的全國(guó)網(wǎng)絡(luò)問政平臺(tái),其具有如下特點(diǎn):a.數(shù)據(jù)全。全國(guó)的數(shù)據(jù)都有記錄,對(duì)分析全國(guó)性事件的支持較好。b.細(xì)化程度好。按照地域劃分,從省部級(jí)領(lǐng)導(dǎo)到區(qū)級(jí)領(lǐng)導(dǎo)每一層都有問政通道。c.公開。平臺(tái)所有歷史留言均可查看。d.結(jié)構(gòu)化程度好。對(duì)議題進(jìn)行了分類,設(shè)置了14項(xiàng)訴求議題和5項(xiàng)訴求類型(見表2)。該問政平臺(tái)對(duì)本文研究面向訴求信息的突發(fā)事件情報(bào)感知具有良好的數(shù)據(jù)支撐作用,可以作為訴求詞典構(gòu)建的數(shù)據(jù)源。
表2 議題類別與訴求類型
確定數(shù)據(jù)源后,通過網(wǎng)絡(luò)爬蟲,爬取“地方領(lǐng)導(dǎo)留言板”各省、直轄市2020年1月1日至2020年10月1日的留言內(nèi)容共113 569條數(shù)據(jù),每條數(shù)據(jù)包含留言標(biāo)題、訴求議題、訴求類型、訴求所屬地區(qū)版塊、訴求人用戶名以及留言時(shí)間共6項(xiàng)。
2019年底,新冠肺炎疫情爆發(fā),被列為特別重大突發(fā)公共衛(wèi)生事件。此次新冠肺炎疫情持續(xù)時(shí)間長(zhǎng),破壞性、擴(kuò)散性顯著,嚴(yán)重影響了社會(huì)的發(fā)展和民眾生產(chǎn)生活,人們圍繞疫情產(chǎn)生一系列訴求,并且伴隨疫情的大量衍生、次生事件而不斷演化,具有重要的研究?jī)r(jià)值,由此,下面將面向新冠疫情訴求構(gòu)建訴求詞典。
以新冠和疫情為關(guān)鍵詞對(duì)爬取的訴求留言進(jìn)行檢索和篩選,得到相關(guān)數(shù)據(jù)共15 657條。對(duì)全數(shù)據(jù)和篩選數(shù)據(jù)的議題類別進(jìn)行統(tǒng)計(jì)(見圖6),在全數(shù)據(jù)條件下,城建占比達(dá)到極高的42%,教育、就業(yè)、交通、企業(yè)、政務(wù)較為接近,占比7%~9%,三農(nóng)、環(huán)保、治安、醫(yī)療占比3%~5%,旅游和金融則在1%左右。相較而言,新冠-肺炎關(guān)鍵詞條件下相關(guān)留言中的城建占比依舊為最高,但占比下降了17個(gè)百分點(diǎn)為25%,教育、企業(yè)、政務(wù)、就業(yè)5類議題的訴求占比較高,達(dá)到了10%以上,交通、治安和醫(yī)療占比5%~10%,而剩余議題占比不到3%??偠灾?,新冠肺炎疫情相關(guān)訴求的教育、企業(yè)、政務(wù)、就業(yè)、治安和醫(yī)療議題占比相對(duì)總體訴求是增加的。
3.1.2訴求停用詞詞典構(gòu)建
文本中的停用詞會(huì)對(duì)有效信息造成噪音干擾,通過使用停用詞詞典去噪有利于提高關(guān)鍵詞比例,進(jìn)而提高準(zhǔn)確性。目前的通用停用詞詞典[19]有中文停用詞表、哈工大停用詞表、百度停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù),4個(gè)詞庫(kù)共計(jì)3 885個(gè)停用詞,將其合并去重,剩余2 318個(gè)停用詞生成通用停用詞典。由于需要對(duì)訴求留言進(jìn)行過濾,語境比較具體,通用停用詞典不足以滿足過濾需求,因此加入自定義停用詞典。采用詞性過濾法,對(duì)篩選過后的15 646條數(shù)據(jù)使用NLP-IR[20]分詞得到了中科院ICTCLAS詞性標(biāo)注后的分詞結(jié)果,將與訴求語義無關(guān)的詞性(見表3)的詞作為停用詞生成自定義停用詞詞典包含10 298個(gè)詞項(xiàng)。獲得的停用詞典(見表4)將用作基礎(chǔ)詞典構(gòu)建的數(shù)據(jù)預(yù)處理環(huán)節(jié)。
圖6 訴求議題占比對(duì)比
表3 訴求停用詞典詞性ICTCLAS對(duì)照表
表4 部分自定義停用詞展示
3.1.3基礎(chǔ)詞典的構(gòu)建
將數(shù)據(jù)按照議題進(jìn)行分類,對(duì)于同類別的議題,其語義和詞匯相似度較高,方便進(jìn)行關(guān)鍵詞的抽取。對(duì)于關(guān)鍵詞的抽取使用TF-IDF方法。
在Python中,TF-IDF關(guān)鍵詞抽取的實(shí)現(xiàn)主要調(diào)用Jieba庫(kù)或者是Gensim庫(kù)。Jieba庫(kù)使用自帶默認(rèn)的IDF值,不需要進(jìn)行訓(xùn)練即可直接計(jì)算TF-IDF值,而Gensim庫(kù)使用輸入的語料庫(kù)進(jìn)行訓(xùn)練計(jì)算TF-IDF值。相較而言,使用Gensim庫(kù)更具有針對(duì)性,提取的關(guān)鍵詞與議題關(guān)聯(lián)度更高,但是在新冠疫情訴求語料中,兩種TF-IDF計(jì)算得出的結(jié)果均具有不錯(cuò)的效果(見表5)。
使用Jieba庫(kù)下的TF-IDF方法對(duì)每個(gè)議題下值最高的前200個(gè)詞進(jìn)行提取,得到2 800個(gè)詞,合并為一個(gè)詞典,經(jīng)過去重得到1 009個(gè)詞項(xiàng),由于分詞后仍存在一些噪音詞無法完全通過停用詞典去除,因此人工對(duì)提取后的詞進(jìn)行篩選,并將無關(guān)詞加入停用詞典(見表6),最終篩選得到921個(gè)基礎(chǔ)訴求詞,生成基礎(chǔ)訴求詞典,命名為TF-IDF(Jieba),88個(gè)停用詞加入停用詞典。
表5 醫(yī)療議題下TF-IDF值前9個(gè)關(guān)鍵詞對(duì)比
表6 部分醫(yī)療議題下的TF-IDF(Jieba)詞項(xiàng)人工篩選
同時(shí)使用Gensim庫(kù)下訓(xùn)練語料庫(kù),對(duì)取值大于0.018的詞進(jìn)行提取,去重,得到4 130個(gè)詞項(xiàng),作為TF-IDF(Gensim)基礎(chǔ)訴求詞典。
3.1.4擴(kuò)展詞典的構(gòu)建
由于訴求的表述多樣性,為了豐富訴求詞典,詞典的擴(kuò)展使用Word2vec模型進(jìn)行擴(kuò)展。由于TF-IDF(Gensim)詞項(xiàng)較多,不便于擴(kuò)展,因此僅使用TF-IDF(Jieba)基礎(chǔ)詞典進(jìn)行擴(kuò)展,命名為TF-IDF(Jieba)Word2vec。
使用Gensim庫(kù)提供的Word2vec模塊訓(xùn)練,采用CBOW模型處理以新冠-疫情為關(guān)鍵詞篩選后的全部文本生成詞向量矩陣。詞語臨近窗口設(shè)定為5,采用負(fù)采樣算法設(shè)定negative值為5,計(jì)算詞向量最小詞頻為5。Word2Vec計(jì)算的是詞向量的余弦相似度,值域?yàn)閇0,1],值越接近1,詞義越相近。對(duì)基礎(chǔ)詞最相近的詞進(jìn)行查詢(見表7)。
表7 “懇請(qǐng)”擴(kuò)展詞
3.2.1數(shù)據(jù)預(yù)處理
微博基于人際關(guān)系網(wǎng)絡(luò)進(jìn)行信息傳播,具有大數(shù)據(jù)環(huán)境的基本特征,可以作為突發(fā)事件情報(bào)感知與驗(yàn)證的對(duì)象。爬取新冠肺炎疫情期間82 414條微博內(nèi)容,對(duì)其清洗去噪,提取文本長(zhǎng)度為5以上的文本,隨機(jī)抽取2 500條博文對(duì)所得詞典進(jìn)行感知與驗(yàn)證。采用三人獨(dú)立標(biāo)注法,將文本分為訴求文本與非訴求文本,當(dāng)三人的標(biāo)注結(jié)果一致時(shí),認(rèn)為標(biāo)注結(jié)果有效,作為輸出。最后輸出標(biāo)注樣本2 155條進(jìn)行實(shí)驗(yàn)。在該樣本集中,標(biāo)注為訴求的博文(見表8)為243條,占比11.3%。
表8 微博訴求文本
3.2.2感知設(shè)計(jì)
在使用Word2vec擴(kuò)展詞典時(shí),有兩點(diǎn)影響因素需要考慮,一是詞向量維度的影響,實(shí)驗(yàn)分別選取300維、500維和1 000維訓(xùn)練模型;二是相似度的影響,當(dāng)相似度大于某一閾值時(shí)輸出擴(kuò)展詞,實(shí)驗(yàn)將處于[0.5-0.9]區(qū)間內(nèi)的相似度以0.1為間隔進(jìn)行擴(kuò)展詞提取,每組生成41個(gè)詞典進(jìn)行識(shí)別驗(yàn)證,對(duì)照查找最佳相似度。
由于本文構(gòu)建的詞典主要由算法自動(dòng)生成,存在無關(guān)詞干擾,而微博博文中存在短文本的干擾,因此使用詞頻過濾規(guī)則作為對(duì)照。當(dāng)訴求詞在文本中出現(xiàn)3次以下,則不認(rèn)為是訴求,當(dāng)訴求詞出現(xiàn)3次及以上時(shí),按照訴求信息占比進(jìn)行判斷。
3.2.3感知評(píng)價(jià)指標(biāo)
為驗(yàn)證訴求詞典的效果,需要采用合適的指標(biāo)對(duì)實(shí)驗(yàn)進(jìn)行評(píng)價(jià),本文采用準(zhǔn)確率(Accuracy,A)、精確率(Precision,P)、召回率(Recall,R)和正確率(F-score,F1值)4個(gè)指標(biāo)計(jì)算訴求詞典的實(shí)際效果,公式如下:
(6)
(7)
(8)
(9)
在訴求詞典驗(yàn)證中,TP表示標(biāo)注為訴求且判斷為訴求,TN表示標(biāo)注為非訴求且判斷為非訴求,F(xiàn)P表示標(biāo)注為非訴求判斷為訴求,F(xiàn)N表示標(biāo)注為訴求判斷為非訴求。
3.2.4感知結(jié)果與分析
三項(xiàng)詞典的驗(yàn)證結(jié)果如表9所示。由于樣本集中訴求占比較少,因此正確率對(duì)詞典的影響更為重要。綜合以上驗(yàn)證結(jié)果,詞典TF-IDF(Jieba)與TF-IDF(Gensim)都為采用TF-IDF方法構(gòu)造的訴求詞典,且TF-IDF(Gensim)所獲得的詞項(xiàng)數(shù)遠(yuǎn)大于TF-IDF(Jieba),但在準(zhǔn)確率相近的情況下, TF-IDF(Gensim)的正確率遠(yuǎn)低于TF-IDF(Jieba),原因可能為使用分類好的訴求語料訓(xùn)練得到的IDF值影響較大,所提取的詞針對(duì)性太高,不具有共通性。
表9 不同種類詞典判斷結(jié)果對(duì)比 %
TF-IDF(Jieba)Word2vec整體效果較好,根據(jù)上文設(shè)計(jì)計(jì)算詞向量維度與相似度對(duì)指標(biāo)的影響,設(shè)定訴求占比為25%,并做出折線圖(見圖7)。
觀察可得以下結(jié)論:a.起始召回率較高,是由于相似度閾值為0.5時(shí),可以提取到較多的訴求詞,可以有效的識(shí)別真實(shí)訴求,但該閾值下大部分提取詞實(shí)際為干擾詞,在識(shí)別中會(huì)將大量無關(guān)文本標(biāo)記為訴求,因此起始精確率較低。b. F1值均在閾值區(qū)間[0.70-0.75],達(dá)到最高點(diǎn),且準(zhǔn)確率在此之后也趨于平穩(wěn)。c.縱向?qū)Ρ菷1值最高點(diǎn)可得訓(xùn)練500維詞向量擴(kuò)展詞典效果要好于300維,而1 000維相對(duì)500維有所提升但不明顯。d.加入詞頻限制條件后,精確率在閾值達(dá)到0.65后上升較快,F(xiàn)1值最高點(diǎn)相對(duì)提升約20%,同時(shí)準(zhǔn)確率最高點(diǎn)也有所提升。
圖7 不同詞向量維度與識(shí)別規(guī)則下相似度閾值對(duì)驗(yàn)證指標(biāo)的影響
由此,確定訓(xùn)練高維詞向量以及加入詞頻規(guī)則可以有效提升詞典效果,但該實(shí)驗(yàn)設(shè)定訴求占比為恒定值,沒有考慮訴求占比的影響,因此固定詞典訓(xùn)練方式為1 000維和識(shí)別規(guī)則為詞頻規(guī)則,改變?cè)V求占比的閾值進(jìn)行實(shí)驗(yàn),得到如下折線圖(見圖8)。
在該組實(shí)驗(yàn)中可以看到,訴求占比閾值為20%時(shí),F(xiàn)1值可以達(dá)到最高點(diǎn)(見表10),同時(shí)準(zhǔn)確率趨于穩(wěn)定。
表1 0F1最高點(diǎn)數(shù)據(jù)(%)
由前文可知,案例中訴求占比為11.3%,而實(shí)驗(yàn)設(shè)置的訴求占比為20%達(dá)到最好效果,主要是由于詞典中存在干擾詞的影響,這些干擾詞不能表征訴求,但是會(huì)伴隨訴求詞出現(xiàn),導(dǎo)致訴求占比閾值設(shè)置高于實(shí)際訴求占比才能達(dá)到較好的效果。
通過實(shí)驗(yàn),得到最終效果最好的詞典為TF-IDF(Jieba)Word2vec,訓(xùn)練詞向量維度為1 000維,相似度閾值設(shè)置為0.77,訴求占比閾值為0.2。該詞典F1值達(dá)到67.9%,準(zhǔn)確率達(dá)到92.5%。準(zhǔn)確率高而F1值較低,主要原因?yàn)樵谖⒉┉h(huán)境下提取的樣本集中訴求樣本含量較少。
圖8 1000維詞向量、詞頻規(guī)則下訴求占比對(duì)驗(yàn)證指標(biāo)的影響
圖9 面向訴求信息的政府突發(fā)事件情報(bào)感知與決策方案
通過分析面向訴求信息的突發(fā)事件情報(bào)感知機(jī)理和進(jìn)行實(shí)證檢驗(yàn),確定了使用訴求詞典進(jìn)行情報(bào)感知的可行性,在實(shí)際場(chǎng)景中,則需要通過構(gòu)建突發(fā)事件情報(bào)庫(kù)和決策支撐庫(kù)進(jìn)行應(yīng)急管理、實(shí)現(xiàn)及時(shí)響應(yīng)。突發(fā)事件情報(bào)庫(kù)和決策支撐庫(kù)本質(zhì)是數(shù)據(jù)庫(kù),需要政府應(yīng)急管理部門牽頭構(gòu)建。突發(fā)事件情報(bào)庫(kù)包含政府特定信息平臺(tái)的后臺(tái)數(shù)據(jù)、線下情報(bào)數(shù)據(jù)等歷史數(shù)據(jù),并通過分類形成更為具有針對(duì)性、細(xì)粒度、精準(zhǔn)的數(shù)據(jù)集。針對(duì)訴求信息則可以按照訴求議題、訴求類型進(jìn)行分類[21],或是按照突發(fā)事件的類別進(jìn)行分類?;诜诸悢?shù)據(jù)構(gòu)建不同突發(fā)事件的訴求詞典或不同訴求議題、類型的訴求詞典,在新生突發(fā)事件發(fā)生后可以根據(jù)該事件所屬的類別及其可能產(chǎn)生的訴求議題、類型篩選合適的詞典進(jìn)行融合,得到的融合詞典用以情報(bào)感知,感知到的突發(fā)事件情報(bào)可以輸入突發(fā)事件情報(bào)庫(kù),并通過動(dòng)態(tài)更新逐漸提高詞典的識(shí)別能力。面向訴求信息的政府突發(fā)事件情報(bào)感知與決策方案如圖9所示。
在獲得突發(fā)事件情報(bào)后,需要對(duì)其進(jìn)行分析,基于訴求信息的內(nèi)容可以進(jìn)行受災(zāi)群體分析、影響范圍分析、時(shí)間分析、主題共現(xiàn)分析、情感分析等,為決策提供支持,在政府決策后制定應(yīng)急處置方案進(jìn)行處置,情報(bào)分析結(jié)果與處置方案可以輸入決策庫(kù)與情報(bào)庫(kù)建立關(guān)聯(lián)規(guī)則,作為未來突發(fā)事件發(fā)生的案例參考。
根據(jù)上述方案,在獲取突發(fā)事件情報(bào)后需要進(jìn)行情報(bào)分析。由于訴求信息能夠反映民眾在突發(fā)事件不同階段的訴求聚焦點(diǎn),因此,可以通過繪制不同階段的主題詞云圖,對(duì)訴求文本進(jìn)行訴求主題共現(xiàn)時(shí)序分析。
在實(shí)證研究部分,構(gòu)建了一項(xiàng)效果較好的訴求詞典,使用該詞典對(duì)預(yù)處理后的2020.01.01—2020.02.18期間的微博文本進(jìn)行訴求識(shí)別,得到13 977條訴求文本。
以全周期數(shù)據(jù)繪制主題詞云(見圖10),可以看到,“新型冠狀病毒”“肺炎”“疫情”“感染”“病例”等新冠疫情主題詞占據(jù)較大的比重, 同時(shí)其伴隨“口罩”“防護(hù)”“消毒”“開學(xué)”“退票”等生活類訴求,“企業(yè)”“復(fù)工”等企業(yè)訴求,“工作”等就業(yè)訴求,以及“醫(yī)院”“隔離”“出院”“治療”“核酸檢測(cè)”等醫(yī)療訴求。
圖10 全周期主題詞云
由于新冠疫情主題詞占比較大,且在每個(gè)階段都與訴求詞共現(xiàn),因此將其去除以增強(qiáng)訴求主題可視化效果。以6天為一個(gè)時(shí)間階段繪制不同階段的主題詞云(見圖11)??梢钥吹剑涸谡麄€(gè)時(shí)間周期中,存在一些貫穿始終的訴求,其主要為醫(yī)療類訴求,也存在一些階段性訴求:
a.2020.01.01—2020.01.13,疫情傳播的初始階段,民眾對(duì)疫情了解較少,主要訴求為尋求“不明原因”“華南海鮮市場(chǎng)”等疫情的源頭和原因。
b.2020.01.13—2020.01.19,疫情已傳播一段時(shí)間,超過了新冠病毒的14天潛伏期,武漢市為最早發(fā)現(xiàn)疫情的地區(qū),民眾的關(guān)注點(diǎn)則主要聚焦在“武漢市”“患者”“治愈”“死亡”“病情”“重癥”等相關(guān)話題。
c.2020.01.19—2020.01.25,疫情態(tài)勢(shì)嚴(yán)峻,引起社會(huì)廣泛關(guān)注,口罩可以有效防護(hù)新冠病毒,但產(chǎn)能不足,“口罩”成為最大訴求,且在之后的各時(shí)間階段持續(xù)存在,1月23日武漢封城,各項(xiàng)防控措施展開,“防控”訴求亦占據(jù)較大比重。
d.2020.01.25—2020.01.31,處于春節(jié)假期,也是武漢封城第一周,疫情沖擊導(dǎo)致醫(yī)療“物資”匱乏,封城造成生活“物資”短缺。春節(jié)結(jié)束后,學(xué)校延遲“開學(xué)”成為家長(zhǎng)與學(xué)生的主要訴求關(guān)注點(diǎn)。
e.2020.01.31—2020.02.12,春節(jié)假期結(jié)束,受疫情影響,多家公司企業(yè)采取居家辦公的方式工作,國(guó)家鐵路部門出臺(tái)免費(fèi)退票政策,防控措施主要以社區(qū)為單位,“退票”“社區(qū)”“工作”成為該階段主要訴求主題。
f.2020.02.12—2020.02.18,疫情得到進(jìn)一步控制,民眾“復(fù)工”,“企業(yè)”復(fù)產(chǎn)成為主要訴求主題。
突發(fā)事件發(fā)生后,通過感知互聯(lián)網(wǎng)大數(shù)據(jù)環(huán)境中的民眾訴求信息形成突發(fā)事件情報(bào),對(duì)于優(yōu)化政府應(yīng)急管理職能、開展前瞻性應(yīng)急管理工作、提升應(yīng)急管理效能具有重要意義。本文面向互聯(lián)網(wǎng)大數(shù)據(jù),基于突發(fā)事件訴求產(chǎn)生機(jī)理,探究突發(fā)事件情報(bào)感知的過程,通過構(gòu)建訴求詞典建立突發(fā)事件情報(bào)感知模型,并面向新冠疫情開展實(shí)證:使用人民網(wǎng)——“地方領(lǐng)導(dǎo)留言板”語料庫(kù)構(gòu)建了一項(xiàng)訴求停用詞典和三項(xiàng)民意訴求詞典。設(shè)置了訴求詞占比與詞頻規(guī)則,感知微博平臺(tái)疫情期間訴求博文,通過設(shè)計(jì)不同對(duì)照實(shí)驗(yàn),最終得到了一項(xiàng)效果較好的TF-IDF(Jieba)Word2vec訴求詞典,其準(zhǔn)確率達(dá)到92.5%,F(xiàn)1值達(dá)到67.9%。在應(yīng)用方面,提出了面向訴求信息的政府突發(fā)事件情報(bào)感知與決策方案,并使用上述詞典感知情報(bào),進(jìn)行情報(bào)分析:繪制階段性詞云,得到了2020.01.01-2020.02.18期間訴求主題共現(xiàn)時(shí)序情況,為政府感知突發(fā)事件情報(bào)提供了可行路徑和一定的技術(shù)支持。但是本文仍存在一些不足,一是沒有對(duì)詞典中的訴求詞進(jìn)行篩選,依舊存在一些無關(guān)詞,需要進(jìn)一步精煉完善;二是識(shí)別規(guī)則只使用了詞頻規(guī)則,其他的識(shí)別規(guī)則需要進(jìn)一步研究;三是在情報(bào)分析方面有待進(jìn)一步研究。