王 強 陳安琪
1.北京市科學技術(shù)情報研究所 2.研究院競爭情報與創(chuàng)新評估重點實驗室
突發(fā)公共衛(wèi)生事件是指突然發(fā)生,造成或者可能造成社會公眾健康嚴重損害的重大傳染病疫情、群體性不明原因疾病、重大食物和職業(yè)中毒以及其他嚴重影響公眾健康的事件。隨著生物技術(shù)、化學技術(shù)和核技術(shù)在工農(nóng)業(yè)、醫(yī)療衛(wèi)生、科學研究和軍事上應用的日益廣泛,我國許多新發(fā)、再發(fā)傳染病及不明原因的疾病頻繁暴發(fā),化學污染、中毒和放射事故逐年增多,同時,因森林開發(fā)、興修水庫帶來地理景觀改變,全球氣候變暖、生態(tài)改變等自然、人為因素造成的突發(fā)公共衛(wèi)生事件也在不斷增加,這都必然會給國家在政治和經(jīng)濟上造成損失,對人民的身體和精神帶來嚴重威脅。
互聯(lián)網(wǎng)作為一種新媒體形式,已經(jīng)成為信息發(fā)布和獲取的主要渠道之一,隨著我國對公共衛(wèi)生事件重視程度的不斷提高和信息透明度的不斷增強,突發(fā)公共衛(wèi)生事件的進展情況已經(jīng)能夠比較及時的發(fā)布到網(wǎng)絡媒體,使相關(guān)網(wǎng)絡信息隨著公共衛(wèi)生事件的進展而不斷傳播,因此對網(wǎng)絡信息及其傳播模式的分析,是揭示和發(fā)現(xiàn)公共衛(wèi)生事件發(fā)生發(fā)展規(guī)律,事件之間的轉(zhuǎn)換、耦合、衍生、次生等關(guān)系和條件的重要手段。
語料庫(Corpus)是語料的倉庫或者語料的集合[1],作為突發(fā)公共衛(wèi)生事件語料庫指的是為研究突發(fā)公共衛(wèi)生事件而專門收集的、有一定結(jié)構(gòu)的、有代表性的、可以被計算機程序檢索的、具有一定規(guī)模的專業(yè)語料的集合。構(gòu)建突發(fā)公共衛(wèi)生事件語料庫,對探索突發(fā)公共衛(wèi)生事件互聯(lián)網(wǎng)文本的語言特征,揭示突發(fā)公共衛(wèi)生事件網(wǎng)絡信息的傳播宏觀模式和微觀模式,辨析網(wǎng)絡突發(fā)公共衛(wèi)生事件的信息真?zhèn)危剿魈厥馇榫诚戮W(wǎng)民情緒波動情況及不同語境環(huán)境下受眾的群體特征為政府和相關(guān)部門提供科學的應急措施和防范計劃等都具有重要意義。
通過網(wǎng)絡爬蟲在互聯(lián)網(wǎng)上采集與突發(fā)公共衛(wèi)生事件相關(guān)的新聞報道、評論、博客等文本信息形成計算機可存儲的數(shù)字化生語料庫。建立的生語料庫應滿足真實性、代表性、平衡性三大目標。即,在生語料庫中應包含規(guī)范運用的語言樣本,如:網(wǎng)絡媒體新聞,也包含非規(guī)范運用的語言樣本,如:評論、留言、博客等。
對生語料庫進行進一步的加工和處理,將語料分為與突發(fā)公共衛(wèi)生事件相關(guān)和無關(guān)的兩類語料,最終完成突發(fā)公共衛(wèi)生事件語料庫的構(gòu)建。存儲在該語料庫中的語料是經(jīng)過標注的,結(jié)構(gòu)化或半結(jié)構(gòu)化的語料。同時該語料庫還保存著每一語料樣本的元數(shù)據(jù),如:標題、作者、發(fā)布時間、消息來源和發(fā)布網(wǎng)站名等信息。最終,該語料庫內(nèi)的記錄應能支持針對突發(fā)公共衛(wèi)生事件網(wǎng)絡信息語言特征的結(jié)構(gòu)的分析。
該案例庫主要存儲了互聯(lián)網(wǎng)上與國內(nèi)重大突發(fā)公共衛(wèi)生事件相關(guān)的結(jié)構(gòu)化和半結(jié)構(gòu)化的信息,其包含近百個國內(nèi)重大突發(fā)公共衛(wèi)生事件案例。該案例庫案例主要來自于國內(nèi)主流門戶網(wǎng)站針對突發(fā)公共衛(wèi)生事件所組織的新聞專題而構(gòu)成,其不僅存儲首次在互聯(lián)網(wǎng)上出現(xiàn)的重大突發(fā)公共衛(wèi)生事件文本和數(shù)據(jù)記錄,還應存儲同一事件的后續(xù)報道文本和數(shù)據(jù)記錄,以及由該事件導致的新興相關(guān)事件文本和數(shù)據(jù)記錄。
本項目的最終成果將包括三庫一集,即:突發(fā)公共衛(wèi)生事件生語料庫、突發(fā)公共衛(wèi)生事件語料庫、突發(fā)公共衛(wèi)生事件數(shù)據(jù)集、突發(fā)公共衛(wèi)生事件案例庫。其中,突發(fā)公共衛(wèi)生事件生語料庫及數(shù)據(jù)集是其它兩個庫的基礎(chǔ),庫中包含的語料信息絕大部分是另外兩個庫及數(shù)據(jù)集的輸入。突發(fā)公共衛(wèi)生事件語料庫主要是在文本挖掘,文本分類技術(shù)基礎(chǔ)上進行構(gòu)建,突發(fā)公共衛(wèi)生事件數(shù)據(jù)集則是突發(fā)公共衛(wèi)生事件網(wǎng)絡文本數(shù)據(jù)抽取的主要工作,它集成了語料庫語料的元數(shù)據(jù)和文本發(fā)布者、地理信息,時間信息等屬性數(shù)據(jù)。案例庫則是在獲取的門戶網(wǎng)站突發(fā)事件專題新聞語料基礎(chǔ)上,通過對事件新聞標題進行提取,進而在博客和論壇上進一步采集事件數(shù)據(jù),利用文本相似度計算技術(shù)對的語料進一步的深加工而形成的。
本突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)以數(shù)據(jù)采集模塊作為支撐從而形成最初的生語料庫及數(shù)據(jù)集。通過文本處理工具集分別對生語料及數(shù)據(jù)集進行加工從而形成過濾、清洗及轉(zhuǎn)換后的數(shù)據(jù)集、案例庫和法定傳染病語料庫。最后,最上層的分析及展示工具集根據(jù)處理好的2庫1集提供的數(shù)據(jù)對數(shù)據(jù)進行統(tǒng)計及展示。具體的系統(tǒng)結(jié)構(gòu)如圖1。系統(tǒng)功能主要由前后兩個平臺實現(xiàn),前臺主要用于展示經(jīng)過抽取、清洗和轉(zhuǎn)換、分類好的語料及與語料相關(guān)聯(lián)的數(shù)據(jù)集。后臺則包含了基礎(chǔ)管理,傳染病生語料庫管理、案例庫管理三大管理模塊。
圖1 突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)架構(gòu)圖
突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)的展示平臺采用分層處理及工具集成的方式對語料庫系統(tǒng)的語料及數(shù)據(jù)進行展示,如圖2。
圖2 突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)分類體系
(1)前臺展示分類體系。
展示部分包含兩個不同體系的內(nèi)容,一部分為法定傳染病監(jiān)測,該部分內(nèi)容主要針對《中華人民共和國傳染病防治法》[2]中列出的甲、乙、丙類共39個傳染病構(gòu)建關(guān)鍵詞表,并通過網(wǎng)絡爬蟲、數(shù)據(jù)過濾、和文本分類技術(shù)對抓取的網(wǎng)絡生語料進行清洗和分類而得到。另一部分則是重大突發(fā)公共衛(wèi)生事件語料,該部分新聞語料主要來自于主流門戶網(wǎng)站對突發(fā)公共衛(wèi)生事件所組織的新聞專題,同時通過對新聞專題下的新聞標題進行處理,構(gòu)建了重大突發(fā)公共衛(wèi)生事件博客、論壇抓取任務列表,并通過抓取構(gòu)建了初級的重點突發(fā)公共衛(wèi)生事件博客、論壇生語料庫,隨后在此生語料庫基礎(chǔ)上,通過文本相似度計算技術(shù)對生語料進行提純,進而得到博客、論壇案例庫語料。并且為了讓后續(xù)基于語料庫的信息傳播研究能根據(jù)不同類型的事件進行分析,還要根據(jù)專家建議將案例庫語料根據(jù)其所代表的事件類型,進一步細分為了法定傳染病事件、食品安全事件、醫(yī)藥衛(wèi)生事件、環(huán)境污染事件和其他突發(fā)事件共五個類別。
(2)事件級別的語料展示(含法定傳染?。?。
基于事件級別的語料展示包含話題發(fā)布趨勢、信息來源分布、事件新聞列表、新聞媒體排行、事件博客列表、事件帖子列表、意見領(lǐng)袖排行、關(guān)鍵詞排行、議題一致性分析、情感趨勢分析和地理分布11個數(shù)據(jù)分析展示模塊。
話題發(fā)布趨勢模塊。話題發(fā)布趨勢模塊包含信息增量趨勢展示和信息累計趨勢展示兩個展示子模塊,信息增量趨勢模塊主要是基于事件發(fā)生的時間軸根據(jù)一定的時間區(qū)間動態(tài)的反應該時間區(qū)間內(nèi)的信息增量,通過對比不同媒介信息增量了解一定時間區(qū)段內(nèi)不同網(wǎng)絡媒介對事件的反應強度。信息累計趨勢則是呈現(xiàn)在一定時間區(qū)段類事件信息增長的累計趨勢。通過對比不同網(wǎng)絡媒介網(wǎng)絡信息累計增長量,可以有效觀測不同網(wǎng)絡媒介平臺信息傳播的相互影響趨勢及評估網(wǎng)絡信息傳播效果。
信息來源分布模塊。信息來源分布模塊通過統(tǒng)計同一事件下新聞、博客、論壇三個信息源的信息發(fā)布趨勢從另一個角度反映了不同媒介對突發(fā)公共衛(wèi)生事件的反映強度。
事件新聞、博客、論壇列表。對突發(fā)公共衛(wèi)生事件新聞、博客及論壇列表的展現(xiàn)均按事件發(fā)生的時間升序排列。一方面,通過并列方式顯示不同信息來源的信息可以讓研究人員了解不同媒體平臺下信息的整體發(fā)布情況,了解平臺之間信息的轉(zhuǎn)換、耦合、衍生、次生等關(guān)系。另一方面,該列表還集成了數(shù)據(jù)集中該信息的屬性數(shù)據(jù),如信息來源、評論量、閱讀量、相似信息數(shù),給研究人員從海量信息中獲取關(guān)鍵數(shù)據(jù)提供了參考依據(jù)。最后,該列表也是進入原子級別語料展示及分析的接口。
新聞媒體排行。新聞媒體排行模塊是對新聞語料進一步挖掘的結(jié)果,其主要展示了某一事件(傳染?。┫?,報道該事件最多前10位媒體網(wǎng)站該模塊可以幫助研究人員了解突發(fā)公共衛(wèi)生事件下的主要新聞信息發(fā)布平臺。
意見領(lǐng)袖排行。意見領(lǐng)袖排行模塊的數(shù)據(jù)基礎(chǔ)是論壇帖子語料及帖子評論語料。由于采集的論壇帖子語料總數(shù)達到27萬條,考慮到系統(tǒng)的負荷及確保數(shù)據(jù)的代表性、有效性和有用性,對帖子評論的采集是基于回帖量大于30這個閾值進行的。意見領(lǐng)袖排行統(tǒng)計的是突發(fā)公共衛(wèi)生事件論壇評論數(shù)據(jù)中發(fā)表帖子數(shù)量和評論數(shù)量最多的網(wǎng)絡用戶。選取發(fā)文量最多的前10位網(wǎng)絡用戶進行展現(xiàn)。意見領(lǐng)袖排行可以反映公共衛(wèi)生事件中的積極的利益相關(guān)者。
關(guān)鍵詞排行。關(guān)鍵詞排行模塊對三大信息源的語料進行了抽取,本項目分詞工具動態(tài)加載了搜狗細胞詞庫中的醫(yī)學詞庫和機構(gòu)詞庫詞表共286559個詞條,利用這些詞條及分詞工具我們對三大信息源的語料進行了切詞,去停用詞,并對最終分詞結(jié)果及每篇文章詞的詞頻進行了統(tǒng)計。選取在三大信息源語料中出現(xiàn)次數(shù)最多10個詞展現(xiàn)在排行列表內(nèi)。關(guān)鍵詞排行從詞的角度反映了突發(fā)事件發(fā)生發(fā)展過程中的熱點。
議題一致性分析。議題一致性分析是對關(guān)鍵詞排行的擴展。其對三大信息源語料單篇文章的詞頻進行了分別統(tǒng)計選取出在各信息源中出現(xiàn)次數(shù)最多的10個關(guān)鍵詞進行展現(xiàn),其后對各來源的關(guān)鍵詞進行了合并,選取詞頻出現(xiàn)最多的10個關(guān)鍵詞,并通過展示界面反映出不同網(wǎng)絡媒介中關(guān)鍵詞詞頻數(shù)量的異同。議題一致性分析可以考察不同媒介在同一事件中論點的異同。
情感趨勢分析。情感趨勢分析模塊利用文本情感計算開源工具包對三大信息源中的詞進行了情感傾向計算,同時該模塊也對文本中的否定詞及否定句進行了情感傾向反轉(zhuǎn)。
地理分布。地理分布模塊是對語料庫語料資源地名抽取后統(tǒng)計的結(jié)果。地理分布模塊有助于分析突發(fā)事件所涉及的地域范圍,為監(jiān)測事件動態(tài)發(fā)展過程提供參考。
(3)原子級別的語料展示(含法定傳染病)。
原子級別的語料展示除了語料還原以外,還提供了單一文本的關(guān)鍵詞詞頻統(tǒng)計,論壇帖子評論情感識別,單一帖子意見領(lǐng)袖識別、意見領(lǐng)袖言論匯總及言論情感值計算等分析工具。
新聞語料展示。新聞語料展示功能包括原文文本重現(xiàn)、情感傾向識別及關(guān)鍵詞詞頻統(tǒng)計功能。該頁面可以提供支持項目突發(fā)公共衛(wèi)生事件網(wǎng)絡傳播模式有關(guān)突發(fā)公共衛(wèi)生事件主題詞表構(gòu)建及相關(guān)語料詞性、詞頻、語義等語言學特征的研究。
博客語料展示。博客語料展示功能包括原文文本重現(xiàn)、情感傾向識別及關(guān)鍵詞詞頻統(tǒng)計功能。該頁面可以提供支持項目突發(fā)公共衛(wèi)生事件網(wǎng)絡傳播模式有關(guān)突發(fā)公共衛(wèi)生事件主題詞表構(gòu)建及相關(guān)語料詞性、詞頻、語義等語言學特征的研究。
論壇語料展示。論壇語料展示功能包括原文文本重現(xiàn)、情感傾向識別、回帖情感傾向分布、意見領(lǐng)袖排行及關(guān)鍵詞詞頻統(tǒng)計功能。該頁面除了提供支持項目突發(fā)公共衛(wèi)生事件網(wǎng)絡傳播模式有關(guān)突發(fā)公共衛(wèi)生事件主題詞表構(gòu)建及相關(guān)語料詞性、詞頻、語義等語言學特征的研究外,還對考察大眾傳播的效果,收集大眾傳播的反饋,理解突發(fā)公共衛(wèi)生信息在群體傳播和人際傳播中的形式、特點及過程提供支持。
意見領(lǐng)袖信息匯總。意見領(lǐng)袖信息匯總包括意見領(lǐng)袖發(fā)布信息匯總及意見領(lǐng)袖發(fā)布信息的情感傾向識別及情感傾向分布。意見領(lǐng)袖信息匯總反映了某一事件下意見領(lǐng)袖在論壇帖子總發(fā)布的言論信息,并對其每一條言論信息進行了情感傾向識別及統(tǒng)計了言論的情感傾向分布。該頁面可以幫組研究人員了解突發(fā)公共衛(wèi)生事件中最積極的利益相關(guān)者的主要訴求及情感趨向。
突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)后臺包括基礎(chǔ)管理、案例庫管理和法定傳染病語料管理三大模塊,如圖3。
(1)基礎(chǔ)管理。
基礎(chǔ)管理模塊包含主題領(lǐng)域管理、分類管理、站點注冊、列表任務采集及系統(tǒng)命令五大功能。主題領(lǐng)域管理是為構(gòu)建某一領(lǐng)域的語料庫而設(shè)計的,他可以根據(jù)需要建立和新建不同主題領(lǐng)域的語料庫,本系統(tǒng)中目前只有突發(fā)公共衛(wèi)生事件該主題領(lǐng)域的語料。
圖3 突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)結(jié)構(gòu)圖
分類管理是對主題領(lǐng)域下的類別的管理,它包括增刪查該四個基本的類別管理功能。當設(shè)計好一個主題領(lǐng)域后可以在該頁面下為預采集的文本設(shè)定類別及管理該類別下的關(guān)鍵詞表。關(guān)鍵詞表也具備基本的增刪查改功能。
站點注冊包括對爬取站點管理及爬取任務列表生成功能,該模塊主要由管理人員負責管理。
列表采集模塊提供爬取任務執(zhí)行狀態(tài)的查詢功能,可完成爬取任務的添加、刪除和修改工作。
系統(tǒng)命令則集成了從文本抓取、文本去重、文本預處理、文本相似度計算、文本分類、實體抽取等眾多數(shù)據(jù)抽取、分析和處理功能的模塊。系統(tǒng)管理員可以在系統(tǒng)頁面下通過配置相應的系統(tǒng)參數(shù)完成生語料的加工、分類工作。
(2)案例庫管理。
案例庫管理包括案例事件管理、案例新聞管理、案例博客管理、案例論壇管理4個部分。各部分都提供了對各自頁面內(nèi)容的增刪查改功能。
(3)法定傳染病語料管理。
傳染病語料管理主要包含生語料庫管理、生語料標注平臺和分類語料管理三部分。生語料庫的管理主要包括新聞、博客、論壇生語料的增刪查改功能。并提供了鏈接至網(wǎng)絡原始文本的地址。
語料標注平臺主要是對生語料進行標注,生成用于訓練分類器的訓練文本集。同時,為了減少標注人員的標注勞動量,該平臺也具備語料檢索功能。
分類語料庫的管理包括對新聞、博客和論壇分類語料的管理,各管理頁面均提供了基本的增刪查改功能,并同了鏈接至網(wǎng)絡原始文本的地址。
本語料庫是面向任務的,采用目標驅(qū)動的方式進行構(gòu)建。由于本語料庫主要用于提供突發(fā)公共衛(wèi)生事件傳播模式的研究,因此本系統(tǒng)不但具有傳統(tǒng)語料庫的功能,同時還對研究突發(fā)公共衛(wèi)生事件傳播模式進行了支撐設(shè)計,通過對已有的傳播學理論的消化并結(jié)合目前網(wǎng)絡輿情研究的成熟技術(shù),將一些可量化的語料分析方法,信息傳播分析方法及文本挖掘工具也都集成到了語料庫系統(tǒng)中,使得系統(tǒng)可以根據(jù)不同的研究目的,而提供智能化的語料分析工具,輔助領(lǐng)域?qū)<彝瓿上嚓P(guān)領(lǐng)域的研究工作。
本系統(tǒng)提供了多種分析工具配合多種分析方法,對同一突發(fā)事件利用多種工具,從多種角度來探索事件信息在互聯(lián)網(wǎng)中的傳播路徑及信息擴散范圍。系統(tǒng)提供的分析工具的多樣性,使得用戶可以從多角度來觀察突發(fā)公共衛(wèi)生事件的整個演化過程,并可以利用不同工具的互補性來驗證分析的準確性。與此同時,本文構(gòu)建的語料庫盡管從語料內(nèi)容看是面向突發(fā)公共衛(wèi)生事件,但語料庫建設(shè)框架、系統(tǒng)技術(shù)路線和功能結(jié)構(gòu)并不存在領(lǐng)域依賴性,這些內(nèi)容對于自然災害、事故災難和社會安全相關(guān)事件語料庫建設(shè)同樣具有借鑒意義。
[1]俞士汶,段慧明,朱學鋒,等. 北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學報,2002,16(5):49-64
[2]全國人民代表大會常務委員會.中華人民共和國傳染病防治法[M].北京:法律出版社,2013