何順蘭,王興起,胡宏宇,姜 明
(1.杭州小靈通通信技術(shù)有限公司,浙江 杭州310001;2.杭州電子科技大學(xué)計算機(jī)學(xué)院,浙江杭州310018)
目前網(wǎng)絡(luò)輿情分析已經(jīng)成為眾多國內(nèi)外專家研究的一個熱點(diǎn)和重點(diǎn),已有一些實(shí)際的系統(tǒng)投入使用[1]。麻省理工大學(xué)和卡耐基梅隆大學(xué)等大學(xué)以及IBM Watson研究中心等研究機(jī)構(gòu)紛紛開展了相關(guān)研究工作。美國有一個研究項(xiàng)目被稱為主題檢測與追蹤(Topic Detection and Tracking,TDT),它采用了一種開放式的評估方法,提供了測試需要的文本集,并給出了測試的衡量標(biāo)準(zhǔn):錯誤正確率。TDT項(xiàng)目中主要涉及到了5個研究內(nèi)容:連續(xù)文本的分割(針對廣播新聞)、主題跟蹤、主題發(fā)現(xiàn)、新事件發(fā)現(xiàn)和相關(guān)發(fā)現(xiàn)[2]。國內(nèi)方面主要有方正智思輿情監(jiān)測分析系統(tǒng)、谷尼輿情監(jiān)測分析系統(tǒng)等。方正智思輿情系統(tǒng)作為輿情的監(jiān)測分析工具輔助輿情監(jiān)控部門對輿論信息進(jìn)行評估,分析規(guī)劃輿情監(jiān)控內(nèi)容,形成輿情預(yù)警信息,同時根據(jù)輿情的監(jiān)控級別規(guī)劃新的監(jiān)控內(nèi)容,開始新的監(jiān)控周期,形成一個具有生命特征的周期往復(fù)的社情民意反饋系統(tǒng)。谷尼網(wǎng)絡(luò)輿情信息監(jiān)控是以信息采集技術(shù)為核心,應(yīng)用信息采集技術(shù)、內(nèi)容管理技術(shù)、知識管理技術(shù)、信息分類技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)測和新聞熱點(diǎn)追蹤、新聞監(jiān)管等功能需求[3]。中國科學(xué)院計算所和清華大學(xué)等高校也開展了類似的研究工作[4]。在視頻摘要方面,美國MIT實(shí)驗(yàn)室、德國Mannheim大學(xué),國內(nèi)的亞洲微軟研究院、清華大學(xué)等都進(jìn)行了此領(lǐng)域的研究[5]。隨著音視頻內(nèi)容分析技術(shù)、視頻摘要技術(shù)、數(shù)據(jù)挖掘技術(shù)等日益成熟,從理論與技術(shù)上來說,研發(fā)多媒體輿情分析系統(tǒng)是可行的,也是非常迫切的。
輿情分析的技術(shù)手段與輿論的傳播渠道有密切關(guān)系。傳統(tǒng)上,報紙等大眾媒體是輿論傳播的主要渠道,而隨著最近十多年來互聯(lián)網(wǎng)的飛速發(fā)展,人們參與社會生活的方式也發(fā)生了重大變化,網(wǎng)絡(luò)媒體成為反應(yīng)社會輿情的主要載體之一。但目前的網(wǎng)絡(luò)輿情分析研究及產(chǎn)品主要是針對網(wǎng)絡(luò)新聞評論、BBS論壇等途徑形成的輿情,其本質(zhì)是在對文本進(jìn)行語義分析的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘。而對多媒體輿情分析的研究及產(chǎn)品相對較少。隨著網(wǎng)絡(luò)多媒體應(yīng)用越來越豐富、越來越普及,尤其是“三網(wǎng)融合”時代的逐步到來,對多媒體輿情進(jìn)行分析監(jiān)測,以及時有效地發(fā)現(xiàn)熱點(diǎn)輿情及其形成和發(fā)展規(guī)律、正確引導(dǎo)輿情發(fā)展方向,使得政府部門能做出及時反饋,從而對有效化解輿論危機(jī)、保持社會穩(wěn)定發(fā)展、構(gòu)建社會主義和諧社會具有十分重要的現(xiàn)實(shí)意義。本文研發(fā)多媒體輿情數(shù)據(jù)分析系統(tǒng),系統(tǒng)具體流程如圖1所示。
圖1 多媒體輿情分析系統(tǒng)流程結(jié)構(gòu)圖
首先用戶需要構(gòu)建多媒體數(shù)據(jù)樣本庫和輿情知識庫,系統(tǒng)在使用過程中會自動更新和完善樣本庫和知識庫,在輿情知識庫更新時,需要同步更新多媒體數(shù)據(jù)樣本庫。系統(tǒng)新獲取多媒體數(shù)據(jù)時,這些數(shù)據(jù)以文件的形式存儲到原始數(shù)據(jù)庫中。保存到原始數(shù)據(jù)庫中的數(shù)據(jù)要經(jīng)過特征提取引擎進(jìn)行特征提取,提取后的特征存儲到元數(shù)據(jù)庫中。元數(shù)據(jù)庫中的數(shù)據(jù)是底層的描述數(shù)據(jù),不適合直接用于輿情分析,因此需要對多媒體元數(shù)據(jù)進(jìn)行語義分析,生成多媒體語義信息庫。系統(tǒng)在上述數(shù)據(jù)獲取之后便可以通過輿情分析引擎進(jìn)行輿情分析,生成系統(tǒng)的最終結(jié)果輿情信息和預(yù)警信息。系統(tǒng)具體研究內(nèi)容如下。
(1)輿情知識數(shù)據(jù)庫構(gòu)建及更新
主要包含用于輿情分析的知識,包括:輿情類別知識譜系和類別譜系與樣本庫的關(guān)聯(lián)索引,而輿情知識數(shù)據(jù)庫研究內(nèi)容又包括輿情知識數(shù)據(jù)庫構(gòu)建和輿情知識數(shù)據(jù)庫更新。
(2)多媒體輿情分析樣本庫構(gòu)建及更新
主要包括建立多媒體輿情分析樣本庫,研究多媒體數(shù)據(jù)樣本選取方法,研究多媒體輿情數(shù)據(jù)庫索引方法和存儲技術(shù),研究多媒體數(shù)據(jù)庫樣本增量式更新方法。
(3)多媒體特征抽取引擎
主要研究各種多媒體數(shù)據(jù)特征提取方法,如音頻特征提取方法、視頻特征提取方法等等,如紋理、輪廓、幾何、形狀、顏色等視頻特征提取方法,短時能量、頻譜質(zhì)心等音頻特征提取方法。這些方法為后續(xù)多媒體數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)庫的構(gòu)建提供有效工具。
(4)元數(shù)據(jù)數(shù)據(jù)庫構(gòu)建
主要研究通過調(diào)用多媒體特征抽取引擎中提供的方法或方法組合,提取多媒體數(shù)據(jù)的特征,并將與音視頻相對應(yīng)的音頻、視頻元數(shù)據(jù)(即特征)存儲到元數(shù)據(jù)數(shù)據(jù)庫中。
(5)多媒體數(shù)據(jù)分析引擎
主要研究內(nèi)容為面向多媒體的數(shù)據(jù)挖掘傳統(tǒng)技術(shù)實(shí)現(xiàn)和面向多媒體的特定技術(shù)實(shí)現(xiàn)。
(6)輿情內(nèi)容分析
本部分分為5個研究子內(nèi)容,即熱點(diǎn)話題及敏感話題識別、趨勢分析、音視頻自動摘要、主題追蹤、輿情預(yù)警。
(7)系統(tǒng)前臺設(shè)計開發(fā)
主要研究內(nèi)容主要包括兩個方面,即輿情信息展示和系統(tǒng)操作、維護(hù)與管理。
本文系統(tǒng)主要功能是對音視頻內(nèi)容進(jìn)行分析以獲得輿情結(jié)果,并通知相關(guān)責(zé)任人。系統(tǒng)體系結(jié)構(gòu)設(shè)計遵循如下原則:(1)體系結(jié)構(gòu)的松耦合性;(2)平臺的可視化操作;(3)數(shù)據(jù)處理的靈活性;(4)可移植性?;诖?系統(tǒng)體系結(jié)構(gòu)擬采用3層架構(gòu):數(shù)據(jù)資源層、系統(tǒng)分析層和應(yīng)用層,如圖2所示。
圖2 多媒體輿情分析系統(tǒng)體系結(jié)構(gòu)圖
本部分包括3個子層:原始數(shù)據(jù)子層、音視頻特征抽取子層和特征數(shù)據(jù)子層。原始數(shù)據(jù)資源子層由各種格式類型的音視頻文件庫構(gòu)成,并與數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)。為了提高處理效率,需通過音視頻特征抽取子層對視頻原始數(shù)據(jù)進(jìn)行處理生成元數(shù)據(jù);特征數(shù)據(jù)子層由元數(shù)據(jù)數(shù)據(jù)庫、輿情知識庫和音視頻樣本庫構(gòu)成,提供輿情分析的特征信息和知識信息。
該層由輿情分析工具子層及輿情內(nèi)容分析子層兩部分構(gòu)成。輿情分析工具子層由聚類分析、分析預(yù)測、音視頻摘要、關(guān)鍵幀提取等主要功能模塊組成;內(nèi)容分析子層則根據(jù)不同輿情內(nèi)容分析的需求,動態(tài)組合工具子層的不同功能模塊以得到輿情分析結(jié)果。
實(shí)現(xiàn)管理員對多媒體輿情分析系統(tǒng)的可視化操作、輿情分析結(jié)果對用戶的可視化展示。管理員通過該層對系統(tǒng)進(jìn)行相關(guān)配置和管理,輿情分析結(jié)果以可視化的形式展現(xiàn)給用戶。同時系統(tǒng)提供用戶相關(guān)信息檢索、個性化設(shè)置等功能。
本系統(tǒng)的軟件實(shí)現(xiàn)方案擬采用跨平臺Java語言;平臺軟件的實(shí)現(xiàn)機(jī)制,擬采用B/S的實(shí)現(xiàn)方案;整個軟件擬采用面向?qū)ο蟮慕M件開發(fā),系統(tǒng)數(shù)據(jù)庫擬采用Oracle數(shù)據(jù)庫。
本文提出了一個多媒體輿情分析系統(tǒng)解決方案,本文從具體研究內(nèi)容、系統(tǒng)體系結(jié)構(gòu)、關(guān)鍵技術(shù)幾個方面加以詳細(xì)討論。下一步工作是實(shí)現(xiàn)該解決方案提出的多媒體輿情分析系統(tǒng),并通過在廣播電視監(jiān)測單位進(jìn)行測試分析對系統(tǒng)存在的問題加以改進(jìn)和完善。
[1]張超.文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應(yīng)用研究[D].北京:北京郵電大學(xué),2008.
[2]Yang Yiming,Zhang Jian.Topic-conditioned Novelty Detection[C].New York:In proceedingsof the International Conference on Knowledge Discovery and Data Mining,2002:688-693.
[3]壽黎但.互聯(lián)網(wǎng)熱點(diǎn)主題相關(guān)性挖掘方法[S].發(fā)明專利CN101158957A,2008.
[4]雷震,吳玲達(dá),雷蕾.初始化類中心的增量K均值法及其在新聞時間探測中的應(yīng)用[J].情報學(xué)報,2006,25(3):289-295.
[5]Ngo C W,Ma Y F,Zhang H J.Video summarization and scene detection by graph modeling[J].IEEE Transaction on Circuits System for Video Technology,2005,15(2):196-305.