關(guān)莉莉
吉林電視臺,吉林 長春 130021
?
關(guān)于新聞視頻主題識別與跟蹤的研究
關(guān)莉莉
吉林電視臺,吉林 長春 130021
伴隨著通信技術(shù)和多媒體的飛速發(fā)展,人們能夠用于表達、傳遞和存儲信息的手段也越來越多,與此同時人們每天需要接觸的信息數(shù)量也正呈爆炸式增長,因此在新聞領(lǐng)域當(dāng)中研究關(guān)于自動識別、分析以及檢測追蹤新聞視頻的方式方法具有極其重要的現(xiàn)實意義。本文將以此為基礎(chǔ),簡要探究關(guān)于新聞視頻主題的識別與跟蹤。
新聞視頻主題;識別;跟蹤
通常情況下,一套完整的新聞節(jié)目是由若干個新聞單元組合而成,因此人們在分析新聞視頻內(nèi)容之前,首先需要做的就是按照新聞數(shù)據(jù)之間的關(guān)聯(lián)程度,將完成的新聞節(jié)目還原成若干新聞單元的初始形式;之后將新聞視頻新聞報道基于語義特征進行切分。而本文則主要探究的是以自然語言和文本形式為主的新聞視頻報道,并在此基礎(chǔ)上著重圍繞新聞視頻主題的識別與跟蹤進行簡要分析論述。
美國國防高級研究計劃署最早提出了識別和跟蹤主題這一概念,也就是說徹底拋棄傳統(tǒng)的人工干預(yù)操作,完全使用自動化模式用于對新聞數(shù)據(jù)流及其主題進行合理判斷[1]。最初識別和跟蹤主題的目的主要適用于尋找主體之間的一致性,利用系統(tǒng)對兩件事之間的界進行自動判斷,故而區(qū)分出出現(xiàn)的新事件以及再現(xiàn)的舊事件。后期隨著科學(xué)技術(shù)的不斷發(fā)展進步,識別和跟蹤主題也得到了深入細化,被分為了如表1所示的五個任務(wù)。
表1 識別和跟蹤主題的五大任務(wù)
所謂切分新聞報道具體來說就是指將從同一個信息源當(dāng)中獲得的語言信息流分割成為若干個不同的新聞報道。由于新聞專線當(dāng)中的文本信息流,從本質(zhì)上來說就是呈現(xiàn)出單個報道形式,因此只有在處理來自廣播、電視等傳統(tǒng)媒體音頻數(shù)據(jù)的過程當(dāng)中才會涉及切分新聞報道[2]。通常情況下,若干條不同的新聞報道組合在一起構(gòu)成一段完整的新聞節(jié)目,但是通過觀察可知,幾乎沒有任何新聞節(jié)目會用分隔標記用以區(qū)分不同的報道。好比說人們常常能夠在某一篇報道當(dāng)中發(fā)現(xiàn)商業(yè)廣告的存在等等。而需要被切分的語料或數(shù)據(jù),有可能是音頻記錄,也有可能是利用語音識別功能后將音頻記錄轉(zhuǎn)化形成的文字記錄。
所謂的識別新事件,其根本目標就于能夠發(fā)現(xiàn)以往從未出現(xiàn)過或是從未被討論過的新聞主題,有可能是地震、海嘯,有可能是發(fā)射導(dǎo)彈、衛(wèi)星,也有可能是某個八卦娛樂新聞等等。通常情況下此類新聞主題還兼具用于識別主題系統(tǒng)的測試功能,這主要是由于識別新聞主題系統(tǒng)的重要基礎(chǔ)就是對每一個新聞報道當(dāng)中是否討論新話題進行判斷?,F(xiàn)階段人們習(xí)慣使用向量或分布概率的形式用以識別新事件。具體來說就是指在概括每一篇新聞報道時都會借助于向量或分布概率形式,其最終形成的集合表示新聞主題的所有特征,而一旦出現(xiàn)新報道,將會比較以往報道的所有特征集合與現(xiàn)在新聞報道的特征集合,并且將其作為判斷新主題是否參與討論的重要依據(jù)[3]。也有部分研究人員認為利用單純的比較文本相似性方法很難完成調(diào)整參數(shù)、提高系統(tǒng)性能的任務(wù),因此還需要尋找其他方法。
識別新聞視頻主題指的就是通過對新聞視頻進行深度識別,最終將主題內(nèi)容歸攏到與之相對應(yīng)的主題庫當(dāng)中,結(jié)合實際情況可以適當(dāng)建立全新的新聞主題。從本質(zhì)上看,識別新聞視頻主題幾乎和無指導(dǎo)的聚類研究一模一樣,即面對新聞視頻的主題數(shù)量、出現(xiàn)時間等系統(tǒng)無法進行預(yù)測,只能有限的向前看。通常意義上的聚類等同于將全局信息也就是整個新聞數(shù)據(jù)集合進行聚類,但識別視頻新聞主題時則是使用增量方法完成聚類。這也正意味著,只能向前看到有限的文本、報道才能進入最終的決策環(huán)節(jié)。作為一種增量式的聚類,人們習(xí)慣于將識別新聞視頻主題分成兩個階段:第一個階段為識別新事件是否出現(xiàn);第二個階段為對于新聞視頻中出現(xiàn)的主題歸攏至相應(yīng)的主題庫當(dāng)中。顯而易見,在第一個階段當(dāng)中,就是識別新事件的發(fā)生。識別新聞視頻主題其實也是將識別新事件進行自然的擴展[4]。但是,二者之間存在明顯的區(qū)別,即在第一個階段當(dāng)中系統(tǒng)只負責(zé)在新聞視頻當(dāng)中識別出主題,若這一任務(wù)無法得到有效落實將會引發(fā)嚴重的后果;而在第二個階段當(dāng)中需要將新聞視頻中的主題進行識別并且歸入到主題庫當(dāng)中,即使無法在視頻當(dāng)中識別出主題也并不會引發(fā)嚴重后果。
跟蹤新聞視頻主題具體來說就是在給出某一主題當(dāng)中的一個或幾個新聞報道視頻,之后將輸入進的相關(guān)新聞報道與新聞視頻主題進行有機整合。在此過程中首先需要給出一組樣本報道,通過訓(xùn)練最終得到一個主題模型,然后在后續(xù)跟蹤報道的新聞視頻當(dāng)中識別出所有與目標主題有關(guān)的新聞視頻。由此我們可以看出,跟蹤新聞視頻主題與通過查詢例子和過濾信息的相關(guān)研究有著異曲同工之妙但是在目前跟蹤新聞視頻主題當(dāng)中之后很少的已知訓(xùn)練正例,并且與新聞主題有關(guān)的新聞視頻通常會集中出現(xiàn)在某一段特定的時間段。值得注意的是,在跟蹤新聞視頻主題的過程當(dāng)中訓(xùn)練使用的視頻數(shù)量,測試語料、使用語言質(zhì)量等均會對追蹤任務(wù)產(chǎn)生不同程度的影響。隨著科學(xué)技術(shù)水平的不斷提高,跟蹤新聞視頻主題的系統(tǒng)也得到了相應(yīng)的發(fā)展,即使在某些特定領(lǐng)域當(dāng)中也可以得以運用。相信再經(jīng)過幾年的發(fā)展,跟蹤新聞視頻主題的正確率將會得到進一步提升。
總而言之,本文通過從切分新聞報道、識別新事件、識別新聞視頻主題以及追蹤新聞視頻主題等幾個方面進行簡要分析,幫助人們對新聞視頻主題的識別追蹤產(chǎn)生一個大致的了解,但是由于當(dāng)前在相關(guān)方面的研究少之又少,因此本文還有許多不足之處,還需得到進一步的完善和研究。
[1]吳玲達,文軍,陳丹雯,袁志民.新聞視頻主題識別與跟蹤技術(shù)研究綜述[J].計算機科學(xué),2015,06:5-10.
[2]文軍,吳玲達,曾璞,欒悉道.關(guān)于新聞視頻主題識別與跟蹤分析研究[J].軟件學(xué)報,2016,11:2971-2984.
[3]朱旭東.關(guān)于新聞視頻主題識別與跟蹤的研究[D].西安電子科技大學(xué),2015.
[4]王衛(wèi)威.新聞視頻中識別與跟蹤主題的技術(shù)研究[D].國防科學(xué)技術(shù)大學(xué),2015.
TP
A