文 劉蔚然
世界正在不斷的隨著計(jì)算機(jī)技術(shù)以及數(shù)字媒體技術(shù)的發(fā)展,使得人們能每時(shí)每刻更加便捷的獲取到新聞以及相關(guān)新聞的視頻,每天都有大量的新聞來(lái)自不同的國(guó)家、各種在線網(wǎng)站都在播放形式各異的影視節(jié)目。這些富有特色的節(jié)目豐富了人們的生活,但是同時(shí)為人們帶來(lái)了大量的冗余以及不斷重復(fù)的信息,這樣對(duì)于觀看新聞的人們來(lái)講很難得到新聞事件的相關(guān)信息。如果以在進(jìn)行報(bào)道的時(shí)候采用專題的形式、可以提高新聞視頻管理工作的水平。將新聞進(jìn)行這樣的分析與組織不僅能夠向視頻用戶展示新聞事件發(fā)生的來(lái)龍去脈,將這個(gè)事件的專題結(jié)構(gòu)清晰的展示出來(lái),還能夠讓用戶在觀看的同時(shí)在相關(guān)視頻列表中找到更多的相關(guān)信息,這樣是非常吸引用戶的。
故事指的是新聞視頻中對(duì)一個(gè)新聞事件的細(xì)致以及完整的報(bào)道,并且也為整個(gè)新聞事件提供了完整的于一方面的信息。本文是提出了一個(gè)以故事為基礎(chǔ)的新聞事件專題分析方法,新聞中的基本思路是通過(guò)將所有相關(guān)新聞的報(bào)道匯聚在一起,來(lái)分析新聞事件內(nèi)部故事中所存在相似以及相互之間的關(guān)系,根據(jù)事件中相互依賴的關(guān)系來(lái)構(gòu)建屬于一個(gè)新聞事件的專題結(jié)構(gòu)。
當(dāng)前新聞組織的形式非常的多,其中應(yīng)用最為廣泛的是針對(duì)報(bào)道節(jié)目的主題的跟蹤以及檢測(cè)技術(shù),簡(jiǎn)稱TDT。TDT的定義是對(duì)文本進(jìn)行組織和利用的研究,此項(xiàng)技術(shù)主要應(yīng)對(duì)的是當(dāng)前信息過(guò)載的問(wèn)題。
Nallapati R結(jié)合了當(dāng)前的TDT技術(shù)的特點(diǎn),對(duì)文本媒體的研究進(jìn)行了擴(kuò)展,概括了諸如:故事、事件等定義,通過(guò)文章的結(jié)構(gòu)獲得主題以及事件之間所存在的依賴關(guān)系。此項(xiàng)研究通過(guò)事件結(jié)構(gòu)的建模來(lái)獲取故事的語(yǔ)義相比平面列表來(lái)講更加有效。相對(duì)于其他形式的新聞視頻而言,結(jié)合新聞故事進(jìn)行的專題報(bào)道,必然會(huì)出現(xiàn)一些相似的關(guān)鍵幀,這些文章具體表現(xiàn)為圖像的一些關(guān)鍵幀會(huì)有很多的相似點(diǎn),只有一些地方存在差異,比如時(shí)間點(diǎn)以及編輯等操作上存在差異。
針對(duì)相似關(guān)鍵幀的進(jìn)行辨別的方法非常的多。有一種方法,把專題新聞報(bào)道中的相似幀數(shù)看做概念。表示為一個(gè)具體的故事結(jié)合,即矩陣A,列則表示為新聞故事,行為概念那么矩陣A就表示為:
在公式中,A1表示的一個(gè)詞—故事矩陣,行對(duì)應(yīng)著詞,列對(duì)應(yīng)著新聞故事。專題故事和以及關(guān)鍵幀數(shù)的結(jié)合形式使用的是tf-idf的計(jì)算方法。A2代表重要的幀數(shù),即故事矩陣,重要的幀聚類用列表示,主要用來(lái)描述新故事。在本文中,主要對(duì)新聞的具體結(jié)構(gòu)進(jìn)行了研究。因此,使用了傳統(tǒng)的k—均值聚類算法,具體的方法如下:
(1)建立A1(專題故事)、A2(專題關(guān)鍵幀),A(專題結(jié)構(gòu));
(2)對(duì)正規(guī)劃的矩陣進(jìn)行相應(yīng)的計(jì)算;
(3)針對(duì)矩陣Am實(shí)施奇異值的分解,計(jì)算得到矩陣Z;
(4)運(yùn)用均值聚類的計(jì)算方法,計(jì)算獲得k個(gè)聚類。
往往在一個(gè)新聞事件中會(huì)存在大量的冗余,尤其是不同新聞?lì)l道中的新聞報(bào)道。一般的來(lái)講用戶更加關(guān)注的是對(duì)整個(gè)事件的快速了解,并不是通過(guò)瀏覽整個(gè)事件來(lái)找出了新聞故事。所以,新聞的存在內(nèi)容過(guò)多的情況是非常正常的,存在豐滿的內(nèi)容會(huì)大大的減少報(bào)道的費(fèi)用,不僅如此還可以對(duì)進(jìn)行報(bào)道進(jìn)行鋪墊。
每個(gè)報(bào)道者和收看者對(duì)這些內(nèi)容的理解各不相同,閾值的選取也因人而異,為了能夠減少故事的不一致性,一般將新聞故事分成以下幾種類型:豐富的故事,新故事,后續(xù)故事。一個(gè)故事當(dāng)中如果沒(méi)有太多的新東西,但是信息量卻非常的大,這就是豐富的故事;在故事中有存在一些新的故事并且結(jié)合了豐富的故事這就是后續(xù)故事,后續(xù)的故事報(bào)道的主要方向是專題的發(fā)展;絕大多數(shù)內(nèi)容為新內(nèi)容的為新故事,代表了事件是向新的方向發(fā)展的,也可以將事件中所包含的事件稱為子事件。
專題和新聞是相互依賴關(guān)系后,在構(gòu)建新聞事件的專題結(jié)構(gòu)時(shí)采用樹(shù)的方式,樹(shù)里面每個(gè)具體的節(jié)點(diǎn)描述的是故事,邊主要描述故事之間的聯(lián)系。一般這兩者的閾值采用TN以及TR表示,抓提報(bào)道的結(jié)構(gòu)建立方式如下:
(1)在進(jìn)行專題報(bào)道的時(shí)候,把每個(gè)故事按時(shí)間進(jìn)行排列,選取初始故事作為根節(jié)點(diǎn);
(2)對(duì)報(bào)道的故事進(jìn)行相似度計(jì)算,發(fā)現(xiàn)關(guān)聯(lián)性大的故事,并且將其設(shè)置故事的依賴關(guān)系為<(Si,Sj),R(Si,Sj)>;
(3)根據(jù)依賴關(guān)系,如果R(Si,Sj)>=TR表示當(dāng)前的故事是冗余故事,所以可以直接就可以放棄該故事;如果R(Si,Sj)<=TN,就表示該內(nèi)容比較的新,從而進(jìn)行依賴關(guān)系的設(shè)置,即(E,Sj),并把這些連接到具體的節(jié)點(diǎn)上;TN (4)對(duì)以上步驟進(jìn)行反復(fù),讓所有節(jié)點(diǎn)融合到到了樹(shù)的結(jié)構(gòu)中。如圖為韓國(guó)天安號(hào)事件的事件專題結(jié)構(gòu)。 針對(duì)專題報(bào)道的實(shí)際,根據(jù)視覺(jué)和特征報(bào)道進(jìn)行聚類性的分析,利用公式找出專題中包含故事的相似性,之后建立聯(lián)系。本文所提出的基于樹(shù)的新聞事件的專題的結(jié)構(gòu),并且又將所有的專題綜合起來(lái)分析,從而更加的直觀的反映整個(gè)新聞事件的發(fā)展。新聞事件的專題的結(jié)構(gòu)簡(jiǎn)潔有效,能夠很好的表現(xiàn)事件的發(fā)展關(guān)系。總結(jié)