• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多信息融合的新聞節(jié)目主題劃分方法

      2012-06-29 01:55:38余驍捷孔繁庭李樹(shù)森
      中文信息學(xué)報(bào) 2012年2期
      關(guān)鍵詞:音頻邊界語(yǔ)義

      余驍捷,吳 及,孔繁庭,李樹(shù)森

      (1. 清華大學(xué) 電子工程系,北京 100084;2. 甘肅聯(lián)合大學(xué) 電子信息工程學(xué)院,甘肅 蘭州 730000)

      1 引言

      新聞節(jié)目通常包含多個(gè)新聞故事單元,用戶在檢索時(shí)關(guān)注的是某一新聞事件,利用節(jié)目名稱(chēng)以及播出時(shí)間等信息的存儲(chǔ)與索引方式缺乏對(duì)音頻內(nèi)容信息的結(jié)構(gòu)化描述,難以滿足基于新聞故事內(nèi)容的檢索需求。新聞節(jié)目的主題劃分技術(shù)能夠檢測(cè)新聞播報(bào)節(jié)目中具有不同主題的故事單元邊界,根據(jù)主題內(nèi)容將新聞播報(bào)節(jié)目分割成故事單元,對(duì)于實(shí)現(xiàn)新聞故事的主題分類(lèi)管理和內(nèi)容信息檢索有著重要的意義。

      隨著計(jì)算機(jī)技術(shù)及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,來(lái)源于廣播、電視以及網(wǎng)絡(luò)的新聞?lì)愐纛l數(shù)據(jù)也越來(lái)越豐富。采用人工標(biāo)注新聞故事單元不僅費(fèi)時(shí)費(fèi)力,標(biāo)注的格式和標(biāo)準(zhǔn)也難以統(tǒng)一,為此迫切的需要對(duì)新聞節(jié)目的故事單元進(jìn)行自動(dòng)劃分。新聞播報(bào)節(jié)目的自動(dòng)主題劃分技術(shù)能夠依據(jù)節(jié)目的語(yǔ)義信息和音頻信息,自動(dòng)提取各新聞故事之間的邊界線索,將新聞節(jié)目劃分為不同的故事單元。

      現(xiàn)在的新聞播報(bào)節(jié)目以音頻和視頻為主要載體,其中的視頻信息、音頻信息以及語(yǔ)音識(shí)別文本等都可用于自動(dòng)劃分單元?jiǎng)澐?。視頻信息包括鏡頭的切換,主題字幕提示,主持人以及演播室的鏡頭邊界等,目前有許多相關(guān)方面的研究[1-2];音頻中的停頓、播音員聲紋特征[3]也可以用于尋找故事邊界;語(yǔ)音識(shí)別文本中包含有節(jié)目?jī)?nèi)容的語(yǔ)義,可以使用基于規(guī)則方法,例如,使用深度值的TextTiling算法[4]、使用詞匯鏈計(jì)算邊界強(qiáng)度的SeLeCT(Segmentation using Lexical Chaining on Text)算法[5]等進(jìn)行基于文本的主題劃分,傅間蓮等采用基于連續(xù)段落相似度方法[6]進(jìn)行主題劃分,楊玉蓮等提出了一種基于子詞鏈的新聞故事單元自動(dòng)分割方法[7],使用投票法融合不同級(jí)別詞匯,F(xiàn)-估值比傳統(tǒng)詞鏈方法提高9.04%。同時(shí)還有一些基于統(tǒng)計(jì)的方法,例如,局部上下文分析法(LCA),隱馬爾可夫模型(HMM),指數(shù)模型等方法[8],文獻(xiàn)[9]中使用了指數(shù)模型和決策樹(shù)融合的方法,在TDT測(cè)試集上錯(cuò)誤概率Pk達(dá)到7.8%。

      上述的信息有它們各自的適用范圍,為新聞故事單元分割提供了多種途徑。但是單一來(lái)源的信息不足,不能達(dá)到令人滿意的分割結(jié)果,為了提高系統(tǒng)性能,需要使用多信息融合的方法。對(duì)于新聞視頻節(jié)目,在使用融合視頻、音頻和文本多信息的分割方面已開(kāi)展了大量的研究,文獻(xiàn)[10]中利用鏡頭檢測(cè)、關(guān)鍵幀技術(shù),以及音頻類(lèi)型信息及說(shuō)話人切換檢測(cè),結(jié)合OCR技術(shù)識(shí)別畫(huà)面上的字幕文本,綜合得到分割結(jié)果,文獻(xiàn)[11]利用最大熵模型融合不同層次的特征得到分割結(jié)果,F(xiàn)-估值達(dá)到76%,該方法提取視頻的動(dòng)作、人臉、音頻的類(lèi)型、韻律信息和語(yǔ)音識(shí)別結(jié)果,復(fù)雜度較高。這些研究中視頻的信息都起主導(dǎo)作用,音頻信息作為輔助特征沒(méi)有得到充分的挖掘和利用。對(duì)音頻中的語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,可以得到包含語(yǔ)義的文本信息來(lái)進(jìn)行主題劃分,目前的特征融合方法,對(duì)識(shí)別文本提取常用文本特征,但并沒(méi)有特別針對(duì)語(yǔ)音識(shí)別錯(cuò)誤采取有效措施。使用詞匯鏈的SeLeCT算法通過(guò)串聯(lián)文本中的詞匯,有效的避免了識(shí)別錯(cuò)誤帶來(lái)的詞匯失配問(wèn)題,同時(shí)音頻中的類(lèi)型、韻律等信息對(duì)于廣告、體育比賽、天氣預(yù)報(bào)以及新聞片頭等檢測(cè)時(shí)效果較好[12],根據(jù)語(yǔ)音識(shí)別結(jié)果中的語(yǔ)義信息和音頻信息各自對(duì)于主題劃分的優(yōu)勢(shì),可以設(shè)計(jì)規(guī)則來(lái)融合不同層次的信息,以達(dá)到較好的分割性能。

      本文設(shè)計(jì)了一種多信息融合的新聞節(jié)目的自動(dòng)主題劃分方法。對(duì)于新聞播報(bào)類(lèi)節(jié)目的音頻數(shù)據(jù),利用語(yǔ)音識(shí)別結(jié)果文本中的語(yǔ)義信息作為主題劃分的主要依據(jù),首先通過(guò)自動(dòng)分段得到一系列間隔點(diǎn)作為主題劃分候選點(diǎn),根據(jù)語(yǔ)音識(shí)別結(jié)果的特點(diǎn),利用改進(jìn)的SeLeCT算法進(jìn)行基于文本的主題劃分,同時(shí)結(jié)合候選點(diǎn)鄰域內(nèi)的音頻類(lèi)型信息,例如,靜音、音樂(lè)等,設(shè)計(jì)了一套基于規(guī)則的信息融合方法,從而完成故事單元的分割。第二部分介紹了使用語(yǔ)音識(shí)別結(jié)果的語(yǔ)義信息進(jìn)行主題劃分的方法,第三部分介紹了用于主題劃分的音頻信息,第四部分介紹了信息融合的規(guī)則,最后給出了劃分結(jié)果并分析劃分性能。

      2 用于主題劃分的語(yǔ)義信息

      為了充分的利用音頻數(shù)據(jù)中的信息,我們對(duì)音頻信號(hào)中的語(yǔ)音數(shù)據(jù)進(jìn)行識(shí)別,利用得到的識(shí)別結(jié)果進(jìn)行基于語(yǔ)義信息的主題劃分。自動(dòng)分段模塊會(huì)將音頻文件按句切分以達(dá)到較好的識(shí)別效果。由于故事單元的邊界一般也都是語(yǔ)句的邊界,所以自動(dòng)分段得到的切分點(diǎn)可以作為故事單元邊界的候選點(diǎn)。

      2.1 改進(jìn)的SeLeCT算法

      目前的語(yǔ)音識(shí)別系統(tǒng)很難保證識(shí)別的結(jié)果完全準(zhǔn)確,錯(cuò)誤的識(shí)別結(jié)果會(huì)對(duì)利用相似度或深度等的文本主題劃分系統(tǒng)造成很大的影響,而SeLeCT算法[5]統(tǒng)計(jì)文本中的詞匯鏈(Lexical Chain),計(jì)算邊界候選點(diǎn)處的邊界強(qiáng)度,從而進(jìn)行文本主題劃分。詞匯鏈?zhǔn)窃诨谠~匯的語(yǔ)義關(guān)系構(gòu)成的上下文中的詞序列,可以使不相鄰的語(yǔ)句得以連通,從而在一定程度上減少了錯(cuò)誤識(shí)別結(jié)果的影響。

      語(yǔ)音識(shí)別的結(jié)果按音頻自動(dòng)分段模塊得到的分段點(diǎn)切分成句。采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS[13]對(duì)識(shí)別文本進(jìn)行分詞并標(biāo)注詞性,根據(jù)詞性對(duì)于故事主題的代表性,選取其中的名詞和動(dòng)詞,相同的詞匯在符合句子間隔距離的限制下串聯(lián)起來(lái),構(gòu)成詞匯鏈,表示為如下形式:

      {詞匯|起始句序號(hào),結(jié)束句序號(hào)}

      兩個(gè)不同新聞故事邊界處的詞匯鏈開(kāi)頭和結(jié)尾的點(diǎn)具有高度密集性,即詞匯鏈的開(kāi)始和結(jié)束越集中的地方,越有可能是事件劃分的邊界。根據(jù)詞匯鏈的首尾信息可以計(jì)算邊界強(qiáng)度。邊界強(qiáng)度的計(jì)算方法較為靈活,Stokes等人根據(jù)劃分性能采用求和計(jì)算[5],即定義每個(gè)段落之間的邊界強(qiáng)度w(n,n+1)為: 以第n個(gè)句子結(jié)束的詞匯鏈的個(gè)數(shù)與以第n+1個(gè)句子開(kāi)始的詞匯鏈的個(gè)數(shù)之和。

      w(n,n+1)=N(En)+N(Sn+1)

      (1)

      式(1)中En為以第n句結(jié)束的詞匯鏈集合,Sn+1是以第n+1句開(kāi)始的詞匯鏈集合,N(*)表示集合元素個(gè)數(shù)。

      根據(jù)在中文新聞?wù)Z音測(cè)試數(shù)據(jù)的劃分性能,我們對(duì)邊界強(qiáng)度的計(jì)算方法加以改進(jìn),采用第n個(gè)句子結(jié)束的詞匯鏈的個(gè)數(shù)與以第n+1個(gè)句子開(kāi)始的詞匯鏈的個(gè)數(shù)的加權(quán)和,即:

      其中wi是第i個(gè)詞匯鏈的權(quán)值:

      Nlc是整個(gè)新聞節(jié)目中出現(xiàn)該詞匯的詞匯鏈個(gè)數(shù),N是識(shí)別文本的詞匯鏈總數(shù)。原有的求和計(jì)算方法可以認(rèn)為是wi=1時(shí)的特例。通過(guò)這種權(quán)重計(jì)算方式,只在某個(gè)故事中出現(xiàn)的詞匯鏈會(huì)比在大部分故事單元中都出現(xiàn)的詞匯鏈獲得更大的權(quán)重,即更具代表性。

      邊界強(qiáng)度越大的候選點(diǎn)越有可能對(duì)應(yīng)真實(shí)的邊界點(diǎn)。因此可以設(shè)定閾值,當(dāng)某候選點(diǎn)的邊界強(qiáng)度大于該閾值時(shí)將被判為邊界點(diǎn),否則為非邊界點(diǎn)。在此設(shè)置高低雙門(mén)限,分別用thH和thL表示:

      (4)

      其中E(w)為邊界強(qiáng)度的均值,σ(w)是標(biāo)準(zhǔn)差,k是常數(shù)。雙門(mén)限的用途在融合規(guī)則中具體說(shuō)明。

      2.2 過(guò)渡性語(yǔ)句模板

      另外新聞播報(bào)類(lèi)節(jié)目通常都有相對(duì)固定的結(jié)構(gòu)編排,所以主持人在播報(bào)時(shí)會(huì)使用相同或相近的過(guò)渡性語(yǔ)句,這些語(yǔ)句通常代表著播報(bào)主題內(nèi)容的切換,我們總結(jié)出一個(gè)主題切換提示性語(yǔ)句模板,在根據(jù)文本內(nèi)容劃分時(shí)首先檢測(cè)這些模板句,如果發(fā)生匹配,則直接判斷為故事單元的邊界。

      表1 主題切換提示性語(yǔ)句模板

      3 用于主題劃分的音頻信息

      新聞音頻中的聲音事件轉(zhuǎn)換對(duì)于故事單元?jiǎng)澐痔峁┝擞行У男畔ⅲㄒ纛l類(lèi)型、說(shuō)話人切換等。本文選取主題邊界候選點(diǎn)鄰域的音頻類(lèi)型,作為用于主題劃分的音頻信息。

      新聞故事單元在切換時(shí),通常會(huì)有較長(zhǎng)時(shí)間的靜音,或使用音樂(lè)作為過(guò)渡,以《新聞聯(lián)播》節(jié)目為例,選取了三天的標(biāo)注數(shù)據(jù),對(duì)其主題邊界的音頻類(lèi)型進(jìn)行統(tǒng)計(jì),結(jié)果如表2所示。

      表2 《新聞聯(lián)播》主題邊界音頻類(lèi)型統(tǒng)計(jì)

      《新聞聯(lián)播》節(jié)目的欄目相對(duì)固定,所以以音樂(lè)過(guò)渡作為主題邊界的次數(shù)也是固定的,對(duì)于以靜音分隔的故事單元邊界,統(tǒng)計(jì)其平均長(zhǎng)度約為1.91秒,而語(yǔ)音中正常的句間停頓則相對(duì)較小。

      在自動(dòng)分段時(shí)得到了一系列主題劃分的候選邊界,根據(jù)上面的統(tǒng)計(jì)結(jié)果,我們可以在候選邊界點(diǎn)的鄰域片段中提取音頻類(lèi)型信息,使用GMM進(jìn)行音頻類(lèi)型判斷得到相應(yīng)的信息作為主題劃分的依據(jù),當(dāng)某個(gè)候選邊界點(diǎn)的鄰域出現(xiàn)音樂(lè)或長(zhǎng)時(shí)的停頓時(shí),這里可能會(huì)是故事單元的邊界。

      但是同一個(gè)新聞故事單元中,場(chǎng)景或說(shuō)話人的切換的也可能出現(xiàn)較長(zhǎng)時(shí)間的靜音停頓,所以單獨(dú)使用這些音頻信息會(huì)出現(xiàn)很多虛警。

      4 語(yǔ)義信息和音頻信息的融合規(guī)則

      識(shí)別結(jié)果和音頻信息都有其局限性,單獨(dú)使用就不足以得到很好地切分效果,為此我們?cè)O(shè)計(jì)了一套信息融合規(guī)則,有效的綜合文本語(yǔ)義和音頻信息進(jìn)行處理。

      首先對(duì)候選邊界點(diǎn)進(jìn)行預(yù)處理。自動(dòng)分段得到的結(jié)果語(yǔ)句長(zhǎng)短變化較大,每句包含的信息量不一致,這會(huì)改變?cè)~匯鏈的生成結(jié)果,從而對(duì)邊界強(qiáng)度的計(jì)算造成一定的影響,因此我們希望能夠盡量使句子包含的信息量一致,即希望句子長(zhǎng)度能夠向著長(zhǎng)度一致的方向有所調(diào)整。為此對(duì)候選邊界點(diǎn)的鄰域音頻類(lèi)型做初步判斷,如果該鄰域音頻是語(yǔ)音,則對(duì)語(yǔ)句進(jìn)行合并。這樣可以使平均的句子長(zhǎng)度變長(zhǎng),從而使處理單元的信息量呈現(xiàn)平均的趨勢(shì)。由于后面還將結(jié)合語(yǔ)義信息進(jìn)行劃分,為了保證這一步不把真實(shí)的故事單元邊界過(guò)濾掉,采用較小的鄰域長(zhǎng)度L0。

      然后從文本和音頻兩方面查找最可能是主題邊界的音頻分段點(diǎn)。音頻信息方面,候選邊界點(diǎn)的鄰域出現(xiàn)長(zhǎng)度大于LM的音樂(lè)片段則可以直接判定為故事單元的邊界;文本中如果出現(xiàn)提示性語(yǔ)句,或者使用SeLeCT算法中計(jì)算得到的邊界強(qiáng)度大于高閾值thH,說(shuō)明此處語(yǔ)義信息較強(qiáng),可以直接判斷為故事單元邊界。如果邊界強(qiáng)度大于thL而小于thH,則判斷為可能的邊界,再采用的鄰域長(zhǎng)度L1(L0

      圖1 語(yǔ)義信息和音頻信息的融合規(guī)則

      信息融合規(guī)則如下(圖1):

      1) 對(duì)于某一邊界候選點(diǎn),如果它的前句中出現(xiàn)提示性語(yǔ)句,則判斷為故事單元邊界;

      2) 如果某一邊界候選點(diǎn)處計(jì)算得到的邊界強(qiáng)度大于高門(mén)限thH,則判斷為故事單元邊界;

      3) 如果某一邊界候選點(diǎn)的鄰域長(zhǎng)度大于LM,且音頻類(lèi)型為音樂(lè),則判斷為故事單元邊界;

      4) 對(duì)于其他的邊界候選點(diǎn),如果邊界強(qiáng)度小于thH且大于低門(mén)限thL,且該邊界候選點(diǎn)的L1鄰域音頻類(lèi)型為靜音,則判斷為故事單元邊界;

      5) 不滿足上述條件的邊界候選點(diǎn)不是故事單元的邊界。

      5 實(shí)驗(yàn)結(jié)果及分析

      實(shí)驗(yàn)數(shù)據(jù)采用CCTV的《新聞聯(lián)播》、《新聞二十分》和《中國(guó)新聞》節(jié)目,其中以《新聞聯(lián)播》節(jié)目為主,長(zhǎng)度約300分鐘,《新聞二十分》和《中國(guó)新聞》各約100分鐘,采用人工標(biāo)注得到主題劃分的真實(shí)結(jié)果。

      包含以上三類(lèi)節(jié)目的實(shí)驗(yàn)數(shù)據(jù)集語(yǔ)音識(shí)別字正確率約為83.9%。

      5.1 評(píng)價(jià)指標(biāo)

      5.1.1 精確率、召回率和F-估值

      準(zhǔn)確率(Precision)、召回率(Recall)以及F-估值(F-measure)是信息提取方面最基本的評(píng)測(cè)指標(biāo),在主題劃分方面的定義為:

      這三個(gè)指標(biāo)能夠在一定程度上反映系統(tǒng)的主題劃分性能。但是這些指標(biāo)不能反映那些接近邊界的錯(cuò)誤,即將劃分對(duì)與錯(cuò)界定的特別明確,舉例來(lái)說(shuō),系統(tǒng)識(shí)別的邊界與真實(shí)的邊界間隔一句或間隔多句所體現(xiàn)的系統(tǒng)性能應(yīng)當(dāng)是不同的,這套評(píng)價(jià)指標(biāo)無(wú)法表現(xiàn)出來(lái)。

      5.1.2 Pk

      為了解決以上指標(biāo)不能充分反映分割性能的問(wèn)題,Beeferman等人提出的新量度Pk[9]逐漸成為衡量分段性能的標(biāo)準(zhǔn)。Pk表示隨機(jī)抽取間隔k個(gè)處理單元的處理單元對(duì),判斷其屬于同一單元片段或者屬于不同單元片段的概率,定義如下:

      式中,δref(i,i+k)和δhyp(i,i+k)為指示函數(shù),表示在分割模式中,i和j對(duì)應(yīng)的處理單元是否屬于同一主題,是則為1,否則為0。0≤Pk≤1,當(dāng)算法或系統(tǒng)得到的分割邊界越準(zhǔn)確時(shí),得到的Pk值越小。

      5.1.3 WindowDiff

      用Pk衡量分割性能仍存在一些問(wèn)題,例如,漏檢的錯(cuò)誤比虛警要對(duì)Pk值的貢獻(xiàn)更大,同時(shí)接近正確邊界的錯(cuò)誤對(duì)Pk值的貢獻(xiàn)度過(guò)大等。針對(duì)這些不足,Pevzner和Hearst提出了改進(jìn)的評(píng)價(jià)指標(biāo)——WindowDiff[14]。

      其中,b(refi,refi+k)代表標(biāo)注結(jié)果中i和i+k對(duì)應(yīng)處理單元之間的邊界數(shù)量,b(hypi,hypi+k)代表系統(tǒng)劃分結(jié)果中i和i+k對(duì)應(yīng)處理單元之間的邊界數(shù)量,I(*)為示性函數(shù),當(dāng)|b(refi,refi+k)-b(hypi,hypi+k)|>0取1,否則取0。

      0≤WindowDiff≤1,當(dāng)算法或系統(tǒng)得到的分割邊界越準(zhǔn)確時(shí),得到的WindowDiff值越小。

      5.2 實(shí)驗(yàn)結(jié)果

      SeLeCT算法中邊界強(qiáng)度的計(jì)算方法根據(jù)測(cè)試集上的實(shí)驗(yàn)結(jié)果來(lái)確定,實(shí)驗(yàn)中使用了文獻(xiàn)[5]中的求和方法以及修改的加權(quán)和方法,對(duì)比結(jié)果如表3所示。

      方法1: 使用加權(quán)和計(jì)算邊界強(qiáng)度,對(duì)語(yǔ)音識(shí)別結(jié)果做主題劃分。

      方法2: 使用求和計(jì)算邊界強(qiáng)度,對(duì)語(yǔ)音識(shí)別結(jié)果做主題劃分。

      在計(jì)算邊界強(qiáng)度門(mén)限時(shí),根據(jù)劃分性能將常數(shù)k設(shè)為0.7。

      P,R,F(xiàn),Pk,WD依次為5.1節(jié)中所述的各項(xiàng)評(píng)價(jià)指標(biāo)。

      表3 不同邊界強(qiáng)度主題劃分性能對(duì)比

      從結(jié)果中可以看出,《新聞聯(lián)播》和《中國(guó)新聞》節(jié)目中使用加權(quán)和計(jì)算邊界強(qiáng)度的SeLeCT算法在劃分性能上略高于使用求和計(jì)算邊界強(qiáng)度,盡管《新聞二十分》節(jié)目使用求和計(jì)算邊界強(qiáng)度的方法劃分性能更高,但是根據(jù)總體的性能我們選擇了使用加權(quán)和計(jì)算邊界強(qiáng)度的SeLeCT算法處理語(yǔ)音識(shí)別結(jié)果文本。

      對(duì)于語(yǔ)音識(shí)別文本,自動(dòng)分段導(dǎo)致句子的長(zhǎng)度和實(shí)際句子不一致和語(yǔ)音識(shí)別錯(cuò)誤都會(huì)影響詞匯鏈的長(zhǎng)度,導(dǎo)致詞匯鏈變短,從而邊界強(qiáng)度的峰值出現(xiàn)頻繁,得到的主題段落偏多,所以精確率較低。

      為了說(shuō)明語(yǔ)義信息和音頻信息的融合規(guī)則

      方法1: 單獨(dú)使用語(yǔ)義信息做主題劃分,即前述實(shí)驗(yàn)中的方法1。

      方法2: 使用音頻類(lèi)型信息做主題劃分,這里采用語(yǔ)音自動(dòng)分段點(diǎn)鄰域的類(lèi)型作為判據(jù),當(dāng)出現(xiàn)非語(yǔ)音時(shí)即為主題邊界。

      方法3: 根據(jù)規(guī)則融合語(yǔ)義和音頻信息進(jìn)行主題劃分。

      使用音頻信息劃分時(shí),主題邊界候選點(diǎn)鄰域長(zhǎng)度為1.6s。信息融合時(shí)使用的參數(shù),L1為1.6s,LM為4s,L0為1.4s。

      上述方法的劃分性能如下(表4):

      表4 信息融合前后主題劃分性能對(duì)比

      采用音頻類(lèi)型信息進(jìn)行主題劃分有著較高的召回率,精確率仍偏低,這一結(jié)果符合預(yù)期,由于采用了長(zhǎng)時(shí)停頓和音樂(lè)作為劃分依據(jù),節(jié)目中播報(bào)員和記者的語(yǔ)速相對(duì)穩(wěn)定,但被采訪人說(shuō)話時(shí)需要思考,容易出現(xiàn)較長(zhǎng)的停頓,從而被判斷為主題邊界,造成虛警。

      通過(guò)總體結(jié)果的對(duì)比可以看出,融合了語(yǔ)義信息和音頻信息的主題劃分方法相比于單獨(dú)使用語(yǔ)義信息,F(xiàn)-估值提高了27.9%,Pk和WindowDiff分別降低了18.9%和19.7%,相比于單獨(dú)使用音頻信息,F(xiàn)-估值提高了16.9%,Pk和WindowDiff別降低了7.5%和8.7%,主題劃分性能顯著提高了。音頻信息的引入消除了采用語(yǔ)義信息進(jìn)行劃分時(shí)部分較小的邊界強(qiáng)度峰值帶來(lái)虛警,使得精確率上升,彌補(bǔ)了語(yǔ)音識(shí)別結(jié)果文本不準(zhǔn)確導(dǎo)致的SeLeCT算法的劃分錯(cuò)誤,同時(shí)音樂(lè)信息的引入定位到了語(yǔ)義信息沒(méi)能檢測(cè)到的邊界,降低了漏檢。同時(shí)語(yǔ)義信息也能在一定程度上消除音頻信息的中被采訪人語(yǔ)音長(zhǎng)時(shí)停頓帶來(lái)的虛警。信息融合效果明顯。

      《新聞聯(lián)播》節(jié)目作為一個(gè)十分正式且受人關(guān)注的節(jié)目,其組織結(jié)構(gòu)相對(duì)比較嚴(yán)整和清晰,故事單元之間的停頓和音樂(lè)過(guò)渡都有嚴(yán)格的規(guī)范,音頻信息明顯,單獨(dú)采用音頻信息進(jìn)行主題劃分時(shí)性能較好。

      《新聞二十分》和《中國(guó)新聞》的劃分性能略低,因?yàn)檫@兩者的組織結(jié)構(gòu)遠(yuǎn)不如《新聞聯(lián)播》清晰,識(shí)別結(jié)果也不夠準(zhǔn)確。這些節(jié)目中含有比較多的外景采訪,這對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō)是比較困難的,同時(shí)由于采訪人語(yǔ)音停頓較長(zhǎng)的特點(diǎn),在音頻信息的利用方面也有比較大的影響,單獨(dú)使用音頻信息進(jìn)行劃分性能明顯低于《新聞聯(lián)播》。另外節(jié)目中一些欄目出現(xiàn)的背景音樂(lè),以及欄目中插播的廣告,都會(huì)對(duì)主題劃分造成一定的影響。

      F-估值反映了一種劃分的正確程度,使用1-F-估值定義相應(yīng)的錯(cuò)誤程度衡量,可以與其他的兩種評(píng)價(jià)指標(biāo)進(jìn)行比較。可以看到,雖然《新聞二十分》和《中國(guó)新聞》在F-估值的評(píng)價(jià)下與《新聞聯(lián)播》相差不小,但在Pk和WindowDiff的評(píng)價(jià)體系下差距沒(méi)有那么大,這是由于前者的組織結(jié)構(gòu)不夠清晰,使得劃分結(jié)果會(huì)更多的出現(xiàn)小范圍的偏差,雖然確實(shí)找到的故事劃分的邊界,但是并不準(zhǔn)確,這在F-估值的評(píng)價(jià)系統(tǒng)中被認(rèn)為是完全錯(cuò)誤的,而在后兩種評(píng)價(jià)指標(biāo)中給予了一定程度的肯定。

      在引入信息融合規(guī)則后,Pk和WindowDiff的相對(duì)提升比F-估值要高,這說(shuō)明信息融合更多的修正的是在Pk和WindowDiff下貢獻(xiàn)大的錯(cuò)誤,也就是大范圍的邊界偏差,根據(jù)這種現(xiàn)象,后續(xù)我們可以研究小范圍偏差的特點(diǎn)并進(jìn)行一些針對(duì)性處理。

      6 總結(jié)與展望

      本文設(shè)計(jì)并實(shí)現(xiàn)了一種多信息融合的新聞節(jié)目自動(dòng)主題劃分系統(tǒng),初步完成了音頻的自動(dòng)主題分割。

      目前系統(tǒng)對(duì)音頻信息的利用比較簡(jiǎn)單,后續(xù)可以考慮提取音頻中其他可用于主題劃分的聲音事件,例如,說(shuō)話人變換,韻律等信息,完善音頻處理模塊。同時(shí),可以考慮結(jié)合不同的信息融合方式,例如,可以將多種語(yǔ)義信息和音頻信息分別量化,構(gòu)成特征向量,使用統(tǒng)計(jì)方法進(jìn)行劃分,并在此基礎(chǔ)上針對(duì)錯(cuò)誤的具體情況引入一些規(guī)則加以處理,以得到更加準(zhǔn)確的新聞故事單元?jiǎng)澐帧?/p>

      [1] Liu Hua-yong. News story automatic segmentation based on audio-visual feature and text information[J]. Journal of System Simulation, 2004, 16(11): 2608-2610.

      [2] Zhang Chun-lin, Zhang Peng-lin, Hu Rui-min. News story detection based on anchorpersons identification in news video[J]. Computer Engineering, 2003, 29(14): 20-26.

      [3] 徐新文, 李國(guó)輝, 甘亞莉. 基于播音員識(shí)別的新聞視頻故事單元分割方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008, 44(19): 4-7.

      [4] Marti A. Hearst. TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages[J]. Computational Linguistics, 1997, 23(1): 33-64.

      [5] Nicola Stokes, Joe Carthy, Alan F. Smeaton. SeLeCT: a lexical cohesion based news story segmentation system[J]. Journal of AI Communication, 2004, 17(1): 3-12.

      [6] 傅間蓮, 陳群秀. 自動(dòng)文摘系統(tǒng)中的主題劃分問(wèn)題研究[J]. 中文信息學(xué)報(bào), 2005, 19(6): 28-35.

      [7] 楊玉蓮, 謝磊. 基于子詞鏈的中文新聞廣播故事自動(dòng)分割[J]. 計(jì)算機(jī)應(yīng)用與研究, 2009, 26(2): 583-586、594.

      [8] Allan J, Carbonell J, Doddington G, et al. Topic detection and tracking pilot study final report[C]//Proceedings of DARPA Broadcast News Transcription and Understanding Workshop, Lansdowne, Virginia, USA, 1998: 194-218.

      [9] Doug Beeferman, Adam Berger, John Lafferty. Statistical Models for Text Segmentation[J]. Machine Learning, 1999, 34(1-3): 177-210.

      [10] Qi W, Gu L, Jiang H, et al. Integrating visual, audio and text analysis for news video[C]//Proceedings of 7th IEEE Intn’l Conference on Image Processing, 2000.

      [11] Hsu W, Kennedy L, Huang C-W. News video story segmentation using fusion of multi-level multi-modal features in trecvid 2003[C]//Proceedings of ICASSP2004, 645-648.

      [12] Liu Z, Huang J C, Wang Y. Classification of TV programs based on audio information using hidden Markov model[C]//Proceedings of IEEE Workshop on Multimedia Signal Processing, Redondo Beach, CA, USA, 1998: 27-32.

      [13] 劉群, 張華平, 俞鴻魁,等. 基于層疊隱馬模型的漢語(yǔ)詞法分析[J]. 計(jì)算機(jī)研究與發(fā)展, 2004, 41(8): 1421-1429.

      [14] Lev Pevzner, Marti A. Hearst. A Critique and Improvement of an Evaluation Metric for Text Segmentation[J]. Computational Linguistics, 2002, 28(1): 19-36.

      猜你喜歡
      音頻邊界語(yǔ)義
      拓展閱讀的邊界
      語(yǔ)言與語(yǔ)義
      必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門(mén)攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      論中立的幫助行為之可罰邊界
      音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      認(rèn)知范疇模糊與語(yǔ)義模糊
      “偽翻譯”:“翻譯”之邊界行走者
      武邑县| 锡林浩特市| 湖南省| 横峰县| 内江市| 门源| 莱西市| 余姚市| 临清市| 恩平市| 宝丰县| 肥西县| 塔城市| 义乌市| 阿拉善盟| 博乐市| 四会市| 广丰县| 沁源县| 库尔勒市| 襄樊市| 沙洋县| 抚远县| 安达市| 正安县| 磐石市| 峨眉山市| 固镇县| 井研县| 张家口市| 桃园县| 鲁山县| 固阳县| 伊川县| 龙胜| 东乌珠穆沁旗| 息烽县| 武威市| 宕昌县| 北辰区| 新民市|