□饒 軍 吳曉璐 華申峰
為了加強(qiáng)對(duì)廣播電視廣告的監(jiān)管,國(guó)家廣電總局相繼頒布了61 號(hào)令、66 號(hào)令、71 號(hào)文和79 號(hào)文,對(duì)廣告內(nèi)容和廣告播出做出了明確規(guī)定。近年來(lái),隨著計(jì)算機(jī)技術(shù)的發(fā)展,通過(guò)對(duì)廣告制作樣本并利用樣本匹配技術(shù)監(jiān)播已知廣告,從搜索精度和效率上都已取得較好的效果。但是對(duì)于廣播電視廣告監(jiān)管部門工作人員來(lái)說(shuō),僅僅對(duì)已知廣告的監(jiān)播并不能滿足實(shí)際工作中的所有需求,因?yàn)樵趶V播電視節(jié)目中,不斷會(huì)有新的廣告出現(xiàn),針對(duì)未在樣本庫(kù)中的新廣告,樣本匹配技術(shù)顯然是不能勝任的。如果只是通過(guò)人工瀏覽標(biāo)注新廣告,無(wú)疑是一件費(fèi)時(shí)耗力的工作,并且由于人的記憶能力限制,人工的方式會(huì)帶來(lái)較大的誤報(bào)漏報(bào)的誤差,為此必須尋找一種可行的智能技術(shù)解決這一難題。
一、廣告商投放重復(fù)廣告意愿調(diào)查。由于廣告商投放廣告的目的是為了宣傳產(chǎn)品,讓盡可能多的人記住并有意愿購(gòu)買其產(chǎn)品。廣告商在媒體中投放廣告宣傳所欲達(dá)到的目標(biāo),特別是為了達(dá)到用戶的廣告回憶率、廣告內(nèi)容理解率等認(rèn)知方面的目標(biāo),和一般學(xué)習(xí)過(guò)程的目標(biāo)類似。從消費(fèi)者對(duì)廣告內(nèi)容的認(rèn)知過(guò)程來(lái)說(shuō),廣告重復(fù)投放對(duì)于生產(chǎn)廠家有著積極的意義。在最顯見(jiàn)的層面上,由于無(wú)法保證受眾在廣告播放時(shí)集中注意力,廣告重復(fù)可以增加受眾注意到產(chǎn)品廣告的概率,這是重復(fù)廣告最基本的功能。其次,艾賓浩斯(Hermann Ebbinghaus)遺忘曲線的研究表明了重復(fù)對(duì)增強(qiáng)記憶的作用,重復(fù)的信息刺激是防止廣告遺忘的基本手段。因此,廣告商投放廣告必定不是只播出一次,而是在一定時(shí)間段內(nèi)大量重復(fù)播出。
基于重復(fù)性對(duì)廣告認(rèn)知加強(qiáng)效果,我們假設(shè)廣告商投放的廣告播放次數(shù)會(huì)多于一次,這是利用重復(fù)片段檢測(cè)來(lái)檢測(cè)新廣告的基礎(chǔ)。
二、廣播電視廣告重復(fù)性播放統(tǒng)計(jì)。為了驗(yàn)證在一定時(shí)間段內(nèi)廣播電視的廣告會(huì)重復(fù)投放的這一假設(shè),我們對(duì)江西一套2015年4月14日、4月15日、4月16日三天的廣告播出數(shù)目以及其中的重復(fù)廣告數(shù)目做了詳細(xì)統(tǒng)計(jì),如圖1 所示:
2015年4月14日共播放廣告652 條,其中只播放一次的廣告為112 條,占總體廣告播放條目數(shù)的17.2%。當(dāng)天出現(xiàn)有重復(fù)的廣告為540 條,分別屬于135 個(gè)不同版本的廣告。
2015年4月15日共播放廣告660 條,其中只播放一次的廣告為118 條,占總體廣告播放條目數(shù)的17.9%。當(dāng)天出現(xiàn)有重復(fù)的廣告為542 條,分別屬于146 個(gè)不同版本的廣告。
2015年4月16日共播放廣告643 條,其中只播放一次的廣告為110 條,占總體廣告播放條目數(shù)的17.1%。當(dāng)天出現(xiàn)有重復(fù)的廣告為533 條,分別屬于131 個(gè)不同版本的廣告。
綜合這三天的廣告播出情況統(tǒng)計(jì),只有43 條在這三天內(nèi)出現(xiàn)過(guò)一次,也就是說(shuō)以三天為統(tǒng)計(jì)單位,約有98%的廣告是可以通過(guò)重復(fù)性檢測(cè)被發(fā)現(xiàn),這個(gè)數(shù)據(jù)充分證明了利用重復(fù)性發(fā)現(xiàn)新廣告技術(shù)的可行性。
圖1 2015年4月14日至16日江西一套廣告播放統(tǒng)計(jì)圖
特征提取的主要任務(wù)是將音頻波形信號(hào)轉(zhuǎn)換成統(tǒng)計(jì)特性更好的特征向量,便于進(jìn)一步的匹配和檢索。和語(yǔ)音信號(hào)一樣,音頻信號(hào)也具有短時(shí)平穩(wěn)特性,本文采用基于短時(shí)子帶能量的特征,描述了某一時(shí)刻的頻帶能量分布。建立音頻向量空間模型的流程圖如圖2 所示。
一、音頻信息從視頻文件中分離出來(lái),并將原始音頻轉(zhuǎn)化成8kHz 采樣16bit 量化精度、單聲道PCM 格式。
二、分幀。分別對(duì)每一幀音頻提取歸一化能量特征,對(duì)其矢量量化,將每一幀的特征映射到{1,2,……,k},這樣可以用量化出的碼字代表一幀音頻信息。
三、每五秒將音頻分為一個(gè)音頻片段,每一片段即為重復(fù)性查找時(shí)的基本單元,統(tǒng)計(jì)每一音頻片段數(shù)據(jù)的音頻字頻率。
四、最后根據(jù)音頻TF-IDF 算法給直方圖的每一維賦予權(quán)重值,即可得到音頻向量空間模型的表示。
直接利用大量數(shù)據(jù)統(tǒng)計(jì)出的各音頻字的頻率倒數(shù)的對(duì)數(shù)值計(jì)算音頻IDF。
圖3 基于重復(fù)性檢測(cè)的新廣告發(fā)現(xiàn)系統(tǒng)圖
表1 利用音頻信息的重復(fù)性檢測(cè)結(jié)果
基于重復(fù)性檢測(cè)的新廣告自動(dòng)發(fā)現(xiàn)系統(tǒng)目的是在待監(jiān)測(cè)的數(shù)據(jù)中檢測(cè)出未在模板庫(kù)中收集的重復(fù)節(jié)目片段,因此為了減輕重復(fù)性檢測(cè)的計(jì)算量,可以首先利用音頻模板檢索系統(tǒng),將已知廣告和片花模板出現(xiàn)的數(shù)據(jù)段從待處理的數(shù)據(jù)集中過(guò)濾掉;然后在過(guò)濾剩下的數(shù)據(jù)上經(jīng)過(guò)重復(fù)性片段的檢測(cè),得到一系列重復(fù)片段候選,在這些候選中包括新出現(xiàn)的廣告,某些重播的電視節(jié)目以及誤識(shí)片段;再經(jīng)過(guò)利用音頻指紋技術(shù)對(duì)重復(fù)候選確認(rèn)過(guò)濾去誤識(shí)片段、利用圖像幀的變化率、靜音率、音頻變化率等特征,過(guò)濾掉重播電視劇等非廣告片段,最后經(jīng)過(guò)人工審核將新檢測(cè)出的廣告標(biāo)注并入模板庫(kù)。系統(tǒng)框架如圖3 所示。通過(guò)以上步驟,可以去除重播的電視劇以及其他非廣告類節(jié)目。
為統(tǒng)計(jì)新廣告發(fā)現(xiàn)系統(tǒng)的性能,本文的測(cè)試數(shù)據(jù)集選擇了江西一套三天(2015年4月14日至16日)的數(shù)據(jù),其中音頻數(shù)據(jù)采樣率為8KHz,采樣精度為16bit。
我們通過(guò)召回率和誤報(bào)率來(lái)衡量新廣告發(fā)現(xiàn)算法的性能,計(jì)算公式分別如下:
表1 是測(cè)試結(jié)果,其中誤報(bào)主要是由于重播的節(jié)目片花或節(jié)目預(yù)告造成。
使用上述方法所開(kāi)發(fā)的廣告智能監(jiān)管系統(tǒng)已經(jīng)成功在江西省廣電監(jiān)管中心進(jìn)行實(shí)施應(yīng)用,系統(tǒng)投入運(yùn)行以來(lái),運(yùn)行穩(wěn)定,大大減輕了值班人員的工作負(fù)擔(dān),提高了工作效率,實(shí)現(xiàn)了廣告監(jiān)測(cè)的智能化。