基于多尺度時長音頻特征的暴力音頻事件檢測

2014-04-29 13:29:02徐戰(zhàn)蒼李海峰

智能計算機與應用 2014年5期

徐戰(zhàn)蒼李海峰

摘要：暴力鏡頭檢測是近年來的研究熱點之一。早期的暴力鏡頭檢測主要依賴視頻特征，由于音頻信息具有良好的穩(wěn)定性和在不同文化和人群之間的一致性，現(xiàn)在人們越來越多地關注音頻信息的使用。本文研究使用音頻特征對電影鏡頭中的暴力音頻事件進行檢測。本文提出了一種基于多尺度時長的特征提取方法。提取了除MFCC、LPC、能量等短時特征以外，還提取了能量均值方差、子帶能量均值和方差、幀間差分等長時特征。暴力鏡頭中出現(xiàn)較多且具有代表性的音頻事件有爆炸、尖叫、槍擊3種。本文以電影的鏡頭為識別單位，使用支持向量機分類算法實現(xiàn)了一個檢測系統(tǒng)。通過在15部好萊塢電影上的實驗，表明本文基于多尺度時長的音頻特征在暴力音頻事件檢測工作中，能夠取得較好的結果。

關鍵詞：暴力鏡頭檢測；多尺度時長特征；音頻事件檢測；支持向量機

中圖分類號： TP391 文獻標識碼： A 文章編號：2095-2163（2014）04-

Violent audio event detection based on multi-scale audio features

XU Zhancang，LI Haifeng

（ School of Computer Science and Technology，Harbin Institute of Technology，Harbin 150001，China）

Abstract： Violence detection is one of the hot research topic in recent years. Early work mainly depends on the video characteristic， considering the audio information has good stability and consistency between different cultures and people， people are now more and more attention to the use of audio information. This paper studies using audio features to detect violent audio event in the movie. So this paper presents a multi-scale feature extraction method. The extracted features besides MFCC， LPC， short term energy also extracted the long term feature， such as the mean and variance of energy and sub-band energy， difference between frames. The audio events appeared frequently in violence scenes are explosions， screams， gunshots. Therefore， using support vector machine classification algorithm， the paper implements a detection system， to detect the violent audio event in the movie scenes. Through experiments on 15 Hollywood movies， experiments results show that the multi-scale audio features can achieve good results in the violent audio event detection work.

Key words： Violence Detection； Multi-scale Audio Features； Audio Event Detection； Support Vector Machine （SVM）

0引言

音視頻中暴力與色情內容的自動分析與檢測已然成為近年來研究工作的新鮮熱點之一，而倍受各方關注。尤其在網(wǎng)絡發(fā)達的今天，包含過多兒童不宜觀看內容的音視頻，如果只是依靠人工審核，即使耗費大量的人力及財力也難以即時發(fā)現(xiàn)不良信息。本文即針對電影中所包含的音頻暴力片段進行研究，提出了基于音頻長短時特征與統(tǒng)計特征相融合的組合量特征，由此而實現(xiàn)了一種基于音頻的長短時特征與統(tǒng)計特征融合的暴力內容自動分析系統(tǒng)。

對于什么是暴力，一直沒有給出過權威的定義。目前以MediaEval競賽為標準的暴力定義[1]是：“身體暴力或事故導致的人體傷害或疼痛?！辫b于視頻數(shù)據(jù)的直觀、特征可分性強等優(yōu)勢，前期暴力檢測工作的重點多是關注于視頻數(shù)據(jù)的分析，Chen等就使用了平均運動強度等特征檢測了打斗、流血等暴力鏡頭，平均識別率達到了85%[2]。Zhang、Chen等則使用了基于內容的HOF特征進行打斗場景的識別，也取得了86%的識別結果[3]。而基于暴力場景中經常采用特定音頻事件來渲染氣氛的特點分析，因而即進一步展開了對基于音頻特征暴力場景識別的有關分析與研究。其中，由于能量熵可以反映短時間內的能量突變，Jeho和Ahmed就將其作為運動強度、火焰特征、流血特征等視頻特征的輔助性能來完成基于事件的視頻摘要提取工作[4]。為此，Theodoros等即使用了能量、過零率等八種音頻特征對固定長度的音頻段進行了暴力與非暴力的分類[5]，并且取得了90.5%的識別結果。時下大多數(shù)工作也只嘗試對一種或少量幾種暴力音頻事件進行了檢測。例如，Huang等使用能量和基頻特征對尖叫事件進行的檢測，最終取得了86%的識別結果[6]。Pikrakis等更使用了MFCC、能量熵、基頻等的統(tǒng)計特征進行了槍擊的檢測，相應地取得了90.6%的識別結果[7]。Penet又使用MFCC、能量等特征，對槍擊和爆炸產生的音響進行了識別，分別取得了80%和72%的識別結果[8]。

在電影暴力內容的分析工作中，基本單位多為鏡頭，但每個鏡頭的持續(xù)時間卻有所不同。因此，除了鏡頭內的短時音頻特征，同時更要提取短時音頻特征的長時統(tǒng)計特征，如此才能進一步體現(xiàn)鏡頭內特征的變化。與其相應地，本文即提出一種基于音頻多尺度時長特征的暴力鏡頭中音頻事件的自動分析與檢測技術。

本文的主要結構安排如下：第一部分為基于長時特征以及統(tǒng)計特征的音頻特征提取，對暴力音頻事件音頻特征進行分析與提??；第二部分即對實驗結果進行分析；最后進行總結以及給出對下一步工作的展望。

1 多尺度時長下暴力音頻特征的定義與提取方法

電影中的聲音對電影信息表達起著至關重要的作用，尤其是在暴力鏡頭中，聲音的作用更是突出。若要對音頻事件進行有效的識別，就需要選擇合適的特征。大多數(shù)音頻場景分析通常采用短時特征，且特征所對應的音頻信號單元也多為定長[9-11]，如MFCC、短時過零率、LPC等特征都是研究過程的常見選擇。

而電影中的鏡頭構成場景的聲學事件多為不定長的音頻片段。并且，由于音頻事件差異性較大，使其持續(xù)的時長與特征也有本質不同。例如爆炸聲和尖叫聲、槍擊聲在子帶能量、頻譜質心和過零率等特征上均呈現(xiàn)不同的分布。本文中的長時特征，即為體現(xiàn)出特征在一段時間內的變化，可通過計算相應的統(tǒng)計信息而得到，具體來說包括了子帶能量的均值和方差、音頻能量的均值和方差、幀間的一階以及二階差分等。

1.1定時長短時音頻特征的提取

定時長短時特征，即通過對音頻信息進行預處理、分幀之后提取的每幀的特征，包括MFCC、基頻、LPC、能量熵等?，F(xiàn)在將各個特征的提取方式依次給出，具體內容如下：

（1） MFCC是將人耳聽覺感知特性和語音的產生機制相結合而來，因此將更加接近人們的聽覺認知習慣，已經廣泛用于音頻信息分析。在此，可劃分26個mel頻帶，mel系數(shù)選取12，這樣本文共提取12維MFCC特征。

（2）基頻體現(xiàn)的是聲音的知覺特性，并且這種知覺特性在人們聽聞和理解不同的聲響中發(fā)揮著重要的作用。對于暴力聲音，如：尖叫、槍擊等來說，其音高均不相同，因此可以采用音高特征作為本文音頻事件的識別特征。

（3） LPC是根據(jù)理想的聲道模型計算得到的，為此根據(jù)爆炸、槍擊和尖叫所發(fā)出聲音的通道也是不同的，可應用LPC及其倒譜系數(shù)LPCC特征來共同確定暴力音頻的聲源性質。

（4）能量熵。能量熵是一幀信號中的能量變化程度。通過將每幀音頻信號分為固定長度的K個大小相同的子窗口，而對于每個子窗口i均要計算其經過標準化的能量，標準化過程就是將每個子窗口的能量除以整幀信號的能量，具體計算如公式（1）所示。

（1）

本文中，K=5，即每個子窗口長度為5ms，在這個時間內的信號可定義為是穩(wěn)定的。

1.2變時長音頻特征的提取

由于音頻事件差異性較大，且持續(xù)的時長與特征多有本質不同，只是單純提取短時特征即會造成大量信息丟失。因此本文工作中給出了根據(jù)暴力音頻持續(xù)的時間差異，分析獲得不同時間長度內的統(tǒng)計特征，包括能量譜質心和頻譜質心特征、子帶能量的均值和方差、音頻能量的均值和方差、幀間的一階及二階差分等。下面將注意分列其對應的計算模型，詳情如下。

（1）能量譜質心和頻譜質心特征

頻譜質心是功率譜分布的重心位置，能夠作為度量音頻亮度的近似指標，并且不同暴力音頻場景（尖叫、爆炸、槍擊）會有不同音頻亮度。因此頻譜質心即是一種檢測音頻事件的有效特征。同時，不同音頻事件的音頻信號頻譜在其頻譜質心周圍的分布情況也是不同的。本文計算信號在經過傅里葉變換后將統(tǒng)計前256個頻帶的，也就是頻譜質心和能量譜質心計算如公式（2）所示。

（2）

相應地，當μ=1時，計算可得頻譜質心，當μ=2時，計算得到的則是能量譜質心。

在本文中，還將計算語音信號頻譜在其頻譜質心周圍的的分布情況的頻譜散度（Spectral Spread， SS），其計算可見公式（3）。

（3）

（2）歸一化子帶能量的均值和方差

子帶的能量可以反映信號的不同聲學特性。不失一般性，本文應用數(shù)據(jù)的采樣率為8kHz。在此采樣率下，劃分了十六個頻率子帶，分別為[0-500 Hz]， [500-1 000Hz]， . . . ， [7 500-8 000Hz]，統(tǒng)計計算不同暴力音頻事件在每個子帶能量的均值和方差，再將相同子帶上的能量取均值并歸一化，使得各子帶上的能量累加和為1，從而得到能量在不同子帶上的分布。

（3）能量均值和方差

在不同的電影中，整體的能量可能偏大或偏小。因此，為了能夠使相應的識別效果具有一定的魯棒性，即提取了一個鏡頭內音頻能量的均值和方差。

（4）幀間差分

通過幀間差分提取一個鏡頭內的特征的差異程度，體現(xiàn)鏡頭內的一個長時的變化，本文則采用HTK中計算差分的方法，對文中提取的特征計算其一階差分和二階差分。其中，一階差分的具體計算公式如下：

（4）

式中，表示當前幀，取2。

得到一幀信號的一階差分后，在一階差分的基礎上再進行一重差分，就得到信號的二階差分，其計算公式可表述如下。

（5）

綜上所述，本文中所提取特征及維數(shù)則如表1所示。

2 實驗結果及分析

MediaEval 2012 Workshop[1]是目前公開的、較權威的暴力檢測競賽，該競賽所使用的視頻數(shù)據(jù)主要選自Hollywood電影。本文即采用MediaEval 2012 Workshop所提供的數(shù)據(jù)庫，具體可稱作VSD（Video Scenes Dataset）。

數(shù)據(jù)的預處理，主要對音頻信號進行預加重，并加漢明窗。本文中數(shù)據(jù)采用幀長為25ms，幀移10ms。本文所使用數(shù)據(jù)庫中包含的電影名稱以及每個電影中包含特定暴力音頻事件的鏡頭數(shù)目統(tǒng)計如表2所示。對于每一種音頻事件皆選取4/5的鏡頭特征作為訓練，剩余的1/5作為測試集。

表 2 各部電影中包含特定音頻事件的鏡頭個數(shù)

Tab.2 The number of shots in movies

總鏡頭數(shù) 爆炸鏡頭個數(shù) 槍擊鏡頭個數(shù) 尖叫鏡頭個數(shù)

26108 923 947 1044

評測指標采用經典AED（Audio Event Detect）中獲得廣泛采用的評價指標，也就是Precision、Recall、F1，其計算即如公式（6）所示。

（6）

其中，表示Precision和Recall之間的平衡因子，本文中 =1。

本文主要設計三組實驗，分別針對三種暴力音頻事件和正常音頻場景的識別、三種暴力音頻事件之間的識別以及三種暴力音頻事件和正常音頻的四類問題。其中分類器采用的則是SVM[12]。

實驗一：針對三種暴力音頻事件和非暴力音頻的識別，即爆炸和非爆炸，槍擊和非槍擊，尖叫和非尖叫。其中設定了5折實驗，而且分別使用短時特征以及長短時特征的結合來進行實驗，具體識別結果如表3、表4所示。

通過表3，表4可以看出，僅僅使用短時特征雖然能夠取得較好的結果，但如果能夠加入長時特征，整體的識別結果仍會得到更為顯著的提升。同時，由上述實驗結果也可以看出，Precision普遍較低。這以結果則與選取數(shù)據(jù)庫中的暴力鏡頭和非暴力鏡頭的數(shù)量差距直接相關。

實驗二：主要針對三種暴力音頻事件的兩兩組合間的識別，以此來驗證本文所提取的特征在不同暴力音頻事件上的各自識別效果。此處，只是選取爆炸、槍擊和尖叫的鏡頭進行實驗。同樣，本實驗也是使用短時特征以及長短時特征的結合而設定了兩組實驗，實驗結果則如表5、表6所示。

通過表5和表6可以看出，整體來說爆炸和槍擊對尖叫的區(qū)分效果較好，但爆炸和槍擊二者的區(qū)分卻要差上一些。這可能是由二者的特性所導致，畢竟二者在發(fā)聲上有較大的近似。只是進一步地，通過加入長時特征，就可以將三種暴力音頻事件實現(xiàn)有效的區(qū)分。

實驗三：四類識別。實驗數(shù)據(jù)包括三種暴力音頻事件鏡頭的特征，以及所有不包含三種音頻事件鏡頭的特征。共四類數(shù)據(jù)。與上述實驗一樣，采用了5折驗證，并且使用了短時特征以及長短時特征進行實驗，實驗結果分別如表7、表8所示。

由表7和表8可知，在進行多類的識別時，加入長時特征，也可以提高實驗的識別效果?？傮w來說，對于當前所使用的數(shù)據(jù)庫，加以客觀條件所限，本文取得的結果已是較為理想。而且，對于處理不定長的音頻段，利用長短時特征的融合，亦可以有效地提高相應的識別效果。

3 結束語

現(xiàn)階段對于電影中的暴力檢測研究仍屬稀少，而且已有研究基本都采用視頻數(shù)據(jù)進行對暴力鏡頭的檢測。使用音頻進行檢測仍尚屬罕見，尤其是暴力電影中的音頻事件（爆炸、槍擊、尖叫等）檢測。本文使用上文中所介紹的音頻特征同時對爆炸、槍擊、尖叫等三種具有代表性的暴力音頻事件進行了檢測。取得了較好的結果：最高的為爆炸，達到了93.3%；最低的為尖叫，也達到了81%?？傮w來講，本文提取的特征是有效的，而且能夠產生較好的識別結果。大部分的暴力音頻檢測在較短的音頻段進行和實現(xiàn)，而對電影中以鏡頭為檢測粒度的工作及文獻還較少見到，因此，對于一個鏡頭中的音頻特征的提取和使用則是后續(xù)需要進一步深度研究的工作內容之一。與此同時，在后續(xù)的工作中還要考慮使用其他的分類算法，以在更大程度上提高研究的識別結果。另一方面，暴力音頻事件的檢測更是對電影中暴力鏡頭檢測工作的一部分。因此，未來應該可以與視頻特征相結合進行暴力鏡頭檢測。

參考文獻：

[1] DEMARTY C H， PENET C， GRAVIER G， et al. The MediaEval 2012 Affect Task： Violent Scenes Detection in Hollywood Movies. MediaEval 2012 Workshop， Pisa，Italy， October 4–5 2012.

[2] CHEN L H， HSU H W， WANG L Y， et al. Violence detection in movies[C]//Computer Graphics， Imaging and Visualization （CGIV）， 2011 Eighth International Conference on. IEEE， 2011： 119-124.

[3]CHEN Y， ZHANG L， LIN B， et al. Fighting detection based on optical flow context histogram[C]//Innovations in Bio-inspired Computing and Applications （IBICA）， 2011 Second International Conference on. IEEE， 2011： 95-98.

[4] NAM J， TEWFIK A H. Event-driven video abstraction and visualization[J]. Multimedia Tools Appl， 2002， 16（1-2）：55–77.

[5] GIANNAKOPOULOS T， KOSMOPOULOS D， ANDREASARISTIDOU， et al.Violence content classification using audio features[C]//SETN， 2006：502–507.

[6] HUANG Weimin， et al. Scream detection for home applications[C]//Industrial Electronics and Applications （ICIEA）， 2010 the 5th IEEE Conference on. IEEE， 2010.

[7] PIKRAKIS， AGGELOS， GIANNAKOPOULOS T， et al. "Gunshot detection in audio streams from movies by means of dynamic programming and bayesian networks[C]//Acoustics， Speech and Signal Processing， 2008. ICASSP 2008. IEEE International Conference on. IEEE， 2008.

[8] PENET， C?DRIC， et al. Audio event detection in movies using multiple audio words and contextual Bayesian networks[C]// Content-Based Multimedia Indexing （CBMI）， 2013 11th International Workshop on. IEEE， 2013.

[9] CHENG W， CHU W， WU J. Semantic context detection based on hierarchical audio models[C]// Proceedings of the 5th ACM SIGMM international Workshop on Multimedia in-formation Retrieval， 2003：109–115.

[10] NAM J， ALGHONIEMY M， TEWFIK A H.Audio-visual content-based violent scene charac-terization[C]//IEEE International Conference on Image Processing， 1998：353–357.

[11]TEMKO A， NADEU C， BIEL J I. Acoustic event detection： SVM-based system and evaluation setup in CLEAR07[M]. Multimodal Technologies for Perception of Humans. Springer Berlin Heidelberg， 2008： 354-363.

[12] CHANG C-C， LIN C-J， LIBSVM ： a library for support vector machines. ACM Transactions on Intelligent Systems and Technology， 2：27：1--27：27， 2011. Software available at http：//www.csie.ntu.edu.tw/～cjlin/libsvm