楊睿 王昊宇 劉歡嫻 張琳 楊宇萌
摘要:隨著自媒體短視頻行業(yè)的興起,視頻配樂所涉及的問題也越來越突出,尤其舞蹈類短視頻中背景音樂與舞蹈動作千篇一律的情況常常出現(xiàn)。為解決這一問題,本文基于動作語義提取方法,實現(xiàn)對視頻中人物關(guān)節(jié)點的跟蹤和動作語義的提取,并利用搜索引擎得到背景音樂,為自媒體短視頻背景音樂與舞蹈動作的多樣性做出了貢獻。
關(guān)鍵詞:人工智能;動作識別;語義研究;自動配樂
1、 緒論
通過人物的表情、動作、語言等識別人物的情緒狀態(tài)是機器視覺中的熱門領(lǐng)域,早在20世紀90年代美國麻省理工學(xué)院就有相應(yīng)研究。
目前對于表情、語音識別技術(shù)的研究相對成熟,而動作識別還只是新興的研究方向。動作識別已被嘗試應(yīng)用在眾多現(xiàn)實場景中,如機器人視覺、人機交互、智能監(jiān)控及體感游戲等,在人們生產(chǎn)生活中發(fā)揮了巨大的促進作用。
舞蹈類短視頻配樂領(lǐng)域主要有三個亟待解決的問題:如何從視頻中識別人體運動,如何通過運動特征識別人類動作語義,以及如何將動作語義轉(zhuǎn)化為高層語義并用搜索引擎找到音樂。
2、 問題分析及系統(tǒng)設(shè)計與實現(xiàn)
2.1問題分析
在基于動作語義識別的背景音樂匹配系統(tǒng)研究中,主要工作是從運動視頻中提取動作特征、構(gòu)建動作語義集合并建立動作與動作語義之間的映射關(guān)系模型,實現(xiàn)從運動視頻中識別人的動作信息。
首先,從靜態(tài)姿態(tài)特征和動態(tài)運動特征兩方面提取特征數(shù)據(jù);然后,根據(jù)當前人類情緒識別領(lǐng)域和行為心理學(xué)領(lǐng)域研究成果,本文構(gòu)建了包含“開心”、“憤怒”、“悲傷”、“恐懼”和“中立”這五種動作語義的語義集合。并通過引入“不確定”的識別結(jié)果,為后續(xù)進行語義識別提供便利。
當完成舞蹈視頻的語義分析后,將獲得的動作語義進行簡單變換并通過搜索引擎找到與該視頻匹配的音樂,從而完成配樂功能。
2.2系統(tǒng)設(shè)計與實現(xiàn)
智慧配樂師功能包含舞蹈語義識別和背景音樂匹配兩部分,具體設(shè)計如圖1所示。
下面詳細介紹各功能的原理及具體情況。
(1)舞蹈語義識別功能
①提取人體二維輪廓
幀間差分法作為最常用的運動目標檢測方法之一,其基本原理就是采用基于像素的時間差分在圖像序列相鄰的兩幀或三幀之間,通過閉值化提取出場景中的運動區(qū)域。
我們將相鄰幀相減得到差分圖像,在保證環(huán)境亮度變化不大的條件下,選定一個閾值,根據(jù)像素值變化與閾值的大小關(guān)系對差分圖像二值化。利用幀間差分法更新速度快、算法簡單、計算量小等優(yōu)點,得到人體二維輪廓。
②定位人體關(guān)節(jié)點
人體被看成是由骨骼及關(guān)節(jié)點構(gòu)成的剛性系統(tǒng),骨骼的位置由關(guān)節(jié)點決定,因此人體運動可以用關(guān)節(jié)點表征。
在以往的研究中,手動標定視頻第一幀的方法雖然簡單易行,但在面對大量未知數(shù)據(jù)時并不可行。為避免人工定標浪費時間,我們根據(jù)醫(yī)學(xué)人體比例約束,實現(xiàn)自動定位關(guān)節(jié)點的效果。
③光流法關(guān)節(jié)點跟蹤
光流法常用來跟蹤點的運動,光流的變化能夠反映圖像灰度在時間上的變化與景象中物體結(jié)構(gòu)及其運動的關(guān)系,其中LK光流算法在跟蹤人體各關(guān)節(jié)點的運動方面表現(xiàn)更好。
光流法通過特征匹配求關(guān)節(jié)點處的流速,利用計算量小、快速靈活的特點,能夠快速檢測到運動對象。
④動作特征的提取
在提取人體動作過程中,我們將人體動作特征分為兩類:靜態(tài)姿態(tài)特征,包含重心傾斜狀態(tài)、頭部彎曲度、頭部彎曲度、肘部彎曲度及胸腔彎曲度;動態(tài)運動特征,包含重心移動速度與關(guān)節(jié)點相對速度。
動作速率一定程度上反應(yīng)人的情緒信息,由于肩部節(jié)點、肘部節(jié)點和手部節(jié)點相對于重心變化較為獨立,反映信息較為明顯,可作為關(guān)節(jié)點速率的主要計算依據(jù),用關(guān)節(jié)點相對運動速率與重心絕對運動速率的比值作為動態(tài)運動特征參數(shù)。
⑤動作語義識別
在獲取特征數(shù)據(jù)后,分別計算出對應(yīng)的語義,再根據(jù)映射關(guān)系得到最終的語義識別結(jié)果。使用雷達圖展現(xiàn)各語義所占概率,通過選取單幀雷達圖中概率超過 27%的前兩種語義作為代表語義,用概率值作為對應(yīng)權(quán)重,統(tǒng)計有效幀在各語義中的加權(quán)平均值,最終得到輸入視頻的語義雷達圖。
(2)背景音樂匹配功能
在多媒體的檢索中,最自然直接的辦法就是用人類的語義概念進行檢索,通過語義方式的搜索達到比視覺底層特征更直接和更有效的效果。經(jīng)過動作特征提取、構(gòu)建動作語義集合、建立動作與動作語義之間的映射關(guān)系模型最終分析得到人們?nèi)粘K季S中的高層語義概念——動作語義。通過舞蹈語義識別部分得到結(jié)構(gòu)化標簽,利用搜索引擎實現(xiàn)背景音樂的搜索查找,最終完成配樂功能。
圖2是基于動作語義識別的背景音樂匹配過程圖。
3、 系統(tǒng)創(chuàng)新點
“智慧配樂師”以舞蹈動作意義為切入點,利用人工智能技術(shù)尋找最佳配樂,體現(xiàn)了如下創(chuàng)新點:
(1)利用人工智能技術(shù)挖掘舞蹈運動特征數(shù)據(jù)。通過幀間差分法實現(xiàn)人體初步識別,再根據(jù)醫(yī)學(xué)領(lǐng)域人體結(jié)構(gòu)比例約束標定必要關(guān)節(jié)點,并使用光流法挖掘出特征數(shù)據(jù)。
(2)構(gòu)建特征映射模型獲取舞蹈動作語義。通過對視頻數(shù)據(jù)的分析,構(gòu)建出特征數(shù)據(jù)與動作語義之間的映射模型,獲得視頻中舞蹈動作語義。
(3)依據(jù)動作語義為舞蹈片段分類。利用語義雷達圖選取單幀中概率超過預(yù)設(shè)閾值的前兩種語義作為該幀的代表語義進而確定舞蹈片段的節(jié)奏和風格。
4、 結(jié)語
本文通過研究基于舞蹈類短視頻的動作語義提取方法,實現(xiàn)了對視頻中人物關(guān)節(jié)點的跟蹤,并計算得到運動特征,再根據(jù)已構(gòu)建的語義映射模型提取動作語義,最后利用搜索引擎得到背景音樂。由于個體性差異,語義的肢體表達方式也有不同,如何根據(jù)個體性差異進行針對性的識別是未來研究的一個難點。目前,語義識別正向著多信號融合的方向發(fā)展,人體面部表情與肢體動作相結(jié)合的多信號語義識別系統(tǒng)將為人機交互領(lǐng)域的應(yīng)用帶來更多可能。
參考文獻:
[1]劉艷,劉鼎家,韓智攀.基于動作識別的情緒提取方法研究[J].計算機工程,2015,41(05):300-305.
[2]門鑫. 基于深度學(xué)習(xí)的視頻內(nèi)容識別和搜索算法研究[D].北京郵電大學(xué),2019.
課題項目:本文為沈陽師范大學(xué)校級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃資助項目《基于人工智能動作語義識別的背景音樂匹配系統(tǒng)——“智慧配樂師”》(項目編號:202113066)成果.