• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多模態(tài)字典學(xué)習(xí)的微視頻場所類別識別

      2017-07-05 12:59:40張江龍黃祥林
      關(guān)鍵詞:池化字典場所

      張江龍,黃祥林

      (中國傳媒大學(xué) 理工學(xué)部,北京 100024)

      基于多模態(tài)字典學(xué)習(xí)的微視頻場所類別識別

      張江龍,黃祥林

      (中國傳媒大學(xué) 理工學(xué)部,北京 100024)

      微視頻的迅猛增長為對微視頻的有效管理及利用帶來新的挑戰(zhàn),本文對微視頻的場所識別進(jìn)行研究。場所信息可帶來一些潛在的多媒體應(yīng)用如:地標(biāo)/場所檢索、地理位置摘要生成、城市計算和基于地理位置服務(wù)。但是由于微視頻的音頻部分表達(dá)能力不強(qiáng),這大大地影響到微視頻場所信息的表達(dá)。為此,本文提出了一個基于多模態(tài)字典學(xué)習(xí)算法。該算法能借助外部音頻信息來增強(qiáng)微視頻音頻部分的表達(dá)。大量的實(shí)驗(yàn)證明了該算法的有效性。

      微視頻;場所類別;多模態(tài);字典學(xué)習(xí)

      1 引言

      傳統(tǒng)視頻分享網(wǎng)站的流行,大大地改變了互聯(lián)網(wǎng)。這些視頻分享網(wǎng)站允許用戶錄制高質(zhì)量、長時長的視頻,并分享給其他用戶。但是自從2012年底,用戶挖掘視頻的方式發(fā)生了巨大的改變:微視頻在不同的社交網(wǎng)絡(luò)上快速增長。國內(nèi)也出現(xiàn)了錄制微視頻的應(yīng)用,比如秒拍;在2016年底,中國最流行的社交網(wǎng)絡(luò)微信也推出了一個限制拍攝時長為10秒的微視頻拍攝功能。

      微視頻除了具有簡潔性、真實(shí)性和成本低等優(yōu)點(diǎn),社交網(wǎng)絡(luò)鼓勵用戶在上傳微視頻的同時也簽到其地理位置信息。智能手機(jī)或移動設(shè)備的GPS能夠智能地列出其所在位置可能的位置選擇,比如在一棟大樓中一層餐廳,還是二層的辦公室,用戶手動選擇的這些場所位置。Foursquare等地理位置提供商自動把這個地理位置映射到場所類別。識別用戶及其上傳多媒體的地理位置信息有潛在應(yīng)用及意義,如地標(biāo)/場所檢索、地理位置摘要生成、城市計算和基于地理位置服務(wù)。

      微視頻包含三個模態(tài):視覺、聽覺和文本模態(tài),每個模態(tài)的表達(dá)能力差別很大,例如聽覺模態(tài)遠(yuǎn)遠(yuǎn)不如視覺模態(tài),這會造成模態(tài)表達(dá)的“木桶效應(yīng)”。本文針對這問題,提出一種基于多模態(tài)字典學(xué)習(xí)的微視頻場所類別識別框架。該框架包含兩部分內(nèi)容:外部音頻數(shù)據(jù)庫的建立和音頻增強(qiáng)多模態(tài)字典學(xué)習(xí)的算法(acouStic enhAnced multI-modaL dictiOnary leaRning,SAILOR)。具體地,首先定義了幾百個和生活有緊密關(guān)聯(lián)的聲學(xué)概念(acoustic concepts),并假設(shè)這些聲學(xué)概念在微視頻的音頻中也存在的。接著通過這些聲學(xué)概念到互聯(lián)網(wǎng)去爬取相應(yīng)的音頻素材,并作為本文的外部音頻資源庫。在第二部分,本文通過多模態(tài)字典學(xué)習(xí)模型框架把外部音頻模態(tài)和微視頻的音頻模態(tài)無縫地融合起來。這是通過假設(shè)它們之間共享一個空間的字典聯(lián)系起來的。最后通過這個模型去判斷未知場所的微視頻類別。

      接下來的章節(jié)安排:首先介紹現(xiàn)有的多模態(tài)字典學(xué)習(xí)及音頻概念檢測等相關(guān)工作;第三節(jié)詳細(xì)描述增強(qiáng)多模態(tài)字典學(xué)習(xí)(SAILOR)算法;第四節(jié)給出實(shí)驗(yàn)的結(jié)果及分析,最后總結(jié)全文。

      2 文獻(xiàn)綜述

      2.1 字典學(xué)習(xí)

      一般地,把字典學(xué)習(xí)分為:無監(jiān)督字典學(xué)習(xí)和有監(jiān)督字典學(xué)習(xí)。無監(jiān)督字典學(xué)習(xí)的主要思想:在大量無標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)得到的字典能夠盡可能重構(gòu)原始信號。1993年,Mallat[1]提出了基于小波分析提出了信號可以用一個超完備字典(Over-complete Dictionary)進(jìn)行表示,并引進(jìn)了匹配追蹤算法(Matching Pursuit,MP),從而開啟了超完備字典的稀疏表達(dá)的先河。Olshausen 和 Field[2]顯示了自然圖片和哺乳動物大腦的視覺感知皮層的關(guān)系。同時提出了一個不同的稀疏表達(dá)模型,該模型可以從訓(xùn)練數(shù)據(jù)自適應(yīng)地學(xué)習(xí)超完備字典,并使用最優(yōu)方向算法(Method of Optional Directions,MOD)分別對字典和稀疏表達(dá)進(jìn)行交替更新。其不僅能夠限制了模型的稀疏性,同時對字典進(jìn)行L2范式限制,以防止字典元素過于大而引起過擬合。然而當(dāng)訓(xùn)練數(shù)據(jù)比較大的時候,MOD的訓(xùn)練時長比較長。因此為了處理大量數(shù)據(jù)的訓(xùn)練,Elad等[3]提出一個快速的字典學(xué)習(xí)方法K奇異值分解方法(K-Singular Value Decomposition,K-SVD)。K-SVD使用奇異值分解的方法依次對字典的單個原子(atom)進(jìn)行更新。在每輪迭代中,只有被使用的到原子才會更新,這樣大大減少了運(yùn)算量。Mairal等[4]提出一個在線的算法來學(xué)習(xí)字典,來進(jìn)一步提高學(xué)習(xí)效率。無監(jiān)督字典學(xué)習(xí)在不少學(xué)習(xí)領(lǐng)域雖然取得很大的成果,但是其只注重信號的重構(gòu)能力(reconstruction ability),因此不少學(xué)者在此基礎(chǔ)上對在任務(wù)分類能力(dicriminative capability)進(jìn)行了不少的研究。該類的研究主要利用任務(wù)數(shù)據(jù)的標(biāo)簽來增加字典學(xué)習(xí)模型的判別能力,因此也稱有監(jiān)督字典學(xué)習(xí)。Mairal等[5]對于每個分類類別學(xué)習(xí)一個字典,這種基于類別的字典(task-specific dictionary)能夠增強(qiáng)字典的判別能力。Wang等[6]先從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出來的字典及其表達(dá),接著把其表達(dá)放入到分類器中去進(jìn)行訓(xùn)練。 但是,其把字典學(xué)習(xí)和分類器的訓(xùn)練分開學(xué)習(xí)而成,這種方式不能同時優(yōu)化字典學(xué)習(xí)和分類損失。為此,Mairal等[7]提出一個任務(wù)驅(qū)動字典學(xué)習(xí)(task-driven dictionary learning)方法,把分類的損失函數(shù)加入到字典學(xué)習(xí)中,來一起訓(xùn)練字典和分類模型的系數(shù)。Zhu等[8]更進(jìn)一步考慮把領(lǐng)域知識的適用性(domain adaptability)加入到有監(jiān)督字典學(xué)習(xí),進(jìn)一步提高分類器的判別性。

      目前大多的字典學(xué)習(xí)是單模態(tài)的,即其訓(xùn)練數(shù)據(jù)只包含單模態(tài)。在Zheng等[9]工作中,一個共有的字典(common dictionary)和幾個特殊視角的字典(view-specific dictionary)同時被學(xué)習(xí)出來,并應(yīng)用于多視角運(yùn)動識別。這些特殊視角的字典是用于表達(dá)不多視角的特征,而共有字典則是表達(dá)不多視角的共同特征。這種方法屬于任務(wù)驅(qū)動字典學(xué)習(xí),但是其不能用在異構(gòu)多模態(tài)的字典融合。Monaci等[10]提出一種多模態(tài)字典學(xué)習(xí)模型(Multi-modal Dictionary Learning,MDL)來提取多模態(tài)特征的經(jīng)典模板。該模板可以捕捉動態(tài)瞬時多模態(tài)信息,并可以用在同時恢復(fù)多模態(tài)信息。Zhuang等[11]學(xué)習(xí)多模態(tài)字典,并使用單個模態(tài)去檢索多模態(tài)信息。但是這種方法并沒有利用模態(tài)之間的關(guān)系去做特征融合。Bahrampour等[12]提出一個多模態(tài)任務(wù)驅(qū)動字典學(xué)習(xí)(Multimodal Task-Driven Dictionary Learning,MTDL),即可以融合異構(gòu)多模態(tài)特征,又考慮了分類模型的判別性。本文提出的算法也屬于有監(jiān)督多模態(tài)字典學(xué)習(xí),但是同上述算法不同的是,本算法使用外部資源來增強(qiáng)字典的表達(dá)能力,從而提高模型的表達(dá)和判別能力。

      2.2 音頻概念檢測

      對用戶生成視頻的音頻概念檢測是一個相對較新的領(lǐng)域[13]。從音頻概念模型角度考慮,其可以分為基于數(shù)據(jù)驅(qū)動(data-driven)[14]和任務(wù)驅(qū)動(task-driven)[15]兩種方法。對于視頻的音頻概念檢測的主要動力是:音頻能夠?yàn)樘囟ㄊ录峁┭a(bǔ)充信息,特別是當(dāng)有些圖片或視覺信息很難捕捉的到信息。最近幾項(xiàng)研究[14,15],表明了檢測音頻事件比單純使用基于特征學(xué)習(xí)方法更加能夠填補(bǔ)底層特征語義與高層語義之間的關(guān)系。本文也是基于這個考慮,使用音頻概念檢測來為最終的微視頻的內(nèi)容分析做準(zhǔn)備。

      3 多模態(tài)字典學(xué)習(xí)算法

      微視頻本身就是多模態(tài)的(視覺和聽覺模態(tài)),每個模態(tài)都帶有互補(bǔ)信息,它們之間的融合可以包含各自模態(tài)所不能表達(dá)的信息?;谶@個考慮,微視頻的場所識別問題是多模態(tài)的問題。本小節(jié)包含以下兩個部分:1)介紹傳統(tǒng)MDL的不足;2)總結(jié)增強(qiáng)多模態(tài)字典學(xué)習(xí)(SAILOR)的介紹。

      MTL,其可以通過以下公式的優(yōu)化獲得字典和稀疏表達(dá):

      (1)

      (2)

      (3)

      其中δm是個半徑參數(shù),在此簡單地等價于所在第m個模態(tài)樣本特征空間歐式距離的中值。公式(2)的最后一項(xiàng)表示樣本表達(dá)的順暢性,但是這一項(xiàng)直接求解比較困難,為了簡化優(yōu)化目標(biāo),可以進(jìn)一步把其寫成

      (4)

      (5)

      一般可以通過梯度下降方法去對公式(5)求解。

      4 實(shí)驗(yàn)及結(jié)果分析

      本實(shí)驗(yàn)的數(shù)據(jù)庫,包含了276,264個微視頻,442個場所類別。使用兩種測度來評估結(jié)果:宏F1(Macro-F1)和微F1(Micro-F1)。

      4.1 音頻模態(tài)表達(dá)

      為了理解音頻模態(tài)特征的代表性,本文首先學(xué)習(xí)不同音頻特征表達(dá)的效果。本文分別抽取了短時頻譜能量(spectrum)、梅爾倒譜系數(shù)(MFCC)和堆疊去噪自解碼(SDA),其維度分別513、39和200維。其中spectrum和MFCC的窗大小為46ms加上50%的重復(fù)率,兩種池化方式:最大值池化和平均值池化分別應(yīng)用在每個音頻的所有窗函數(shù)中。而SDA則是通過spectrum的平均池化的結(jié)果去訓(xùn)練。由于外部數(shù)據(jù)是帶有標(biāo)簽的,每個音頻代表一個音頻概念,因此可以使用帶標(biāo)簽的數(shù)據(jù)來了解特征的代表性。本實(shí)驗(yàn)報告10折交叉驗(yàn)證的均值和方差來驗(yàn)證不同特征的代表性,測量尺度為Micro-F1和Macro-F1,其結(jié)果如表1所示。從表1可以觀察到:1)對于spectrum特征,平均值池化得到Micro-F1和Macro-F1效果,都比最大值池化的效果好。2)而對于MFCC的結(jié)論和spectrum卻是相反的。這可能是由于MFCC包含語義比spectrum高,因此最大值池化的效果會好。3)MFCC最大值池化的效果比spectrum平均值池化效果好。4)SDA無論在Micro-F1還是在Macro-F1的效果都比其他好不少。本文對SDA和其他方法做學(xué)生測試(t-test),發(fā)現(xiàn)其p-value的值都遠(yuǎn)小于0.05,這說明了SDA的代表性比其他特征表達(dá)方法顯著。因此接下來的音頻特征表達(dá)使用的是SDA。

      表1 不同音頻特征的表達(dá)性

      4.2 模型比較

      本文把SAILOR與以下幾個基準(zhǔn)算法進(jìn)行比較:

      1)晚期融合(late fusion):該方法把每個模態(tài)特征單獨(dú)訓(xùn)練softmax模型,最終把模型綜合起來決定最終結(jié)果。

      2)任務(wù)驅(qū)動字典學(xué)習(xí)(task-driven dictionary learning,D3L):該方法是字典學(xué)習(xí)的有監(jiān)督版本,其可以利用標(biāo)簽信息來增強(qiáng)模型的判別性。本文分別對各個模態(tài)進(jìn)行任務(wù)驅(qū)動字典學(xué)習(xí),最終利用晚期融合算法來判別最終結(jié)果。

      3)多模態(tài)字典學(xué)習(xí)(Multimodal Dictionary Learning,MDL):該方法利用了模態(tài)之間的聯(lián)合稀疏表達(dá)來增強(qiáng)字典的表達(dá)能力,其屬于特征前期融合領(lǐng)域。最終學(xué)習(xí)出來的稀疏表達(dá),再通過softmax分類器進(jìn)行訓(xùn)練。

      4)多模態(tài)任務(wù)驅(qū)動字典學(xué)習(xí)(Multimodal Task-driven Dictionary Learning,MTDL),該方法不僅在多模態(tài)特征層學(xué)習(xí)共同稀疏表達(dá),而且在決策層使用判決分?jǐn)?shù)來共同決定結(jié)果。

      5)SAILOR-e:這是SAIOLR版本的縮減版本,其不借助外部音頻資源,即不考慮公式(2)的第二項(xiàng)。

      6)SAILOR-rs:這是SAIOLR版本的縮減版本,其不考慮特征表達(dá)的順暢性,即不考慮公式(2)的最后一項(xiàng),把λ2設(shè)置為0。

      7)SAILOR-sc:這是SAIOLR版本的縮減版本,其不考慮特征表達(dá)的稀疏性,即不考慮公式(2)的第三項(xiàng),把λ1設(shè)置為0。

      不同模型比較結(jié)果顯示在表2中,其列分別表示模型方法,Micro-F1,Macro-F1和p-value。由表2可以觀察到:1)所有的字典學(xué)習(xí)方法在Micro-F1測度上都比晚期融合算法好,這說明了稀疏表達(dá)的有效性。2)MDL表現(xiàn)比D3L要好,這說明了聯(lián)合稀疏表達(dá)能夠增強(qiáng)字典之間的表達(dá)能力。3)TMDL比MDL略好,說明了任務(wù)驅(qū)動字典學(xué)習(xí)可以增強(qiáng)單純使用多模態(tài)字典學(xué)習(xí)模型的判別性。4)SAILOR比其他模型都好,包括TMDL,這更加確定了微視頻聽覺模態(tài)表達(dá)的不足,需要借助外部資源來增強(qiáng)模型表達(dá)。5)SAILOR比其他SAILOR縮減版本算法要好,這同時說明了借助外部音頻資源,模型表達(dá)的順暢性和稀疏表達(dá)的必要性。

      表2 不同模型性能的比較

      5 總結(jié)

      首先介紹了字典及音頻概念檢測的相關(guān)工作。接著分析傳統(tǒng)的MDL的兩個不足,引出本文提出的算法SAILOR,該方法基于兩個重要的假設(shè),從這兩個假設(shè)出發(fā),詳細(xì)介紹了SAILOR的建模。最后通過音頻模態(tài)的表達(dá)和模型比較的實(shí)驗(yàn)來驗(yàn)證了SAILOR的有效性。

      [1]Daubechies I.The wavelet transform,time-frequency localization and signal analysis[J].IEEE Transactions on Information Theory(TIT),36(5):961-1005,1990.

      [2]Olshausen,Bruno A,David J Field.Sparse coding with an overcomplete basis set:A strategy employed by V1[J].Vision research,37(23):3311-3325,1997.

      [3]Aharon,Michal,Michael Elad,Alfred Bruckstein.K-SVD:An algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing(TSP),54(11):4311-4322,2006.

      [4]Mairal J,Bach F,Ponce J,Sapiro G.Online dictionary learning for sparse coding[J].International Conference on Machine Learning(ICML),689-696,2009.

      [5]Mairal J,Bach F,PonceJ.Task-driven dictionary learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),34(4):791-804,2012.

      [6]Wang S,Zhang L,Liang Y,Pan Q.Semi-coupled dictionary learning with applications to image super-resolution and photo-sketch synthesis[J].IEEE conference on Computer Vision and Pattern Recognition(CVPR),2216-2223,2012.

      [7]Mairal,Julien,Jean Ponce,Guillermo Sapiro,Andrew Zisserman,F(xiàn)rancis R Bach.Supervised dictionary learning[J].Advances in Neural Information Processing Systems(NIPS),1033-1040,2009.

      [8]Zhu F,Shao L.Weakly-supervised cross-domain dictionary learning for visual recognition[J].International Journal of Computer Vision(IJCV),109(1-2):42-59,2014.

      [9]J Zheng,Z Jiang.Learning view-invariant sparse representations for cross-view action recognition[J].IEEE International Conference on Computer Vision(ICCV),3176-3183,2013.

      [10]G Monaci,P Jost,P Vandergheynst,B Mailh’e,S Lesage,R Gribonval.Learning multimodal dictionaries[J].IEEE Transaction Image Processing(TIP),16(9):2272-2283,2007.

      [11]Y Zhuang,Y Wang,F(xiàn) Wu,Y Zhang,W Lu.Supervised coupled dictionary learning with group structures for multi-modal retrieval[J].Association for the Advancement of Artificial Intelligence(AAAI),1070-1076,2013.

      [12]Bahrampour,Soheil.Multimodal task-driven dictionary learning for image classification[J].IEEE Transactions on Image Processing(TIP),25(1):24-38,2016.

      [13]Ravanelli M,Elizalde B,Ni K,F(xiàn)riedland G.Audio concept classification with hierarchical deep neural networks[J].IEEE European Signal Processing Conference(EUSIPCO),606-610,2014.

      [14]Pancoast,Stephanie Lynne,Murat Akbacak,Michelle Hewlett Sanchez.Supervised acoustic concept extraction for multimedia event detection[J].ACM international workshop on Audio and Multimedia methods for large-scale video analysis,9-14,2012.

      [15]Castan D,Akbacak M.Segmental-GMM Approach based on Acoustic Concept Segmentation[J].International Speech Communication Association(INTERSPEECH),15-19,2013.

      (責(zé)任編輯:宋金寶)

      Multi-modal Dictionary Learning towards Venue Category Estimation from Micro-videos

      ZHANG Jiang-long,HUANG Xiang-lin

      (Faculty of Science and Technology,Communication University of China,Beijing 100024,China)

      The rapid development of micro-videos poses great challenges for multimedia management and retrieval.To alleviate this problem,we focus on venue category estimation from micro-video.The spatial information embedded in micro-video benefits multifaceted application,such as location/venue retrieval,landmark summarization,city computing,and location-based services.However,we find that the audio tracks embedded in micro-videos are less representation among three modalities,which greatly hinder the venue expression of micro-videos.Towards this end,we proposed a novel multi-modal dictionary learning approach.This approach is capable of borrowing external audio source to enhance the micro-videos.Extensive experiments conducted on a real-world data set have demonstrated the effective of our proposed model.

      micro-videos;venue category;multi-modal;dictionary learning

      2017-03-28

      張江龍(1987-),男(漢族),福建泉州人,中國傳媒大學(xué)博士研究生.E-mail:zhangjianglong135@126.com

      TP

      A

      1673-4793(2017)04-0034-06

      猜你喜歡
      池化字典場所
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      開心字典
      家教世界(2023年28期)2023-11-14 10:13:50
      開心字典
      家教世界(2023年25期)2023-10-09 02:11:56
      基于Sobel算子的池化算法設(shè)計
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      聽的場所
      2020年5月全市場發(fā)行情況(按托管場所)
      債券(2020年6期)2020-07-06 03:36:00
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      遠(yuǎn)離不良場所
      戀愛場所的變化
      古交市| 湘阴县| 临沧市| 平湖市| 汉寿县| 宜黄县| 清新县| 桓台县| 南召县| 临澧县| 古田县| 茶陵县| 温泉县| 苗栗市| 大连市| 宜良县| 汾阳市| 郓城县| 建水县| 嵊泗县| 双流县| 武山县| 通化市| 潼南县| 嘉峪关市| 丹巴县| 宜川县| 策勒县| 衡山县| 河间市| 丰顺县| 石首市| 南召县| 峨眉山市| 镇安县| 剑阁县| 通城县| 孟州市| 卢氏县| 舞钢市| 屯门区|