• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖稀疏GroupLasso算法的農(nóng)業(yè)科教視頻多語義標(biāo)注方法

      2018-10-31 10:49:24孫佳明吳李康鄧兆利段馳飛蔡騁

      孫佳明 吳李康 鄧兆利 段馳飛 蔡騁

      摘要:針對農(nóng)業(yè)領(lǐng)域的視頻標(biāo)簽,多以人工方式標(biāo)注不利于大量視頻準(zhǔn)確快速標(biāo)注、檢索的問題,提出了一種基于圖稀疏Group Lasso模型的農(nóng)業(yè)科教視頻多語義標(biāo)注方法:通過添加待測鏡頭與視頻組間組內(nèi)的稀疏約束,得到待測鏡頭在視頻集內(nèi)的稀疏編碼,結(jié)合視頻集內(nèi)人工標(biāo)注的標(biāo)簽,進(jìn)行多語義的標(biāo)注。農(nóng)業(yè)科教視頻多語義標(biāo)注的試驗(yàn)表明,該方法能夠?qū)崿F(xiàn)語義的快速標(biāo)注,并使得農(nóng)業(yè)視頻多語義標(biāo)注的F綜合指標(biāo)達(dá)到64%。農(nóng)業(yè)視頻多語義標(biāo)注效果,不僅可滿足用戶個(gè)性化的信息需求,同時(shí)也為農(nóng)業(yè)知識視頻檢索等相關(guān)領(lǐng)域,提供了參考方案。

      關(guān)鍵詞:農(nóng)業(yè)科教視頻;鏡頭檢測;多語義標(biāo)注;稀疏編碼

      中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)06-0133-03

      近年來,農(nóng)業(yè)科教視頻的大量涌現(xiàn),為農(nóng)業(yè)技術(shù)的推廣提供了堅(jiān)實(shí)的基礎(chǔ)。隨著手機(jī)、電腦、因特網(wǎng)等傳播媒體的普及,農(nóng)戶可以很容易地接觸到農(nóng)業(yè)科教視頻,從而進(jìn)行農(nóng)業(yè)知識的獲取。但由于農(nóng)業(yè)視頻大多是整體錄制,而農(nóng)戶可能只需要對其中一部分的內(nèi)容進(jìn)行了解,很難滿足用戶個(gè)性化的檢索需求。研究農(nóng)業(yè)科教視頻語義標(biāo)注的方法,在海量的視頻中給農(nóng)業(yè)科教視頻鏡頭自動(dòng)、準(zhǔn)確的打上語義標(biāo)簽,為農(nóng)戶能夠快速檢索到需求的農(nóng)業(yè)鏡頭片段及農(nóng)業(yè)視頻數(shù)據(jù)庫索引的建立,都有著重要的意義。

      常用的視頻語義標(biāo)注方法大致可分為三類:基于手工標(biāo)注的方法,基于規(guī)則的標(biāo)注方法以及基于機(jī)器學(xué)習(xí)的方法[1]。其中基于機(jī)器學(xué)習(xí)的語義標(biāo)注方法研究已經(jīng)較為成熟。本文以農(nóng)業(yè)科教視頻為例,使用了機(jī)器學(xué)習(xí)中的圖稀疏Group Lasso(Graph Sparse Group Lasso,GSGL)模型對待測鏡頭進(jìn)行稀疏編碼重建[2],根據(jù)得到的權(quán)重系數(shù),結(jié)合視頻集原有的標(biāo)簽,進(jìn)行鏡頭標(biāo)簽的擴(kuò)散,以達(dá)到視頻語義標(biāo)注的目的。

      1 基于圖稀疏Group Lasso的視頻多語義標(biāo)注方法

      本文使用了基于圖稀疏的Group Lasso(GSGL)模型對農(nóng)業(yè)科教視頻進(jìn)行多語義標(biāo)注。首先對視頻庫進(jìn)行鏡頭分割和關(guān)鍵幀提取,并人工打上標(biāo)簽,然后使用GSGL模型對需要標(biāo)注的鏡頭進(jìn)行重構(gòu),最后根據(jù)較大權(quán)重系數(shù)對應(yīng)的視頻標(biāo)簽進(jìn)行語義標(biāo)注。

      1.1 數(shù)據(jù)準(zhǔn)備

      本文首先對視頻進(jìn)行鏡頭分割,對每一個(gè)鏡頭運(yùn)用K-Means算法聚類出關(guān)鍵幀。農(nóng)業(yè)科教視頻關(guān)鍵幀中的內(nèi)容多數(shù)以農(nóng)作物或林木為主,含有較為豐富的紋理信息,為了較為準(zhǔn)確的表示這些信息,本文使用LBP(Local Binary Pattern)特征向量來表示關(guān)鍵幀[3-5]。對農(nóng)業(yè)視頻庫中的關(guān)鍵幀進(jìn)行手工標(biāo)注,作為語義擴(kuò)散的來源。接下來使用GSGL算法求得需要標(biāo)注的視頻關(guān)鍵幀與已標(biāo)注視頻庫的聯(lián)系。

      1.2 圖稀疏Group Lasso模型

      GSGL是一種較為理想的語義標(biāo)注算法,該算法通過求解關(guān)鍵幀之間的稀疏編碼來判斷它們相關(guān)性的強(qiáng)弱。相比較于傳統(tǒng)的 Sparse Group Lasso(SGL)模型,GSGL增加了視頻集自身的局部結(jié)構(gòu)約束[6-7],該約束使待測鏡頭能夠被視頻集中與其有類似局部結(jié)構(gòu)的鏡頭近似表示,從而更好地利用數(shù)據(jù)集的先驗(yàn)信息。給定包含G個(gè)視頻的視頻集V=(V1,…,VG),對第g個(gè)視頻Vg的ng個(gè)鏡頭分別提取m維特征向量得到Vg=(vg1,…,vgni),Vg∈Rm×ng,g=1,…,G。

      公式(1)中,N= ng表示視頻集V中鏡頭的總數(shù)目。公式的前三個(gè)部分為三個(gè)約束項(xiàng),第一個(gè)正則化項(xiàng)約束了所有的視頻關(guān)鍵幀重構(gòu)待測鏡頭時(shí)的誤差,第二個(gè)正則化項(xiàng)實(shí)現(xiàn)了組內(nèi)的稀疏,第三個(gè)正則化項(xiàng)實(shí)現(xiàn)了組間的稀疏,這三個(gè)部分即傳統(tǒng)的SGL模型公式。

      在流形學(xué)的理論中[6-7],保留視頻集的自身局部結(jié)構(gòu)是對實(shí)驗(yàn)結(jié)果影響很大的因素之一,也就是說需要讓待測鏡頭能夠被視頻集中其他相似的鏡頭或視頻近似代替。GSGL模型的設(shè)計(jì)考慮了這一因素,因而能得到更好的實(shí)驗(yàn)效果。

      1.3 語義標(biāo)注

      其表示測試鏡頭與視頻集中鏡頭的相關(guān)性。第i組視頻對于鏡頭語義標(biāo)注的重要性用si來評估,若si=0,即第i組視頻對測試鏡頭語義標(biāo)記的權(quán)值為0,若si≠0,則si向量中不為0的值即為第i組視頻中某一鏡頭對測試鏡頭語義標(biāo)記的權(quán)值。由于每個(gè)測試鏡頭根據(jù)權(quán)重得到了若干個(gè)標(biāo)簽,因此需要對每個(gè)測試鏡頭的標(biāo)簽根據(jù)該標(biāo)簽的累計(jì)權(quán)重系數(shù)來進(jìn)行從大到小排序,取前k個(gè)(k=2,3,5)標(biāo)簽標(biāo)記該測試鏡頭[8]。

      2 結(jié)果與分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      本文使用的農(nóng)業(yè)視頻數(shù)據(jù)來自于陜西省寶雞市電視臺《農(nóng)事直通車》欄目,共19個(gè)視頻。這些視頻具有一定的權(quán)威性且較好的涵蓋了農(nóng)業(yè)科教視頻內(nèi)容的各個(gè)方面,經(jīng)過鏡頭檢測并提取關(guān)鍵幀后產(chǎn)生19組共1534幀圖像,該數(shù)據(jù)集存在組間聯(lián)系和組內(nèi)聯(lián)系。

      其中,t表示測試鏡頭的個(gè)數(shù),Nci表示第i個(gè)測試鏡頭通過語義標(biāo)注被標(biāo)記上的正確標(biāo)簽,Npi表示第i個(gè)測試鏡頭在當(dāng)前k值情況下檢測到的人工標(biāo)注的正確標(biāo)簽,Nli表示第i個(gè)測試鏡頭被人工標(biāo)記上的正確標(biāo)簽。

      2.2 實(shí)驗(yàn)結(jié)果分析

      將視頻集按1:4的比例隨機(jī)分為測試鏡頭和訓(xùn)練鏡頭,實(shí)驗(yàn)前對訓(xùn)練集和測試集進(jìn)行人工語義標(biāo)記,便于對實(shí)驗(yàn)結(jié)果進(jìn)行評估。

      3種方法所得的實(shí)驗(yàn)結(jié)果如表1所示,所得的部分鏡頭標(biāo)記如圖1所示。

      由表1可以看出平均標(biāo)全率AR和平均查準(zhǔn)率AP呈反比關(guān)系,當(dāng)k的取值較小時(shí),由于選擇權(quán)值系數(shù)較大的標(biāo)簽促使平均查準(zhǔn)率AP較高,同時(shí)因?yàn)檫x擇的標(biāo)簽較少導(dǎo)致平均標(biāo)全率AR較低。隨著k逐漸增大,被選擇的標(biāo)簽數(shù)量逐漸增多,標(biāo)簽的平均標(biāo)全率AR隨之提高,但其平均查準(zhǔn)率AP也隨之不斷下降。同時(shí),通過橫向比較能看出GSGL模型對語義的標(biāo)注效果要明顯高于GL模型和SGL模型,表明GSGL算法在處理農(nóng)業(yè)科教視頻語義標(biāo)注方面上要優(yōu)于SGL算法和GL算法,證明了GSGL算法在提高農(nóng)業(yè)科教視頻語義標(biāo)注的標(biāo)全率和查準(zhǔn)率上是有益的。權(quán)衡平均標(biāo)全率AP和平均查準(zhǔn)率AR的F綜合指標(biāo),在一定程度上可以體現(xiàn)鏡頭標(biāo)注峰值,在k=2時(shí)GSGL算法的F綜合指標(biāo)達(dá)到了0.64,達(dá)到了最優(yōu)的視頻鏡頭標(biāo)注效果。

      3 結(jié)語

      本文針對于農(nóng)業(yè)科教視頻多語義標(biāo)注問題,提出了一種基于GSGL算法的農(nóng)業(yè)視頻語義標(biāo)注模型。該模型在Lasso的基礎(chǔ)上增加了農(nóng)業(yè)視頻的組間稀疏約束和組內(nèi)稀疏約束,并保留了視頻集自身的結(jié)構(gòu)關(guān)聯(lián)性,能夠較好的將訓(xùn)練集的標(biāo)簽標(biāo)注到測試鏡頭上。實(shí)驗(yàn)結(jié)果表明,該方法的F綜合指標(biāo)峰值能夠達(dá)到0.64,且整體上比本文驗(yàn)證的其他算法優(yōu)秀。在F綜合指標(biāo)達(dá)到峰值的時(shí)候,語義標(biāo)注的平均標(biāo)全率和平均查準(zhǔn)率為0.64,相對于其他方法有了較大進(jìn)步,可以應(yīng)用于農(nóng)業(yè)科教視頻的標(biāo)注和信息檢索等領(lǐng)域,但是也能看到其提升空間依舊很大,需要在以后的工作中進(jìn)一步的探索來提出改進(jìn)的地方。

      參考文獻(xiàn)

      [1]王敏,王斌,沈鈞戈,等.教學(xué)視頻的文本語義鏡頭分割和標(biāo)注[J].數(shù)據(jù)采集與處理,2016,140(06):1171-1177.

      [2]Olshausen B A, Field D J. Emergence of simple-cell receptive field properties by learning a sparse code for natural images [J].Nature, 1996, 381(6583):607-609.

      [3]Boccignone G, Chianese A, Moscato V, et al. Foveated shot detection for video segmentation[J]. Circuits & Systems for Video Technology IEEE Transactions on, 2005, 15(3):365-377.

      [4]肖霄.圖像LBP特征提取的研究與應(yīng)用[D].吉林大學(xué),2011.

      [5]戴金波.基于視覺信息的圖像特征提取算法研究[D].吉林大學(xué),2013.

      [6]Belkin M, Niyogi P, Sindhwani V. Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples[M]. JMLR.org, 2006.

      [7]Yang Y, Zhuang Y T, Wu F, et al. Harmonizing Hierarchical Manifolds for Multimedia Document Semantics Understanding and Cross-Media Retrieval[J]. IEEE Transactions on Multimedia, 2008, 10(3):437-446.

      [8]王煜,周立柱,邢春曉.視頻語義模型及評價(jià)準(zhǔn)則[J].計(jì)算機(jī)學(xué)報(bào),2007,30(3):337-351.

      Abstract:In agriculture education video analysis research area, manually semantic annotation requires tremendous human power. In order to provide an efficient and effective solution for semantic agriculture education video indexing and fast retrieval, in this paper, we propose a new video semantic video annotation scheme using graph sparse group lasso. With inter-group and intra-frame sparse constraints between the testing video shot and the annotated video group, a set of sparse reconstruction coefficients are estimated by solving a lasso optimization problem. And then multiple-semantic tags are annotated with the same coefficient. The experiment results on agriculture education video show that our proposed algorithm can achieve F-Measure to 64%. This new agriculture education video annotation algorithm can provide semantic information for retrieval.

      Key words:semantic annotation;video analysis;sparse representation;graph representation;group lasso

      东丰县| 洪江市| 吉首市| 山丹县| 德昌县| 株洲县| 兴安县| 修文县| 久治县| 鄯善县| 昌吉市| 麦盖提县| 乳源| 定远县| 西城区| 新竹市| 宜宾县| 防城港市| 微山县| 依兰县| 明光市| 扎赉特旗| 巩留县| 神农架林区| 镇平县| 河曲县| 淳化县| 汝南县| 沽源县| 贵州省| 乌苏市| 巨鹿县| 色达县| 巴彦县| 通许县| 连山| 翁牛特旗| 大新县| 平远县| 昭苏县| 师宗县|