張建光 安達(dá) 陳慧
摘 要:多媒體分類已經(jīng)成為多媒體處理領(lǐng)域的重要研究內(nèi)容。傳統(tǒng)基于向量的分類算法需要將多媒體向量化。向量化的過程導(dǎo)致多媒體空間信息的丟失和高維向量數(shù)據(jù)的產(chǎn)生。為了解決向量化帶來問題,張量作為多媒體的自然表達(dá),成為多媒體分類問題的研究熱點。本文基于張量的Tucker分解,提出了支持張量回歸分類模型,用來直接進行張量多媒體數(shù)據(jù)的分類操作。通過在兩個2階灰度圖數(shù)據(jù)集構(gòu)造分類實驗,驗證了本文所提方法在多媒體分類上的有效性。
關(guān)鍵詞:多媒體分類;張量;Tucker分解
一、引言
目前,很多基于向量的多媒體分類方法被提出,比如:支持向量回歸(Support Vector Regression,SVR)分類模型[1]。但是這些方法存在兩個問題。(1)向量化會導(dǎo)致“維度災(zāi)難”問題[2]。(2)向量化會破壞多媒體數(shù)據(jù)的空間結(jié)構(gòu)[3],因此降低了分類準(zhǔn)確率。
為了解決多媒體向量化導(dǎo)致的問題,本文提出了一個基于Tucker分解的張量學(xué)習(xí)模型。該模型是對支持向量回歸的張量擴張,因此稱為支持Tucker回歸(Support Tucker Regression, STuR)。本文利用兩個模型進行張量多媒體的分類處理,用以分析兩個模型的有效性。
二、支持Tucker回歸算法
式(2)中有N+1個參數(shù)需要進行訓(xùn)練估計,式(2)對N+1個參數(shù)不是聯(lián)合凸函數(shù),但是當(dāng)固定其他參數(shù),式(2)對任意一個參數(shù)是凸函數(shù),因此可以采用交叉優(yōu)化的方法對式(2)進行優(yōu)化。
當(dāng)獲得G;U1,U2,…,UN以后,即可重構(gòu)參數(shù)張量。最終獲得核張量維度為R的張量參數(shù)W,即可進行分類處理。
三、實驗結(jié)果及分析
本節(jié)將對本文提出的支持Tucker回歸算法(STuR)進行評估。在兩個2階灰度圖像數(shù)據(jù)集上(binary alpha digits(BAd)①,USPS②),與SVR算法[1]和邏輯回歸(logistic regression,LR)算法[4]進行對比。每一幅灰度圖的大小被定義為12×12個像素。我們將灰度圖數(shù)據(jù)集隨機分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)兩部分。每一類隨機選取1一個圖像作為訓(xùn)練數(shù)據(jù),其他圖像作為測試數(shù)據(jù)。隨機測試5次,以5次的平均值作為最終結(jié)果。
實驗中使用所有類的平均準(zhǔn)確率(Average accuracy)來評估算法的效果.所有算法的參數(shù)調(diào)試范圍設(shè)置在{10-6,10-5,…,105,106}范圍內(nèi),然后選取最優(yōu)的結(jié)果作為最終結(jié)果。
(一)實驗結(jié)果比較
表1表示本文提出的算法STuR與對比算法在2個不同數(shù)據(jù)集上的對比結(jié)果。最優(yōu)的結(jié)果使用黑色字體標(biāo)出。從表1的平均準(zhǔn)確率比較結(jié)果中,我們能夠看到:與向量算法RR,SVR相比,STuR取得了更好的分類精度,原因在于張量的學(xué)習(xí)方法能避免向量化帶來的空間結(jié)構(gòu)的損失,充分利用圖像數(shù)據(jù)的張量空間信息。
(二)參數(shù)分析
圖1本文算法STuR在兩個數(shù)據(jù)集上的對參數(shù)λ的分析。(a)BAd,(b)USPS。
通過調(diào)整本文算法STuR的參數(shù)λ,兩個數(shù)據(jù)集的調(diào)參結(jié)果如圖1所示。我們在圖1中發(fā)現(xiàn):算法STuR取得最優(yōu)值時,參數(shù)λ的取值分別是:BAd:λ=0.01,USPS:λ=0.1。
四、結(jié)論
在本文中,我們提出了基于Tucker分解的支持張量回歸算法。通過和當(dāng)前流行的向量算法進行比較,表明本文提出的方法在平均準(zhǔn)確率上分類性能更好。(作者單位:衡水學(xué)院數(shù)學(xué)與計算機科學(xué)學(xué)院)
注解:
① http://algoval.essex.ac.uk/.
② http://www.cad.zju.edu.cn/home/dengcai/Data/MLData.html.
參考文獻:
[1] Cortes,C.Vapnik,V.Support vector machine.Machine learning,1995,20(3),273–297.
[2] Guo,W.Kotsia,I.Patras,I.Tensor learning for regression.IEEE Trans Image Process,2012,21(2):816–827.
[3] Zhang,Jianguang and Han,Yahong and Jiang,Jianmin,Tucker decomposition-based tensor learning for human action recognition.Multimedia Systems,DOI:10.1007/s00530-015-0464-7,2015
[4] Genkin,A.Lewis,D.Madigan,D.Large-scale bayesian logistic regression for text categorization.Technometrics,2007,49(3),291–304.