• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SIFT的說(shuō)話(huà)人唇動(dòng)識(shí)別

      2017-11-15 06:12:29馬新軍吳晨晨仲乾元李園園
      計(jì)算機(jī)應(yīng)用 2017年9期
      關(guān)鍵詞:唇部關(guān)鍵點(diǎn)人臉

      馬新軍,吳晨晨,仲乾元,李園園

      (哈爾濱工業(yè)大學(xué)(深圳) 機(jī)電工程與自動(dòng)化學(xué)院,廣東 深圳 518055)(*通信作者電子郵箱870715761@qq.com)

      基于SIFT的說(shuō)話(huà)人唇動(dòng)識(shí)別

      馬新軍,吳晨晨*,仲乾元,李園園

      (哈爾濱工業(yè)大學(xué)(深圳) 機(jī)電工程與自動(dòng)化學(xué)院,廣東 深圳 518055)(*通信作者電子郵箱870715761@qq.com)

      針對(duì)唇部特征提取維度過(guò)高以及對(duì)尺度空間敏感的問(wèn)題,提出了一種基于尺度不變特征變換(SIFT)算法作特征提取來(lái)進(jìn)行說(shuō)話(huà)人身份認(rèn)證的技術(shù)。首先,提出了一種簡(jiǎn)單的視頻幀圖片規(guī)整算法,將不同長(zhǎng)度的唇動(dòng)視頻規(guī)整到同一的長(zhǎng)度,提取出具有代表性的唇動(dòng)圖片;然后,提出一種在SIFT關(guān)鍵點(diǎn)的基礎(chǔ)上,進(jìn)行紋理和運(yùn)動(dòng)特征的提取算法,并經(jīng)過(guò)主成分分析(PCA)算法的整合,最終得到具有代表性的唇動(dòng)特征進(jìn)行認(rèn)證;最后,根據(jù)所得到的特征,提出了一種簡(jiǎn)單的分類(lèi)算法。實(shí)驗(yàn)結(jié)果顯示,和常見(jiàn)的局部二元模式(LBP)特征和方向梯度直方圖(HOG)特征相比較,該特征提取算法的錯(cuò)誤接受率(FAR)和錯(cuò)誤拒絕率(FRR)表現(xiàn)更佳。說(shuō)明整個(gè)說(shuō)話(huà)人唇動(dòng)特征識(shí)別算法是有效的,能夠得到較為理想的結(jié)果。

      唇部特征;尺度不變特征變換;特征提取;說(shuō)話(huà)人識(shí)別

      0 引言

      近年來(lái)越來(lái)越多的研究表明生物認(rèn)證技術(shù)比傳統(tǒng)的身份認(rèn)證具有更好的安全性與簡(jiǎn)便性。唇動(dòng)身份認(rèn)證原來(lái)作為語(yǔ)音認(rèn)證的輔助信息,現(xiàn)在已經(jīng)獨(dú)立出來(lái)成為一種新的認(rèn)證手段,唯一性和準(zhǔn)確性都得到了研究的證明[1-2]。唇動(dòng)身份認(rèn)證系統(tǒng)主要由四部分組成:在已建立的數(shù)據(jù)庫(kù)的基礎(chǔ)上,首先對(duì)獲取的圖像進(jìn)行人臉的定位,進(jìn)而作唇部定位;然后對(duì)得到的圖片進(jìn)行預(yù)處理;再進(jìn)行特征提?。蛔詈蟾鶕?jù)所得到的特征分類(lèi)得出結(jié)果,即完成整個(gè)說(shuō)話(huà)人唇動(dòng)識(shí)別研究。

      人臉檢測(cè)方面Yang等[3]提出了基于馬賽克圖進(jìn)行人臉檢測(cè)的方法。Kouzani等[4]利用人工神經(jīng)網(wǎng)絡(luò)分別對(duì)人臉的眼睛、鼻子和嘴等器官進(jìn)行檢測(cè)。Sirohey[5]通過(guò)使用人臉邊緣信息和橢圓擬合的方法,從復(fù)雜的背景中分割定位出人臉區(qū)域。Miao等[6]從輸入圖像中提取面部器官水平方向的馬賽克邊緣,將各段邊緣的“重心”與“重心”模板進(jìn)行匹配,再通過(guò)灰度和邊緣特征進(jìn)行驗(yàn)證以實(shí)現(xiàn)人臉的檢測(cè)。梁路宏等[7]給出了一種基于多關(guān)聯(lián)模板匹配的人臉檢測(cè)方法。自Viola和Jones首次將Adaboost算法用于人臉檢測(cè)以來(lái),由于其性能和速度優(yōu)勢(shì),成為一種主流的人臉檢測(cè)算法。由于其應(yīng)用的廣泛性和實(shí)用性,本文采用Adaboost算法作為人臉定位的算法。

      人臉的定位完成后,常見(jiàn)的唇部定位方法主要為對(duì)圖像灰度投影的峰值進(jìn)行分析,進(jìn)而通過(guò)顏色空間變換,對(duì)唇部區(qū)域進(jìn)行加強(qiáng),再經(jīng)過(guò)閾值的分割得到所需的唇部區(qū)域[8]。本文提出根據(jù)人臉各部分的大致比例關(guān)系給出一種唇部的粗定位算法,該算法計(jì)算簡(jiǎn)單,同時(shí)可以保證唇部邊緣的一些運(yùn)動(dòng)與紋理特征不會(huì)被忽略。

      圖片的預(yù)處理工作,是在前期對(duì)圖片進(jìn)行處理,減少噪聲、遮擋、光照不均等影響,使得特征提取能夠得到更加穩(wěn)定準(zhǔn)確的特征向量。本文在尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)算法[9-11]的基礎(chǔ)上,進(jìn)行算法的改進(jìn)與調(diào)整。由于算法本身已包含高斯去噪功能,并且實(shí)驗(yàn)的光照條件變化不大,因此對(duì)于圖像的預(yù)處理算法不作過(guò)多的討論。

      完成唇部定位與預(yù)處理之后,特征提取是關(guān)乎到整個(gè)認(rèn)證系統(tǒng)穩(wěn)定性與準(zhǔn)確率的重要部分。目前的唇部特征提取主要分為三類(lèi):1)唇部的紋理特征;2)唇部的幾何特征;3)唇部的運(yùn)動(dòng)特征。紋理特征方法主要有:經(jīng)典的PCA算法、推廣的核主成分分析算法(Kernel-based Principal Component Analysis, KPCA)、二維主元素分析算法,核心都是提取高維特征空間中的線(xiàn)性鑒別特征,即原始輸入空間中的非線(xiàn)性鑒別特征,但PCA存在著面對(duì)非線(xiàn)性特質(zhì)無(wú)能為力,以及可能會(huì)忽略重要的投影方向等缺點(diǎn)。Ahonen等[12]使用局部二元模式(Local Binary Pattern, LBP)來(lái)提取臉部圖像的紋理特征,對(duì)臉部區(qū)域進(jìn)行分塊計(jì)算各分塊LBP直方圖,并將它們連接起來(lái)作為表情識(shí)別的特征。LBP特征具有較好的光照魯棒性,但是作為一種靜態(tài)特征,無(wú)法具有代表性地來(lái)表征動(dòng)態(tài)的特征。幾何特征主要有唇部的長(zhǎng)寬高等人工提取的特征,對(duì)于唇部的輪廓Kass等[13]在第一屆國(guó)際視覺(jué)會(huì)議上提出了Snake模型。關(guān)于運(yùn)動(dòng)特征:光流法作為常用的運(yùn)動(dòng)圖像處理方法,利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀圖片間的相關(guān)性來(lái)找到上一幀圖片與當(dāng)前幀的對(duì)應(yīng)關(guān)系,從而得到物體的運(yùn)動(dòng)信息,但存在著運(yùn)算量大的問(wèn)題。Singh等[14]提出三正交平面窗口,唇動(dòng)的運(yùn)動(dòng)特征能夠在一個(gè)時(shí)空體積內(nèi)進(jìn)行表征。本文給出了一種在SFIT基礎(chǔ)上的特征提取算法,既有運(yùn)動(dòng)的表述,又有紋理的描述,同時(shí)對(duì)于旋轉(zhuǎn)變化具有一定的魯棒性。

      對(duì)所提取的特征進(jìn)行分類(lèi)的算法目前也有很多研究成果。高斯混合模型(Gaussian Mixture Model, GMM)[15]是唇動(dòng)識(shí)別和認(rèn)證領(lǐng)域的一種常用的分類(lèi)算法,算法簡(jiǎn)單,但在數(shù)據(jù)較多的情況下分類(lèi)結(jié)果不是很理想;Adaboost和PCA-LDA(Principal Component Analysis and Linear Discriminant Analysis),支持向量機(jī)(Support Vector Manhine, SVM)算法在唇動(dòng)認(rèn)證中也是較為常用的分類(lèi)算法;Yang等[16]提出了自調(diào)節(jié)分類(lèi)面支持向量機(jī)(Self-adjusting Classification-plane SVM, SCSVM)方法,通過(guò)學(xué)習(xí)過(guò)完備的稀疏特征,可以在高維特征空間提高特征的線(xiàn)性可分性,大大降低了訓(xùn)練分類(lèi)器的時(shí)間和空間消耗?;谏疃葘W(xué)習(xí)的特征提取和分類(lèi)算法是目前最為先進(jìn)的算法,主流的深度學(xué)習(xí)模型包括自動(dòng)編碼器、受限波爾茲曼機(jī)、深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。Krizhevsky等[17]通過(guò)這種方式,成功將其應(yīng)用于手寫(xiě)數(shù)字識(shí)別、語(yǔ)音識(shí)別、基于內(nèi)容檢索等領(lǐng)域。本文在之前所得到的唇動(dòng)特征基礎(chǔ)上,提出一種簡(jiǎn)單的分類(lèi)算法,既滿(mǎn)足了分類(lèi)的精確性,同時(shí)計(jì)算量小,實(shí)時(shí)性較好,在數(shù)據(jù)庫(kù)較大時(shí)也可以和神經(jīng)網(wǎng)絡(luò)的分類(lèi)算法相結(jié)合。

      1 幀圖片提取

      在唇動(dòng)視頻中,錄像的幀率一般為30 frame/s,如果直接將視頻產(chǎn)生的所有幀圖片都作為下一步特征提取的數(shù)據(jù)庫(kù),不僅會(huì)有大量的噪聲干擾在其中,還會(huì)有大量的數(shù)據(jù)冗余,從而會(huì)加大系統(tǒng)的計(jì)算量并影響其魯棒性與運(yùn)算的實(shí)時(shí)性,最終降低系統(tǒng)認(rèn)證的準(zhǔn)確率與效率。文獻(xiàn)[18]分析了動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic Time Warping, DTW),本文給出了一種基于時(shí)間序列的動(dòng)態(tài)圖片提取算法,在相鄰的時(shí)間段里找到幀間灰度變化最大的圖片作為代表性圖片。該算法不僅可以減少計(jì)算量,同時(shí)可以增強(qiáng)整個(gè)系統(tǒng)對(duì)于說(shuō)話(huà)人語(yǔ)速變化的魯棒性。具體實(shí)行過(guò)程如下。

      1)令唇動(dòng)視頻所產(chǎn)生的幀圖片的數(shù)量為X。

      2)如果X的數(shù)量小于20,說(shuō)明說(shuō)話(huà)者說(shuō)話(huà)的時(shí)間小于1 s,作為認(rèn)證而言,說(shuō)話(huà)長(zhǎng)度明顯過(guò)短,提示唇動(dòng)視頻所提供的幀圖片數(shù)量過(guò)少,無(wú)法進(jìn)行認(rèn)證。

      3)如果 20≤X≤60,選取第3張圖片作為所提取的第1張幀圖片,選取倒數(shù)第3張圖片作為第12張幀圖片。A=?(X-10)/10」和B=「(X-10)/10?將依次作為選取圖片的數(shù)量間隔,每一幅幀圖片的大小為M*N,在每個(gè)間隔中,用式(1)選取所要的幀圖片:

      (1)

      其中:It(i,j)表示第t幀圖片I在點(diǎn)(i,j)處的灰度值;Pic表示在間隔內(nèi),和相鄰幀圖片比較,灰度值變化最大的圖片。

      4)如果 60

      5)如果480

      通過(guò)上述的算法,可以從唇動(dòng)視頻所產(chǎn)生的大量幀圖片中提取12張代表圖片。

      在被測(cè)試者的兩段視頻幀圖片中用上述算法提取的代表圖片如下,第一遍段視頻用正常語(yǔ)速說(shuō)“你好”,第二遍張大嘴巴放慢語(yǔ)速?gòu)?fù)述。

      從圖1中可以看出在語(yǔ)速和不同口型的情況下,所提取的12張圖片其對(duì)應(yīng)的序列及口型都有很強(qiáng)的相似性與代表性。該算法對(duì)于說(shuō)話(huà)者語(yǔ)速的變化和口型大小的改變都有很強(qiáng)的魯棒性,并能夠?yàn)楹竺嫣卣鞯奶崛〈蛳铝己玫幕A(chǔ)。

      圖1 視頻代表圖片

      2 基于SIFT算法的特征提取和匹配模型

      SIFT算法第一次由Lowe[19]提出,是一種廣泛應(yīng)用于圖像處理的算法,具有良好的尺度不變性和對(duì)旋轉(zhuǎn)的抵抗性。Bakshi等[20]曾將SIFT算法用在唇印的認(rèn)證與對(duì)比中,并取得了很好的效果。

      SIFT算法所提出的關(guān)鍵點(diǎn)的描述方式,作為一種局部特征,對(duì)于光照、旋轉(zhuǎn)、噪聲與尺度的變化都不敏感,因此在這基礎(chǔ)上進(jìn)行物體的認(rèn)證和識(shí)別,都具有很強(qiáng)的抗干擾性和針對(duì)性。這種局部特征檢測(cè)算法概括地講,就是通過(guò)在不同的尺度空間中得到關(guān)鍵點(diǎn)描述子,再對(duì)關(guān)鍵點(diǎn)進(jìn)行匹配的方法,SIFT算法的流程如圖2所示。

      圖2 SIFT算法流程

      2.1 基于SIFT的目標(biāo)匹配與認(rèn)證

      從圖3、4中可以看出,經(jīng)過(guò)參數(shù)的調(diào)整后,SIFT算法所提取的關(guān)鍵點(diǎn)個(gè)數(shù)明顯變多,但是在唇部輪廓變化較大的情況下,誤匹配點(diǎn)的個(gè)數(shù)也有所增加。因此在后面的特征提取中增加了消除重復(fù)關(guān)鍵點(diǎn)和PCA降維的步驟。圖5展現(xiàn)的是不同人不同尺寸的圖片的SIFT匹配結(jié)果,可以看到兩幅圖片的匹配點(diǎn)數(shù)明顯減少且明顯存在匹配錯(cuò)誤點(diǎn)。

      圖3 測(cè)試者未經(jīng)參數(shù)調(diào)整的SIFT匹配示例圖

      圖4 測(cè)試者經(jīng)參數(shù)調(diào)整后的SIFT匹配示例圖

      圖5 經(jīng)參數(shù)調(diào)整后的不同人唇部圖片SIFT匹配示例圖

      綜合實(shí)驗(yàn)結(jié)果可以看出不同的人的唇部無(wú)論出于何種口型,能夠匹配的關(guān)鍵點(diǎn)個(gè)數(shù)遠(yuǎn)少于同一個(gè)人的唇部所能匹配的關(guān)鍵點(diǎn)的個(gè)數(shù)。因此,將采用測(cè)試樣本與數(shù)據(jù)庫(kù)樣本的關(guān)鍵點(diǎn)匹配個(gè)數(shù)的比值作為判斷是否為同一個(gè)人的有效依據(jù)。

      如圖6所示,用已提到過(guò)的幀圖片提取算法將數(shù)據(jù)庫(kù)中所存放的同一個(gè)人所說(shuō)同一句話(huà)(比如說(shuō)了3遍)的12幅幀圖片一一進(jìn)行SIFT匹配,共可以匹配3次,將匹配點(diǎn)的個(gè)數(shù)求平均值得到A1,A2,…,A12,將其存儲(chǔ)起來(lái)。然后將測(cè)試樣本與數(shù)據(jù)庫(kù)中的任意樣本進(jìn)行SIFT匹配,得到匹配點(diǎn)的個(gè)數(shù)B1,B2,…,B12。設(shè)置閾值θ=0.4,i=1, 2,…,12。如果Bi/Ai<θ,則計(jì)數(shù)標(biāo)志flag+1,為了防止系統(tǒng)的誤判斷并降低噪聲圖片帶來(lái)的干擾,設(shè)置當(dāng)flag的值大于2時(shí),判定為不是用戶(hù)本人。通過(guò)調(diào)節(jié)閾值θ的大小,可以調(diào)整錯(cuò)誤拒絕率和錯(cuò)誤接受率的大小。θ值越大錯(cuò)誤接受率越小但錯(cuò)誤拒絕率越大,θ值越小錯(cuò)誤接受率越大但錯(cuò)誤拒絕率越小。

      圖6 目標(biāo)匹配原理

      2.2 基于SIFT的新的特征提取算法

      如圖7所示,首先對(duì)數(shù)據(jù)庫(kù)中的樣本(即12幅幀圖片)相鄰的圖片進(jìn)行SIFT匹配,得到匹配的關(guān)鍵點(diǎn)。提出的特征提取算法就是在這些關(guān)鍵點(diǎn)的基礎(chǔ)上得到的。

      圖7 相鄰序列間匹配關(guān)鍵點(diǎn)

      具體的特征提取算法如下。

      1)對(duì)于任意兩幀圖片之間匹配得到的關(guān)鍵點(diǎn)P1,P2:

      用式(2)來(lái)計(jì)算關(guān)鍵點(diǎn)P1,P2的運(yùn)動(dòng)矢量幅值:

      (2)

      其中:(ip1,jp1)為關(guān)鍵點(diǎn)P1的坐標(biāo)位置;(ip2,jp2)為關(guān)鍵點(diǎn)P2的位置坐標(biāo)。

      用式(3)來(lái)計(jì)算關(guān)鍵點(diǎn)P1,P2的運(yùn)動(dòng)矢量的方向:

      f2=tan-1[(jp1-jp2)/(ip1-ip2)]

      (3)

      對(duì)于每一對(duì)匹配的關(guān)鍵點(diǎn),通過(guò)這種方式可以得到二維的特征向量F=(f1,f2)。

      2)對(duì)于圖像中每一個(gè)關(guān)鍵點(diǎn),選取4×4的窗口,如圖8所示。圖8中每一個(gè)小方格代表著一個(gè)像素點(diǎn),圓點(diǎn)代表所得到的關(guān)鍵點(diǎn)的位置,其周?chē)?×4的像素點(diǎn)的運(yùn)動(dòng)特征矢量方向由箭頭所表示,該矢量幅值的大小表示其矢量的大小。最后將計(jì)算所得到16個(gè)矢量歸類(lèi)統(tǒng)計(jì)到8個(gè)主要的方向上去,作為最后得到的8維特征向量。具體的計(jì)算方法由式(4)和(5)給出:

      梯度幅值:

      m(x,y)=

      (4)

      其中L(x,y)表示在點(diǎn)(x,y)處的灰度值。

      梯度方向:

      (5)

      通過(guò)上述的算法,可以得到8維的特征向量R。

      圖8 關(guān)鍵點(diǎn)周?chē)\(yùn)動(dòng)矢量特征圖

      3) 對(duì)于圖像中每對(duì)匹配的關(guān)鍵點(diǎn),選取4×4的窗口,對(duì)4×4窗口中對(duì)應(yīng)位置的灰度值做差取絕對(duì)值,然后將這16個(gè)值求和,如圖9所示。

      即:

      (6)

      其中I1和I2分別代表相鄰的兩幅幀圖片中對(duì)應(yīng)點(diǎn)的灰度值。

      圖9 對(duì)應(yīng)位置的灰度差絕對(duì)值

      4)綜上所述,對(duì)于每一個(gè)匹配的關(guān)鍵點(diǎn),可以得到一個(gè)11維的特征向量T={F,R,G}。這11維向量中包含了唇部的運(yùn)動(dòng)信息F,唇部周?chē)募y理信息R,以及灰度的變化信息G。假設(shè)最終得到的匹配點(diǎn)個(gè)數(shù)為n,對(duì)最終得到的特征矩陣M采用PCA降維到11維,得到11維特征向量Z。Z特征比LBP等常見(jiàn)的紋理信息具有更強(qiáng)的針對(duì)性和規(guī)律性,比Snake算法所提取的輪廓特征具有更少的模型依賴(lài)性和更強(qiáng)的魯棒性。

      圖10所展示的是兩名測(cè)試者說(shuō)同一段話(huà)所提取的特征矢量的曲線(xiàn)圖?;叶茸兓塾?jì)值的值較大,為了能看出其變化趨勢(shì),在曲線(xiàn)圖中只畫(huà)出特征F和特征R。

      從圖10中可以看出,本文所提出的這種特征提取方法能夠很好地表征說(shuō)話(huà)人的說(shuō)話(huà)特征,具有很強(qiáng)個(gè)人特征以及區(qū)別性,可以很容易地進(jìn)行分類(lèi)。

      2.3 基于所提取特征的分類(lèi)算法

      以往的分類(lèi)方法,由于得到的圖像特征并不明顯,因此常用SVM、神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型等算法對(duì)其進(jìn)行分類(lèi),這些算法需要較大的數(shù)據(jù)庫(kù)來(lái)訓(xùn)練,同時(shí)運(yùn)算量大,計(jì)算起來(lái)十分復(fù)雜。根據(jù)前面所得到的特征,本文通過(guò)簡(jiǎn)單的比較方法進(jìn)行二分類(lèi),也能得到很好的實(shí)驗(yàn)效果。具體的實(shí)現(xiàn)方法如下:

      1)通過(guò)式(7)得到數(shù)據(jù)庫(kù)中唇動(dòng)視頻中所提取的唇動(dòng)特征的平均值:

      (7)

      2)再用相同的方法將測(cè)試樣本的唇動(dòng)特征Z提取出來(lái);

      3)設(shè)置閾值θ1,θ2,其中θ2=1/θ1。θ1的值越大越大錯(cuò)誤接受率越小但錯(cuò)誤拒絕率越大。本文中θ1取0.7,θ2取1.42。

      令t=z/zmean如果t<θ1或者t>θ2,則令計(jì)數(shù)標(biāo)志flag+1,為了防止誤判斷,flag的值大于2時(shí),則判斷該用戶(hù)所說(shuō)的不是這段話(huà)。

      圖10 不同測(cè)試者說(shuō)同一段話(huà)的特征值曲線(xiàn)

      2.4 說(shuō)話(huà)者唇部特征識(shí)別流程

      進(jìn)行說(shuō)話(huà)者唇部特征識(shí)別的流程如圖11所示。首先對(duì)數(shù)據(jù)庫(kù)樣本進(jìn)行人臉定位與唇部定位,然后進(jìn)行幀圖片的選取,對(duì)選取的幀圖片進(jìn)行SIFT匹配,在此基礎(chǔ)上,提取特征并記錄匹配結(jié)果。對(duì)測(cè)試樣本采用同樣的步驟,最終根據(jù)本文提出的驗(yàn)證與分類(lèi)方法,將輸出結(jié)果與數(shù)據(jù)庫(kù)中的結(jié)果比較,得出判定結(jié)果。

      圖11 說(shuō)話(huà)者唇動(dòng)識(shí)別示意圖

      3 說(shuō)話(huà)者唇部特征識(shí)別實(shí)驗(yàn)結(jié)果

      3.1 數(shù)據(jù)庫(kù)的搭建

      1) 視頻數(shù)據(jù)庫(kù)的基本參數(shù)如下:視頻格式為AVI;顏色空間為YUY2;輸出大小為640×480;視頻輸出幀率為30 frame/s。

      2) 視頻數(shù)據(jù)庫(kù)的搭建如下。

      采樣人數(shù):50人; 采樣環(huán)境:正常的日光燈照明,人臉位置相對(duì)固定,無(wú)遮掩,無(wú)大角度旋轉(zhuǎn),無(wú)模糊、胡須,光照角度變化等復(fù)雜條件設(shè)置;采樣過(guò)程:接受采樣的樣本,分別以正常語(yǔ)速重復(fù)短句“你好”,以及數(shù)字1~9等不同的長(zhǎng)短句各4遍,再分別以較慢語(yǔ)速?gòu)埓罂谛偷那闆r重復(fù)各4遍。

      3.2 實(shí)驗(yàn)結(jié)果

      表1展示了本實(shí)驗(yàn)在不同唇動(dòng)視頻中獲得的Z特征的錯(cuò)誤接受率(False Acceptance Rate, FAR)和錯(cuò)誤拒絕率(False Rejection Rate, FRR),以及在相同條件下LBP和HOG特征的FAR和FRR值。圖12展示本文算法在不同的θ和θ1值時(shí),F(xiàn)AR和FRR值的變化情況。

      表1 三種特征得到的FAR和FRR

      4 結(jié)語(yǔ)

      本文介紹了一種針對(duì)動(dòng)態(tài)視頻所產(chǎn)生的幀圖片的提取算法。這種算法可以增強(qiáng)對(duì)于語(yǔ)速變化、口型大小變化以及照明變化的魯棒性。SIFT算法被引進(jìn)到了說(shuō)話(huà)者唇動(dòng)識(shí)別中,在參數(shù)調(diào)整后有很好的表現(xiàn)。在SIFT算法的基礎(chǔ)上提出了一種新的唇動(dòng)特征提取方法,這種方法既包含紋理特征又包含運(yùn)動(dòng)特征,可以準(zhǔn)確地描述說(shuō)話(huà)人唇動(dòng)的一系列特征。最后,在匹配點(diǎn)與所提取的特征的基礎(chǔ)上,分別提出了一種驗(yàn)證與分類(lèi)的算法,方法簡(jiǎn)單,計(jì)算量小,與常用的LBP和HOG特征相比較可以得到更為準(zhǔn)確和有效的結(jié)果,實(shí)現(xiàn)說(shuō)話(huà)人的唇部特征識(shí)別。在后面的實(shí)驗(yàn)中可以添加圖像預(yù)處理的算法,將多種特征提取方法相結(jié)合以及引入神經(jīng)網(wǎng)絡(luò)來(lái)增強(qiáng)系統(tǒng)的穩(wěn)定性和適應(yīng)性。

      圖12 本文算法不同θ和θ1值時(shí)的FAR和FRR曲線(xiàn)

      References)

      [1] KANAK A, ERZIN E, YEMEZ Y, et al. Joint audio-video processing for biometric speaker identification [C]// Proceedings of the 2003 IEEE International Conference on Multimedia and Expo. Washington, DC: IEEE Computer Society, 2003, 3: 561-564.

      [2] CETINGUL H E, YEMEZ Y, ERZIN E, et al. Discriminative analysis of lip motion features for speaker identification and speech-reading [J]. IEEE Transactions on Image Processing, 2006, 15(10): 2879-2891.

      [3] YANG G, HUANG T S. Human face detection in complex background [J]. Pattern Recognition, 1994, 27(1): 53-63.

      [4] KOUZANI A Z, HE F, SAMMUT K. Commonsense knowledge-based face detection [C]// Proceedings of the 1997 IEEE International Conference on Intelligent Engineering Systems. Piscataway, NJ: IEEE, 2002: 215-220.

      [5] SIROHEY S A. Human face segmentation and identification [EB/OL]. [2017- 01- 09]. https://www.researchgate.net/publication/2698964_Human_Face_Segmentation_and_Identification.

      [6] MIAO J, YIN B, WANG K, et al. A hierachical multiscale and multiangle system for human face detection in a complex background using gravity-center template [J]. Pattern Recognition, 1999, 32(10): 1237-1248.

      [7] 梁路宏,艾海舟,何克忠,等.基于多關(guān)聯(lián)模板匹配的人臉檢測(cè)[J].軟件學(xué)報(bào),2001,12(1):94-102.(LIANG L H, AI H Z, HE K Z, et al. Face detection based on multi-association template matching [J]. Journal of Software, 2001, 12(1): 94-102.)

      [8] GRITZMAN A D, RUBIN D M, PANTANOWITZ A, et al. Comparison of colour transforms used in lip segmentation algorithms [J]. Signal, Image and Video Processing, 2015, 9(4): 947-957.

      [9] NEERU N, KAUR L. Modified SIFT descriptors for face recognition under different emotions [EB/OL]. [2016- 12- 09]. https://www.researchgate.net/publication/294279428_Modified_SIFT_Descriptors_for_Face_Recognition_under_Different_Emotions.

      [10] KIRCHNER M R. Automatic thresholding of SIFT descriptors [C]// Proceedings of the 2016 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2016: 291-295.

      [11] 許佳佳,張葉,張赫.基于改進(jìn)Harris-SIFT算子的快速圖像配準(zhǔn)算法[J].電子測(cè)量與儀器學(xué)報(bào),2015,29(1):48-54.(XU J J, ZHANG Y, ZHANG H. Fast image registration algorithm based on improved Harris-SIFT descriptor [J]. Journal of Electronic Measurement and Instrumentation, 2015, 29(1): 48-54.

      [12] AHONEN T, HADID A, PIETIKAINEN M. Face recognition with local binary patterns [C]// European Conference on Computer Vision, LNCS 3021. Berlin: Springer, 2004: 469-481.

      [13] KASS M, WITKIN A, TERZOPOULOS D. Snakes: active contour model [EB/OL]. [2016- 12- 06]. http://webdocs.cs.ualberta.ca/~nray1/CMPUT617/Snake/kass_snake.pdf.

      [14] SINGH P, LAXMI V, GAUR M S. Speaker identification using optimal lip biometrics [C]// Proceedings of the 2012 5th IAPR International Conference on Biometrics. Piscataway, NJ: IEEE, 2012: 472-477.

      [15] SAEED U. Person identification using behavioral features from lip motion [C]// IEEE International Conference on Automatic Face & Gesture Recognition & Workshops. Piscataway, NJ: IEEE, 2011: 155-160.

      [16] YANG J, YU K, GONG Y, et al. Linear spatial pyramid matching using sparse coding for image classification [C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1794-1801.

      [17] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [EB/OL]. [2016- 11- 27]. http://www.cs.toronto.edu/~hinton/absps/imagenet.pdf?WT.mc_id=Blog_MachLearn_General_DI.

      [18] 楊潔,康寧.動(dòng)態(tài)時(shí)間規(guī)整DTW算法的研究[J].科技與創(chuàng)新,2016(4):11-12.(YANG J, KANG N. Research on dynamic time regular DTW algorithm [J]. Science and Technology & Innovation, 2016(4): 11-12.)

      [19] LOWE D G. Distinctive image features from scale-invarient keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

      [20] BAKSHI S, RAMAN R, SA P K. Lip pattern recognition based on local feature extraction [C]// Proceedings of the 2011 Annual IEEE India Conference. Piscataway, NJ: IEEE, 2012: 1-4.

      LipmotionrecognitionofspeakerbasedonSIFT

      MA Xinjun, WU Chenchen*, ZHONG Qianyuan, LI Yuanyuan

      (CollegeofMechanicalEngineeringandAutomation,HarbinInstituteofTechnology(Shenzhen),ShenzhenGuangdong518055,China)

      Aiming at the problem that the lip feature dimension is too high and sensitive to the scale space, a technique based on the Scale-Invariant Feature Transform (SIFT) algorithm was proposed to carry out the speaker authentication. Firstly, a simple video frame image neat algorithm was proposed to adjust the length of the lip video to the same length, and the representative lip motion pictures were extracted. Then, a new algorithm based on key points of SIFT was proposed to extract the texture and motion features. After the integration of Principal Component Analysis (PCA) algorithm, the typical lip motion features were obtained for authentication. Finally, a simple classification algorithm was presented according to the obtained features. The experimental results show that compared to the common Local Binary Pattern (LBP) feature and the Histogram of Oriental Gradient (HOG) feature, the False Acceptance Rate (FAR) and False Rejection Rate (FRR) of the proposed feature extraction algorithm are better, which proves that the whole speaker lip motion recognition algorithm is effective and can get the ideal results.

      lip feature; Scale-Invariant Feature Transform (SIFT); feature extraction; speaker authentication

      2017- 03- 09;

      2017- 05- 24。

      國(guó)家自然科學(xué)基金資助項(xiàng)目(51677035);深圳市基礎(chǔ)研究項(xiàng)目(JCYJ20150513151706580);深圳市科技計(jì)劃項(xiàng)目(GRCK2016082611021550)。

      馬新軍(1972—),男,新疆石河子人,副教授,博士,主要研究方向:圖像處理及模式識(shí)別、智能汽車(chē)及智能駕駛、生物識(shí)別; 吳晨晨(1993—),女,河南濮陽(yáng)人,碩士研究生,主要研究方向:模式識(shí)別; 仲乾元(1990—),男,江蘇徐州人,碩士研究生,主要研究方向:模式識(shí)別; 李園園(1993—),女,河南許昌人,碩士研究生,主要研究方向:模式識(shí)別。

      1001- 9081(2017)09- 2694- 06

      10.11772/j.issn.1001- 9081.2017.09.2694

      TP391.41

      A

      This work is partially supported by the National Natural Science Foundation of China (51677035), the Fundamental Research Project of Shenzhen (JCYJ20150513151706580), the Science and Technology Plan Project of Shenzhen (GRCK2016082611021550).

      MAXinjun, born in 1972, Ph. D., associate professor. His research interests include image processing and pattern recognition, intelligent vehicle and intelligent driving, biological identification.

      WUChenchen, born in 1993, M. S. candidate. Her research interests include pattern recognition.

      ZHONGQianyuan, born in 1990, M. S. candidate. His research interests include pattern recognition.

      LIYuanyuan, born in 1993, M. S. candidate. Her research interests include pattern recognition.

      猜你喜歡
      唇部關(guān)鍵點(diǎn)人臉
      聚焦金屬關(guān)鍵點(diǎn)
      肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
      有特點(diǎn)的人臉
      唇部美人計(jì)
      三國(guó)漫——人臉解鎖
      嬰幼兒唇部血管瘤的臨床分型和治療探討
      馬面部與人臉相似度驚人
      醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
      長(zhǎng)得象人臉的十種動(dòng)物
      奇聞怪事(2014年5期)2014-05-13 21:43:01
      鎖定兩個(gè)關(guān)鍵點(diǎn)——我這樣教《送考》
      盘锦市| 商河县| 平定县| 蒙自县| 鄂托克旗| 达孜县| 海林市| 五莲县| 尼木县| 马边| 兰坪| 泗洪县| 德清县| 田阳县| 新竹市| 马公市| 阳泉市| 固原市| 娱乐| 南投市| 高碑店市| 菏泽市| 望奎县| 宝清县| 武平县| 呼伦贝尔市| 信阳市| 长沙县| 郑州市| 郎溪县| 凉山| 永靖县| 上林县| 乳山市| 临沧市| 江永县| 垦利县| 西城区| 鲁甸县| 屏南县| 洛隆县|