顧穎 許琪 毛貝思 林巧民
摘要:手語是聽障人士與外界溝通交流的橋梁,如何幫助聽障人士帶有情感地與健聽人正常交流,是當(dāng)下社會需要解決的問題。輔助聽障人士的一種手語轉(zhuǎn)情感語音的交流工具,涉及手語識別、表情情感計(jì)算、語音情感合成等技術(shù)領(lǐng)域,基于機(jī)器視覺、動態(tài)貝葉斯網(wǎng)絡(luò)、共振峰合成法等知識,能夠?qū)崿F(xiàn)手語同傳、雙向交互、情感表達(dá)等目的。文章研究能夠應(yīng)用在手機(jī)上的軟件,方便用戶隨身攜帶,實(shí)現(xiàn)由手語轉(zhuǎn)換成情感語音,改善聽障人士與正常人直接的溝通交流方式。
關(guān)鍵詞:情感計(jì)算;機(jī)器視覺;表情情感識別;語音情感合成;聽障人士
中圖分類號:TP391? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)15-0072-03
1 引言
隨著現(xiàn)代人機(jī)交互系統(tǒng)的迅速發(fā)展,關(guān)于“情感計(jì)算”的研究也日益引起了人們的興趣關(guān)注[1],并且已經(jīng)在面部表情、姿勢改變、語言理解等方面取得了相當(dāng)?shù)倪M(jìn)步[2]。聽障人士作為社會特殊群體在語言表達(dá)方面存在缺憾,不能夠準(zhǔn)確地表達(dá)出其及時(shí)的想法和情感,而現(xiàn)在市面上的手語翻譯僅僅以中性的語調(diào),將手語翻譯成語言,不能夠充分地表達(dá)出聽障人士的情緒變化。
項(xiàng)目旨在研究輔助聽障人士的一種手語轉(zhuǎn)情感語音交流工具的設(shè)計(jì),將該模型集成在手機(jī)App上,方便用戶隨身攜帶。利用機(jī)器視覺、表情情感計(jì)算、語音情感合成等技術(shù),幫助其更加快捷、高效地與正常人搭建友好的溝通平臺。
2 手語識別技術(shù)
手語識別技術(shù)是把聽障人士的手語通過電腦裝置辨識,并翻譯成漢語,它涉及圖像識別、語言分析等多個(gè)領(lǐng)域。在視頻中,聽障人士揮手的速度、頻率和幅度、手形的變化和其他相關(guān)信息,這些信息的處理和識別對計(jì)算機(jī)硬件設(shè)備有著嚴(yán)苛的要求。因此電腦視覺[3]也是手語識別技術(shù)中相當(dāng)主要而且重要的技術(shù)手段之一。伴隨近些年來人工智能和計(jì)算機(jī)科學(xué)的蓬勃興起,其也隨之蒸蒸日上。而與此同時(shí),手語識別技術(shù)也獲得了來自國外更多的重視。手語圖像識別技術(shù),按照其對識別聽障人士手語的特點(diǎn)處理,可以分成兩種:其一是基于傳統(tǒng)方法的手語識別技術(shù);其二是基于深度學(xué)習(xí)的手語識別技術(shù)[4]。這里采用第一種方法。
1)相機(jī)標(biāo)定:空間中的對象由攝像設(shè)備所拍攝的圖片還原而成。假設(shè)線性關(guān)系存在于三維空間中的實(shí)體對象與圖像之間,存在著:[像]=M[物],矩陣M也可認(rèn)為是攝像機(jī)成像的幾何模式,M中的基本參數(shù)也就是攝像機(jī)基本參數(shù)[5]。它利用攝像機(jī)標(biāo)定原理,大大提高了計(jì)算機(jī)視覺的魯棒性。
2)手勢圖像分割:在處理圖像的過程中,要將目標(biāo)圖像分割開來,提取其中有價(jià)值的那一部分,提供給系統(tǒng),進(jìn)行后面的操作。
3)特征提?。涸谶@個(gè)階段,數(shù)據(jù)量通常很小,利用合適的算法對圖片進(jìn)行二值化處理,從而得到一個(gè)僅突出手語信息的單一圖片。
4)手勢估計(jì):采用水平集算法及其改進(jìn)的分割圖像,以合適的模型提取和跟蹤手部輪廓,采用mean-shift算法跟蹤輪廓內(nèi)外的圖像特征分布。
5)手勢行為識別:在現(xiàn)有的手語數(shù)據(jù)庫中,運(yùn)用適合的分類器對聽障人士的手勢進(jìn)行識別,以提高識別程度[6]。
3 動態(tài)表情計(jì)算技術(shù)
世界名著《人與動物情感的表達(dá)》中有述,人類臉部表情可以使人形成不同于其他哺乳動物的更高等生物,也成為人們之間可以更有情感地交流溝通的最主要介質(zhì)[7],在情感計(jì)算中,表情識別是一個(gè)人機(jī)交互研究中重要的方法,是情感計(jì)算研究中的基礎(chǔ)。于是,大批研究者都投入到面部表情情感認(rèn)知研究的隊(duì)伍當(dāng)中。當(dāng)對人們的情感加以研究時(shí),表情始終是人類情感識別中最主要的特點(diǎn)之一。
簡單的動作表情情感辨識過程,通常包括三部分:數(shù)據(jù)預(yù)處理、情感特征提取、動作表情信息辨識。
1)表情數(shù)據(jù)預(yù)處理、情感提取及情感分類器
對表情數(shù)據(jù)的預(yù)處理是進(jìn)行情感識別的首要步驟,由于圖像中有太多不相關(guān)的背景或物體噪聲,這種干擾條件會直接影響情感識別的有效性。當(dāng)提供情感特征時(shí),并不能提供有用的情感信息,可能會產(chǎn)生負(fù)面影響。如果只想獲得人臉表情的特點(diǎn)或掩蓋背景信息,那么需要檢查每一幀圖片中的人臉信息,并在這些人臉信息中獲得特點(diǎn)。結(jié)合人臉對齊操作、高斯模糊、圖像紋理合成與高維隱空間向特征編碼等技術(shù)操作,對所采集的表情數(shù)據(jù),進(jìn)行去噪、去除敏感信號等工作處理[8],去掉多余的信息從而關(guān)注于最關(guān)鍵的特征。
特征提取的目的是獲得能夠表示圖像特征的屬性信息。人臉對表情有關(guān)的特征主要來源于人的五官肌肉變化。例如當(dāng)一個(gè)人處于比較開心的時(shí)候,就會產(chǎn)生眉宇舒展、臥蠶突顯、嘴角上揚(yáng)等一系列的動作;當(dāng)一個(gè)人憤怒的時(shí)候,會產(chǎn)生眼睛瞪大、眉毛有豎紋等一系列特征。
目前常見的表情特征提取方式主要有三類:基于圖像幾何特性的方法、基于整體統(tǒng)計(jì)特性的方法以及基于頻域特性的方式方法[9]。這里,選取了基于圖像或幾何特性的方式:通過定位并檢測人眼、眉毛、嘴巴等器官,比較它們的大小、距離、形狀等表情元素特征,從而識別人臉表情。
人臉表情分類器的主要功用,是通過人臉特征把圖片分類到相應(yīng)的表情分類中去,利用適當(dāng)?shù)姆诸愃惴ㄗR別表情,對其歸類。動態(tài)建模依賴于整體像素序列,人們能夠利用研究臉部肌肉的時(shí)間變化動態(tài),并運(yùn)用動態(tài)貝葉斯網(wǎng)絡(luò)。
2)貝葉斯網(wǎng)絡(luò)及結(jié)構(gòu)
每個(gè)人表情情緒的表現(xiàn),都是由一段時(shí)間內(nèi)面部肌肉運(yùn)動改變所形成的,也因?yàn)檫@種不同的變化運(yùn)動會形成不同的表情。所以,在動態(tài)表情計(jì)算中,對面部肌肉之間的運(yùn)動變化關(guān)系識別是很重要的。
貝葉斯網(wǎng)絡(luò)也就是貝葉斯公式為基本的,貝葉斯公式還包括:
[P(A|B)=P(B|A)P(A)P(B)]
為了識別N種人的表情,在這里創(chuàng)建了N個(gè)區(qū)間的代數(shù)貝葉斯網(wǎng)絡(luò),使每一種情緒表情對應(yīng)一種貝葉斯網(wǎng)絡(luò),在這里,每一種實(shí)體節(jié)點(diǎn)都代表著一種最基本的情緒運(yùn)動。關(guān)于一個(gè)采樣x,[My]就是指情緒表情y的貝葉斯網(wǎng)絡(luò)模型,這樣情緒表情可以由以下公式來運(yùn)算得到[10]。因?yàn)椴煌呢惾~斯網(wǎng)絡(luò)可能會有不同的結(jié)構(gòu),因此需要除以模型的復(fù)雜度來加以平衡。因此,可以將模型的連線數(shù)量視為模型的復(fù)雜性,并最終選出了相似量最大的貝葉斯網(wǎng)絡(luò)模型[11]。
[y*=arg maxMylog(P(x|My)+1)Co(My)]
在這里,運(yùn)用一種特殊的貝葉斯網(wǎng)(區(qū)間代數(shù)貝葉斯網(wǎng)絡(luò))可以進(jìn)行人臉表情建模,這樣可以把貝葉斯網(wǎng)的概括語義與區(qū)間代數(shù)的時(shí)序性組合起來,能夠捕捉臉部的復(fù)雜多變運(yùn)動變化關(guān)系,通過這個(gè)方式可以利用基于跟蹤的特性,可提高識別的速度[12]。
4 語音情感合成技術(shù)
如果機(jī)器的語言不再生硬晦澀難懂,毫無情感語調(diào),而是富有人的語調(diào)跟情感,這會是一個(gè)巨大的進(jìn)步在語音交互的領(lǐng)域,這項(xiàng)非常重要的技術(shù)應(yīng)用在日常生活中,代表這項(xiàng)技術(shù)不斷發(fā)展與進(jìn)步,人們對情感語音的合成的期待與要求也越來越嚴(yán)苛,App基于這些技術(shù)更好地將文字與語音相結(jié)合。
1)情感語音合成
情感語音合成這個(gè)技術(shù)在很多領(lǐng)域都是非常重要的,比如語音識別、語音合成等,語音合成顧名思義就是將現(xiàn)有的文字通過語音合成技術(shù)變成語音輸出即聲音的形式,通過語音合成技術(shù)把文字變成另一種載體:聲音。語音的合成的歷史是從1980年到現(xiàn)在這個(gè)階段,技術(shù)由簡到繁,更新數(shù)據(jù)也極快,但是在初期由于技術(shù)的限制,在技術(shù)合成的方面不會有太高的要求,大多以穩(wěn)定為標(biāo)準(zhǔn),這也是語音合成偏向機(jī)器語調(diào)的原因,并且情感表達(dá)的功能也不太完善,所以希望出現(xiàn)一款A(yù)pp能與人類的交流可以自然流暢,它具有人類的情感可以與幫助聽障人士用開心的語調(diào)、生氣的語調(diào)、疑惑的語調(diào)等等,并且富有人類情感程度的復(fù)雜性。這樣就可以通過情感語音合成技術(shù)讓聽障人士能夠自由并富有感情地跟正常人交流。
2)文字信息與語音信息的轉(zhuǎn)換
語音合成顧名思義是人為制作的聲音,由手語識別技術(shù)得到聽障人士表達(dá)中的文字內(nèi)容,聲音的合成是人機(jī)交互中最重要的一個(gè)關(guān)鍵點(diǎn),聲音合成技術(shù)就是對文本內(nèi)容的語音描述。
信息轉(zhuǎn)換過程:
①通過手語識別技術(shù)來建模:語言模型,使手語視頻翻譯成文字,可以利用機(jī)器視覺將已識別的手勢庫與相符合的圖像,再跟語音庫中對應(yīng)的情感相結(jié)合。
②使用編碼器與譯碼器搭建交互的平臺,可利用FPGA等平臺進(jìn)行搭建。
③在交互平臺完成手勢識別后,應(yīng)用遞歸與二分等算法(GRAM)將二維信號矩陣傳入語音系統(tǒng),并實(shí)現(xiàn)輸出的結(jié)果。
④語音識別輸出,利用交互平臺,由編碼器與譯碼器轉(zhuǎn)化的二進(jìn)制的代碼,通過單片機(jī)等設(shè)備,對手語識別得到的文本內(nèi)容實(shí)現(xiàn)語音的輸出。
3)情感語音合成的技術(shù)實(shí)現(xiàn)
情感語音技術(shù)的實(shí)現(xiàn)其一是通過將情感信息編碼到語言中去,這樣App在合成機(jī)器語音時(shí)就可以同時(shí)識別出語言載體的信息與情感的信息;其二就是先合成一個(gè)中性的語調(diào),然后利用聲音的轉(zhuǎn)換技術(shù),得到情感表達(dá)的需求。這里采用共振峰合成法。
共振峰合成法擁有另一個(gè)名稱亦基于規(guī)則的合成,這個(gè)方法主要是依據(jù)自然的語音及語調(diào)及聲學(xué)中與之相對應(yīng)的規(guī)則,在這兩個(gè)方面的基礎(chǔ)上合成的,在語音合成的過程中是完全沒有采用真人的語音,利用共振峰合成法可以讓語音輸出的結(jié)果更像真人的語音語調(diào),更加流暢與自然,而且共振峰合成法有一個(gè)特點(diǎn)就是其具備高度的可控性,它可以極為方便地調(diào)控,可以人為控制參數(shù)。利用這個(gè)方法合成了著名的語音情感合成器——Affect Editor情感語音合成器。
聲源模式的選擇,濁擦聲源使用了經(jīng)時(shí)間脈沖機(jī)制處理后產(chǎn)生的噪音,但濁音聲源模式選擇使用了KLGOTT88。濁齒音聲源的波浪狀信號[Ugt]是由下面的函數(shù)得到(Te表示聲門處開相位時(shí)長,a決定聲援波峰,OQ是聲門信號開相位寬度)[13]。
[Ugt=t2-t3OQ100×Te]
考慮到輻射的特性,通過集成于聲源模型,使用了聲源門波譜的極微分形式,如下式所示:
[U'g=2atFs-3bt2F2s? ? ?0≤t≤T0×OQ×FS0? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?T0×OQ×Fs≤T0×Fs]
[a=27×AV4×OQ2×T0=27×Ugmax4XT2e]
最大的過程為流Ugmax可由下式計(jì)算(Fs是采樣率,AV是幅度參數(shù),T0是基音周期)就是通過參數(shù)來判斷的源信號波形。
[b=27×AV4×OQ3×T0=aTe]
在聲道模型中,揚(yáng)聲器模擬的聲道模擬,是用共振峰合成技術(shù)將揚(yáng)聲器分解成諧振腔,諧振腔擁有無數(shù)個(gè)諧振頻率。不同頻率的共鳴峰的模式分別代表著兩種不同類型的音色音調(diào),可以分別利用其共鳴峰頻譜長度及頻譜寬度來作為判斷依據(jù)來建立共鳴峰過濾器。再用若干個(gè)這種濾波器串聯(lián)起來以改善模擬聲道信號的傳輸特性。對于每個(gè)共振峰可以用另一種二階濾波器來進(jìn)行濾波,如下式所示[14] (Fi為共振峰中心頻率,Bi為共振峰帶寬,T為采樣周期,幅度L=Fi∕Bi L) 。
[Ci=-exp-2πBiT]
[bi=2×exp-πBiTcos2πF?T]
[Gi=1-bi-Ci]
[Viz=Gi1-biz-1-c1z-2]
5 App設(shè)計(jì)模型構(gòu)建
模型的構(gòu)建主要基于機(jī)器視覺而行。利用貝葉斯網(wǎng)絡(luò)捕捉臉部的復(fù)雜多變運(yùn)動變化關(guān)系,進(jìn)而提高識別的速度;再運(yùn)用共振峰合成法,使得語音合成后輸出的結(jié)果更加接近真人的語音語調(diào),流暢自然。建立聽障人士不同情緒和合成語音的關(guān)系,通過一系列計(jì)算,完成信息輸出載體的轉(zhuǎn)換:由手語轉(zhuǎn)換成情感語音,實(shí)現(xiàn)語音輸出。
用戶界面模塊主要用于個(gè)人信息的設(shè)置,包括消息區(qū)、視頻區(qū)、個(gè)人中心、資料編輯和一些簡單功能的介紹,方便用戶上手操作。
6 總結(jié)與展望
目前,我國有聽力殘疾人口大約為二千零五十四萬人,占全球人口總數(shù)的百分之一點(diǎn)四六[15]。近年來,國家不斷推進(jìn)助老助殘項(xiàng)目的發(fā)展,在我國的政策支持和社會大規(guī)模投入資金的大背景下,中國國內(nèi)助老助殘創(chuàng)新服務(wù)項(xiàng)目大批出現(xiàn),但目前市面上真正針對聽障人士適用的App幾乎很少。
輔助聽障人士的手語轉(zhuǎn)語音工具是基于iOS平臺,主要以服務(wù)聽障人士實(shí)現(xiàn)正常情感交流為基礎(chǔ),為他們提供即時(shí)攝像,手語轉(zhuǎn)情感語音的服務(wù)。隨著互聯(lián)網(wǎng)和信息技術(shù)向著更加寬帶化的目標(biāo)的進(jìn)展,移動終端設(shè)備普及很快,逐漸地深入到人們?nèi)粘I畹姆椒矫婷鎇16],人們對情感交流需求的日益增長,聽障人士對于手語翻譯的需求已經(jīng)不僅僅是簡單的中性語調(diào)輸出,還需要加以更多的情感表達(dá)。而本文的科研方向恰恰彌補(bǔ)了聽障人士手語識別的部分市場缺口,發(fā)展前景巨大,值得深入研究。
參考文獻(xiàn):
[1] 潘玉春,徐明星,賈培發(fā).面向情感語音識別的建模方法研究[J].計(jì)算機(jī)科學(xué),2007,34(1):163-165.
[2] 楊瑞請.基于BPSO的生理信號的情感狀態(tài)識別[D].重慶:西南大學(xué),2008.
[3] 李杰,劉子龍.基于計(jì)算機(jī)視覺的無人機(jī)物體識別追蹤[J].軟件導(dǎo)刊,2020,19(1):21-24.
[4] 李云偉.基于深度學(xué)習(xí)的手語識別關(guān)鍵技術(shù)研究[D].徐州:中國礦業(yè)大學(xué),2019.
[5] 楊文峰.光學(xué)定標(biāo)算法抗噪性研究及改進(jìn)[D].開封:河南大學(xué),2017.
[6] 秦夢現(xiàn).手語識別研究綜述[J].軟件導(dǎo)刊,2021,20(2):250-252.
[7] 馬銀蓉.基于表情、文本和語音的多模態(tài)情感識別[D].南京:南京郵電大學(xué),2021.
[8] 王婧瑤,范飛,劉豪宇,等.基于機(jī)器視覺的聾啞人手語識別——語音交互系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2021,11(12):3-5.
[9] 王志良,陳鋒軍,薛為民.人臉表情識別方法綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2003,20(12):63-66.
[10] 邱玉,趙杰煜,汪燕芳.結(jié)合運(yùn)動時(shí)序性的人臉表情識別方法[J].電子學(xué)報(bào),2016,44(6):1307-1313.
[11] 邱玉.基于動態(tài)表情識別的情感計(jì)算技術(shù)[D].寧波:寧波大學(xué),2015.
[12] 王琳琳,劉敬浩,付曉梅.融合局部特征與深度置信網(wǎng)絡(luò)的人臉表情識別[J].激光與光電子學(xué)進(jìn)展,2018,55(1):204-212.
[13] 汪成亮,張玉維.基于共振峰合成和韻律調(diào)整的語音驗(yàn)證碼方法研究[J].計(jì)算機(jī)應(yīng)用研究,2011,28(7):2458-2461.
[14] 周自斌.基于互聯(lián)網(wǎng)的智能英語聽寫系統(tǒng)設(shè)計(jì)[J].安徽科技學(xué)院學(xué)報(bào),2013,27(5):60-62.
[15] 鄭璇.加快推進(jìn)中國手語翻譯的職業(yè)化——基于新型冠狀病毒肺炎疫情的思考[J].殘疾人研究,2020(1):24-32.
[16] 潘浩.基于微信小程序的智能配送系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].微型電腦應(yīng)用,2019,35(7):31-33.
【通聯(lián)編輯:謝媛媛】