張星 奚欣陽(yáng) 謝敏 王道彥 李新宇 陳康
摘要:針對(duì)目前市場(chǎng)上電子書泛濫,古籍內(nèi)容枯燥幾乎無(wú)人閱讀的現(xiàn)狀,該文提出一種3D擬真書的設(shè)計(jì)與實(shí)現(xiàn)方案。該方案運(yùn)用相關(guān)3D 前沿技術(shù),并以攝像頭的動(dòng)態(tài)手勢(shì)識(shí)別以及計(jì)算機(jī)全息圖像的實(shí)時(shí)生成兩項(xiàng)技術(shù)作為突破口,將unity作為數(shù)據(jù)處理中心和中轉(zhuǎn)平臺(tái),調(diào)用百度、微信等API來(lái)更好地實(shí)現(xiàn)和完善古籍3D擬真書設(shè)計(jì)。此設(shè)計(jì)具有廣泛的應(yīng)用前景且還含有較大的提升空間。
關(guān)鍵詞:全息圖像;古籍;文物;手勢(shì)識(shí)別;語(yǔ)音交互 ;翻譯
中圖分類號(hào):TP311? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)17-0095-02
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
在互聯(lián)網(wǎng)+背景下,許多傳統(tǒng)出版單位紛紛進(jìn)行轉(zhuǎn)型,將大量的實(shí)體書轉(zhuǎn)換成電子書,對(duì)諸多古籍進(jìn)行了數(shù)字化處理。但對(duì)于書籍的處理目前也僅僅只局限于數(shù)字化,這種模式的局限隨著3D全息、虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)等技術(shù)的橫空出世被進(jìn)一步放大。用戶的視角及其體驗(yàn)感在隨著科技的發(fā)展被分別逐步地放大與細(xì)化,電子書已經(jīng)滿足不了人們對(duì)于書籍內(nèi)容生動(dòng)化、細(xì)致化、動(dòng)態(tài)化的精致需求。因此為了更加貼合大眾需求,結(jié)合時(shí)代與科技特點(diǎn),設(shè)計(jì)了3D擬真書。
1 結(jié)構(gòu)流程圖與實(shí)現(xiàn)方案綜述
1.1? 3D擬真書的結(jié)構(gòu)流程圖
1.2 實(shí)現(xiàn)方案綜述
1)我們選用內(nèi)嵌10個(gè)椎形3D全息膜的環(huán)形展柜來(lái)作為展示的載體,將展柜分成10個(gè)部分,每一個(gè)部分與中央處理器中的unity project項(xiàng)目連接。每個(gè)柜臺(tái)會(huì)配有相應(yīng)的耳機(jī)等接收信息設(shè)備,保證不受外界干擾,且能有效進(jìn)行實(shí)時(shí)數(shù)據(jù)傳輸,從而形成信息的閉合回路。
2)在unity中新建3D擬真書project,建立3D書籍模型,通過(guò)古籍掃描儀獲得書籍內(nèi)容圖片并將其作為3D書籍書頁(yè)貼圖。將每張page標(biāo)明序號(hào),方便進(jìn)行程序編寫。
3)通過(guò)申請(qǐng)微信API,下載SDK文件,提供應(yīng)用程序編程接口并在相應(yīng)的文檔中寫入注冊(cè)接口與授權(quán)接口,使得微信與unity projec能夠相互調(diào)用。用戶通過(guò)掃描相應(yīng)的微信二維碼,登錄微信程序界面,其中含有書籍選擇、翻譯界面調(diào)用等相應(yīng)功能。
4)架設(shè)一臺(tái)普通攝像頭,與讀取視頻軟件VFW相連接,將拍攝的RGB圖像轉(zhuǎn)換成HSV圖像,再經(jīng)過(guò)去噪與HOG特征提取,關(guān)鍵幀提取進(jìn)行手勢(shì)匹配,實(shí)現(xiàn)動(dòng)態(tài)手勢(shì)識(shí)別。
5)在unity中,將3D書籍翻頁(yè)動(dòng)畫切分成四個(gè)分屏,設(shè)置四個(gè)攝像頭,精確計(jì)算四個(gè)坐標(biāo),經(jīng)過(guò)全息膜反射,使其在相同屏幕上的同一個(gè)位置實(shí)現(xiàn)重合
2 關(guān)鍵技術(shù)使用與優(yōu)化
2.1 動(dòng)態(tài)手勢(shì)識(shí)別
手勢(shì)識(shí)別是目前人機(jī)交互領(lǐng)域的研究熱點(diǎn)之一。[1]由于3D擬真書是投放在復(fù)雜環(huán)境下進(jìn)行使用,干擾信息多種多樣,因此如何防干擾,優(yōu)化識(shí)別效果是實(shí)現(xiàn)動(dòng)態(tài)手勢(shì)識(shí)別的關(guān)鍵所在。
人體膚色在空間中具有聚類特征,會(huì)在顏色空間中形成小的聚簇,與其他物體區(qū)別較大,常用來(lái)進(jìn)行手勢(shì)分割。普通攝像頭拍攝的圖像是RGB模式的,不利于膚色分割,而在HSV或者HSI空間中,人體膚色特征最明顯,因此需要轉(zhuǎn)換到HSI或者HSV模式來(lái)進(jìn)行分割。我們選擇與人體感知色彩一致HSV空間模式。
大家所認(rèn)同的歸一化RGB空間到HSV空間的映射過(guò)程如下:
除了物體所帶來(lái)的干擾外,在拍攝過(guò)程會(huì)有一些比較復(fù)雜的背景或者電子噪聲出現(xiàn)且分布不均勻,導(dǎo)致捕獲的圖像背景復(fù)雜且有很多孔洞,需要進(jìn)行去噪處理。在這種情況下,可以采用非線性去除噪聲的方法—中值濾波。中值濾波技術(shù)能夠在一定條件下克服線性濾波器等帶來(lái)的圖像細(xì)節(jié)模糊,而且對(duì)濾除脈沖干擾及圖像掃描噪聲最為有效。除此之外,我們還可以采用形態(tài)學(xué)以及其他方法去修復(fù)小面積的孔洞或減少干擾的出現(xiàn),進(jìn)而完善圖像。
我們采用了人為地在用戶后面設(shè)置了一塊弧形的黑色擋板的方法,用于降噪和防止他人手部對(duì)手勢(shì)識(shí)別發(fā)生干擾,并且劃定攝像頭識(shí)別范圍,消除一些不必要的干擾,提升動(dòng)態(tài)手勢(shì)識(shí)別效果。
2.2 全息圖像生成
全息圖像生成分為兩個(gè)步驟,第一步在計(jì)算機(jī)內(nèi)制作3D全息視頻源,第二步利用相關(guān)設(shè)備將圖像展示出來(lái)。
在unity 所制作的3D翻頁(yè)動(dòng)畫中拖入四個(gè)攝像機(jī),呈十字狀,且相互到目標(biāo)的距離保持相同,計(jì)算好攝像機(jī)坐標(biāo)并分別設(shè)置在模型前面、背面、左側(cè)、右側(cè)四個(gè)方位。進(jìn)一步計(jì)算四個(gè)攝像機(jī)的屏幕坐標(biāo),確保四個(gè)方向的照射畫面能正確顯示在同一個(gè)屏幕上,實(shí)現(xiàn)四分屏的效果。為了能夠使得四個(gè)方位的畫面重疊,還需要調(diào)整好攝像頭的深度。
進(jìn)入動(dòng)畫的時(shí)間配置選項(xiàng)中,修改時(shí)間,點(diǎn)擊進(jìn)入關(guān)鍵幀模式,修改時(shí)間軸,將四個(gè)關(guān)鍵幀旋轉(zhuǎn)90度。[3]接著將四個(gè)攝像頭內(nèi)容批量導(dǎo)出,并進(jìn)行批處理渲染操作,遵照你想要的效果,添加四個(gè)攝像頭,調(diào)整好路徑及名稱。最后進(jìn)行內(nèi)容合成,形成完整的全息動(dòng)畫。
目前我們選用的是應(yīng)用幻影成像原理的投影方法,能夠有效節(jié)省成本且操作便捷?;糜俺上袷抢?5度光學(xué)反射原理實(shí)現(xiàn)的懸空幻想效果[4],幻影成像系統(tǒng)同樣是基于“實(shí)景造型”和“幻影”的光學(xué)成像結(jié)合,將所拍攝的影像(人、物)投射到布景箱中的主體模型景觀中,演示故事的發(fā)展過(guò)程[5],即將四個(gè)攝像機(jī)中的畫面內(nèi)容投射到錐形的倒金字塔中,實(shí)現(xiàn)畫面重疊。
椎形倒金字塔是將四張大小合適的3D全息膜,裁剪并拼湊而成的。這種方法簡(jiǎn)單易操作,且所營(yíng)造的效果也很好,完全可以因地制宜。如果客觀條件允許,可以使用空氣投影的方式,即使用噴霧設(shè)備產(chǎn)生大量人造霧,結(jié)合空氣流動(dòng)學(xué)原理而制造出來(lái)平面霧屏,利用的是海市蜃樓的原理,在效果上會(huì)更令人驚嘆。[6]
2.3 翻譯與模型調(diào)用
在設(shè)計(jì)3D擬真書時(shí),我們考慮到古籍的文字為文言文,又鑒于用戶的學(xué)歷與知識(shí)儲(chǔ)備等因素,因此在3D擬真書中建立了翻譯系統(tǒng)。 用戶在翻看書籍時(shí)若對(duì)相關(guān)文字有疑惑,可通過(guò)動(dòng)態(tài)手勢(shì)實(shí)現(xiàn)文字貼圖與解釋貼圖切換。為了使3D擬真書在運(yùn)行時(shí)更穩(wěn)定,更迅速,我們調(diào)用百度翻譯來(lái)進(jìn)行實(shí)時(shí)翻譯。具體步驟如下:
① 申請(qǐng)百度翻譯API獲得相關(guān)代碼信息
② 在VS2010中新建一個(gè)應(yīng)用程序,使其構(gòu)造出一個(gè)較為簡(jiǎn)單的百度翻譯界 面,在窗體主體上添加兩個(gè)richTextBox按鈕,一個(gè)是輸入未翻譯的文言文,另一個(gè)則是輸出翻譯之后的白話文。在添加兩個(gè)button按鈕,即button1執(zhí)行翻譯功能,button2實(shí)現(xiàn)語(yǔ)音朗讀功能。如果要實(shí)現(xiàn)語(yǔ)音朗讀的功能,則要新建項(xiàng)目TTS[7](從文本到語(yǔ)音(Text To Speech)),繼續(xù)添加引用System.Speech等,編寫相應(yīng)代碼實(shí)現(xiàn)語(yǔ)音朗讀功能。
③ 建立一個(gè)含有百度翻譯API的DLL文件
④ 將DLL文件調(diào)用命令寫入代碼中。在上面所提到的按鈕button1和button2,在它們的單擊事件中分別寫入含有百度翻譯API的DLL文件的調(diào)用代碼和引用System.Speechd的TTS。
我們調(diào)查了在市場(chǎng)上的具有相同功能的產(chǎn)品,并結(jié)合實(shí)際制作的3D書籍模型,發(fā)現(xiàn)存在這樣的一個(gè)問(wèn)題:書頁(yè)上的內(nèi)容貼圖會(huì)因?yàn)楸壤④浖仍?,展示出?lái)較為模糊。
經(jīng)過(guò)團(tuán)隊(duì)討論后,提供了兩種解決思路:
① 在獲得內(nèi)容圖片后,用PS等修圖軟件對(duì)圖像進(jìn)行進(jìn)一步處理,將圖片矢量化,防止圖片出現(xiàn)鋸齒狀。作為貼圖后,在unity中,找到Materials,修改相應(yīng)貼圖的inspector中的一些選項(xiàng)。
② 在文字翻譯基礎(chǔ)上,申請(qǐng)百度Rest Api, 使用百度語(yǔ)音識(shí)別和語(yǔ)音合成,在unity中實(shí)現(xiàn)語(yǔ)音交互。通過(guò)語(yǔ)音交互,將文言文解釋轉(zhuǎn)變成語(yǔ)音形式,傳遞給用戶。
3 未來(lái)展望
通過(guò)查閱大量資料、市場(chǎng)調(diào)研、咨詢專業(yè)人士等過(guò)程,3D擬真書的設(shè)計(jì)與實(shí)現(xiàn)方案在邏輯及理論上已具備較高的嚴(yán)密性。在技術(shù)層面,也綜合利用3D全息、3D建模等前沿技術(shù)去實(shí)現(xiàn),具有較高的可操作性,最終可實(shí)現(xiàn)手勢(shì)翻動(dòng)全息書籍的效果。
但是目前3D擬真書的設(shè)計(jì)與實(shí)現(xiàn)依然處于較為簡(jiǎn)單的層次,在很多地方仍舊不夠完善,如在書籍內(nèi)容方面較為生硬,人機(jī)交互較少等。
我希望在未來(lái)能夠?qū)崿F(xiàn)三種模式:書籍模式、動(dòng)漫模式、游戲模式。書籍模式為目前我們?cè)O(shè)計(jì)的方案,也是最基礎(chǔ)的方案。而動(dòng)漫模式可以實(shí)現(xiàn)看書就像看電影的效果,并且可以進(jìn)行一定程度的語(yǔ)音交互,能夠更大程度地去幫助用戶理解與記憶書中的內(nèi)容。游戲模式則是把書籍中的知識(shí)融會(huì)貫通,使用 AR(AugmentedReality)/VR(Virtual Reality)等前沿技術(shù),搭建游戲場(chǎng)景,將現(xiàn)代科技與古代文明相結(jié)合,解決古籍展示推廣中的關(guān)鍵問(wèn)題。并且這三種模式可以讓用戶自由選擇,真正實(shí)現(xiàn)娛教結(jié)合。
3D擬真書未來(lái)不僅僅可以用于書籍的展示,同樣也可以用于文物的展示。自《國(guó)家寶藏》這一檔節(jié)目開(kāi)播以來(lái),社會(huì)上反響劇烈。人們?cè)诠?jié)假日期間爭(zhēng)相去各大博物館觀看文物,且都是人滿為患。如果將3D擬真書用于文物展示,則可以減少擁擠程度,不僅能幫助老年人節(jié)省體力(即使不去各個(gè)展廳奔走,一樣可以全方位地觀賞文物)而且能夠幫助人們提前做好計(jì)劃,避免不必要的時(shí)間浪費(fèi)。對(duì)于各大博物館而言,可以大幅度地減少文物復(fù)制地成本,避免文物復(fù)制地風(fēng)險(xiǎn)。
本文中的3D擬真書設(shè)計(jì)與實(shí)現(xiàn)方案,不僅具有良好的應(yīng)用前景,而且可操作性很高,實(shí)現(xiàn)成本低。
參考文獻(xiàn):
[1] Nasiri M,Mosavi M R,Mirzakuchaki S.Infrared dim small target detection with high reliability using saliency map fusion [J].IET Image Processing,2016,10(7):524-533.
【通聯(lián)編輯:聞翔軍】