基于音視頻的自動化低成本VR視頻生成方法分析

2021-11-22 16:55:56王天煬

電子技術(shù)與軟件工程 2021年13期

王天煬

（徐州工業(yè)職業(yè)技術(shù)學(xué)院信息工程學(xué)院江蘇省徐州市 065000）

在2016年1月的國際消費電子展（CES）上，與虛擬現(xiàn)實（VR）相關(guān)的展品在虛擬現(xiàn)實（電子展）上如火如荼地展開，德國以及其他國外VR長都會展出大量的虛擬現(xiàn)實VR設(shè)備，硬件設(shè)備不斷更新及客戶的需求不斷提升，著推動了VR產(chǎn)業(yè)的發(fā)展，使得生態(tài)VR產(chǎn)業(yè)鏈變得更加豐富，同時在一定程度上降低成本。

1 背景

1.1 VR視頻概念

虛擬現(xiàn)實（Virtual reality, VR）視頻又稱全景視頻或360視頻反饋，是一種使用虛擬現(xiàn)實硬件播放的視頻作品[1]。虛擬現(xiàn)實技術(shù)最重要的是它模擬了計算機的仿真技術(shù)，而計算機仿真技術(shù)就是要建立虛擬場景，然后通過虛擬技術(shù)實現(xiàn)現(xiàn)實虛擬，模擬現(xiàn)實世界的運動。用計算機模擬技術(shù)構(gòu)建的虛擬場景可以是現(xiàn)實中的真實場景，也可以是完全虛化出來的場景。有許多不同的可能性，從不同的角度描述虛擬現(xiàn)實，但其中一個最重要的共同點是，虛擬現(xiàn)實可以通過不受時間和空間控制的虛擬環(huán)境，為用戶創(chuàng)造一種交互式、沉浸式的臨場感體驗，這個共同的特點也是VR視頻最大的特點。

因此，本文提出了一種利用現(xiàn)有的視聽資料制作虛擬現(xiàn)實視頻的新方法，結(jié)合自然語言處理、三維建模、虛擬現(xiàn)實等技術(shù)[2]，本文主要從以下幾方面展開探討：

（1）通過系列化的標(biāo)準(zhǔn)步驟以及較為完整的自動轉(zhuǎn)換操作，不需要過多專業(yè)計算機知識也能生成VR視頻；

（2）將攝影機錄制的VR視頻與運動相機所錄制的視頻進(jìn)行對比，不但可以節(jié)省技術(shù)成本，同時也能縮短時間，從而在短時間內(nèi)制作出大量視頻作品；

（3）針對那些歷史悠久或是視頻像素較差的，這種方式也能輕松將視頻轉(zhuǎn)換成VR視頻。

1.2 VR視頻生產(chǎn)方式

VR視頻制作過程包括多種現(xiàn)代成像技術(shù)，其中就包括計算機仿真技術(shù)、圖形切割技術(shù)、實時三維技術(shù)、人工智能技術(shù)等。虛擬現(xiàn)實視頻制作可以有兩種制作形式，第一種就是利用全景攝影機進(jìn)行全景錄制視頻和制作視頻；第二種就是使用CG技術(shù)制作成三維建模所需視頻，從而生成VR視頻。

1.2.1 全景攝影機拍攝視頻

拍攝虛擬現(xiàn)實視頻需要用到全景攝影機也可以稱為多鏡頭攝影機對圖像內(nèi)容進(jìn)行全方位的拍攝和拼接，本文中的VR視頻制作多鏡頭系統(tǒng)制作全景視頻可以分為三個不同階段：就是將攝影機標(biāo)定，將圖片進(jìn)行同步和融合，從而生成視頻流。攝影機拍攝的虛擬現(xiàn)實視頻可以分為全景交互視頻、局部3D視頻、非全景視頻以及VR全景視頻這五種，這五種VR視頻制作差異化逐漸減小，體驗效果也逐漸提升，在這五種中，全景3D視頻具有良好的沉浸效果和互動效果，在這種視頻中用戶可以參與到視頻中，在視頻中用戶可以與歷史場景進(jìn)行交互，而視頻內(nèi)容也會根據(jù)用戶選擇而做出不同反應(yīng)，從而改變視頻發(fā)展動向，這種全景3D交互視頻可以真正讓客戶體會到身臨其境的感覺。VR視頻制作一直都是難點，不管視頻是否交互，或是什么場景交互，怎樣進(jìn)行交互，這些都是制作VR視頻的難點，除此以外，全景3D視頻制作所需周期較長，制作成本較高，在短時間內(nèi)無法制作出大量成熟的視頻。

1.2.2 利用計算機圖形技術(shù)生成VR視頻

CG技術(shù)制作的VR視頻和3D動畫版本的VR視頻較為相似，通過充分使用映射、渲染等手段，它的視覺效果基本上與全景攝影機所拍攝的視頻沒有差異，通過與全景攝影機拍攝出的視頻對比，CG技術(shù)制作出的VR視頻更容易控制視頻節(jié)奏和工作速度。這種技術(shù)并不需要那些昂貴的設(shè)備以及專業(yè)攝影師的支持，同時也解決了一些創(chuàng)作難度較大的問題，其一就是對于構(gòu)建和設(shè)計虛擬場景來說，所需要的內(nèi)容腳本和希望表達(dá)的中心思想都需要具有創(chuàng)造力的人才；其次，虛擬場景多數(shù)是制作出具有角色模型的物理動畫人物，這是通過運動相機實景錄制的，錄制裝備不僅價格較高而且操作起來較為繁雜，這種設(shè)備需要非常專業(yè)的技術(shù)人員，同時需要他們熟練掌握技術(shù)，在一定程度上提高了制作虛擬現(xiàn)實視頻的門檻。

1.2.3 生成VR視頻面臨的挑戰(zhàn)

在已經(jīng)存在的虛擬現(xiàn)實視頻制作基礎(chǔ)方，想要尋找一個新型的低成本、高質(zhì)量制作視頻的方法無疑是一個挑戰(zhàn)。較為復(fù)雜的制作視頻過程在一定程度上降低了制作視頻內(nèi)容的效率，例如全景視頻制作過程就包括了教學(xué)設(shè)計、腳本設(shè)計、實景拍攝以及后期制作等多個步驟，無論是哪種拍攝制作全景視頻都需要大量硬件設(shè)備支持，這不但增加了制作成本，同時也提高了對于攝影制作技術(shù)的要求，更重要的是這對視聽圖像以及錄制音頻都有重要價值。

2 研究方案

2.1 工作流程

文中所提到的制作多媒體視頻和轉(zhuǎn)換音頻成為虛擬現(xiàn)實視頻的方法可以有以下幾種：

（1）可以利用相關(guān)語音識別工具將視頻或是音頻中的信息提取出作為文本信息；

（2）可以用自然的語言處理方式獲取具有情感的文本信息；

（3）在虛擬三維場景中采用文本、音頻、說話人角色模型、人體運動動畫生成虛擬現(xiàn)實視頻。

2.2 語音識別獲取音頻字幕文件

VR視頻轉(zhuǎn)換中最重要的一步就是將視頻中信息進(jìn)行文本化操作，從視聽資料中獲取字幕文件，在選擇語言識別軟件時，要保證一定的語言識別準(zhǔn)確性，同時要以方便獲取語言字幕文件為出發(fā)點[3]。

現(xiàn)今市場中已經(jīng)存在較多成熟的語音識別系統(tǒng)和識別軟件，如iFLYTEK、微軟語音SDK等，通過對市場上幾種語言識別軟件的測試和比較，本研究假設(shè)免費智能視頻翻譯軟件，軟件的智能性體現(xiàn)在能力上自動分割語音軸，識別字幕內(nèi)容和語言信息，最后只要一鍵就能將文本輕松導(dǎo)出成為字幕文件，翻譯軟件需要設(shè)置簡單明了的操作界面，將功能設(shè)置進(jìn)行細(xì)化區(qū)分，讓初學(xué)者也能輕松操作，軟件應(yīng)該具有較高的聲音識別精準(zhǔn)度，所導(dǎo)出的字幕文件應(yīng)該包含不同的文本時間信息，同時使軟件滿足更多人需求。

2.3 通過語言處理技術(shù)獲得文本信息

2.3.1 文中所提獲取文本信息方法

自然語言文本轉(zhuǎn)換信息已經(jīng)占到信息總量的八成，文本信息分析和信息處理都處于語言處理的范疇內(nèi)，現(xiàn)如今的語言處理研究方式分為兩種：第一種就是現(xiàn)今較為流行的以數(shù)理統(tǒng)計機械性學(xué)習(xí)的方式，第二種就是在傳統(tǒng)語言處理基礎(chǔ)上進(jìn)行自然語言處理工作，使用的方法應(yīng)該按照實際的工作情況而定。

本文提出了一種自動化、經(jīng)濟(jì)高效的虛擬現(xiàn)實視頻轉(zhuǎn)換方法，它是減少人工操作、節(jié)省時間和人力成本的出發(fā)點之一，本文之所以討論短語相等而不是文本相等，因為語言識別中的字幕文件都是作為字幕形式出現(xiàn)，語音分析也要根據(jù)句子的難易度進(jìn)行區(qū)分，將句子詞級進(jìn)行對比處理，可以更進(jìn)一步降低文本情感分析的難度。

2.3.2 將情感詞典作為基礎(chǔ)獲取文本情感標(biāo)簽

通常情況下，人們都會將情緒化語言作為表達(dá)自身觀點與想法的表現(xiàn)形式，例如說“優(yōu)秀”可以作為表達(dá)鼓勵人們的積極想法，而“差”則是可以表達(dá)否定的想法，這種形式是最為直接簡單的表達(dá)情感的方式。因此，我們可以根據(jù)句子中的感情詞來粗略判斷句子的情感類型，并為所有領(lǐng)域建立一個完整的情感詞典。雖然感情詞的內(nèi)容形式較為復(fù)雜多樣，但是人類情感的基本分類是一致的。例如，人類的情感無非是喜、怒、悲、喜，本研究以大連理工大學(xué)中文情感嘔吐本體數(shù)據(jù)庫作為情感詞典進(jìn)行情感分析。

2.3.3 處理字幕文件中的時間軸標(biāo)簽

打開字幕文件后進(jìn)行音頻轉(zhuǎn)換，可以看到每一句話。它包含一個文本序列號和一個時間線標(biāo)簽，我們將這三個元素視為一個字幕元素，在上一節(jié)中，通過自然語言對字幕中的文本進(jìn)行處理，提取文本的情感日，在這一節(jié)中，將時間軸的名稱處理成字幕元素，得到每個句子的時差。最后，SRT字幕文件被轉(zhuǎn)換成可以以單位處理的字幕文件。

2.4 情感動畫的匹配

2.4.1 構(gòu)建角色動畫以及場景模型

在文本匹配和制作動畫之前，應(yīng)該建立相應(yīng)虛擬場景、角色模型及運動動畫。在本研究中，使用3dsmax對角色動畫進(jìn)行建模，場景模型是在unity中建立的。3ds Max是最常見的三維建模，世界動畫和渲染軟件。使用3dsmax建?？梢苑譃槿齻€步驟：第一，對于簡單的幾何圖形，使用3dsmax的內(nèi)置圖形庫非常方便；對于復(fù)雜圖形，通常采用NURBS面片造型或多邊形造型；第二，構(gòu)建模型所需材料就是模型的外觀。在3D全景視頻中，一般采用紋理作為模型材質(zhì)，但是這些材質(zhì)通?？梢岳闷渌浖M(jìn)行處理，對模型進(jìn)行微調(diào)、最終細(xì)化，包括設(shè)置相機位置、設(shè)置視角和反射模型等，在完成一系列操作后，將模型更改并發(fā)布為TGA序列格式在建立模型和場景后，下一步是在單元VR視頻中生成模型、音頻、字幕和動畫，對于分割視頻，本文的方案是分割全景圖像，從而實現(xiàn)將視頻制作成全景展示，這種制作方式還是和以往有所區(qū)別的，本文中主要是針對視頻元素展開討論，而不是視頻中的幀速。

2.4.2 將字幕、音頻、角色、情感動畫進(jìn)行匹配計算

在3D制作軟件中導(dǎo)入字幕文件、音頻文件、角色模型等相關(guān)文件，利用軟件算法可以設(shè)計出相應(yīng)所需的虛擬場景和原始的語言場景，這和傳統(tǒng)的視頻制作相似，軟件生成的VR全景視頻是相對較為完整的視頻，其中包好了人物、字幕、音頻等內(nèi)容。因為字幕是通過語音文件轉(zhuǎn)換生成的，所以可以確保字幕與語音內(nèi)容的一致性，這也是軟件算法的關(guān)鍵點。字幕和語音應(yīng)該在同一時間出現(xiàn)，字幕所表達(dá)的內(nèi)容也應(yīng)該與人物肢體動作一致。

在播放視頻音頻時，軟件主程序應(yīng)該顯示出文本字幕內(nèi)容，之后在軟件進(jìn)行短時間等待后再展示下一個字幕文本。兩個文本字幕應(yīng)該有短時間的時間差，同時應(yīng)該使用合適的情感標(biāo)簽和人物肢體動作算法，從而將字幕內(nèi)容和人物肢體動作、語音內(nèi)容等進(jìn)行一致化處理。

3 成本控制方法

3.1 VR全景視頻制作成本

3.1.1 拍攝視頻設(shè)備成本較高

在國內(nèi)外都有很多知名的相機品牌，例如三星、諾基亞相機、索尼相機暴風(fēng)眼相機等，這些品牌都有不同的機型型號，通過對比可以發(fā)現(xiàn)，不同相機不同功能所需價格也有所不同。因為現(xiàn)今的供求關(guān)系以及戰(zhàn)略影響，同一種相機同一種型號在不同地方和時期都會有不同的價格。

3.1.2 制作視頻時間成本大，人員動用多且復(fù)雜

在制作VR全景視頻時，對于攝影師以及攝影場景都要較高要求，這比普通視頻制作要困難，所以前期所做的準(zhǔn)備工作也較為復(fù)雜，這也需要更多的工作人員進(jìn)行策劃和溝通制作細(xì)節(jié)，同時也要有更多經(jīng)驗豐富的全景攝影師，與此同時，VR全景拍攝所需要的時間成本、人力成本都較為高昂。

3.1.3 后期制作難度高

普通視頻的后期編輯主要涉及特效的編輯和編排。全景視頻VR首先要做的是將不同方向的素材進(jìn)行拼接，同時還要對圖像進(jìn)行校正，使影片的環(huán)境更加逼真，因此，VR全景視頻后期制作也需要相當(dāng)?shù)臅r間和制作能力。

3.2 VR及3D視頻生成方法成本

文中提到的方法減少了攝影設(shè)備和錄音設(shè)備的投入，所以可以從一定程度上縮減成本，更節(jié)省了開支[4]，我們只需要重新創(chuàng)建現(xiàn)有的音頻和視頻來生成高質(zhì)量的VR內(nèi)容，這意味著幾乎不需要花費任何成本，只需使用很少的軟件，對于人工需求也縮減了人員，只需要有人創(chuàng)建模型，需要專業(yè)人員將全景視頻進(jìn)行單元分割。

4 總結(jié)

綜上所述，隨著虛擬現(xiàn)實技術(shù)的普及和硬件價格的提高，用戶們對虛擬視頻的內(nèi)容不斷提高，但是現(xiàn)今虛擬現(xiàn)實視頻生成都有制作難度強和制作成本高的問題，對以往有價值的音視頻素材進(jìn)行恢復(fù)，提出了一種利用現(xiàn)有音視頻數(shù)據(jù)生成虛擬現(xiàn)實視頻的新方法，與傳統(tǒng)的VR視頻制作方法相比，該方法可以節(jié)省大量的時間、人力成本。