• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于音視頻的自動化低成本VR視頻生成方法分析

      2021-11-22 16:55:56王天煬
      電子技術(shù)與軟件工程 2021年13期
      關(guān)鍵詞:全景字幕音頻

      王天煬

      (徐州工業(yè)職業(yè)技術(shù)學(xué)院信息工程學(xué)院 江蘇省徐州市 065000)

      在2016年1月的國際消費電子展(CES)上,與虛擬現(xiàn)實(VR)相關(guān)的展品在虛擬現(xiàn)實(電子展)上如火如荼地展開,德國以及其他國外VR長都會展出大量的虛擬現(xiàn)實VR設(shè)備,硬件設(shè)備不斷更新及客戶的需求不斷提升,著推動了VR產(chǎn)業(yè)的發(fā)展,使得生態(tài)VR產(chǎn)業(yè)鏈變得更加豐富,同時在一定程度上降低成本。

      1 背景

      1.1 VR視頻概念

      虛擬現(xiàn)實(Virtual reality, VR)視頻又稱全景視頻或360視頻反饋,是一種使用虛擬現(xiàn)實硬件播放的視頻作品[1]。虛擬現(xiàn)實技術(shù)最重要的是它模擬了計算機的仿真技術(shù),而計算機仿真技術(shù)就是要建立虛擬場景,然后通過虛擬技術(shù)實現(xiàn)現(xiàn)實虛擬,模擬現(xiàn)實世界的運動。用計算機模擬技術(shù)構(gòu)建的虛擬場景可以是現(xiàn)實中的真實場景,也可以是完全虛化出來的場景。有許多不同的可能性,從不同的角度描述虛擬現(xiàn)實,但其中一個最重要的共同點是,虛擬現(xiàn)實可以通過不受時間和空間控制的虛擬環(huán)境,為用戶創(chuàng)造一種交互式、沉浸式的臨場感體驗,這個共同的特點也是VR視頻最大的特點。

      因此,本文提出了一種利用現(xiàn)有的視聽資料制作虛擬現(xiàn)實視頻的新方法,結(jié)合自然語言處理、三維建模、虛擬現(xiàn)實等技術(shù)[2],本文主要從以下幾方面展開探討:

      (1)通過系列化的標(biāo)準(zhǔn)步驟以及較為完整的自動轉(zhuǎn)換操作,不需要過多專業(yè)計算機知識也能生成VR視頻;

      (2)將攝影機錄制的VR視頻與運動相機所錄制的視頻進(jìn)行對比,不但可以節(jié)省技術(shù)成本,同時也能縮短時間,從而在短時間內(nèi)制作出大量視頻作品;

      (3)針對那些歷史悠久或是視頻像素較差的,這種方式也能輕松將視頻轉(zhuǎn)換成VR視頻。

      1.2 VR視頻生產(chǎn)方式

      VR視頻制作過程包括多種現(xiàn)代成像技術(shù),其中就包括計算機仿真技術(shù)、圖形切割技術(shù)、實時三維技術(shù)、人工智能技術(shù)等。虛擬現(xiàn)實視頻制作可以有兩種制作形式,第一種就是利用全景攝影機進(jìn)行全景錄制視頻和制作視頻;第二種就是使用CG技術(shù)制作成三維建模所需視頻,從而生成VR視頻。

      1.2.1 全景攝影機拍攝視頻

      拍攝虛擬現(xiàn)實視頻需要用到全景攝影機也可以稱為多鏡頭攝影機對圖像內(nèi)容進(jìn)行全方位的拍攝和拼接,本文中的VR視頻制作多鏡頭系統(tǒng)制作全景視頻可以分為三個不同階段:就是將攝影機標(biāo)定,將圖片進(jìn)行同步和融合,從而生成視頻流。攝影機拍攝的虛擬現(xiàn)實視頻可以分為全景交互視頻、局部3D視頻、非全景視頻以及VR全景視頻這五種,這五種VR視頻制作差異化逐漸減小,體驗效果也逐漸提升,在這五種中,全景3D視頻具有良好的沉浸效果和互動效果,在這種視頻中用戶可以參與到視頻中,在視頻中用戶可以與歷史場景進(jìn)行交互,而視頻內(nèi)容也會根據(jù)用戶選擇而做出不同反應(yīng),從而改變視頻發(fā)展動向,這種全景3D交互視頻可以真正讓客戶體會到身臨其境的感覺。VR視頻制作一直都是難點,不管視頻是否交互,或是什么場景交互,怎樣進(jìn)行交互,這些都是制作VR視頻的難點,除此以外,全景3D視頻制作所需周期較長,制作成本較高,在短時間內(nèi)無法制作出大量成熟的視頻。

      1.2.2 利用計算機圖形技術(shù)生成VR視頻

      CG技術(shù)制作的VR視頻和3D動畫版本的VR視頻較為相似,通過充分使用映射、渲染等手段,它的視覺效果基本上與全景攝影機所拍攝的視頻沒有差異,通過與全景攝影機拍攝出的視頻對比,CG技術(shù)制作出的VR視頻更容易控制視頻節(jié)奏和工作速度。這種技術(shù)并不需要那些昂貴的設(shè)備以及專業(yè)攝影師的支持,同時也解決了一些創(chuàng)作難度較大的問題,其一就是對于構(gòu)建和設(shè)計虛擬場景來說,所需要的內(nèi)容腳本和希望表達(dá)的中心思想都需要具有創(chuàng)造力的人才;其次,虛擬場景多數(shù)是制作出具有角色模型的物理動畫人物,這是通過運動相機實景錄制的,錄制裝備不僅價格較高而且操作起來較為繁雜,這種設(shè)備需要非常專業(yè)的技術(shù)人員,同時需要他們熟練掌握技術(shù),在一定程度上提高了制作虛擬現(xiàn)實視頻的門檻。

      1.2.3 生成VR視頻面臨的挑戰(zhàn)

      在已經(jīng)存在的虛擬現(xiàn)實視頻制作基礎(chǔ)方,想要尋找一個新型的低成本、高質(zhì)量制作視頻的方法無疑是一個挑戰(zhàn)。較為復(fù)雜的制作視頻過程在一定程度上降低了制作視頻內(nèi)容的效率,例如全景視頻制作過程就包括了教學(xué)設(shè)計、腳本設(shè)計、實景拍攝以及后期制作等多個步驟,無論是哪種拍攝制作全景視頻都需要大量硬件設(shè)備支持,這不但增加了制作成本,同時也提高了對于攝影制作技術(shù)的要求,更重要的是這對視聽圖像以及錄制音頻都有重要價值。

      2 研究方案

      2.1 工作流程

      文中所提到的制作多媒體視頻和轉(zhuǎn)換音頻成為虛擬現(xiàn)實視頻的方法可以有以下幾種:

      (1)可以利用相關(guān)語音識別工具將視頻或是音頻中的信息提取出作為文本信息;

      (2)可以用自然的語言處理方式獲取具有情感的文本信息;

      (3)在虛擬三維場景中采用文本、音頻、說話人角色模型、人體運動動畫生成虛擬現(xiàn)實視頻。

      2.2 語音識別獲取音頻字幕文件

      VR視頻轉(zhuǎn)換中最重要的一步就是將視頻中信息進(jìn)行文本化操作,從視聽資料中獲取字幕文件,在選擇語言識別軟件時,要保證一定的語言識別準(zhǔn)確性,同時要以方便獲取語言字幕文件為出發(fā)點[3]。

      現(xiàn)今市場中已經(jīng)存在較多成熟的語音識別系統(tǒng)和識別軟件,如iFLYTEK、微軟語音SDK等,通過對市場上幾種語言識別軟件的測試和比較,本研究假設(shè)免費智能視頻翻譯軟件,軟件的智能性體現(xiàn)在能力上自動分割語音軸,識別字幕內(nèi)容和語言信息,最后只要一鍵就能將文本輕松導(dǎo)出成為字幕文件,翻譯軟件需要設(shè)置簡單明了的操作界面,將功能設(shè)置進(jìn)行細(xì)化區(qū)分,讓初學(xué)者也能輕松操作,軟件應(yīng)該具有較高的聲音識別精準(zhǔn)度,所導(dǎo)出的字幕文件應(yīng)該包含不同的文本時間信息,同時使軟件滿足更多人需求。

      2.3 通過語言處理技術(shù)獲得文本信息

      2.3.1 文中所提獲取文本信息方法

      自然語言文本轉(zhuǎn)換信息已經(jīng)占到信息總量的八成,文本信息分析和信息處理都處于語言處理的范疇內(nèi),現(xiàn)如今的語言處理研究方式分為兩種:第一種就是現(xiàn)今較為流行的以數(shù)理統(tǒng)計機械性學(xué)習(xí)的方式,第二種就是在傳統(tǒng)語言處理基礎(chǔ)上進(jìn)行自然語言處理工作,使用的方法應(yīng)該按照實際的工作情況而定。

      本文提出了一種自動化、經(jīng)濟(jì)高效的虛擬現(xiàn)實視頻轉(zhuǎn)換方法,它是減少人工操作、節(jié)省時間和人力成本的出發(fā)點之一,本文之所以討論短語相等而不是文本相等,因為語言識別中的字幕文件都是作為字幕形式出現(xiàn),語音分析也要根據(jù)句子的難易度進(jìn)行區(qū)分,將句子詞級進(jìn)行對比處理,可以更進(jìn)一步降低文本情感分析的難度。

      2.3.2 將情感詞典作為基礎(chǔ)獲取文本情感標(biāo)簽

      通常情況下,人們都會將情緒化語言作為表達(dá)自身觀點與想法的表現(xiàn)形式,例如說“優(yōu)秀”可以作為表達(dá)鼓勵人們的積極想法,而“差”則是可以表達(dá)否定的想法,這種形式是最為直接簡單的表達(dá)情感的方式。因此,我們可以根據(jù)句子中的感情詞來粗略判斷句子的情感類型,并為所有領(lǐng)域建立一個完整的情感詞典。雖然感情詞的內(nèi)容形式較為復(fù)雜多樣,但是人類情感的基本分類是一致的。例如,人類的情感無非是喜、怒、悲、喜,本研究以大連理工大學(xué)中文情感嘔吐本體數(shù)據(jù)庫作為情感詞典進(jìn)行情感分析。

      2.3.3 處理字幕文件中的時間軸標(biāo)簽

      打開字幕文件后進(jìn)行音頻轉(zhuǎn)換,可以看到每一句話。它包含一個文本序列號和一個時間線標(biāo)簽,我們將這三個元素視為一個字幕元素,在上一節(jié)中,通過自然語言對字幕中的文本進(jìn)行處理,提取文本的情感日,在這一節(jié)中,將時間軸的名稱處理成字幕元素,得到每個句子的時差。最后,SRT字幕文件被轉(zhuǎn)換成可以以單位處理的字幕文件。

      2.4 情感動畫的匹配

      2.4.1 構(gòu)建角色動畫以及場景模型

      在文本匹配和制作動畫之前,應(yīng)該建立相應(yīng)虛擬場景、角色模型及運動動畫。在本研究中,使用3dsmax對角色動畫進(jìn)行建模,場景模型是在unity中建立的。3ds Max是最常見的三維建模,世界動畫和渲染軟件。使用3dsmax建??梢苑譃槿齻€步驟:第一,對于簡單的幾何圖形,使用3dsmax的內(nèi)置圖形庫非常方便;對于復(fù)雜圖形,通常采用NURBS面片造型或多邊形造型;第二,構(gòu)建模型所需材料就是模型的外觀。在3D全景視頻中,一般采用紋理作為模型材質(zhì),但是這些材質(zhì)通??梢岳闷渌浖M(jìn)行處理,對模型進(jìn)行微調(diào)、最終細(xì)化,包括設(shè)置相機位置、設(shè)置視角和反射模型等,在完成一系列操作后,將模型更改并發(fā)布為TGA序列格式在建立模型和場景后,下一步是在單元VR視頻中生成模型、音頻、字幕和動畫,對于分割視頻,本文的方案是分割全景圖像,從而實現(xiàn)將視頻制作成全景展示,這種制作方式還是和以往有所區(qū)別的,本文中主要是針對視頻元素展開討論,而不是視頻中的幀速。

      2.4.2 將字幕、音頻、角色、情感動畫進(jìn)行匹配計算

      在3D制作軟件中導(dǎo)入字幕文件、音頻文件、角色模型等相關(guān)文件,利用軟件算法可以設(shè)計出相應(yīng)所需的虛擬場景和原始的語言場景,這和傳統(tǒng)的視頻制作相似,軟件生成的VR全景視頻是相對較為完整的視頻,其中包好了人物、字幕、音頻等內(nèi)容。因為字幕是通過語音文件轉(zhuǎn)換生成的,所以可以確保字幕與語音內(nèi)容的一致性,這也是軟件算法的關(guān)鍵點。字幕和語音應(yīng)該在同一時間出現(xiàn),字幕所表達(dá)的內(nèi)容也應(yīng)該與人物肢體動作一致。

      在播放視頻音頻時,軟件主程序應(yīng)該顯示出文本字幕內(nèi)容,之后在軟件進(jìn)行短時間等待后再展示下一個字幕文本。兩個文本字幕應(yīng)該有短時間的時間差,同時應(yīng)該使用合適的情感標(biāo)簽和人物肢體動作算法,從而將字幕內(nèi)容和人物肢體動作、語音內(nèi)容等進(jìn)行一致化處理。

      3 成本控制方法

      3.1 VR全景視頻制作成本

      3.1.1 拍攝視頻設(shè)備成本較高

      在國內(nèi)外都有很多知名的相機品牌,例如三星、諾基亞相機、索尼相機暴風(fēng)眼相機等,這些品牌都有不同的機型型號,通過對比可以發(fā)現(xiàn),不同相機不同功能所需價格也有所不同。因為現(xiàn)今的供求關(guān)系以及戰(zhàn)略影響,同一種相機同一種型號在不同地方和時期都會有不同的價格。

      3.1.2 制作視頻時間成本大,人員動用多且復(fù)雜

      在制作VR全景視頻時,對于攝影師以及攝影場景都要較高要求,這比普通視頻制作要困難,所以前期所做的準(zhǔn)備工作也較為復(fù)雜,這也需要更多的工作人員進(jìn)行策劃和溝通制作細(xì)節(jié),同時也要有更多經(jīng)驗豐富的全景攝影師,與此同時,VR全景拍攝所需要的時間成本、人力成本都較為高昂。

      3.1.3 后期制作難度高

      普通視頻的后期編輯主要涉及特效的編輯和編排。全景視頻VR首先要做的是將不同方向的素材進(jìn)行拼接,同時還要對圖像進(jìn)行校正,使影片的環(huán)境更加逼真,因此,VR全景視頻后期制作也需要相當(dāng)?shù)臅r間和制作能力。

      3.2 VR及3D視頻生成方法成本

      文中提到的方法減少了攝影設(shè)備和錄音設(shè)備的投入,所以可以從一定程度上縮減成本,更節(jié)省了開支[4],我們只需要重新創(chuàng)建現(xiàn)有的音頻和視頻來生成高質(zhì)量的VR內(nèi)容,這意味著幾乎不需要花費任何成本,只需使用很少的軟件,對于人工需求也縮減了人員,只需要有人創(chuàng)建模型,需要專業(yè)人員將全景視頻進(jìn)行單元分割。

      4 總結(jié)

      綜上所述,隨著虛擬現(xiàn)實技術(shù)的普及和硬件價格的提高,用戶們對虛擬視頻的內(nèi)容不斷提高,但是現(xiàn)今虛擬現(xiàn)實視頻生成都有制作難度強和制作成本高的問題,對以往有價值的音視頻素材進(jìn)行恢復(fù),提出了一種利用現(xiàn)有音視頻數(shù)據(jù)生成虛擬現(xiàn)實視頻的新方法,與傳統(tǒng)的VR視頻制作方法相比,該方法可以節(jié)省大量的時間、人力成本。

      猜你喜歡
      全景字幕音頻
      Word和Excel聯(lián)手字幕添加更高效
      戴上耳機,享受全景聲 JVC EXOFIELD XP-EXT1
      必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      全景敞視主義與偵探小說中的“看”
      音頻分析儀中低失真音頻信號的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      從5.1到全景聲就這么簡單 FOCAL SIB EVO DOLBY ATMOS
      全景搜索
      特別文摘(2016年21期)2016-12-05 17:53:36
      整合適應(yīng)選擇度下的動畫電影字幕翻譯——以《冰河世紀(jì)》的字幕漢譯為例
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      义乌市| 修武县| 新津县| 河津市| 涡阳县| 利辛县| 台安县| 历史| 河北区| 井冈山市| 阜南县| 张家港市| 光泽县| 齐河县| 城固县| 黄大仙区| 沧州市| 林周县| 安吉县| 安顺市| 六安市| 外汇| 广元市| 永济市| 杭州市| 韶关市| 长汀县| 施甸县| 大厂| 宣恩县| 武穴市| 孝义市| 连平县| 胶南市| 金塔县| 资阳市| 荣成市| 洛扎县| 陇川县| 东乌珠穆沁旗| 三江|