谷青
中央廣播電視總臺(tái) 北京 100038
在新時(shí)期背景下,人工智能技術(shù)可以說(shuō)是在不斷完善與迭代,在深度學(xué)習(xí)技術(shù)的快速發(fā)展下,關(guān)于自然語(yǔ)言以及圖像處理等方面的人工智能技術(shù)也在進(jìn)一步深入研究,這也為該技術(shù)的全面應(yīng)用奠定了良好基礎(chǔ)。在視頻制作中應(yīng)用人工智能技術(shù),不僅能夠大大降低視頻制作的難度與強(qiáng)度,滿足當(dāng)前規(guī)模不斷壯大的短視頻制作需求,還能夠進(jìn)一步將視頻制作提升到新的層面,有利于提高視頻制作行業(yè)的高質(zhì)量可持續(xù)發(fā)展。
人工智能技術(shù)又稱AI,也是當(dāng)前21世紀(jì)三大尖端技術(shù)之一。作為計(jì)算機(jī)科學(xué)的重要分支,人工智能技術(shù)能夠?qū)θ祟惖闹悄芾碚?、方法、技術(shù)以及應(yīng)用系統(tǒng)進(jìn)行深度的研究、開(kāi)發(fā)、模擬以及拓展。在計(jì)算機(jī)領(lǐng)域中,人工智能技術(shù)已經(jīng)有了較為深入的研究與應(yīng)用,例如機(jī)器人、控制系統(tǒng)以及仿真系統(tǒng)等。隨著當(dāng)前信息技術(shù)的不斷發(fā)展,越來(lái)越多的高新技術(shù)開(kāi)始進(jìn)入人民群眾的日常生活當(dāng)中,人工智能技術(shù)也不例外,小到智能音箱、停車場(chǎng)車牌自動(dòng)設(shè)備以及智能家居,大到汽車自動(dòng)駕駛、AlphaGo(阿爾法圍棋)以及醫(yī)用機(jī)器人等,都對(duì)日常生活與生產(chǎn)帶來(lái)了諸多利好,充分發(fā)揮著該技術(shù)的實(shí)際應(yīng)用價(jià)值。由于當(dāng)前應(yīng)用的人工智能技術(shù)仍歸屬于弱人工智能,無(wú)法完全脫離人工自主運(yùn)行,因此還需要進(jìn)一步深入研究。盡管如此,人工智能技術(shù)的應(yīng)用還是在很大程度上緩解了當(dāng)前工作中的強(qiáng)度與難度,為工作質(zhì)量與效率的提升提供了重要手段。
隨著近些年來(lái)人工智能技術(shù)的滲透,以自然語(yǔ)言與圖像處理等方面為代表的技術(shù)手段開(kāi)始進(jìn)入視頻制作中。傳統(tǒng)人工視頻制作與剪輯更多的是通過(guò)軟件程序來(lái)進(jìn)行處理,而在人工智能技術(shù)的幫助下,視頻制作開(kāi)始向批量化加工轉(zhuǎn)變,從平臺(tái)系統(tǒng)中來(lái)加以處理,并保證了視頻內(nèi)容的完整性與可靠性,從而有效降低了人工視頻制作的復(fù)雜程度,減輕了視頻制作人員的壓力。同時(shí),借助人工智能技術(shù),能夠進(jìn)一步降低視頻制作的門檻。人們通過(guò)先進(jìn)的軟件程序就能夠?qū)崿F(xiàn)視頻全流程制作,包括了剪輯、加工、字幕等,視頻制作質(zhì)量與效率也得以提高。
在傳統(tǒng)的視頻制作流程來(lái)看,主要包括了視頻采集、制作、播出、用戶體驗(yàn)這四個(gè)方面。而隨著技術(shù)的不斷進(jìn)步,在視頻采集方面,除了專業(yè)的攝像機(jī)設(shè)備采集視頻,還可以利用當(dāng)前的手機(jī)等智能移動(dòng)設(shè)備來(lái)實(shí)現(xiàn)視頻素材的拍攝,人人都可以是視頻的生產(chǎn)者。而在視頻的生產(chǎn)制作上,大多數(shù)的手機(jī)設(shè)備都已經(jīng)具備了相當(dāng)便捷的編輯程序,包括專場(chǎng)、濾鏡、特效等多個(gè)功能。在播出環(huán)節(jié)中,從以往的電視播出,到如今只需要借助互聯(lián)網(wǎng)就能觀看。最后在用戶體驗(yàn)上,以往的視頻在播出時(shí)更多的就是用戶單向接收,而如今各類視頻軟件都已經(jīng)加入了彈幕、評(píng)論以及點(diǎn)贊等交互功能,極大地改善了用戶的體驗(yàn)[1]。從中能夠看出,“視頻+AI”的形式已經(jīng)深入視頻制作的每一個(gè)環(huán)節(jié)當(dāng)中,進(jìn)一步促進(jìn)了行業(yè)的發(fā)展與轉(zhuǎn)型。
3.1.1 美顏濾鏡功能
在視頻制作當(dāng)中,大多數(shù)的影像對(duì)于畫(huà)質(zhì)都有一定的要求,這也是視頻整體質(zhì)量中最為關(guān)鍵的一點(diǎn)。從視頻制作誕生以來(lái),對(duì)于畫(huà)質(zhì)提升的追求與研究一直都在不斷推進(jìn)與深入,類似Photoshop以及DR等軟件在畫(huà)質(zhì)提升方面都有其自身優(yōu)勢(shì)。隨著近些年來(lái)人工智能技術(shù)的進(jìn)步,不僅專業(yè)人士能夠制作出畫(huà)質(zhì)較高的視頻,越來(lái)越多的視頻制作愛(ài)好者也能借助該技術(shù)來(lái)實(shí)現(xiàn)視頻制作,同時(shí)畫(huà)質(zhì)也能有所保證,而其中美顏濾鏡就是對(duì)畫(huà)質(zhì)提升最重要的一項(xiàng)功能。從當(dāng)前大多數(shù)具備美顏功能的軟件算法來(lái)看,主要就包括了瘦臉、磨皮、美白等功能。就拿某視頻平臺(tái)美顏技術(shù)來(lái)說(shuō),其主要是一套基于“深度學(xué)習(xí)+圖像處理+圖像學(xué)”的技術(shù),其中關(guān)鍵技術(shù)在于人臉檢測(cè)、關(guān)鍵點(diǎn)定位、瘦臉、磨皮以及美白等,在完成對(duì)用戶人臉的檢測(cè)后,使用OpenGL以及Metal來(lái)實(shí)現(xiàn)人臉?shù)秩荆罱K實(shí)現(xiàn)即時(shí)美顏。通過(guò)美顏技術(shù),能夠有針對(duì)性地向用戶提供更加精細(xì)化的視頻制作服務(wù),在很大程度上提高了視頻的質(zhì)量。
在視頻的畫(huà)質(zhì)提升與圖像美化當(dāng)中,濾鏡也是較為常見(jiàn)的制作流程。濾鏡從其最初的概念來(lái)看,就是指在相機(jī)鏡頭外部安裝的附加鏡頭,主要功能就是將自然光進(jìn)行過(guò)濾,實(shí)現(xiàn)圖像的風(fēng)格化調(diào)色。在當(dāng)前人工智能技術(shù)當(dāng)中,濾鏡從其本身的物理功能開(kāi)始轉(zhuǎn)化為虛擬功能,在濾鏡算法的加持下,通過(guò)軟件程序的調(diào)色就能夠?qū)Ω鞣N風(fēng)格的濾鏡進(jìn)行模擬,實(shí)現(xiàn)視頻制作者想要的效果[2]。隨著人工智能技術(shù)的深入,越來(lái)越多的濾鏡風(fēng)格被應(yīng)用在視頻制作當(dāng)中,其效果已經(jīng)遠(yuǎn)超于傳統(tǒng)的物理濾鏡。
3.1.2 畫(huà)質(zhì)修復(fù)功能
在視頻制作當(dāng)中,傳統(tǒng)的畫(huà)質(zhì)修復(fù)技術(shù)十分復(fù)雜,不僅會(huì)耗費(fèi)大量的時(shí)間成本與人力成本,其最終修復(fù)效果往往也不盡如人意。在人工智能技術(shù)的應(yīng)用下,通過(guò)深度學(xué)習(xí)能夠?qū)崿F(xiàn)對(duì)畫(huà)質(zhì)失真、失色的舊視頻與舊照片的修復(fù)、翻新等目的。
在當(dāng)前的互聯(lián)網(wǎng)平臺(tái)中,經(jīng)常能夠見(jiàn)到對(duì)上個(gè)世紀(jì)視頻錄像的修復(fù),例如2021年,一位博主就在其社交平臺(tái)上發(fā)布了其視頻修復(fù)的項(xiàng)目,在AI技術(shù)深度學(xué)習(xí)的應(yīng)用下,該博主將一段由加拿大攝影師在一百年前拍攝的北京視頻進(jìn)行了修復(fù),原本畫(huà)質(zhì)模糊、黑白且有些許卡頓的畫(huà)面被重新還原,同時(shí)還能更加流暢,使人們能夠更加貼近歷史,深受年輕用戶的喜愛(ài)與好評(píng)。此外,在2020年國(guó)慶前,中央廣播電視總臺(tái)也使用了AI修復(fù)技術(shù),將1956年拍攝的黑白電影《上甘嶺》中《我的祖國(guó)》這一片段進(jìn)行了修復(fù),在社會(huì)上引起了良好的反響。從相關(guān)報(bào)道來(lái)看,這次修復(fù)是采用了傳統(tǒng)修復(fù)與人工智能上色技術(shù)結(jié)合的手段,通過(guò)4K數(shù)字化修復(fù)技術(shù)將電影膠片中存在的物理?yè)p傷消除,并使用AI上色實(shí)現(xiàn)了畫(huà)面的彩色化[3]。具體到畫(huà)質(zhì)修復(fù)的實(shí)際操作上,主要包括了畫(huà)面修復(fù)、著色以及擴(kuò)分辨率這三個(gè)步驟。
首先,從畫(huà)面修復(fù)上來(lái)看,對(duì)于老視頻的修復(fù)主要是需要補(bǔ)幀。由于修復(fù)的視頻大部分是20世紀(jì)早期的影像資料,當(dāng)時(shí)視頻制作與拍攝設(shè)備等條件有限,如今來(lái)看會(huì)發(fā)現(xiàn)其畫(huà)面存在卡頓、閃爍等情況,通過(guò)AI修復(fù)技術(shù)能夠?qū)恃a(bǔ)足,使得畫(huà)面看上去幀率提升而更加流暢,特別是將視頻修復(fù)成4K畫(huà)質(zhì),補(bǔ)幀是其中最關(guān)鍵的流程。在補(bǔ)幀技術(shù)當(dāng)中,目前較為成熟的是DAIN模型,該模型是以深度感知為基礎(chǔ),通過(guò)對(duì)畫(huà)面進(jìn)行深度檢測(cè)來(lái)劃分遮擋層,并以深度感知的光流投影層開(kāi)發(fā)來(lái)合成為中間流,最終實(shí)現(xiàn)對(duì)視頻畫(huà)面的插幀,進(jìn)而提高視頻的FPS值。從DAIN模型的環(huán)節(jié)架構(gòu)中看,給定兩個(gè)節(jié)點(diǎn)的輸入幀,借助對(duì)光流以及深度圖的估測(cè),并以深度感知的流投影層來(lái)合成中間流,最終將光流與局部差值內(nèi)核在DAIN模型中與輸入幀、上下特征等進(jìn)行扭曲,最終導(dǎo)出輸出幀,達(dá)到補(bǔ)幀的最終目的。
其次,從畫(huà)面著色來(lái)看,在黑白視頻影視資料中,畫(huà)面上色也是修復(fù)當(dāng)中最為顯著的一項(xiàng)特征。在以往的人工著色技術(shù)當(dāng)中,不僅費(fèi)時(shí)費(fèi)力,其最終效果也僅僅差強(qiáng)人意,著色的準(zhǔn)確率也一直不高。通過(guò)對(duì)AI修復(fù)技術(shù)的應(yīng)用,可以更加便捷地實(shí)現(xiàn)對(duì)視頻的著色修復(fù),并在上色算法中進(jìn)行深度學(xué)習(xí),通過(guò)相關(guān)的影片歷史資料來(lái)確保修復(fù)后的視頻更加還原當(dāng)時(shí)的時(shí)代環(huán)境。當(dāng)前對(duì)于AI著色模型,使用較多的是基于深度學(xué)習(xí)的DeOldify。該模型在具體使用中對(duì)于視頻與圖片進(jìn)行了劃分,制作者能夠根據(jù)自身需求來(lái)進(jìn)行選擇,在視頻修復(fù)中,主要是應(yīng)用了其中的NoGAN方法來(lái)進(jìn)行模型訓(xùn)練,將視頻渲染上色[4]。
最后,從擴(kuò)分辨率上來(lái)看,通過(guò)將過(guò)往視頻資料的分辨率進(jìn)行提升,能夠修復(fù)視頻中模糊不清的情況,以此來(lái)滿足當(dāng)前用戶的觀看需求以及平臺(tái)播出標(biāo)準(zhǔn)。近些年來(lái),上海美術(shù)電影制片廠出品的《葫蘆兄弟》《小蝌蚪找媽媽》等經(jīng)典動(dòng)畫(huà)都通過(guò)4K修復(fù)被重新搬到大銀幕上,2021年底,《天書(shū)奇譚》也以4K形式進(jìn)行了重映,喚醒了多數(shù)80后、90后的童年回憶。隨著深度學(xué)習(xí)與AI算法的進(jìn)步,從2006年到2022年,中國(guó)電影資料館就完成了超過(guò)550部電影的2K修復(fù),4K修復(fù)的影片數(shù)量也在不斷增長(zhǎng)。在當(dāng)前擴(kuò)分辨率的AI修復(fù)方案中,主要是采用了ESRGAN模型,其修復(fù)效果也較其他產(chǎn)品更佳。
3.2.1 字幕配音功能
在視頻制作當(dāng)中,配音播報(bào)也是較為普遍的環(huán)節(jié),通過(guò)事先編輯好的解說(shuō)詞,采取人工錄制的方式來(lái)進(jìn)行配音,滿足部分解說(shuō)類視頻的需求。在傳統(tǒng)的字幕配音中,需要在配音完成后,對(duì)字幕時(shí)間加以修改,確保字幕與時(shí)間節(jié)點(diǎn)能夠匹配,以此來(lái)保證視頻中字幕與配音的同步,提高視頻質(zhì)量。不過(guò)在這一環(huán)節(jié)中,會(huì)花費(fèi)大量的時(shí)間去制作與匹配,同時(shí),如果配音員存在口音或?qū)I(yè)水平不足,會(huì)導(dǎo)致整體視頻的觀感大大降低。因此,在人工智能技術(shù)的應(yīng)用中,基于深度學(xué)習(xí)的語(yǔ)音算法能夠?qū)⒆帜贿M(jìn)行一鍵配音,字幕與視頻的時(shí)間節(jié)點(diǎn)也能夠完美匹配[5]。當(dāng)前,各大視頻平臺(tái)都提供了相應(yīng)的字幕配音功能,極大地縮短了視頻制作的周期,同時(shí)在技術(shù)應(yīng)用中也更為精細(xì)化,不少軟件都提供了包括中文、英文等多個(gè)國(guó)家的字幕配音,另外在年齡段、性別以及語(yǔ)速方面都能夠根據(jù)需求供制作者選擇。
3.2.2 字幕提取功能
在人工智能技術(shù)下,視頻字幕也可根據(jù)人聲自動(dòng)提取。在部分訪談?lì)惢驎?huì)議類的視頻字幕制作中,傳統(tǒng)的制作方式需要根據(jù)視頻人聲來(lái)一字一句手動(dòng)輸入,并根據(jù)時(shí)間節(jié)點(diǎn)調(diào)整字幕,整個(gè)流程較為煩瑣。在語(yǔ)音識(shí)別技術(shù)的加持下,能夠一鍵識(shí)別視頻資料中的人聲,同時(shí)字幕也能與語(yǔ)音節(jié)點(diǎn)完美匹配。從當(dāng)前技術(shù)應(yīng)用現(xiàn)狀來(lái)看,針對(duì)環(huán)境干擾較少、發(fā)音良好的視頻語(yǔ)音,字幕提取的效果都能夠有所保證,準(zhǔn)確率也在98%以上。
3.2.3 虛擬主播功能
在視頻字幕的人工智能技術(shù)應(yīng)用下,不僅能夠?qū)崿F(xiàn)上述提到的字幕配音與提取功能,如今虛擬主播功能也逐步在行業(yè)中有所成果。在新聞視頻的制作中,通過(guò)將事先編輯的文案添加到軟件當(dāng)中,就能夠即時(shí)合成虛擬主播。同時(shí),虛擬主播的口型也能夠與文字進(jìn)行匹配,極大地提高了用戶的觀感。不僅如此,虛擬主播的形象以及視頻背景都實(shí)現(xiàn)一鍵替換,大大降低了新聞播報(bào)中的人工工作量。2018年,全球首個(gè)AI虛擬主播在我國(guó)問(wèn)世,2022年北京冬奧會(huì)上,雙語(yǔ)虛擬主播、手語(yǔ)主播等都相繼亮相,這也標(biāo)志著虛擬主播行業(yè)逐步進(jìn)入快速發(fā)展的階段[6]。在人工智能技術(shù)不斷迭代升級(jí)的背景下,虛擬主播技術(shù)也愈發(fā)成熟,從二維到三維,從粗糙化到如今細(xì)化到頭發(fā)絲,虛擬主播慢慢在向現(xiàn)實(shí)靠近。
3.3.1 智能編目與檢索功能
在視頻制作當(dāng)中,通常會(huì)需要大量的視頻素材,而在選擇素材時(shí)由于素材庫(kù)數(shù)量龐大,往往會(huì)讓制作者花費(fèi)較多的時(shí)間精力去查找,對(duì)視頻制作工作造成了一定的困擾。特別是在素材庫(kù)的編目中如果不加以細(xì)化,也會(huì)進(jìn)一步增加片段查找的難度。在人工智能技術(shù)與視頻制作的融合中,智能識(shí)別技術(shù)的應(yīng)用也愈發(fā)成熟,不僅能夠自動(dòng)識(shí)別視頻中的語(yǔ)音、文字等重要因素,還能夠自動(dòng)完成編目,最終實(shí)現(xiàn)素材庫(kù)快速檢索的目的。通過(guò)智能編目與檢索功能,能夠大大降低視頻制作中素材查找的時(shí)間投入,縮短視頻制作周期,并進(jìn)一步降低視頻制作者的工作強(qiáng)度。
3.3.2 AI換臉功能
在人工智能技術(shù)的應(yīng)用下,還有一項(xiàng)較為熱門的技術(shù)功能,就是AI換臉。AI換臉技術(shù)也是基于深度學(xué)習(xí)等方法來(lái)實(shí)現(xiàn)深度偽造,當(dāng)前應(yīng)用較多的就是生成式對(duì)抗網(wǎng)絡(luò)(GAN)技術(shù),其中主要包括了重現(xiàn)、替換、編輯以及合成這四種類型。當(dāng)前的技術(shù)模型通過(guò)采集3~5張個(gè)人的表情信息,就能夠?qū)崿F(xiàn)即時(shí)換臉的效果,在視頻制作中,通過(guò)AI換臉也能夠大大減少重復(fù)性的片段拍攝,并且進(jìn)行表情修復(fù)[7]。不過(guò)當(dāng)前AI換臉技術(shù)在其應(yīng)用上仍有許多不足,同時(shí)還會(huì)涉及隱私權(quán)、肖像權(quán)等法律問(wèn)題,因此在功能的使用中還需確保合法合規(guī)性。
綜上所述,在人工智能技術(shù)不斷深入優(yōu)化的時(shí)代背景下,視頻制作工作也變得更加便捷與高效。在人工智能技術(shù)與視頻制作行業(yè)的不斷磨合過(guò)程中,通過(guò)智能處理系統(tǒng),能夠?qū)崿F(xiàn)多項(xiàng)突破性的應(yīng)用。在視頻影像自主處理編排修復(fù)的過(guò)程中,有效減少了人工投入,在很大程度上提高了視頻制作的質(zhì)量與效率,為視頻行業(yè)的發(fā)展也帶來(lái)了諸多利好。不過(guò)在其融合過(guò)程中,也要正視人工智能技術(shù)本身的局限性,并通過(guò)更加合理的使用來(lái)確保該技術(shù)應(yīng)用的價(jià)值最大化,為視頻制作行業(yè)的進(jìn)步提供更多活力。