姜楠
摘要:文章通過提出視頻智能生產(chǎn)與生成的主要問題,追溯視頻智能創(chuàng)作發(fā)展的領(lǐng)域,通過調(diào)研發(fā)現(xiàn)國內(nèi)幾種視頻智能生產(chǎn)生成平臺App的現(xiàn)狀、模式和主要特色,概括分析了視頻智能生產(chǎn)的智能采集、智能剪輯、智能內(nèi)容生產(chǎn)、智能模板、智能拆條、智能分發(fā)、智能反饋、智能審核和智能虛擬主播9種主要應(yīng)用,對視頻機構(gòu)和視頻從業(yè)者提出了發(fā)展對策建議,旨在通過人工智能使得視頻生產(chǎn)與生成形成價值共創(chuàng)態(tài)勢,推動視頻媒體融合縱深發(fā)展。
關(guān)鍵詞:視頻;智能生產(chǎn);智能生成;發(fā)展趨勢
中圖分類號:TP311中圖分類號? 文獻標(biāo)志碼:A文獻標(biāo)志碼
0 引言
人工智能已經(jīng)成為當(dāng)下科技和產(chǎn)業(yè)變革的重要力量,隨著人工智能技術(shù)的不斷成熟,視頻生產(chǎn)生成與之結(jié)合后得到了進一步的發(fā)展,也促使了各類人工智能視頻生產(chǎn)與生成平臺和App的快速發(fā)展。目前,視頻智能生產(chǎn)與生成在人工智能的影響下具有以下特點:(1)平臺眾多,行業(yè)競爭不斷加大;(2)產(chǎn)品眾多,服務(wù)意識不斷增強;(3)模式眾多,用戶體驗不斷提高。人工智能對視頻生產(chǎn)與生成的影響由原來的“專業(yè)生產(chǎn)”轉(zhuǎn)變?yōu)椤皩I(yè)生產(chǎn)+智能生產(chǎn)+AI生成”。本文總結(jié)了人工智能時代影響下視頻智能生產(chǎn)與生成的發(fā)展、應(yīng)用及未來趨勢。
1 問題研究
1.1 視頻主體上:引發(fā)視頻生產(chǎn)職業(yè)生存的危機
視頻生產(chǎn)生成在人工智能的加入后不僅大大提高了視頻制作效率,同時也提高了更多視頻生產(chǎn)生成算法。然而,這樣的方式容易導(dǎo)致視頻制作者的職業(yè)生存主體性危機,原來以人為主的地位受到嚴(yán)重威脅,取而代之的是以機器制作、創(chuàng)作視頻內(nèi)容,不僅讓純技術(shù)人員受到了嚴(yán)重挑戰(zhàn),同時也侵占了視頻創(chuàng)作者產(chǎn)生視頻價值的權(quán)利,削弱了其專業(yè)性。這種被打破的視頻生產(chǎn)生成的模式將對視頻篩選、視頻把控以及視頻價值輸出產(chǎn)生極大的影響。
1.2 視頻內(nèi)容上:引發(fā)視頻內(nèi)容原創(chuàng)文本的失衡
視頻算法的機器性容易導(dǎo)致視頻內(nèi)容千篇一律、千差萬別或是偏離視頻文本的起初意圖,這就使得智能生產(chǎn)生成的視頻缺乏深度思考和認(rèn)知價值。當(dāng)視頻智能生產(chǎn)生成的內(nèi)容存在信息偏差甚至是倫理問題,就會失去人工生產(chǎn)時的價值標(biāo)準(zhǔn),從而失去了視頻內(nèi)容原創(chuàng)文稿的實際意義。
2 視頻智能生產(chǎn)與生成的內(nèi)涵及發(fā)展
2.1 智能視頻生產(chǎn)平臺的概念
在人工智能時代,視頻行業(yè)飛速發(fā)展,互聯(lián)網(wǎng)內(nèi)容的視頻化是大勢所趨。視頻內(nèi)容以及視頻創(chuàng)作逐漸成為一種新型信息交流的方式。作為新型媒介載體,相比傳統(tǒng)的圖文類創(chuàng)作,視頻內(nèi)容創(chuàng)作具有一定的門檻。隨著AI技術(shù)和傳統(tǒng)技術(shù)的結(jié)合,更多普通用戶和企業(yè)用戶可以便捷生產(chǎn)大批量的高清視頻。智能視頻生產(chǎn)平臺可以大大降低視頻制作的門檻,并提高視頻編輯效率[1]。這種機器生產(chǎn)內(nèi)容(Machine Generated Content,MGC)的原理就是根據(jù)文字內(nèi)容自動配圖制作視頻。這類視頻會對已有文章的內(nèi)容生成解說詞和配音,通過提取文章中的關(guān)鍵信息,實時獲取內(nèi)容相關(guān)的圖片和視頻素材,通過匹配技術(shù),自動對齊素材與解說內(nèi)容,合成自然流暢的短視頻內(nèi)容。這種由機器生產(chǎn)的視頻最大的特點就是速度快、效率高,平均生成1個視頻耗時2~3分鐘,每天可以生產(chǎn)500~1 000條視頻。通常MGC的內(nèi)容是依靠機器抓取而生成的,其視頻內(nèi)容往往缺乏邏輯性,如果不經(jīng)過精細(xì)化調(diào)整、打磨,觀看者在瀏覽或者運用的時候難以分辨其創(chuàng)作動機,內(nèi)容質(zhì)量會大打折扣。
智能視頻生產(chǎn)平臺主要解決的是視頻內(nèi)容的生產(chǎn)問題,通常分為4個模塊:智能拍攝、智能剪輯、智能包裝、智能模板。這些不同模塊的關(guān)鍵點在于智能標(biāo)簽。智能標(biāo)簽的識別是整個智能視頻生產(chǎn)平臺的基石。智能標(biāo)簽可以分為環(huán)境類、物體類、場景類、人物類等幾十個分類或者幾千個標(biāo)簽,這些標(biāo)簽構(gòu)成了AI智能剪輯標(biāo)簽的系統(tǒng)。系統(tǒng)從視頻的視覺、聽覺以及自然語義等不同維度,自動識別用戶所需素材。根據(jù)視頻內(nèi)容智能推薦模板,通過素材標(biāo)簽、模板標(biāo)簽智能匹配對應(yīng)。
2.2 智能視頻生產(chǎn)生成的發(fā)展進程
2.2.1 人工智能進入新聞領(lǐng)域
人工智能指由機器等人造物展現(xiàn)出的智能,即人造物對環(huán)境、信息等進行感知并在此基礎(chǔ)上采取相應(yīng)的符合其設(shè)計目標(biāo)的行動[2]。近年來,人工智能技術(shù)開始進入新聞領(lǐng)域。由人工智能技術(shù)所推動的智能新聞寫作浪潮通常被稱作“機器人新聞”或“算法新聞”,指在沒有人工干預(yù)的情況下,使用計算機軟件或算法自動生成新聞稿件的過程[3]。國內(nèi)最先出現(xiàn)的寫稿機器人是騰訊研發(fā)的 “DreamWriter”(寫作機器人)。此后,國內(nèi)媒體陸續(xù)開發(fā)寫稿機器人,如“快筆小新”“DT稿王”等,機器寫作在不同領(lǐng)域得到了廣泛應(yīng)用。
2.2.2 智能生成視頻
智能視頻最初是由PPT制作生產(chǎn)視頻樣式并播放。隨著剪輯工具的不斷開發(fā)和出現(xiàn),如千巴庫AI剪輯工具開發(fā)了“去重混剪”功能,它可以控制不同短視頻中相同出現(xiàn)的片段次數(shù)。在真人秀節(jié)目中,這項功能發(fā)揮了重要作用。真人秀節(jié)目拍攝過程中產(chǎn)生了超長時間拍攝時長素材,通常為1小時以上的視頻或者更長,通過AI智能剪輯,無須手動分割鏡頭,直接使用智能混剪進行處理,通過設(shè)置鏡頭分割時長和視頻時長,程序自動將所有導(dǎo)入視頻按等秒分割成一個鏡頭集,根據(jù)特定算法計算出該視頻集的最大合成視頻數(shù),再中度去重、高度去重以及完全去重。智能混剪技術(shù)在電視、新聞欄目中使用的頻率大大提高。
2.3 視頻智能生產(chǎn)的主要模式
2.3.1 模式一:單視頻+文案
一個視頻配一個文案,平臺或軟件自動把文案轉(zhuǎn)化成字幕以及真人發(fā)音,把視頻和字幕同時添加到視頻上,此模式適合電影解說、新聞講解等。系統(tǒng)根據(jù)所提供的文字稿件采集文字和視頻,從而把采集到的文字和視頻自動生成配音和字幕,采集到的視頻也會進行分割處理,并抓取片段進行合成,生成新的視頻。
2.3.2 模式二: 多視頻+文案
多個視頻隨機合成一個視頻,把文案轉(zhuǎn)化成字幕以及真人發(fā)音,同時將視頻和字幕添加到視頻上,此模式適合抖音等。
2.3.3 模式三: 多圖片+文案
多個圖片會根據(jù)預(yù)設(shè)的條件隨機合成一個視頻, 并把文案轉(zhuǎn)化成字幕以及真人發(fā)音,同時將視頻和字幕添加到視頻上,此模式適合大批量且視頻素材不足的情況。
2.3.4 模式四:單視頻
從視頻中提取文案,用戶隨時可修改文案,軟件會把修改后的文案轉(zhuǎn)化成字幕以及真人發(fā)音,同時將視頻和字幕添加到視頻上,此模式適合視頻加工。
2.3.5 模式五:圖文生成視頻
根據(jù)所提供的文字,快速生成符合文字的視頻,實現(xiàn)圖文到視頻的智能合成,自動對輸入的文字進行關(guān)鍵信息提取,合成解說詞和配音,同時獲取內(nèi)容相關(guān)的視頻素材,基于語義視覺理解和匹配技術(shù)完成素材選擇和解說視覺內(nèi)容自動對齊,完成視頻創(chuàng)作。以新聞視頻制作為例,將從原來的時間制作成本壓縮為秒級,人力成本也幾乎降為零。
2.4 國內(nèi)智能生產(chǎn)視頻的平臺(App)一覽
視頻資源的智能生產(chǎn)與動態(tài)生成是在大數(shù)據(jù)處理、智能算法的基礎(chǔ)上將視頻資源精準(zhǔn)篩選,對海量信息進行比對,根據(jù)數(shù)據(jù)算法智能推送,后期快速智能化剪輯,針對不同用戶實現(xiàn)精準(zhǔn)化、場景化、個性化的智能推送。如表1所示,智能視頻生產(chǎn)生成的平臺(App)大致分為以下幾種:一是由Magic(魔法)、智影、GliaStudio(集雅制作)為代表的智能視頻生產(chǎn)生成平臺,對媒資進行智能分析或是直接使用直播視頻源,即時完成人臉識別,并剪輯生成短視頻,實現(xiàn)視頻自動化。二是由來畫、美攝、巨量引擎等為代表的以數(shù)字人、虛擬主播為特色的,實現(xiàn)AI換臉、一鍵圖文轉(zhuǎn)視頻、AI批量化生產(chǎn)視頻。三是類似Remotion(移動)使用編程和算法較為復(fù)雜的實現(xiàn)視頻智能生產(chǎn)生成。四是數(shù)美科技主打通過智能標(biāo)簽實現(xiàn)智能審核,降低人工審核成本。
3 智能視頻生產(chǎn)與生成的主要應(yīng)用
3.1 智能采集
智能采集即利用人工智能和大數(shù)據(jù),快速獲取視頻相關(guān)數(shù)據(jù),通過視頻智能生產(chǎn)平臺自動獲取視頻相關(guān)的信息素材,經(jīng)過平臺一系列算法,采集視頻熱點;輸入預(yù)設(shè)視頻片段相關(guān)需求,平臺自動算出時間線索。例如:新浪自主研發(fā)的“鷹眼”平臺就是利用這樣的原理,同時結(jié)合大數(shù)據(jù)、人工智能算法對新聞進行篩選,采編團隊進行建模,從而第一時間發(fā)現(xiàn)潛在熱點并向用戶實時推薦。
3.2 智能剪輯
智能剪輯主要是對視頻不進行人工干預(yù),設(shè)定剪輯策略后由AI自動識別視頻內(nèi)容,識別檢測視頻素材、智能選取剪輯、自動添加字幕、自動音樂節(jié)奏、二次編輯、自動添加濾鏡等功能。(1)對視頻進行智能AI識別,識別風(fēng)格化場景,從不同維度構(gòu)建識別內(nèi)容體系,對視頻片段進行裁剪。經(jīng)過評分系統(tǒng)挑選出視頻的精彩片段,根據(jù)精彩片段自動導(dǎo)入內(nèi)容。(2)挑選出不同的包裝方案,這些包裝方案會生成不同效果,根據(jù)評分系統(tǒng)模擬用戶的設(shè)想并組合出成品。(3)通過識別內(nèi)容,在字幕庫內(nèi)選擇符合場景的特效作為包裝元素添加到視頻里面,包括濾鏡、音樂節(jié)奏的自動打點,從而實現(xiàn)智能剪輯的高效創(chuàng)作。
智能剪輯也可以根據(jù)客戶的定制化需求進行創(chuàng)作,以《王者榮耀》為例,根據(jù)游戲中主角的特技識別他在游戲中的主要功能,是防還是守,并通過擊殺動作來區(qū)分不同的場景片段,組合這些精彩片段并賦予包裝效果,例如音樂卡點、字幕濾鏡貼紙,包括火光或是光輪等效果,便可以達到簡單的預(yù)想效果,大大減少了視頻制作時間。
3.3 智能內(nèi)容生產(chǎn)
智能內(nèi)容生產(chǎn)根據(jù)特殊場景自動輸出畫面,尤其應(yīng)用在突發(fā)性的新聞事件中[4]。在2022年兩會期間,解放軍強軍網(wǎng)智能生產(chǎn)生成視頻并獲得好評。具體內(nèi)容是智能軟件自動識別航天英雄楊利偉語音和對話,并利用綠幕等效果達到觀眾與楊利偉現(xiàn)場對話的效果。觀眾可以根據(jù)自己的喜好進行AI換臉互動,這樣讓新聞人物與觀眾大大拉近了物理距離。
3.4 智能模板
智能模板和智能剪輯的區(qū)別在于,智能剪輯是一個完全智能化的場景,不需要人工干預(yù),而智能模板更靈活,它可以在運用模板之前由用戶根據(jù)識別內(nèi)容、識別標(biāo)簽和模板標(biāo)簽做標(biāo)簽匹配,產(chǎn)生模板推薦,這樣就可以靈活選擇符合內(nèi)容創(chuàng)作意圖的模板。
3.5 智能拆條
智能拆條主要應(yīng)用于傳統(tǒng)的電視臺、企業(yè)宣傳的新聞類拆條。會議報道或者體育類、晚會類的節(jié)目后期制作都是目前正在研究的方向。將智能拆條和云剪相結(jié)合,根據(jù)原始素材篩選,并通過不同維度在時間上粗略的切割,再根據(jù)識別到的素材篩選與之合并,從而達到智能分割、拆條的效果,有利于新聞編輯的再利用以及開發(fā)重組。
3.6 智能分發(fā)
智能分發(fā)依賴于高效的智能算法,大大改變了信息傳播鏈和傳播結(jié)構(gòu),通過深度機器學(xué)習(xí)算法將用戶的偏好、行為等數(shù)據(jù)進行分析、計算、建模、評估以及推測出用戶的潛在需求,通過算法自動抽取、整合、編排信息,最終實現(xiàn)個性化、定制化的內(nèi)容推薦。以Facebook為例,其采用邊際排名算法并緊扣用戶社交關(guān)系進行新聞分發(fā),最大化發(fā)揮了社交關(guān)系優(yōu)勢和流量優(yōu)勢。
3.7 智能反饋
媒體通過實時評估與綜合評價海量數(shù)據(jù)和超大規(guī)模計算,使內(nèi)容生產(chǎn)者可以對各個環(huán)節(jié)進行調(diào)整和反饋,提升運營效率,同時為輿情管理、虛假信息治理、版權(quán)保護提供依據(jù)。大數(shù)據(jù)挖掘、語義分析等智能技術(shù)可以對網(wǎng)絡(luò)輿情進行深度分析,準(zhǔn)確把握當(dāng)前輿論態(tài)勢,提高輿情預(yù)測、預(yù)警和研判效率。
3.8 智能審核
從現(xiàn)階段的AI智能視頻審核上看,完全依賴人審或機審并不能完全滿足不同視頻平臺的各類審核要求。尤其對于大型直播平臺,審核要求和審核方式的多樣化與標(biāo)準(zhǔn)度維度更高。因此,通過各種算法研究,結(jié)合各類視頻審核的落地場景進行技術(shù)分析,最直接有效的方法就是利用“人審+機審”的審核方案進行智能視頻內(nèi)容識別,添加智能標(biāo)簽進行直接分類,不僅能夠大大減少視頻平臺的人力成本,還能大量減少重復(fù)性審核工作。
3.9 智能虛擬主播
用戶通過登錄主播制作后臺,只需輸入文字內(nèi)容,通過智能語音合成、AI面部驅(qū)動及專業(yè)視頻編輯能力,自動生成一個逼真的虛擬主播視頻,大大提高新聞播報生產(chǎn)效率,實現(xiàn)靈活部署、智能合成、唇音同步的特點。近幾年,這項功能在卡通類、3D、仿真人的虛擬主播應(yīng)用廣泛,通過AI學(xué)習(xí)驅(qū)動任務(wù)的嘴部,結(jié)合輸入的文字轉(zhuǎn)音頻,形成虛擬主播的演示。
4 AI技術(shù)賦能視頻生產(chǎn)生成的對策
4.1 視頻機構(gòu):加快技術(shù)聯(lián)合和目標(biāo)切分
視頻生產(chǎn)生成是一個不斷技術(shù)攻堅的過程,隨著AI的不斷發(fā)展和算法提高,對該市場的技術(shù)聯(lián)合和加速推進,不斷完成目標(biāo)切分,使得眾多以視頻為主的技術(shù)公司投入更多的精力和實力在自己擅長的領(lǐng)域。
4.1.1 素材結(jié)構(gòu)化
視頻素材,即非結(jié)構(gòu)化的數(shù)據(jù),例如圖片、視頻、音頻、文字等,通常情況下不打開文件并不能像文本可以搜索定位。而智能視頻生產(chǎn)的第一步就是將素材內(nèi)容非結(jié)構(gòu)化的數(shù)據(jù)進行結(jié)構(gòu)化的處理,方便智能識別分類,業(yè)務(wù)打包或者細(xì)分,將是未來發(fā)展的一種常見路徑。
4.1.2 數(shù)據(jù)標(biāo)簽化
結(jié)構(gòu)化的數(shù)據(jù),將其輸入標(biāo)簽,有利于機器檢索。例如一些火災(zāi)場景可以快速打上突發(fā)事件標(biāo)簽;還有一些新聞視頻可以根據(jù)標(biāo)簽快速將視頻中的語音轉(zhuǎn)成文字等。這些利用標(biāo)簽匹配實體的做法,可以快速被識別、調(diào)取、組合,進行精準(zhǔn)搜索,實現(xiàn)精準(zhǔn)定位視頻中人物出現(xiàn)的位置、一鍵上字幕等操作。數(shù)據(jù)標(biāo)簽是視頻AI生產(chǎn)生成的基礎(chǔ),這部分內(nèi)容如果形成數(shù)據(jù)聯(lián)網(wǎng)或者規(guī)模化,將使得視頻數(shù)據(jù)更加豐富和避免重復(fù)。
4.1.3 場景可視化
智能視頻創(chuàng)作可以將需要展示的數(shù)據(jù),例如股票走勢圖等信息的場景,自動進行數(shù)據(jù)可視化,從而將數(shù)據(jù)轉(zhuǎn)變?yōu)橐曨l或者圖像,增加了用戶跟蹤、觀看的黏性。
4.1.4 視頻模板化
視頻可以匹配不同的視頻模板,例如新聞開頭的嚴(yán)肅模板、娛樂綜藝節(jié)目的活潑樣式,均可以形成模板供用戶使用。模板中的轉(zhuǎn)場、字幕效果、特效等也可以自主定義或自行修改,通過模板的應(yīng)用,用戶只需修改文字或標(biāo)題就可以一鍵生成精美視頻。
4.2 視頻從業(yè)者:拓展業(yè)務(wù)適應(yīng)和策略調(diào)整
視頻AI生產(chǎn)生成打破了傳統(tǒng)的視頻內(nèi)容生產(chǎn)創(chuàng)作方式,對視頻制作和技術(shù)人員產(chǎn)生了很大的影響,從角色定位、工作流程、價值碰撞再到職業(yè)認(rèn)同都必須做出業(yè)務(wù)上的適應(yīng)和調(diào)整。目前,AI視頻創(chuàng)作和生產(chǎn)在創(chuàng)新環(huán)節(jié)上還有待進步,這方面就需要視頻創(chuàng)作者利用自己的優(yōu)勢和經(jīng)驗在創(chuàng)新發(fā)展上做更多的研究。
5 結(jié)語
人工智能的快速發(fā)展使得視頻生產(chǎn)與生成越來越智能。人工智能引入視頻生產(chǎn)生成之后,實現(xiàn)了內(nèi)容生產(chǎn)的模塊化、自動化甚至是創(chuàng)新性。本文總結(jié)了視頻生產(chǎn)生成的發(fā)展、構(gòu)成及未來趨勢,整體上概括了視頻智能生產(chǎn)生成的具體模式及方式。AI人工智能融合視頻生產(chǎn)與生成大大提高了視頻產(chǎn)出的效率,節(jié)約了人力、物力,突破了傳統(tǒng)的平臺、內(nèi)容、渠道等的限制因素,讓機器協(xié)助生產(chǎn)內(nèi)容、突破內(nèi)容生成方式、有效將視頻資源整合、生產(chǎn)發(fā)布業(yè)務(wù)創(chuàng)新、智能應(yīng)用視頻場景、釋放技術(shù)能力,從而讓媒體從業(yè)者聚焦更核心的創(chuàng)新能力,取代標(biāo)準(zhǔn)化的體力勞動。這為以后視頻智能生產(chǎn)生成應(yīng)用于教學(xué)、廣電等提供了思路,也為視頻生產(chǎn)與生成的產(chǎn)品和應(yīng)用帶來新的前景和轉(zhuǎn)型,進一步實現(xiàn)智能升級、交互升級,更好、更快、更準(zhǔn)賦能媒體工作者和相關(guān)機構(gòu)。
參考文獻
[1]李平,楊政銀.人機融合智能:人工智能3.0[J].清華管理評論,2018(增刊2):73-82.
[2]傅丕毅,徐常亮,陳毅華.“媒體大腦”提供了怎樣的深度融合新模式[J].新聞與寫作,2018(4):11-15.
[3]李琳娟.人工智能時代下的視頻新聞發(fā)展及思考[J].傳媒,2019(7):62-64.
[4]葉芷,馬彩虹,戴兵.百度智能云視頻AI技術(shù)助力媒體行業(yè)產(chǎn)業(yè)升級[J].人工智能,2020(2):73-82.
(編輯 王永超)
Connotation, application and development of video intelligent production and generation
Jiang? Nan
(Guangdong Open University, Guangzhou 510091, China)
Abstract:? This paper puts forward the main problems of video intelligent production and generation, traces the development field of video intelligent creation, and finds out the current situation, mode and main characteristics of several domestic video intelligent production and generation platforms (Apps) through research, and summarizes and analyzes the intelligent collection, intelligent editing, intelligent content production, intelligent template, intelligent strip splitting, intelligent distribution, intelligent feedback nine main applications, including intelligent audit and intelligent virtual anchor. It puts forward development countermeasures and suggestions for video institutions and video practitioners, aiming to create a value co-creation situation for video production and generation through AI, and promotes the in-depth development of video media integration.
Key words: video; intelligent production; intelligent generation; development trend