孫 榮
(大連新聞傳媒集團(tuán),遼寧 大連 116022)
人工智能(AI)已經(jīng)走入電商、教育、安防、醫(yī)療、汽車等各個(gè)領(lǐng)域,使各行各業(yè)飛速發(fā)展,改變社會(huì)的生產(chǎn)、生活。當(dāng)然,人工智能也在走入廣電領(lǐng)域。國(guó)家廣播電視總局發(fā)布的《廣播電視人工智能應(yīng)用白皮書(2018版)》中提到,“廣播電視終端趨于智能化,亟需探索實(shí)踐人工智能與 廣播電視行業(yè)的深度融合,推動(dòng)人工智能在廣播電視內(nèi)容生產(chǎn)、制作播出、分發(fā) 傳輸、終端消費(fèi)、運(yùn)行維護(hù)、監(jiān)測(cè)監(jiān)管、網(wǎng)絡(luò)安全等領(lǐng)域的廣泛應(yīng)用,加快廣播 電視從數(shù)字化、網(wǎng)絡(luò)化向智能化發(fā)展,提升廣播電視行業(yè)生產(chǎn)效率,開發(fā)新業(yè)態(tài)、 提供新服務(wù)、激發(fā)新動(dòng)能、引導(dǎo)新供給、拉動(dòng)新消費(fèi),推動(dòng)國(guó)民經(jīng)濟(jì)發(fā)展”[1]。
從廣電、網(wǎng)絡(luò)傳播所輻射的視頻市場(chǎng)來看,傳統(tǒng)的電視媒體、網(wǎng)絡(luò)視頻、移動(dòng)終端視頻、戶外媒體視頻,這些海量視頻的消費(fèi)已成為新的全民生活方式。
截止到2019年底,中國(guó)網(wǎng)絡(luò)視頻(含短視頻)用戶達(dá)7.59億,網(wǎng)絡(luò)視頻(含短視頻)是中國(guó)第二大互聯(lián)網(wǎng)應(yīng)用,僅次于即時(shí)通信,市場(chǎng)規(guī)模達(dá)1871.3億元[2]。
如此旺盛的視頻市場(chǎng),讓廣電充盈的視頻素材庫(kù)和優(yōu)異的制作技術(shù)有了充足的發(fā)揮舞臺(tái)。將人工智能與視頻素材、制作技術(shù)結(jié)合,還會(huì)創(chuàng)造出新的增長(zhǎng)點(diǎn)。
除此之外,版權(quán)市場(chǎng)的日趨成熟,“加強(qiáng)版權(quán)保護(hù)”、“推進(jìn)文化體制機(jī)制創(chuàng)新”和“以激發(fā)全民族文化創(chuàng)造活力為中心環(huán)節(jié)”是發(fā)展文化產(chǎn)業(yè)的根本之策。激發(fā)創(chuàng)作活力和建設(shè)公平的市場(chǎng)競(jìng)爭(zhēng)環(huán)境的關(guān)鍵手段是加強(qiáng)版權(quán)保護(hù)[3]。在此基礎(chǔ)上,電視臺(tái)龐大的正版內(nèi)容有了保障,精良的制作有了發(fā)展空間,形成了視頻市場(chǎng)的良性循環(huán),也成為廣電在新時(shí)代、新技術(shù)下發(fā)展的優(yōu)勢(shì)。
具備了這些優(yōu)勢(shì),如何利用人工智能等技術(shù)手段將廣電行業(yè)中積累的龐大素材庫(kù)盤活,并發(fā)揮其更大的效用,成為重要課題。
大連新聞傳媒集團(tuán)根據(jù)國(guó)家廣播電視總局指導(dǎo)要求,結(jié)合自身發(fā)展特點(diǎn),用漸進(jìn)的方式實(shí)現(xiàn)人工智能在整個(gè)集團(tuán)的應(yīng)用落地。
大連新聞傳媒集團(tuán)約在5年前全面停止了標(biāo)清設(shè)備的使用,正式邁入了純高清時(shí)代。但是標(biāo)清素材有三十萬小時(shí)之巨,而且其中大部分極具歷史價(jià)值。讓老素材在高清系統(tǒng)中使用是要解決的問題。
一種方式是直接利用上變換設(shè)備進(jìn)行轉(zhuǎn)換,要把素材用錄像播放,用SDI或分量接口接入上邊換器,經(jīng)信號(hào)采集、圖像變換處理后輸出高清信號(hào)。由于畫面比例問題,會(huì)采取兩側(cè)加黑邊、上下裁剪或拉伸等變換處理方式。這些處理方式的問題是,變換只能按照一比一的時(shí)間進(jìn)行,變換后的圖像往往只是1 920×1 080的格式,不能滿足放大觀看。
第二種方式是非線上變換。現(xiàn)有的非線基本都具備上變換功能。由于算法不斷改進(jìn),基于插值運(yùn)算的上變換效果還不錯(cuò)。這種方式的問題在于現(xiàn)用現(xiàn)算不能規(guī)模化解決問題。廣電的發(fā)展如此快,剛剛步入4K時(shí)代,8K便隨之出現(xiàn)。非線上變換在算法迭代和規(guī)?;幚矸矫骘@然已跟不上超高清的要求。
對(duì)于上述顯現(xiàn)的問題,解決方案聚焦到人工智能。對(duì)于圖像的放大是最常見、也是最基本的需求,圖像是像素構(gòu)成的,決定圖像的清晰度,不能無限放大。人工智能則可以應(yīng)對(duì)這一問題,通過人工智能的圖像超分辨率技術(shù),可以使標(biāo)清上變換為高清甚至4K,同時(shí)保證足夠的清晰度。
圖像超分辨率技術(shù)在低分辨率圖像生成高分辨率圖像的過程,可以根據(jù)已有的圖像信息重構(gòu)出缺失的圖像細(xì)節(jié)。視頻超分辨率技術(shù)則更加復(fù)雜,不僅需要生成細(xì)節(jié)豐富的一幀幀圖像,還要保持圖像之間的連貫性。超分辨率重建是要得到一張超高分辨率的圖像,先準(zhǔn)備一系列的低分辨率圖像,然后將這些圖像通過算法進(jìn)行組合[4]。TecoGAN就是一種新的超分辨率重建算法,類似功能的算法還有很多,都可以讓有歷史價(jià)值或經(jīng)典電視劇、電影等老素材煥發(fā)新的生命力。
SRCNN是第一個(gè)超分辨率的神經(jīng)網(wǎng)絡(luò)模型;ESPCN超分辨率神經(jīng)網(wǎng)絡(luò)模型是基于小圖進(jìn)行訓(xùn)練,對(duì)實(shí)時(shí)視頻進(jìn)行超分辨率處理的實(shí)驗(yàn)結(jié)果也非常理想。對(duì) 1080 HD 格式的視頻進(jìn)行3倍放大,SRCNN每幀需要0.435 s,而ESPCN則只需0.038 s。
大連新聞傳媒集團(tuán)與國(guó)內(nèi)研發(fā)團(tuán)隊(duì)合作,參考VDSR、DRCN、DRRN等算法,在內(nèi)部存儲(chǔ)系統(tǒng)中增設(shè)了可進(jìn)行超分算法的服務(wù)器。這樣即使升級(jí)到4K或者更高分辨率時(shí),也無需增加上變換硬件;同時(shí),還避免了依賴非線算法迭代。利用算力完全可以脫離現(xiàn)有制作設(shè)備,構(gòu)建高清、4K甚至8K的歷史素材庫(kù),也無需人為干涉,不再需要為老舊素材復(fù)用投錢、投精力。
眾所周知,新聞中會(huì)因各種原因需要對(duì)人像進(jìn)行處理,如果完全靠人工審核,難免漏檢,造成事故或引起糾紛。人工智能則可以很好地解決這一問題。
人臉識(shí)別、標(biāo)識(shí)過濾等是人工智能圖像分析領(lǐng)域的分支,很多人對(duì)人工智能的認(rèn)識(shí)就是從人臉識(shí)別開始的。在后期制作系統(tǒng)中,增添對(duì)特定人物、標(biāo)志的識(shí)別和標(biāo)識(shí)功能,在調(diào)用素材時(shí)進(jìn)行識(shí)別和標(biāo)注,類似防火墻的作用。在實(shí)際使用中,還可以設(shè)置識(shí)別的報(bào)警閾值,把相似報(bào)警閾值調(diào)低,即可相應(yīng)提高檢出的報(bào)警數(shù)量,在標(biāo)注點(diǎn)再進(jìn)行人工審核。這樣的好處是不至于漏檢,也不至于因閾值拉高導(dǎo)致可用素材減少。
人臉識(shí)別功能不僅僅是識(shí)別人像,同樣可以用于物體的識(shí)別。全臺(tái)沒有統(tǒng)一的媒體資產(chǎn)管理系統(tǒng)(簡(jiǎn)稱“媒資系統(tǒng)”),原因在于,建設(shè)媒資系統(tǒng)后還要投入更多的資源進(jìn)行素材的編目工作,以及對(duì)兄弟臺(tái)經(jīng)驗(yàn)的考量。廣電的編目標(biāo)準(zhǔn)有專用的白皮書,僅是把一組圖像里的元素與編目標(biāo)準(zhǔn)對(duì)應(yīng)就很讓人頭痛了。況且,在互聯(lián)網(wǎng)上搜尋內(nèi)容基本是模糊搜索,而且用圖像搜目標(biāo)也不是新技術(shù)。因此,廣電制作系統(tǒng)需要更新技術(shù),以使用為導(dǎo)向,找出既可解決問題又能減少工作量的方案。
聯(lián)合研發(fā)團(tuán)隊(duì)對(duì)人臉與物體識(shí)別重新規(guī)劃應(yīng)用方式,先對(duì)常用的人物與物體做提煉,形成新的訓(xùn)練標(biāo)簽;同時(shí)對(duì)不同部門的制作存儲(chǔ)系統(tǒng)重新規(guī)劃,形成全臺(tái)的分布式存儲(chǔ)系統(tǒng);在總機(jī)房設(shè)立人工智能服務(wù)器,提供兩項(xiàng)功能:第一,根據(jù)已形成的標(biāo)簽對(duì)全臺(tái)分布式存儲(chǔ)系統(tǒng)掃描形成檢索路由表,第二,對(duì)所有制作網(wǎng)終端提供檢索服務(wù)。
這一解決方案具有以下幾個(gè)優(yōu)點(diǎn)。其一,相對(duì)與傳統(tǒng)的編目方式,人工智能的工作量主要在前期的標(biāo)簽訓(xùn)練,一但訓(xùn)練結(jié)束,后期的標(biāo)注索引工作也可以交給計(jì)算機(jī)完成,不再需要大量的人力去做編目。全臺(tái)每年素材量的增長(zhǎng)是7 000 h,可想而知傳統(tǒng)編目方式的人力、時(shí)間成本,而使用人工智能人臉與物體識(shí)別技術(shù)后可以有效減少此類資源的浪費(fèi)。其二,搜索方式更接近現(xiàn)在的互聯(lián)網(wǎng)使用習(xí)慣,有不錯(cuò)的使用體驗(yàn)。其三,對(duì)于需要添加新的編目類型,需要做的是用現(xiàn)有的算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)認(rèn)知新物體,不需要像傳統(tǒng)方式那樣重新看一遍素材。
大連是一座具有足球底蘊(yùn)的城市,大連足球隊(duì)創(chuàng)造的輝煌至今令人記憶猶新,有體育部門希望提供過往比賽的視頻資料,并提出了進(jìn)行慢動(dòng)作回放等技術(shù)處理的要求。但在后期非線制作中,進(jìn)行慢動(dòng)處理后,整個(gè)動(dòng)作失真,像木偶劇一樣一頓一頓的,令需求方困惑。
其實(shí),業(yè)內(nèi)都知道,現(xiàn)場(chǎng)的慢動(dòng)做都是高速攝像機(jī)拍攝,再由專用的慢動(dòng)作設(shè)備回放,并非是將錄好的素材做慢動(dòng)作處理再回放。
針對(duì)這個(gè)需求進(jìn)行了技術(shù)調(diào)研,尋求解決方法。2019NAB(2019美國(guó)廣播電視展)展會(huì)上的“AI智能慢動(dòng)作”解決方案,利用深度學(xué)習(xí)算法,模擬生成中間幀,可以制作10倍的超級(jí)慢動(dòng)作視頻,但該算法只支持自己的硬件。而基于cuDNN 加速的PyTorch 深度學(xué)習(xí)框架,給出了一種將普通視頻“慢動(dòng)作化”的新方法,實(shí)現(xiàn)任意視頻慢動(dòng)作,通過該人工智能框架,結(jié)合NVIDIA Tesla V100 GPU處理能力,它可以將任意一段視頻拉長(zhǎng),從而實(shí)現(xiàn)類似電影特效的慢動(dòng)作。利用AI算法處理視頻,能將普通30幀錄制的視頻進(jìn)行智能的插幀計(jì)算,從而獲得240幀或480幀的慢動(dòng)作視頻。
技術(shù)層面的問題確定后,基于PyTorch開源算法,用現(xiàn)有素材構(gòu)建慢動(dòng)算法。經(jīng)過兩個(gè)月的訓(xùn)練,獲得的成果可以初步給足球視頻做四倍速慢動(dòng)作,更好的效果還需要更大的樣本量訓(xùn)練。雖然這是一個(gè)很小的應(yīng)用,卻讓大家感受到了人工智能的魅力所在。
大連新聞傳媒集團(tuán)運(yùn)用人工智能的相關(guān)技術(shù)進(jìn)行媒資管理、節(jié)目制作等初級(jí)的探索。通過這些實(shí)踐可知,人工智能只是在現(xiàn)代機(jī)器學(xué)習(xí)算法的基礎(chǔ)上,讓計(jì)算機(jī)在某種程度上具備了把問題與答案形成映射的能力,可以擔(dān)負(fù)在已有的訓(xùn)練模型下大量的重復(fù)工作,有助于提升廣電行業(yè)生產(chǎn)制作等方面的工作效率,為其高質(zhì)量發(fā)展提供新動(dòng)能。
但在現(xiàn)階段,計(jì)算機(jī)還不能像人類一樣思考,不能完全取代人工,只能有限地模擬人類的某些行為?,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)還有一些未解決的問題,比如人類可以通過視覺分辨煙、霧氣、流水、火、玻璃等流體和半透明的物體,但是計(jì)算機(jī)還沒有能力很好地解決這些問題。
對(duì)于廣電,或者說視頻行業(yè),人工智能的應(yīng)用遠(yuǎn)遠(yuǎn)不止于文中提到的這些,還有圖像的處理、短視頻智能拆分、內(nèi)容在網(wǎng)絡(luò)的智能分發(fā)等更多的應(yīng)用。隨著廣電邁入與網(wǎng)絡(luò)融合的時(shí)代,人工智能的應(yīng)用一定會(huì)從特殊解決方案成為成為常規(guī)解決方案。