技術宅
說到摳圖,很多朋友想到的是Photoshop,確實借助PS我們可以精確地將人像從復雜的背景圖中摳出來。但是如果要將人像從視頻畫面中“摳”出來,估計很多朋友就沒聽說過這項技術了。
PS摳圖是對靜態(tài)的照片進行前后景的分離,DeepLab-v3+技術則是對視頻摳像,當然也可以對照片進行實時處理。比如之前某視頻巨頭網(wǎng)站測試的摳像技術(即時去背景),以及Google Pixel 2和Pixel 2XL手機的肖像功能,拍攝照片后可以獲得類似單反相機的景深效果。這些技術背后的功臣就是DeepLab-v3+技術(圖1)。
如上所述,DeepLab-v3+技術最大的特色就是可以摳像。那么這個摳像的功能是怎樣實現(xiàn)的呢?
我們先來簡單了解一下PS摳圖技術。PS摳圖是借助PS組件將照片前景和后景精確區(qū)分出來,然后通過提取前景的方法實現(xiàn)摳圖(圖2)。不過PS的精確摳圖顯然不是一般人都能勝任,它需要用戶長時間學習和精細操作才能完成。D e e p L a b -v3+的摳像原理與之類似,不過這個學習的過程則是通過人工智能技術完成,作為終端用戶則只要按部就班地使用即可。
那么DeepLab-v3+是怎么實現(xiàn)這種效果?這主要得益于日漸發(fā)展的人工智能技術。首先谷歌會建立DeepLab模型,通過機器來識別大量的照片和視頻,借助改進的卷積神經(jīng)網(wǎng)絡特征萃取器、物體比例塑造模型以及同化前后內容的技術,再加上先進的模型訓練過程。這樣通過大量的樣本學習和訓練,同時借助人工智能的自我學習,DeepLab-v3技術可以對圖像或者視頻畫面中的前后景物體進行精確的識別,從而生成一套獨特的算法。現(xiàn)在DeepLab-v3+在Tensorflow上進行,使用部署于服務器端的卷積神經(jīng)網(wǎng)絡(CNN)骨干架構,可以讓該技術有更高效的處理速度和更精準的識別精度,能夠快速對照片或者視頻中的各種元素進行精確識別(圖3)。
這里以Pixel 2XL人像模式中的合成淺層景深效果為例,在Pixel 2XL手機啟用人像模式后,集成DeepLab-v3+處理后臺會自動根據(jù)照片背后景色進行分析,比如路、天空、樹木、人或狗等物體進行識別,同時為每個像素指定語義標簽。這樣算法可以根據(jù)照片實際環(huán)境里的顯示效果,對指定的語義標簽進行處理,比如對人物背后的景物進行模糊處理,從而可以獲得類似單反相機的景深效果(圖4)。
對于視頻摳像處理則類似,在視頻畫面中,DeepLab-v3+同樣會對視頻中前后景的元素進行分析,同樣為每個像素指定語義標簽。借助服務器端的卷積神經(jīng)網(wǎng)絡就可以實現(xiàn)對視頻前景人物的精確識別,從而實現(xiàn)視頻摳像功能,摳出的活動人物可以疊加到其他視頻場景中,從而做出類似綠幕MR特效的影片(圖5)。
上面我們介紹了DeepLab-v3+技術原理,可以看到這項技術并不像技術本身名稱那樣“高高在上”,它在我們的生活中都有很多的應用。
比如隨著手機的普及和攝像頭分辨率的提高,人們越來越希望手機能夠拍攝出更高質量、更真實還原實際環(huán)境的照片來。但是受限于手機本身的超薄尺寸,僅僅通過手機攝像頭本身是無法拍出類似單反相機那樣效果的圖片(因為手機沒有足夠的景深)。不過隨著技術的發(fā)展,類似DeepLab-v3+技術借助人工智能,使用機器學習來分離主題,結合定制的深度數(shù)據(jù),使得手機也可以拍出類似單反效果的照片,顯然會給我們日常拍攝帶來更多的便利(圖6)。
另一方面,現(xiàn)在短視頻流行,也使得越來越多的朋友喜歡在手機上欣賞和處理視頻數(shù)據(jù)。DeepLab-v3+支持的摳像技術則可以很好地滿足大家在手機上對視頻的處理,比如借助DeepLabv3+可以很輕松地將自己摳出來,疊加不同的視頻背景,制作各種有趣的視頻。當然該技術在電影特效方面有更多的用處,制作者可以制作出更多特效的影片效果來。