方璐 倪凱
海市蜃樓是光的折射形成的、彩虹是光的色散形成的、平靜水面上的各種倒影是光的反射形成的……自然界中許多奇妙而美麗的現(xiàn)象都和光有著密不可分的關系。光是物理世界觀測最重要的載體之一,不管是藝術還是科學,對光的追求從未停止。
自1991年E.H.Adelson提出將光建模成一個七維全光函數(shù),計算攝像領域自此拉開序章。清華大學副教授方璐的工作就是圍繞光的感知和計算展開,她提出了新一代智能光場成像理論與技術,突破人眼極限,實現(xiàn)了大范圍動態(tài)場景的視覺感知與處理,實現(xiàn)了機器看得全、看得清和看得準,她的光場成像理論與技術,是智慧城市的重要利器。
大家所熟悉的第一代單一像感器,它的成像方式和手機的成像方式類似,本質(zhì)上無法突破寬視場與高分辨之間的矛盾,即無法實現(xiàn)既有很大的觀測范圍,畫面又保持高清。第二代多像感器拼接成像依然有一定局限,它難以實現(xiàn)大場景、多對象的動態(tài)觀測,并且觀測維度受限。方璐團隊開展了第三代“非結構化光場智能成像”的研究,使計算光場成像有了很大進展,不僅提高了觀測范圍、分辨率,解決了視角受限和難以動態(tài)觀測等問題,還發(fā)明了大場景、多對象智能處理等技術。
基于第三代計算光場成像技術,方璐團隊提出了一個全新的結構自適應、光場感知的新原理,研制了一系列的硬件可擴展、算法可自適應的裝備,這一系列裝備可以實現(xiàn)大場景、自適應、多維度的動態(tài)目標感知,能夠看得全、看得清、看得真。以其研制的全景360°的相機為例,它既可以實現(xiàn)全景的感知,還可以實現(xiàn)局部細節(jié)的深度獲取。這個相機還首次賦予了用戶交互性,用戶可以任意選擇感興趣的區(qū)域,并且可以放大看細節(jié),獲取畫面局部的信息。這還可以有效應用于自動駕駛、VR等領域。
前面提到的第一代、第二代、第三代計算光場成像技術本質(zhì)上依然是采用的采、存、算分離的模式,方璐團隊還提出了采存算一體的第四代光電計算光場視覺,即使用可控的高維光場傳播代替?zhèn)鹘y(tǒng)的數(shù)字硅基電路,這可以將計算速度提升3個數(shù)量級,功耗降低6個數(shù)量級。除了視覺感知,還可以做更高級的比如顯著性檢測與分割等系列算法。
基于以上研究,方璐團隊還研制建立了PANDA(gigaPixel humAN-centric viDeo dAtaset)數(shù)據(jù)集。這是國際首個面向10億像素視頻的大范圍、多人群、多目標、多尺度檢測、識別、跟蹤視頻數(shù)據(jù)集,可用于大規(guī)模、長期和多對象視覺分析。其視頻由一個10億像素的攝像機捕獲,可以覆蓋超過1km2超廣視場范圍,其提供的視頻具有高分辨率,可查看細節(jié)(每幀像素高達7.98億)。通過這個數(shù)據(jù)集,我們既可以看到一個超大場景的多人的運動情況,同時可以實現(xiàn)多人群、多目標的復雜社交行為的理解。例如,識別對象是站著、坐著還是在走路;通過對比分析多個目標在一定時間內(nèi)的運動狀態(tài),可以自動計算識別對象的群體關系,得出多個目標的親密度 等。