文/高 文
數(shù)字視網(wǎng)膜并非真的要做一種仿生視網(wǎng)膜的硬件,而是希望能夠改變目前攝像頭只能看或者單一鏈路識別的功能。讓攝像頭本身擁有一定的AI處理能力,對識別到的車、人、場景主動進行特征提取。從而讓攝像頭上傳到云端的視頻數(shù)據(jù),一路通過高效編碼作為數(shù)據(jù)存儲;另一路經(jīng)過特征提取直接作為智能大腦的“可讀物”?!霸拼竽X”與攝像頭的結(jié)合,就像是給智慧城市安裝了一層新的“數(shù)字視網(wǎng)膜”。
現(xiàn)在比較典型的“城市大腦”,一般是傳感數(shù)據(jù)、收集、存儲、數(shù)據(jù)交換和集成,還有開放的算法平臺。另外,還有運行和服務(wù)平臺。在平臺里面,實際數(shù)據(jù)量最大的是視頻數(shù)據(jù),大概占到90%以上,這些數(shù)據(jù)能識別是車還是人,車牌號等,然后傳到云端。目前的視頻數(shù)據(jù),最長存三個月。因為大量的數(shù)據(jù)不等于大數(shù)據(jù),而且隨著城市攝像頭越裝越多,數(shù)據(jù)增長速度非常快,海量數(shù)據(jù)的價值很少。
目前的視覺感知系統(tǒng),也只是對原始信號進行了簡單的編碼壓縮就送到云端。視覺系統(tǒng)的進化實際是經(jīng)過了一個漫長的歷史階段,不管是昆蟲還是高脊椎動物,它們眼睛的進化是不一樣的,比如昆蟲是浮眼,可以完成對天敵快速識別的功能,眼睛進化實際發(fā)生了非常長的時間。
過去兩三年,數(shù)字視網(wǎng)膜領(lǐng)域有很多技術(shù)在推進。
視覺通道是把視網(wǎng)膜上看到的東西,通過視覺通道送到腦的視覺,最后形成認知和感知。中間的網(wǎng)絡(luò)傳輸通道是非常重要的,整個視網(wǎng)膜大概有1.2億個感官細胞,包括錐狀細胞和感知細胞,最后通過神經(jīng)連接到了大腦。從視網(wǎng)膜到大腦之間的連接通道,并不是每一個感光細胞直接連接到了大腦,而是通過視神經(jīng)連接過去,視神經(jīng)的個數(shù)和視網(wǎng)膜本身的個數(shù)有一個比例,大概是126∶1,也就是說從視網(wǎng)膜每個感光細胞往大腦送的視覺連接通道大概有126∶1的壓縮率,這個壓縮不是簡單的視頻壓縮,它是特征抽取,這個過程是今天的“城市大腦”要好好學習的。
如果神經(jīng)系統(tǒng)進化不好就會產(chǎn)生很多問題,比如說自閉癥,可能在小時候發(fā)育的時候,這種連接增長速度太快,可能會形成自閉癥。所以想讓“城市大腦”健康,就要視網(wǎng)膜或者攝像頭有很好的分工協(xié)調(diào)機制,這是從生命系統(tǒng)得到的啟發(fā)。根據(jù)這個啟發(fā),我們在設(shè)計新的第二代“城市大腦”或者云視覺系統(tǒng)的時候,在中間的視覺神經(jīng)通道要好好學習,我們把這個工作叫作數(shù)字視網(wǎng)膜。
數(shù)字視網(wǎng)膜的定義,包括八個基本要素,這八個基本要素包括有統(tǒng)一的時間戳,有全局的位置信息,有高效的視頻編碼功能,有高效的特征編碼功能、聯(lián)合優(yōu)化等,還要有機制和軟件可定義的一些功能,這樣就比較容易進行升級。這八個基本的功能要求我們分成了三組。第一組叫作全局統(tǒng)一的時空ID,作為一個“城市大腦”,一個全局的視覺系統(tǒng),全局統(tǒng)一的時空ID非常關(guān)鍵。第二組特征把高效視頻編碼、高效特征編碼和連接優(yōu)化,這三個定義成第二組功能,把它叫作多層次視網(wǎng)膜表示,包括視頻編碼、特征編碼、聯(lián)合優(yōu)化三大塊。第三組特征,是把高效的模型可定義功能組合到一起。這三個組合在一起,就不會像以前的攝像頭,一個硬件做進去之后就改變不了什么了,按照這種數(shù)字視網(wǎng)膜設(shè)計出來的攝像頭,可以與時俱進,可以進行一些新功能的更新。
數(shù)字視網(wǎng)膜和傳統(tǒng)的云視覺計算系統(tǒng)是不一樣的,傳統(tǒng)的視覺系統(tǒng)一個攝像機只能輸出一個流,要么是視頻編碼流,要么是結(jié)果流。新的視網(wǎng)膜系統(tǒng),每個攝像頭可能會有三個流,會有視頻編碼流、特征編碼流、模型編碼流,這三個流混合在一起就可以對整個系統(tǒng)更優(yōu)化。
現(xiàn)在的云視覺系統(tǒng)不是太有效,要想提高效率,可以通過類似于數(shù)字視網(wǎng)膜的新的概念和技術(shù),讓它做得更有效,比如說數(shù)字視網(wǎng)膜至少可以在編碼上用了新的最有效的視覺編碼工具,可以使它的碼率更低,可以使延遲更低和準確率更高,原來的系統(tǒng)是先編碼再到云端解碼,提取特征再分析,現(xiàn)在所有的特征提取在攝像頭就完成了,就可以降低延遲。因為沒有解碼過程,沒有提取特征解碼的過程,準確率可以比原來提高20%左右。
過去兩三年,在數(shù)字視網(wǎng)膜領(lǐng)域,很多技術(shù)在推進,希望這些技術(shù)能夠落地。第一個叫高效視頻編碼,要做出全世界最好的視頻編碼放到數(shù)字視網(wǎng)膜里,才能叫作高效。過去二十年主要在做視頻編碼,在這個領(lǐng)域做了大量的工作,把視頻里面按照幀處理的場景下,包括空間、時間、編碼的冗余,用各種各樣的數(shù)學工具去處理,包括使用濾波器做預(yù)測編碼工具,利用熵編碼去除冗余的工具,構(gòu)造出一代又一代的視頻編碼的標準,這個工具對整個編碼的效率提高是很大的,可以使編碼的效率提升差不多40%左右。
世界的視頻編碼有廣播電視、互聯(lián)網(wǎng)視頻、視頻監(jiān)控等需求,技術(shù)演進是差不多每十年演進一代,中國的科學家從2002年開始做AVS,做中國自主的標準,這個標準到目前為止已經(jīng)進入第三代了,第二代已經(jīng)成為國家標準和廣電標準,為了標準能走出國內(nèi),也專門在IEEE成立了工作組,最近剛剛把工作組上升為數(shù)據(jù)編碼的標準委員會。AVS3時間上已經(jīng)領(lǐng)先于國際標準了。
第二個技術(shù)就是特征編碼技術(shù),在我們的推動下,跟國際專家完成了兩個國際標準,MPEG7是的第13和15部分,是CDVS和CDVA,是做視頻特征編碼的工作。
這個標準做完以后,深度網(wǎng)絡(luò)就熱起來了,所以我們經(jīng)常去講CDVS怎么樣的時候,會場反映最多的問題就是你的標準支不支持深度網(wǎng)絡(luò),深度學習。這個標準現(xiàn)在也完成了,成為國際標準了。
第三個就是把視頻編碼和聯(lián)合編碼優(yōu)化起來,讓碼率對兩邊都有利。因為視頻編碼和特征編碼使用的優(yōu)化模型是不一樣的,視頻編碼使用的是2D優(yōu)化模型,碼率和損失的優(yōu)化模型。特征編碼聯(lián)合使用的是R-A模型,碼率和召回準確率的模型,這兩個模型的曲線方向完全是不一樣的,所以通常你要單個做的話沒有問題,把它合一起怎么做沒有人知道,所以我們提出聯(lián)合優(yōu)化模型,所以把R-A和2D變成一個目標函數(shù),求聯(lián)合函數(shù)的優(yōu)化解,具體有一套解法,這是關(guān)于在2D模型上優(yōu)化的解法,我們寫成了聯(lián)合優(yōu)化函數(shù),求最優(yōu)解就可以得到聯(lián)合優(yōu)化。
第四個技術(shù),現(xiàn)在用的不是脈沖神經(jīng)網(wǎng)絡(luò),用的還是卷積神經(jīng)網(wǎng)絡(luò),現(xiàn)在可以做到在攝像頭這一端實現(xiàn)模型更新,這里涉及了一些模型的重用技術(shù)、模型的壓縮技術(shù)。