數(shù)字視網(wǎng)膜并非真的要做一種仿生視網(wǎng)膜的硬件,而是希望能夠改變目前攝像頭只能看或者單一鏈路識(shí)別的功能。讓攝像頭本身?yè)碛幸欢ǖ腁I處理能力,對(duì)識(shí)別到的車(chē)、人、場(chǎng)景主動(dòng)進(jìn)行特征提取。從而讓攝像頭上傳到云端的視頻數(shù)據(jù),一路通過(guò)高效編碼作為數(shù)據(jù)存儲(chǔ);另一路經(jīng)過(guò)特征提取直接作為智能大腦的“可讀物”?!霸拼竽X”與攝像頭的結(jié)合,就像是給智慧城市安裝了一層新的“數(shù)字視網(wǎng)膜”。
數(shù)字視網(wǎng)膜的八個(gè)基本要素
現(xiàn)在比較典型的“城市大腦”,一般是傳感數(shù)據(jù)、收集、存儲(chǔ)、數(shù)據(jù)交換和集成,還有開(kāi)放的算法平臺(tái)。另外,還有運(yùn)行和服務(wù)平臺(tái)。在平臺(tái)里面,實(shí)際數(shù)據(jù)量最大的是視頻數(shù)據(jù),大概占到90%以上,這些數(shù)據(jù)能識(shí)別是車(chē)還是人,車(chē)牌號(hào)等,然后傳到云端。目前的視頻數(shù)據(jù),最長(zhǎng)存三個(gè)月。因?yàn)榇罅康臄?shù)據(jù)不等于大數(shù)據(jù),而且隨著城市攝像頭越裝越多,數(shù)據(jù)增長(zhǎng)速度非???,海量數(shù)據(jù)的價(jià)值很少。
目前的視覺(jué)感知系統(tǒng),也只是對(duì)原始信號(hào)進(jìn)行了簡(jiǎn)單的編碼壓縮就送到云端。視覺(jué)系統(tǒng)的進(jìn)化實(shí)際是經(jīng)過(guò)了一個(gè)漫長(zhǎng)的歷史階段,不管是昆蟲(chóng)還是高脊椎動(dòng)物,它們眼睛的進(jìn)化是不一樣的,比如昆蟲(chóng)是浮眼,可以完成對(duì)天敵快速識(shí)別的功能,眼睛進(jìn)化實(shí)際發(fā)生了非常長(zhǎng)的時(shí)間。
視覺(jué)通道是把視網(wǎng)膜上看到的東西,通過(guò)視覺(jué)通道送到腦的視覺(jué),最后形成認(rèn)知和感知。中間的網(wǎng)絡(luò)傳輸通道是非常重要的,整個(gè)視網(wǎng)膜大概有1.2億個(gè)感官細(xì)胞,包括錐狀細(xì)胞和感知細(xì)胞,最后通過(guò)神經(jīng)連接到了大腦。從視網(wǎng)膜到大腦之間的連接通道,并不是每一個(gè)感光細(xì)胞直接連接到了大腦,而是通過(guò)視神經(jīng)連接過(guò)去,視神經(jīng)的個(gè)數(shù)和視網(wǎng)膜本身的個(gè)數(shù)有一個(gè)比例,大概是126∶1,也就是說(shuō)從視網(wǎng)膜每個(gè)感光細(xì)胞往大腦送的視覺(jué)連接通道大概有126∶1的壓縮率,這個(gè)壓縮不是簡(jiǎn)單的視頻壓縮,它是特征抽取,這個(gè)過(guò)程是今天的“城市大腦”要好好學(xué)習(xí)的。
如果神經(jīng)系統(tǒng)進(jìn)化不好就會(huì)產(chǎn)生很多問(wèn)題,比如說(shuō)自閉癥,可能在小時(shí)候發(fā)育的時(shí)候,這種連接增長(zhǎng)速度太快,可能會(huì)形成自閉癥。所以想讓“城市大腦”健康,就要視網(wǎng)膜或者攝像頭有很好的分工協(xié)調(diào)機(jī)制,這是從生命系統(tǒng)得到的啟發(fā)。根據(jù)這個(gè)啟發(fā),我們?cè)谠O(shè)計(jì)新的第二代“城市大腦”或者云視覺(jué)系統(tǒng)的時(shí)候,在中間的視覺(jué)神經(jīng)通道要好好學(xué)習(xí),我們把這個(gè)工作叫作數(shù)字視網(wǎng)膜。
數(shù)字視網(wǎng)膜的定義,包括八個(gè)基本要素,這八個(gè)基本要素包括有統(tǒng)一的時(shí)間戳,有全局的位置信息,有高效的視頻編碼功能,有高效的特征編碼功能、聯(lián)合優(yōu)化等,還要有機(jī)制和軟件可定義的一些功能,這樣就比較容易進(jìn)行升級(jí)。這八個(gè)基本的功能要求我們分成了三組。第一組叫作全局統(tǒng)一的時(shí)空ID,作為一個(gè)“城市大腦”,一個(gè)全局的視覺(jué)系統(tǒng),全局統(tǒng)一的時(shí)空ID非常關(guān)鍵。第二組特征把高效視頻編碼、高效特征編碼和連接優(yōu)化,這三個(gè)定義成第二組功能,把它叫作多層次視網(wǎng)膜表示,包括視頻編碼、特征編碼、聯(lián)合優(yōu)化三大塊。第三組特征,是把高效的模型可定義功能組合到一起。這三個(gè)組合在一起,就不會(huì)像以前的攝像頭,一個(gè)硬件做進(jìn)去之后就改變不了什么了,按照這種數(shù)字視網(wǎng)膜設(shè)計(jì)出來(lái)的攝像頭,可以與時(shí)俱進(jìn),可以進(jìn)行一些新功能的更新。
數(shù)字視網(wǎng)膜和傳統(tǒng)云視覺(jué)計(jì)算系統(tǒng)不一樣
數(shù)字視網(wǎng)膜和傳統(tǒng)的云視覺(jué)計(jì)算系統(tǒng)是不一樣的,傳統(tǒng)的視覺(jué)系統(tǒng)一個(gè)攝像機(jī)只能輸出一個(gè)流,要么是視頻編碼流,要么是結(jié)果流。新的視網(wǎng)膜系統(tǒng),每個(gè)攝像頭可能會(huì)有三個(gè)流,會(huì)有視頻編碼流、特征編碼流、模型編碼流,這三個(gè)流混合在一起就可以對(duì)整個(gè)系統(tǒng)更優(yōu)化。
現(xiàn)在的云視覺(jué)系統(tǒng)不是太有效,要想提高效率,可以通過(guò)類(lèi)似于數(shù)字視網(wǎng)膜的新的概念和技術(shù),讓它做得更有效,比如說(shuō)數(shù)字視網(wǎng)膜至少可以在編碼上用了新的最有效的視覺(jué)編碼工具,可以使它的碼率更低,可以使延遲更低和準(zhǔn)確率更高,原來(lái)的系統(tǒng)是先編碼再到云端解碼,提取特征再分析,現(xiàn)在所有的特征提取在攝像頭就完成了,就可以降低延遲。因?yàn)闆](méi)有解碼過(guò)程,沒(méi)有提取特征解碼的過(guò)程,準(zhǔn)確率可以比原來(lái)提高20%左右。
數(shù)字視網(wǎng)膜領(lǐng)域的四大技術(shù)
過(guò)去兩三年,在數(shù)字視網(wǎng)膜領(lǐng)域,很多技術(shù)在推進(jìn),希望這些技術(shù)能夠落地。第一個(gè)叫高效視頻編碼,要做出全世界最好的視頻編碼放到數(shù)字視網(wǎng)膜里,才能叫作高效。過(guò)去二十年主要在做視頻編碼,在這個(gè)領(lǐng)域做了大量的工作,把視頻里面按照幀處理的場(chǎng)景下,包括空間、時(shí)間、編碼的冗余,用各種各樣的數(shù)學(xué)工具去處理,包括使用濾波器做預(yù)測(cè)編碼工具,利用熵編碼去除冗余的工具,構(gòu)造出一代又一代的視頻編碼的標(biāo)準(zhǔn),這個(gè)工具對(duì)整個(gè)編碼的效率提高是很大的,可以使編碼的效率提升差不多40%左右。
世界的視頻編碼有廣播電視、互聯(lián)網(wǎng)視頻、視頻監(jiān)控等需求,技術(shù)演進(jìn)是差不多每十年演進(jìn)一代,中國(guó)的科學(xué)家從2002年開(kāi)始做AVS,做中國(guó)自主的標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)到目前為止已經(jīng)進(jìn)入第三代了,第二代已經(jīng)成為國(guó)家標(biāo)準(zhǔn)和廣電標(biāo)準(zhǔn),為了標(biāo)準(zhǔn)能走出國(guó)內(nèi),也專(zhuān)門(mén)在IEEE成立了工作組,最近剛剛把工作組上升為數(shù)據(jù)編碼的標(biāo)準(zhǔn)委員會(huì)。AVS3時(shí)間上已經(jīng)領(lǐng)先于國(guó)際標(biāo)準(zhǔn)了。
第二個(gè)技術(shù)就是特征編碼技術(shù),在我們的推動(dòng)下,跟國(guó)際專(zhuān)家完成了兩個(gè)國(guó)際標(biāo)準(zhǔn),MPEG7是的第13和15部分,是CDVS和CDVA,是做視頻特征編碼的工作。
這個(gè)標(biāo)準(zhǔn)做完以后,深度網(wǎng)絡(luò)就熱起來(lái)了,所以我們經(jīng)常去講CDVS怎么樣的時(shí)候,會(huì)場(chǎng)反映最多的問(wèn)題就是你的標(biāo)準(zhǔn)支不支持深度網(wǎng)絡(luò),深度學(xué)習(xí)。這個(gè)標(biāo)準(zhǔn)現(xiàn)在也完成了,成為國(guó)際標(biāo)準(zhǔn)了。
第三個(gè)就是把視頻編碼和聯(lián)合編碼優(yōu)化起來(lái),讓碼率對(duì)兩邊都有利。因?yàn)橐曨l編碼和特征編碼使用的優(yōu)化模型是不一樣的,視頻編碼使用的是2D優(yōu)化模型,碼率和損失的優(yōu)化模型。特征編碼聯(lián)合使用的是R-A模型,碼率和召回準(zhǔn)確率的模型,這兩個(gè)模型的曲線(xiàn)方向完全是不一樣的,所以通常你要單個(gè)做的話(huà)沒(méi)有問(wèn)題,把它合一起怎么做沒(méi)有人知道,所以我們提出聯(lián)合優(yōu)化模型,所以把R-A和2D變成一個(gè)目標(biāo)函數(shù),求聯(lián)合函數(shù)的優(yōu)化解,具體有一套解法,這是關(guān)于在2D模型上優(yōu)化的解法,我們寫(xiě)成了聯(lián)合優(yōu)化函數(shù),求最優(yōu)解就可以得到聯(lián)合優(yōu)化。
第四個(gè)技術(shù),現(xiàn)在用的不是脈沖神經(jīng)網(wǎng)絡(luò),用的還是卷積神經(jīng)網(wǎng)絡(luò),現(xiàn)在可以做到在攝像頭這一端實(shí)現(xiàn)模型更新,這里涉及了一些模型的重用技術(shù)、模型的壓縮技術(shù)。
(文章源自《光明日?qǐng)?bào)》2020年6月4日16版)
專(zhuān)家簡(jiǎn)介
高文,1956年3月出生于遼寧大連。計(jì)算機(jī)專(zhuān)家,中國(guó)工程院院士,北京大學(xué)信息科學(xué)技術(shù)學(xué)院院長(zhǎng),北京大學(xué)數(shù)字媒體研究所所長(zhǎng),數(shù)字視頻編解碼技術(shù)國(guó)家工程實(shí)驗(yàn)室主任,北京大學(xué)深圳研究生院數(shù)字媒體研究中心主任。長(zhǎng)期從事計(jì)算機(jī)智能算法與系統(tǒng)研究,在高效視頻編解碼算法與標(biāo)準(zhǔn)化、圖像檢索技術(shù)、視頻分析技術(shù)、人臉識(shí)別技術(shù)、手語(yǔ)識(shí)別技術(shù)等方面做出重要貢獻(xiàn),先后獲國(guó)家技術(shù)發(fā)明獎(jiǎng)二等獎(jiǎng)1項(xiàng)、國(guó)家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)5項(xiàng)。