□ 文/周宇杰
深度學(xué)習(xí)提升智能IPC準(zhǔn)確率的一線曙光
□ 文/周宇杰
究其根本,智能IPC的核心為圖像識別技術(shù)。通過各類視頻智能分析技術(shù),解決傳統(tǒng)視頻監(jiān)控必須依賴人工查看視頻的問題,實(shí)現(xiàn)有效信息的結(jié)構(gòu)化數(shù)據(jù)提取,讓視頻監(jiān)控的使用者真正告別人工安防,走進(jìn)自動(dòng)化安防的新時(shí)代。而現(xiàn)在,深度學(xué)習(xí)正帶動(dòng)圖像識別技術(shù)的一大變革,對智能IPC而言,也許能夠解決困擾其多年的難題——準(zhǔn)確率。
圖像識別的能力來源于人類,圖像刺激作用于感覺器官,人們辨認(rèn)出它是經(jīng)驗(yàn)過的某一圖形,甚至能感知到圖像距離或者形狀的改變,這一過程叫做圖像再認(rèn)。簡單來說,就是“之前見過一只狗,再看到類似狗的目標(biāo)時(shí),能夠?qū)⑵湔J(rèn)出來”的過程。在圖像識別中,既要有當(dāng)時(shí)進(jìn)入感官的信息,也要有記憶中存儲的信息,只有通過存儲的信息與當(dāng)前信息進(jìn)行比較的加工過程,才能實(shí)現(xiàn)對圖像的再認(rèn)。
計(jì)算機(jī)的圖像識別技術(shù),則是利用計(jì)算機(jī)對圖像進(jìn)行處理、分析和理解,以識別各種不同模式目標(biāo)和對象的技術(shù)。圖像識別所研究的問題,是如何用計(jì)算機(jī)代替人類去自動(dòng)處理大量的無力信息,解決人類所無法識別或者識別過于耗費(fèi)資源的問題,從而很大程度上解放人類的勞動(dòng)力。
圖像識別技術(shù)可應(yīng)用于各行各業(yè),而對于安防行業(yè)而言,它的意義是顯而易見的。隨著國家對平安城市建設(shè)力度的加大,監(jiān)控覆蓋面、密度越來越大,這在提升城市整體防控能力的同時(shí),也給公安工作人員帶來了巨大的負(fù)擔(dān)——單獨(dú)一個(gè)高清視頻監(jiān)控點(diǎn)每天約產(chǎn)生40G的視頻圖像數(shù)據(jù),一個(gè)城市的監(jiān)控體量達(dá)到萬級也不少見,要全部看完這些監(jiān)控視頻,并提取、保存其中的重點(diǎn)線索,工作量可想而知。利用計(jì)算機(jī)圖像識別技術(shù),就能對這些視頻進(jìn)行智能分析,提取出其中關(guān)鍵的圖片、語義信息,并進(jìn)行以圖搜圖、語義搜圖等大數(shù)據(jù)應(yīng)用,避免“99%的視頻還沒經(jīng)過梳理采集,就被自動(dòng)覆蓋”的窘?jīng)r。
在安防領(lǐng)域,以圖像識別技術(shù)為核心的視頻智能分析主要有兩種產(chǎn)品形態(tài):前端智能和后端智能。而隨著IPC內(nèi)置運(yùn)算芯片性能的不斷提升,智能前端化已成為監(jiān)控行業(yè)發(fā)展的大趨勢,在某些前端建設(shè)的項(xiàng)目中,已有客戶明確提出“智能IPC要占到全部建設(shè)點(diǎn)位數(shù)20%~40%”的要求。以科達(dá)感知型攝像機(jī)為代表,智能IPC通過將智能分析算法嵌入到前端攝像機(jī)中,前端攝像機(jī)在采集高清視頻的同時(shí),對視頻內(nèi)容進(jìn)行實(shí)時(shí)分析,提取出畫面中關(guān)鍵的、感興趣的、有效的信息,形成結(jié)構(gòu)化的數(shù)據(jù),并傳送給后端大數(shù)據(jù)平臺做存儲或深入分析。
目前,智能IPC主要能夠?qū)θ?、車目?biāo)進(jìn)行分析,且針對不同的目標(biāo)、應(yīng)用場景擁有不同的類別??七_(dá)感知型攝像機(jī)分為車輛卡口、人員卡口、結(jié)構(gòu)化、槍球聯(lián)動(dòng)4大類別:
● 車輛卡口主要針對機(jī)動(dòng)車道監(jiān)控,能提供車輛目標(biāo)檢測、車牌識別、車輛顏色識別、車型識別等功能;
● 人員卡口主要針對人形通道監(jiān)控,能提供人臉檢測抓拍、行人檢測抓拍、行人基本屬性分析(包括性別、行進(jìn)方向、顏色、有無口罩等)功能;
● 結(jié)構(gòu)化攝像機(jī)主要針對一般監(jiān)控場景,如人車混行的道路,提供車輛/人員目標(biāo)檢測抓拍,結(jié)構(gòu)化屬性分析功能;
● 槍球聯(lián)動(dòng)主要針對廣場類的開闊場景,槍機(jī)負(fù)責(zé)檢測監(jiān)控視野中的運(yùn)動(dòng)目標(biāo),球機(jī)在槍機(jī)的指令下對目標(biāo)進(jìn)行跟蹤特寫以及抓拍,同時(shí)分析目標(biāo)的結(jié)構(gòu)化屬性。
這4類攝像機(jī)基本覆蓋了平安城市項(xiàng)目中各類監(jiān)控場景,通過智能前端化,實(shí)現(xiàn)智能視頻監(jiān)控的規(guī)模化部署。
圖像識別技術(shù)應(yīng)用智能IPC的市場前景以及意義是非凡的,然而,從目前來看,大部分智能IPC在實(shí)際應(yīng)用中仍受到各種各樣的質(zhì)疑,其中最為突出的問題就是準(zhǔn)確率。智能IPC識別準(zhǔn)確率根本上取決于圖像識別技術(shù)所使用的算法,而在很長一段時(shí)間里,“圖像識別模型”為主流方法。
圖像識別模型,是人們?yōu)榱司幹颇M人類圖像識別活動(dòng)的計(jì)算機(jī)程序而提出的,模板匹配模型為其中之一。這種模型認(rèn)為,識別某個(gè)圖像,必須在過去的經(jīng)驗(yàn)中有這個(gè)圖像的記憶模式(又叫模板),當(dāng)前的刺激如果能與大腦中的模板相匹配,這個(gè)圖像也就被識別了。但這種模型強(qiáng)調(diào)圖像必須與腦中的模板完全符合才能加以識別,有一定的局限性,為此,格式塔心理學(xué)家又據(jù)此提出了一個(gè)原型匹配模型。原型匹配模型認(rèn)為,在長時(shí)記憶中存儲的并不是所要識別的無數(shù)個(gè)模板,而是圖像的某些“相似性”,從圖像中抽象出來的“相似性”就可作為原型,拿它來檢驗(yàn)所要識別的圖像;如果能找到一個(gè)相似的原型,這個(gè)圖像也就被識別了。但是,這種模型沒有說明人是怎樣對相似的刺激進(jìn)行辨別和加工的,它也難以在計(jì)算機(jī)程序中得到實(shí)現(xiàn)。因此又有人提出了一個(gè)更復(fù)雜的模型,即“泛魔”識別模型……
應(yīng)用圖像識別模型,安防行業(yè)已有較為成熟的應(yīng)用案例,如車牌識別。對車牌識別而言,在標(biāo)準(zhǔn)卡口的架設(shè)條件下,車牌識別率普遍可以達(dá)到98%以上,甚至99%。這是因?yàn)?,在車牌識別的過程中,車輛通過卡口時(shí)的姿態(tài)一般是固定的,車牌的安裝位置也比較固定,這為識別創(chuàng)造了很好的條件;同時(shí),車牌識別只需識別幾十個(gè)漢字、10個(gè)數(shù)字和26個(gè)字母,這進(jìn)一步降低了識別的難度。
與車牌識別出色、穩(wěn)定的準(zhǔn)確率相比,人臉識別的準(zhǔn)確率最難把控,而人臉識別卻也是安防市場中最受關(guān)注、應(yīng)用范圍最廣的智能模塊。所謂人臉識別的“準(zhǔn)確率”,是指基于全世界最權(quán)威的人臉數(shù)據(jù)庫LFW進(jìn)行比對測試的成績。LFW由美國馬薩諸塞大學(xué)阿默斯特分校管理,可以認(rèn)為是一個(gè)考察深度學(xué)習(xí)系統(tǒng)人臉識別能力的“題庫”,它從互聯(lián)網(wǎng)上提取6000張不同朝向、表情和光照環(huán)境下的人臉照片作為考題,可以讓任何系統(tǒng)在里面“跑分”。跑分過程如下:LFW給出一組照片,詢問測試中的系統(tǒng)兩張照片是不是同一個(gè)人,系統(tǒng)給出yes或no的答案。99%的準(zhǔn)確率,意味著在測試的所有題目中,人臉識別系統(tǒng)答對了99%的題目。
然而問題的關(guān)鍵是,LFW以及類似數(shù)據(jù)庫FDDB等,只是一個(gè)純粹實(shí)驗(yàn)室級別、學(xué)術(shù)性質(zhì)的測試工具,在樣本量可能達(dá)到十萬級、百萬級的實(shí)際商業(yè)場景下,測試得分高的系統(tǒng)不一定能保持已有成績,其誤識率將直線上升,甚至可能根本沒法用。部分真實(shí)復(fù)雜場景測試中,十萬分之一的誤識率下,98%的人臉識別準(zhǔn)確率會直線下降到70%左右。且人臉識別系統(tǒng)在安防實(shí)際應(yīng)用中,對安裝環(huán)境、安裝角度等要求較高,目前距離用戶實(shí)戰(zhàn)要求仍有一定距離。
現(xiàn)階段比較受歡迎的圖像識別基礎(chǔ)算法為深度學(xué)習(xí)法,深度學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò),而神經(jīng)網(wǎng)絡(luò)的歷史可追溯至上世紀(jì)四十年代,曾經(jīng)在八九十年代流行。神經(jīng)網(wǎng)絡(luò)試圖通過模擬大腦認(rèn)知的激勵(lì),解決各種機(jī)器學(xué)習(xí)的問題。
后來,由于種種原因,大多數(shù)學(xué)者在相當(dāng)長的一段時(shí)間內(nèi)放棄了神經(jīng)網(wǎng)絡(luò),轉(zhuǎn)而采用諸如支持向量機(jī)、Boosting、最近鄰等分類器。這些分類器可以用具有一個(gè)或兩個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)模擬,因此被稱作淺層機(jī)器學(xué)習(xí)模型。它們不再模擬大腦的認(rèn)知機(jī)理;相反,針對不同的任務(wù)設(shè)計(jì)不同的系統(tǒng),并采用不同的手工設(shè)計(jì)的特征,例如語音識別采用高斯混合模型和隱馬爾可夫模型,物體識別采用SIFT特征,人臉識別采用LBP特征,行人檢測采用HOG特征。
深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域最具影響力的突破發(fā)生在2012年,Hinton的研究小組采用深度學(xué)習(xí)贏得了ImageNet圖像分類的比賽。ImageNet是當(dāng)今計(jì)算機(jī)視覺領(lǐng)域最具影響力的比賽之一,它的訓(xùn)練和測試樣本都來自于互聯(lián)網(wǎng)圖片,訓(xùn)練樣本超過百萬,任務(wù)是將測試樣本分成1000類。自2009年,包括工業(yè)界在內(nèi)的很多計(jì)算機(jī)視覺小組都參加了每年一度的比賽,各個(gè)小組的方法逐漸趨同;2012年,排名2到4位的小組都采用的傳統(tǒng)模擬識別方法,他們準(zhǔn)確率的差別不超過1%,而首次參賽的Hiton研究小組采用的是深度學(xué)習(xí)的方法,且準(zhǔn)確率超出第二名10%以上。這個(gè)結(jié)果在計(jì)算機(jī)視覺領(lǐng)域產(chǎn)生了極大的震動(dòng),掀起了深度學(xué)習(xí)的熱潮。
與傳統(tǒng)模式識別相比,深度學(xué)習(xí)最大的不同在于它是從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,而非采用手工設(shè)計(jì)的特征模型。在過去幾十年模式識別的各種應(yīng)用中,手工設(shè)計(jì)的特征處于統(tǒng)治地位,它主要依靠設(shè)計(jì)者的經(jīng)驗(yàn)知識,很難利用大數(shù)據(jù)的優(yōu)勢;由于依賴手工調(diào)整參數(shù),特征的設(shè)計(jì)中只允許出現(xiàn)少量參數(shù)。深度學(xué)習(xí)的優(yōu)勢則顯而易見——大數(shù)據(jù)中可以包含成千上萬的參數(shù),用來訓(xùn)練深度學(xué)習(xí)的數(shù)據(jù)越多,深度學(xué)習(xí)算法的魯棒性、泛化能力就越強(qiáng)。
目前,深度學(xué)習(xí)算法的數(shù)據(jù)普遍都是幾十萬、上百萬級,像一些互聯(lián)網(wǎng)行業(yè)的IT巨頭們,他們的訓(xùn)練數(shù)據(jù)會是上千萬、甚至上億級別,這也是國外如Google、FaceBook、Microsoft等,國內(nèi)如百度、騰訊等IT巨頭在深度學(xué)習(xí)算法的應(yīng)用效果上有著一定優(yōu)勢的原因。但I(xiàn)T企業(yè)與安防企業(yè)所用的訓(xùn)練數(shù)據(jù)不同:IT巨頭擁有的是互聯(lián)網(wǎng),安防企業(yè)擁有的則是安防大數(shù)據(jù)。二者圖像識別技術(shù)的關(guān)注點(diǎn)也有不同,IT巨頭的人臉識別技術(shù)是服務(wù)于他們的商業(yè)目標(biāo),比如圖像檢索、身份認(rèn)證、無人駕駛等,而安防企業(yè)主要關(guān)注的是人臉識別技術(shù)在公共安全領(lǐng)域的應(yīng)用。
經(jīng)過龐大數(shù)據(jù)量的訓(xùn)練后,深度學(xué)習(xí)不斷積累多種場景下的樣本數(shù)據(jù),可逐步提升圖像識別的準(zhǔn)確率。在車輛分析方面,原先車輛卡口攝像機(jī)只能做到車輛檢測、車牌檢測、車型分析等功能,依托深度學(xué)習(xí),除了可以提升原有的智能算法的準(zhǔn)確性,還可以擴(kuò)展更多的智能分析領(lǐng)域,例如車輛子型號、年款的分析、車內(nèi)司乘人員的檢測、安全帶檢測、打電話檢測等;對于最難的人臉檢測,深度學(xué)習(xí)基于海量的經(jīng)驗(yàn)積累,可明顯改善復(fù)雜場景下人臉識別技術(shù)的準(zhǔn)確率。
理論上講,深度學(xué)習(xí)可以取代現(xiàn)有的很多傳統(tǒng)特征提取、目標(biāo)檢測技術(shù),在大幅提升圖像識別準(zhǔn)確率上已有成功案例,我們有理由期待深度學(xué)習(xí)讓人臉識別等復(fù)雜的識別技術(shù)落地于實(shí)際項(xiàng)目應(yīng)用中。
作者單位:蘇州科達(dá)科技股份有限公司