曾文軍+羅翀
摘要:視頻信號是大數(shù)據(jù)中的大數(shù)據(jù),這種海量視頻數(shù)據(jù)帶來了存儲、傳輸、處理、管理等方面的挑戰(zhàn),同時也提供了大量有價值的信息和商業(yè)機(jī)會。認(rèn)為深度學(xué)習(xí)顛覆了視覺理解的進(jìn)程,從圖像分類到物體檢測、語義分割等更細(xì)更復(fù)雜的任務(wù),從視頻里物體的檢測與跟蹤到物體屬性和行為的分析,特別是關(guān)于人和車的理解技術(shù)。指出隨著計算能力和大數(shù)據(jù)持續(xù)快速增長,加上深度學(xué)習(xí)、主動學(xué)習(xí)、遷移學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等強(qiáng)大機(jī)器學(xué)習(xí)技術(shù)繼續(xù)發(fā)展,讓機(jī)器可以像人一樣看到并理解世界的前景是樂觀的。
關(guān)鍵詞: 深度學(xué)習(xí);大視頻數(shù)據(jù);人工智能
1 人工智能離不開視覺計算
人工智能(AI)是當(dāng)今科技世界炙手可熱的詞語,每個人都在談?wù)?。在過去2~3年里,AI擊敗人類的新聞不斷,從 Facebook 的面部識別技術(shù)DeepFace達(dá)到和人類一樣的識別精度[1],微軟深度學(xué)習(xí)系統(tǒng)在圖像識別上打敗人類[2],機(jī)器在智商測試中擊敗人類[3],到AlphaGo擊敗圍棋世界冠軍李世石,AI 的高熱度在繼續(xù)。
那么這些突破有哪些共性呢?第一,他們都?xì)w因于大數(shù)據(jù)的到來,例如數(shù)千個小時有標(biāo)注的語音數(shù)據(jù),數(shù)千萬有標(biāo)簽的圖像等;第二,離不開巨大的計算資源支撐,包括圖形處理器(GPU) 和云集群的到來和普及。在此基礎(chǔ)上機(jī)器學(xué)習(xí)技術(shù)才取得顯著進(jìn)展,特別是深度學(xué)習(xí)的飛速發(fā)展。我們正處在AI的黃金時代。
AI 離不開感知,而視覺是我們最主要的感知手段。研究結(jié)果表明:人的感知、學(xué)習(xí)、認(rèn)知和活動有 80%~85%是通過視覺介導(dǎo)的[4]。如果不能獲取并處理視覺信息,就沒法研究真實世界的人工智能,由此可見計算機(jī)視覺對人工智能發(fā)展的重要性。
視頻信號在大數(shù)據(jù)中占很大比重,現(xiàn)在網(wǎng)絡(luò)上70%~80%的流量是由視頻信號所組成的,可以說它是大數(shù)據(jù)中的大數(shù)據(jù)。這些數(shù)據(jù)可能在幾年前還不太容易得到,但是隨著各種攝像頭的普及,視頻數(shù)據(jù)得以更詳細(xì)的記錄物理世界發(fā)生的一切。由此產(chǎn)生了海量的大視頻數(shù)據(jù),這種大數(shù)據(jù)給我們帶來了存儲、傳輸、處理、管理等方面的挑戰(zhàn),同時也提供了很大的機(jī)會,讓機(jī)器幫助分析理解視頻大數(shù)據(jù)就成了我們觀察了解物理世界的一條捷徑?,F(xiàn)在我們通過分析這個大數(shù)據(jù),提取有價值的信息,從而去支持新的產(chǎn)品或者服務(wù),所以這里面蘊(yùn)藏了巨大的商業(yè)機(jī)會。視頻數(shù)據(jù)已滲透到人類日常生活的方方面面,視頻分析的應(yīng)用是多方面的,包括居家、企業(yè)、零售、公共安全、交通、制造等,市場巨大。比如:預(yù)計全球家居安防解決方案市場將以8.7%的復(fù)合年增長率增長,到2020年將達(dá)到475億美元[5],半自動車市場預(yù)計到2018年將達(dá)到214億美元[6]。
2 深度學(xué)習(xí)顛覆了視覺理解的進(jìn)程
視覺信號分析的發(fā)展起起伏伏,每到一定階段都會出現(xiàn)“瓶頸”,其中很大的瓶頸就是沒有足夠量的數(shù)據(jù),所以模型或算法的發(fā)展都受到一定的限制。直到大約2009年,ImageNet產(chǎn)生了。它是迄今為止最大的有標(biāo)記的圖像數(shù)據(jù)庫,根據(jù) WordNet 的層次結(jié)構(gòu)組織,有超過 10 萬個概念,每個概念有數(shù)百到數(shù)千幅附屬的圖像。ImageNet 在過去幾年大大促進(jìn)了計算機(jī)視覺和圖像分析的發(fā)展。
在ImageNet的基礎(chǔ)上,近幾年有一些與圖像識別相關(guān)的挑戰(zhàn)賽,如業(yè)界熟知的圖像分類比賽就是利用100多萬標(biāo)注圖像,進(jìn)行1 000種分類方法準(zhǔn)確性比較的挑戰(zhàn)賽。還有一些如物體檢測、場景檢測、場景分析和語義分割等基于ImageNet的比賽。
關(guān)于ImageNet圖像分類比賽,在2012年前由于分類錯誤率很高,從而限制了它的實用。2012年,Hinton的實驗室第1次把深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到圖像分類任務(wù)上,其性能才得以大幅提升[7],充分展示了深度神經(jīng)網(wǎng)絡(luò)對視覺研究的極大潛能,也掀起了視覺研究的新高潮,讓人們看到了計算機(jī)視覺實用化的希望。短短幾年后的今天,深度神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展迅猛,在ImageNet圖像分類上的性能已超過人類,人們研究的重點也從圖像分類轉(zhuǎn)移到圖像物體檢測、語義分割等更細(xì)、更復(fù)雜的任務(wù)。
圖像分析已經(jīng)有了很大的進(jìn)步,視頻分析和理解方面進(jìn)展則稍顯緩慢。視頻信號相比于圖像信號有更大的挑戰(zhàn),因為它是一個更高維的信號,所含內(nèi)容的多樣性也很復(fù)雜,所以要去判斷它、理解它都很困難,當(dāng)然數(shù)據(jù)量很大也是另外一個原因。除此之外,在很多情況下視頻是提供實時監(jiān)測控制的,因此對處理速度等指標(biāo)也有很高的要求,加之標(biāo)注視頻數(shù)據(jù)時每1幀都要標(biāo)注,費時、費力且成本高昂,視頻發(fā)展相比圖像來講還是落后一些。當(dāng)然,如何獲得足夠多訓(xùn)練數(shù)據(jù)也是必須解決的難點。
前面談到視頻分析的一些應(yīng)用場景,盡管不同應(yīng)用場景有不同技術(shù)要求,但有些基本技術(shù)是共享的,比如物體的檢測與跟蹤。人是我們?nèi)粘I詈凸ぷ鞯暮诵?,因此也是大多?shù)圖像/視頻的最主要實體。對人的分析是視頻理解中的關(guān)鍵一步。因此很多研究團(tuán)隊包括微軟亞洲研究院最近幾年都專注于以人為中心的視頻分析,例如檢測與識別人、人的屬性、人的行為,甚至是人的意向。由于近年來大數(shù)據(jù)、計算能力和深度學(xué)習(xí)技術(shù)的進(jìn)步,對視覺數(shù)據(jù)中人的理解技術(shù)已取得了很大的進(jìn)步。機(jī)器檢測和識別人臉的性能已經(jīng)達(dá)到了和人相仿的程度,并在身份驗證、安全、智能零售、智能媒體管理等領(lǐng)域得到廣泛應(yīng)用。人體檢測的性能也有了顯著提高,在一些基準(zhǔn)數(shù)據(jù)集上達(dá)到超過80%的準(zhǔn)確度。人的各種屬性,如性別、年齡、情感、手勢與身體姿勢,以及衣服顏色類別等也可以很好地提取,以幫助更好地了解一個人的狀態(tài)。人體姿態(tài)估計技術(shù)的性能也達(dá)到了數(shù)年前不可想象的水平,并極大地方便了人的動作識別。
3 車輛和車牌檢測與識別案例
日常生活中,尤其是城市生活中,車輛是重要性僅次于人的目標(biāo)類別。深度學(xué)習(xí)技術(shù)的飛速發(fā)展也大大的帶動了與車輛相關(guān)的計算機(jī)視覺技術(shù)的發(fā)展,其中,最重要的就是車牌和車輛的圖像檢測與識別技術(shù)。
車牌是車輛的身份證,車牌自動識別技術(shù)有著非常廣泛的應(yīng)用,例如:車輛進(jìn)入管控區(qū)域時的權(quán)限驗證,進(jìn)入停車場或高速公路時的收費管理,或者道路車輛違章攝像。目標(biāo)通常分為合作目標(biāo)和非合作目標(biāo)。合作目標(biāo)的圖像檢測和識別技術(shù)已經(jīng)相當(dāng)成熟,在大量應(yīng)用的車牌識別系統(tǒng)中包含圖像采集、車牌檢測、字符抽取和字符識別4個步驟,其中圖像采集環(huán)節(jié)是可控的,即圖像采集對象是合作目標(biāo)。比如車輛進(jìn)入停車場時,需要車輛在低速甚至完全靜止?fàn)顟B(tài)下完成圖像采集,而且拍照時車牌的位置相對固定,這就在最大程度上保證了圖像清晰,同時有效限制了車牌檢測時的搜索范圍。
然而,在大數(shù)據(jù)時代出現(xiàn)了一些車牌檢測的新應(yīng)用需求。這些應(yīng)用面對的是不可控的圖像采集對象,即非合作目標(biāo)。圖像質(zhì)量良莠不齊,車牌類別、大小、出現(xiàn)位置、光照條件等都有很大的不確定性,如圖1所示。例如:交通管理部門希望能夠從公交車攝像頭獲取的圖像數(shù)據(jù)中自動提取違章占用公交專用道車輛的號牌信息,然而公交車攝像頭獲取的是非合作目標(biāo)的圖像,基于合作目標(biāo)的圖像檢測和識別技術(shù)顯然無法滿足應(yīng)用需求。利用我們在車牌檢測技術(shù)上最新的基于深度學(xué)習(xí)的研究成果,可以準(zhǔn)確、高效的解決這一難題。
圖2展示了一些我們獲得的車牌檢測結(jié)果示例。我們的方案可以在不同的光照條件下準(zhǔn)確定位到大小、視角不同的各類車牌的4個角點。
視頻車牌模糊也是一個非常典型的新應(yīng)用需求。用戶在視頻網(wǎng)站分享視頻時,如果鏡頭中有車輛出現(xiàn),用戶希望能夠模糊掉車牌信息以免侵犯他人隱私,就需要利用視頻車牌模糊技術(shù),其中車牌檢測和跟蹤是關(guān)鍵所在?;谏疃葘W(xué)習(xí)的圖像車牌檢測和跟蹤可大大提高視頻中車牌的召回率,提升車牌模糊的性能。
圖像和視頻中的車輛檢測因其在自動駕駛、道路監(jiān)測控制中的應(yīng)用受到了廣泛的關(guān)注。然而,深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使車輛檢測的精度有了質(zhì)的提升。KITTI是車輛檢測領(lǐng)域一個著名的公開數(shù)據(jù)集。在深度神經(jīng)網(wǎng)絡(luò)被大規(guī)模應(yīng)用到物體檢測領(lǐng)域之前,Regionlets[8] 曾作為一個標(biāo)桿方案,獲得了較高的檢測準(zhǔn)確率。其在簡單、中等難度和較難數(shù)據(jù)類別上的準(zhǔn)確率分別為86.5%,76.56%和59.82%。然而近年來,隨著Faster R-CNN[9]模型的提出,Regionlets在KITTI車輛檢測排行榜上已退居到第50名的位置。截至目前,在中等難度的車輛檢測上已有超過10種方案可以獲得超過90%的準(zhǔn)確率。另外,深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)也推動了車型車款識別(定位到車型車款),車輛精細(xì)化識別(定位到具體車輛)等方向的發(fā)展,使得智能城市的構(gòu)想不再遙遠(yuǎn)。
總之,隨著計算能力的持續(xù)快速增長,加上深度學(xué)習(xí)、主動學(xué)習(xí)、遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等強(qiáng)大機(jī)器學(xué)習(xí)技術(shù)繼續(xù)發(fā)展,讓機(jī)器可以像人一樣看到并理解世界的前景是樂觀的。
4 結(jié)束語
再好的研究成果,最終只有在實際應(yīng)用中得到驗證才能體現(xiàn)它的真正價值。微軟亞洲研究院研發(fā)的視頻分析技術(shù)正在通過微軟認(rèn)知服務(wù)這個平臺,以視頻應(yīng)用程序編程接口(API) 的形式提供給廣大人工智能領(lǐng)域的開發(fā)者,幫助大家方便而高效地開發(fā)和視頻相關(guān)的人工智能應(yīng)用系統(tǒng)。這些技術(shù)也已成為微軟Azure 云平臺的媒體分析服務(wù)的重要組成部分,可提供企業(yè)級的智能服務(wù)。類似的,其它高科技公司如Google、Amazon、Facebook等也相繼推出基于深度學(xué)習(xí)的計算機(jī)視覺API,從而使得市場爭奪日趨白熱化。這種激烈競爭反過來將會進(jìn)一步刺激加快計算機(jī)視覺和視頻分析技術(shù)的發(fā)展,最終使人工智能更快、更深入地滲透到人類日常生活和工作中去。
參考文獻(xiàn)
[1] Sophos. Facebooks DeepFace facial recognition technology has human-like accuracy[EB/OL]. (2015-02-06)[2017-06-11]. https://nakedsecurity.sophos.com/2015/02/06/facebooks-deepface-facial-recognition-technology-has-human-like-accuracy/
[2] NOVET J. Microsoft Researchers Say Their Newest Deep Learning System Beats Humans — and Google[EB/OL]. (2015-02-09)[2017-06-11]. https://venturebeat.com/2015/02/09/microsoft-researchers-say-their-newest-deep-learning-system-beats-humans-and-google/
[3] MIT Technology Review. Deep Learning Machine Beats Humans in IQ Test[EB/OL]. (2015-06-12)[2017-06-11]. https://www.technologyreview.com/s/538431/deep-learning-machine-beats-humans-in-iq-test/
[4] Brainline. Vision Problems[EB/OL]. [2017-06-11]. http://www.brainline.org/landing_pages/categories/vision.html
[5] Markets and markets. Home Security Solutions Market - Global Forecast to 2020[EB/OL]. (2017-03)[2017-06-11].
http://www.marketsandmarkets.com/Market-Reports/home-security-solutions-market-701.html
[6] Markets and markets. Semi Autonomous Market for Passenger Car-Global Trends & Forecast to 2018[EB/OL]. (2017-05)[2017-06-11]. http://www.marketsandmarkets.com/Market-Reports/near-autonomous-passenger-car-market-1220.html
[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097-1105
[8] WANG X, YANG M, ZHU S, et al. Regionlets for Generic Object Detection[C]// IEEE International Conference on Computer Vision. USA: IEEE Computer Society, 2013:17-24. DOI: 10.1109/ICCV.2013.10
[9] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149. DOI: 10.1109/TPAMI.2016.2577031