姜育剛:讓計(jì)算機(jī)看懂世界
本刊記者 徐 賽
專家簡(jiǎn)介:
姜育剛,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、上海市視頻技術(shù)與系統(tǒng)工程研究中心副主任。香港城市大學(xué)計(jì)算機(jī)系博士、美國(guó)哥倫比亞大學(xué)博士后,2011年9月通過復(fù)旦大學(xué)人才引進(jìn)回國(guó)工作。目前,在國(guó)際上擔(dān)任Springer期刊Machine Vision and Applications編委、THUMOS國(guó)際大規(guī)模動(dòng)作識(shí)別比賽程序委員會(huì)主席、IEEE Trans.on Multimedia等期刊客座編委等職。
主要學(xué)術(shù)成果體現(xiàn)在視頻語義概念識(shí)別、視頻動(dòng)作與事件識(shí)別、大規(guī)模視頻檢索三個(gè)方面,至今發(fā)表論文91篇,其中SCI索引論文26篇(含5篇已錄用論文)、ACM/IEEE匯刊與計(jì)算機(jī)學(xué)會(huì)推薦的A類會(huì)議長(zhǎng)文31篇。據(jù)Google Scholar統(tǒng)計(jì),論文被引用合計(jì)3467次,第一作者論文單篇最高被引545次,H-因子為28。近年來獲得了2015年度教育部自然科學(xué)獎(jiǎng)二等獎(jiǎng)、軍隊(duì)科技進(jìn)步獎(jiǎng)二等獎(jiǎng)、2015年ACM多媒體專業(yè)組(SIGMM)評(píng)選的新星獎(jiǎng)(Rising Star Award;年度唯一獲獎(jiǎng)人)、2016年國(guó)家優(yōu)秀青年科學(xué)基金資助,2015年入選科學(xué)中國(guó)人年度人物。另外,姜育剛研制的大型場(chǎng)館智能管理系統(tǒng)為黨的十八大等會(huì)議提供了安全服務(wù),受到了中共中央辦公廳警衛(wèi)局的書面表揚(yáng)。
相信許多人都看過《終結(jié)者》這部老影片。在電影中,由施瓦辛格扮演的機(jī)器人具備這樣的能力——它可以通過人臉識(shí)別、嘴型對(duì)比等技術(shù)來找到某個(gè)人,并且還能分析一個(gè)人的行為,從而推斷他的好壞?!斑@部電影是1984年上映的,那時(shí)是沒有技術(shù)能夠賦予機(jī)器這種能力的,而現(xiàn)在,我們正在一步步地將其變?yōu)楝F(xiàn)實(shí)!”姜育剛說。
姜育剛,復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授,多年來長(zhǎng)期從事視頻圖像大數(shù)據(jù)分析與識(shí)別研究,在他心底,有一個(gè)讓計(jì)算機(jī)看懂世界的愿望。
“相信大家對(duì)‘視頻圖像’這個(gè)概念都不陌生,在當(dāng)下這個(gè)大數(shù)據(jù)時(shí)代里,它是最大的大數(shù)據(jù)!”姜育剛介紹說,思科公司曾經(jīng)預(yù)測(cè),到2019年互聯(lián)網(wǎng)數(shù)據(jù)總量的80%都將是視頻,如果那時(shí)我們想看完互聯(lián)網(wǎng)上一個(gè)月時(shí)間內(nèi)傳播的視頻,大概需要花五百萬年。
在這樣的大背景下,姜育剛帶領(lǐng)團(tuán)隊(duì)開展了視頻圖像大數(shù)據(jù)分析與識(shí)別研究,該技術(shù)很“全能”,在不同的領(lǐng)域都有很多的應(yīng)用點(diǎn),比如它可以提升互聯(lián)網(wǎng)管理和檢索數(shù)據(jù)方面的能力,幫助交警自動(dòng)檢測(cè)車輛違章,實(shí)現(xiàn)智能投放視頻廣告等?!按騻€(gè)比方,當(dāng)人們打開一個(gè)棒球的視頻,通過該技術(shù),計(jì)算機(jī)就可以分析出視頻中的人物在打棒球,然后可以有針對(duì)性地在其中插入一條關(guān)于棒球的廣告?!苯齽偨榻B說,視頻圖像大數(shù)據(jù)分析與識(shí)別研究讓計(jì)算機(jī)具備了一定的“思考”能力,也許,這將開啟一個(gè)新時(shí)代的序幕。
回憶過往,最讓姜育剛難忘的,就是在香港城市大學(xué)攻讀博士學(xué)位的經(jīng)歷。2006年,他來到香港求學(xué),在這個(gè)素有“東方之珠”“美食天堂”“動(dòng)感之都”等美譽(yù)的地方,他的日子過得卻并不好。“求學(xué)的過程是充滿艱辛的,我在香港住在離學(xué)校很近、租金很便宜的一個(gè)地方——深水埗,熟悉香港的人可能知道,這是個(gè)很破爛的地方,我住在樓的最頂層九樓,我猜測(cè)應(yīng)該是加出來的一層,沒有電梯,我在這個(gè)地方住了一年多的時(shí)間?!钡?,那時(shí)的姜育剛卻仍感到很快樂,因?yàn)檫@期間,他在科研上收獲了諸多成果。
“在讀博時(shí),我們做了這樣一件事,從算法的角度在視頻和圖像里面提取了很多小的特征。一般來說,兩段視頻就會(huì)具有大量的小特征,我們對(duì)其進(jìn)行量化后,把它們放到同一個(gè)空間里面比對(duì)相似程度,在這個(gè)過程中,我發(fā)現(xiàn)使用傳統(tǒng)方法就會(huì)造成信息的大量損失?!苯齽偹v的就是視覺詞袋特征中的量化損失(Quantization Loss)問題,作為第一個(gè)揭示該問題的人,他對(duì)此展開了探索,提出了一種基于“軟權(quán)重”的量化方法,該方法在不影響量化效率的前提下,可以提升識(shí)別性能10%左右。該成果最終被發(fā)表在2007年ACM圖像視頻檢索大會(huì)上,至今已經(jīng)被引用了500多次。雖然成果公布已達(dá)10年之久了,計(jì)算機(jī)領(lǐng)域的技術(shù)層面有了很大的變革,但是目前姜育剛創(chuàng)造的“量化方法”卻仍被廣泛地使用著。
體驗(yàn)到了解決實(shí)際問題的快樂,姜育剛再接再厲,他借鑒了文本處理領(lǐng)域的本體(Ontology)思想,提出構(gòu)建“視覺詞本體”,生成視覺詞關(guān)系樹?!巴ㄟ^估算和利用視覺詞之間的關(guān)系,可以更準(zhǔn)確地計(jì)算了視頻之間的相似度,進(jìn)一步降低量化損失。”姜育剛介紹說,該方法介于傳統(tǒng)視覺詞袋模型和局部描述子匹配方法之間,在精度上優(yōu)于傳統(tǒng)視覺詞袋模型,接近局部描述子直接匹配的方法,但計(jì)算效率卻比后者提升了1個(gè)數(shù)量級(jí)。
自適應(yīng)視頻語義擴(kuò)散方法是姜育剛在這期間的另一貢獻(xiàn)點(diǎn)。“這個(gè)方法是基于圖模型理論提出的,我在此方法中構(gòu)建的類別關(guān)系圖,不同于傳統(tǒng)方法中的數(shù)據(jù)樣本圖,圖中關(guān)聯(lián)關(guān)系較強(qiáng)的類別同時(shí)出現(xiàn)的概率更高,反之則更低?!闭Z義擴(kuò)散方法可以使得同一視頻的語義類別預(yù)測(cè)分?jǐn)?shù)的分布,與類別關(guān)系圖更加一致,有效地提升了識(shí)別精度,而且該方法還具備針對(duì)類別關(guān)系圖的自適應(yīng)調(diào)整能力,可以通過分析目標(biāo)數(shù)據(jù)的特點(diǎn)自動(dòng)調(diào)整類別關(guān)系,進(jìn)而更精確地識(shí)別視頻語義。該成果相關(guān)論文已經(jīng)發(fā)表在2009年計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)國(guó)際會(huì)議ICCV上,擴(kuò)展后的期刊文章于2012年發(fā)表在IEEE Trans.on Image Processing上。
姜育剛榮獲ACM中國(guó)新星獎(jiǎng)
2009年,姜育剛漂洋過海來到美國(guó),于哥倫比亞大學(xué)做博士后研究。哥倫比亞大學(xué)是美國(guó)歷史最悠久的5所大學(xué)之一,據(jù)統(tǒng)計(jì),有104位諾貝爾獎(jiǎng)得主曾在哥大工作或?qū)W習(xí)過,位列世界第二,是名副其實(shí)的科技殿堂!“剛到哥大的時(shí)候,學(xué)校的宿舍非常緊張,排不上,我就在一個(gè)破沙發(fā)上面住了半年。”姜育剛回憶道。在哥大,他如饑似渴地學(xué)習(xí)著,進(jìn)一步地夯實(shí)了學(xué)術(shù)基礎(chǔ),開闊了國(guó)際視野,提高了科研能力。
博士后出站后,姜育剛接過了復(fù)旦大學(xué)的“橄欖枝”,通過人才引進(jìn)計(jì)劃回國(guó)工作。他在復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,成立了視頻大數(shù)據(jù)分析實(shí)驗(yàn)室,繼續(xù)視頻內(nèi)容識(shí)別的研究。從走出國(guó)門一心向?qū)W到回到故土置身科研,7年時(shí)光中,姜育剛創(chuàng)造了數(shù)個(gè)極具“亮點(diǎn)”的工作成果。
視頻動(dòng)作與事件識(shí)別是姜育剛研究的一個(gè)重點(diǎn)領(lǐng)域。他基于相對(duì)運(yùn)動(dòng)思想,在此領(lǐng)域提出了一種新的視頻運(yùn)動(dòng)特征表示方法,減輕了鏡頭抖動(dòng)帶來的影響?!斑@個(gè)方法的‘秘訣’就在于通過跟蹤局部描述子在時(shí)序上的運(yùn)動(dòng)過程,針對(duì)不同描述子之間的相對(duì)運(yùn)動(dòng)關(guān)系構(gòu)建特征?!苯齽偨榻B說,該方法全面考慮了局部描述子視覺詞、描述子之間的位置關(guān)系及相對(duì)運(yùn)動(dòng)方向信息,相關(guān)論文發(fā)表于歐洲計(jì)算機(jī)視覺大會(huì) ECCV、ACM Multimedia(長(zhǎng)文)和IEEE Trans. on Image Processing上。
由于無法高效利用視頻的時(shí)序信息及聲音信息,傳統(tǒng)的基于圖像的卷積神經(jīng)網(wǎng)絡(luò)方法在視頻數(shù)據(jù)上的應(yīng)用結(jié)果較差。如何解決該問題呢?姜育剛找到了答案,“我借鑒人類感知機(jī)理,針對(duì)視頻數(shù)據(jù)的特點(diǎn),如含有時(shí)序運(yùn)動(dòng)信息,設(shè)計(jì)了一個(gè)完整的面向視頻數(shù)據(jù)的深度學(xué)習(xí)框架?!痹摽蚣芫C合考慮了視頻中的靜態(tài)特征、局部運(yùn)動(dòng)特征以及時(shí)序信息,并采用一種新的基于神經(jīng)網(wǎng)絡(luò)的多模態(tài)特征融合方法,從而可以更精確地識(shí)別視頻中的動(dòng)作和事件。此外,姜育剛還研發(fā)了一個(gè)結(jié)合多種特征和時(shí)序信息的視頻事件識(shí)別系統(tǒng),該系統(tǒng)在2010年美國(guó)國(guó)家標(biāo)準(zhǔn)局主辦的國(guó)際評(píng)測(cè)(TRECVID)中,獲得多媒體視頻事件識(shí)別任務(wù)(MED)的最優(yōu)性能,精度高于卡內(nèi)基梅隆大學(xué)、IBM等機(jī)構(gòu)開發(fā)的系統(tǒng)。他于近期對(duì)該系統(tǒng)進(jìn)行了優(yōu)化,讓其在精度損失很小的情況下,識(shí)別速度提升220余倍。
在科研工作中,姜育剛很重視興趣的“力量”,他認(rèn)為興趣驅(qū)動(dòng)是做好科研工作的重要因素。在興趣的指引下,姜育剛在大規(guī)模視頻檢索領(lǐng)域進(jìn)行了研究探索,他提出了一種結(jié)合場(chǎng)景、物體檢測(cè)進(jìn)行人體動(dòng)作識(shí)別的算法。“傳統(tǒng)的方法不區(qū)分相同漢明距離的哈希編碼與查詢的相似程度,導(dǎo)致結(jié)果排序不夠精細(xì),大量與查詢漢明距離相同的樣本以隨機(jī)順序展示?!倍齽偺岢龅姆椒▌t可以實(shí)時(shí)動(dòng)態(tài)估算每個(gè)哈希編碼與查詢的實(shí)際相似度,將檢索結(jié)果的排序精細(xì)度從n(哈希編碼的長(zhǎng)度)提高到2n(哈希編碼的數(shù)量),解決了這個(gè)問題。同時(shí),姜育剛還提出了提出一種層次化(Hierarchical)展示方法,“當(dāng)前大多數(shù)視頻檢索系統(tǒng)都采用單一列表形式(List)展示結(jié)果將查到的視頻排序,使用效果不佳?!睘榱颂岣吡艘曨l瀏覽效率和用戶體驗(yàn),姜育剛針對(duì)復(fù)雜查詢?nèi)缰宋铩⒌攸c(diǎn)等,研制了一種新的展示系統(tǒng),此系統(tǒng)能自動(dòng)地從不同角度分別介紹了相關(guān)內(nèi)容。該成果的論文發(fā)表于2014年ACM Multimedia上,并榮獲該年度最佳短文獎(jiǎng)。
2015年ACM SIGMM新星獎(jiǎng)?lì)C授典禮
從20世紀(jì)90年代以來,恐怖襲擊就在全球范圍內(nèi)有迅速蔓延的嚴(yán)峻趨勢(shì),是當(dāng)下急需解決的世界性問題。各國(guó)的反恐部門在打擊暴恐的過程中發(fā)現(xiàn),“網(wǎng)絡(luò)視頻”是暴恐思想蔓延的一個(gè)重要載體。小到制爆技術(shù)和方法,大到恐怖主義思想的傳播,暴恐視頻已經(jīng)成為暴恐團(tuán)伙的“思想指引”和“訓(xùn)練教材”。為了打擊網(wǎng)絡(luò)暴恐視頻,國(guó)家互聯(lián)網(wǎng)信息辦公室開展了專項(xiàng)行動(dòng)。
姜育剛勇挑重任,服務(wù)國(guó)家戰(zhàn)略,帶領(lǐng)復(fù)旦大學(xué)團(tuán)隊(duì)研發(fā)了一套自動(dòng)檢測(cè)暴恐視頻的計(jì)算機(jī)算法和軟件系統(tǒng),在國(guó)家互聯(lián)網(wǎng)信息辦公室指導(dǎo)的全國(guó)性比賽——“2014年全國(guó)特定音視頻檢索識(shí)別挑戰(zhàn)賽”中,與37支參賽隊(duì)伍角逐,取得了一項(xiàng)任務(wù)第一、一項(xiàng)任務(wù)第二的好成績(jī)。經(jīng)過近一年的反復(fù)評(píng)測(cè)、復(fù)旦大學(xué)團(tuán)隊(duì)研發(fā)的系統(tǒng)最終脫穎而出,成功地被部署在國(guó)家互聯(lián)網(wǎng)信息辦公室,為國(guó)民安全做出了貢獻(xiàn)。
在鑄就了“反恐利器”的同時(shí),姜育剛還憑借過硬的工作基礎(chǔ)和一流的學(xué)術(shù)積累,出色完成了一個(gè)大型會(huì)場(chǎng)智能服務(wù)系統(tǒng)中核心算法的攻關(guān),為黨的“十八大”、近年來“兩會(huì)”等重要會(huì)議的順利召開提供了有效的服務(wù)支撐,受到了中共中央辦公廳警衛(wèi)局的書面表揚(yáng),相關(guān)技術(shù)成果榮獲了2015年度軍隊(duì)科技進(jìn)步獎(jiǎng)。
從事了多年的科研工作,姜育剛對(duì)此有了自己的一番感悟,“我覺得做工科科研,我們需要興趣驅(qū)動(dòng)、刻苦的鉆研。研究需要?jiǎng)?chuàng)造新的知識(shí),在創(chuàng)造新的知識(shí)過程中,我們要盡量追求簡(jiǎn)單,追求效率。在研究取得一定進(jìn)展的時(shí)候,我們則要樂于分享。作為科學(xué)家,我們要擔(dān)當(dāng)起為國(guó)服務(wù)的責(zé)任!”
姜育剛?cè)脒x科學(xué)中國(guó)(2015)年度人物
視頻的語義包括從基本的物體、場(chǎng)景、人體動(dòng)作到復(fù)雜的高層事件等,內(nèi)容極為豐富。各類視頻語義之間存在著緊密的“紐帶”,例如,對(duì)物體、場(chǎng)景的理解可以幫助推測(cè)高層事件。隨著采集設(shè)備的普及和多媒體技術(shù)的迅速發(fā)展,視頻數(shù)據(jù)正呈爆炸式增長(zhǎng)。已有的視頻語義分析研究局限于對(duì)幾百個(gè)物體、動(dòng)作等類別的識(shí)別,不足以滿足實(shí)際應(yīng)用需求。人們急需有效而全面的語義理解技術(shù),為智能管理、檢索等各類高層應(yīng)用提供核心支撐。
雖然大量的視頻數(shù)據(jù)觸手可及,但是訓(xùn)練自動(dòng)識(shí)別算法所需的人工標(biāo)注信息卻非常稀缺?!岸啾扔谖矬w、場(chǎng)景等類別,動(dòng)作、復(fù)雜事件的訓(xùn)練數(shù)據(jù)則更為緊缺。這是因?yàn)榍罢呤庆o態(tài)的,可以利用人工標(biāo)注的圖像數(shù)據(jù)來訓(xùn)練模型,后者則只能用視頻數(shù)據(jù)來訓(xùn)練模型,而現(xiàn)有的圖像數(shù)據(jù)標(biāo)注要遠(yuǎn)多于視頻數(shù)據(jù)的標(biāo)注?!苯齽傉f。目前,可以公開下載使用的最大的動(dòng)作識(shí)別數(shù)據(jù)集為2015年公布的ActivityNet,含有203個(gè)動(dòng)作類別;而最大的帶有人工標(biāo)簽的復(fù)雜事件識(shí)別數(shù)據(jù)集為FCVID,含有239個(gè)類別。這些現(xiàn)有的訓(xùn)練數(shù)據(jù)均有漏洞,缺乏對(duì)類別之間關(guān)系的定義。
為了創(chuàng)造一個(gè)完整的大規(guī)模視頻語義理解系統(tǒng),姜育剛開展了優(yōu)秀青年科學(xué)基金項(xiàng)目“海量視頻的層次化語義內(nèi)容識(shí)別關(guān)鍵技術(shù)研究”,“首先我將致力于構(gòu)建一個(gè)全面的視頻語義訓(xùn)練數(shù)據(jù)集合,涵蓋實(shí)際應(yīng)用中需要的大多數(shù)語義。由于物體、場(chǎng)景等類別可以通過現(xiàn)有的圖像標(biāo)注進(jìn)行模型訓(xùn)練,所以我將研究的重點(diǎn)放在了需要視頻動(dòng)態(tài)信息進(jìn)行識(shí)別的人體動(dòng)作和復(fù)雜事件?!苯齽偨榻B說,而除了設(shè)計(jì)科學(xué)的數(shù)據(jù)采集和標(biāo)注方案,他還打算從底層的簡(jiǎn)單人體動(dòng)作到高層的復(fù)雜事件建構(gòu)一個(gè)語義層次化組織,并對(duì)類別間的關(guān)聯(lián)關(guān)系做出明確定義。
從技術(shù)層面上講,姜育剛將研究目標(biāo)對(duì)準(zhǔn)了語義識(shí)別數(shù)據(jù)集構(gòu)建、多模態(tài)特征深度融合、層次化視頻語義識(shí)別、視頻語義的時(shí)空定位。“其中,大規(guī)模數(shù)據(jù)集的構(gòu)建是開展其他三個(gè)問題的研究的重要基石,多模態(tài)特征融合的輸出為語義識(shí)別模塊的輸入,而精確時(shí)空定位則在識(shí)別的基礎(chǔ)上進(jìn)行?!?/p>
姜育剛的研究可以對(duì)視頻語義理解的相關(guān)理論研究和技術(shù)研發(fā)起到一定的推動(dòng)作用。取得的成果可以為很多應(yīng)用系統(tǒng)提供關(guān)鍵技術(shù),如基于語義分析的互聯(lián)網(wǎng)廣告投放、互聯(lián)網(wǎng)視頻監(jiān)管與檢索、智能視頻監(jiān)控與安防等,進(jìn)而促進(jìn)相關(guān)產(chǎn)業(yè)的發(fā)展,產(chǎn)生較大的社會(huì)效益和經(jīng)濟(jì)效益。