王艷敏
如果有人朝你扔過來一個(gè)球,通常你會(huì)怎么辦?——當(dāng)然是馬上把它接住。這個(gè)問題看似很簡單,但其背后有著一套非常復(fù)雜的處理過程:首先球進(jìn)入人類的視網(wǎng)膜,經(jīng)過分析后,圖像的信號被發(fā)送到大腦,視覺皮層會(huì)更加徹底地去分析圖像,把它發(fā)送到剩余的皮質(zhì),與已知的任何物體相比較,進(jìn)行物體類別和位置軌跡的分析,最終決定你下一步的行動(dòng):舉起雙手、接住球(之前已經(jīng)預(yù)測到它的行進(jìn)軌跡)。上述過程只在零點(diǎn)幾秒內(nèi)發(fā)生,幾乎都是下意識的行為,很少會(huì)出差錯(cuò)。然而對于想要重塑人類視覺的科學(xué)家來說,這卻是個(gè)待解的難題,因?yàn)樗麄円€原的是一系列環(huán)環(huán)相扣的過程。
如何讓計(jì)算機(jī)像人類那樣“看”?這便是計(jì)算機(jī)視覺學(xué)科研究最核心的問題。更確切地說,計(jì)算機(jī)視覺就是利用攝像機(jī)和計(jì)算機(jī)代替人類視覺:對同樣的視覺輸入信號(圖像、視頻),計(jì)算機(jī)視覺須與人類視覺得到同樣的識別與理解結(jié)果。
“隨著大數(shù)據(jù)時(shí)代的到來,人工智能被廣泛地應(yīng)用到社會(huì)生活的各個(gè)方面。作為其重要的組成部分,計(jì)算機(jī)視覺已經(jīng)迎來了它最好的發(fā)展時(shí)機(jī)?!鄙虾=煌ù髮W(xué)人工智能研究院副教授沈?yàn)檎f。為計(jì)算機(jī)添上眼睛,正是他為之奮力拼搏的事業(yè)。
“興趣”在左,“堅(jiān)持”在右
“曾任美國約翰斯·霍普金斯大學(xué)助理研究教授”“在計(jì)算機(jī)視覺相關(guān)領(lǐng)域的頂級學(xué)術(shù)會(huì)議和期刊上發(fā)表論文50余篇,包括IEEE TPAMI、IEEE TMI、CVPR、ICCV等,論文在Google Scholar上被引用3700余次”“曾先后主持國家自然科學(xué)基金青年基金和面上項(xiàng)目”“獲上海市教委‘晨光計(jì)劃,上海大學(xué)蔡冠深優(yōu)秀教師獎(jiǎng)”“任SCI期刊Neurocomputing編委”……翻開沈?yàn)榈暮啔v,滿滿的都是他耀眼的經(jīng)歷和所取得的非凡成就。當(dāng)被問及奧秘何在,沈?yàn)榈幕卮鸷芎唵危骸盁o非兩點(diǎn)——興趣加堅(jiān)持?!?/p>
2003年,沈?yàn)橐詢?yōu)異的成績被華中科技大學(xué)信息與通信工程專業(yè)錄取??缮蠈W(xué)后,他卻發(fā)現(xiàn)這個(gè)專業(yè)并沒有想象中有意思?!巴ㄐ殴こ谈嗟氖桥c信號、聲波、頻段相關(guān),這些東西看不見摸不著,無法切實(shí)感受到。而計(jì)算機(jī)視覺是進(jìn)行圖像處理,所見即所得,這讓我萌發(fā)了轉(zhuǎn)變學(xué)習(xí)方向的想法?!鄙?yàn)檎f。本科畢業(yè)后,他申請到本校的博士。在讀博期間受白翔教授的影響,他初次領(lǐng)略到計(jì)算機(jī)視覺之美,也是在白翔教授的推薦下,他前往微軟亞洲研究院實(shí)習(xí)。“在那里,我遇到了生命中的另一位恩師——屠卓文教授。”沈?yàn)檎f。
微軟亞洲研究院是微軟公司在亞太地區(qū)設(shè)立的基礎(chǔ)及應(yīng)用研究機(jī)構(gòu),也是微軟在美國本土以外規(guī)模最大的研究機(jī)構(gòu),被戲稱為“中國計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的黃埔軍校”。作為微軟亞洲研究院高級研究員、加州大學(xué)圣地亞哥大學(xué)教授,屠卓文在國際機(jī)器視覺方面擁有很高的權(quán)威性。在屠卓文的影響下,沈?yàn)殚_始了機(jī)器學(xué)習(xí),這進(jìn)一步激發(fā)了他的研究興趣。
實(shí)驗(yàn)室里撐起科研天地
博士畢業(yè)后,沈?yàn)閬淼缴虾4髮W(xué),成為該校的一名老師。除了授課,沈?yàn)閷⒋蟛糠謺r(shí)間都花在實(shí)驗(yàn)室里。這期間,他先后開展了國家自然科學(xué)基金青年項(xiàng)目“基于有監(jiān)督學(xué)習(xí)的自然圖像中骨架提取和物體識別研究”及面上項(xiàng)目“基于自然圖像中深度形狀特征提取的一般物體檢測研究”的研究。
魯梅爾哈特獎(jiǎng)獲得者、印第安納大學(xué)的心理學(xué)和認(rèn)知科學(xué)教授Linda B. Smith指出形狀在人眼識別目標(biāo)的過程中發(fā)揮著比其他特征更為重要的作用。就如不到兩歲的人類小孩,看到彎曲的弧線就會(huì)聯(lián)想到月亮。沈?yàn)榈捻?xiàng)目研究正是基于這一理念所開展,他希望構(gòu)建基于形狀描述符的圖像中物體檢測與識別視覺系統(tǒng)。圖像中形狀描述符,包括輪廓和骨架等。瑞典皇家理工學(xué)院計(jì)算機(jī)系教授Tony Lindeberg指出這些形狀描述符為物體存在的位置提供了假設(shè),即這里可能存在這樣大小的一個(gè)事物(“there might be something there of about that size”)。從圖像中提取形狀描述符,其難度在于如何區(qū)分真實(shí)目標(biāo)的形狀特征和由復(fù)雜背景產(chǎn)生的干擾。以輪廓檢測為例,美國工程院院士Jitendra Malik曾專門撰文定義輪廓和邊緣的區(qū)別:輪廓是物體與物體之間的邊界,而邊緣是圖像中底層特征,如亮度、顏色和紋理的快速變化產(chǎn)生的。這兩者有關(guān)聯(lián),但是并不相同。前者具有一定的語義性,而后者還包含很多語義無關(guān)的信號。在兩項(xiàng)國家自然科學(xué)基金的項(xiàng)目研究中,沈?yàn)橄到y(tǒng)地建立了一套從物體形狀分析、目標(biāo)形狀特征提取到形狀表征引導(dǎo)的目標(biāo)分割與識別的計(jì)算機(jī)制和方法,有效推動(dòng)了場景文字檢測與識別等相關(guān)應(yīng)用的發(fā)展。
為醫(yī)學(xué)影像處理技術(shù)“擦亮眼睛”
“吾生也有涯而知也無涯”,為了進(jìn)一步開闊眼界,2016年,沈?yàn)檫h(yuǎn)赴美國約翰斯·霍普金斯大學(xué)計(jì)算機(jī)科學(xué)系進(jìn)行交流學(xué)習(xí),從2018年起在計(jì)算機(jī)科學(xué)系任助理研究教授,與艾倫·尤勒教授共事。沈?yàn)檎f:“艾倫·尤勒是著名物理學(xué)家史蒂芬·霍金的學(xué)生,人工智能領(lǐng)域的先驅(qū)。他為人親切隨和,與學(xué)生相處時(shí),并不以老師自居,而是作為朋友進(jìn)行交流。由于知識豐富、經(jīng)驗(yàn)充足,他在學(xué)術(shù)上常常有自己獨(dú)到的見解。”在學(xué)生中有這樣一種說法,能成為艾倫·尤勒的學(xué)生,上輩子一定是天使??梢娔塬@得他的指導(dǎo),何其幸運(yùn)!在艾倫·尤勒的幫助下,沈?yàn)閷W(xué)到了很多,這其中之一便是醫(yī)學(xué)影像處理技術(shù)。
約翰斯·霍普金斯醫(yī)學(xué)院是美國數(shù)一數(shù)二的醫(yī)學(xué)研究機(jī)構(gòu),艾倫·尤勒教授帶領(lǐng)團(tuán)隊(duì)開展了多項(xiàng)關(guān)于醫(yī)學(xué)方面的重大研究。沈?yàn)橛行覅⑴c了基于CT影像的早期胰腺癌診斷的項(xiàng)目研究,并提出了多項(xiàng)CT影像中胰腺腫瘤分割技術(shù):針對早期胰腺導(dǎo)管癌腫瘤在CT影像中的征象不明顯的問題,提出了基于胰管形狀建模與形變估計(jì)的胰腺導(dǎo)管癌腫瘤定位方法,實(shí)現(xiàn)在不降低特異性的情況下,將早期胰腺導(dǎo)管癌診斷敏感性提升了3%;針對雙脈相CT圖像融合難題,提出深度特征空間中CT圖像雙脈相配準(zhǔn)方法,實(shí)現(xiàn)基于雙脈相融合的胰腺導(dǎo)管癌腫瘤分割方法,大幅提高胰腺導(dǎo)管癌腫瘤分割精度;針對腫瘤像素級標(biāo)注耗時(shí)長、花費(fèi)高等痛點(diǎn)問題,提出基于圖像級標(biāo)注的胰腺腫瘤分割方法,通過引導(dǎo)式注意力機(jī)制,構(gòu)建像素級標(biāo)注與圖像級標(biāo)注的橋梁,在弱監(jiān)督下,實(shí)現(xiàn)與全監(jiān)督下相當(dāng)?shù)囊认倌[瘤分割精度,可大幅減少醫(yī)生的標(biāo)注工作……
2020年8月,沈?yàn)榛氐搅俗鎳?,把上海交通大學(xué)人工智能研究院作為他工作的新起點(diǎn)。雖然還需要時(shí)間適應(yīng)新環(huán)境,但沈?yàn)橐验_始著手組建團(tuán)隊(duì)、挖掘項(xiàng)目資源等,此外,他還有一項(xiàng)重要的工作需要完成——擔(dān)任2022年國際計(jì)算機(jī)視覺與模式識別大會(huì)(CVPR 2022)領(lǐng)域主席。
CVPR是世界頂級的計(jì)算機(jī)視覺會(huì)議,近年來參會(huì)人數(shù)高速增長,2019年參會(huì)人數(shù)接近1萬人。CVPR有著較為嚴(yán)苛的錄用標(biāo)準(zhǔn),近幾年錄取率不超過25%,而口頭報(bào)告的論文比例更是不高于5%。大會(huì)的領(lǐng)域主席通常由程序主席指定,起著承上啟下的關(guān)鍵作用,在某種程度上直接決定了自己分管的20~30篇文章的命運(yùn)。因此,領(lǐng)域主席一般都是由業(yè)內(nèi)頗有建樹、有判斷力的專家學(xué)者擔(dān)任。
成為CVPR的領(lǐng)域主席,對沈?yàn)槎约仁且环N責(zé)任,也是一種肯定。2011年,還在讀博的沈?yàn)榻oCVPR投了第一篇論文,到如今成為程序主席負(fù)責(zé)審稿,角色轉(zhuǎn)變的背后有著太多的艱辛與付出!“紙上得來終覺淺,絕知此事要躬行”,在接下來的時(shí)光里,沈?yàn)橄M軓摹凹埳稀弊叱鋈?,?shí)現(xiàn)相關(guān)技術(shù)的成果轉(zhuǎn)化,為推動(dòng)我國計(jì)算機(jī)視覺產(chǎn)業(yè)的發(fā)展貢獻(xiàn)一份自己的力量!