想尋找心儀的圖片素材,可以像“神筆馬良”一樣“所畫即所得”;偶然看到一段感興趣的視頻,只要幾秒鐘就能找到原版鏈接;通過人臉特征定位,你還可以在游戲或虛擬世界中塑造出屬于自己的“阿凡達(dá)”……這些令人激動(dòng)的場景,原本要在童話或是科幻電影中才能出現(xiàn)。然而在微軟亞洲研究院技術(shù)研究人員的努力之下,這些夢想正在一步一步變成現(xiàn)實(shí)。下面就請大家跟隨CHIP的腳步,一起走進(jìn)微軟亞洲研究院體驗(yàn)這些酷技術(shù)吧。
所畫即所得的“神筆馬良”
草圖搜索:畫線條,找圖片
自從邁入了互聯(lián)網(wǎng)時(shí)代,“搜索”就成為了人們工作和生活中最常見的互聯(lián)網(wǎng)應(yīng)用之一。然而與簡單易行的文本搜索相比,如何對圖片甚至視頻等多媒體內(nèi)容進(jìn)行搜索,一直是擺在技術(shù)人員面前的一大難題。
目前的商用圖像搜索方法,主要有基于關(guān)鍵字的圖像搜索和以圖找圖的搜索。而另一項(xiàng)仍處于初步研究階段的草圖搜索技術(shù),則是使用充滿不確定性和創(chuàng)造力的線條作為檢索入口。通過草圖搜索技術(shù)將繪畫和搜索創(chuàng)造性地結(jié)合,身處大數(shù)據(jù)時(shí)代的用戶就能運(yùn)用手繪的線條圖在海量的圖片中找到與之相似的圖像。在智能手機(jī)、平板電腦等移動(dòng)智能終端設(shè)備非常普及的今天,用戶不僅可以通過它們?nèi)ヅ臄z照片、視頻,甚至還能夠在上面進(jìn)行繪圖。因?yàn)槟壳昂芏嘀悄茉O(shè)備都已經(jīng)采用了觸摸屏。這就允許用戶去在移動(dòng)智能設(shè)備屏幕上畫一些線條,然后基于線條來檢索圖像。
在草圖搜索任務(wù)中,計(jì)算機(jī)主要面臨特征表示、特征匹配和建立索引結(jié)構(gòu)三大難題。
特征表示:把手繪的線條圖和數(shù)據(jù)庫中的圖像都轉(zhuǎn)換為計(jì)算機(jī)能夠“認(rèn)識”的表示,即一組或若干組數(shù)字,這就是特征表示。我們需要找到有效的特征表示,使得同一類的物體盡可能有相似的特征,而不同類別物體的特征盡可能不同。
特征匹配:根據(jù)特征表示方法定義合理的度量來匹配所畫線條圖與數(shù)據(jù)庫中圖像的特征,可得出二者的相似度。基于這個(gè)相似度,我們就可以把與手繪線條最相似的圖像排在前面,并返回給用戶。
建立索引結(jié)構(gòu):在數(shù)據(jù)庫中的數(shù)據(jù)以千計(jì)算時(shí),我們可以一張張地比較得到相似度。但是當(dāng)數(shù)據(jù)規(guī)模上升到百萬甚至千萬級別時(shí),如何建立有效索引結(jié)構(gòu)使系統(tǒng)在極短時(shí)間內(nèi)返回搜索結(jié)果,便成為了一個(gè)重要問題。
除了將線條作為類似搜索關(guān)鍵詞這樣的特征之外,色彩信息同樣也可以作為圖像的特征。因此通過這些特征表示進(jìn)行匹配,就可以逐一將用戶繪制的草圖與數(shù)據(jù)庫中的每一個(gè)圖像進(jìn)行比對。而有效的搜索技術(shù)和索引結(jié)構(gòu)可以快速地從海量數(shù)據(jù)中找到相匹配的圖像,并返回給用戶進(jìn)行選擇。
譬如,如果用戶想找埃菲爾鐵塔的話,就可以在畫圖的時(shí)候添加一些顏色,譬如想找有著藍(lán)天背景的圖片,可以在鐵塔線條旁邊加一些藍(lán)色,如果需要的話還可以在鐵塔下方加上綠色的草坪。
微軟將這項(xiàng)圖形搜索技術(shù)命名為“Magic Brush”,并且還為其賦予了一個(gè)極具中國韻味的中文名——“神筆馬良”。顯然這一靈感來自于大受歡迎的國產(chǎn)動(dòng)畫片《神筆馬良》。雖然它還無法做到像馬良的神筆那樣神通廣大,畫什么就有什么,但是用戶卻可以借此技術(shù)從海量的圖片數(shù)據(jù)中找到最貼近自己需求的東西。
據(jù)悉,微軟亞洲研究院目前已經(jīng)為“神筆馬良”項(xiàng)目構(gòu)建了一個(gè)超過600萬張圖片的數(shù)據(jù)庫,而另一個(gè)還沒有添加顏色信息的數(shù)據(jù)庫,更是存有大約15億張圖片。有了如此龐大的數(shù)據(jù)庫,不論是幫助人們尋找圖片,還是幫助兒童學(xué)習(xí)繪畫,又或是幫助設(shè)計(jì)師精確尋找素材,都可以提供更好的搜索體驗(yàn)。
幾秒鐘找到心儀視頻
高精度的移動(dòng)視頻搜索
微軟多媒體搜索研究的范圍并不僅僅局限于圖片,人們通過隨身攜帶的智能手機(jī)拍攝視頻,也能夠進(jìn)行相關(guān)的多媒體搜索。譬如用戶在任何場合看到感興趣的視頻時(shí),都可以用手機(jī)進(jìn)行拍攝,然后通過微軟的多媒體搜索程序點(diǎn)擊一下,就能識別出視頻的來源,甚至提示用戶剛才拍攝片段所在的時(shí)間點(diǎn)。
舉例來說,當(dāng)你偶然在某個(gè)屏幕上看到一段視頻,覺得這段影像很有趣,就可以直接掏出手機(jī)拍攝一小截片段,通過微軟的“Mobile Video Search”移動(dòng)視頻搜索在數(shù)據(jù)庫或云端上找到正在看的這段視頻,然后分享給家人或朋友。而親朋好友在點(diǎn)擊你剛才分享的鏈接時(shí),就能直接看到網(wǎng)上云端的視頻。
移動(dòng)視頻搜索的速度究竟有多快?據(jù)微軟研究人員介紹,用戶在錄制視頻的時(shí)候,每一秒都會傳遞一些特征信息,從第5秒開始就會根據(jù)匹配程度的高低陸續(xù)返回檢索結(jié)果。在返回結(jié)果的同時(shí),搜索引擎仍然在把進(jìn)一步的視頻特征信息傳遞給云端,一旦發(fā)現(xiàn)用戶看到的視頻信息出現(xiàn)新變化,會立即提供相似度更高的視頻進(jìn)行實(shí)時(shí)修正,從而為用戶提供更好的搜索體驗(yàn)。目前就搜索精度而言,這項(xiàng)技術(shù)在10s內(nèi)的精確度能夠達(dá)到90%,如果換成時(shí)間更短的5s,也能提供70%~76%的精確度。
移動(dòng)視頻搜索的原理及應(yīng)用
與基于文字的搜索相比,視頻、圖片等多媒體文件的體積往往非常龐大,譬如光是一分鐘視頻所包含的數(shù)據(jù)量就非??捎^。這也給視頻搜索帶來了很大的難題。另外一個(gè)需要克服的難點(diǎn),就是用戶看到視頻可以大體明白其內(nèi)容,但是目前的計(jì)算機(jī)還無法做到,這被稱為“語義鴻溝”,也是多媒體分析、多媒體檢索中最大的難題。
微軟移動(dòng)視頻搜索技術(shù)的工作原理,是同時(shí)利用視頻信息、影像信息和語音信息的特征,每隔一秒提取一次關(guān)鍵信息進(jìn)行比對。同時(shí)其后臺有一個(gè)非常有效的索引機(jī)制,可以通過這些信息來幫助系統(tǒng)快速查找與用戶拍攝視頻相似度非常高的視頻版本。其提供的搜索結(jié)果會依照相似度的高低進(jìn)行排列,相似度最高的視頻會排在其他視頻前面。這樣即使網(wǎng)上有多個(gè)經(jīng)過編輯的視頻版本,與用戶所拍攝視頻最接近的也會排到第一位,當(dāng)然用戶也可以根據(jù)自己需求查閱后面的不同版本。
對于普通消費(fèi)者來說,在智能手機(jī)已經(jīng)非常流行的今天,用手機(jī)拍攝視頻已經(jīng)是很常見的應(yīng)用。譬如在電影院里,又或者是在廣場的大屏幕上看到一段視頻,如果感興趣就可以用移動(dòng)視頻搜索技術(shù)找到這個(gè)視頻回家繼續(xù)看,還可以把信息分享給朋友。因此這項(xiàng)技術(shù)既可以作為手機(jī)上的一項(xiàng)應(yīng)用,也可以作為與手機(jī)相機(jī)相關(guān)的應(yīng)用。
顯而易見的是,微軟多媒體搜索技術(shù)的出現(xiàn),不僅逾越了多媒體文件和文本文字之間的鴻溝,而且還構(gòu)建了非常有效的數(shù)學(xué)結(jié)構(gòu)。事實(shí)上,早在2000年甚至是上個(gè)世紀(jì)九十年代,學(xué)術(shù)界就對類似的多媒體搜索技術(shù)進(jìn)行了密集研究,并涌現(xiàn)出了許多的技術(shù)原型。而微軟所展示的這兩項(xiàng)圖片與視頻搜索技術(shù)是最新的,也是相關(guān)領(lǐng)域最好的。
人臉特征定位
快速高精度的人臉對齊
在一臺筆記本電腦面前,微軟的人臉特征定位軟件僅僅通過普通的攝像頭,就成功地捕獲了鏡頭前每一位觀眾包括眉毛、眼睛、鼻子、嘴巴等在內(nèi)的數(shù)十個(gè)臉部特征點(diǎn),而且始終保持著非常高的幀數(shù)。此外用戶還可以根據(jù)自己的實(shí)際需要,來確定抓取特征點(diǎn)的個(gè)數(shù)。
這一過程大致分為兩個(gè)步驟:第一步是局部學(xué)習(xí),因?yàn)槲覀円R別各個(gè)人臉的特征點(diǎn),為了能更好地定位特征點(diǎn)的位置,就要先在這些特征點(diǎn)的周圍選取有利于判斷點(diǎn)真實(shí)位置的特征。這樣我們就需要收集大量數(shù)據(jù)并通過一些機(jī)器學(xué)習(xí)和算法,讓算法自動(dòng)挖掘數(shù)據(jù)找到對定位有用的特征。
由于第一步局部學(xué)習(xí)并沒有整合全局信息,所以第二步就是用全局線性回歸的方式,把局部信息都整合在一起,然后做一個(gè)整體的學(xué)習(xí)來估計(jì)所有特征點(diǎn)的位置。這樣一方面可以整合全局信息,另一方面系統(tǒng)表現(xiàn)也會更加穩(wěn)健。因?yàn)榫植考?xì)節(jié)難免有各種各樣的小錯(cuò)誤,但如果從全局著眼,就可以利用全局信息來糾正局部小錯(cuò)誤,從而達(dá)到最優(yōu)效果。
綜上所述,該技術(shù)最核心的就是通過算法的不斷優(yōu)化,研究怎么找點(diǎn)、怎么找得更準(zhǔn)確、怎么找得更快。目前就精確率而言,單獨(dú)采集特征點(diǎn)的時(shí)候,一般情況下誤差大概在4%~5%這樣一個(gè)較低的水平。但是在整合全局信息之后,誤差還可以被控制在更小的范圍。
人臉特征定位的應(yīng)用前景
看到這里,也許有讀者朋友很快想到了美顏相機(jī)。沒錯(cuò),既然這項(xiàng)技術(shù)能夠輕松制作出像史萊克、阿凡達(dá)這樣的虛擬人物,那么對攝像頭輸出的人臉影像來一個(gè)實(shí)時(shí)“美顏視頻”,當(dāng)然更是不在話下。實(shí)際操作也證明,不管是美白、磨皮、大眼還是瘦臉,通過這項(xiàng)技術(shù)都可以輕而易舉地實(shí)現(xiàn)。不過這也讓筆者產(chǎn)生了一點(diǎn)小小的擔(dān)憂:如今大家都說照片信不過,以后豈不是連視頻也信不過了?
除了拍特效電影和美顏等娛樂應(yīng)用,人臉特征定位當(dāng)然還有更加廣闊的用武之地。譬如在虛擬現(xiàn)實(shí)的游戲中用自己的表情塑造虛擬人物,在安防監(jiān)控中大顯身手,建立人臉數(shù)據(jù)庫從而大大提高機(jī)場、海關(guān)的工作效率,甚至可以應(yīng)用在醫(yī)療圖像的組織切片定位等等。