技術宅
微軟最近大出風頭,他們推出的“How Old”服務可以判斷人的“顏值”年齡,已經(jīng)吸引了很多眼球,而最近他們正在研發(fā)的圖像注釋功能可能更要讓人印象深刻,它可以自動識別出照片中的各種對象:臉、男人、女人、貓、相機等等。下面就讓我們深入了解一番,微軟研發(fā)的這個全新系統(tǒng)究竟如何實現(xiàn)對圖形里的物體的智能識別。
年齡識別——認識How Old
How Old是微軟最近推出的一款人像識別服務,我們只要登錄http://how-old.net,然后在搜索框輸入需要搜索的人物(或者點擊“Use your own photo”上傳本地照片),這樣在出現(xiàn)的人物搜索界面會添加一個黃色小標簽,同時會判斷出圖片中人物的性別和年齡(圖1)。
這是微軟人工智能技術在圖片識別上的典型應用,而近日其推出的圖像注釋功能則是在How Old的基礎上更進一步,除了正確識別人臉外,它還可以識別照片中的其他物件,如照相機、頭發(fā)等,它的幕后功臣其實是微軟的Project Oxford服務。
更智能的識別——微軟Project Oxford系統(tǒng)
如上所述,圖像注釋功能擁有比How Old更強大的功能,它對照片其他部件的識別主要基于Project Oxford服務。Project Oxford服務是微軟在Build2015大會中發(fā)布的,這一服務主要能為Azure用戶免費提供圖像、語音識別等智能REST API和SDK。其中的識別服務則主要使用其中的圖像識別API和人臉識別API。
比如對于人物的識別,微軟首先根據(jù)一定的標準為臉部識別建立復雜而龐大的數(shù)據(jù)庫。在這套識別系統(tǒng)中,微軟將人臉分為27個標志點,如瞳孔、眼角、嘴角、鼻子等明顯會隨著年齡變化的部位,然后根據(jù)不同部位的變化與相應的年齡段對應起來,從而將人臉關鍵標記點量化(圖2)。
舉個簡單的例子,比如皮膚褶皺是衰老的第一個重要標志,這樣(臉部API)可借助醫(yī)用級別定義的褶皺范圍,然后通過褶皺程序來判斷照片里人的年齡。嬰兒、婦女、男人皮膚的褶皺程度是不同的,這樣當網(wǎng)站服務器接收到一張包含上述三種人物的圖片后,微軟的Project Oxford服務首先根據(jù)人臉的主要器官(如臉、眼睛、嘴巴)將人臉識別出來,接著會在后臺對人臉的褶皺進行檢測,假設褶皺程度在0~2,則判定這張人臉是嬰兒的臉部。這樣服務器會在后臺發(fā)出指令,同時在嬰兒臉部上方彈出黃色標注框,告訴你這是一張嬰兒臉和對應的年齡。同理,通過其他人臉的褶皺判斷出女人和男人臉(圖3)。
當然,在實際識別服務中,僅僅依靠人臉的褶皺還無法實現(xiàn)精準的判斷,Project Oxford服務還會通過照片中人臉的其他特征進行綜合判斷。比如眼部皮膚作為人面部最薄弱最細嫩的部位,眼角、眼袋及上眼瞼都會隨著年齡的增長出現(xiàn)松弛和下垂。Project Oxford服務將可以表示人年齡和性別的幾個主特征組合在一起,這樣就可以比較正確地判斷出照片中人物的性別和年齡了(圖4)。
同樣,對于照片中其他部件的識別也采用類似的方法。比如Project Oxford服務要判斷出照片中的相機,首先Project Oxford也是在系統(tǒng)中建立關于相機的各種參數(shù)判斷標準,指定在某個數(shù)值范圍內(nèi)的物體,如果該物體前方有突出的鏡頭則判定為相機,這樣當一張照片中有人舉著這樣一個物體時,Project Oxford服務就判斷其為照相機。通過這樣的方法,Project Oxford服務就可以識別照片中的人物和其他物體,同時借助每個物體的關鍵字生成照片的說明。
在下面這張照片中,Project Oxford會先根據(jù)識別的各個物體生成“人群”(通過識別多個人臉的識別判定)、“照相機”(通過相機參數(shù)判定)、“舉著”(通過人手的高度判定)、“女人”(通過人臉識別)、“貓”(通過女人蜷曲的頭發(fā)判定,這個是識別錯誤)這幾個關鍵字。接著系統(tǒng)再根據(jù)實際情況對上述關鍵字進行組合(排除貓的可能性),這樣最終就會自動為這張照片生成一句“人群中舉著相機的一個女人”的注釋,也就比較精確地為這張照片做了文字注釋(圖5)。
不僅是好玩
Project Oxford也許會改變舊有生活
通過上面的介紹,我們了解了Project Oxford服務的強大功能,對于一張普通的照片,Project Oxford服務可以精確進行識別并且添加正確的注釋。這種增強的人工智能會給我們生活帶來極大的便利。
在日常圖片搜索中,我們經(jīng)常需要使用模糊自然語言進行搜索,如果Project Oxford服務普及了,那么微軟就可以為圖庫中的每一張照片添加精確的注釋,這樣我們在輸入諸如“舉著相機的女人”進行搜索時,搜索引擎就可以通過檢索圖庫內(nèi)的文字注釋快速為我們推送類似上述的照片,可以大大提高我們搜索圖片的效率。
此外,由于Project Oxford服務可以自動識別圖片中的人物和物品,這樣當我們需要在視頻監(jiān)控(視頻可以自動截取為圖片)中查找某人的時候,如生活中的逃犯或者丟失的親人,借助Project Oxford的自動識別服務就可以很快在眾多視頻中找到目標人物。