然而,上述應用更加傾向于執(zhí)行,離真正“智”的層面還有一定的距離,以及需要技術(shù)進一步突破。就像辦工桌上放著一臺電腦和兩部手機,機器人無法對這3個物體之間的位置關(guān)系進行描述。
人工智能部分應用場景
物體場景關(guān)系理解
當人類看到同樣的場景時,則可以定性地講出他們之間的位置關(guān)系,比如在桌子的中間放著一臺電腦,其中一部手機在電腦的左邊,另一部在電腦的前邊。
人工智能機器人與人類看到的同樣的場景不同的表達,本質(zhì)區(qū)別在于,無法理解兩個甚至多個物體之間存在的糾纏關(guān)系,這也是為什么很多深度學習的人工智能機器人“看不懂”物質(zhì)世界的原因。
如果對物質(zhì)與物質(zhì)之間的糾纏關(guān)系不了解,就無法真正做到智能,例如幫廚機器人很難執(zhí)行“將醬油放電磁爐的一邊,然后再將醋拿起來放到另一邊”之類的命令。
為了解決人工智能機器這一應用難題,麻省理工學院科學家研發(fā)了一個模型,可以幫助機器理解部分場景中物體與物體之間的潛在關(guān)系。
該團隊所研究的模型每次可以表達一個單獨的關(guān)系,然后將每次的表達結(jié)合起來對整個場景進行描述,進而使得這個模型可以從文字表述中生成更加精準的圖像,相當于在所描述場景中對不同關(guān)系的多個單一關(guān)系進行排列組合。簡單來說,該團對制備的新模型可以像人類一樣與周圍環(huán)境中的物體進行互動。
該研究在未來工業(yè)機器人領(lǐng)域具有非常廣泛的應用前景,尤其是針對步驟多、操作復雜的任務。
譬如,大型制造業(yè)工場中存放的器件或者設(shè)備組裝。值得關(guān)注的是,該模型還可以使機器能夠像人類一樣,從各類場景中學習并且與周圍環(huán)境進行有效互動。
杜依倫(音譯)
麻省理工學院電子輸入控制系統(tǒng)計算機科學與人工智能實驗室博士研究生杜依倫(音譯)表示:“通常,當我見到一張桌子時,不會說在XYZ坐標系中有一個物體,這不是我們大腦正常的思維表達。事實上,我們是基于物體之間的關(guān)系去理解一個場景的。”
杜依倫還表示,如果能開發(fā)一種理解物體和物體之間關(guān)系的系統(tǒng),人們就有可能利用發(fā)明的系統(tǒng)去改變和操縱周圍的環(huán)境。
該團隊開發(fā)的系統(tǒng)可以通過物體,以及物體所關(guān)系的文本描述生成“桌子左邊放置藍色的凳子,右邊放置紅色沙發(fā)”的場景圖片。
然后,機器學習模型系統(tǒng)將這些文本劃分成兩個小的部分,對凳子和沙發(fā)這兩個單獨的物體關(guān)系進行描述,再對這兩個部分進行單獨建模,通過場景圖像的優(yōu)化將這兩個關(guān)系組合在一起。
機器學習模型將每段關(guān)系分割成更短的句子,以排列組合的形式對他們進行重組,如此豐富的關(guān)系片段可以對之前沒有見過的場景進行描述。
更有趣的是,該機器學習模型還能逆向工作,先生成一幅給定的圖像,再和場景中的物體關(guān)系相互匹配。
機器學習模型測試場景
除了上述一對一關(guān)系理解,這種機器學習模型還可以理解復雜場景的關(guān)系,于是該團隊將句子從1個增加到4個。實驗結(jié)果表明,該模型仍然可以對生成的圖像準確描述。
為了進一步測試,研究人員還將他們的模型和其他類似的深度學習方式系統(tǒng)做了對比,在每次比賽中,該團隊所發(fā)明的模型,在每個實例都比其他基線表現(xiàn)更佳。
除此之外,該團隊還驗證了機器學習模型生成的圖像和初始場景的描述是否匹配,以最為復雜的場景關(guān)系為例,參加測試的人中有91%覺得新模型系統(tǒng)表現(xiàn)效果更佳。
該團隊對開發(fā)的機器學習模型的穩(wěn)定性非常滿意,尤其是陌生場景的描述。該團隊表示:“這是一項非常有前景的開發(fā),因為它和人類的大腦場景描述邏輯類似。我們的模型可以從人類看到的數(shù)個場景中提煉有效信息,創(chuàng)造無數(shù)個不同的組合?!?/p>
該機器學習模型有一種可以從更少的數(shù)據(jù)中學習、總結(jié)的特性,可以生成更復雜的場景或圖像。
未來,該團隊希望將他們的機器學習模型應用于機器人系統(tǒng)中,讓機器人學會從場景中判斷物體之間的關(guān)系,進而利用深度學習模型操縱地球上空間中的物體。 (綜合整理報道) (編輯/克珂)