• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      這些令人不安的照片,AI正在學(xué)習(xí)根據(jù)文字生成圖片

      2020-10-26 02:31王建韜
      海外星云 2020年13期
      關(guān)鍵詞:曲棍球技術(shù)人員圖像

      王建韜

      女子曲棍球比賽

      在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發(fā)公眾的遐想。雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲,并且成功地讓人們相信這是人類的創(chuàng)作。但是,它在同人類對話時還是顯得非常“幼稚”。可盡管如此,技術(shù)人員依然認為,創(chuàng)造了 GPT-3 的技術(shù)可能是通往更高級 AI 的必經(jīng)之路。

      GPT-3 使用大量文本數(shù)據(jù)進行了訓(xùn)練,那么,假如同時使用文本和圖像數(shù)據(jù)進行訓(xùn)練,會發(fā)生什么呢?艾倫人工智能研究所(AI2)在這個問題上取得了進展,技術(shù)人員開發(fā)了一種新的視覺語言模型,可以根據(jù)給定的文本生成對應(yīng)圖像。

      不同于 GAN 所生成的超現(xiàn)實主義作品,AI2 生成的這些圖像看起來非常怪異,但它的確可能是一個實現(xiàn)通用人工智能的新路徑。

      AI“做題家”

      GPT-3 在分類上屬于“Transformer”模型,隨著 Google BERT 的成功,該模型開始流行。而在 BERT 之前,語言模型可用性不佳。它們雖然具備一定的預(yù)測能力,但并不足以生成符合語法和常識的長句子。BERT 通過引入一種稱為 “masking(遮罩)” 的新技術(shù),使模型這方面的能力得到了大幅加強。

      模型會被要求完成類似下面的填空題:

      這位女士去___鍛煉。

      他們買了一個___面包做三明治。

      這個想法初衷是,如果強迫模型進行數(shù)百萬次的這類練習(xí),它是否可能學(xué)會如何將單詞組合成句子以及如何將句子組合成段落。測試結(jié)果表明,模型確實獲得了更好地生成和解釋文本的能力(Google 正在使用 BERT 幫助在其搜索引擎中提供更多相關(guān)的搜索結(jié)果)。

      在證明遮罩行之有效之后,技術(shù)人員試圖通過將文本中的單詞隱藏,將其應(yīng)用于視覺語言模型,例如:一只站立在樹木旁的___。

      是鳥?是飛機?不,這只是AI 產(chǎn)生的“神作”

      AI2 模型根據(jù)文本生成的圖像示例

      通過數(shù)百萬次的訓(xùn)練,它不僅可以發(fā)現(xiàn)單詞之間的組合模式,還可以發(fā)現(xiàn)單詞與圖像中元素之間的關(guān)聯(lián)。這樣的結(jié)果就是模型擁有了將文字描述與視覺圖像相關(guān)聯(lián)的能力,就像人類的嬰兒可以在他們所學(xué)的單詞同所見事物之間建立聯(lián)系一樣。舉個例子,當(dāng)模型讀取到女子打曲棍球的圖片(題圖),便可以給出一個較為貼切標(biāo)題,如 “打曲棍球的女人”?;蛘咚鼈兛梢曰卮鹬T如“球是什么顏色?” 之類的問題,因為模型可以將單詞 “球” 與圖像中的圓形物體關(guān)聯(lián)。

      一圖勝千言

      技術(shù)人員想知道這些模型是否真的像嬰兒一樣 “學(xué)會” 了認識這個世界。孩子不僅可以在看到圖像時聯(lián)想到單詞,還可以在看到單詞時在頭腦中浮現(xiàn)出對應(yīng)的圖像,哪怕這個圖像是真實和想象的混合體。

      技術(shù)人員嘗試讓模型做同樣的事情:根據(jù)文本生成圖像。然后模型吐出了無意義的像素圖案。得到這樣的結(jié)果是有原因的,將文本轉(zhuǎn)換為圖像的任務(wù)相比其他要困難得多。AI2? 的計算機視覺團隊負責(zé)人 Ani Kembhavi 說,文本并未指定圖像中包含的所有內(nèi)容。因此,模型需要 “聯(lián)想” 許多現(xiàn)實世界的常識來填充細節(jié)。例如,假設(shè) AI 被要求繪制“在道路上行走的長頸鹿”,它需要推斷出這條道路更可能是灰色而不是粉色,并且更可能毗鄰草地而不是海洋——盡管這些信息都不明確。

      因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 決定看看他們是否可以通過調(diào)整遮罩的方式,來教授 AI 所有這些隱式視覺知識。他們訓(xùn)練模型不是為了從對應(yīng)圖片中預(yù)測被遮蓋的單詞,而是為了讓它能從文本中 “腦補” 圖片中的缺失部分。雖然模型最終生成的圖像并不完全真實,但這不是重點。重要的是這預(yù)示著模型已經(jīng)包含了正確的高級視覺概念,即 AI 一定程度上具備了兒童的根據(jù)文本畫圖的能力。

      視覺語言模型獲得此類圖像生成的能力代表了 AI 研究的重要一步,這表明該模型實際上具有一定程度的抽象能力,而這是理解世界的基本技能。

      未來,這項技術(shù)很可能對機器人領(lǐng)域產(chǎn)生極大影響。機器人可以使用語言進行交流,當(dāng)它們對視覺信息的理解越好,就越能夠執(zhí)行復(fù)雜的任務(wù)。Hajishirzi 說,從短期來看,這種可視化還可以幫助技術(shù)人員更好地理解 AI 模型的學(xué)習(xí)過程。之后,AI2 團隊計劃展開更多實驗,以提高圖像生成的質(zhì)量,并拓寬模型的視覺和語言。(摘自美《深科技》)(編輯/華生)

      猜你喜歡
      曲棍球技術(shù)人員圖像
      A、B兩點漂流記
      淺議某集團公司技術(shù)人才流失現(xiàn)狀分析及應(yīng)對措施
      煤礦企業(yè)專業(yè)技術(shù)人員管理和使用工作中存在的問題及對策
      名人語錄的極簡圖像表達
      草原文化高峰期問題研究
      一次函數(shù)圖像與性質(zhì)的重難點講析
      趣味數(shù)獨等4則
      绥化市| 庄河市| 武陟县| 罗甸县| 莱西市| 鸡泽县| 乌拉特后旗| 抚州市| 临湘市| 桐梓县| 信宜市| 红原县| 达尔| 韩城市| 来宾市| 肥城市| 柳林县| 策勒县| 辽源市| 永安市| 阿克| 中卫市| 太仓市| 大邑县| 安阳市| 平泉县| 汉阴县| 射阳县| 黄梅县| 玛多县| 阜平县| 河源市| 岗巴县| 磴口县| 舞阳县| 思南县| 隆尧县| 忻州市| 通州市| 雷州市| 平阳县|