■ 鐵生
當(dāng)機(jī)器學(xué)會了學(xué)習(xí)人類該怎么玩?
■ 鐵生
如果今年你沒看過《她(her)》這部電影,那你就out了。作為豆瓣高達(dá)8.4分評分的電影,女主角斯嘉麗·約翰遜竟然完全沒露臉,整部電影只有她性感迷人的聲線,因為她是個人工智能。電影中男主角愛上人工智能中的她——OS1,原因很簡單,她知道他的性格,知道他的需要,知道和他怎么相處,知道他在難過時給他安慰……歸結(jié)兩個字“知心”,這樣的完美情人,現(xiàn)實中太少。
但是現(xiàn)實中并非沒有,在互聯(lián)網(wǎng)里的諸多服務(wù)中,也越來越讓人感覺到“知心”。從個性化新聞的推薦、廣告推薦、搜索的結(jié)果展示、商品的推薦、優(yōu)惠的推送等,越來越讓人感到,咦,它怎么知道我想要的?這背后其實和《她(her)》里所描繪的技術(shù)是一樣的,即互聯(lián)網(wǎng)會隨根據(jù)我們過去的行為以及新的事件而不斷改變服務(wù)策略,例如我們?yōu)g覽什么內(nèi)容、下載什么應(yīng)用、看過什么視頻、停留了多長時間等等,這些數(shù)據(jù)在互聯(lián)網(wǎng)為用戶展示內(nèi)容時會進(jìn)行收錄、分析,并在下一步的服務(wù)中加入這些反饋分析結(jié)果,進(jìn)行推薦。
這個技術(shù)就是Online Learning,即機(jī)器自主的在線不斷學(xué)習(xí),不斷的在與用戶交互的過程中調(diào)整策略。
Online Learning目前主要還是存在于學(xué)術(shù)界研究狀態(tài),Yahoo和Google也主要停留在實驗、調(diào)研或論文層面,不過百度近期已率先在旗下產(chǎn)品中規(guī)模應(yīng)用了。對于Online Learning的定義,學(xué)術(shù)界也都不一,比較明確的有3個特征:
1)根據(jù)環(huán)境不同,自動選擇最佳策略。當(dāng)經(jīng)驗不足或者表現(xiàn)不佳時,沒有辦法確切知道這個時候“做什么正確”,這時則通過嘗試去發(fā)現(xiàn)正確。
2)實時真實反饋。比如騎車的時候,騎車“策略”不同,會直接反饋到車是往前走,還是拐彎,還是停下來失去平衡。
3)增量特性。學(xué)習(xí)是不斷在過去經(jīng)驗上的積累,而不是接收到新的反饋時就清掉過去的經(jīng)驗。
以上的說法還比較抽象,舉幾個更容易理解的應(yīng)用場景:
1)在電子競技領(lǐng)域,如魔獸爭霸,DOTA等電子競技,中間包括很多策略和戰(zhàn)術(shù)的使用。Online Learning可以讓人工智能(AI)通過不斷與人對戰(zhàn),或者學(xué)習(xí)人之間對戰(zhàn)過程提升競技策略,以至于可以戰(zhàn)勝最厲害的人類。
2)在機(jī)器人自主學(xué)習(xí)領(lǐng)域,在人們沒有給任何指示的情況下機(jī)器人自動給出方案,例如控制機(jī)器人的步態(tài)和平衡,控制理論太過復(fù)雜,機(jī)器人通過自己去嘗試走路,跌倒再爬起,調(diào)整方案繼續(xù),最終學(xué)出了走路的方法。
3)編好程序的做菜的機(jī)器人,原來只會做中規(guī)中矩的青椒肉絲,但經(jīng)過Online Learning之后,不斷嘗試新用料來看主人的喜愛程度,而不斷了解主人口味后逐漸學(xué)會做魚香肉絲。
4)學(xué)習(xí)新的語言、新的詞語甚至學(xué)習(xí)編程。開始時對于新語言、新名詞不了解,但逐步通過外界的反饋,理解一門新的語言,或者學(xué)會一個新生代名詞的分類。
實際上,人腦本身就是一個基于反饋的在線學(xué)習(xí)系統(tǒng),通過不斷研究在線學(xué)習(xí)技術(shù),也是在做能夠適應(yīng)外界不斷變化的更加智能的系統(tǒng)。
以搜索巨頭百度為例,這些智能化的系統(tǒng)已經(jīng)在百度各在線應(yīng)用有實際的使用,效果很驚人:
百度搜索結(jié)果的排序:機(jī)器將不斷“讀懂”用戶需求,不斷“學(xué)習(xí)”而進(jìn)行推薦有價值的內(nèi)容,例如搜索“雙層床”,這背后潛在的需求是因為空間小、或者有兒童房的需求,那么讀懂這個背后需求后可以將這類優(yōu)質(zhì)結(jié)果給予展示。根據(jù)百度在線的試驗,將搜索的第四位結(jié)果提供在線學(xué)習(xí)后的推薦內(nèi)容,第四位點擊率增加了8.6%,滿意率監(jiān)控指標(biāo)增加10%。
百度右側(cè)欄知心推薦:也同樣會挖掘關(guān)鍵詞背后的需要,展開關(guān)聯(lián)內(nèi)容。比如搜索“爸爸去哪兒”,右側(cè)欄會把相關(guān)的嘉賓以及更多類似的綜藝節(jié)目做推薦。根據(jù)百度的試驗結(jié)果,其點擊率有10%甚至20%的提升。
百度手機(jī)助手“發(fā)現(xiàn)”和91助手的“猜你喜歡”:在“發(fā)現(xiàn)”中應(yīng)用online learning技術(shù)后,下載率增加了32.13%,點擊率增加42.9%。
百度視頻“隨心看”和“類似推薦”:針對用戶的喜好進(jìn)行視頻推薦后,點擊量上升90.98%。
這些應(yīng)用數(shù)據(jù)可見,通過獲取用戶的反饋而進(jìn)行更智能化的推薦,對于用戶而言確實獲得了更多“知心“的感覺,也就帶來越多使用。這些技術(shù)不斷升級之后能給我們更多,未來的搜索將不僅僅智能化推薦,將更成為一種個性化的貼心助理,在搜索更了解每個人的個性和需要之后,給出更直接的建議。
比如你想看什么書,不再需要輸入書名,機(jī)器將根據(jù)你的喜好以及當(dāng)前的熱點為你選擇,你想聽什么音樂,機(jī)器將根據(jù)你所處的場景、心情自動播放應(yīng)時應(yīng)景的歌,你想買什么樣的房子,甚至你和Ta是否般配,機(jī)器都能給出靠譜的答案。
當(dāng)機(jī)器學(xué)會了學(xué)習(xí),我們?nèi)祟愡€需要什么?