劉燕
八年前,豆瓣創(chuàng)始人楊勃開始為豆瓣寫第一行代碼時(shí),就有了一個(gè)明確的方向——做一個(gè)關(guān)于生活發(fā)現(xiàn)的服務(wù),也就是為人們推薦真實(shí)生活里的好東西。
“世界上一直沒有一個(gè)偉大的‘生活發(fā)現(xiàn)網(wǎng)站可以供我們參考,豆瓣一邊做一邊琢磨,希望可以成為一個(gè)這樣的網(wǎng)站?!睏畈f。
朝著這個(gè)目標(biāo),豆瓣有了自己的特點(diǎn):工程師人數(shù)超過半數(shù),他們不斷更新算法技術(shù),解讀用戶每一次瀏覽痕跡背后的邏輯關(guān)系,最終高效地為用戶帶來最匹配的推薦結(jié)果。
這恰好是大數(shù)據(jù)時(shí)代最需要的質(zhì)素,然而在當(dāng)年,只有豆瓣在琢磨一個(gè)讓人覺得奇怪的算法邏輯——“你先告訴我你喜歡什么,然后我向你推薦你更喜歡、更需要什么”。
讀懂你
“許多口味最類似的人卻往往是陌路,如果能不一一結(jié)交,卻知道成千上萬人的口味,能從中間迅速找到最臭味相投的,口口相傳的魔力一定能放大百倍,對其中每一個(gè)人都多少會有幫助?!卑殡S這一愿望,豆瓣誕生了。
而豆瓣的核心能力是從技術(shù)引擎開始的。當(dāng)時(shí),豆瓣對“發(fā)現(xiàn)”的理解是“個(gè)性化算法推薦”,也就是“豆瓣猜你會喜歡”,這形成了楊勃對豆瓣最初的設(shè)想:通過精準(zhǔn)強(qiáng)大的算法為用戶進(jìn)行產(chǎn)品推薦。
但在這之前,還需要建立全面的興趣圖譜。
創(chuàng)辦豆瓣后的第三年,豆瓣開始加強(qiáng)“口口相傳的魔力”,推出了曾經(jīng)叫做“友鄰廣播”的“豆瓣說”。接下來,豆瓣社區(qū)效應(yīng)的表現(xiàn)越來越明顯,很多用戶開始在群組活動里談?wù)撋畹姆椒矫婷妫@讓楊勃意識到,是時(shí)候?qū)⒍拱晟鐓^(qū)單列出來,并分化出線上活動、豆瓣小站。
其中,豆瓣小組從上線至今已經(jīng)有超過30萬個(gè)興趣小組被用戶創(chuàng)建,每個(gè)月吸引5500多萬人訪問,而話題更是延伸到娛樂、旅行、美容、購物、二手交易、租房等生活的方方面面。這是興趣圖譜數(shù)據(jù)最大的來源所在,也讓豆瓣能從圖書、電影、音樂三大主題擴(kuò)展到更多生活領(lǐng)域。
豆瓣也一直試著通過用戶行為分析,最終將產(chǎn)品延伸到多個(gè)簡單實(shí)用的生活服務(wù)組合中。不過,不是每一個(gè)產(chǎn)品都能存活下來。2006年,豆瓣推出“我去”——專注旅行分享的主題, 很快因不受歡迎而停掉。相反,生活類小站、社區(qū)中二手交易、團(tuán)購、手機(jī)應(yīng)用等信息,受到好評。推出新產(chǎn)品、發(fā)起用戶意見反饋、最終由用戶決定產(chǎn)品去留,是豆瓣的慣性做法,但除了直接反饋之外,他們更信奉數(shù)據(jù)量化分析,采取主動的方式去獲得真實(shí)聲音而非被動等用戶的“抗議”。
“豆瓣有這么一群用戶,他們更有特點(diǎn),更愿意展示多維的興趣圖譜,所以我們的數(shù)據(jù)會更加豐富?!倍拱晔紫茖W(xué)家王守崑說,基于算法技術(shù)進(jìn)行個(gè)性化推薦,豆瓣成立時(shí)國內(nèi)還沒有太多人研究,做得早也成為一種優(yōu)勢。
通過算法自動推薦給你的個(gè)性化內(nèi)容,背后是不斷改進(jìn)的算法程序,每天從豆瓣頁面的各個(gè)角落統(tǒng)計(jì)你的使用行為,比如點(diǎn)擊“收藏”、“感興趣”等內(nèi)容,從而判斷并猜測你的喜好,然后把相匹配的內(nèi)容推送在你進(jìn)入豆瓣時(shí)的主頁面。
當(dāng)然,那些越是專注在某一個(gè)領(lǐng)域的用戶,得到的推薦越精準(zhǔn)。這也使得豆瓣在推動有共同愛好、價(jià)值觀的用戶集中在一起,形成一個(gè)個(gè)圈子,由此可以解釋,為什么不少連載故事會在這里產(chǎn)生更直接的粉絲效應(yīng)。
豆瓣猜
最早成為豆瓣算法實(shí)驗(yàn)的領(lǐng)域就是圖書、電影和音樂,因?yàn)闂畈J(rèn)為,它們更適合、更易于做個(gè)性化推薦?!霸谧鏊惴ㄟ@個(gè)領(lǐng)域,有個(gè)共識就是有什么樣的數(shù)據(jù)就會產(chǎn)生什么樣的結(jié)果,我們在這方面的基礎(chǔ)會更好一些。”王守崑說。
不得不以豆瓣電臺為例,連楊勃自己都稱其為“豆瓣核心技術(shù)最完美的展現(xiàn)”。
打開豆瓣FM,一首歌放出來,可以直接跳過那些不喜歡的,也可以用點(diǎn)擊紅心的動作表示喜歡,或者直接丟進(jìn)垃圾桶再也不聽。這是電臺更了解聽者喜好的簡單方式,通過與聽者的這種交互模式,使算法推薦的發(fā)揮越來越準(zhǔn)確。
剛組建豆瓣音樂時(shí)只有幾個(gè)人,都是從原來的豆瓣大團(tuán)隊(duì)拆分出來,其實(shí)并沒有新團(tuán)隊(duì)的感覺,但面臨的挑戰(zhàn)又很大,因?yàn)楫?dāng)時(shí)產(chǎn)品技術(shù)各線幾乎都是單槍匹馬,想做的事情卻很多,有種重新創(chuàng)業(yè)的感覺。
通過分析5年間積累的用戶音樂偏好,音樂團(tuán)隊(duì)設(shè)計(jì)出一套復(fù)雜的基礎(chǔ)算法:
用“用戶歌曲矩陣”的傳統(tǒng)方法,計(jì)算和每首歌近似的歌曲集合,并依次作為核心數(shù)據(jù),然后為每個(gè)用戶維護(hù)一個(gè)線性的播放列表,每當(dāng)用戶對一首歌曲給出正向反饋,系統(tǒng)會取出與這首歌相似的歌曲列表中的幾首,插入用戶當(dāng)前的播放列表。反之,如果一個(gè)用戶點(diǎn)擊“跳過”或“垃圾桶”,系統(tǒng)會從這個(gè)列表中刪除那些與這首歌相關(guān)性高的歌曲。
反復(fù)測試中,他們也發(fā)現(xiàn)還需要補(bǔ)充一些策略。針對刪除同一個(gè)歌手的歌曲,或是連續(xù)點(diǎn)擊喜歡或跳過的用戶行為,進(jìn)行特殊建模,根據(jù)當(dāng)前時(shí)間推薦不同曲風(fēng)的歌曲。另一方面,加強(qiáng)針對同類用戶對比的算法來提高效率。
基于這一切努力,豆瓣猜的終極目標(biāo)是這樣的:每天你打開豆瓣,滿眼看到的都是各類你會感興趣的新東西。我們迫不及待地想和你一起讓這個(gè)畫面成為現(xiàn)實(shí)。而豆瓣電臺就是一個(gè)實(shí)驗(yàn),選擇了網(wǎng)絡(luò)收聽這種最簡單的模式,把復(fù)雜的邏輯和計(jì)算隱藏在后臺,采用個(gè)性化推薦技術(shù)作為核心的算法,呈現(xiàn)給用戶最易用的交互和體驗(yàn)。
跟著用戶走
當(dāng)用戶達(dá)到一定數(shù)量,內(nèi)容更為生活化之后,楊勃發(fā)現(xiàn)依靠機(jī)器完成的算法推薦遠(yuǎn)沒有用戶推薦的效果好,于是核心能力慢慢轉(zhuǎn)化為對用戶需求的分析和挖掘。
在這個(gè)過程中,對數(shù)據(jù)的挖掘與認(rèn)識,不僅幫助豆瓣給用戶推送更精確的內(nèi)容,更推動了一系列好產(chǎn)品的出現(xiàn)。正如豆瓣從不認(rèn)為,是他們打造了豆瓣的氛圍和方向,而恰恰是用戶一步步帶著豆瓣成長成為今天的模樣。
半只腳踏入商業(yè)化的購書單功能,就是如此而來。從用戶體驗(yàn)的角度來說,從推薦、發(fā)現(xiàn)的決策參考到達(dá)成購買,是一個(gè)完整決策行為的流程。豆瓣提供購書單的比價(jià)、購買鏈接功能,在楊勃看來,完全是順勢而為的事。
也正是這些基于后臺用戶行為數(shù)據(jù),推動豆瓣在分析過后做出上線電商導(dǎo)購平臺“東西”的決策?!拔覀円恢逼诖軌蜃龀鲞@樣的一款產(chǎn)品,它簡單、好用,他熟悉每個(gè)使用者的脾氣秉性卻又和他們保持距離,它能夠給每個(gè)使用者貼心的服務(wù)同時(shí)又能夠聚合機(jī)體的智慧,它在各個(gè)場合之下,都能夠提供完美、一致的體驗(yàn)?!痹诙拱觌娕_一周年時(shí),王守崑這樣說道,同樣能體現(xiàn)豆瓣面對商業(yè)化產(chǎn)品的心態(tài)。
數(shù)據(jù)的價(jià)值,在楊勃認(rèn)定豆瓣做“推薦”時(shí)就已經(jīng)被高度重視。在豆瓣,每一個(gè)用戶的背后,都存放著一個(gè)持續(xù)擴(kuò)大的專屬數(shù)據(jù)庫,隨著數(shù)據(jù)庫所覆蓋的興趣圖譜不斷擴(kuò)大,更精準(zhǔn)的推薦使用戶對內(nèi)容的接受程度也會越高。而這正是移動互聯(lián)網(wǎng)時(shí)代競爭的最激烈一環(huán),慢豆瓣會迎來厚積薄發(fā)的一天嗎?