張俊生
【摘要】:近年來,迅速發(fā)展的互聯(lián)網(wǎng)使得信息量增加迅速,大數(shù)據(jù)技術(shù)也應(yīng)運而生。并且已經(jīng)應(yīng)用到我們?nèi)粘I畹母鱾€方面,而基于大數(shù)據(jù)挖掘、分析、聚合的用戶個性化推薦算法幾乎是所有信息平臺標配。而以“今日頭條”為代表的算法類新聞資訊平臺,憑借著內(nèi)容分析、用戶標簽、評估分析、內(nèi)容安全四大方面的算法運作邏輯,有效的降低了用戶的閱讀成本,提高了信息的搜索效率。
【關(guān)鍵詞】:個性化推薦算法 興趣標簽 信息繭房 今日頭條
一、前言
隨著互聯(lián)網(wǎng)的大眾化,人們同時享受著網(wǎng)絡(luò)資源的極大便利,也受到了“信息碎片化”和“信息超載”的諸多困擾,盡管基于【關(guān)鍵詞】的搜索引擎,大體上可以滿足用戶的需求,但很難滿足用戶的個性化需求,因此,基于數(shù)據(jù)挖掘、分析和聚合的個性化推薦系統(tǒng)應(yīng)運而生,它也成為解決“信息過載”難題的主流方式。自然而然,作為智能媒體時代下的個性化新聞推送的“今日頭條”客戶端,面對其龐大的用戶群,無時無刻不產(chǎn)生著巨大的數(shù)據(jù)量,這些數(shù)據(jù)量則依靠著其強大的推薦系統(tǒng)支撐,利用其算法的優(yōu)越性,進行個性化新聞的推送。本文將通過系統(tǒng)概覽、算法實現(xiàn)原理等探討“今日頭條”的個性化推薦算法的基本運作邏輯,并反思其局限,提出相應(yīng)的優(yōu)化措施。
二、系統(tǒng)概覽
若用一個非感性思維的方式去理解推薦系統(tǒng),則可以通過擬合一個用戶對內(nèi)容滿意度的函數(shù)Q=F(X,Y,Z),這個函數(shù)需要輸入三個維度的變量。第一個維度則是內(nèi)容,眾所周知,“今日頭條”現(xiàn)在已經(jīng)成長為一個綜合性內(nèi)容的平臺,文章、圖片、視頻、UGC小視頻、問答、微頭條,每一種內(nèi)容都有各自的很多特征,這就需要系統(tǒng)考慮如何提取不同內(nèi)容特征做好推薦。第二個維度是用戶的特征,每位用戶都有其特殊的標簽,職業(yè)、年齡、性別、愛好等等,不僅如此,還有許多通過模型刻畫出的隱式用戶興趣等。第三個維度是環(huán)境特征。這也是目前移動互聯(lián)網(wǎng)時代推薦的特點,用戶不可能只處于一種環(huán)境下,在工作、吃飯、旅游,游戲等不同的場所,用戶的信息偏好也會改動。根據(jù)這三個維度的變量,模型會給出一個預(yù)估,推測系統(tǒng)所推薦的內(nèi)容是否適合當(dāng)前場景的當(dāng)前用戶。在推薦模型中,點擊量、閱讀時長、點贊、轉(zhuǎn)發(fā)、評論等不同的用戶行為都是可以定量的行為,并且能夠用模型直接擬合做推估。然而,大體量的推薦系統(tǒng)服務(wù)于大量的用戶,這不能僅靠幾項量化的指標來評估,用戶的某些反常行為如刷評論、大量轉(zhuǎn)發(fā)等可能會“迷惑”后臺計算機的分析,因此,僅依賴這些樣本統(tǒng)計量進行推薦是錯誤的,因此,“今日頭條”采用了數(shù)據(jù)指標以外的要素來輔助衡量。例如有的文章很“熱”,但是熱點已過,不會因為文章的點擊率大而繼續(xù)推送給用戶;還有一些關(guān)于國內(nèi)外形勢與政策的,如果其有所改變,文章內(nèi)容不符合未來方向的也不會再次被推薦。
三、主要算法實現(xiàn)
(一)層次化文本推薦算法
在推薦系統(tǒng)中,文本分析的一個很重要的作用就是用戶興趣建模(userprofile),沒有內(nèi)容及文本標簽是無法獲取用戶的興趣標簽。例如,只有知道文章的標簽是明星,用戶看了明星標簽的文章,才能知道用戶有明星的標簽,其他【關(guān)鍵詞】亦是如此?!敖袢疹^條”的個性化推薦系統(tǒng)的線上分類采用了非常典型的層次化文本推薦算法,其主要算法模型如下圖所示:
最上面根分類器(ROOT),下面第一層的元分類器就像體育、科技、娛樂、財經(jīng)等這樣的大類;然后再進行元分類器細分,例如將體育細分羽毛球、足球、乒乓球等體育項目,足球還可以細分為國際足球和中國足球,依此類推下去,相比于一般的分類器,層次化文本推薦算法能更好的解決數(shù)據(jù)傾斜的問題。
(二)基于內(nèi)存的協(xié)同過濾算法
1992年,Goldberg、Nicos、Oki和Terry首次明確提出了協(xié)作過濾的概念。協(xié)同過濾的算法是一種典型的聚類智能算法,其可以描述為:假設(shè)以前擁有同類興趣標簽的用戶將來也會有同類的興趣標簽,基于假設(shè),其則不需要考慮網(wǎng)絡(luò)數(shù)據(jù)資源,只要從該系統(tǒng)中選取與目標用戶具備相同特征的用戶或項目信息,即可通過分析計算獲得推薦依據(jù)。其基本工作原理是:根據(jù)系統(tǒng)中用戶的歷史活動,即其在之前瀏覽的文章,看過視頻,回答的問題等記錄,無論是點贊、評論還是轉(zhuǎn)發(fā)都可以作為其活動記錄和偏好信息。然后分析目標用戶和其他用戶之間的相似性,并為活動用戶選擇近鄰集。最終,分析近鄰用戶對候選推薦文章媒體的反饋信息,預(yù)測目標用戶對候選推薦項目的得分,確定推薦的用戶。算法分為三個步驟:
1.收集用戶信息
搜集能夠代表用戶興趣的信息集合,進而構(gòu)建用戶-項目的二維評分矩陣。
2.相似度計算
協(xié)同過濾算法的基本步驟是相似度計算,通過計算,可以得到用戶的興趣偏好或兩個用戶之間的相似度,這里有兩種常用的相似性計算方法。
3.生成推薦列表
有兩種方法可以生成最近的鄰居集。一種是設(shè)置相似性閾值,類似的用戶只有在高于閾值時才會確定,另一個是指定目標用戶的最近鄰居數(shù)。
(三)冷啟動問題
關(guān)于這個問題主要考慮兩鐘情況:
1. 在推薦系統(tǒng)中,對于新用戶,沒有用戶的閱讀記錄,很難計算相關(guān)性。因此,很難找到近鄰集,進而系統(tǒng)很難個性化推薦。
2.在推薦系統(tǒng)中,當(dāng)向系統(tǒng)添加新的媒體資源時,該媒體資源并不會有相應(yīng)的評分記錄,無法找得到最近鄰居并進行推薦或評分推測。
推薦系統(tǒng)使用協(xié)同過濾存在的問題被稱為冷啟動問題,“今日頭條”的推薦系統(tǒng)使用了數(shù)據(jù)相通和用戶模型建立的方法去解決這個問題。比如通過關(guān)聯(lián)的社交賬號獲取其基本信息如性別、年齡、所在地、職業(yè)等基礎(chǔ)標簽,進而獲取用戶的最的基本畫像。
四、主要弊端和優(yōu)化建議
個性化推薦帶來“智媒時代”的同時,但由于其過于依賴算法,極致的了解用戶而帶來了一定的不足,其主要為片面的強調(diào)個性化推薦所帶來的弊病。
(一)碎片化閱讀嚴重和新聞閱讀深度不夠
“今日頭條”新聞客戶端擁有廣泛的新聞媒體資源來源,其中包含著大量的“頭條號”創(chuàng)作者,所以個性化推薦系統(tǒng)捕獲的新聞量非常大,可以不斷向用戶推薦。但是,在這個“快餐文化”的時代,人們很難擁有大量的耐心和細心精細化閱讀,因此算法迎合用戶,大量推薦碎片化新聞,導(dǎo)致用戶閱讀的深度不夠,了解往往都是片面的,很難系統(tǒng)化了解一間事情,而那些真正做到由深度的新聞文章由于初期用戶相關(guān)度較低,推薦系統(tǒng)往往不再進行推送或者推送很少,導(dǎo)致優(yōu)秀文章的沒有充分發(fā)揮其所在價值。
(二)易造成“信息繭房”現(xiàn)象
通過推薦系統(tǒng)個性化推薦算法量化用戶行為,正如我們所想象的那樣,客戶端成為了“一份私人化定制的個人報紙”于是,這很容易導(dǎo)致美國學(xué)者尼古拉斯·內(nèi)格羅蓬特預(yù)言的“我的日報”(the daily me)的局面。在“今日頭條”用戶的“個人日報”中,將以算法為導(dǎo)向的用戶體驗放在首位,算法不斷推薦符合用戶興趣的內(nèi)容,然而其所了解的世界是他希望看到的,卻不是這個世界本來的樣子,逐漸導(dǎo)致用戶接受信息越來越窄,最后用戶不得不受困于“信息繭房”中,對其他領(lǐng)域漸漸變得無知。
(三)優(yōu)化建議
個性化推薦其實就是信息的把關(guān)傳遞從“人工”轉(zhuǎn)換為“機器”,但機器對信息的判斷不具備理性和感性認知,一些虛假和不利于社會的內(nèi)容往往會順利進入新聞生產(chǎn)之中,而且一些營銷號所創(chuàng)作的“三無”文章往往也會影響使用體驗。因此“今日頭條”信息平臺在傳遞信息的過程中要主動將自己獨立的立場和價值觀攝入其中。不能夠完全交由機器和算法去實現(xiàn),首先要組織一批具有新聞專業(yè)素養(yǎng)的人工編輯嚴格把關(guān)信息流動,對不合格內(nèi)容定期整理和清除,提高內(nèi)容多樣性,減少不良內(nèi)容對健康媒體生態(tài)環(huán)境的侵蝕;其次,通過樹立專業(yè)領(lǐng)域“大V”的意見領(lǐng)袖地位,搭建一個客觀權(quán)威的信息渠道,保證公眾能獲取公正、真實的信息。此外,內(nèi)容平臺在根據(jù)用戶興趣標簽精準發(fā)放信息的同時,應(yīng)注重豐富公共領(lǐng)域內(nèi)容,通過向用戶提供不在其標簽內(nèi)的信息,使其接觸到不同領(lǐng)域的內(nèi)容、了解多維觀點,跳脫出禁錮思維。通過這種方式使得用戶從封閉的“信息繭房”中走出,主動規(guī)避自我受限的現(xiàn)象,成為機器與技術(shù)的主宰。
【參考文獻】
【1】張志威.個性化推薦算法綜述[J].信息與電腦,2018,(17):28-29.
【2】張瑜燁.信息繭房:“智媒時代”個性化推薦系統(tǒng)運作邏輯與反思[J].現(xiàn)代視聽,2018.(11):18-24.