個(gè)性化新聞推薦系統(tǒng)中的“過濾氣泡”研究

2021-07-27 08:09:28潘旭偉王瑞奇

新媒體研究 2021年5期

潘旭偉王瑞奇

關(guān)鍵詞過濾氣泡；新聞；推薦系統(tǒng)；用戶視野

中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360（2021）05-0030-03

隨著個(gè)性化推薦系統(tǒng)的發(fā)展與應(yīng)用，人們開始擔(dān)心推薦系統(tǒng)對(duì)用戶帶來的負(fù)面作用。其中一個(gè)越來越受人關(guān)注的便是“過濾氣泡”問題[1]，即推薦系統(tǒng)是否會(huì)因?yàn)榭偸峭扑]相似內(nèi)容而使得用戶視野被窄化。如Poulain通過對(duì)音樂平臺(tái)的研究發(fā)現(xiàn)了內(nèi)容多樣性的缺失[2]。然而也有研究對(duì)該問題進(jìn)行了否定，如moller通過數(shù)據(jù)科學(xué)實(shí)驗(yàn)更進(jìn)一步地提出推薦系統(tǒng)不僅無負(fù)面影響，反而增加了用戶推薦集的主題多樣性[3]。如今，隨著“今日頭條”等新聞平臺(tái)不斷使用推薦系統(tǒng)，更多的學(xué)者也將“過濾氣泡”問題聚焦到在線新聞平臺(tái)，本文則針對(duì)新聞?lì)I(lǐng)域探究推薦系統(tǒng)是否導(dǎo)致“過濾氣泡”現(xiàn)象。

1 研究方案與指標(biāo)設(shè)計(jì)

為探究個(gè)體用戶過濾氣泡現(xiàn)象基于時(shí)間的變化，本文采用改進(jìn)的三分圖作為研究框架，如圖1所示，底層v表示單個(gè)用戶，中間層為該用戶按時(shí)間順序排列的瀏覽記錄，上層為所有新聞所涵蓋的主題。其中，所有文章所涵蓋的主題以及單個(gè)文章所涉及的主題采用LDA建模算法得出。

最終可得到單個(gè)用戶v與主題之間的權(quán)重關(guān)系為

其中，ω（v，Ti）為用戶在主題Ti下的權(quán)重，表示對(duì)該主題的喜愛程度；ω（v，Nj）為用戶對(duì)所瀏覽新聞的喜好程度，根據(jù)該用戶對(duì)新聞項(xiàng)目采取的行為決定，如瀏覽記1分，點(diǎn)贊記2分，轉(zhuǎn)發(fā)記3分；ω（Nj，Ti）為新聞j在主題i下的權(quán)重，由LDA算法得出；J為該用戶瀏覽的所有新聞項(xiàng)的個(gè)數(shù)。

另外，為刻畫用戶“過濾氣泡”本文采用基尼系數(shù)和信息熵作為測(cè)量指標(biāo)，計(jì)算公式分別為

其中，I為L(zhǎng)DA所劃分的所有主題的個(gè)數(shù)。

2 實(shí)證研究

本研究選取平臺(tái)DeskDrop產(chǎn)生的新聞數(shù)據(jù)集，包含對(duì)2 000個(gè)用戶為期一年的取樣（2016.3—2017.2），且清晰記錄了所瀏覽文章的項(xiàng)目特征（如文章原始URL、標(biāo)題、內(nèi)容）、項(xiàng)目上下文特征（用戶瀏覽時(shí)間、點(diǎn)贊分享等行為）。

2.1 數(shù)據(jù)預(yù)處理

對(duì)所選取的數(shù)據(jù)進(jìn)行預(yù)處理，包括：對(duì)原始數(shù)據(jù)內(nèi)容進(jìn)行整理；時(shí)間戳轉(zhuǎn)換；篩選英文數(shù)據(jù)；交互記錄數(shù)量篩選。

2.2 LDA主題建模

為計(jì)算不同新聞所涵蓋的主題，以及單個(gè)新聞所設(shè)計(jì)的主題及權(quán)重，本文采用LDA算法進(jìn)行主題建模。其中主題數(shù)Ktopic的選取十分重要，為保證建模質(zhì)量，采用困惑度指標(biāo)進(jìn)行評(píng)估，并按照困惑度最小的Ktopic進(jìn)行主題劃分。

圖2展示了主題個(gè)數(shù)與困惑度之間的關(guān)系，當(dāng)主題個(gè)數(shù)選取55時(shí)困惑度最低，因而將所有新聞劃分為55個(gè)主題。表1呈現(xiàn)了主題建模后所得到的結(jié)果，匯總了每篇新聞在每個(gè)主題下的權(quán)重。

3 “過濾氣泡”的測(cè)量

為按照時(shí)間順序觀測(cè)所有用戶熵和基尼系數(shù)的變化，需要將每個(gè)用戶的瀏覽記錄進(jìn)行分塊處理，以月為單位，計(jì)算每個(gè)月內(nèi)用戶的基尼系數(shù)和熵，并統(tǒng)計(jì)所有用戶的指標(biāo)值。圖3和圖4分別展示了不同月份下基尼系數(shù)和熵的分布圖。首先，我們統(tǒng)計(jì)了1013個(gè)用戶初始（首月）、中間時(shí)期（7月和11月）和最終時(shí)期基尼多樣性和熵多樣性的密度分布。我們發(fā)現(xiàn)在初期用戶指標(biāo)普遍較小，而隨著時(shí)間推移，指標(biāo)值分布開始出現(xiàn)出一種分化的趨勢(shì)：即部分用戶更小，而部分用戶更大，這一現(xiàn)象在基尼系數(shù)指標(biāo)下反應(yīng)為尾部突起越加明顯，而在熵指標(biāo)下表現(xiàn)更明顯，從形狀上由原來的近似倒U形逐漸變?yōu)榻芃形。

這反映了在推薦系統(tǒng)參與下，所存在的分化作用使得原先集中在較小視野范圍的用戶慢慢分為兩類：一類視野更加開闊，而另一類則趨于狹窄。然而這一結(jié)果只針對(duì)了分布的變化，未能明確表明個(gè)體用戶視野的縱向變化，如無法解釋原先視野較寬的用戶后期視野是更大還是更小，是更加狹窄還是更加開闊。因此我們測(cè)試了所有用戶從起始階段到最終階段基于時(shí)間的縱向指標(biāo)變化，并基于不同時(shí)間段對(duì)所有用戶求均值，繪制出用戶平均視野隨時(shí)間的變化曲線，如圖5所示，可以發(fā)現(xiàn)平均用戶指標(biāo)變化表現(xiàn)為“S”形上升的變化規(guī)律，即平均用戶視野雖然在前期有輕微下降，但是從整個(gè)時(shí)間上看最終視野是比初始視野更高的，即用戶的視野并非被窄化，反而得到了一定程度的拓展。

4 總結(jié)與討論

通過上述實(shí)證分析，發(fā)現(xiàn)在推薦系統(tǒng)參與下的新聞平臺(tái)中，指標(biāo)表現(xiàn)出了與“用戶被陷進(jìn)過濾氣泡”相反的趨勢(shì)。圖5結(jié)果表現(xiàn)出用戶“視野”總體上出現(xiàn)被擴(kuò)展的情形，而非下降的情形。因此我們認(rèn)為，新聞推薦系統(tǒng)產(chǎn)生的副作用或許被過分夸大了，用戶視野在推薦系統(tǒng)參與下不僅沒有出現(xiàn)視野上的縮減，反而出現(xiàn)很大程度的拓展。該結(jié)果表示，在新聞平臺(tái)瀏覽新聞時(shí)，可以較放心地使用推薦算法所列舉的項(xiàng)目以提升自己的視野。

該結(jié)論與我們直覺上認(rèn)為的“推薦算法會(huì)因?yàn)橥扑]相似項(xiàng)目而窄化用戶視野”不同，其原因存在如下幾種可能：首先，每天所發(fā)生的事件存在很大的隨機(jī)性，這導(dǎo)致平臺(tái)每日提供的新聞項(xiàng)目之間往往存在很大的差異性，推薦算法雖致力于推薦與用戶偏好相似的項(xiàng)目，但由于不同項(xiàng)目之間固有的差異性和隨機(jī)性[4]，導(dǎo)致所推薦的項(xiàng)目也只能時(shí)盡可能相似。另外，用戶在心理上存在“幸存者偏差”[5]可解釋這一現(xiàn)象，用戶所瀏覽的新聞內(nèi)容中往往或多或少存在與自身認(rèn)知相近的信息片段，這些重復(fù)的信息片段會(huì)使用戶在結(jié)束瀏覽后產(chǎn)生一種“仍在原有知識(shí)體系中徘徊”的錯(cuò)覺，而與用戶原有知識(shí)體系不接近或用戶原先不關(guān)注的信息片段卻在潛移默化中提升了用戶視野，只不過用戶“視而不見”并將這一誤解歸咎于推薦系統(tǒng)。

參考文獻(xiàn)

[1]薛堯云.算法推薦機(jī)制下的短視頻“過濾氣泡”問題研究：以抖音為例[J].新媒體研究，2019，5（14）：21-22.

[2]Poulain，R.，F(xiàn).Tarissan.Investigating the lack of diversity in user behavior：The case of musical content on online platforms：Information Processing & Management，2020，57：102169.

[3]M？ller，J.，D.Trilling，N.Helberger，B. van Es.Do not blame it on the algorithm：an empirical assessment of multiple recommender systems and their impact on content diversity：Information，Communication & Society，2018，21：959-977.

[4]黃昌林.新聞敘事：確定性與隨機(jī)性[J].成都大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2011（4）：68-71.

[5]常江.互聯(lián)網(wǎng)與幸存者偏差[J].青年記者，2019（19）：92.