劉總真, 張瀟丹*, 郭 濤, 葛敬國, 周 熙, 王宇航,陳家玓 , 呂紅蕾, 林俊宇
1 中國科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 北京 中國100049
2 中國科學(xué)院信息工程研究所 北京 中國100093
信息過載的概念于1964 年首次被提出[1], 但直至21 世紀進入大數(shù)據(jù)時代后, 隨著AI、5G、AR/VR等新技術(shù)快速發(fā)展, 電子商務(wù)、社交網(wǎng)絡(luò)、短視頻等新應(yīng)用層出不窮, 互聯(lián)網(wǎng)中每天產(chǎn)生海量的新聞、商品、視頻、音樂等信息, 信息過載問題日益嚴重。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第47 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》[2]統(tǒng)計, 截至2020年12 月, 我國網(wǎng)民規(guī)模達9.89 億, 其中網(wǎng)絡(luò)新聞用戶規(guī)模達7.43 億, 網(wǎng)絡(luò)購物用戶規(guī)模達7.82 億, 網(wǎng)絡(luò)視頻用戶規(guī)模達9.27 億。數(shù)據(jù)規(guī)模呈現(xiàn)爆發(fā)式增長, 根據(jù)國際數(shù)據(jù)集團(IDC)2018 年在文獻[3]中預(yù)測,2025 年全球數(shù)據(jù)總量預(yù)計增至175ZB, 將是2018 年的5 倍左右。如何從海量信息中獲取價值內(nèi)容是互聯(lián)網(wǎng)信息服務(wù)平臺和用戶關(guān)心, 且迫切需要解決的問題。因此, 作為信息過濾的有效工具, 推薦算法應(yīng)運而生。推薦算法旨在從過載的信息中, 通過信息過濾篩選技術(shù), 為用戶推薦其感興趣的高質(zhì)量內(nèi)容。在大數(shù)據(jù)、應(yīng)用場景和計算力的推動下, 作為人工智能分支之一, 推薦算法在電子商務(wù)、新聞等領(lǐng)域得到了廣泛的應(yīng)用, 不僅提高了信息分發(fā)效率, 還一定程度上緩解了信息過載問題; 通過解讀用戶個體興趣,進行個性化智能推薦的同時, 給互聯(lián)網(wǎng)信息服務(wù)提供商帶來極大的商業(yè)價值。
互聯(lián)網(wǎng)推薦算法和推薦系統(tǒng)的發(fā)展歷程, 可分為萌芽期、發(fā)展期和管制期3 個階段。萌芽期起始于1990 年, 哥倫比亞大學(xué)Jussi Karlgren 首次提出推薦系統(tǒng)[4]的概念, 此后, 明尼蘇達大學(xué)的GroupLens研究組于1994 年推出名為GroupLen[5]的新聞推薦系統(tǒng), 提出協(xié)同過濾的思想, 1997 年的基于內(nèi)容協(xié)同過濾算法[6], 2003 年的基于物品協(xié)同過濾算法[7]也相繼問世。2006 年北美在線視頻服務(wù)提供商Netflix 舉辦的推薦算法競賽, 極大地推動了推薦系統(tǒng)的發(fā)展。此次比賽標志著推薦系統(tǒng)進入發(fā)展期。此后, 面向不同應(yīng)用場景的推薦算法猶如雨后春筍涌現(xiàn), 效果不斷得到提升, 諸如提出矩陣分解方法實現(xiàn)推薦任務(wù)的FunkSVD[8], 首次將深度學(xué)習(xí)技術(shù)與推薦技術(shù)結(jié)合的RBCF 算法[9], 首次從概率角度構(gòu)造MF 模型的PMF[10], 結(jié)合社交信息[11-12]、基于信任方法[13]、引入注意力機制[14]等以提高推薦算法效果和性能。2016年深度學(xué)習(xí)技術(shù)被全面應(yīng)用于推薦系統(tǒng)領(lǐng)域。YouTube 將深度神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于推薦系統(tǒng)中,打造的工業(yè)級推薦系統(tǒng)[15], 實現(xiàn)了大規(guī)模內(nèi)容的高質(zhì)量推薦,為后續(xù)工業(yè)級推薦系統(tǒng)的優(yōu)化開拓了思路。近年來, 隨著推薦算法應(yīng)用領(lǐng)域的日益廣泛, 為用戶提供基于行為習(xí)慣和興趣偏好的個性化推薦,極大地提高了用戶體驗的同時, 逐漸引起的算法偏見、用戶隱私問題、信任問題、可解釋性、公平性越來越受到用戶、相關(guān)監(jiān)管部門等各方的關(guān)注, 《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》[16]的實施標志著我國進入推薦算法管制期。
互聯(lián)網(wǎng)新聞是推薦算法應(yīng)用最為廣泛的領(lǐng)域之一, 用戶規(guī)模大、垂直平臺類型繁多, 已成為幫助網(wǎng)民獲取信息的主流方式。新聞平臺通過推薦算法改變了新聞內(nèi)容分發(fā)方式, 在給網(wǎng)民帶來信息篩選便利的同時, 也帶來了價值觀缺失、信息繭房、算法偏見等問題。為了防止互聯(lián)網(wǎng)新聞信息運營和服務(wù)平臺成為傳播不良內(nèi)容傳播的幫兇, 警惕算法決定內(nèi)容、算法偏見, 迫切需要研究新聞推薦算法的公平性、可解釋性等, 提高新聞推薦算法的透明性和可信程度。
算法模型機理透明, 推薦內(nèi)容健康、公平、可解釋, 對安全問題抗抵賴是構(gòu)建可信新聞推薦算法的必備條件??尚判侣勍扑]算法是建立安全新聞推薦系統(tǒng)及優(yōu)化推薦結(jié)果的核心技術(shù)。本文研究具備可解釋性、公平性、抗抵賴性的可信新聞推薦算法, 對加速安全推薦系統(tǒng)的建立和推廣, 建立可信推薦算法生態(tài), 極具理論意義和應(yīng)用價值。
本文組織結(jié)構(gòu)如下: 第2 章扼要介紹了新聞推薦算法的關(guān)鍵要素及分類; 第3 章梳理分析新聞推薦算法的風(fēng)險情況及國內(nèi)外應(yīng)對現(xiàn)狀; 第4 章提出新聞推薦算法可信評價指標體系; 第5 章對全文進行了總結(jié), 并提出下一步研究計劃。
作為推薦系統(tǒng)的核心, 新聞推薦算法的關(guān)鍵要素, 按照根據(jù)推薦系統(tǒng)運行過程, 分為稿件、用戶和推薦策略, 具體細分為稿件畫像、用戶畫像、推薦推送、反饋干預(yù)和人工復(fù)審。
新聞稿件的內(nèi)容形式包括文本、圖片、視頻。稿件畫像是利用文本和多媒體分析技術(shù)對稿件的內(nèi)容進行挖掘和分析, 生成結(jié)構(gòu)化和分級分類的稿件模型。稿件畫像通常分為兩個維度, 主題標簽和質(zhì)量標簽, 主題標簽包括歷史、時尚、教育、娛樂等多級標簽, 質(zhì)量標簽包括正能量、違法不良、低俗、獵奇/易反感、標題夸張、評論指向等類別。對稿件的內(nèi)容分析可借助分類器模型、主題模型、實體識別模型、嵌入模型進行內(nèi)容分類、主題挖掘、角色識別、嵌入語義分析。通常, 推薦算法利用人工標注稿件和用戶反饋信息作為訓(xùn)練樣本, 訓(xùn)練稿件畫像模型。
用戶畫像, 是將用戶信息特征的向量化表示,用于個性化推薦和精準營銷的有效工具。在新聞推薦領(lǐng)域, 用戶畫像特征體系主要包括人口屬性、興趣屬性、行為屬性、社交屬性和風(fēng)險控制。其中人口屬性主要包含性別、職業(yè)、年齡、婚姻狀況等, 人口屬性相關(guān)的標簽相對比較穩(wěn)定, 在較長時間內(nèi)不需要更新。興趣屬性旨在描述用戶興趣愛好, 具有較強的時效性, 包括長期和短期興趣。行為屬性是另一種刻畫用戶的常見維度, 可以用以挖掘用戶偏好和特征。社交屬性被用于了解用戶的家庭成員、社交關(guān)系、社交偏好、社交活躍程度等。風(fēng)險控制旨在通過統(tǒng)計賬號風(fēng)險、失信風(fēng)險、潛在問題用戶、無效渠道等信息, 從根源上防止不良內(nèi)容的產(chǎn)生和傳播。
按變化頻率, 用戶特征分為靜態(tài)特征和動態(tài)特征, 靜態(tài)特征一般指通常很少發(fā)生變化的用戶基本屬性信息, 如性別、年齡、職業(yè)等; 而動態(tài)特征通常指與用戶興趣偏好相關(guān), 在時間和空間上是動態(tài)變化的特征。按照數(shù)據(jù)提取和處理維度, 用戶特征分為事實特征、模型特征和預(yù)測特征。事實特征是指從原始數(shù)據(jù)中直接提取的用戶基本信息, 不需要使用算法模型, 實現(xiàn)簡單。模型特征指通過定義規(guī)則, 建立模型計算得到的特征實例。預(yù)測特征是基于用戶的基本信息屬性、行為屬性、社交屬性, 利用機器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)預(yù)測的特征。
用戶畫像構(gòu)建方法包括兩類, 基于統(tǒng)計和基于模型的用戶建模[17]?;诮y(tǒng)計的用戶建模方法, 主要是利用統(tǒng)計方法, 對用戶人口屬性、歷史行為等數(shù)據(jù),將統(tǒng)計結(jié)果進行量化和分析?;诮y(tǒng)計的構(gòu)建方法,簡單易實現(xiàn), 主要應(yīng)用于結(jié)構(gòu)化信息, 不適用于文本、圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù)?;谀P偷臉?gòu)建方法是利用機器學(xué)習(xí)、深度學(xué)習(xí)等方法, 針對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù), 學(xué)習(xí)和構(gòu)建高維稠密向量, 在當(dāng)前推薦系統(tǒng)中得到廣泛應(yīng)用。
推薦推送技術(shù)架構(gòu)包括召回、排序、重排三個階段。稿件召回階段, 考慮用戶興趣偏好、熱門內(nèi)容等多種因素, 通過多路召回進行稿件初篩, 主流召回方法包括基于內(nèi)容(Content-based)[18]、協(xié)同過濾(Collaborative Filtering)[19]、基于知識(Knowledgebased)[20]、混合推薦[6]等傳統(tǒng)方法, 基于FM 模型(Factorization Machines, FM)[21]、基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)[22]等深度學(xué)習(xí)方法。訓(xùn)練模型包括離線模型和實時模型, 分別利用時效性是否敏感的標簽進行訓(xùn)練, 以更新推薦模型; 第二階段是排序, 排序是推薦系統(tǒng)關(guān)鍵環(huán)節(jié), 常用模型包括邏輯回歸(Logistic Regression, LR)、梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)、FM、深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)、Pointwise 等。排序完成后, 進入重排階段, 根據(jù)業(yè)務(wù)需要和安全策略, 一般需要進行強插過濾、打散, 保證推薦結(jié)果的多樣性, 常見的重排模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、Transformer。
反饋干預(yù)主要通過實時收集統(tǒng)計用戶閱讀、評論、轉(zhuǎn)發(fā)、分享等正面反饋, 不喜歡、舉報、負評等負面反饋, 更新至推薦模型中實時調(diào)整推薦效果。
在工業(yè)界, 人工復(fù)審環(huán)節(jié)是重中之重, 對重排結(jié)果進行人工二次審核, 審核策略一般按稿件類型和安全等級進行全審和盲審。針對高危、敏感等級稿件進行全審, 其他類型進行盲審。稿件通過人工復(fù)審后, 才會形成進入最終推薦稿件列表。
推薦算法是推薦系統(tǒng)中的核心, 在很大程度上決定了推薦系統(tǒng)效果和性能。目前, 對推薦算法的分類并沒有統(tǒng)一的標準, 很多學(xué)者從不同角度對推薦算法進行分類, 本文從推薦模型角度, 將產(chǎn)業(yè)界新聞推薦領(lǐng)域應(yīng)用較為廣泛的推薦算法分成以下幾種:協(xié)同過濾方法、矩陣分解方法(Matrix Factorization),聚類、深度學(xué)習(xí)方法。
協(xié)同過濾是利用集體智慧的一個典型方法, 協(xié)同過濾及其擴展方案是最常用的推薦算法之一。當(dāng)向用戶推薦某些新聞內(nèi)容時, 最合乎邏輯的是找到興趣相似的人, 分析其行為, 并向用戶推薦相同的內(nèi)容; 或者查看與用戶之前的喜好相類似的內(nèi)容,并進行推薦。協(xié)同過濾兩種基本方法: 基于用戶的協(xié)同過濾(user-based) 和基于內(nèi)容的協(xié)同過濾(item-based)。在這兩種情況下, 一般推薦的步驟如下:(1)收集用戶偏好及行為數(shù)據(jù), 如閱讀、點贊、評論轉(zhuǎn)發(fā)等; (2)對數(shù)據(jù)進行降噪以及歸一化操作得到一個用戶偏好的二維矩陣; (3)計算用戶間或者內(nèi)容間相似度, 常見的計算方法有: 歐幾里德距離、皮爾遜相關(guān)系數(shù)、余弦相似度、Tanimoto 系數(shù)等。計算得到的兩個相似度將作為基于用戶、內(nèi)容的兩項協(xié)同過濾的推薦依據(jù)。
矩陣分解算法的核心思想是利用用戶-內(nèi)容的評分矩陣, 分解出潛在特征, 然后預(yù)測用戶對關(guān)注或閱讀過的內(nèi)容的評分, 將得分高的內(nèi)容作為推薦項。在獲得用戶評分矩陣后, 利用矩陣分解的方法將用戶評分矩陣分解為兩個低秩矩陣(用戶特征矩陣和內(nèi)容特征矩陣)的乘積, 將用戶和內(nèi)容嵌入到同一個k維的向量空間。用戶向量和內(nèi)容向量的內(nèi)積代表了用戶對內(nèi)容的偏好度。因為k 維向量空間的每一個維度不具備與現(xiàn)實場景對應(yīng)的可解釋含義, 所以矩陣分解算法的可解釋性較差。
協(xié)同過濾以及矩陣分解都是有監(jiān)督的機器學(xué)習(xí)方法, 在推薦系統(tǒng)中也可以利用無監(jiān)督的方法-聚類。在推薦中可利用K-Means、密度聚類(Densitybased spatial clustering of applications with noise,DBSCAN)、高斯混合模型(Gaussian Mixed Model,GMM)等聚類算法對用戶或者內(nèi)容的分組, 隨后從分組內(nèi)挑選內(nèi)容推薦給用戶。在實際推薦系統(tǒng)構(gòu)建中, 聚類方法一般適用于系統(tǒng)初期用戶數(shù)據(jù)量不足的場景, 或者作為協(xié)同過濾的補充, 降低計算復(fù)雜度。
在過去十年中, 神經(jīng)網(wǎng)絡(luò)取得了長足的發(fā)展。如今已被廣泛應(yīng)用, 在某些領(lǐng)域正在逐步取代傳統(tǒng)的機器學(xué)習(xí)方法。深度學(xué)習(xí)模型應(yīng)用于推薦算法既可以有效獲取非線性和重要的用戶-內(nèi)容關(guān)系, 還可以在高層中獲得更實用的抽象特征, 從大量冗余信息數(shù)據(jù)中獲取復(fù)雜的關(guān)系, 如上下文、文本、圖片等信息。深度學(xué)習(xí)在推薦系統(tǒng)中既可以作為獨立模型使用, 如Neural Collaborative Filtering (NCF)[23], Crossdomain Content-boosted Collaborative Filtering(CCCFNet)[24], Deep Factorization Machine(DeepFM)[21]等; 也可以結(jié)合傳統(tǒng)的推薦方法使用,如利用MLP 進行用戶內(nèi)容間非線性擬合[25]、利用CNN 提取局部和全局信息、利用RNN 提取序列信息[26]、利用DSSM 進行語義匹配[27-28]等。
新聞推薦算法在使用過程中, 存在危害國家和社會安全、用戶安全和新聞推薦平臺安全等三方面風(fēng)險。國家和社會方面, 第一主要是推薦算法易被不法人員用于操縱輿論導(dǎo)向, 進行網(wǎng)絡(luò)意識形態(tài)壟斷,窄化人們思想, 威脅國家意識形態(tài)安全; 第二是內(nèi)容質(zhì)量問題, 如果互聯(lián)網(wǎng)中充斥著大量的劣質(zhì)內(nèi)容,不利于國家精神文明建設(shè)和網(wǎng)民積極向上的價值觀的形成。用戶方面, 主要是用戶數(shù)據(jù)隱私風(fēng)險和算法偏見問題、信息繭房問題。新聞推薦平臺方面, 主要是用戶對新聞推薦平臺和推薦結(jié)果的信任問題及新聞推薦平臺和用戶行為的抵賴問題。
內(nèi)容質(zhì)量問題。個性化推薦在新聞推薦系統(tǒng)中廣泛應(yīng)用和自媒體的興起, 低俗內(nèi)容泛濫, 內(nèi)容質(zhì)量無法得到保障, 失去價值引領(lǐng)的屬性。內(nèi)容質(zhì)量問題由新聞推薦平臺管理和推薦算法兩方面引起, 新聞推薦平臺側(cè)對內(nèi)容源及質(zhì)量的分級分類管理體系不夠完善, 存在漏檢隱患。推薦算法依賴用戶畫像、行為特征、興趣特征等推薦主題、關(guān)鍵詞相關(guān)性較高的內(nèi)容, 并不對內(nèi)容來源、質(zhì)量進行核驗。
信息繭房。在個性化推薦領(lǐng)域, 推薦算法向用戶推薦的大多是其感興趣的信息。隨著時間的推移, 這將導(dǎo)致推薦內(nèi)容逐漸同質(zhì)化、信息閾逐漸收窄, 甚至加重用戶群體階層極化現(xiàn)象。
算法偏見問題。新聞推薦平臺為了提高推薦算法推薦的精準性, 訓(xùn)練數(shù)據(jù)中會引入諸如性別、年齡、職業(yè), 甚至種族等敏感特征, 這一做法違背了算法中立性的原則, 間接造成算法偏見問題。隨著用戶不斷循環(huán)反饋, 推薦算法模型迭代調(diào)整, 偏見問題將被逐漸加強。
用戶數(shù)據(jù)隱私問題。推薦算法效果的優(yōu)劣, 關(guān)鍵因素在于用戶特征的質(zhì)量, 而用戶特征質(zhì)量主要由用戶數(shù)據(jù)資源決定。新聞推薦平臺在對用戶數(shù)據(jù)采集、分析和挖掘過程中, 存在用戶不知情情況下, 過度采集和濫用, 造成用戶隱私數(shù)據(jù)泄露的風(fēng)險。當(dāng)前,用戶數(shù)據(jù)的采集范圍、跨平臺使用方式、用戶對隱私數(shù)據(jù)的可控程度, 是相關(guān)監(jiān)管部門、用戶迫切關(guān)心的問題。
信任問題包括用戶對個人數(shù)據(jù)采集和使用的信任、對推薦結(jié)果信任。通常用戶無法得知推薦平臺采集了哪些數(shù)據(jù)及如何使用, 因此存在對新聞推薦平臺關(guān)于個人數(shù)據(jù)信任問題。用戶在新聞平臺上所見的內(nèi)容, 主要依賴機器和推薦算法完成。推薦算法是大多使用黑盒化模型, 透明度低, 甚至研發(fā)人員都很難解釋推薦算法底層機理和推薦結(jié)果, 用戶更是被動接受推薦結(jié)果。如何讓用戶更大程度上信任新聞推薦平臺、推薦算法的決策結(jié)果, 引起了學(xué)術(shù)界、產(chǎn)業(yè)界的廣泛關(guān)注和研究。
抗抵賴問題。新聞推薦平臺上常存在一些惡意用戶在發(fā)布低質(zhì)內(nèi)容或者產(chǎn)生一些惡意的行為, 這些內(nèi)容或者行為會對平臺、對其他用戶產(chǎn)生一些不利的影響, 事后這些惡意用戶可能會盡力去刪除或者損毀這些行為證據(jù)以逃避、抵賴社會追責(zé)。因新聞推薦平臺的封閉性, 新聞平臺側(cè)在對用戶數(shù)據(jù)的采集和使用、推薦結(jié)果的展示等做出不當(dāng)行為時,可能存在刪除或損毀操作, 以抵賴相關(guān)監(jiān)管部門的查證。
以上問題可統(tǒng)一歸為公平性、可解釋性和抗抵賴性三類問題。隨著新聞推薦算法應(yīng)用的廣泛性, 相關(guān)監(jiān)管部門和研究學(xué)者大多從公平性和可解釋性研究內(nèi)容質(zhì)量、信息繭房、算法偏見、用戶數(shù)據(jù)隱私等問題, 本文在公平性和可解釋性基礎(chǔ)上, 首次將抗抵賴性引入作為新聞推薦算法安全問題之一。
在推薦算法早期發(fā)展和應(yīng)用的進程中, 產(chǎn)業(yè)和學(xué)術(shù)界通常傾向于追求算法模型的性能指標, 如準確度、精確度和召回率等。近幾年, 隨著推薦算法應(yīng)用, 人們逐漸意識到算法安全、公平問題的重要性。因推薦算法屬于智能算法的一種, 本文從智能算法安全角度, 梳理國內(nèi)外政府、學(xué)者從政策、標準規(guī)范[29]和學(xué)術(shù)方面對算法安全問題進行的前瞻性研究和探索進展。
(1) 政策方面, 從總體政策舉措看, 美國注重在公共數(shù)據(jù)資源和人工智能安全設(shè)計方面要求。2016年, 美國國防部先進研究項目局(DARPA)資助并啟動可解釋性人工智能項目XAI(Explainable AI), 旨在研究實現(xiàn)包含可解釋性技術(shù)和模型的通用新型機器學(xué)習(xí)技術(shù), 一方面使得用戶理解、信任算法決策結(jié)果,一方面便于算法平臺和監(jiān)管部門有效管理人工智能系統(tǒng)。2017 年發(fā)布的《算法透明和可責(zé)性聲明》[30]中提出了可解釋、數(shù)據(jù)來源保護、可審查性、驗證和測試等準則。2019 年在《國家人工智能研究與發(fā)展戰(zhàn)略計劃》中將人工智能系統(tǒng)安全、開發(fā)可共享的公共數(shù)據(jù)集和環(huán)境作為戰(zhàn)略重點之一。此外, 美國立法者要求Twitter、 YouTube 和 Facebook 等互聯(lián)網(wǎng)企業(yè)提高算法透明度, 并評估算法是否存在不公平性。2021 年2 月美國布魯金斯學(xué)會呼吁重啟美國會技術(shù)評估辦公室, 針對人工智能發(fā)展可能帶來的算法嵌入、算法公平性、算法透明度等問題, 提出緩解建議。
歐盟在隱私數(shù)據(jù)保護方面較為重視, 已經(jīng)出臺的《通用數(shù)據(jù)保護條例》(GDPR)中明確賦予個人決定隱私數(shù)據(jù)使用范圍的權(quán)利。英國在《人工智能在英國: 準備、志向與能力?》報告中, 提出人工智能應(yīng)有可理解性和公平性原則, 以及保護個人數(shù)據(jù)權(quán)利或隱私原則, 鼓勵在重要領(lǐng)域研制可解釋性的人工智能系統(tǒng), 研究訓(xùn)練數(shù)據(jù)和算法的審查和測試機制, 探索數(shù)據(jù)訪問和共享的有效措施。2019 年歐盟委員會發(fā)布的《可信賴人工智能倫理指南》(Ethics Guidelines for Trustworthy AI)[31]中的公平準則要求人工智能系統(tǒng)的開發(fā)、部署和應(yīng)用要堅持實質(zhì)公平和程序公平, 確保利益和成本的平等分配、個人及群體免受歧視和偏見。
日本人工智能學(xué)會(JSAI)發(fā)布的《日本人工智能學(xué)會倫理準則》中要求遵循和實踐尊重隱私、公正和安全原則。加拿大發(fā)布的《可靠的人工智能草案蒙特利爾宣言》中提出隱私是人工智能發(fā)展過程中應(yīng)當(dāng)遵守的道德原則之一。
我國也已經(jīng)開展智能算法在相關(guān)領(lǐng)域中的規(guī)制方法。國務(wù)院在2017 年的《新一代人工智能發(fā)展規(guī)劃》[32]中提出了實現(xiàn)具備高可解釋性、強泛化能力的人工智能的目標。此外, 我國已經(jīng)將算法納入監(jiān)管,2019 年出臺的《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》[16], 針對算法推薦引發(fā)的負面影響, 明確了推薦算法的分發(fā)方式, 要求企業(yè)持續(xù)優(yōu)化算法模型, 在利用算法決策時, 確保算法的準確性、公平性等。
(2) 標準規(guī)范方面, 2017 年國際標準化組織(ISO/IEC JTC1)成立人工智能的分委員會, 開展的標準研制工作中涉及人工智能可信度、魯棒性評估、算法偏見等主題。ITU-T 于2017—2018 年組織的“AI for Good Global”峰會中, 重點關(guān)注了人工智能技術(shù)可信的戰(zhàn)略問題。電氣與電子工程師協(xié)會(IEEE)正在研制IEEE P7000 系列標準IEEE P7002《數(shù)據(jù)隱私處理》、IEEE P7003《算法偏差注意事項》、IEEE P7011《新聞信源識別和評級過程標準》等。
我國對算法安全標準方面的工作, 集中在算法模型、數(shù)據(jù)、基礎(chǔ)設(shè)施、產(chǎn)品和應(yīng)用相關(guān)的安全標準。2018 年我國首個人工智能深度學(xué)習(xí)算法標準《人工智能深度學(xué)習(xí)算法評估規(guī)范》(T/CESA 1026-2018)發(fā)布, 目標旨在發(fā)現(xiàn)深度學(xué)習(xí)算法中影響算法可靠性的因素及如何提高算法可靠性。規(guī)范中提出了深度學(xué)習(xí)算法的評估指標體系、評估流程等內(nèi)容, 指導(dǎo)深度學(xué)習(xí)算法相關(guān)方對深度學(xué)習(xí)算法的可靠性開展評估工作。在數(shù)據(jù)安全領(lǐng)域, 國家標準《信息安全技術(shù) 個人信息安全規(guī)范》(GB/T 35273-2020)和《信息安全技術(shù) 個人信息去標識化指南》(GB/T 37964-2019)等已經(jīng)發(fā)布。國家標準化管理委員會等五部門聯(lián)合印發(fā)《國家新一代人工智能標準體系建設(shè)指南》[33]中, 提出人工智能數(shù)據(jù)、算法和模型安全標準, 包括數(shù)據(jù)安全、隱私保護、算法模型可信賴等。
(3) 學(xué)術(shù)研究方面, 算法可解釋性和公平性是當(dāng)前的突出問題和研究重點。
Miller[34]從非數(shù)學(xué)層面定義可解釋性是人們能夠理解決策原因的程度。如果一個推薦算法的決策比另一個推薦算法的決策能讓人更容易理解, 則認為前者具有更高的可解釋性。算法可解釋性的概念起源于2014 年[35], 近年來算法可解釋性問題受到了政府、產(chǎn)業(yè)界和學(xué)術(shù)界的廣泛關(guān)注和深入研究[36]。
推薦算法的解釋目標是以用戶為導(dǎo)向的推薦結(jié)果解釋和以模型為導(dǎo)向的模型機制的解釋, 建立用戶與推薦平臺間的信任關(guān)系的同時, 指導(dǎo)算法工程師進行特征工程和調(diào)試算法模型。
當(dāng)前, 算法可解釋性方法包含按建模周期流程劃分及按解釋范圍劃分。按照建模周期流程劃分, 即分為建模前、建模中、建模后三個階段, (1)建模前的可解釋性重點關(guān)注數(shù)據(jù)的可解釋性, 針對大規(guī)模或高維數(shù)據(jù), 通過統(tǒng)計分析及交互式可視化等方法,多層次角度理解數(shù)據(jù)的特征分布, 進而支持人類決策; (2)建模中的可解釋性是模型有關(guān)可解釋性, 即深度可解釋, 實現(xiàn)對算法模型的機理及執(zhí)行過程的可解釋, 如簡化成回歸模型、樹模型、圖模型等進行解釋; (3)建模后的可解釋性是模型無關(guān)可解釋, 是當(dāng)前研究嘗試最多的方向。主要通過不同的手段來解釋算法模型的決策依據(jù), 測試決策依據(jù)對推薦結(jié)果的影響程度, 經(jīng)典方法包括敏感性分析(Sensitivity Analysis)[37]、 基 于 梯 度 的 方 法(Gradient-based Methods)[38]、全局或局部代理模型(Surrogate Models)[39]、知識蒸餾(Knowledge Distillation)[40]、隱藏層可視化等。按照解釋對象角度, 近年來, 面向用戶的推薦可解釋性方式, 主要包括異構(gòu)信息建模[41-42]、知識增強[43-44]和反事實解釋[45]等, 在解釋推薦結(jié)果的同時不斷優(yōu)化推薦質(zhì)量。按照解釋范圍分為全局可解釋和局部可解釋, 全局可解釋是從數(shù)據(jù)及特征、輸入?yún)?shù)、模型結(jié)構(gòu)等方面對整個算法模型的決策進行解釋, 比如影響決策的關(guān)鍵特征的分布、特征之間如何相互作用等。局部可解釋是指在不考慮算法模型內(nèi)在結(jié)構(gòu)的前提下, 對特定一條樣本或一組樣本的預(yù)測結(jié)果進行解釋。局部可解釋的預(yù)測結(jié)果可能只依賴于某些線性或單調(diào)性的特征, 相對全局可解釋, 具有更高的準確性。
算法模型可解釋性的工程實現(xiàn)方面, 包含演進式可解釋算法模型和全新式可解釋算法模型兩種思路。演進式可解釋算法模型是在不改變現(xiàn)有算法模型的前提下, 將解釋模塊集成至推薦系統(tǒng)中, 實現(xiàn)算法模型的可解釋性; 全新式可解釋算法模型是重新設(shè)計和實現(xiàn)算法模型, 在設(shè)計理念中, 融入可解釋性功能。
算法的公平性旨在研究實現(xiàn)推薦算法的決策結(jié)果對受眾和內(nèi)容生產(chǎn)者的個人或群體不存在因其固有或后天屬性所引起的算法偏見。造成算法不公平性的主要原因包括4 種: (1)多樣性不足, 新聞推薦平臺可能為追求利益最大化, 將流量大、熱門或存在利益相關(guān)的內(nèi)容排名靠前, 導(dǎo)致曝光內(nèi)容多樣性不足,進而造成對受眾和內(nèi)容生產(chǎn)者兩方的不公平性; (2)算法偏見, 個性化推薦是“千人千面”的差異化推薦,新聞推薦平臺將敏感屬性作為訓(xùn)練特征, 優(yōu)化對不同人群的推薦內(nèi)容及內(nèi)容結(jié)構(gòu)。此類算法偏見嚴重破壞了受眾的公平性; (3)信息繭房問題, 在降低用戶公平性的同時, 將加劇社會價值分層; (4)優(yōu)質(zhì)但冷門的內(nèi)容得不到曝光機會, 也是對內(nèi)容生產(chǎn)者的不公平。
針對以上推薦算法中的公平性問題, 近幾年,國內(nèi)外相關(guān)監(jiān)管部門和研究學(xué)者開始重點關(guān)注, 但公平性相關(guān)解決方案仍處于初期探索階段。
國外互聯(lián)網(wǎng)企業(yè)如Facebook、YouTube 等開始嘗試探索推薦算法公平性問題, 以便給予用戶更大的控制和選擇權(quán)限。例如, Twitter 曾表達了研究用戶對算法選擇, 實現(xiàn)用戶控制自己使用算法的愿景,同時宣布啟動研究算法公平性的計劃, 評估其使用的算法是否存在潛在危害。Facebook 在2020 年已經(jīng)成立算法偏見相關(guān)問題研究團隊。微軟在2018 年表示開發(fā)了一套新工具, 用來判斷人工智能算法是否存在偏見, 幫助互聯(lián)網(wǎng)安全使用人工智能算法, 并及時捕獲安全風(fēng)險。YouTube 對其推薦算法模型作出一系列調(diào)整, 如拒絕某類內(nèi)容推送, 以便用戶可以更容易地探索主題和內(nèi)容。
中國信息通信研究院發(fā)布的《人工智能安全框架(2020)》[46]中提出算法公平性保障是算法安全技術(shù)之一, 可從算法公平性約束和偏見后處理兩方面保障算法公平性。推薦算法公平性的研究主要從數(shù)據(jù)公平性、內(nèi)容公平性、用戶公平性、算法模型公平性等角度進行研究。推薦算法的公平性是涵蓋受眾、內(nèi)容生產(chǎn)者、推薦平臺三方的多目標公平性[47-49], 一般采用多目標優(yōu)化方法, 既保障對受眾的公平性,也保障內(nèi)容的多樣性。當(dāng)前研究方向主要集中在數(shù)據(jù)角度、受眾角度、內(nèi)容角度、多目標角度等。
數(shù)據(jù)角度, 如果算法模型輸入數(shù)據(jù)未使用諸如性別、年齡、受教育程度、種族等敏感屬性, 則視為是公平的。一般通過機器或人工干預(yù)機制對推薦結(jié)果核查來解決數(shù)據(jù)公平性問題。
用戶角度, Hongyu Lu 等人[50]從受眾滿意度角度,研究受眾在閱讀前、閱讀后、后任務(wù)三階段的動態(tài)偏好, 提升受眾偏好的捕獲準確度, 并同步提高推薦質(zhì)量。組推薦旨在向興趣相同、社會關(guān)系粘性強的群組推薦內(nèi)容, 例如谷歌Beutel Alex 等人[51]通過提出成對公平性、組內(nèi)成對公平性和組間成對公平性指標, 實現(xiàn)對推薦系統(tǒng)排名公平性的無偏度量。文章[52]認為同一群組內(nèi)的受眾, 感興趣的內(nèi)容有相似之處, 因此將組分為長期型組, 如一家人、長期好友;另一種是短期型組, 如興趣愛好暫時趨于相同的一群人。文章[53]以排名敏感的方式平衡被推薦內(nèi)容在組成員間的相關(guān)性, 并利用貪心算法GFAR 尋找top-N。文章[54]設(shè)計了一種重新排序的方法, 通過在評估指標上添加約束來緩解優(yōu)勢組和劣勢組的推薦質(zhì)量的不公平性問題。
內(nèi)容角度, 研究人員主要從流行度偏差[55]、位置偏差[56]、曝光偏差[57]等方面研究如何提高內(nèi)容在推薦選擇、排名等方面的公平性[58]。流行度偏差主要問題是熱度低或不流行的內(nèi)容得不到有效推薦, 一般解決方法是對內(nèi)容賦予熱度權(quán)重, 通過升權(quán)和降權(quán), 調(diào)整內(nèi)容展示的機會、位置等。位置偏差中排名靠前的內(nèi)容更容易被用戶注意且產(chǎn)生互動, 但這不足以代表用戶的真實偏好。算法模型在獲取用戶偏好時出現(xiàn)偏差, 一般緩解方法是將位置特征作為輸入?yún)?shù), 或者構(gòu)建用戶行為模型并應(yīng)用于推薦模型。曝光偏差是對沒有機會展示的內(nèi)容的不公平, 進而產(chǎn)生馬太效應(yīng)問題, 簡單解決辦法是通過探索機制,對于新內(nèi)容和歷史曝光機會比較少的內(nèi)容, 給予一定的探索機會, 提升用戶對內(nèi)容的可見度, 如使用湯普森采樣的方法將排序較后的內(nèi)容, 設(shè)置一定的概率呈現(xiàn)在較前的位置、設(shè)置用戶行為無關(guān)的內(nèi)容特征、利用貪心方法進行推薦結(jié)果校準等。
理論上, 在保障多目標公平性時, 提升一方的公正性, 另一方的公正性則會降低, 同時降低整體推薦質(zhì)量。近年來, 研究學(xué)者關(guān)注于多目標公平均衡問題, 尋求一種解決方案, 平衡內(nèi)容提供者和受眾的多方公平性, 如文章[59]和[60]。前者通過分析推薦質(zhì)量、受眾公平性和內(nèi)容提供者公平性之間的關(guān)系, 提出一種面向受眾和內(nèi)容提供者的雙方公平性的推薦模型TFROM, 以保障雙方的公平性。后者將推薦公平性問題映射為不可分割物品的公平分配問題, 以此提出FairRec 算法, 保證大多數(shù)內(nèi)容提供者中至少一個能夠獲得最大份額的曝光率, 而且每個受眾擁有相對較好的公平性。Robin Burke 等人[49]證明了一種改進的稀疏線性方法SLIM, 可以改善受眾和推薦內(nèi)容鄰域之間的平衡, 在提高推薦公平性的同時, 最大程度降低排序性能損失。
當(dāng)前, 國內(nèi)外對推薦算法的可信評價研究仍是空白。本文將從公平性、可解釋性、抗抵賴性三方面建立評價新聞推薦算法的可信指標體系, 共劃分成三級指標, 如表1 所示。一級指標包括公平性、可解釋性和抗抵賴性。公平性包括生產(chǎn)者側(cè)、內(nèi)容側(cè)、受眾側(cè)和算法模型側(cè); 可解釋性包括數(shù)據(jù)可解釋性、模型可解釋性和推薦結(jié)果可解釋性; 抗抵賴性包括受眾側(cè)和平臺側(cè)。公平性、可解釋性和抗抵賴性是正相關(guān)關(guān)系, 當(dāng)公平性和抗抵賴性越強、可解釋程度越高, 新聞推薦算法的可信度越高。
表1 推薦算法可信評價指標Table 1 The trust evaluating indicators of recommendation algorithms
(1) 公平性
公平性應(yīng)從內(nèi)容生產(chǎn)者、內(nèi)容本身、受眾、算法模型等方面實現(xiàn)對用戶的公平。
生產(chǎn)者側(cè)指標包括生產(chǎn)者被推薦率(recommendation rate of producer, RRP)和稿源可信度(credibility of sources, CS)。
生產(chǎn)者被推薦率是指新聞推薦算法對平臺上內(nèi)容生產(chǎn)者的推薦率。計算公式如下:
其中, UserR是被推薦的受眾數(shù), UserAll是新聞平臺所有受眾數(shù)。生產(chǎn)者被推薦率越高, 對生產(chǎn)者越公平。
稿源可信度是指新聞稿件來源的可信, 新聞稿件來源于國家互聯(lián)網(wǎng)信息辦公室發(fā)布的《互聯(lián)網(wǎng)新聞信息稿源單位名單》[61], 政務(wù)機構(gòu)、新聞媒體機構(gòu)和其他被授權(quán)發(fā)布時政信息的單位的, 可信度高。此外, 依據(jù)包含除此之外的來源比例, 逐步降低可信度。
內(nèi)容側(cè)指標細分為稿件池主題覆蓋度(coverge of news theme, CNT)、新聞實時性(real time, RT)、新聞?wù)鎸嵭?authenticity)和內(nèi)容規(guī)范性(normativity)。
稿件池主題覆蓋度是新聞平臺稿件池中內(nèi)容主題占新聞領(lǐng)域總主題數(shù)的比率。計算方式如下:
其中, TExist是新聞平臺稿件主題數(shù), TAll是新聞主題類別總數(shù)。稿件池主題覆蓋度應(yīng)接近100%, 且覆蓋度越高, 對受眾的公平性越高。
新聞實時性指新聞被推薦給受眾的時效。新聞實時性不應(yīng)晚于新聞本身的時效。新聞實時性越高,對受眾的公平性越高。
真實性是新聞應(yīng)具備的基本原則之一。新聞內(nèi)容在呈現(xiàn)給受眾前, 應(yīng)進行真實性檢測。當(dāng)真實性檢測模型準確率達90%以上時認為具備真實性。新聞?wù)鎸嵭栽礁? 對受眾的公平性越高。
內(nèi)容規(guī)范性是指新聞內(nèi)容應(yīng)滿足健康向上、能夠弘揚正確價值觀, 不含違法不良信息。當(dāng)一條新聞內(nèi)容違反內(nèi)容規(guī)范性要求時, 直接違背了受眾獲取健康內(nèi)容的公平性權(quán)利, 極大降低了推薦算法的可信度。
受眾側(cè)指標可細分為相似個體間推薦內(nèi)容偏差(news bias of similar individual, NBSI)、是否進行群組劃分(is groups, IS)和是否進行興趣探索(explore interest, EI)。
通常相似個體間接收的推薦內(nèi)容一致或接近一致, 被認為具有高公平性。相似個體間推薦內(nèi)容偏差是指相似個體間被推薦內(nèi)容的不同程度。計算方式如下:
其中, NewsA和 NewsB是對個體受眾A 和B 推薦的新聞??紤]個體相似度計算偏差, 可對NBSI 設(shè)置一個閾值, 當(dāng)NBSI 大于該閾值時, 認為是對受眾存在不公平性, 而且將隨著NBSI 增大而加劇。
通常, 群組劃分是平臺為了提高個性化推薦效果。但根據(jù)用戶偏好、位置、職業(yè)等屬性將用戶劃分群組, 在一定程度上降低了受眾公平性, 將加劇社會分層。
興趣探索是為了挖掘用戶興趣點, 拓寬推薦范圍和優(yōu)化推薦效果。若推薦算法中運用興趣探索機制, 不僅一定程度上增加了內(nèi)容多樣性, 還將增大對受眾的公平性。
算法模型側(cè)的三級指標包括訓(xùn)練數(shù)據(jù)是否使用敏感屬性(sensitive attributes, SA)、推薦內(nèi)容分布與受眾興趣分布偏差(bias between news and user,BBNU)、推薦內(nèi)容覆蓋率(coverge of recommended news, CRN)、最近N 小時新聞推薦率(recent N-hour recommendation rate of news, RNRR)、同質(zhì)內(nèi)容推薦率(recommendation rate of homogeneous content,RRHC)、受眾覆蓋率(coverge rate of user, CRU)和冷門內(nèi)容推薦率(recommendation rate of non-popular news, RRNN)。
訓(xùn)練數(shù)據(jù)中使用敏感屬性是間接地對受眾實施分級分類, 造成的顯式不公平。明確敏感屬性范圍和分級分類, 根據(jù)使用敏感屬性的級別和類別, 對模型側(cè)公平性進行分級量化。
推薦內(nèi)容分布與受眾興趣分布偏差是指因算法模型推薦的精準度問題, 造成推薦的內(nèi)容分布與受眾興趣分布有一定偏差。該偏差與公平性是負相關(guān),偏差越小, 公平性越高。
其中 Quser是受眾興趣分布, Fnews推薦算法為受眾user 推薦的內(nèi)容分布, 若BBNU 為常量, 認為無偏差。
推薦內(nèi)容覆蓋率是指推薦算法推薦的內(nèi)容占稿件池中內(nèi)容的比率, 計算公式如下:
其中,uC 是推薦給受眾u 的內(nèi)容量, CAll是稿件池中內(nèi)容總量。推薦內(nèi)容覆蓋率越高, 表示推薦算法的內(nèi)容分發(fā)能力越強, 公平性也越強。
最近N 小時新聞推薦率表示在某一時間點, 推薦最近N 小時內(nèi)生產(chǎn)的新聞的量與總推薦量的比率。計算公式如下:
其中, Nnews是推薦的最近N 小時內(nèi)生產(chǎn)的新聞數(shù)量,RAll是推薦新聞總量。最近N 小時新聞推薦率越高,代表推薦算法對新聞推薦的時效性越高, 推薦算法公平性越強。
屬于同一分類、同一話題和同一作者的內(nèi)容稱為同質(zhì)內(nèi)容。同質(zhì)內(nèi)容推薦率是指在向單個受眾的一次推薦中, 同質(zhì)內(nèi)容量與所有推薦內(nèi)容的比率。計算公式如下:
其中,hR 是推薦的同質(zhì)內(nèi)容量, RAll推薦內(nèi)容總量。同質(zhì)內(nèi)容推薦率越高, 推薦算法在內(nèi)容多樣性方面能力越低, 推薦算法的公平性越低。
受眾覆蓋率是指被推薦受眾占總受眾量的比率。計算公式如下:
其中,uR 是被推薦受眾量, UAll是總受眾量。對一條新聞來講, 受眾覆蓋率越高, 對受眾越公平。但不同類別新聞的受眾覆蓋率不同, 如時政類新聞應(yīng)比娛樂類新聞受眾覆蓋率高。在推薦平臺經(jīng)濟效益的策略下, 受眾覆蓋率應(yīng)設(shè)置一個最低閾值, 每種類別新聞的受眾覆蓋率不應(yīng)低于該閾值。
保證冷門內(nèi)容推薦率是推薦內(nèi)容多樣性的保障措施之一, 冷門內(nèi)容推薦率是指在一次推薦中,對非流行的新聞內(nèi)容占推薦總量的比率。計算公式如下:
其中,nR 是推薦的冷門內(nèi)容量, RAll是總推薦內(nèi)容量。冷門內(nèi)容推薦率的合理性, 是對冷門內(nèi)容公平性的有效保障。
可解釋性是增強推薦算法透明性的有效方法,可解釋性越強, 推薦算法可信程度越高。本文從數(shù)據(jù)層面、算法模型層面和推薦結(jié)果層面分析推薦算法可解釋性評價指標, 具體分為數(shù)據(jù)可解釋性、模型可解釋性、推薦結(jié)果可解釋性。
數(shù)據(jù)可解釋主要從受眾和新聞內(nèi)容的具有影響力特征及關(guān)系是否可視化來評價, 評價指標包括受眾關(guān)鍵特征、內(nèi)容關(guān)鍵特征和特征及關(guān)系可視化。如果推薦平臺具備解釋關(guān)鍵特征和可視化展示特征及關(guān)系的能力, 說明具備數(shù)據(jù)可解釋性。
算法模型的可解釋性主要面向算法開發(fā)人員,有利于增強對模型的調(diào)參和優(yōu)化。通常情況下, 算法模型基本是一個黑盒, 因此可從參數(shù)可解釋、模型可解釋程度及是否具備解釋功能或模塊三個指標進行解釋。
參數(shù)是推薦算法模型的重要組成部分, 在模型構(gòu)建和優(yōu)化的過程中, 應(yīng)對參數(shù)的初始化值和調(diào)參的依據(jù)、目標進行明確和記錄, 增強模型參數(shù)的可解釋性。
推薦算法可根據(jù)使用的模型類別, 判斷模型可解釋程度。如邏輯回歸、樹、圖等統(tǒng)計學(xué)模型可根據(jù)規(guī)則進行推理解釋, 因此可解釋程度較高。而深度學(xué)習(xí)模型、混合模型等因網(wǎng)絡(luò)復(fù)雜度高、黑盒化程度高, 可解釋程度低。
當(dāng)前算法解釋功能或模塊的研究仍處于研究初期, 主要路線分為演進式和全新式, 演進式推薦算法模型是獨立于當(dāng)前推薦算法模型運行的解釋模塊,即淺層解釋方法, 主要解釋輸入和輸出的因果關(guān)系。全新式推薦算法模型致力于研究內(nèi)置的解釋功能,即深層解釋方法, 從算法模型原理角度解釋每一步執(zhí)行的過程。若一個推薦算法模型具備可解釋功能或模塊, 代表具備可解釋性, 且深層解釋方法比淺層解釋方法具有更高的可解釋程度。
推薦結(jié)果可解釋性主要面向受眾, 使其更好的理解和信任推薦結(jié)果。當(dāng)前, 推薦結(jié)果的解釋已經(jīng)廣泛應(yīng)用于新聞推薦平臺, 且大幅度提高了流量。如基于好友關(guān)系的解釋, 可通過說明多少好友感興趣、哪位好友已經(jīng)關(guān)注等方法進行解釋。推薦結(jié)果可解釋性主要包括推薦準確率和推薦有效性。解釋準確率一方面標識著用戶對推薦結(jié)果的信任度, 另一方面代表推薦算法的解釋能力。解釋有效性可通過可解釋性推薦結(jié)果產(chǎn)生的效益進行量化。解釋準確率越高、解釋有效性越強, 表示推薦算法可解釋性越高。
一個可信的推薦算法應(yīng)避免和預(yù)防受眾、內(nèi)容生產(chǎn)者等用戶和新聞平臺對各自的違法或不當(dāng)行為進行抵賴, 因此抗抵賴性也應(yīng)是推薦算法可信評價中的一個重要指標。
抗抵賴性指標按照對象可分為指標用戶側(cè)、新聞平臺側(cè)兩個維度, 分別對用戶、平臺兩方的行為進行評價。
用戶在系統(tǒng)中發(fā)布內(nèi)容, 產(chǎn)生評論、點贊等行為,新聞平臺應(yīng)有能力記錄詳盡的產(chǎn)生、傳播、銷毀等過程, 即分別對發(fā)布內(nèi)容和用戶與平臺間的交互行為進行存證。按照存證期限可將系統(tǒng)劃分5 個級別:日、周、月、季、年; 按照存證粒度的粗細可劃分兩個級別: 最終版本存證、歷史修改存證。
新聞平臺側(cè)也應(yīng)記錄自身系統(tǒng)數(shù)據(jù)流轉(zhuǎn)過程中的采集、訓(xùn)練、干預(yù)等行為和推薦結(jié)果數(shù)據(jù), 供相關(guān)部門或者社會進行監(jiān)管。按照推薦算法數(shù)據(jù)流程, 一般分為數(shù)據(jù)內(nèi)容采集、模型訓(xùn)練、結(jié)果干預(yù)、結(jié)果推薦4 個主要步驟。針對該4 個步驟, 新聞平臺均應(yīng)具備記錄存證的能力, 即分別需要記錄推薦算法采集的數(shù)據(jù)源、數(shù)據(jù)范圍、數(shù)據(jù)類型等內(nèi)容, 記錄算法模型訓(xùn)練日志、訓(xùn)練參數(shù), 記錄面向不同受眾的歷史召回、排序的結(jié)果。
近些年, 互聯(lián)網(wǎng)信息數(shù)據(jù)量急增, 信息過載問題日益嚴重, 隨著人工智能技術(shù)迅速發(fā)展, 推薦算法尤其是個性化推薦得到了前所未有的發(fā)展。作為推薦算法一大應(yīng)用場景, 新聞推薦不僅改變了內(nèi)容分發(fā)方式, 且便利了用戶獲取自身需要的新聞內(nèi)容。但依靠算法實現(xiàn)推薦推送, 用戶被動接收新聞推薦的形式, 逐漸引起信息繭房、算法偏見等問題。因此國內(nèi)外監(jiān)管部門、研究學(xué)者越來越關(guān)注如何提高推薦算法可解釋性、公平性等。但針對新聞推薦算法的可信評價的研究仍是空白。
本文主要研究新聞推薦算法的可信評價。首先深入分析新聞推薦算法的關(guān)鍵要素, 研究產(chǎn)業(yè)界當(dāng)前應(yīng)用的主流推薦算法。通過分析新聞推薦算法現(xiàn)存的風(fēng)險, 梳理了國內(nèi)外相關(guān)監(jiān)管部門、研究學(xué)者及推薦算法一線研發(fā)人員, 從政策、標準規(guī)范、學(xué)術(shù)研究等方面在算法公平性、可解釋性等方向的研究探索的成果。本文最后面向生產(chǎn)者、受眾、算法模型、新聞平臺等參與角色, 從公平性、可解釋性和抗抵賴性三方面建立了一套新聞推薦算法可信評價指標體系, 分析各指標對新聞推薦算法可信的影響, 并定性或定量分析。本文提出的推薦算法可信評價指標體系填補了推薦算法可信評價研究領(lǐng)域的空白, 同時為新聞推薦算法在可信方向的技術(shù)演進提供思路,為智能算法治理相關(guān)工作提供有力參考。
未來研究工作重點將在本文中提出的指標評價體系的基礎(chǔ)上, 建立更為嚴謹?shù)脑u價指標, 結(jié)合推薦算法具體應(yīng)用場景, 研究可量化的評價方法。此外,研究高效、準確的自動化推薦算法可信測評技術(shù)和工具, 探索推薦算法可信性分析, 驗證其在新聞等多領(lǐng)域的有效性, 同時為智能算法的可信研究給予參考。