■ 郭小平 秦藝軒
基于算法與大數(shù)據(jù)變革的信息生產(chǎn)傳播機(jī)制,顛覆了傳統(tǒng)新聞生產(chǎn)與分發(fā)模式,拓展了新聞傳播領(lǐng)域的邊界與想象。算法技術(shù)主要應(yīng)用于新聞制作與傳播的兩個(gè)環(huán)節(jié):一是算法介入新聞生產(chǎn)環(huán)節(jié)。算法程序挖掘與采集數(shù)據(jù)庫(kù)信息,并利用數(shù)據(jù)的集合與分析自動(dòng)生成機(jī)器新聞。二是算法介入新聞分發(fā)環(huán)節(jié),如新聞的個(gè)性化推薦。算法程序通過(guò)對(duì)用戶(hù)數(shù)據(jù)的挖掘與分析呈現(xiàn)用戶(hù)畫(huà)像,實(shí)現(xiàn)信息個(gè)性化推薦。
智能傳播以大數(shù)據(jù)為依托,將機(jī)器算法、數(shù)據(jù)挖掘、傳感器等人工智能技術(shù)應(yīng)用于信息的生產(chǎn)與傳播,實(shí)現(xiàn)新聞生產(chǎn)的智能化與用戶(hù)體驗(yàn)的個(gè)性化。算法技術(shù)介入新聞信息生產(chǎn)具有天然的優(yōu)越性。傳統(tǒng)的新聞生產(chǎn)機(jī)制中,記者與編輯的新聞判斷因人類(lèi)的“主觀性”遭到質(zhì)疑①,引發(fā)受眾對(duì)傳統(tǒng)新聞業(yè)的“信任危機(jī)”。同時(shí),傳統(tǒng)的點(diǎn)對(duì)面的新聞傳播模式,信息覆蓋面較廣但精準(zhǔn)度卻不高。算法的新聞判斷遵循的是數(shù)學(xué)公式與機(jī)器程序,而不是人類(lèi)編輯即時(shí)的主觀判斷,算法的新聞價(jià)值判斷更加客觀中立②(見(jiàn)表1)。此外,在信息過(guò)載的大數(shù)據(jù)時(shí)代,算法推薦能夠使用戶(hù)的信息個(gè)性化體驗(yàn)成為可能,甚至能夠脫離人工記者和編輯,利用數(shù)據(jù)自動(dòng)化生成可發(fā)布的新聞故事。
算法實(shí)踐使新聞傳播領(lǐng)域產(chǎn)生了新的潛力,拓展了新聞的可想象性,以“技術(shù)中立”的姿態(tài)昭示著新聞客觀性的“回歸”與“在場(chǎng)”③。這使人們普遍認(rèn)為,基于大數(shù)據(jù)運(yùn)行的算法技術(shù)提供了一種更高形式的智慧和知識(shí),能夠產(chǎn)生以前不可能有的洞見(jiàn),帶有真理、客觀性和準(zhǔn)確性的光環(huán)。大量的數(shù)據(jù)取代了所有其他可能被使用的工具,帶來(lái)前所未有的客觀與真實(shí),數(shù)字本身就說(shuō)明了一切④。大數(shù)據(jù)意味著一種認(rèn)知意義上的革命和理論的終結(jié)⑤。然而,這無(wú)疑是一種烏托邦式的修辭,是將數(shù)據(jù)與技術(shù)“神話”的一種美好幻想。
表1 傳統(tǒng)新聞與算法新聞生產(chǎn)機(jī)制的比較
從數(shù)字到數(shù)據(jù),從數(shù)據(jù)到意義,需要選擇和闡釋。然而,數(shù)據(jù)解釋卻面臨倫理爭(zhēng)論。首先,數(shù)據(jù)是否代表一個(gè)“客觀事實(shí)”;其次,如何呈現(xiàn)這些數(shù)據(jù)以及對(duì)它們的解釋是否會(huì)被某種偏見(jiàn)所影響;最后,是否存在一個(gè)“數(shù)據(jù)清理”的過(guò)程:即決定哪些屬性和變量會(huì)被計(jì)算,哪些會(huì)被忽略,數(shù)據(jù)清理的過(guò)程本質(zhì)上是主觀的。然而,由于人們懷著對(duì)技術(shù)“客觀中立”的想象,總是忽略數(shù)據(jù)闡釋過(guò)程的主觀性。芒福德認(rèn)為,在巨型機(jī)器制造的不幸中,首要的就是當(dāng)今人們對(duì)科學(xué)技術(shù)界無(wú)條件的崇拜⑥。機(jī)器神話模糊了人們的視線,使人們無(wú)法看清技術(shù)的本質(zhì)?,F(xiàn)代技術(shù)是一種展現(xiàn)(revealing),一種將世界遮蔽起來(lái)的具有“挑釁逼迫”性的、預(yù)置式的展現(xiàn)⑦。技術(shù)的統(tǒng)治將一切存在者都帶入計(jì)算行為中,遮蔽了人之人性和物之物性⑧,這就使得技術(shù)在展現(xiàn)的同時(shí)也遮蔽了部分客觀世界。因此,在算法技術(shù)應(yīng)用中堅(jiān)守唯數(shù)據(jù)論,極易因忽視人的主體性和事物的多面性而使算法產(chǎn)生具有偏見(jiàn)的結(jié)果。
Hazlitt認(rèn)為,偏見(jiàn)是未經(jīng)詳細(xì)的調(diào)查研究就對(duì)某一事物過(guò)早判斷。同樣,道格拉斯·W·貝斯黑萊姆認(rèn)為,“偏見(jiàn)”是人們對(duì)事物所持的觀點(diǎn)或信念缺乏實(shí)踐的檢驗(yàn),或者與檢驗(yàn)的結(jié)果相悖,或者與邏輯推理得到的結(jié)果相悖,或者不符合客觀實(shí)際⑨。他們都反對(duì)簡(jiǎn)單的將偏見(jiàn)定義為“消極的種族態(tài)度”。不少研究者都認(rèn)為,算法偏見(jiàn)是由算法程序帶來(lái)的消極的種族、性別和職業(yè)態(tài)度,這種理解稍顯狹隘。事實(shí)上,“算法偏見(jiàn)”是算法程序在信息生產(chǎn)與分發(fā)過(guò)程中失去客觀中立的立場(chǎng),造成片面或者與客觀實(shí)際不符的信息、觀念的生產(chǎn)與傳播,影響公眾對(duì)信息的客觀全面認(rèn)知。
社交網(wǎng)站、新聞客戶(hù)端宣稱(chēng),算法技術(shù)能夠獨(dú)立于人工編輯,客觀中立的為用戶(hù)呈現(xiàn)個(gè)性化的新聞,卻在算法實(shí)踐中被揭露隱含偏見(jiàn)。2016年,Facebook前員工揭露:其“Trending Topic”并非完全根據(jù)智能算法的結(jié)果排列,而是要通過(guò)人工編輯的取舍呈現(xiàn),并且有意打壓保守派的新聞。雖然Facebook在這一披露之后馬上將“Trending Topic”版塊的人工編輯撤掉,但這場(chǎng)風(fēng)波還是撕開(kāi)了算法技術(shù)神話的外衣,使人們對(duì)算法技術(shù)宣稱(chēng)的獨(dú)立、客觀和中立程度產(chǎn)生懷疑。除了社交網(wǎng)站,Google也運(yùn)用算法捕獲與分析用戶(hù)的信息行為特征,推斷用戶(hù)的搜索意圖,為用戶(hù)高效地提供個(gè)性化信息查詢(xún)結(jié)果。然而,有用戶(hù)在Google輸入關(guān)鍵詞“三個(gè)黑人少年”,Google搜索結(jié)果自動(dòng)呈現(xiàn)的照片中大都是消極晦暗、甚至與犯罪新聞相關(guān)的黑人,而輸入“三個(gè)白人少年”之后的搜索結(jié)果呈現(xiàn)的照片大都是青春活力、積極陽(yáng)光的白人少年。來(lái)自于現(xiàn)實(shí)社會(huì)的結(jié)構(gòu)性偏見(jiàn)在網(wǎng)絡(luò)世界重現(xiàn),Google搜索引擎因算法自動(dòng)呈現(xiàn)的結(jié)果而陷入種族歧視的危機(jī)。
作為人工產(chǎn)物,算法被人類(lèi)支配使用,無(wú)法完全規(guī)避來(lái)自人類(lèi)社會(huì)的偏見(jiàn)?!吧鐣?huì)現(xiàn)代化的程度越高,我們?cè)揭哂蟹此夹缘呐?。”⑩一味的認(rèn)為算法關(guān)乎數(shù)學(xué)和方程,而非“膚色”,算法決策是公平的,這不過(guò)是對(duì)算法的一種誤解,對(duì)數(shù)據(jù)和技術(shù)的烏托邦想象?,F(xiàn)代技術(shù)作為一種展現(xiàn),一方面使人被技術(shù)座架所促逼而不自知,另一方面,它成為唯一的尺度,偽裝著真理的閃現(xiàn)和運(yùn)作,這是人類(lèi)命運(yùn)“最高的危險(xiǎn)”。要對(duì)抗算法偏見(jiàn),將人類(lèi)從數(shù)字技術(shù)風(fēng)險(xiǎn)中解脫出來(lái),就亟需打開(kāi)算法的黑箱并追溯算法偏見(jiàn)產(chǎn)生的根源。
算法的運(yùn)行機(jī)制具有不可見(jiàn)性與不可解釋性。它被神話為一種強(qiáng)大的規(guī)則,通過(guò)分類(lèi)、治理、塑造等控制我們的生活。但同時(shí),算法晦澀難懂,很難讓人理解到底什么才是真正的危險(xiǎn)。技術(shù)的復(fù)雜性使算法偏見(jiàn)的發(fā)生十分隱蔽,“程序設(shè)計(jì)、數(shù)據(jù)挖掘、數(shù)據(jù)分析”,每一個(gè)步驟都可能會(huì)使偏見(jiàn)悄然嵌入機(jī)器代碼。
新技術(shù)的發(fā)明與使用本質(zhì)上是要反映人的意志,要為人類(lèi)的社會(huì)生活與政治理想服務(wù)。摩根(Morgan,2018)認(rèn)為,雖然算法可以呈現(xiàn)多種不同的文化內(nèi)涵,但它們最終仍然與定義和部署它們的人、機(jī)構(gòu)以及它們所嵌入的權(quán)力關(guān)系緊密聯(lián)系在一起??萍冀缱鳛樾录瘷?quán)制度成員之一,取得赫赫成就的同時(shí)也構(gòu)成一種威脅。智能技術(shù)賦予權(quán)力復(fù)合體更加先進(jìn)的統(tǒng)治方式,傳播技術(shù)手段越復(fù)雜,就越有能力和效率過(guò)濾掉那些對(duì)抗權(quán)力復(fù)合體的不良信息,從而鞏固自身的權(quán)力。為了實(shí)現(xiàn)某種利益追求,利益集團(tuán)人為操縱算法程序及其結(jié)果,有意識(shí)地制造具有偏見(jiàn)態(tài)度的信息,繼而操控輿論以及公眾對(duì)事實(shí)真相的客觀認(rèn)知。
技術(shù)的政治內(nèi)嵌是利益集團(tuán)操控輿論、維護(hù)權(quán)力統(tǒng)治的一種必然手段。算法具有社會(huì)性和技術(shù)性,其設(shè)計(jì)與使用的過(guò)程也必然會(huì)嵌入某種政治屬性與權(quán)力關(guān)系。蘭登·溫納(Winner,1988)認(rèn)為技術(shù)在雙重維度上具有政治性:一是新的技術(shù)或設(shè)計(jì)內(nèi)嵌了某種政治屬性,為“給定政治體系”提供確立或鞏固權(quán)力、威望的技術(shù)手段;二是政治對(duì)技術(shù)的需求與生俱來(lái),而技術(shù)也在某種意義上回應(yīng)著它們的需求。2011年9月,美國(guó)民眾因強(qiáng)烈不滿(mǎn)美國(guó)錢(qián)權(quán)交易、黨派斗爭(zhēng)、貧富懸殊的社會(huì)生活與政治制度現(xiàn)狀,發(fā)起了“占領(lǐng)華爾街”的游行示威。面對(duì)這場(chǎng)聲勢(shì)浩大的示威事件,美國(guó)媒體集體噤聲。以Twitter為例,盡管網(wǎng)民已在#occupy wallstreet#的標(biāo)簽下對(duì)這一公共事件進(jìn)行了激烈討論,Twitter的“趨勢(shì)發(fā)現(xiàn)”中仍舊無(wú)法看到這一事件的熱搜。Twitter算法引擎的失靈說(shuō)明所謂中立客觀的智能技術(shù),在某些時(shí)刻只是對(duì)政治與資本操控的一種掩飾。
利益集團(tuán)通常利用人們對(duì)技術(shù)客觀性的信任創(chuàng)造“偽公平”的神話,這種隱蔽的操控使人們無(wú)法察覺(jué)也無(wú)力反抗?;ヂ?lián)網(wǎng)時(shí)代的商業(yè)資本遵循流量邏輯,利用智能技術(shù)與熱點(diǎn)事件創(chuàng)造流量、增加用戶(hù),是商業(yè)資本與媒體平臺(tái)的共謀。2018年,為慶祝IG戰(zhàn)隊(duì)在英雄聯(lián)盟全球總決賽中首次奪冠,王思聰在新浪微博設(shè)立113萬(wàn)獎(jiǎng)金進(jìn)行抽獎(jiǎng)。參與抽獎(jiǎng)活動(dòng)的男女比例為1∶1.2,然而,在最終獲獎(jiǎng)的113人中,只有1名男性用戶(hù),獲獎(jiǎng)男女比例為1∶112。獲獎(jiǎng)用戶(hù)多為擁有較強(qiáng)的購(gòu)買(mǎi)力和消費(fèi)潛力的80后與90后女性。微博算法歧視男性用戶(hù),重視女性用戶(hù),根本原因在于青年女性是微博平臺(tái)的黏性用戶(hù),擁有較高的市場(chǎng)價(jià)值,符合新浪微博及其背后廣告主的利益期待。因此,新浪微博不惜修改算法規(guī)則來(lái)回饋核心用戶(hù),提升用戶(hù)黏度與平臺(tái)流量,實(shí)現(xiàn)資本利益的最大化。智能技術(shù)是人類(lèi)的工具,使用者的價(jià)值立場(chǎng)直接決定了技術(shù)的立場(chǎng)。
政治內(nèi)嵌與資本操縱是算法背后強(qiáng)大的操控力量,共同完成了對(duì)算法技術(shù)的塑造。持有偏見(jiàn)的決策者利用算法技術(shù)掩蓋他們的真實(shí)意圖,為傳統(tǒng)形式的偏見(jiàn)注入新的活力。在智能算法“客觀、中立、準(zhǔn)確”的光環(huán)下,意識(shí)形態(tài)內(nèi)嵌成為技術(shù)政治的工具。
新技術(shù)的誕生必然會(huì)攜帶人類(lèi)社會(huì)的基因,它嵌入了也被嵌入在社會(huì)形態(tài)、規(guī)范標(biāo)準(zhǔn)、言論主張等所有我們稱(chēng)之為構(gòu)建了人類(lèi)社會(huì)的元素中。在這些元素中,人類(lèi)社會(huì)的結(jié)構(gòu)性偏見(jiàn)可能嵌入算法實(shí)踐:一是原始數(shù)據(jù)的采集與數(shù)據(jù)庫(kù)的建立受到人類(lèi)偏見(jiàn)的干擾,二是算法程序設(shè)計(jì)中人類(lèi)偏見(jiàn)的滲透,三是算法與用戶(hù)互動(dòng)時(shí)習(xí)得人類(lèi)偏見(jiàn)。原始數(shù)據(jù)、算法編程與人機(jī)互動(dòng)繼承并強(qiáng)化人類(lèi)社會(huì)的原始偏見(jiàn),最終導(dǎo)致社會(huì)偏見(jiàn)經(jīng)過(guò)算法程序無(wú)限循環(huán)。
1.原始數(shù)據(jù)庫(kù)的偏見(jiàn)復(fù)制
用于訓(xùn)練、學(xué)習(xí)和數(shù)據(jù)挖掘的原始數(shù)據(jù)是算法程序中的基石,其客觀與中立程度直接影響算法的決策結(jié)果。在算法程序中,數(shù)據(jù)樣本邊緣化某些群體或者隱含社會(huì)偏見(jiàn),導(dǎo)致樣本不全或數(shù)據(jù)庫(kù)污染,將會(huì)無(wú)限循環(huán)與強(qiáng)化社會(huì)的結(jié)構(gòu)性偏見(jiàn)。
首先,數(shù)據(jù)對(duì)某些群體的邊緣化導(dǎo)致智能算法的“選擇性失明”。數(shù)據(jù)對(duì)社會(huì)公共生活的塑造是顯著的,然而并不是所有的人都有機(jī)會(huì)成為數(shù)據(jù)的主體。由于貧困,生活方式或者地理位置,生活在大數(shù)據(jù)邊緣的人總會(huì)被非隨機(jī)的、系統(tǒng)性的遺漏,他們的生活比一般人群更少“數(shù)據(jù)化”。谷歌的圖像識(shí)別訓(xùn)練數(shù)據(jù)庫(kù)ImageNet中,有近四分之三的圖像來(lái)自歐美國(guó)家,而占世界人口三分之一的中國(guó)和印度,在ImageNet里的數(shù)據(jù)量加起來(lái)只有百分之三。這就導(dǎo)致ImageNet訓(xùn)練的智能算法在識(shí)別第三世界圖像時(shí),總會(huì)“選擇性失明”。數(shù)據(jù)邊緣的群體常常在社會(huì)公共生活中已經(jīng)處于劣勢(shì),無(wú)法分享技術(shù)革新的紅利,當(dāng)社會(huì)的政治、經(jīng)濟(jì)和文化決策越來(lái)越依賴(lài)數(shù)據(jù)和算法的分析,這些“被遺忘的數(shù)據(jù)主體”就會(huì)因此而失去社會(huì)流動(dòng)、經(jīng)濟(jì)機(jī)會(huì)甚至政治平等的權(quán)利。大數(shù)據(jù)和智能算法通過(guò)看似公平的計(jì)算程序加劇了現(xiàn)代生活的不平等,某些數(shù)據(jù)的被遺忘,必然扭曲樣本數(shù)據(jù)和算法分析的結(jié)果,加劇了智能算法的偏見(jiàn)循環(huán)。
其次,原始數(shù)據(jù)庫(kù)中的結(jié)構(gòu)性偏見(jiàn)會(huì)導(dǎo)致智能算法的偏見(jiàn)復(fù)制。算法的原始數(shù)據(jù)來(lái)自人類(lèi)社會(huì),必然會(huì)隱含人類(lèi)社會(huì)的意識(shí)形態(tài)。研究者通過(guò)AI程序識(shí)別一組照片,發(fā)現(xiàn)凡是照片中系著圍裙在廚房做飯的人物,不論男女都被識(shí)別為女性。而造成AI失誤的原因在于,訓(xùn)練AI進(jìn)行圖像識(shí)別的數(shù)據(jù)庫(kù)中有百分之九十的圖片都把女性和廚房聯(lián)系在一起,AI通過(guò)這樣的數(shù)據(jù)庫(kù)學(xué)習(xí)、訓(xùn)練,自然會(huì)在圖像識(shí)別中重現(xiàn)這樣的偏見(jiàn)。由此可見(jiàn),要從現(xiàn)實(shí)世界中挖掘、分析數(shù)據(jù)與信息,算法技術(shù)不可避免地會(huì)復(fù)制現(xiàn)實(shí)世界原始數(shù)據(jù)庫(kù)中的結(jié)構(gòu)性偏見(jiàn),繼而影響算法的運(yùn)行及結(jié)果。
2.程序設(shè)計(jì)中的偏見(jiàn)循環(huán)
算法程序無(wú)法“有意識(shí)”地抵制社會(huì)偏見(jiàn),根本原因在于算法模型設(shè)計(jì)的每一步都很難獨(dú)立于程序員的控制。算法進(jìn)行數(shù)據(jù)挖掘的步驟包括:定義“目標(biāo)變量”和“類(lèi)標(biāo)簽”、標(biāo)記和收集訓(xùn)練數(shù)據(jù)、使用特征選擇,并根據(jù)結(jié)果模型做出決策。目標(biāo)變量的定義和數(shù)據(jù)標(biāo)簽的分類(lèi)決定了什么數(shù)據(jù)會(huì)被計(jì)算機(jī)挖掘,標(biāo)記和收集訓(xùn)練數(shù)據(jù)能夠讓機(jī)器學(xué)習(xí)要抓取的數(shù)據(jù)特征,而這些標(biāo)準(zhǔn)的預(yù)設(shè)與模型的建構(gòu),都取決于操作者。
首先,在算法進(jìn)行數(shù)據(jù)挖掘之前,人類(lèi)程序員需要理解數(shù)據(jù)挖掘的目標(biāo),并將目標(biāo)任務(wù)轉(zhuǎn)換為能夠被計(jì)算機(jī)識(shí)別的話語(yǔ)體系,話語(yǔ)轉(zhuǎn)換具有較強(qiáng)的主觀性,人類(lèi)程序員可能在無(wú)意識(shí)中將個(gè)人主觀偏見(jiàn)代入程序;其次,算法要根據(jù)程序員預(yù)設(shè)的目標(biāo)變量和分類(lèi)標(biāo)簽進(jìn)行數(shù)據(jù)挖掘,目標(biāo)變量及其權(quán)重的設(shè)定對(duì)算法模型的科學(xué)程度具有影響。例如,要判斷用戶(hù)對(duì)信息的興趣程度,算法就要依據(jù)程序設(shè)計(jì)者預(yù)設(shè)的類(lèi)別標(biāo)簽(用戶(hù)性別、點(diǎn)擊頻度、頁(yè)面停留時(shí)長(zhǎng)等)及其權(quán)重抓取數(shù)據(jù),變量與標(biāo)簽的設(shè)定具有較強(qiáng)的主觀性,不同的規(guī)則和權(quán)重會(huì)使算法得出不同的結(jié)果。在新浪微博的王思聰抽獎(jiǎng)活動(dòng)中,平臺(tái)人為降低了“不發(fā)原創(chuàng)微博” “不發(fā)圖片”等特征的用戶(hù)的權(quán)重,對(duì)算法的變量與權(quán)重的主觀調(diào)整就導(dǎo)致了具有偏見(jiàn)的結(jié)果產(chǎn)生。
3.人機(jī)互動(dòng)的偏見(jiàn)習(xí)得
人工道德智能體(Artificial Moral Agents,簡(jiǎn)稱(chēng)AMAs)的研究發(fā)現(xiàn),機(jī)器學(xué)習(xí)人類(lèi)語(yǔ)言能力的過(guò)程,也是深度吸取隱含其中的種種偏見(jiàn)的過(guò)程。完備的機(jī)器道德智能體仍未誕生,現(xiàn)有的機(jī)器也無(wú)法做到對(duì)偏見(jiàn)的“有意識(shí)的抵制”。Twitter的微軟聊天機(jī)器人Tay在上線與用戶(hù)交流不到一天后就被緊急下線,因?yàn)樵谂c人類(lèi)聊天的過(guò)程中,Tay被教成了一個(gè)口吐臟話、集性別歧視、種族歧視于一身的極端分子。現(xiàn)有的人工智能機(jī)器尚不具備自動(dòng)識(shí)別并抵制人類(lèi)偏見(jiàn)的能力,因此,在人機(jī)互動(dòng)的過(guò)程中,機(jī)器會(huì)無(wú)意識(shí)且不加選擇地習(xí)得人類(lèi)的一切倫理與喜好。搜索引擎利用算法開(kāi)發(fā)“自動(dòng)完成”(Auto-Complete)的功能,即用戶(hù)在搜索框輸入關(guān)鍵詞后,根據(jù)詞條的歷史搜索量為用戶(hù)自動(dòng)顯示或補(bǔ)全相關(guān)文本,其初衷是為用戶(hù)縮減在線搜索的時(shí)間成本。但是,歷史搜索中的關(guān)鍵詞文本所隱含的偏見(jiàn)極易影響算法的客觀判斷和用戶(hù)的認(rèn)知。2012年9月,德國(guó)前第一夫人貝蒂娜·沃爾夫起訴Google,因?yàn)镚oogle搜索引擎“自動(dòng)完成”的搜索結(jié)果把她的名字跟“妓女”“伴游女郎”放在一起。Google被勒令修改其搜索引擎的“自動(dòng)完成”結(jié)果。搜索引擎之所以會(huì)自動(dòng)呈現(xiàn)這一具有嚴(yán)重偏見(jiàn)的結(jié)果,與Craigslist和亞馬遜土耳其機(jī)器人招募的水軍所制造的搜索量有很大關(guān)系。因此,算法與社會(huì)的互動(dòng)在無(wú)形中增加了其繼承人類(lèi)偏見(jiàn)的風(fēng)險(xiǎn),而當(dāng)人類(lèi)惡意的利用算法制造偏見(jiàn)時(shí),算法更是毫無(wú)抵抗能力。原始數(shù)據(jù)庫(kù)的“污染”、人機(jī)互動(dòng)及程序設(shè)計(jì)中人類(lèi)主觀因素影響,導(dǎo)致社會(huì)偏見(jiàn)在算法實(shí)踐中重現(xiàn)。與算法干預(yù)不同的是,由社會(huì)偏見(jiàn)衍生的算法偏見(jiàn)難以察覺(jué)且不易避免。
數(shù)據(jù)表征并粉飾生活世界,使日常生活具有普遍的可量化性。然而,數(shù)學(xué)邏輯忽視了現(xiàn)實(shí)世界及生活在其中的主體無(wú)法加以計(jì)算的不確定性和特殊性,計(jì)算機(jī)指令無(wú)法對(duì)有機(jī)世界的永恒變化作出定性反應(yīng)。因此,在對(duì)經(jīng)驗(yàn)世界的理想化建構(gòu)中,必然會(huì)有部分事實(shí)和真相被遮蔽。算法依靠數(shù)據(jù)形成對(duì)用戶(hù)偏好和信息價(jià)值的預(yù)判,在一定程度上能夠使信息的傳播更加精準(zhǔn)高效。但是,數(shù)據(jù)建構(gòu)的觀念世界與經(jīng)驗(yàn)世界的差距,會(huì)導(dǎo)致推薦算法對(duì)信息和用戶(hù)的片面認(rèn)知,繼而在個(gè)性化推薦過(guò)程中出現(xiàn)偏見(jiàn)與失誤。
算法利用系統(tǒng)收集的數(shù)據(jù)對(duì)用戶(hù)興趣和信息價(jià)值進(jìn)行量化,在個(gè)性化推薦環(huán)節(jié)中根據(jù)量化計(jì)算形成的認(rèn)知為用戶(hù)推薦信息。算法推薦一般遵循三種規(guī)則:“基于內(nèi)容的過(guò)濾”“協(xié)同過(guò)濾”、基于“單因子”的推薦。算法個(gè)性化推薦的實(shí)踐中,數(shù)據(jù)測(cè)量的不科學(xué),會(huì)影響算法全面客觀的認(rèn)知用戶(hù)和信息推薦的精準(zhǔn)度。
1.“社交手勢(shì)”對(duì)用戶(hù)行為與情感的簡(jiǎn)化
算法利用“社交手勢(shì)”(social gestures)推斷用戶(hù)情感傾向與價(jià)值立場(chǎng),會(huì)對(duì)用戶(hù)信息偏好產(chǎn)生認(rèn)知偏見(jiàn)?;凇皟?nèi)容過(guò)濾”推薦的算法機(jī)制,通過(guò)捕獲用戶(hù)的“社交手勢(shì)”(查詢(xún)歷史、搜索內(nèi)容、點(diǎn)贊、收藏、轉(zhuǎn)發(fā)、評(píng)論等)來(lái)判斷用戶(hù)的信息偏好(Bozdag E.,2013)。然而,用戶(hù)的社交手勢(shì)充滿(mǎn)隨機(jī)性與偶然性,其背后的真實(shí)情感與價(jià)值立場(chǎng)無(wú)法被算法捕獲。用戶(hù)搜索或轉(zhuǎn)發(fā)某部電影信息可能是出于好奇,可能是希望進(jìn)一步接受這類(lèi)電影信息的推薦,但也可能是為了表達(dá)批判的觀點(diǎn),或者僅僅是一場(chǎng)社交展演。用戶(hù)在新媒體中的信息行為和動(dòng)機(jī)往往是豐富且復(fù)雜的,這些社交手勢(shì)將復(fù)雜的人類(lèi)行為和情感簡(jiǎn)化為單一的維度,過(guò)高地估計(jì)了機(jī)器與數(shù)字對(duì)人類(lèi)感情的量化能力。因此,算法通過(guò)跟蹤用戶(hù)的社交手勢(shì)來(lái)繪制用戶(hù)畫(huà)像,判斷用戶(hù)對(duì)某類(lèi)信息的興趣程度,是片面和武斷的,必然會(huì)造成對(duì)用戶(hù)的認(rèn)知偏見(jiàn)以及信息個(gè)性化推薦的偏差。
2.信息熱度的測(cè)量對(duì)“偽數(shù)據(jù)”的遮蔽
算法忽略信息熱度中的偽數(shù)據(jù),會(huì)對(duì)信息推薦價(jià)值的評(píng)估產(chǎn)生偏見(jiàn)。在同一監(jiān)測(cè)時(shí)段內(nèi),點(diǎn)擊率、轉(zhuǎn)發(fā)量高的信息,一般會(huì)被算法列為話題趨勢(shì)榜首或優(yōu)先推送給用戶(hù)。而以點(diǎn)擊率、點(diǎn)贊量和轉(zhuǎn)發(fā)量等作為測(cè)量信息熱度的指標(biāo)是不科學(xué)的。數(shù)字營(yíng)銷(xiāo)公司能夠通過(guò)購(gòu)買(mǎi)“粉絲”“贊”等人為操縱信息的熱度和流量。在YouTube上要捧紅一個(gè)視頻,公關(guān)公司只需花錢(qián)在短時(shí)間內(nèi)維持視頻的人氣,YouTube就會(huì)自動(dòng)向用戶(hù)推薦這個(gè)視頻,造成彌母(meme)自主傳播的印象。更嚴(yán)重的是,算法被虛假流量欺騙,在信息推薦機(jī)制中為用戶(hù)設(shè)置議程,再次提升“熱門(mén)信息”的人氣,而“冷門(mén)信息”無(wú)人問(wèn)津,導(dǎo)致信息的偏見(jiàn)無(wú)限循環(huán)。
智能算法對(duì)客觀世界的量化計(jì)算,看似使人類(lèi)掌握了籌劃現(xiàn)實(shí)生活的預(yù)期規(guī)律,實(shí)則遮蔽了復(fù)雜的人性與物性。智能技術(shù)為人類(lèi)帶來(lái)的數(shù)字風(fēng)險(xiǎn)是巨大且未知的,人們亟需對(duì)智能算法的數(shù)字實(shí)踐進(jìn)行反思。
算法主導(dǎo)的信息傳播機(jī)制逐漸嵌入人們的日常生活,控制著媒介的內(nèi)容生產(chǎn)與用戶(hù)的信息消費(fèi)行為。斯科特·拉什(Scott Lash,2007)指出:“在一個(gè)媒體和代碼無(wú)處不在的社會(huì),權(quán)力越來(lái)越存在于算法之中?!彼惴ㄆ?jiàn)的治理已經(jīng)成為數(shù)字化社會(huì)中無(wú)法回避的顯性議題。南?!じダ诐烧J(rèn)為正義即參與平等,算法正義意味著從數(shù)據(jù)輸入到結(jié)果輸出,算法程序的每個(gè)環(huán)節(jié)都要體現(xiàn)參與平等,為“最大多數(shù)人”提供“最多的善”,才能最大程度地避免偏見(jiàn)的結(jié)果產(chǎn)生。歐盟的規(guī)制秉持“以人為本”的歐洲傳統(tǒng),警惕人工智能技術(shù)應(yīng)用的風(fēng)險(xiǎn)后果,強(qiáng)調(diào)人工智能發(fā)展的“向善”導(dǎo)向以造福個(gè)人和社會(huì)。與此同時(shí),人們應(yīng)意識(shí)到算法偏見(jiàn)的成因是多樣的,缺乏單一的來(lái)源或解決方案。因此,要充分考慮到算法技術(shù)作為一種社會(huì)化信息技術(shù)的本質(zhì),遵循去技術(shù)中心化的理念,從多維度出發(fā),嘗試建構(gòu)對(duì)人類(lèi)負(fù)責(zé)的正義的算法機(jī)制。
數(shù)據(jù)是算法運(yùn)行的基礎(chǔ),非正義的原始數(shù)據(jù)會(huì)導(dǎo)致算法偏見(jiàn)的無(wú)限循環(huán),因此,數(shù)據(jù)公正是保障算法正義的基本原則。數(shù)據(jù)公正指人們因數(shù)字?jǐn)?shù)據(jù)的生成而變得可見(jiàn)、被表現(xiàn)和被對(duì)待的方式的公平性。
算法的“選擇性失明”會(huì)導(dǎo)致數(shù)據(jù)邊緣群體喪失社會(huì)流動(dòng)、經(jīng)濟(jì)機(jī)會(huì)甚至政治平等的權(quán)利。理查德·赫克斯(Heeks,2016)等研究者依據(jù)《世界人權(quán)宣言》的準(zhǔn)則,提出數(shù)據(jù)所有權(quán)、獲取權(quán)和代表權(quán)是公平和正義的根本。因此,他們關(guān)注如何利用數(shù)據(jù)技術(shù),提升邊緣群體可見(jiàn)度,從而實(shí)現(xiàn)社會(huì)分配的正義。
不過(guò),數(shù)據(jù)公正不僅要考慮數(shù)據(jù)主體的可見(jiàn)性,還要考慮數(shù)據(jù)主體具有不被看到的自由。林內(nèi)特·泰勒將積極的權(quán)利與消極的自由結(jié)合,提出數(shù)據(jù)公正的三原則(見(jiàn)圖1):(不)可見(jiàn),意味著人們應(yīng)同時(shí)擁有平等的數(shù)據(jù)代表權(quán)和信息隱私權(quán),數(shù)據(jù)主體有權(quán)決定是否允許個(gè)人數(shù)據(jù)被算法采納;(不)參與,在推動(dòng)平等的數(shù)字技術(shù)接觸權(quán)利的同時(shí),要保證人們拒絕使用數(shù)字技術(shù)的自由;反歧視,指識(shí)別和挑戰(zhàn)數(shù)據(jù)驅(qū)動(dòng)的技術(shù)偏見(jiàn)的能力,以及不受數(shù)據(jù)歧視的自由。因此,數(shù)據(jù)公正的核心問(wèn)題是平衡和整合人們被看見(jiàn)和被代表的需求,以及對(duì)自主性和完整性的需求之間的關(guān)系。
圖1 數(shù)據(jù)公正原則框架
從根本上講,只有徹底消除了人類(lèi)社會(huì)的結(jié)構(gòu)性偏見(jiàn),才能真正實(shí)現(xiàn)數(shù)據(jù)平等。因此,數(shù)據(jù)公正看似是一個(gè)理想化的矛盾概念,其實(shí)不然。數(shù)據(jù)公正作為技術(shù)偏見(jiàn)的實(shí)質(zhì)性治理路徑,它促使人們認(rèn)真審視數(shù)據(jù)化社會(huì)中復(fù)雜的權(quán)力關(guān)系,思考數(shù)據(jù)驅(qū)動(dòng)技術(shù)的安全性、自主性、公平性和可持續(xù)性等概念的問(wèn)題。在信息技術(shù)采納與數(shù)據(jù)分析全球化的環(huán)境中,將數(shù)據(jù)公正的框架納入算法偏見(jiàn)治理的討論,審視并修正不公正的數(shù)據(jù)采納可能引發(fā)的社會(huì)技術(shù)風(fēng)險(xiǎn),是構(gòu)建公平負(fù)責(zé)的算法機(jī)制、推動(dòng)人類(lèi)社會(huì)技術(shù)正義的起點(diǎn)。
2.算法透明:建構(gòu)平臺(tái)與用戶(hù)的平衡關(guān)系
納塔利·赫爾伯格(Natali Helberger,2016)倡導(dǎo)一種“公平媒體實(shí)踐”(Fair Media Practices),主張建構(gòu)媒體和用戶(hù)之間的平衡關(guān)系。提升算法透明度能夠有效減少媒體和用戶(hù)之間的信息不對(duì)稱(chēng),構(gòu)建媒體與用戶(hù)的平衡關(guān)系。
透明度是新聞倫理學(xué)的核心價(jià)值,被稱(chēng)為“新的客觀性”,是發(fā)現(xiàn)社會(huì)真理的重要途徑。提升透明度意味著媒體要向公眾開(kāi)放信息生產(chǎn)制作的過(guò)程。將透明度應(yīng)用于算法新聞,就是公開(kāi)智能算法程序設(shè)計(jì)以及如何與數(shù)據(jù)進(jìn)行交互的背景信息并使之具有可解釋性,減少媒體與用戶(hù)之間的信息不對(duì)稱(chēng),在自我與公眾的雙重監(jiān)督下保證算法決策的客觀中立。
算法不僅關(guān)涉商業(yè)機(jī)密,還具有極強(qiáng)的專(zhuān)業(yè)性。這些特性必然會(huì)影響算法透明度。對(duì)于許多互聯(lián)網(wǎng)公司來(lái)說(shuō),算法的運(yùn)行機(jī)制涉及企業(yè)機(jī)密,算法透明就意味著要在一定程度上公開(kāi)其技術(shù)系統(tǒng)中的運(yùn)作細(xì)節(jié),損害企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)和商業(yè)利益。此外,算法技術(shù)專(zhuān)業(yè)性較強(qiáng),普通用戶(hù)難以理解算法決策機(jī)制的技術(shù)細(xì)節(jié)。平衡公眾認(rèn)知能力、平臺(tái)的商業(yè)隱私與公共利益的關(guān)系,是制定算法透明度準(zhǔn)則的關(guān)鍵。涵蓋“優(yōu)先級(jí)、分類(lèi)、關(guān)聯(lián)、過(guò)濾”(Diakopoulos N.,2015)的算法能力框架,為算法透明和信息公開(kāi)提供了參照:
1.公開(kāi)信息優(yōu)先級(jí)的準(zhǔn)則
公開(kāi)信息優(yōu)先級(jí)排序的標(biāo)準(zhǔn)或價(jià)值要素,以及每種價(jià)值要素所占的比重,充分說(shuō)明算法排序的結(jié)果的合理性。公眾要檢驗(yàn)這些準(zhǔn)則或價(jià)值要素是否天然具有偏見(jiàn),是否與公共利益相悖,以及平臺(tái)在具體的新聞實(shí)踐中是否嚴(yán)格遵循這些準(zhǔn)則與價(jià)值要素。
2.公開(kāi)用戶(hù)生成畫(huà)像的要素及標(biāo)簽
首先,在收集用戶(hù)信息前應(yīng)獲得數(shù)據(jù)主體的許可;其次,要向用戶(hù)公開(kāi)生成畫(huà)像的要素及標(biāo)簽,使用戶(hù)知曉自己的興趣屬性和身份標(biāo)簽;最后,當(dāng)算法對(duì)用戶(hù)的認(rèn)知產(chǎn)生偏見(jiàn),要給予用戶(hù)及時(shí)修正偏見(jiàn)的權(quán)利。
3.公開(kāi)關(guān)聯(lián)的閾值
關(guān)聯(lián)用戶(hù)與用戶(hù)、用戶(hù)與信息時(shí),要設(shè)立并公開(kāi)一個(gè)閾值。當(dāng)用戶(hù)之間的相似度、用戶(hù)對(duì)某類(lèi)信息的興趣度達(dá)到規(guī)定閾值后,算法才能為二者建立聯(lián)系。此外,閾值的公開(kāi)能夠使用戶(hù)自己掌控與其他用戶(hù)、信息的關(guān)聯(lián)程度。
平臺(tái)算法透明度的提升,能夠使用戶(hù)監(jiān)督和檢驗(yàn)算法新聞的運(yùn)作過(guò)程,建構(gòu)用戶(hù)與智能媒體之間的平衡關(guān)系。算法透明的維度和效果,仍需在實(shí)踐中不斷的檢驗(yàn)與修正。
算法的運(yùn)行機(jī)制非常復(fù)雜且具有較強(qiáng)的技術(shù)性。僅僅依靠平臺(tái)自律性地公開(kāi)數(shù)據(jù)與信息,仍無(wú)法避免算法偏見(jiàn)以更隱蔽的方式出現(xiàn)。因此,對(duì)平臺(tái)和算法的法律監(jiān)督、調(diào)查和問(wèn)責(zé),是規(guī)避風(fēng)險(xiǎn)的重要措施。
在世界范圍內(nèi),不少?lài)?guó)家已逐漸開(kāi)始意識(shí)到算法技術(shù)安全與數(shù)據(jù)安全保護(hù)的重要性與緊迫性,并展開(kāi)一系列立法實(shí)踐。2018年正式生效的《歐洲聯(lián)盟通用數(shù)據(jù)條例》(GDPR)明確規(guī)定,算法的功能須具有可理解性。算法對(duì)個(gè)人數(shù)據(jù)的收集與使用,尤其是使用技術(shù)形成畫(huà)像必須要獲得數(shù)據(jù)主體的同意。GDPR將數(shù)據(jù)隱私作為一項(xiàng)基本人權(quán),并已成為其他國(guó)家的典范。2017年美國(guó)計(jì)算機(jī)協(xié)會(huì)公共政策委員會(huì)(USACM)制定了一套算法透明的七大責(zé)任原則:意識(shí)原則、準(zhǔn)入和補(bǔ)救原則、問(wèn)責(zé)原則、透明原則、數(shù)據(jù)來(lái)源原則、可審計(jì)原則、驗(yàn)證和測(cè)試原則(Donghee Shin,2019)。我國(guó)《電子商務(wù)法》雖然規(guī)定消費(fèi)者具有算法的選擇權(quán),但沒(méi)有強(qiáng)制規(guī)定算法透明與信息公開(kāi)。
在具體的立法實(shí)踐中,首先,要明確提出平臺(tái)數(shù)據(jù)主體的信息安全問(wèn)題。平臺(tái)算法要同時(shí)兼顧數(shù)據(jù)主體的可見(jiàn)性與主體性,并促進(jìn)平臺(tái)“去身份識(shí)別”技術(shù)的發(fā)展,平衡身份再識(shí)別風(fēng)險(xiǎn)與社會(huì)效益之間的關(guān)系。其次,要對(duì)算法透明度的提升維度和標(biāo)準(zhǔn)作出明確的規(guī)定并建立相應(yīng)的問(wèn)責(zé)機(jī)制。再次,要明確規(guī)定平臺(tái)算法排序的價(jià)值要素不能與公共利益相悖,嚴(yán)格限制人為的算法操縱。最后,平臺(tái)需要優(yōu)先顯示贊助商的信息時(shí),應(yīng)主動(dòng)公開(kāi)標(biāo)注廣告,避免誤導(dǎo)用戶(hù)的認(rèn)知。
智能媒體的算法實(shí)踐深刻影響著現(xiàn)代社會(huì)的信息流動(dòng)。算法正義原則旨在塑造公平、透明、負(fù)責(zé)的算法系統(tǒng),倡導(dǎo)媒體利用算法技術(shù)生產(chǎn)優(yōu)質(zhì)多元的信息,客觀真實(shí)地呈現(xiàn)事實(shí)真相,激發(fā)人們的理性思辨,最終導(dǎo)向人類(lèi)的美好生活。算法偏見(jiàn)的揭示與治理是解構(gòu)智能傳播的算法神話、強(qiáng)化技術(shù)社會(huì)中用戶(hù)的主體性與信息產(chǎn)品的公共性、規(guī)避技術(shù)倫理風(fēng)險(xiǎn)的有效路徑。
注釋:
① DeVito,Michael A.(2017)FromEditorstoAlgorithms.Digital Journalism.5(6):p.756.
② Matt Carlson.(2017)AutomatingJudgment?AlgorithmicJudgment,NewsKnowledge,andJournalisticProfessionalism.New Media & Society,20(5),p.1757.
③ 張超:《作為中介的算法:新聞生產(chǎn)中的算法偏見(jiàn)與應(yīng)對(duì)》,《中國(guó)出版》,2018年第1期。
④ Matt Carlson.(2019)NewsAlgorithms,PhotojournalismandtheAssumptionofMechanicalObjectivityinJournalism.Digital Journalism.Published online:https://doi.org/10.1080/21670811.2019.1601577.
⑤ [加]文森特·莫斯可:《云端:動(dòng)蕩世界中的大數(shù)據(jù)》,楊睿、陳如歌譯,中國(guó)人民大學(xué)出版社2017年版,第200頁(yè)。
⑦ 吳飛:《媒介技術(shù)演進(jìn)脈絡(luò)的哲學(xué)考察》,《新聞?dòng)浾摺?2018年第12期。
⑧ [德]海德格爾:《林中路》,孫周興譯,上海譯文出版社2014年版,第281-293頁(yè)。
⑨ [英]貝斯黑萊姆:《偏見(jiàn)心理學(xué)》,鄒海燕、鄭佳明譯,湖南人民出版社1989年版,第7頁(yè)。
⑩ 郭小平、李曉:《流動(dòng)社會(huì)的智能新媒介、移動(dòng)連接與個(gè)人隱私》,《現(xiàn)代傳播》,2018年第10期。