孟小峰,王雷霞,劉俊旭
中國(guó)人民大學(xué)信息學(xué)院,北京 100872
隨著人工智能技術(shù)的快速發(fā)展及其在金融、交通、商業(yè)、醫(yī)療等領(lǐng)域的廣泛應(yīng)用,大數(shù)據(jù)中蘊(yùn)含的價(jià)值不斷被開(kāi)發(fā),產(chǎn)生了巨大的經(jīng)濟(jì)效益和社會(huì)效益。大數(shù)據(jù)逐漸改變著人們的生活生產(chǎn)方式。但與此同時(shí),人們對(duì)大數(shù)據(jù)決策產(chǎn)生深度依賴,對(duì)自身數(shù)據(jù)失去掌控權(quán),數(shù)據(jù)生態(tài)中的倫理問(wèn)題愈演愈烈,用戶數(shù)據(jù)的濫用問(wèn)題、隱私泄露問(wèn)題、數(shù)據(jù)壟斷問(wèn)題、決策公平問(wèn)題層出不窮。2018年3月曝出的“Facebook 劍橋分析事件”在未經(jīng)用戶授權(quán)的情況下收集用戶信息,并企圖影響2016年的美國(guó)總統(tǒng)大選,造成了用戶數(shù)據(jù)濫用和隱私泄露。2017年11月,美國(guó)國(guó)防部由于服務(wù)器配置錯(cuò)誤,意外暴露了18億條用戶社交數(shù)據(jù),該事件揭露了用戶隱私數(shù)據(jù)被收集和泄露的現(xiàn)狀。2017年的順豐與菜鳥(niǎo)關(guān)于豐巢數(shù)據(jù)之爭(zhēng)、華為與騰訊關(guān)于微信數(shù)據(jù)之爭(zhēng)均為“數(shù)據(jù)壟斷”背景下的用戶數(shù)據(jù)爭(zhēng)奪現(xiàn)象。2015年,Google公司的人臉識(shí)別將黑人識(shí)別為大猩猩,造成“種族歧視”,暴露出了機(jī)器學(xué)習(xí)中的不公平問(wèn)題。這些接踵而至的倫理問(wèn)題,一方面使用戶遭受了隱私威脅與非公平對(duì)待,另一方面引爆了用戶與企業(yè)間的信任危機(jī),致使自動(dòng)駕駛、醫(yī)療健康預(yù)測(cè)等敏感領(lǐng)域的技術(shù)難以落地,從而限制了人工智能技術(shù)的發(fā)展。
愈演愈烈的數(shù)據(jù)倫理問(wèn)題正在引起社會(huì)各界的廣泛關(guān)注。學(xué)術(shù)界有關(guān)數(shù)據(jù)隱私、數(shù)據(jù)壟斷、決策公平問(wèn)題的學(xué)術(shù)爭(zhēng)鳴不斷涌現(xiàn)[1-2]。工業(yè)界中,Google公司CEO桑達(dá)爾·皮查伊在2019年6月17日接受美國(guó)有線電視新聞網(wǎng)專訪時(shí)曾表明,首席道德官(chief ethics officer)應(yīng)為CEO(chief executive officer)的另一含義,其對(duì)數(shù)據(jù)倫理等問(wèn)題的關(guān)注程度可見(jiàn)一斑。2019年5月28日,中國(guó)國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)》,討論當(dāng)前隱私數(shù)據(jù)收集、處理及使用的辦法。
從用戶的角度考慮,人們作為數(shù)據(jù)的擁有者、大數(shù)據(jù)技術(shù)的使用者,在面對(duì)上述問(wèn)題時(shí),是否只能束手無(wú)策?還是選擇將數(shù)據(jù)牢牢攥在手中,拒絕人工智能等技術(shù)的應(yīng)用?事實(shí)上,挖掘數(shù)據(jù)價(jià)值與尊崇人類倫理并不是對(duì)立的問(wèn)題,它們同時(shí)存在于人工智能時(shí)代的數(shù)據(jù)生態(tài)中,相互影響,相互制約,并將最終達(dá)到動(dòng)態(tài)平衡的狀態(tài)。
當(dāng)前數(shù)據(jù)生態(tài)中的倫理問(wèn)題根據(jù)其本質(zhì),可分為兩類問(wèn)題,分別是數(shù)據(jù)倫理問(wèn)題和算法倫理問(wèn)題。數(shù)據(jù)倫理問(wèn)題是指在數(shù)據(jù)收集使用過(guò)程中產(chǎn)生的倫理問(wèn)題,主要表現(xiàn)在隱私問(wèn)題和壟斷問(wèn)題;算法倫理問(wèn)題是指在算法決策過(guò)程中產(chǎn)生的倫理問(wèn)題,主要表現(xiàn)在公平問(wèn)題。因而,本文主要針對(duì)隱私、壟斷和公平這3個(gè)代表性問(wèn)題展開(kāi)討論,探討當(dāng)前倫理問(wèn)題的本質(zhì)。本文首先從數(shù)據(jù)發(fā)展的角度出發(fā),探索這3個(gè)問(wèn)題產(chǎn)生的特有數(shù)據(jù)環(huán)境,分析其獨(dú)特性及不同問(wèn)題之間的關(guān)聯(lián)。之后,本文對(duì)這3個(gè)問(wèn)題進(jìn)一步詳細(xì)探討,分析其現(xiàn)狀與挑戰(zhàn),并提出當(dāng)前這些倫理問(wèn)題產(chǎn)生的本質(zhì)是數(shù)據(jù)獲取、使用以及決策的不透明性,構(gòu)建數(shù)據(jù)透明體系是解決當(dāng)前隱私、壟斷與公平問(wèn)題的根本途徑。
與此同時(shí),本文提出當(dāng)前的倫理問(wèn)題應(yīng)是一個(gè)“大隱私觀”的問(wèn)題。未來(lái)數(shù)據(jù)的發(fā)展帶來(lái)的隱私問(wèn)題不是現(xiàn)在關(guān)注的“小隱私”問(wèn)題,即不能僅通過(guò)擾動(dòng)、匿名、差分等技術(shù)實(shí)現(xiàn)保護(hù),它是在數(shù)據(jù)收集使用場(chǎng)景下保證數(shù)據(jù)正確應(yīng)用、算法正確決策的問(wèn)題,涉及隱私、壟斷、公平等倫理問(wèn)題。相比狹義隱私問(wèn)題,“大隱私”問(wèn)題涵蓋內(nèi)容更廣,戰(zhàn)線更長(zhǎng),需要研究者們跳出當(dāng)前的思維定式,探索其本質(zhì)與解決方案。
在數(shù)據(jù)發(fā)展的過(guò)程中,數(shù)據(jù)的產(chǎn)生方式及特征不斷發(fā)生變化,對(duì)科學(xué)技術(shù)及社會(huì)產(chǎn)生了不同影響,進(jìn)而發(fā)展出不同的倫理問(wèn)題,而當(dāng)下表現(xiàn)突出的是隱私問(wèn)題、壟斷問(wèn)題與公平問(wèn)題。從數(shù)據(jù)發(fā)展的主線上看,數(shù)據(jù)從數(shù)值型的科學(xué)數(shù)據(jù)發(fā)展到結(jié)構(gòu)化的企業(yè)數(shù)據(jù)、多樣的個(gè)人數(shù)據(jù),其應(yīng)用領(lǐng)域由自然領(lǐng)域逐漸拓展至工程領(lǐng)域、社會(huì)領(lǐng)域,推動(dòng)了不同門(mén)類新技術(shù)的產(chǎn)生,帶來(lái)了前所未有的倫理挑戰(zhàn)。依據(jù)人們對(duì)數(shù)據(jù)的認(rèn)識(shí)及應(yīng)用程度,數(shù)據(jù)的發(fā)展可歸結(jié)為“管理數(shù)據(jù)、理解數(shù)據(jù)、敬畏數(shù)據(jù)”3個(gè)階段,如圖1所示。
在計(jì)算機(jī)發(fā)展初期,數(shù)據(jù)通過(guò)自然觀察、科學(xué)實(shí)驗(yàn)、統(tǒng)計(jì)調(diào)研等方式人為生成,多為數(shù)值型數(shù)據(jù),人們借助計(jì)算機(jī)完成復(fù)雜的運(yùn)算,促進(jìn)自然發(fā)現(xiàn)、社會(huì)統(tǒng)計(jì)等學(xué)科的發(fā)展。同時(shí),伴隨著計(jì)算機(jī)存儲(chǔ)設(shè)備的發(fā)展,文件系統(tǒng)、批處理等技術(shù)相繼出現(xiàn),人們使用這些技術(shù)對(duì)數(shù)據(jù)進(jìn)行管理。此時(shí)的數(shù)據(jù)面臨的主要問(wèn)題更多集中于數(shù)據(jù)的正確性、共享性等應(yīng)用問(wèn)題。
在傳統(tǒng)的數(shù)據(jù)庫(kù)時(shí)代,數(shù)據(jù)在企業(yè)等運(yùn)營(yíng)式系統(tǒng)運(yùn)營(yíng)過(guò)程中被動(dòng)產(chǎn)生,數(shù)據(jù)采集成本較高,故多以企業(yè)數(shù)據(jù)為主。此時(shí)數(shù)據(jù)結(jié)構(gòu)規(guī)范有序,數(shù)據(jù)量相對(duì)有限,人們對(duì)數(shù)據(jù)的認(rèn)識(shí)停留在“管理數(shù)據(jù)”的階段,發(fā)展出數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集成等技術(shù)。該階段,數(shù)據(jù)面臨的主要問(wèn)題是安全問(wèn)題,即保護(hù)企業(yè)數(shù)據(jù)不被攻擊者非法入侵和獲取,確保導(dǎo)出的結(jié)果的正確性和完整性。
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)采集愈發(fā)廉價(jià),數(shù)據(jù)在個(gè)人移動(dòng)設(shè)備、穿戴式設(shè)備、傳感設(shè)備上源源不斷地主動(dòng)產(chǎn)生,數(shù)據(jù)結(jié)構(gòu)復(fù)雜,數(shù)據(jù)量加速增長(zhǎng)。此時(shí)的數(shù)據(jù)主要以個(gè)人數(shù)據(jù)為主,具有海量的數(shù)據(jù)集特性,人們開(kāi)始“理解數(shù)據(jù)”,并由此發(fā)展出基于數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘、云數(shù)據(jù)庫(kù)、知識(shí)融合等技術(shù)。與此前借助符號(hào)進(jìn)行邏輯推理不同,該階段技術(shù)發(fā)展的本質(zhì)是海量數(shù)據(jù)驅(qū)動(dòng)的結(jié)果,產(chǎn)生了與此前截然不同的倫理問(wèn)題。數(shù)據(jù)作為驅(qū)動(dòng)算法的“燃料”,數(shù)據(jù)壟斷與隱私問(wèn)題層出不窮,而非規(guī)則的算法決策與黑盒模型使得決策可解釋、公平問(wèn)題備受關(guān)注。
而在逐步逼近的5G與萬(wàn)物互聯(lián)時(shí)代,數(shù)據(jù)量爆炸式增長(zhǎng),數(shù)據(jù)描述社會(huì)的粒度更加細(xì)膩,在數(shù)據(jù)應(yīng)用的過(guò)程中隱私、公平等倫理問(wèn)題將更加嚴(yán)峻。由此,人們?cè)趹?yīng)用挖掘數(shù)據(jù)的過(guò)程中,更需以敬畏的眼光看待數(shù)據(jù),重視其倫理問(wèn)題,發(fā)展出具有“敬畏數(shù)據(jù)”性質(zhì)的技術(shù)。據(jù)目前的估計(jì),世界上的數(shù)據(jù)大約只有20%可以得到有效管理,可被理解的數(shù)據(jù)不足1%,“敬畏數(shù)據(jù)”的技術(shù)幾乎沒(méi)有出現(xiàn)[3],提出并實(shí)現(xiàn)這樣的技術(shù)任重而道遠(yuǎn)。
由此,本文對(duì)人工智能時(shí)代的數(shù)據(jù)隱私、壟斷與公平問(wèn)題進(jìn)行探討,從“敬畏數(shù)據(jù)”的角度探索數(shù)據(jù)價(jià)值實(shí)現(xiàn)與數(shù)據(jù)倫理實(shí)現(xiàn)的有效途徑,既不能扼殺挖掘數(shù)據(jù)價(jià)值的機(jī)會(huì),更不能對(duì)人類倫理構(gòu)成破壞[4]。要達(dá)到該目的,必須考慮到當(dāng)前倫理問(wèn)題的獨(dú)特性,將其放在當(dāng)前的數(shù)據(jù)生態(tài)中進(jìn)行討論。具體地,當(dāng)前倫理問(wèn)題的獨(dú)特性體現(xiàn)在以下兩個(gè)方面。
一方面,數(shù)據(jù)的特殊性質(zhì)使得當(dāng)前的倫理問(wèn)題不能通過(guò)簡(jiǎn)單地界定數(shù)據(jù)歸屬的方法解決。從數(shù)據(jù)的發(fā)展可以看出,數(shù)據(jù)不同于森林、礦藏等源于自然的自然物,它會(huì)隨著人、時(shí)間和環(huán)境的不同而有所差異;也不同于文學(xué)作品、專利等由人創(chuàng)造的精神產(chǎn)物,它是物質(zhì)和精神的衍生物。因此,討論人工智能時(shí)代的倫理問(wèn)題時(shí),并不能簡(jiǎn)單界定數(shù)據(jù)的歸屬。如果為了解決個(gè)人信息的隱私、壟斷等問(wèn)題,而將數(shù)據(jù)簡(jiǎn)單地界定為個(gè)人歸屬,則不能發(fā)揮其應(yīng)有的價(jià)值?,F(xiàn)有數(shù)據(jù)生態(tài)的特殊性決定了數(shù)據(jù)確權(quán)、定價(jià)、交易等孤立的形式并不能解決壟斷、隱私和公平等倫理問(wèn)題。
另一方面,不同倫理問(wèn)題之間相互影響。首先,數(shù)據(jù)壟斷與數(shù)據(jù)隱私之間存在相關(guān)促進(jìn)的關(guān)系,數(shù)據(jù)壟斷的破除將有效阻止大量數(shù)據(jù)的匯集,從而降低挖掘、泄露數(shù)據(jù)隱私的風(fēng)險(xiǎn);其次,高度的數(shù)據(jù)隱私不利于數(shù)據(jù)壟斷和決策不公平現(xiàn)象的發(fā)現(xiàn)。如何在考慮上述倫理問(wèn)題時(shí)兼顧隱私問(wèn)題十分關(guān)鍵,這也是本文強(qiáng)調(diào)的“大隱私觀”需要特別關(guān)注的問(wèn)題。
本文后續(xù)將深入探討當(dāng)前數(shù)據(jù)生態(tài)下的數(shù)據(jù)隱私問(wèn)題、數(shù)據(jù)壟斷問(wèn)題和決策公平問(wèn)題的本質(zhì),分析其現(xiàn)狀與面臨的挑戰(zhàn)?;谠撎接懛治觯疚陌l(fā)現(xiàn),當(dāng)前數(shù)據(jù)倫理問(wèn)題的產(chǎn)生是由數(shù)據(jù)在其生命周期中的不透明性造成的,規(guī)范數(shù)據(jù)的收集、流通、使用及決策勢(shì)在必行。本文提出構(gòu)建數(shù)據(jù)透明體系是這些倫理問(wèn)題的有效解決途徑。
在當(dāng)前的移動(dòng)用戶數(shù)據(jù)收集的場(chǎng)景中,隨著人工智能技術(shù)的發(fā)展和移動(dòng)設(shè)備的普及,對(duì)用戶隱私數(shù)據(jù)進(jìn)行收集的現(xiàn)象愈演愈烈。一般地,App運(yùn)營(yíng)者可被視為數(shù)據(jù)收集者,用戶可被視為數(shù)據(jù)提供者。移動(dòng)用戶數(shù)據(jù)收集的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:首先,在數(shù)據(jù)收集目的上,數(shù)據(jù)收集者均出于正義的目標(biāo)和美好的愿景來(lái)收集數(shù)據(jù),如發(fā)揮數(shù)據(jù)價(jià)值或提供更優(yōu)質(zhì)的個(gè)性化智能服務(wù);其次,在數(shù)據(jù)收集方式上,他們都打著“免費(fèi)使用服務(wù)”的名義,或以小恩小惠吸引數(shù)據(jù)提供者的參與,如一些平臺(tái)通過(guò)優(yōu)惠活動(dòng)鼓勵(lì)用戶填寫(xiě)詳細(xì)個(gè)人信息,以收集用戶數(shù)據(jù);再次,在數(shù)據(jù)收集過(guò)程中,存在欺瞞行為,一些App開(kāi)發(fā)者不告知用戶其個(gè)人數(shù)據(jù)的流向及使用目的,請(qǐng)求用戶同意數(shù)據(jù)收集的授權(quán)協(xié)議通常以“默認(rèn)勾選”或隱藏選項(xiàng)的方式使用戶“被同意”,更甚者通過(guò)收集和販賣(mài)用戶數(shù)據(jù)進(jìn)行非法數(shù)據(jù)流通;最后,在用戶數(shù)據(jù)的隱私保護(hù)上,他們沒(méi)有采取任何有效的隱私保護(hù)措施,諸多企業(yè)直接在用戶的隱私數(shù)據(jù)上進(jìn)行數(shù)據(jù)分析,用戶的隱私岌岌可危。
上述做法不僅威脅著用戶的個(gè)人隱私,也隱含著國(guó)家安全問(wèn)題,包括國(guó)民個(gè)人數(shù)據(jù)的跨境流通問(wèn)題以及國(guó)防安全問(wèn)題,如與導(dǎo)航和防御相關(guān)的天文數(shù)據(jù)的安全問(wèn)題。因此,如何有效保護(hù)用戶隱私與數(shù)據(jù)安全是當(dāng)前數(shù)據(jù)生態(tài)面臨的主要問(wèn)題之一。
為應(yīng)對(duì)該問(wèn)題,國(guó)家和研究者們分別從制度和技術(shù)上做了諸多努力。在制度上,隨著隱私問(wèn)題的逐漸凸顯,相關(guān)立法在穩(wěn)步進(jìn)行。歐盟于2018年5月25日出臺(tái)《通用數(shù)據(jù)保護(hù)條例(General Data Protection Regulation,GDPR)》,規(guī)定了用戶在數(shù)據(jù)上的查閱權(quán)、被遺忘權(quán)等權(quán)利,以保護(hù)個(gè)人隱私,遏制數(shù)據(jù)濫用。2019年4月16日,美國(guó)舊金山通過(guò)了對(duì)《停止秘密監(jiān)視》條例的部分修訂,考慮到人臉識(shí)別技術(shù)可能侵犯用戶隱私、加劇種族歧視等問(wèn)題,禁用該項(xiàng)技術(shù)。2019年5月28日,中國(guó)國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)》,從數(shù)據(jù)收集、處理使用、安全監(jiān)管幾個(gè)方面討論其管理辦法。
在技術(shù)上,通過(guò)隱私保護(hù)技術(shù)完成數(shù)據(jù)流通和數(shù)據(jù)處理,避免數(shù)據(jù)直接流通導(dǎo)致泄露用戶隱私[5-8]。目前已有基于擾動(dòng)和基于密碼學(xué)的兩類隱私保護(hù)方案[9]?;跀_動(dòng)的方案主要指匿名技術(shù)(anonymity technology)[10-16]、中心化差分隱私(differential privacy)[14-22]、本地化差分隱私(local differential privacy)[23-31],該類方法計(jì)算效率高、應(yīng)用成熟,但會(huì)降低數(shù)據(jù)精度,影響數(shù)據(jù)可用性?;诿艽a學(xué)的隱私保護(hù)方案主要指同態(tài)加密(homomorphic encryption)[32-37]、安全多方計(jì)算(secure multi-party computation)[38-40],該類方法安全性較高、數(shù)據(jù)可恢復(fù),但效率較低,商用性較差。
目前隱私問(wèn)題還存在許多挑戰(zhàn)。首先,在制度上,數(shù)據(jù)作為物質(zhì)與精神的衍生物,不能簡(jiǎn)單界定其歸屬,將數(shù)據(jù)簡(jiǎn)單歸屬于用戶而粗暴地禁止人臉識(shí)別的應(yīng)用,并不是最有效的立法準(zhǔn)則,如何兼顧數(shù)據(jù)價(jià)值的實(shí)現(xiàn)與對(duì)人類倫理的尊崇,從而完善立法是當(dāng)前的挑戰(zhàn)之一。其次,在技術(shù)上,當(dāng)前的隱私保護(hù)方法都表現(xiàn)出一定的局限性,重點(diǎn)體現(xiàn)在數(shù)據(jù)可用性與數(shù)據(jù)隱私之間的權(quán)衡。最后,特別注意的是,當(dāng)前數(shù)據(jù)的隱私保護(hù)不能局限于對(duì)敏感數(shù)據(jù)的保護(hù),數(shù)據(jù)的發(fā)展會(huì)使個(gè)人敏感性問(wèn)題降低,人們需正視數(shù)據(jù)合理獲取、存儲(chǔ)、使用的問(wèn)題,應(yīng)從“大隱私”的角度出發(fā),同時(shí)兼顧隱私、壟斷、公平等其他倫理問(wèn)題。
在當(dāng)前數(shù)據(jù)的收集、使用過(guò)程中,數(shù)據(jù)壟斷問(wèn)題愈發(fā)明顯。2019年1月,中國(guó)人民大學(xué)WAMDM實(shí)驗(yàn)室發(fā)布的《中國(guó)隱私風(fēng)險(xiǎn)指數(shù)分析報(bào)告》基于3 000萬(wàn)名手機(jī)用戶的數(shù)據(jù)對(duì)大規(guī)模的數(shù)據(jù)收集現(xiàn)狀進(jìn)行了統(tǒng)計(jì)分析,分析結(jié)果顯示,10%的數(shù)據(jù)收集者獲取了99%的權(quán)限數(shù)據(jù)。其中,數(shù)據(jù)收集者指的是移動(dòng)用戶數(shù)據(jù)收集場(chǎng)景下的App運(yùn)營(yíng)者;權(quán)限數(shù)據(jù)指的是在該場(chǎng)景下,數(shù)據(jù)收集者通過(guò)App的權(quán)限體系獲取的用戶個(gè)人隱私數(shù)據(jù)。由此可見(jiàn),數(shù)據(jù)收集的壟斷現(xiàn)象極為嚴(yán)重,其殘酷程度更甚于現(xiàn)實(shí)世界財(cái)富獲取的“二八定律”。同時(shí),數(shù)據(jù)作為數(shù)字經(jīng)濟(jì)時(shí)代的戰(zhàn)略性基礎(chǔ)資源,數(shù)據(jù)驅(qū)動(dòng)型公司圍繞數(shù)據(jù)的競(jìng)爭(zhēng)愈演愈烈,如微博與脈脈的數(shù)據(jù)之爭(zhēng)、順豐與菜鳥(niǎo)的數(shù)據(jù)之爭(zhēng)等。
造成數(shù)據(jù)壟斷的主要原因,一方面是在大數(shù)據(jù)時(shí)代數(shù)據(jù)本身的價(jià)值密度低,其應(yīng)用價(jià)值需通過(guò)海量數(shù)據(jù)的挖掘獲取來(lái)實(shí)現(xiàn),從而易造成數(shù)據(jù)聚集現(xiàn)象;另一方面,當(dāng)前大型商業(yè)公司的跨多領(lǐng)域的商業(yè)模式、龐大的用戶規(guī)模及網(wǎng)絡(luò)效應(yīng)使其數(shù)據(jù)收集能力不斷增強(qiáng),不同數(shù)據(jù)收集者之間的鴻溝逐漸拉大,使得數(shù)據(jù)壟斷現(xiàn)象愈演愈烈。
當(dāng)前嚴(yán)峻的數(shù)據(jù)壟斷形勢(shì)會(huì)給數(shù)據(jù)生態(tài)造成3方面的負(fù)面影響[41-42]。首先,巨頭公司擁有大部分的數(shù)據(jù)和用戶流量,在當(dāng)前數(shù)據(jù)推動(dòng)發(fā)展的歷史模式下,會(huì)進(jìn)一步壓縮其他公司的生存空間,不利于其他公司尤其是小型、新型企業(yè)的出現(xiàn)及發(fā)展;其次,巨頭公司可利用這些豐富的數(shù)據(jù)形成一條生產(chǎn)線,開(kāi)發(fā)多領(lǐng)域的生產(chǎn)經(jīng)營(yíng)活動(dòng),使得技術(shù)不外化,不利于其他新技術(shù)的產(chǎn)生;最后,擁有海量數(shù)據(jù)的巨頭公司具有主導(dǎo)市場(chǎng)競(jìng)爭(zhēng)的資本,自由競(jìng)爭(zhēng)的失效將使用戶失去服務(wù)的可替代性選擇,從而使數(shù)據(jù)濫用、隱私泄露、價(jià)格歧視等其他倫理問(wèn)題加劇。
由數(shù)據(jù)擁有和控制引發(fā)的數(shù)據(jù)壟斷與競(jìng)爭(zhēng)問(wèn)題已引起了市場(chǎng)監(jiān)管和競(jìng)爭(zhēng)執(zhí)法部門(mén)的注意,并相繼做出一系列的適用政策修訂,如2016年10月,全球移動(dòng)通信系統(tǒng)協(xié)會(huì)發(fā)布《數(shù)字生態(tài)系統(tǒng)競(jìng)爭(zhēng)政策框架重整》;2017年2月歐盟發(fā)布《大數(shù)據(jù)與競(jìng)爭(zhēng)政策:市場(chǎng)力量、個(gè)性化定價(jià)與廣告》;我國(guó)國(guó)家市場(chǎng)監(jiān)督管理總局于2019年1月30日發(fā)布《禁止濫用市場(chǎng)支配地位行為的規(guī)定(征求意見(jiàn)稿)》,首次將數(shù)據(jù)壟斷納入反壟斷執(zhí)法考量范圍。
與此同時(shí),學(xué)術(shù)界與工業(yè)界也試圖從技術(shù)上對(duì)該問(wèn)題進(jìn)行治理。從源頭上,隱私保護(hù)技術(shù)和訪問(wèn)控制技術(shù)可對(duì)數(shù)據(jù)的收集和使用進(jìn)行一定程度的干預(yù),降低或限制數(shù)據(jù)巨頭持有的數(shù)據(jù)。在數(shù)據(jù)流通過(guò)程中,上海數(shù)據(jù)交易中心、貴陽(yáng)大數(shù)據(jù)交易所等數(shù)據(jù)交易平臺(tái)的建立可促進(jìn)數(shù)據(jù)的流通與共享,削弱數(shù)據(jù)收集者對(duì)數(shù)據(jù)的控制權(quán)。
上述舉措雖在一定程度上緩解了數(shù)據(jù)壟斷的局勢(shì),但并不能根治該問(wèn)題。應(yīng)對(duì)數(shù)據(jù)壟斷,要尋求更好的數(shù)據(jù)治理模式,不能一味封鎖和限制數(shù)據(jù)的采集和使用,“開(kāi)源節(jié)流”十分關(guān)鍵。一方面,要規(guī)范數(shù)據(jù)的收集、流通和使用,使數(shù)據(jù)資源得到合理有效的配置;另一方面,要積極探索隱私保護(hù)的數(shù)據(jù)共享技術(shù),打破數(shù)據(jù)孤島,促進(jìn)數(shù)據(jù)流通。
機(jī)器學(xué)習(xí)算法在服務(wù)智能生活的同時(shí),公平問(wèn)題逐漸產(chǎn)生。2015年,亞馬遜通過(guò)機(jī)器學(xué)習(xí)實(shí)現(xiàn)的自動(dòng)化招聘系統(tǒng)存在性別歧視,最終該項(xiàng)目被關(guān)閉。2016年弗吉尼亞大學(xué)文森特·歐多尼茲教授通過(guò)對(duì)圖形識(shí)別軟件進(jìn)行大量測(cè)試,發(fā)現(xiàn)其易于將鍵盤(pán)鼠標(biāo)等與男性結(jié)合,將廚房購(gòu)物等與女性結(jié)合,存在偏見(jiàn)。2018年“大數(shù)據(jù)殺熟”被選為年度社會(huì)生活類十大流行語(yǔ)之一,其含義是指電商平臺(tái)或服務(wù)網(wǎng)站為用戶提供智能服務(wù)時(shí),基于用戶數(shù)據(jù)分析對(duì)同一商品為不同用戶提供差異化定價(jià),引發(fā)價(jià)格歧視。用戶應(yīng)意識(shí)到,機(jī)器學(xué)習(xí)算法為人類當(dāng)前的研究分析工作提供了更高效的結(jié)果,但不一定是更正確的結(jié)果,其算法決策中存在的不公平、不可信等問(wèn)題值得引起大眾關(guān)注。
從理論的角度對(duì)上述現(xiàn)象進(jìn)行分析可知,機(jī)器學(xué)習(xí)模型的正確性極度依賴訓(xùn)練數(shù)據(jù),然而訓(xùn)練數(shù)據(jù)都是由人標(biāo)注產(chǎn)生的。人是天生帶有偏見(jiàn)的,并且會(huì)無(wú)意識(shí)地將這種偏見(jiàn)注入訓(xùn)練和測(cè)試數(shù)據(jù)中,或有意識(shí)地注入訓(xùn)練過(guò)程中。例如,在人工對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注時(shí),因標(biāo)注者不熟悉標(biāo)注對(duì)象引起的標(biāo)注錯(cuò)誤,因不同人群的經(jīng)驗(yàn)、文化差異而帶來(lái)的數(shù)據(jù)差異等?;谶@些數(shù)據(jù)訓(xùn)練得到的機(jī)器學(xué)習(xí)模型就是不合理的決策模型。而“大數(shù)據(jù)殺熟”則是在機(jī)器學(xué)習(xí)的過(guò)程注入了商家對(duì)不同消費(fèi)者購(gòu)買(mǎi)能力的歧視和偏見(jiàn),從而達(dá)到其利益最大化。在此過(guò)程中,偏見(jiàn)由人傳遞到數(shù)據(jù),再由數(shù)據(jù)傳遞到模型,人類對(duì)社會(huì)及事物固有的偏見(jiàn)不僅不會(huì)得到遏制,還會(huì)得到放大。
要探索機(jī)器學(xué)習(xí)下的公平,首先需明確公平的含義。公平是一個(gè)多維概念,體現(xiàn)的是人們對(duì)平等的追求。社會(huì)學(xué)中的公平指“同工同酬”,心理學(xué)中的公平則認(rèn)為人們的公平感取決于一種同他人的社會(huì)比較或同自己的歷史比較。在哲學(xué)上,哲學(xué)家約翰·羅爾斯在《正義論》中提出利用一個(gè)重要的假設(shè)“無(wú)知之幕”來(lái)定義公平?!盁o(wú)知之幕”假設(shè)了一個(gè)人人平等的博弈條件,即“無(wú)知之幕”后的每個(gè)人都不清楚自己在社會(huì)中將扮演的角色,此時(shí)這些人共同制定的規(guī)則才可能公平。“無(wú)知之幕”揭示的是規(guī)則制定者的選擇不被他們的特殊利益左右,從而使得在一個(gè)問(wèn)題中涉及的所有方被置于同一標(biāo)桿之后,被一視同仁地對(duì)待。對(duì)于機(jī)器學(xué)習(xí)中的公平而言,由于現(xiàn)實(shí)世界并非絕對(duì)公平,理想狀態(tài)下的機(jī)器學(xué)習(xí)公平一方面要反映客觀現(xiàn)實(shí),另一方面更應(yīng)能夠糾正由人帶來(lái)的主觀偏見(jiàn)。
追求“無(wú)知之幕”下的人工智能即追求算法公平,其應(yīng)用的機(jī)器學(xué)習(xí)模型至少應(yīng)滿足以下兩個(gè)要求[43]:第一,對(duì)于相同的應(yīng)用場(chǎng)景,相似數(shù)據(jù)集可以經(jīng)訓(xùn)練得到相似模型,如Google地圖在印度數(shù)據(jù)集上的模型準(zhǔn)確率應(yīng)與在美國(guó)數(shù)據(jù)集上訓(xùn)練的模型準(zhǔn)確率一致;第二,向模型中輸入相似個(gè)體的信息可以得到相似輸出,如對(duì)于能力、學(xué)歷相等的男女求職者,其被推薦的工作和薪金應(yīng)相近。
如何實(shí)現(xiàn)滿足上述公平的人工智能算法,仍舊充滿挑戰(zhàn)。從數(shù)據(jù)的角度考慮,如果可對(duì)決策數(shù)據(jù)進(jìn)行合理的審計(jì),使決策過(guò)程具備透明性和可理解性,那么數(shù)據(jù)中的偏見(jiàn)就可能被發(fā)現(xiàn)、被問(wèn)責(zé),從而達(dá)到避免偏見(jiàn)引入的目的。從算法的角度出發(fā),當(dāng)前有許多研究工作者集中精力于引入公平性度量,從而對(duì)機(jī)器學(xué)習(xí)模型本身進(jìn)行改進(jìn),但該方法針對(duì)特定的機(jī)器學(xué)習(xí)算法,具有局限性[44]。更廣義地理解決策,它應(yīng)該包含自動(dòng)決策和人工決策,而這兩種決策都存在不同程度的偏見(jiàn)和誤差。如果能夠綜合考慮自動(dòng)決策和人工決策,那么就可以得到更全面的決策結(jié)果,進(jìn)而提高決策的公平性,但如何將它們合理結(jié)合仍是一個(gè)現(xiàn)實(shí)問(wèn)題。
上述倫理問(wèn)題產(chǎn)生的根本原因是大數(shù)據(jù)價(jià)值實(shí)現(xiàn)過(guò)程中的不透明性。當(dāng)前數(shù)據(jù)的獲取、流通、共享、使用和決策過(guò)程都存在不透明性,用戶作為數(shù)據(jù)的生產(chǎn)者,對(duì)哪些數(shù)據(jù)被收集、被誰(shuí)收集、流向何處、做何使用一無(wú)所知。在人工智能服務(wù)的大環(huán)境下,個(gè)人數(shù)據(jù)在其整個(gè)生命周期,包括產(chǎn)生、流通、使用和決策的過(guò)程中,都處于黑盒狀態(tài),這進(jìn)一步加劇了數(shù)據(jù)的隱私泄露、壟斷和決策結(jié)果的不公平。而與傳統(tǒng)的決策相比,基于大數(shù)據(jù)進(jìn)行決策產(chǎn)生的倫理問(wèn)題更為顯著的主要原因在于,傳統(tǒng)決策的基礎(chǔ)是“數(shù)據(jù)—信息—知識(shí)”的獲取,而現(xiàn)有的大數(shù)據(jù)決策是由數(shù)據(jù)直接驅(qū)動(dòng)的,數(shù)據(jù)錯(cuò)誤與算法不透明導(dǎo)致底層數(shù)據(jù)不可靠,決策不可信。這一狀態(tài)在弗蘭克·帕斯奎爾的《黑箱社會(huì)》中被描述為“黑箱”,大數(shù)據(jù)透明應(yīng)是射入這個(gè)“黑箱”的“一道陽(yáng)光”,是解決上述倫理問(wèn)題的根本途徑。
大數(shù)據(jù)透明旨在保護(hù)個(gè)人數(shù)據(jù)在其生命周期中的透明性,即保證數(shù)據(jù)在數(shù)據(jù)獲取、共享、存儲(chǔ)和決策的過(guò)程中對(duì)其從屬主體的透明性,也就是說(shuō),通過(guò)數(shù)據(jù)透明,參與的主體能夠獲取與自身相關(guān)的全部數(shù)據(jù)信息。由此,應(yīng)用數(shù)據(jù)透明可以對(duì)數(shù)據(jù)的收集、流通、決策進(jìn)行適度的公開(kāi)、記錄、審計(jì)和問(wèn)責(zé),從而促進(jìn)隱私、壟斷、公平倫理問(wèn)題的解決,具體如圖2所示。
在數(shù)據(jù)隱私問(wèn)題上,一旦數(shù)據(jù)隱私發(fā)生泄露,可通過(guò)數(shù)據(jù)透明機(jī)制對(duì)泄露數(shù)據(jù)進(jìn)行溯源,對(duì)其發(fā)布過(guò)程中違反規(guī)范的參與方進(jìn)行問(wèn)責(zé),從而對(duì)數(shù)據(jù)的合理收集與使用進(jìn)行有效的監(jiān)督。但在該過(guò)程中,應(yīng)十分注意數(shù)據(jù)透明的范圍和粒度,如果透明的范圍太大、對(duì)象太廣,則有可能暴露企業(yè)或個(gè)人的機(jī)密信息。因此,在解決該問(wèn)題時(shí),不能一味地追求透明,應(yīng)兼顧可溯源數(shù)據(jù)的隱私性。
在數(shù)據(jù)壟斷問(wèn)題上,可在數(shù)據(jù)流通的過(guò)程中通過(guò)數(shù)據(jù)透明對(duì)數(shù)據(jù)的流向進(jìn)行追蹤和審計(jì),一方面結(jié)合訪問(wèn)控制等技術(shù)對(duì)數(shù)據(jù)的流向進(jìn)行一定程度的限制,避免數(shù)據(jù)壟斷;另一方面,可從宏觀的角度對(duì)數(shù)據(jù)的共享使用提出建議或提供數(shù)據(jù)共享的可能,打破不同數(shù)據(jù)收集分析者之間的屏障,促進(jìn)基于數(shù)據(jù)驅(qū)動(dòng)的人工智能決策方法的發(fā)展與應(yīng)用。
在決策公平問(wèn)題上,可通過(guò)數(shù)據(jù)透明對(duì)決策的結(jié)果進(jìn)行審計(jì),使得其結(jié)果中的歧視、偏見(jiàn)等不公平問(wèn)題可被發(fā)現(xiàn)?;谠搶徲?jì)結(jié)果,算法工程師可進(jìn)一步完善決策算法或決策輸入數(shù)據(jù),從而提高數(shù)據(jù)決策的公平性。
在大數(shù)據(jù)透明的具體實(shí)現(xiàn)上,政府機(jī)構(gòu)和研究者們分別從政策和技術(shù)上做出諸多努力和探索。政策上,GDPR等法律法規(guī)的出臺(tái),明確規(guī)定了數(shù)據(jù)主體(即用戶)對(duì)數(shù)據(jù)的控制權(quán),以保證個(gè)人數(shù)據(jù)在其數(shù)據(jù)生命周期中具有更高的透明度,數(shù)據(jù)主體對(duì)個(gè)人數(shù)據(jù)具有更強(qiáng)的管控能力;技術(shù)上,借助區(qū)塊鏈難以篡改、可追蹤、去中心和公開(kāi)透明的特性,可實(shí)現(xiàn)數(shù)據(jù)透明的需求,具體地,可基于區(qū)塊鏈從訪問(wèn)控制、數(shù)據(jù)存儲(chǔ)、分布式機(jī)器學(xué)習(xí)等角度積極探索數(shù)據(jù)透明的實(shí)現(xiàn)。
然而,就大數(shù)據(jù)透明而言,當(dāng)前還存在諸多問(wèn)題尚待解決。首先,針對(duì)不同問(wèn)題,大數(shù)據(jù)透明的范圍和面向的對(duì)象也不盡相同,數(shù)據(jù)透明的范圍和粒度對(duì)企業(yè)和個(gè)人隱私信息的保護(hù)至關(guān)重要;其次,大數(shù)據(jù)透明提供關(guān)于數(shù)據(jù)和算法的關(guān)鍵信息,可能會(huì)造成隱私的泄露或給攻擊者提供有效的背景知識(shí),此時(shí)不僅不能促進(jìn)隱私問(wèn)題的解決,反而會(huì)加劇該問(wèn)題,如何在隱私保護(hù)的情況下提供數(shù)據(jù)的審計(jì),從而實(shí)現(xiàn)數(shù)據(jù)透明,十分關(guān)鍵;再次,透明的實(shí)現(xiàn)貫穿整個(gè)數(shù)據(jù)收集、存儲(chǔ)、流通、使用以及算法決策的過(guò)程,應(yīng)同時(shí)保證效率性與透明性;最后,當(dāng)前數(shù)據(jù)生態(tài)中的倫理問(wèn)題主要受到法律法規(guī)的約束、普適道德觀的約束以及技術(shù)規(guī)范的制約,用戶自身素養(yǎng)與大隱私意識(shí)的提高十分重要。
在數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)時(shí)代,數(shù)據(jù)的總量和維度不斷豐富,其通過(guò)機(jī)器學(xué)習(xí)等算法產(chǎn)生了巨大的社會(huì)價(jià)值,但同時(shí)也引發(fā)了數(shù)據(jù)隱私、數(shù)據(jù)壟斷和決策公平這3個(gè)典型的倫理問(wèn)題。如何在實(shí)現(xiàn)數(shù)據(jù)價(jià)值的同時(shí)解決這些倫理問(wèn)題,發(fā)展“敬畏數(shù)據(jù)”的技術(shù),是當(dāng)前研究的重中之重。樹(shù)立“大隱私觀”,正視數(shù)據(jù)在其生命周期中合理收集、存儲(chǔ)、使用的問(wèn)題是十分關(guān)鍵的。
本文首先從數(shù)據(jù)發(fā)展的角度探討這些倫理問(wèn)題,歸結(jié)出這些倫理問(wèn)題的產(chǎn)生是當(dāng)前的數(shù)據(jù)生態(tài)環(huán)境與數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)技術(shù)相互作用的結(jié)果。同時(shí),提出數(shù)據(jù)應(yīng)當(dāng)放在數(shù)據(jù)生態(tài)中加以考量,不能通過(guò)簡(jiǎn)單界定其歸屬的方法來(lái)解決倫理問(wèn)題。之后,本文對(duì)數(shù)據(jù)隱私、數(shù)據(jù)壟斷、決策公平3個(gè)問(wèn)題分別進(jìn)行了探討,發(fā)現(xiàn)其本質(zhì)是當(dāng)前數(shù)據(jù)生態(tài)環(huán)境下,數(shù)據(jù)在其生命周期中的不透明性。最后,本文提出建立數(shù)據(jù)透明機(jī)制是解決人工智能時(shí)代數(shù)據(jù)生態(tài)倫理的關(guān)鍵步驟,如何有效地建立該體系應(yīng)是當(dāng)前該領(lǐng)域研究的重點(diǎn)方向之一。