王夙 欒群
算法公開(透明)無法根治算法歧視
針對算法歧視,算法公開呼聲頗高。算法是人工智能技術(shù)的核心基礎(chǔ),潛在的算法歧視則是公眾擔(dān)憂的焦點(diǎn)。不同領(lǐng)域的專家針對算法歧視提出不同的解決方案。比如,加州伯克利大學(xué)的研究者們就提出“算法的可解釋性”,即在設(shè)計(jì)算法時(shí)加入另一個(gè)算法對其算法決策的過程進(jìn)行忠實(shí)記錄等。在眾多方案中,算法公開呼聲頗高,理由是算法公開能夠曝光歧視性算法的惡意代碼,并有效嚇阻企圖編制歧視性代碼的程序員等。
針對算法歧視,算法公開的有效性有夸大之嫌, 還有許多副作用。一是算法公開并不必然保證公眾知情權(quán)。算法通常表現(xiàn)為繁蕪的程序、枯燥艱深的代碼,體現(xiàn)了極強(qiáng)的專業(yè)性和技術(shù)性,一般社會公眾根本不具備理解和識別算法的能力。因此,對公眾而言,公開僅僅是形式而已。二是算法公開有時(shí)效方面的局限性。算法公開應(yīng)當(dāng)以算法的固定不變?yōu)榍疤?,但隨著機(jī)器學(xué)習(xí)水平的不斷提升,算法程序可能會升級轉(zhuǎn)化,即使是算法的最初設(shè)計(jì)者也無法完全理解迭代升級后的算法。此時(shí),迭代后的算法早已不是最初公開的算法。三是算法公開不具有解決方案的整體性。算法歧視并不必然由算法程序本身產(chǎn)生,即使是中立性的算法,如果輸入有偏見的歧視性數(shù)據(jù)也會導(dǎo)致算法歧視的發(fā)生。算法公開對數(shù)據(jù)層面的歧視并沒有矯正效果,相反,單純要求算法公開反而會幫助輸入歧視數(shù)據(jù)者擺脫歧視指控。四是算法公開有違現(xiàn)代基本商業(yè)準(zhǔn)則。算法是人類有意識的創(chuàng)造物,是知識產(chǎn)權(quán)的保護(hù)對象。同時(shí),算法的具體內(nèi)容對商業(yè)主體能產(chǎn)生直接的經(jīng)濟(jì)利益。強(qiáng)制算法公開可能侵害知識產(chǎn)權(quán)和商業(yè)秘密,也會破壞商業(yè)主體研發(fā)算法的動力。五是算法公開導(dǎo)致風(fēng)險(xiǎn)可控性減損。算法公開后,不法分子了解了算法程序的內(nèi)在邏輯,反而更加容易操縱算法程序,客觀上破壞算法的“中立性”。
數(shù)據(jù)比算法本身更容易導(dǎo)致歧視性后果的出現(xiàn)
算法通常不是算法歧視發(fā)生的直接原因。包括算法歧視在內(nèi)的各種不同形式的歧視都根源于現(xiàn)實(shí),是對現(xiàn)實(shí)歧視的映射。算法的優(yōu)化往往有助于減少歧視的發(fā)生?,F(xiàn)實(shí)歧視分為有意識歧視和無意識歧視兩種。一是針對有意識的歧視。在現(xiàn)實(shí)中之所以存在故意歧視現(xiàn)象,很重要的一個(gè)原因就是事后沒有充分的證據(jù)證明歧視行為曾經(jīng)發(fā)生過,因而無法對歧視者施加制裁。但是,算法的編制者(程序員)卻很難將腦海中的偏見直接灌輸于算法中,這并非技術(shù)方面存在難點(diǎn),而是因?yàn)橐坏┮驗(yàn)榘l(fā)生歧視性結(jié)果導(dǎo)致訴訟,進(jìn)而引發(fā)強(qiáng)制披露,則算法的歧視傾向?qū)⒈唤衣?。即使包含歧視傾向的算法沒有引起訴訟糾紛,進(jìn)而幸運(yùn)地躲避過了強(qiáng)制披露,但也不代表歧視性算法沒有曝光幾率。因?yàn)樗惴ǖ木幹仆ǔ2⒎且蝗酥δ軌蛲瓿?,而是涉及共享程序代碼的團(tuán)隊(duì),事后還面臨不同人的審閱和調(diào)試,要保證算法的歧視性不被識別,有很大困難。而一旦算法被強(qiáng)制披露或被其他人識別,則明確的、有記載的代碼恰恰成為了證明歧視存在的證據(jù)。這在歐美等國家和地區(qū)嚴(yán)厲懲治歧視行為的社會生態(tài)下,要背負(fù)沉重的法律代價(jià)。二是針對無意識的歧視。在現(xiàn)實(shí)生活中,每個(gè)人基于不同的生活經(jīng)歷、認(rèn)知水平和文化背景,會對同一事物形成差異化的前見。這些前見通常是無意識的產(chǎn)物,與歧視在表現(xiàn)形式上很難截然分開。因此,現(xiàn)實(shí)中無意識的歧視行為可能暗藏于任何人的任何行為中,且難以防止和復(fù)查。但算法的最終生成是由編制者(程序員)一個(gè)代碼一個(gè)代碼地書寫而成,它是程序員意識控制行為的后果,程序員對算法所追求的效果有清晰的預(yù)期。同時(shí),現(xiàn)代編程實(shí)踐也要求程序員記錄(注釋)程序正在做什么。正是得益于這種復(fù)雜繁瑣的算法編制過程和明確的記錄要求,大多數(shù)無意識的歧視會被剔除。
數(shù)據(jù)是更容易導(dǎo)致算法歧視出現(xiàn)的變量。鑒于數(shù)據(jù)具備導(dǎo)致歧視性后果出現(xiàn)的“天性”,輸入具體算法的數(shù)據(jù)往往預(yù)先帶有歧視性。一是數(shù)據(jù)采集的片面性。數(shù)據(jù)是對各種信息數(shù)字化處理后的具體表現(xiàn)形式,是統(tǒng)計(jì)學(xué)意義上的樣本。樣本采集面愈廣、多樣性愈足,分析處理過程中的誤差愈小,結(jié)論的客觀正確性愈高。在現(xiàn)實(shí)生活中,采集所有人、所有區(qū)域、所有時(shí)間段的數(shù)據(jù)并不具備可操作性,數(shù)據(jù)的采集依然離不開樣本的操作思維。這就意味著輸入算法的數(shù)據(jù)永遠(yuǎn)是片面的,區(qū)別只在于片面的程度不一。另外,算法之間亦有復(fù)雜和相對簡單之分。越是復(fù)雜繁瑣的算法,其鏈條越長,輸入數(shù)據(jù)的片面性就會被放大得越多,計(jì)算后果的歧視性偏差也會越明顯。二是數(shù)據(jù)“正義”的相對性。按照字面理解,避免算法歧視的出現(xiàn),必備條件之一就是數(shù)據(jù)是正義的,即平等的、公正的。但是,平等、公正本身就需要切合具體場景,場景的轉(zhuǎn)換極易使得此場景下正義的數(shù)據(jù)在彼場景下顯得非正義。例如,在運(yùn)用算法計(jì)算腦力勞動者的工作效率時(shí),年齡數(shù)據(jù)的意義不大,執(zhí)意輸入年齡數(shù)據(jù),可能導(dǎo)致出現(xiàn)年齡歧視后果。但是用相同算法計(jì)算體力勞動者的工作效率時(shí),年齡是重要的考量因素,輸入了年齡的運(yùn)算結(jié)果才是實(shí)事求是的。在實(shí)踐中,許多數(shù)據(jù)對不同場景的正負(fù)效應(yīng)并不如年齡的例子那樣明顯,很難輕易判斷出來。這種“正義”的相對性增加了數(shù)據(jù)取舍的難度。三是數(shù)據(jù)信息的可替代性。數(shù)據(jù)本身只是一個(gè)載體,其意義在于其需要傳達(dá)的信息。這就意味著不同數(shù)據(jù)承載的信息可能是重復(fù)的,即數(shù)據(jù) A 和數(shù)據(jù) B 都含有相同信息 C。數(shù)據(jù)輸入者的本意是想輸入數(shù)據(jù) A 承載的信息 C,但是為了避免發(fā)生輸入數(shù)據(jù) A 的表象行為,選擇輸入數(shù)據(jù) B 從而實(shí)際代入了信息 C,這樣表面整個(gè)運(yùn)算過程與數(shù)據(jù) A 無關(guān),但實(shí)際結(jié)果與輸入數(shù)據(jù) A 相同或類似。例如,某家用人單位偏重于男性求職者,但是想從海量的求職者中只挑男性,無疑會觸犯性別歧視的禁忌。因此,直接輸入“性別”是不可取的,但并非沒有曲徑?,F(xiàn)實(shí)中,男性的身高和體重通常會高于和重于女性。用人單位可以選擇輸入“身高”和“體重”數(shù)據(jù)從而達(dá)到實(shí)際排除女性的效果。由此可見,許多敏感的、歧視性的數(shù)據(jù)是可以被看似“無害”的數(shù)據(jù)替代,從而發(fā)揮數(shù)據(jù)輸入者想要的后果。
結(jié)論與對策
算法歧視無法避免,只能盡可能控制。一是算法的事后公開審查。當(dāng)出現(xiàn)算法歧視的后果之后,應(yīng)當(dāng)要求使用算法的商業(yè)主體向相應(yīng)的主管部門公開算法,并闡釋算法的內(nèi)在邏輯,以供主管部門判斷擔(dān)責(zé)與否。不過,這種公開應(yīng)當(dāng)局限在一定范圍內(nèi),僅向主管部門公開,供其審查。同時(shí),這種公開應(yīng)當(dāng)是在歧視結(jié)果發(fā)生之后,因?yàn)槭虑肮_不具備道義上的合理性,還可能泄露商業(yè)秘密。二是輸入數(shù)據(jù)的存證備查。鑒于有傾向性的數(shù)據(jù)更容易導(dǎo)致算法歧視發(fā)生, 對輸入數(shù)據(jù)的監(jiān)管應(yīng)是重點(diǎn)。應(yīng)要求商業(yè)主體秘密存儲輸入算法的數(shù)據(jù),同當(dāng)初有關(guān)這些數(shù)據(jù)選擇、收集和排除歧視性數(shù)據(jù)的相關(guān)活動都應(yīng)被完整記錄下來。當(dāng)主管部門向商業(yè)主體質(zhì)詢時(shí),商業(yè)主體應(yīng)當(dāng)提供上述記錄,從而證明己方已盡到“合理”的注意義務(wù),從而在數(shù)據(jù)輸入層面對算法歧視后果沒有過錯。三是算法的固定周期復(fù)核機(jī)制。業(yè)界對人工智能的算法存在一種擔(dān)憂,即隨著機(jī)器學(xué)習(xí)的水平不斷提高,算法會自動升級,發(fā)生不同于最初設(shè)計(jì)的異變,從而違背設(shè)計(jì)的初衷。為了防止這些現(xiàn)象出現(xiàn),可安排對算法的定期復(fù)核,主要內(nèi)容是算法是否發(fā)生變化、變化的具體影響。
明確算法歧視的責(zé)任主體和歸責(zé)原則,嘗試引入“純粹經(jīng)濟(jì)損失”制度。一是明確算法歧視的責(zé)任主體。為算法歧視承擔(dān)法律責(zé)任的,主要是那些注入歧視因子或有義務(wù)卻未能及時(shí)排除歧視因子的主體。 一方面,如果算法本身就包含歧視內(nèi)容,則算法編制者是責(zé)任主體; 另一方面,數(shù)據(jù)的選取、收集、輸入者,在對數(shù)據(jù)進(jìn)行選取、收集和輸入的過程中,如果故意有歧視性操作并造成算法歧視后果的,也應(yīng)承擔(dān)法律責(zé)任。此外,因?yàn)樗惴赡軙晕业M(jìn)化,需要對算法進(jìn)行定期核查。如果是核查者玩忽職守甚至于忽略自我進(jìn)化后的算法呈現(xiàn)新的歧視傾向,則要承擔(dān)相應(yīng)法律責(zé)任。二是確定算法歧視的歸責(zé)原則。算法歧視會給被歧視者造成精神或物質(zhì)層面的損害,理應(yīng)受到侵權(quán)法的規(guī)制。但算法歧視應(yīng)當(dāng)適用何種歸責(zé)原則,即以什么樣的標(biāo)準(zhǔn)來判斷相關(guān)主體是否應(yīng)為算法歧視負(fù)責(zé)需與傳統(tǒng)情況有別;按照現(xiàn)有侵權(quán)法歸責(zé)原則,主要有過錯原則、過錯推定原則和無過錯原則。雖然侵權(quán)法以過錯原則為大多數(shù)情況,但針對算法歧視的歸責(zé)原則應(yīng)當(dāng)以無過錯原則為準(zhǔn)。因判斷過錯要透過責(zé)任者的外部行為,但算法涉及高深的專業(yè)知識,被歧視者通常不具備理解能力,更遑論透過算法判斷商業(yè)主體的主觀狀態(tài)了。即使采用過錯推定原則,商業(yè)主體也可以憑借專業(yè)知識和財(cái)富能力,證明自己并無過錯,被歧視者亦無駁斥能力。因此,從救濟(jì)被歧視者和增強(qiáng)公眾信心的角度出發(fā),以無過錯原則更為合適。三是關(guān)注算法歧視帶來的“純粹經(jīng)濟(jì)損失”?!凹兇饨?jīng)濟(jì)損失”是損害賠償法的重要概念。一個(gè)經(jīng)典的案例是:工人過失挖斷電纜,因停電而導(dǎo)致工廠停工、冷藏庫商品失效等。在這一系列的后果中,工人的行為只是直接損害了電纜,工廠主或者冷藏庫主的財(cái)產(chǎn)、人身雖未受到工人挖斷電纜行為的直接侵害,卻因此蒙受經(jīng)濟(jì)損失,由此發(fā)生的損失被稱為純粹經(jīng)濟(jì)損失。實(shí)際上,純粹經(jīng)濟(jì)損失的提出,是為了給予受害者充分完全的損害救濟(jì),但因?yàn)閾?dān)心將此概念完全貫徹于立法會導(dǎo)致“訴訟泛濫”和每個(gè)人對自己行為后果的不確定性,因此各國立法普遍對純粹經(jīng)濟(jì)損失持十分慎重的態(tài)度,除了極為特殊的情形,一般不予適用。在人工智能的算法時(shí)代,純粹經(jīng)濟(jì)損失有了全新的意義?;谒惴ㄆ缫暤娜斯ぶ悄芴幚斫Y(jié)果可能只是一個(gè)判斷或決定,或許并未“直接”傷害受害者的人身和財(cái)產(chǎn),但是受害者基于人工智能的算法歧視間接、客觀地蒙受了巨大經(jīng)濟(jì)損失。按照一般的侵權(quán)損害賠償原理,間接經(jīng)濟(jì)損失無法獲賠,直接的經(jīng)濟(jì)損失又微不足道?!凹兇饨?jīng)濟(jì)損失”則既能通過拉長損害賠償?shù)囊蚬P(guān)系鏈條而實(shí)現(xiàn)充分賠償,又具備理論合理性,是破解算法時(shí)代賠償困局的法律方案中的一個(gè)重要方法。