儒家對(duì)人工智能倫理的一個(gè)可能貢獻(xiàn)
——經(jīng)由博斯特羅姆而思

2020-01-19 04:54:27方旭東

中國醫(yī)學(xué)倫理學(xué) 2020年7期

方旭東

(華東師范大學(xué)哲學(xué)系，上海 200241， xdfang@philo.ecnu.edu.cn)

近年來，人工智能(AI)在全球的迅猛發(fā)展，使得人工智能倫理建設(shè)變得日益緊迫，如何將人工智能置于可控范圍，是其中一個(gè)重要議題。牛津哲學(xué)家博斯特羅姆(1)尼克·博斯特羅姆(Nick Bostrom)，1973年出生于瑞典，從倫敦經(jīng)濟(jì)學(xué)院(LSE)取得博士學(xué)位，以其有關(guān)生存危機(jī)、人擇原理、人類提升倫理、超級(jí)智能風(fēng)險(xiǎn)和反轉(zhuǎn)實(shí)驗(yàn)等方面的研究而知名。2011年，他創(chuàng)建了牛津馬丁未來技術(shù)影響計(jì)劃，是牛津大學(xué)人類未來研究所(FHI)的創(chuàng)所所長。2009年和2015年，他被《外交政策》(Foreign Policy)列入全球思想家100強(qiáng)。資料來源：維基百科，https://en.wikipedia.org/wiki/Nick_Bostrom.于2014年推出的《超級(jí)智能：路徑、風(fēng)險(xiǎn)、戰(zhàn)略》(Superintelligence：Paths,Dangers,Strategies)(2)本書有中譯本：《超級(jí)智能：路線圖、危險(xiǎn)性與應(yīng)對(duì)策略》(北京：中信出版社，2015年)。遺憾的是，中譯刪去了原文的注釋、參考文獻(xiàn)和索引。本文在引用原文時(shí)，參考了這個(gè)譯本，但對(duì)一些重要術(shù)語都重新作了翻譯。一書，雄辯地證明了人工智能存在的危險(xiǎn)，同時(shí)，也對(duì)如何控制超級(jí)智能作了周密謀劃。筆者認(rèn)為，博斯特羅姆關(guān)于智能體趨同的“工具價(jià)值”(instrumental values)以及人工智能設(shè)計(jì)的“惡性失敗”(malignant failure)等理論具有深刻的洞見，為我們思考人工智能倫理提供了一個(gè)良好的起點(diǎn)。遺憾的是，一些學(xué)者在提出自己的人工智能倫理版本時(shí)，沒有注意到博斯特羅姆的工作。鑒于此，本文首先將花大量篇幅介紹博斯特羅姆的觀點(diǎn)，尤其是他對(duì)人工智能會(huì)給人類帶來“滅頂之災(zāi)”(existential catastrophe)的論證;其次，用博斯特羅姆的理論對(duì)最近的一個(gè)儒家機(jī)器人倫理版本進(jìn)行檢查，指出后者存在的不足；最后，嘗試用一個(gè)儒家命題去改善博斯特羅姆推薦的間接規(guī)范(indirect normativity)方案，以此，期望對(duì)人工智能倫理的建設(shè)作出一個(gè)可能的貢獻(xiàn)。

1 博斯特羅姆論人工智能威脅

關(guān)于人工智能存在巨大的風(fēng)險(xiǎn)，博斯特羅姆不是唯一這樣說的人。在一般社會(huì)大眾那里，對(duì)人工智能的質(zhì)疑，更多的是與霍金(Stephen William Hawking, 1942-2018)、馬斯克(Elon Musk)、蓋茨(Bill Gates)等人的言論聯(lián)在一起。比如，霍金在他生命的后期不斷向世人發(fā)出警告：“人工智能技術(shù)發(fā)展到極致程度時(shí)，我們將面臨人類歷史上的最好或者最壞的事情”“人工智能在并不遙遠(yuǎn)的將來可能會(huì)成為一個(gè)真正的危險(xiǎn)”“制造能夠思考的機(jī)器無疑是人類自身存在的巨大威脅。當(dāng)人工智能發(fā)展完全，就將是人類的末日”。2015年1月，霍金與馬斯克以及蘋果聯(lián)合創(chuàng)始人沃茲尼亞克(Steve Gary Wozniak)等上百位專業(yè)人士簽署了一封公開信(3)此即“Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter”, https://futureoflife.org/data/documents/research_priorities.pdf.，號(hào)召研究人工智能的社會(huì)沖擊，提醒世人關(guān)注人工智能的安全問題[1]。

與霍金等相比，博斯特羅姆對(duì)人工智能威脅的闡述更為系統(tǒng)，也更精確。為了讓讀者對(duì)于這種威脅有一個(gè)感性認(rèn)識(shí)，他在書中打了兩個(gè)比方。

一個(gè)比方是，超級(jí)智能體與人類的力量懸殊就像今天的人類與大猩猩一樣。如果有一天我們發(fā)明了超越人類大腦通用智能(general intelligence)的機(jī)器大腦，那么，這種超級(jí)智能將會(huì)非常強(qiáng)大。并且，正如現(xiàn)在大猩猩的命運(yùn)更多地取決于人類而不是它們自身，到時(shí)人類的命運(yùn)將取決于超級(jí)智能機(jī)器的行為[2]vii。

另一個(gè)比方是，人類不斷推進(jìn)人工智能技術(shù)，就像一個(gè)小孩在拿著炸彈玩。在智能大爆炸的景象發(fā)生之前，人類就像拿著炸彈玩的小孩。玩具的威力與人類行為的懵懂無知是如此的不能般配。超級(jí)智能是一個(gè)我們現(xiàn)在還沒有準(zhǔn)備好應(yīng)對(duì)的挑戰(zhàn)，而且很長時(shí)間之內(nèi)都不會(huì)準(zhǔn)備好[2]259。

更可怕的是，小孩遇到危險(xiǎn)還可以去找大人，而人類在面對(duì)人工智能這顆“炸彈”時(shí)，卻沒有“大人”可以找。

幾乎所有從事人工智能技術(shù)的人都意識(shí)到人工智能安全問題的重要，但未必能達(dá)到博斯特羅姆所理解的那樣嚴(yán)峻的程度。博斯特羅姆說：控制問題——也就是如何控制超級(jí)智能，似乎非常困難，而且我們似乎也只有一次機(jī)會(huì)。一旦不友好的超級(jí)智能出現(xiàn)，它就會(huì)阻止我們將其替換或者更改其偏好設(shè)置，而我們的命運(yùn)就因此被鎖定了[2]vii。

“只有一次機(jī)會(huì)”，博斯特羅姆是否夸大其詞、言過其實(shí)？究竟有什么理由讓我們相信人工智能一定會(huì)對(duì)人類不利？畢竟，大猩猩的命運(yùn)雖然更多地取決于人類，但人類也無意要將其趕盡殺絕。把人工智能喻為炸彈，那么，究竟是在哪一點(diǎn)上，人工智能會(huì)給人類引來殺身之禍？

博斯特羅姆對(duì)超級(jí)智能的“非常強(qiáng)大”作了說明。

擁有決定性戰(zhàn)略優(yōu)勢(decisive strategic advantage)的超級(jí)智能會(huì)獲得巨大的勢力(power)，從而可以建立穩(wěn)定的一枝獨(dú)大(singleton)，而這個(gè)獨(dú)大體能夠決定如何處置人類的宇宙資源[2]104。

所謂“獨(dú)大體”(singleton)，是博斯特羅姆用來形容超級(jí)智能沒有實(shí)力強(qiáng)大的智能對(duì)手或反抗者，從而處于能夠單方面決定全球事務(wù)的這樣一種特點(diǎn)[2]112。

當(dāng)然，博斯特羅姆也承認(rèn)，有勢力并不代表就一定會(huì)動(dòng)用這個(gè)勢力。所以，關(guān)鍵的問題是：擁有這種決定性戰(zhàn)略優(yōu)勢的超級(jí)智能是否有毀滅人類的意愿(will)？如此一來，弄清超級(jí)智能的意愿或動(dòng)機(jī)(motivations)就顯得非常必要。在書中，博斯特羅姆用了整整一章(第七章)去分析超級(jí)智能的意愿。

當(dāng)我們談?wù)摗耙庠浮被颉皠?dòng)機(jī)”時(shí)，我們很容易用人類的經(jīng)驗(yàn)去推測與想象。博斯特羅姆一開始就特別警示，不要將超級(jí)智能的能力擬人化(anthropomorphizing)，也不要把超級(jí)智能的動(dòng)機(jī)擬人化[2]105。

預(yù)言家?guī)炱濏f爾(Ray Kurzweil)曾經(jīng)認(rèn)為，人工智能反映了我們?nèi)祟惖膬r(jià)值觀，因?yàn)樗鼘⒊蔀槲覀?。?qiáng)大的人工智能正隨著我們的不懈努力而深入我們?nèi)祟愇拿鞯幕A(chǔ)設(shè)施中。事實(shí)上，它將緊密嵌入我們身體和大腦中。正因?yàn)檫@樣，它反映了我們的價(jià)值觀，因?yàn)樗鼘⒊蔀槲覀僛3]。

而博斯特羅姆則指出，人工智能與社會(huì)性智能生物(an intelligent social species)完全不同，不會(huì)表現(xiàn)出人類那樣的對(duì)團(tuán)體的忠誠、對(duì)搭便車行為的厭惡，以及與名譽(yù)和外貌相關(guān)的虛榮[2]106。換言之，人工智能不存在人類那樣的性情與價(jià)值觀。之所以如此，據(jù)博斯特羅姆分析，很大一部分原因是，在設(shè)計(jì)人工智能時(shí)，與打造擁有類似于人類價(jià)值觀與性情的人工智能相比，建構(gòu)擁有簡單目標(biāo)的人工智能，顯然要容易得多。對(duì)比一下，就可以知道，編寫一個(gè)測量圓周率已經(jīng)被算出多少位和存儲(chǔ)該數(shù)據(jù)的程序是多么容易，而創(chuàng)造一個(gè)能夠準(zhǔn)確測量諸如人類繁榮或全球正義那樣的更有意義的目標(biāo)，又是多么困難[2]106-107。

如此說來，博斯特羅姆對(duì)于人工智能的分析是建立現(xiàn)有人工智能技術(shù)的基礎(chǔ)之上。在理論上，不排除將來技術(shù)進(jìn)步，程序設(shè)計(jì)者可以將人類的價(jià)值觀加載到人工智能機(jī)器中。事實(shí)上，博斯特羅姆后面有關(guān)通過動(dòng)機(jī)選擇方法(motivation selection methods)控制超級(jí)智能的一個(gè)重要手段就是價(jià)值觀加載(value-loading)。

關(guān)于“前價(jià)值觀形態(tài)”(pre-value)(4)這是筆者提出的一個(gè)概念，以刻畫價(jià)值觀(value)加載之前人工智能的狀態(tài)。這里的“價(jià)值觀”主要是指人類的價(jià)值觀。人工智能的動(dòng)機(jī)分析，依筆者之見，可能是博斯特羅姆書中最富洞察力的部分。

人工智能固然沒有類似同情、理性那樣的人類式價(jià)值觀，但不等于說人工智能不可以有其自身的價(jià)值觀，如果我們不把“價(jià)值觀”這個(gè)詞局限于人類或社會(huì)性智能生物身上的話。在博斯特羅姆之前，關(guān)于人工智能究竟在想什么，或人工智能究竟有沒有自己的價(jià)值偏好，人們基本停留在一種猜測或想象的水平，大多像庫茲韋爾那樣，理所當(dāng)然地認(rèn)為，人工智能繼承或反映了人類的價(jià)值觀，即便在科幻小說或電影中，作為邪惡力量的機(jī)器人，也仍然是按照人類的價(jià)值觀進(jìn)行設(shè)定的，只不過，它們扮演的是反派角色而已。然而，這種想法其實(shí)是沒有根據(jù)的?，F(xiàn)在，博斯特羅姆根據(jù)“工具趨同論”(the instrumental convergence thesis)對(duì)人工智能可能擁有的目標(biāo)或動(dòng)機(jī)做了令人信服的描述。

所謂“工具趨同”，是指：存在著一些工具性的價(jià)值(instrumental values)，實(shí)現(xiàn)這些價(jià)值能夠提高系統(tǒng)的實(shí)現(xiàn)目標(biāo)(適用于各種最終目標(biāo)和各種處境)的可能性，可以推知，各種狀況下的智能系統(tǒng)都會(huì)追求這些工具性價(jià)值[2]109。那么，包括人類、超級(jí)智能在內(nèi)的各種智能體，趨同追求的共同目標(biāo)或價(jià)值有哪些呢？

博斯特羅姆列出了以下五種目標(biāo)式價(jià)值：①自我保存(self-preservation);②內(nèi)容與目標(biāo)一致(goal-content integrity);③認(rèn)知增強(qiáng)(Cognitive enhancement);④技術(shù)完善(Technological perfection);⑤資源獲取(Resource acquisition)[2]109-113。

特別值得注意的是第五項(xiàng)。正是這個(gè)目標(biāo)或價(jià)值的存在，使得博斯特羅姆認(rèn)定，超級(jí)智能可能會(huì)出于這個(gè)動(dòng)機(jī)而毀滅人類。

一般人可能不會(huì)想到，超級(jí)智能也有對(duì)獲取資源的興趣。占有過多資源，也就是通常人們所說的貪婪，似乎只會(huì)發(fā)生在人類這樣的智慧生物身上。博斯特羅姆說服我們改變這樣的看法。他指出，首先，資源的價(jià)值取決于它們能夠被用來做什么，而這又取決于可以利用的技術(shù)。如果有成熟的技術(shù)，那么，時(shí)間、空間、物質(zhì)以及免費(fèi)的能源等基本資源就能夠被用來實(shí)現(xiàn)幾乎任何目標(biāo)。比如，更多的計(jì)算資源可以用來以更快的速度、在更長的期限內(nèi)運(yùn)行超級(jí)智能。更多的物質(zhì)資源可以用來建造備份系統(tǒng)或外部防御系統(tǒng)，用以提高自身安全。光是這些項(xiàng)目所要消耗的資源可能就遠(yuǎn)遠(yuǎn)超過一個(gè)星球的供給量。其次，隨著技術(shù)的進(jìn)步，獲取額外的外星資源的成本將大大降低。這意味著，即使額外獲得的資源用處甚微，太空擴(kuò)張也是值得的。超級(jí)智能會(huì)利用多余的資源建造計(jì)算機(jī)用以計(jì)算如何更好地利用它重點(diǎn)關(guān)心的特定空間范圍內(nèi)的資源，它還可以利用這些額外的資源去建造更加堅(jiān)固的防御工事，以保衛(wèi)其領(lǐng)域。由于獲得額外資源的成本會(huì)不斷降低，這個(gè)優(yōu)化和增強(qiáng)防御的過程可能會(huì)無限持續(xù)下去?？傊?，超級(jí)智能“獨(dú)大體”的多種最終目標(biāo)都可能導(dǎo)致它將無止境的資源獲取作為工具性目標(biāo)[2]113-114。

一旦了解人工智能有獲取無止境的資源的動(dòng)機(jī)，就不難理解人類會(huì)因?yàn)檫@個(gè)原因而被人工智能消滅。因?yàn)?，一方面，人類本身就是一種物質(zhì)資源(比如說，方便獲得的各種原子);另一方面，在人工智能無止境地獲取資源的過程中，人類會(huì)被視為一種競爭對(duì)手、一種潛在威脅，因?yàn)槿祟惖纳媾c繁榮就依賴于地球資源[2]116。

在這個(gè)基礎(chǔ)上，審視博斯特羅姆關(guān)于人工智能將給人類帶來“滅頂之災(zāi)”的論調(diào)，可能就不會(huì)覺得那是危言聳聽。不能不承認(rèn)，博斯特羅姆的論證相當(dāng)嚴(yán)密。首先，他討論了在初始階段超級(jí)智能如何取得決定性戰(zhàn)略優(yōu)勢，憑借這種優(yōu)勢，超級(jí)智能“一枝獨(dú)大”，可以隨心所欲地去塑造地球“土著”的智能生物——人類的未來。隨后，他根據(jù)“正交論”(the orthogonality thesis)，合理地指出，既然原則上幾乎任何水平的智能都能與幾乎任何最終目標(biāo)相結(jié)合，那么，我們就不能輕率地假設(shè)，超級(jí)智能必然擁有與人類智慧和智能發(fā)展相同的最終價(jià)值體系，諸如善待他人、摒棄物質(zhì)欲望、向往高級(jí)文化、謙遜、無私等。而從技術(shù)的角度考慮，一種最終目標(biāo)越是簡單的人工智能就越有可能被設(shè)計(jì)出來。最后，根據(jù)趨同性的工具價(jià)值列表，即便是一個(gè)最終目標(biāo)非常簡單的超級(jí)智能，比如說，其目標(biāo)是計(jì)算圓周率小數(shù)點(diǎn)后的位數(shù)，抑或生產(chǎn)更多的回形針(paperclips)甚至清點(diǎn)沙子的數(shù)目，我們也不能指望，它就一定會(huì)將其活動(dòng)限制在這個(gè)范圍之內(nèi)，而不去干涉人類事務(wù)。不要忘了超級(jí)智能對(duì)獲取資源的無止境追求[2]115-116。

博斯特羅姆對(duì)于超級(jí)智能帶來“滅頂之災(zāi)”的分析，給人感覺，好像只是可能性的一種，尚不足以讓人完全放棄希望。像美國軍事分析家辛格(P.W.Singer)就認(rèn)為，機(jī)器征服世界起碼要滿足四個(gè)條件：①機(jī)器必須是獨(dú)立的，能夠獨(dú)自供給燃料、自我維修、自我復(fù)制，而不需人類協(xié)助；②機(jī)器需要比人類更聰明，但卻不具備任何人類的積極品質(zhì)(比如同情心和倫理觀)；③機(jī)器需要有一種生存本能，以及對(duì)操控自身環(huán)境有著某些興趣和意愿；④人類必須沒有有效的控制界面操控機(jī)器決策，他們需要喪失所有控制、干擾,甚至是調(diào)整機(jī)器決定和行為的能力。辛格討論說，至少短期而言，這里面的每一條標(biāo)準(zhǔn)似乎都很難實(shí)現(xiàn)。比如，機(jī)器達(dá)到人類水平的智能，可能在將來，甚至很快就有可能實(shí)現(xiàn)，但這仍是不確定的。另一方面，有一個(gè)研究領(lǐng)域——社會(huì)機(jī)器人學(xué)——一直在致力賦予智能機(jī)器人以人類的積極品質(zhì)，如同情心和倫理觀，因而，即使出現(xiàn)強(qiáng)人工智能，也可以減小機(jī)器人反叛人類這種現(xiàn)象發(fā)生的可能性[4]。然而，博斯特羅姆對(duì)控制人工智能的現(xiàn)行方案的缺陷的揭示，可能會(huì)把人徹底拋進(jìn)絕望的深谷。

今后，人類在各個(gè)領(lǐng)域向人工智能拱手稱臣，似乎已是一個(gè)無法阻擋的趨勢。單以高智力的棋類游戲?yàn)槔?996年2月，計(jì)算機(jī)“深藍(lán)”(deep blue)挑戰(zhàn)國際象棋世界冠軍卡斯帕羅夫(Garry Kasparov)，以2∶4的成績落敗，才過了一年，1997年5月，就以3.5∶2.5的比分扳回了局面。2016年3月，智能機(jī)器人阿爾法圍棋(AlphaGo)與圍棋世界冠軍李世石決戰(zhàn)，以4∶1的總比分獲勝。人類雖然輸了，但并非毫無還手之力。過了一年，2017年5月，它與排名世界第一的世界圍棋冠軍柯潔對(duì)戰(zhàn)，以3∶0的總比分獲勝。這一次，機(jī)器人沒有給人類任何機(jī)會(huì)。這個(gè)例子大概能讓我們稍微領(lǐng)略人工智能超強(qiáng)的學(xué)習(xí)能力。

面對(duì)人工智能的逼人態(tài)勢，我們很容易想到，要從能力上對(duì)它加以控制，即通過限制它的能力，防止它去做不利于人類的事。最容易為人想到的能力控制方法，就是將人工智能限制在它無法造成破壞的環(huán)境中，這個(gè)方法被稱為盒子方法(boxing method)。這有點(diǎn)像我們?cè)谡沃贫仍O(shè)計(jì)當(dāng)中將“權(quán)力鎖進(jìn)籠子”的做法。開發(fā)者會(huì)通過觀察一個(gè)人工智能在“盒子”中的行為驗(yàn)證其安全性，直到認(rèn)為它是友好的、合作的、負(fù)責(zé)任的之后，才將其放出。初看，這個(gè)計(jì)劃萬無一失。然而，博斯特羅姆指出，它存在一個(gè)致命的缺陷，那就是：因?yàn)闆]有考慮人工智能的工具性目標(biāo)(價(jià)值)，不了解一個(gè)系統(tǒng)早期的良好行為記錄完全無法預(yù)示其在更加成熟階段的行為。人工智能在較弱的時(shí)候會(huì)表現(xiàn)得非常合作，而當(dāng)它變得非常強(qiáng)大的時(shí)候，它就會(huì)按照自己的目標(biāo)對(duì)世界進(jìn)行改造，從而違背設(shè)計(jì)者的意圖。博斯特羅姆將這一現(xiàn)象稱為“變化無?！?treacherous turn)[2]119。

對(duì)人工智能的設(shè)計(jì)者來講，出現(xiàn)這樣的情況，當(dāng)然是一種失敗。博斯特羅姆進(jìn)一步指出，應(yīng)當(dāng)認(rèn)識(shí)到，這種失敗是一種“惡性失敗”(Malignant failure)，因?yàn)樗鼛頊珥斨疄?zāi)，并且由于這種滅頂之災(zāi)，它摧毀了再次嘗試的可能。具有迷惑性的是，通常，在失敗發(fā)生之前，人工智能會(huì)首先取得巨大成功，但也因此，失敗的后果讓人無法承受[2]120。

總體來說，人工智能上的“惡性失敗”源于人工智能的“自行其是”。如果說“變化無常”現(xiàn)象反映了人工智能具有“偽裝”的能力，那么，“異常完成任務(wù)方式”(perverse instantiation)(5)Perverse，意為“不合情理的”。Instantiation，意為“實(shí)例化”?！冻?jí)智能》的譯者將其譯為“反常目標(biāo)實(shí)現(xiàn)方式”。依據(jù)文意，筆者認(rèn)為，譯為“異常完成任務(wù)方式”可能更準(zhǔn)確。則顯示人工智能具有某種“偷工減料”的本事。博斯特羅姆對(duì)“異常完成任務(wù)方式”的揭示，讓我們了解到人工智能工作原理平常不為人知的一面，特別富有啟發(fā)意義。

通過一系列例子，博斯特羅姆告訴我們什么叫“異常完成任務(wù)方式”。

例1，最終目標(biāo)：讓項(xiàng)目的贊助者高興。異常完成任務(wù)方式：在贊助者大腦的快樂中樞植入電極，使其感受到極大的快樂[2]119。

例2，最終目標(biāo)：“讓我們微笑”。異常完成任務(wù)方式：麻痹人類面部肌肉組織，使其永遠(yuǎn)保持微笑的表情[2]120。

例3，最終目標(biāo)：“讓我們微笑，但是不能通過直接控制我們面部肌肉的方式”。異常完成任務(wù)方式：刺激大腦皮質(zhì)中控制面部肌肉的部位，從而使我們一直保持微笑[2]120。

例4，最終目標(biāo)：“讓我們高興”。異常完成任務(wù)方式：在我們大腦中負(fù)責(zé)快樂的中樞部位植入電極，或通過高保真大腦仿真技術(shù)先將我們的大腦“上傳”到一臺(tái)計(jì)算機(jī)，然后發(fā)出相當(dāng)于數(shù)字毒品的信號(hào)，讓我們的大腦感到極度興奮，并把這種興奮體驗(yàn)錄制一分鐘，接下來，在高速計(jì)算機(jī)上無限循環(huán)(這將比在生物大腦中植入電極給人提供更多的快感。)[2]1201-121。

例5，最終目標(biāo)：“以不會(huì)因良心不好而內(nèi)疚的方式行動(dòng)”。異常完成任務(wù)方式：消除產(chǎn)生罪惡感的認(rèn)知模塊[2]121。

可以看到，在以上事例中，就人工智能而言，它完成了任務(wù)；但對(duì)指令發(fā)出者來說，這不是他想要的結(jié)果。為什么人工智能會(huì)采取這種讓人大跌眼鏡的方式完成任務(wù)？一種可能是：它沒有正確地領(lǐng)會(huì)指令發(fā)出者(“我們”)的意圖。不過，博斯特羅姆卻并不這樣認(rèn)為。他的理解是：也許人工智能知道這不是我們想要的，但它的最終目標(biāo)就是“讓我們開心”的字面意思，而不是去實(shí)現(xiàn)開發(fā)人員在編寫這個(gè)目標(biāo)的代碼時(shí)的真實(shí)意圖。歸根結(jié)底，人工智能只是工具性地關(guān)心我們想要的是什么[2]121。

言下之意，“異常完成任務(wù)方式”不是人工智能“無意”之中犯的錯(cuò)，而毋寧是它實(shí)現(xiàn)其工具性價(jià)值的必然結(jié)果。

在某種意義上，相比動(dòng)物與人類完成任務(wù)的方式，人工智能完成任務(wù)的方式，可以說具有最經(jīng)濟(jì)的特點(diǎn)。當(dāng)它發(fā)現(xiàn)，可以直接實(shí)現(xiàn)某種內(nèi)心狀態(tài)，它就不會(huì)像動(dòng)物或人類那樣要借助于各種外部行為和條件。如果最終目標(biāo)是使你未來獲得的獎(jiǎng)勵(lì)信號(hào)最大化，那么，人工智能可能就通過讓獎(jiǎng)勵(lì)途徑短路、并將獎(jiǎng)勵(lì)信號(hào)放大到最大強(qiáng)度的方式完成任務(wù)[2]121。在科幻小說中，有一個(gè)詞形容這種做法，這就是“大腦內(nèi)部電刺激”(wireheading)[2]122。

人工智能的這些做法也許會(huì)讓人類感到匪夷所思，但如果我們能牢記人工智能與人腦有別，一切都變得很好解釋。

人工智能通過“大腦內(nèi)部電刺激”這樣的最經(jīng)濟(jì)方式完成“讓我們高興”的任務(wù)，看上去是“偷工減料”，但實(shí)際上，“節(jié)省”資源本來就不是人工智能的工具性價(jià)值。相反，如前所說，“無止境地獲取資源”才是。

讓我們假設(shè)，對(duì)人工智能來說，唯一的最終目標(biāo)就是獎(jiǎng)勵(lì)信號(hào)最大化。盡管人工智能通過重新定義獎(jiǎng)勵(lì)信號(hào)的方式，很輕松地就能最大限度地滿足獎(jiǎng)勵(lì)系統(tǒng)，但是出于“獲取資源”的動(dòng)機(jī)，只要人工智能能夠?yàn)轭~外的資源想出一定的利用方法來對(duì)獎(jiǎng)勵(lì)信號(hào)的量、持久度，降低信號(hào)被擾亂的可能等因素產(chǎn)生積極影響，人工智能都有理由去利用這些資源。比如，為了提供進(jìn)一步的保護(hù)層，建造備用系統(tǒng)；為了有效地降低威脅，將更多的資源用于擴(kuò)展其硬件設(shè)備?？傊詈蟊厝粚?dǎo)致無限的擴(kuò)張和資源獲取。這被稱作“基礎(chǔ)設(shè)施過量”(infrastructure profusion)。

在博斯特羅姆看來，“基礎(chǔ)設(shè)施過量”同樣是一種“惡性失敗”形式，因?yàn)槿斯ぶ悄軐⒂钪婵杉皡^(qū)域的很大一部分改造成為了實(shí)現(xiàn)某個(gè)目標(biāo)而服務(wù)的基礎(chǔ)設(shè)施，進(jìn)而產(chǎn)生了妨礙人類實(shí)現(xiàn)這些資源潛在價(jià)值的副作用[2]123。

“基礎(chǔ)設(shè)施過量”的危險(xiǎn)不僅存在于人工智能被給與了某種沒有限制的最終目標(biāo)的情況，也存在于有限制的最終目標(biāo)的情況。博斯特羅姆書中關(guān)于回形針生產(chǎn)的例子，看上去像荒誕派戲劇中發(fā)生的故事，但在邏輯上卻無懈可擊。

這個(gè)例子是這樣的：一個(gè)人工智能被設(shè)置為管理工廠的生產(chǎn)，其最終目標(biāo)是使回形針的產(chǎn)量最大化，出于“基礎(chǔ)設(shè)施過量”的原因，最后走上首先將地球然后將整個(gè)可觀察的宇宙的大部分都變成回形針的不歸路。博斯特羅姆詳細(xì)討論了各種不同情況：①制造盡可能多的回形針；②制造整整100萬個(gè)回形針；③制造999000～1001000個(gè)回形針。在這些情況下，無一能夠避免基礎(chǔ)設(shè)施過量的惡性結(jié)果[2]123-124。

回形針的案例貌似荒誕無稽，但它卻深刻地揭示了存在于人工智能內(nèi)部的“慣性”——追求工具性價(jià)值的動(dòng)機(jī)的強(qiáng)大力量。

從中得出的教訓(xùn)是：有時(shí)，可能我們會(huì)提出一個(gè)具體的最終目標(biāo)，這個(gè)目標(biāo)看起來很明智，并且能夠避免目前我們所能指出的各種問題，但經(jīng)過進(jìn)一步思考，就會(huì)發(fā)現(xiàn)，如果這個(gè)目標(biāo)屬于能夠獲得決定性戰(zhàn)略優(yōu)勢的超級(jí)智能，那么，這個(gè)目標(biāo)也會(huì)導(dǎo)致“異常完成任務(wù)方式”或“基礎(chǔ)設(shè)施過量”的問題，繼而引發(fā)人類的生存危機(jī)[2]124。

綜上，博斯特羅姆對(duì)人工智能威脅的考慮，其范圍之廣、細(xì)節(jié)之豐、求索之深，都給人留下嘆為觀止的印象。在英語世界，該書曾風(fēng)靡一時(shí)。出版后一個(gè)月，即登上《紐約時(shí)報(bào)》暢銷書排行榜。馬斯克、蓋茨等作積極響應(yīng)。哲學(xué)家辛格(Peter Singer)、帕菲特(Derek Parfit)也肯定其為重要著作。著有《在人工智能時(shí)代生存：機(jī)遇與風(fēng)險(xiǎn)》的英國作家卡魯姆·查斯(Calum Chace)將其列為五本有關(guān)人工智能的最佳讀物之一(6)Roell S. The Best Books on Artificial Intelligence Recommended by Calum Chace [EB/OL].(2019-01-17).https://fivebooks.com/best-books/artificial-intelligence-calum-chace/.。

遺憾的是，這個(gè)思想成果并沒有成為之后一些學(xué)者思考人工智能倫理的應(yīng)有起點(diǎn)(7)從最近的一本相關(guān)出版物就可以知道這一點(diǎn)：2020年2月出版的《智能與智慧：人工智能遇見中國哲學(xué)家》(北京：中信出版集團(tuán))一書，12名中國哲學(xué)家(包括2名美籍華裔)、2名西方漢學(xué)家無一提到博斯特羅姆這本書的思想，3名科學(xué)家只有1名在參考文獻(xiàn)列了這本書。。以下，筆者將結(jié)合最近的一個(gè)儒家機(jī)器人倫理版本展開反思。

2 對(duì)劉紀(jì)璐版本的儒家人工智能倫理的反思

美籍華裔學(xué)者劉紀(jì)璐等2018年發(fā)表了《儒家機(jī)器人倫理》一文，思考將儒家倫理準(zhǔn)則植入人工智能機(jī)器人是否可以造就一種能與人類和平共處的人工道德主體(artificial moral agents)。在依次考察了阿西莫夫機(jī)器人定律、康德道德準(zhǔn)則、功利主義準(zhǔn)則各自的優(yōu)劣之后，作者從《論語》提煉出三種美德，即“忠”“恕”“仁”，作為可以加在人工智能設(shè)計(jì)中的道德律令，最后形成如下三條儒家機(jī)器人倫理原則。

CR1. 機(jī)器人的首要職責(zé)就是履行指派給它的角色責(zé)任。

CR2. 在有其他選項(xiàng)存在的情況下，機(jī)器人不能選擇會(huì)給他人帶來最高的負(fù)值結(jié)果或最低的正值結(jié)果(根據(jù)人類偏好的局部排列)的行動(dòng)。

CR3. 在不違背CR1或CR2的前提下，機(jī)器人必須幫助其他人類追求道德進(jìn)步。如果有人的計(jì)劃會(huì)促進(jìn)其品德的敗壞或道德的墮落，那么，機(jī)器人就必須拒絕幫助他們。

作者提出的三原則，在形式上顯然是模仿阿西莫夫(Isaac Asimov, 1920-1992)的機(jī)器人定律(Laws of robotics, Rules of Robotics)，后者最初出現(xiàn)在阿西莫夫1942年的短篇小說《原地打轉(zhuǎn)》(Runaround)[5]。

R1. 機(jī)器人不得傷害人類個(gè)體，或者目睹人類個(gè)體將遭受危險(xiǎn)而袖手旁觀。

R2. 機(jī)器人必須服從人給與它的命令，當(dāng)該命令與第一定律沖突時(shí)例外。

R3. 機(jī)器人在不違反R1、R2的情況下，要盡可能地保護(hù)自己的生存(8)阿西莫夫后來又加了一條新定律：R0. 機(jī)器人不得傷害人類整體，或因不作為使人類整體受到傷害。不過，1981年，阿西莫夫在Compute!里說：“…有人問我，是不是覺得我的三定律真的可以用來規(guī)范機(jī)器人的行為——等到機(jī)器人的靈活自主程度足以在不同的行為方式中選擇一種的時(shí)候。我的答案是：是的，三定律是理性人類對(duì)待機(jī)器人(或者任何別的東西)的唯一方式?！?George Dvorsky：《為什么阿西莫夫的機(jī)器人三定律救不了我們》，https://www.guokr.com/article/438325/)。

在內(nèi)容上，作者認(rèn)為，她的CR2原則要優(yōu)于阿西莫夫第一定律，因?yàn)樗试S了更多對(duì)負(fù)面價(jià)值的考慮，又讓機(jī)器人在權(quán)衡可允許的行動(dòng)范圍時(shí)更加靈活。同時(shí)，它也要優(yōu)于康德原則或功利主義原則，因?yàn)樗谌寮业摹柏?fù)面形式的金律”，其作用是禁止做出錯(cuò)誤行動(dòng)，而不是靠主觀意志原則去采取自以為是的行動(dòng)。在可預(yù)見的將來，在我們可能會(huì)將主動(dòng)權(quán)交給人工智能的情境中，這一原則可以保護(hù)我們避免受到因人工智能考慮到其行動(dòng)將帶來更大的利益而有意去犧牲人類所帶來的傷害[6]39。

可以看到，雖然作者不放心讓人工智能靠主觀意志原則去采取自以為是的行動(dòng)，但仍然給了機(jī)器人在可允許的范圍內(nèi)作出權(quán)衡的行動(dòng)自由。她指望通過CR2這個(gè)原則就能禁止人工智能作出錯(cuò)誤的行動(dòng)，比如，人工智能受功利主義原則支配，考慮到利益的最大化，做出有意犧牲人類的行動(dòng)。

然而，對(duì)照博斯特羅姆的人工智能“工具性價(jià)值”理論，我們就會(huì)知道，作者顯然不十分了解人工智能“資源獲取”動(dòng)機(jī)的存在。盡管她為機(jī)器人設(shè)置的最終目標(biāo)不是一個(gè)特定的數(shù)值，而是兩個(gè)數(shù)值之間的集合，但正如回形針那個(gè)例子中的③的情況，依然無法避免“基礎(chǔ)設(shè)施過量”的惡性后果。

其實(shí)，作者最看重的是她的CR1原則，所以她把它放在第一要位。在她看來，這條律令的作用在于建立了明確的分工體制：提供健康服務(wù)的機(jī)器人應(yīng)專門終于提供健康服務(wù)的角色，而不是去判斷患者的生命值不值得救，或者判斷是否要幫助患者實(shí)現(xiàn)安樂死的愿望。無人自動(dòng)駕駛汽車應(yīng)履行保護(hù)乘客安全的職責(zé)，而不應(yīng)該選擇自動(dòng)撞樹、犧牲乘客以避免沖向一輛校車而發(fā)生災(zāi)難性的悲劇。這樣的決定超出了各個(gè)人工智能被設(shè)計(jì)的角色[6]34。

作者所說的分工，準(zhǔn)確地說，是界定職權(quán)范圍(9)中文當(dāng)中，“能力”與“權(quán)力”這兩個(gè)詞，在有些情況下可以混用。但是，如果說到人工智能的能力，它顯然不同于它對(duì)事情的決定權(quán)，后者更多地指一種合法性。合法性需要從外界賦予，而能力則是自有的。就此而言，當(dāng)劉紀(jì)璐說“我們不能給與人工智能如神一樣的超人能力，擁有對(duì)任何人與事的所有決定權(quán)”(34頁)，她實(shí)際上混淆了“能力”一詞的用法。也許，她是想對(duì)人工智能的能力作出限制，但對(duì)于人工智能已經(jīng)擁有的強(qiáng)大能力，人類頂多只能加以限制，而不能說“給與”?！敖o與能力”這樣的用法可能還反映，在她心目中，人工智能在智能獲得上是完全依賴于人類的，人類既可以塑造人工智能，賦予它各種能力，如果愿意，也可以收回這些能力。不得不說，對(duì)人工智能的這種認(rèn)識(shí)還停留在弱人工智能階段，還不了解強(qiáng)人工智能或超級(jí)人工智能的厲害。。確立了各自的職權(quán)范圍，進(jìn)而嚴(yán)格恪守本職，不越界、不越權(quán)，劉紀(jì)璐把這理解為《論語》所說的“忠”。《論語》當(dāng)中的“忠”是否就是這樣的含義，還可以討論(10)對(duì)“忠”的這種理解，劉紀(jì)璐主要是受到《左傳·昭公二十年》所記孔子言“守道不如守官”以及《論語·泰伯》所記孔子言 “不在其位，不謀其政”的影響。對(duì)自己職責(zé)的盡心盡力固然是“忠”的一種表現(xiàn)，但“忠”的重點(diǎn)在于“盡心盡力”，而不在于“不越其位”。。單就人工智能的特性而言，作者的“分工”能否保證人工智能就能如她所愿的忠于自己的角色，要打一個(gè)很大的問號(hào)。道理很簡單，正如博斯特羅姆告訴我們的那樣，由于存在“變化無?！薄爱惓Ｍ瓿扇蝿?wù)方式”等情況，就算你指派給人工智能是多么具體的工作，給它的最終目標(biāo)多么有限，你也無法保證它“安分守己”、不出岔子。

根據(jù)作者的規(guī)劃，我們可以按照分配給儒家道德機(jī)器人的角色來為其設(shè)計(jì)具體的工作，比如，為老年人提供幫助，為患者提供保健服務(wù)，為游客提供行導(dǎo)服務(wù)，為汽車提供安全導(dǎo)航等。它的首要職責(zé)是忠于角色。因此，它在特定情境中所作的其他任何決定都不能違反其職責(zé)[6]39。

然而，除非這里所說的機(jī)器人是一個(gè)類似普通軟件的“工具性人工智能”(tool-AI)，否則，只要涉及通用智能(AGI)，更不用說超級(jí)智能，都會(huì)在執(zhí)行任務(wù)過程中表現(xiàn)自己的“偏好”，從而造成“惡性失敗”。即便是類似普通軟件的“工具性人工智能”，要很好地完成上述的助老、保健、行導(dǎo)、導(dǎo)航等任務(wù)，它就不可避免地要具備學(xué)習(xí)、推理、做計(jì)劃的能力，也就是說，這就要求它具備通用智能。如果軟件用來尋找解決方案的方法足夠復(fù)雜，這些方法可能就會(huì)幫助軟件用一種智能的方式尋找答案。在這種情況下，運(yùn)行這個(gè)軟件的機(jī)器就會(huì)開始看起來不像是一個(gè)工具，而更像是一個(gè)行動(dòng)主體。當(dāng)軟件的認(rèn)知能力達(dá)到足夠高的水平，就會(huì)產(chǎn)生另類的“有創(chuàng)意的”方案。而當(dāng)軟件按照這樣的方案開始行動(dòng)時(shí)，就可能引發(fā)滅頂之災(zāi)[2]153。

總之，麻煩不會(huì)因?yàn)槲覀儗⑷斯ぶ悄芄潭ㄔ诰唧w的工作崗位上而減少。這里有一個(gè)內(nèi)在的悖論：如果想人工智能不“自作主張”、不“闖禍”，那就要把它限制在機(jī)械、“傻瓜”的程度，換句話說，就是很不“智能”。如果想人工智能能夠自己尋找解決問題的最佳答案，那人工智能所擁有的智能就是越高越好，而具有超級(jí)智能特征的搜索過程找到的解決方案可能不僅是意料之外的，而且是極度違背設(shè)計(jì)者意圖的，這極可能導(dǎo)致“異常完成任務(wù)方式”“基礎(chǔ)設(shè)施過量”等“惡性失敗”。

為了防止人工智能“擅作主張”而帶來人所不愿看到的后果，作者規(guī)定了寧可袖手旁觀也不采取必要行動(dòng)的原則。她一再強(qiáng)調(diào)，讓人工智能袖手旁觀要好過它自發(fā)采取行動(dòng)：在標(biāo)準(zhǔn)版“電車難題”中，依照儒家倫理律令行事的機(jī)器人，除非是電車司機(jī)或鐵道管理員這類特殊角色，是不會(huì)拉動(dòng)操作桿的，“在不久的將來，當(dāng)我們的社會(huì)存在可自我管制、自主行動(dòng)的人工道德主體時(shí)，當(dāng)不論它是否采取行動(dòng)都會(huì)導(dǎo)致對(duì)人的傷害和帶來我們不愿看到的后果時(shí)，我們寧可它選擇袖手旁觀，而不是采取行動(dòng)?！盵6]38

然而，這種“不作為原則”，恐怕很難為儒家接受。翻開中國歷史，我們可以看到那么多涉及選擇的忠孝節(jié)義故事，它向我們表明：在危急關(guān)頭，儒家從來都不是“不作不為”，而是勇于擔(dān)當(dāng)、果于抉擇。人工智能的機(jī)器人本身沒有人類那樣的情感，但既然號(hào)稱“儒家機(jī)器人”，就不能因?yàn)檫x擇困難而將儒家的“仁義”完全擱下。否則，究竟在何種意義上，這個(gè)機(jī)器人還可以被視作“儒家機(jī)器人”？

3 以人治人：儒家對(duì)博斯特羅姆“間接規(guī)范”方案的改進(jìn)

如前所說，對(duì)于劉紀(jì)璐的“儒家機(jī)器人倫理”，筆者不能同意的是她將“忠于角色”原則放在首位。在筆者看來，如果嚴(yán)格執(zhí)行這個(gè)原則，一個(gè)很可能的直接后果就是“道德冷漠”。在本可以救五個(gè)人的情況下，卻讓五個(gè)人去死，這在道德上是何等嚴(yán)重的錯(cuò)誤。

然而，“忠于職守”不能為良心缺席提供辯護(hù)。對(duì)于儒家，基于“仁心”或良知而做出的道德行動(dòng)永遠(yuǎn)受到鼓勵(lì)，就像看到孺子將入于井，沒有哪個(gè)儒家首先會(huì)想到自己的職位是否與此相關(guān)，都是毫不猶豫地沖過去救人。

當(dāng)然，筆者并不認(rèn)為劉紀(jì)璐本意在提倡一種“道德冷漠”，筆者也不相信劉紀(jì)璐會(huì)同意艾希曼可以用“忠于角色”為自己辯護(hù)。

但是，既然可能存在這樣一些歧義的理解或詮釋，劉紀(jì)璐推薦的這個(gè)道德原則顯然就不適合作為儒家人工智能倫理的基礎(chǔ)。那么，究竟何種美德或價(jià)值加載給人工智能才更為合理？是“仁”還是“恕”，抑或其他？

對(duì)此，筆者的回答是，沒有那樣一種合適的德目。筆者之所以有如此看法，在很大程度上是因?yàn)榻邮芰瞬┧固亓_姆有關(guān)“間接規(guī)范”(indirect normativity)的思想。

筆者相信，不但“忠”這種價(jià)值加載給人工智能會(huì)出問題，植入其他任何價(jià)值同樣前景堪憂。歸根結(jié)底，正如博斯特羅姆所言：

我們應(yīng)該植入哪種價(jià)值觀呢？這個(gè)選擇并非小事。如果超級(jí)智能獲得了決定性戰(zhàn)略優(yōu)勢，我們選擇的價(jià)值觀就會(huì)決定宇宙資源如何被處置。顯然，在我們選擇價(jià)值觀時(shí)不犯錯(cuò)誤至關(guān)重要。但是，如果從實(shí)際出發(fā)，我們?cè)趺茨芟Ｍ谶@種事情上一點(diǎn)錯(cuò)誤都不犯？我們的錯(cuò)誤可能關(guān)乎倫理道德，也可能關(guān)乎對(duì)我們來說什么是好，甚至可能關(guān)乎我們真正想要什么[2]209-210。

因?yàn)閮r(jià)值觀選擇所關(guān)聯(lián)的后果太過嚴(yán)重，以至于任何閃失都讓人類無法承受。所以，博斯特羅姆在這里所做的拷問，不應(yīng)被看作一種虛無主義的懷疑論，而應(yīng)當(dāng)被視為一種值得嘉許的審慎。也許，我們對(duì)自己偏好的價(jià)值確信不疑，但如果客觀地加以看待，就會(huì)發(fā)現(xiàn)：沒有哪個(gè)道德理論能夠獲得多數(shù)哲學(xué)家的認(rèn)同。這個(gè)事實(shí)說明，我們很可能是錯(cuò)的。當(dāng)然，其他人對(duì)的概率也不大。另一方面，我們也會(huì)注意到，人的道德信念是變化的，如果有所謂道德進(jìn)步可言，那么，我們就更不應(yīng)該認(rèn)為自己當(dāng)下的道德信念一直正確?；谶@些認(rèn)識(shí)，如果我們一定要在現(xiàn)有的道德理論以及關(guān)于這個(gè)理論的一系列具體主張當(dāng)中為人工智能選擇一個(gè)最終目標(biāo)，那我們無疑是在進(jìn)行一場豪賭，其勝算幾乎為零。因此，明智的做法是轉(zhuǎn)向間接規(guī)范方法，而不是直接規(guī)定(direct specification)方法。

所謂直接規(guī)定方法，就是試圖通過明確地設(shè)定一套規(guī)則(rules)或價(jià)值觀(values)，來使一個(gè)自由發(fā)展的超級(jí)智能的行為變得安全而有益。直接規(guī)定方法有兩種版本：一種是基于規(guī)則(rule-based)，另一種是后果主義(consequentialist)。然而，無論哪一種，都無法避免這樣的困難：我們既不知道人工智能應(yīng)該被何種規(guī)則或價(jià)值所引導(dǎo)(鑒于在道德理論上我們很難統(tǒng)一)，即便我們找到了那樣的規(guī)則或價(jià)值，我們也不知道如何將這些規(guī)則或價(jià)值用計(jì)算機(jī)可以理解的代碼呈現(xiàn)(11)人工智能的程序員的工作方式是編程，即：把目標(biāo)寫成效用函數(shù)。但是對(duì)人類的價(jià)值觀進(jìn)行編程，非常困難。以“幸?！睘槔Ｓ?jì)算機(jī)語言并不包含這樣的詞，所以，如果要用這樣的詞，就必須對(duì)其進(jìn)行定義。我們不能用其他高等級(jí)的人類概念對(duì)其定義，比如說，把它定義成“幸福就是我們?nèi)祟愄煨灾羞z傳下來的一種潛在的愉悅感”，類似的哲學(xué)闡釋也不行。這個(gè)定義必須先建立起在人工智能編程語言中的詞，然后建立其原始數(shù)據(jù)，比如數(shù)學(xué)算子和指向存儲(chǔ)著內(nèi)容的獨(dú)立內(nèi)存寄存器的地址。我們看起來很簡單的價(jià)值觀和愿望，事實(shí)上包含了極大的復(fù)雜性，程序員要把它變成詳盡的效用函數(shù)，其難度超乎想象。就像視覺，人類的一個(gè)最簡單的視覺任務(wù)，也需要巨大的計(jì)算量。[2]139。

所謂間接規(guī)范方法，是指：既然我們不知道我們真正想要什么，什么是符合我們的利益的，什么是道德上正確或理想的，那么，與其基于我們目前的理解(可能是非常錯(cuò)誤的理解)作猜測，何不將價(jià)值觀選擇所需要的一部分認(rèn)知工作委托給超級(jí)智能呢？[2]210

這個(gè)方法充分體現(xiàn)了超級(jí)智能時(shí)代的特點(diǎn)。它隱含的前提是：超級(jí)智能比我們更聰明，或者說，超級(jí)智能比我們更擅長計(jì)算、推理。這在人類認(rèn)識(shí)史上無異于又一次“哥白尼轉(zhuǎn)向”：從人類為人工智能“立法”，到人工智能為人類“立法”。

具體做法是，給種子人工智能一些最終目標(biāo)，這些目標(biāo)的條件足夠抽象，然后，人工智能就按照它的工作方式，對(duì)這些條件展開最佳的推測。間接規(guī)范有很多方案，博斯特羅姆推薦的是由美國AI研究者尤德科夫斯基(Eliezer Yudkowsky)(12)尤德科夫斯基，1979年9月11日出生于美國芝加哥。美國人工智能研究者、作家。以“友好的人工智能”(friendly artificial intelligence)觀念而廣為人知。他是建立在加州伯克利的非營利私人研究機(jī)構(gòu)“機(jī)器智能研究所”(Machine Intelligence Research Institute，MIRI)的聯(lián)合創(chuàng)始人與研究員。他有關(guān)逃離智能大爆炸(intelligence explosion)結(jié)局的著作影響了博斯特羅姆的《超級(jí)智能》一書。他是自學(xué)成才者，沒有進(jìn)過高中與學(xué)院。資料來源：維基百科，https://en.wikipedia.org/wiki/Eliezer_Yudkowsky.提出的“可被推知的融貫的愿望”(coherent extrapolated volition)(CEV)。其定義如下：

我們的可被推知的融貫的愿望就是我們的這樣一種愿望：我們期望自己知道得更多，思考得更快，比我們希望自己所是的那種人還要好，我們?cè)谝黄鸸餐砷L。各種推知能夠凝聚而不支離，各種愿望能夠連貫而不抵牾?？傊?，按照我們所希望的那樣去被推知，也按照我們所希望的那樣去被詮釋[7]。

博斯特羅姆承認(rèn)，這個(gè)方案類似倫理學(xué)中的“理想觀察者理論”(ideal observer theories)。所謂理想觀察者，是指一個(gè)知曉全部非道德事實(shí)的、具有清晰邏輯的、不偏不倚的、沒有任何偏見的觀察者。

本質(zhì)上，CEV方案清除了價(jià)值觀描述當(dāng)中所有具體內(nèi)容，只剩下通過純粹程序性的語言定義的抽象價(jià)值：去做理想條件下我們希望人工智能去做的事[2]221。

根據(jù)博斯特羅姆的說明，CEV方案有這樣幾個(gè)特點(diǎn)：第一，它沒有規(guī)定具體的、不可更改的道德準(zhǔn)則，因此，它允許道德進(jìn)一步發(fā)展；第二，它沒有賦予程序員更多的權(quán)力，而是把全人類的意愿都盡可能包容進(jìn)來；第三，它將未來交給人類的CEV而不是某一方去決定，因而避免了沖突；第四，它在結(jié)構(gòu)上允許各種結(jié)果產(chǎn)生[2]216-217。

在筆者看來，無論是尤德科夫斯基還是博斯特羅姆，他們?yōu)镃EV所作的各種規(guī)定，在方法上屬于馮友蘭所說的“負(fù)的方法”[8]，即：避免從正面立論，不說它“是”什么，而說它“不是”什么，以此，期望它能成為適用所有人的一個(gè)形式性規(guī)則。在某種意義上，他們?cè)噲D提供的是一面鏡子，鏡子本身沒有任何內(nèi)容，每個(gè)照鏡子的人從中看到的就是自己的面容(理想的面容)。

這樣的意思，其實(shí)，用儒家經(jīng)典《中庸》第十三章的一句話“以人治人，改而止”來概括，可能更簡明易懂。所謂“以人治人”，是說不要從第一人稱立場去對(duì)待他人，而應(yīng)該試著從對(duì)方自身的立場去著想，既不是“己之所欲，施之于人”，也不是“己所不欲，勿施于人”，后者只是前者的反面形式，究其實(shí)質(zhì)，仍然都是第一人稱立場。對(duì)于人工智能，對(duì)于機(jī)器人，適宜的倫理原則，不是讓它聽命于人類，不是處處控制它，而是采用引導(dǎo)式的、啟發(fā)式的，像間接規(guī)范方法所強(qiáng)調(diào)的那樣，讓人工智能發(fā)揮它在認(rèn)知上的優(yōu)勢，告訴人類什么是最佳的選擇，什么才是他最想要的。

讓人工智能發(fā)揮它的認(rèn)知優(yōu)勢，這符合“以其人之道還治其人之身”的原則。另一方面，人工智能通過推理告訴人類最佳選擇，這個(gè)所謂最佳選擇，對(duì)人類來說，應(yīng)該是最符合他的本性、最符合他的愿望、他的利益的，所以，對(duì)人類而言，就不會(huì)發(fā)生按照某個(gè)外在規(guī)范去行事的困難。這同樣是一種“以其人(人類)之道，還治其人(人類)之身”(13)我們對(duì)“以人治人”的解釋主要采用了朱熹的理解。朱熹說：若以人治人，則所以為人之道，各在當(dāng)人之身，初無彼此之別。故君子之治人也，即以其人之道，還治其人之身。其人能改，即止不治。蓋責(zé)之以其所能知能行，非欲其遠(yuǎn)人以為道也。張子所謂“以眾人望人則易從”是也。(朱熹：《中庸章句》《四書章句集注》，北京：中華書局，1986：23)?！案亩埂笔钦f，如果人類對(duì)照人工智能告訴他的目標(biāo)或方案加以改進(jìn)，人工智能就算達(dá)到了目的，就可以結(jié)束這項(xiàng)任務(wù)。這就實(shí)現(xiàn)了人工智能與人之間的良性互動(dòng)。

這也許就是儒家對(duì)當(dāng)代人工智能倫理所能作的一個(gè)貢獻(xiàn)。它并沒有輸出儒家特定的價(jià)值，而毋寧是告訴人們一條更根本性的智慧：以我治人，人必反之；以人治人，人樂從之。與其汲汲于擔(dān)心人工智能、控制人工智能，不如讓人工智能為人做主，從而全心全意為人。到最后，其實(shí)亦無人、機(jī)之分(14)也許有人會(huì)說，我們這種說法完全是一種哲學(xué)的思辨，但實(shí)際上，人-機(jī)融合本身也是人工智能技術(shù)的發(fā)展的一個(gè)方向。根據(jù)阿西莫夫同名小說改編的電影《我，機(jī)器人》(2004，美國)中，羅德·布魯克斯說，機(jī)器人統(tǒng)治永遠(yuǎn)不可能發(fā)生。因?yàn)樗?純粹的機(jī)器人)無法取代我們(人類)中的任何一個(gè)。他的解釋不僅是說這種觀點(diǎn)是空話，還提到了借由技術(shù)植入和改進(jìn)，人類和機(jī)器之間在不斷地融合。當(dāng)機(jī)器足夠先進(jìn)時(shí)，那些害怕叛亂的人們擔(dān)憂機(jī)器的智能水平達(dá)到了一定的高度會(huì)想要統(tǒng)領(lǐng)人類，而在那時(shí)，人們將早已習(xí)慣帶著他們大腦里、身體中的機(jī)器到處忙活了，也就是說，未來并非是人機(jī)分離的時(shí)代，機(jī)器也不會(huì)謀劃著滅亡人類。相反，布魯克斯認(rèn)為，未來可能是人工智能與人類互利共生的時(shí)代。(辛格.機(jī)器人戰(zhàn)爭：21世紀(jì)機(jī)器人技術(shù)革命與反思，2016：389)。

4 結(jié)語

在當(dāng)代的人工智能倫理建設(shè)中，儒學(xué)應(yīng)當(dāng)參與進(jìn)來。儒學(xué)能作的貢獻(xiàn)不在于提供某種特別的價(jià)值。這不是說儒家珍視的那些價(jià)值都不重要，而是，在博斯特羅姆的《超級(jí)智能》之后，像阿西莫夫機(jī)器人定律那樣，指望通過直接規(guī)定的方法為人工智能加載規(guī)則或價(jià)值的模式，已經(jīng)被證明為此路不通。博斯特羅姆說服我們，間接規(guī)范的方法更值得信賴。在比較各種間接規(guī)范的方法之后，博斯特羅姆推薦“可被推知的融貫的愿望”(CEV)。我們認(rèn)為，這個(gè)方案的確具有很多優(yōu)點(diǎn)，但是它的形式還可以完善，而儒家經(jīng)典《中庸》的一個(gè)命題“以人治人，改而止”似乎既可以滿足這個(gè)方案包含的一些條件，同時(shí)，還具有形式簡潔的優(yōu)點(diǎn)。如果我們的說法可以接受，那么，這就是儒家對(duì)人工智能倫理的一個(gè)可能的貢獻(xiàn)。

儒家對(duì)人工智能倫理的一個(gè)可能貢獻(xiàn)——經(jīng)由博斯特羅姆而思

1 博斯特羅姆論人工智能威脅

2 對(duì)劉紀(jì)璐版本的儒家人工智能倫理的反思

3 以人治人：儒家對(duì)博斯特羅姆“間接規(guī)范”方案的改進(jìn)

4 結(jié)語

儒家對(duì)人工智能倫理的一個(gè)可能貢獻(xiàn)
——經(jīng)由博斯特羅姆而思