• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機器與人類的不可區(qū)分性問題研究

      2024-01-01 00:00:00尹孟杰
      關鍵詞:理解人工智能意識

      摘要:圖靈測試聚焦探索機器與人類之間的不可區(qū)分性,并引發(fā)智能問題的廣泛爭論。由于其后續(xù)的變體測試多著眼于通過技術實現機器迷惑人類的目的而逐漸脫離了智能問題的核心,并且智能問題本身也涉及諸多難以明確定義的概念,因此學界尚未就“機器是否能夠思考”達成共識。人工智能的新發(fā)展,揭示出許多先前被視為正確的理論在面對現實時的不足和缺陷。為此,需要考慮一種新的智能觀。其一,智能具有多種功能、形式和結果,人類中心主義的智能觀忽視了存在其他非人類智能方式的可能性。其二,關于人工智能是否能夠如人類般思考,或者是否產生了意識的爭論可以使智能問題由此走出意識的僵局。

      關鍵詞:圖靈測試;人工智能;不可區(qū)分性;理解;意識;因果推理能力

      DOI: 10.13734/j.cnki.1000-5315.2024.0216

      收稿日期:2024-01-06

      基金項目:本文系教育部人文社會科學研究規(guī)劃基金項目“相容論與無意志的道德責任研究”(22YJA720008)的階段性成果。

      作者簡介:尹孟杰,女,湖北襄陽人,哲學博士,香港中文大學(深圳)人文社科學院講師,研究方向為分析哲學、形而上學、自由意志問題以及科學技術哲學,E-mail: yinmengjie@cuhk.edu.cn。

      智能(intelligence)對于人類而言具有重要意義,不同領域對智能問題的研究側重不一:或者關注智能主體的思維過程,或者關注智能主體的行為表現。在此基礎上,人工智能(artificial intelligence)的相關研究不僅試圖理解和解釋智能問題,還試圖構建智能主體。經過一定的歷史周期,人工智能逐漸發(fā)展成為一個獨立的領域,而不僅僅是在控制論、運籌學或決策理論的框架下進行。圖靈測試(Turing Test)自1950年首次提出以來,引發(fā)關于“機器是否能夠思考”的深入討論,對人工智能的研究產生了深遠影響。時至今日,隨著大語言模型(Large Language Models)的興起,我們仍然致力于探尋智能的本質,并開始思考一些新的問題:人工智能是否能夠真正理解自然語言?我們能否信任人工智能可以參與到傳統(tǒng)的人類工作中?等等。

      不論是圖靈測試最初關注的問題,還是我們如今思考的一系列新問題,都聚焦于機器與人類之間的不可區(qū)分性(indistinguishability)。探討智能問題不僅觸及到意識(consciousness)等復雜概念,同時也依賴于具體的科學研究作為基礎。在此背景下,對于意識等概念,既缺乏一套確切的哲學定義,也未能在科學領域內達成標準的共識。因此,人工智能的概念具有微妙的割裂感:我們如何在沒有完全理解意識、心智的情況下,創(chuàng)造出能模擬這些復雜特性的智能機器。

      圍繞上述的種種智能問題,本文第一部分將簡要復述圖靈測試的具體設定,并厘清其核心要點,即機器與人類的不可區(qū)分性。第二部分將提出明確的理論模型,以意識和因果能力作為核心要素,分析不可區(qū)分性問題。第三、四部分將重新審視圖靈測試的初衷,反思人類中心主義的智能觀,揭示存在其他非人類智能方式的可能性;智能研究應當致力于創(chuàng)造出更為優(yōu)秀的智能工具,而非簡單地復制人類智能的模式。

      一" 圖靈測試:不可區(qū)分性問題

      20世紀40年代末,隨著第一臺電子數字計算設備(Atanasoff-Berry Computer,阿塔納索夫-貝瑞計算機)的出現,公眾對現代科學奇跡的潛力展開了廣泛討論阿塔納索夫-貝瑞計算機不可編程,只能進行線性方程組的計算。ENIAC(Electronic Numerical Integrator and Computer,電子數字積分計算機),通常被認為是第一臺通用計算機;它可以被編程,因此被稱為圖靈完備(Turing Complete)。。隨后,維納(Norbert Wiener)在《控制論》中,將機器與動物的大腦和神經系統(tǒng)進行比較,認為“解釋動物記憶的性質和種類的問題與為機器構建人工記憶的問題有相似之處”,并由此觸及了許多與人工智能相關的概念Norbert Wiener, Cybernetics, or Control and Communication in the Animal and the Machine, 2nd ed. (MIT Press, 1965), 14.。在公眾辯論的背景下,圖靈(Alan M. Turing)開始思考人工智能的可能性,并從現代數字計算機的角度來探討這個問題。由于不太認可某些偏見,特別是那些斷言“機器永遠無法思考、推理或創(chuàng)造”的言論,圖靈為此提出了現在被我們熟知的圖靈測試,旨在探討機器是否能展示出無法區(qū)別于人類智能的能力。

      圖靈測試的初衷之一是為了避免科學與哲學之間無休止的爭論。然而,測試本身卻引發(fā)了更為激烈的辯論。據統(tǒng)計,1950年至1964年間,學界圍繞“機器是否能夠思考”的問題發(fā)表了一千多篇論文Alan Ross Anderson, ed., Minds and Machines (Prentice-Hall, 1964), 1.。例如,彭齊亞斯(Arno Penzias)對圖靈測試提出了批評,“對于一臺愚蠢的機器來說,與人類對話比圖靈想象的要容易得多。人們會無意識地、輕松地填補缺失的部分”Arno Penzias, Ideas and Information: Managing in a High-Tech World (W. W. Norton amp; Company, 1989), 143.。而有學者贊譽“圖靈的論文……至今仍是對人工智能哲學最清晰的簡短描述,而圖靈測試……仍然是識別機器智能的最佳標準”Richard L. Gregory, ed., The Oxford Companion to the Mind (Oxford University Press, 1987), 784.。

      如果我們回到圖靈測試本身,或許能夠厘清后續(xù)爭議的分歧所在。圖靈在《計算機器與智能》中提出問題:機器能夠思考嗎?他設計了模仿游戲(Imitation Game)來評估機器智能,即我們現在所熟知的圖靈測試A. M. Turing, “Computing Machinery and Intelligence,” Mind 59, no.236 (1950): 433-434.。模仿游戲包含三名參與者:一名男性(A)、一名女性(B)和一名詢問者(C)。詢問者待在某個看不見其他兩人的房間里。對于詢問者來說,這個游戲的目的是確定另外兩人的性別。詢問者通過給A和B貼上X或者Y的標簽來區(qū)分二者。在游戲結束時,詢問者需要得出判斷:“X是A ,Y是B”或者“X是B,Y是A”。為了避免受到聲音或視覺線索的干擾,詢問者和被詢問者可以通過電傳打字機交流,或者借助中間人傳話的形式進行。對于被詢問者B來說,她的目標是幫助C得出正確判斷,因此她會盡可能地提供真實答案。例如,B可以在回答中提示C“我是女性,別聽信另一個人的回答!”但是,A也可以采取同樣的表達策略來迷惑C。隨后,圖靈進一步修改了游戲的設定:讓一臺機器取代A的角色,因此詢問者的任務變成了通過提問來判斷哪個是人類,哪個是機器。通過游戲機制的轉變,圖靈將關注點從“機器能夠思考嗎?”這一哲學問題轉移到另一個更為具體的問題上,即:“機器能否在特定條件下模仿人類,并且達到讓人類無法區(qū)分的程度?”對此,圖靈并沒有給出絕對的結論來直接回答問題,而是給出了一種解釋:如果機器在圖靈測試中,能夠表現得足以讓人類無法區(qū)分其回答是來自人類還是機器,那么我們就有理由認為這樣的機器具有智能,或者至少它能在某種程度上模仿人類的思考過程。

      不可區(qū)分性是圖靈測試的核心。圖靈預見到,隨著時間的推移和技術的進步,數字計算機能夠擁有足夠的存儲空間、速度和適當的編程,能夠在圖靈測試中取得越來越好的成績,逐漸模糊人類與機器之間在智能表現上的界限。“最初的問題是‘機器能夠思考嗎?’我認為這太無意義了,不值得討論。然而,我相信,到本世紀末,詞匯的使用和大部分受教育的人的觀點將會發(fā)生很大的變化,人們將能夠談論機器思維而不會被反駁”A. M. Turing, “Computing Machinery and Intelligence,” Mind 59, no.236 (1950): 442.。不可區(qū)分性分為兩種形式:結構的不可區(qū)分性、功能的不可區(qū)分性。顯然,圖靈測試以功能的不可區(qū)分性為基礎。在此基礎上,后續(xù)的研究者們在解釋圖靈測試時,大多持有兩種不同的觀點。

      第一類觀點認為,數字計算機無法理解對話,但可以模擬人類的理解能力。不可區(qū)分性顯示出人工智能無法真正地思考。這類觀點預設了人類的物理能力(physical capacities)和心智能力(intellectual capacities)之間存在著明確界限。因此,我們在直覺上天然地認為機器雖然有可能模仿人類的物理能力,卻無法擁有人類的心智能力。有學者認為,“計算機有句法(syntax),但沒有語義(semantics)”John. R. Searle, “Minds, Brains, and Programs,” Behavioral and Brain Sciences 3, no.3 (1980): 422.,人工智能雖然熟悉各種符號的操作規(guī)則,但無法理解這些符號所代表的意義或對象。例如,本德(Emily M. Bender)等人使用隨機鸚鵡(stochastic parrots)來比喻大型語言模型雖然能夠生成看似合理的語言,但卻無法理解它們處理的語言含義,而只是鸚鵡學舌地重復它們從大型數據集中學到的統(tǒng)計模式Emily M. Bender, Timnit Gebru, Angelina McMillan-Major et al., “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?,” in FAccT’21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (Association for Computing Machinery, 2021), 616-617.。

      第二類觀點認為,數字計算機實際上能夠理解對話,擁有人類的理解能力。這類論點大多沿襲圖靈的做法,將智能問題建立在思維的功能性的基礎上,探尋意識是否能夠由自組織過程產生,并希望通過將思考概念黑箱化來處理智能問題。機器需要具備一種普遍的應答能力,才能與人類展開對話,而這種能力不同于下棋這樣的單一能力。圖靈測試中的問題范圍廣泛,以至于程序員無法通過預設回答、隨機猜測或查詢數據庫等常規(guī)編程技術解決問題。因此,有學者認為通過圖靈測試的機器具備普遍的語言應答能力,因此它們擁有某種程度的理解能力和智能。例如,有研究認為,大語言模型似乎展現出了人類智能,“在對話中,大型語言模型常常反映出對談者的信仰和期望,這是一種親社會行為”Terrence J. Sejnowski, “Large Language Models and the Reverse Turing Test,” Neural Computation 35, no.3 (2023): 316.。然而,如前文所述,由于意識、心智等概念的復雜性,相關研究很容易陷入術語混亂。

      綜合兩方面的意見,人工智能似乎展現出了一種既理解、又不理解人類世界的模糊狀態(tài)。時至今日,人工智能的新發(fā)展揭示了許多先前被視為正確的理論在面對現實時的不足和缺陷。因此,本文嘗試在第一類解釋立場的基礎上,考慮一種新的智能觀,提出明確的理論模型,選取意識與因果能力為核心因素,作為判斷不可區(qū)分性的標準。

      二" 雙因素模型:意識和因果能力

      如前文所述,“通過圖靈測試的數字計算機是否能夠理解與人類的對話”構成了圖靈測試的兩種不同解釋立場。對于人類來說,理解語言以及非語言信息意味著將知識和經驗抽象化,以便進行歸納、推理,預測、干預,驗證假說并向他人解釋自己的理解。而這些正是我們致力于讓人工智能擁有的能力。因此,人工智能面臨的首要挑戰(zhàn)之一是如何理解人類世界。有學者認為,意識是理解的必要條件Sam S. Rakover, “The Two Factor Theory of Understanding (TFTU): Consciousness and Procedures,”" Journal of Mind and Behavior 42, no.3/4 (2021): 349.?!耙庾R應該是理解的一個基本要素,而這種理解必須是任何真正智能的一部分”Roger Penrose, Shadows of the Mind: A Search for the Missing Science of Consciousness (Oxford University Press, 1994), 40.。在此基礎上,本文接下來將意識作為理解的第一個核心因素,選取因果能力作為理解的第二個核心因素,即理解和掌握因果關系(causality)的能力。

      其一,意識概念的相關爭議很多。部分觀點認為自然科學能夠解釋意識,人腦中的每一項活動都可以找到充分的物理原因。而另一些觀點則認為意識的神秘性無法被科學充分解釋??傮w來看,意識可以分為兩大類形式:以人或動物為主體的意識形式和以精神狀態(tài)為屬性的意識形式Peter Carruthers, Phenomenal Consciousness: A Naturalistic Theory (Cambridge University Press, 2000): 9-22.。

      第一類形式通常是指人或者動物的內在屬性,與生理或心理過程密切相關,是主體對特定事物或者情境的連續(xù)的、流動的感知能力。在此基礎上,擁有較強意識的主體能夠反思,能夠理解道德責任和法律責任,能夠對行為進行自主掌控。語言無法完全傳達這種內在屬性的復雜性和豐富性,意識無法完全被數字化或形式化。這也正是泛心論(panpsychism)為何不支持強人工智能的主要原因泛心論認為,所有的物理事件在某種意義上都是精神事件,例如電子也以某種形式擁有精神屬性。。具體來說,數字人工智能將認知能力抽象為由二進制代碼表示的離散狀態(tài),而不是連續(xù)的狀態(tài)?!叭绻盒恼撌钦_的,那么數字人工智能可能無法以任何有意義的方式產生連貫的宏觀現象意識”Marcus Arvan, Corey J. Maley, “Panpsychism and AI Consciousness,” Synthese 200 (2022): 3.。因此,盡管當前的人工智能在某些特定任務上表現出高度智能,但它們并未擁有第一類形式的意識。

      第二類形式通常指人類心理狀態(tài)的主觀體驗,即感質(qualia)。內格爾(Thomas Nagel)提出的“作為某物是什么感覺”的測試揭示了意識的兩個特征:(1)意識并不是全有或全無的狀態(tài);(2)不同實體的意識是不同的,某些物種的意識可能超出了我們的理解范圍Thomas Nagel, “What Is It Like to Be a Bat?” Philosophical Review 83, no.4 (1974): 435-450.。那么,我們是否能夠合理設想:“作為人工智能是什么感覺?”顯然,意識的主觀性不僅使我們無法完全理解其他實體的意識狀態(tài),并且也很容易產生被其他實體理解的錯覺。例如,在人工智能發(fā)展的早期,伊莉莎效應(ELIZA effect)揭示了人類與機器交互時認知的復雜性。伊莉莎是魏岑鮑姆(Joseph Weizenbaum)在20世紀60年代編寫的早期自然語言處理程序,最著名的實例是DOCTOR腳本:它扮演精神病醫(yī)生的角色與病人談話,分析出家庭、朋友、孤獨、悲傷等關鍵詞,然后提出后續(xù)的開放式問題。即便是非常簡單的模擬對話也可能給用戶一種錯覺,使他們覺得機器背后存在一個有理解力的實體Joseph Weizenbaum, “ELIZA-A Computer Program for the Study of Natural Language Communication between Man and Machine,” Communications of the ACM 9, no.1 (1966): 36-37.。類似的現象,在面向消費者的虛擬助手、聊天機器人普及后更為明顯。機器學習領域中常常出現捷徑學習(shortcut learning)或聰明漢斯效應(clever Hans effect)。在完成某個特定任務時,某個學習系統(tǒng)是因為數據中的虛假相關性才表現良好,而非擁有類似于人類的理解力Robert Geirhos, Jrn-Henrik Jacobsen, Claudio Michaelis et al., “Shortcut Learning in Deep Neural Networks,” Nature Machine Intelligence 2, (2020): 665.。在大語言模型的規(guī)模下,有可能任何評估都包含著復雜的統(tǒng)計相關性,從而在不需要人類水平理解力的情況下也能近乎完美地完成任務?!拔覀兒茈y想象,技術和相應的技術產品,比如人工智能,會在乎人類的根本關切”蘇德超《技術沖擊與人文底線——兼論新人文教育的迫切性》,《四川師范大學學報(社會科學版)》2019年第6期,第9頁。。人工智能由此可能會生成虛假信息,造成欺騙人類的假象。近日,AI幻覺(AI Hallucination)引起了廣泛關注。由于大語言模型常常在對話中輸出虛假信息,對話者感受到了一種被人工智能故意欺騙的感覺,進而認為人工智能產生了人類化特征。AI幻覺似乎預設了人工智能擁有了意識,甚至能夠對人類的意圖、欲望進行因果推斷。對此,有學者指出,幻覺一詞帶有明顯的人類意圖性。實際上,大語言模型的輸出錯誤僅僅是法蘭克福所說的胡扯法蘭克福將“胡扯”這一術語引入哲學領域。胡扯并非有意欺騙,而是出于對真相的無知與漠視。參見:Harry G. Frankfurt, On Bullshit (Princeton University Press, 2005), 55-56。,即無意圖地提供虛假信息。這是技術層面的原因所致:大型語言模型的目標是復制人類的語言或寫作、提供回應而非表達真理,并非人工智能具有了意向性。因此,如果使用幻覺一詞來描述這種現象,那么會誤導大眾輿論以及政策制定者的傾向Michael Townsen Hicks, James Humphries, Joe Slater, “ChatGPT is Bullshit,” Ethics and Information Technology 26 (2024): 1-10.。如果隨意地將人工智能擬人化,那么可能會導致創(chuàng)造者將責任都歸因于模型的錯誤輸出,由此回避作為有意識的人類創(chuàng)造者本應該承擔的責任,進一步會引發(fā)眾多道德責任難題。其主要原因在于,我們對待人類和非人類的道德責任判定是有差異的?!芭c人打交道時,我們會要求他人的行動‘講道理’……面對物時,就只關乎物理,不涉及道理”田昶奇《理由響應機制、因果機制與道德責任——兼評劉清平與蘇德超的爭論》,《四川師范大學學報(社會科學版)》2021年第5期,第114頁。。例如,律師使用大語言模型生成的虛假案例形成了訴訟文件,金融分析師使用人工智能助手審查交易而產生誤判,等等。由于人類行為具有可解釋性與可理解性,以及人類擁有意識、自由意志等原因,后續(xù)的道德責任以及法律責任往往會由人類行動者承擔。而讓人工智能承擔責任會導致人類行動者回避責任,并且對現有的社會秩序以及政策制定產生沖擊。

      對比兩種意識形式,如果在人類智能的視角中,那么人工智能無法真正思考,也沒有產生意識。但另一方面,智能問題可以由此走出意識的僵局,避免復雜概念的模糊。

      綜上,從意識這一核心要素來看,機器與人類之間存在著較弱的不可區(qū)分性。主要原因在于,我們往往認為:人類的許多行為和決策都不能像計算機那樣被程序化或者固定形式化Hubert L. Dreyfus, Skillful Coping: Essays on the Phenomenology of Everyday Perception and Action, ed. Mark A. Wrathall (Oxford University Press, 2014), 123.。中文屋(Chinese room)的思想實驗也很好地佐證了這一點 John R. Searle, “Minds, Brains, and Programs,” Behavioral and Brain Sciences 3, no.3 (1980): 417-418.。

      其二,如果從意識的角度無法得到較強的不可區(qū)分性,那么我們接著嘗試從因果能力的角度探討。

      圖靈在提出模仿游戲的同時,也提出了一種通過該測試的策略。與其嘗試編寫一個模擬成人思維的程序,不如先試著編寫一個模擬兒童思維的程序。如果能夠實現這一點,就可以通過類似于教育小孩的方式來訓練它。對此,珀爾(Judea Pearl)認為達到這一目標的關鍵是理解和掌握因果關系。人類在進化早期就意識到世界并非由孤立的事實堆砌而成,而是通過復雜的因果關系網絡融合在一起的?!耙蚬忉尪强菰锏氖聦崢嫵闪宋覀兇蟛糠值闹R,它應該成為機器智能的基石”朱迪亞·珀爾、達納·麥肯齊《為什么:關于因果關系的新科學》, 江生、于華譯,中信出版集團2019年版, 第4頁。。人類的因果能力分為觀察能力、行動能力和想象能力三個層次,分別對應復雜程度不等的因果問題。絕大多數動物以及目前的人工智能都居于第一層級,主要通過關聯來學習。早期人類位于第二層級,他們的行動基于計劃。位于結構頂端的是反事實(counterfactual)學習者,他們能夠想象一個不存在的世界,并推斷現象背后的原因。

      具體來說,擁有反事實因果能力的行動者,能夠對人類意圖進行合理判定。這也是人工智能面臨的重大挑戰(zhàn)之一,準確推斷人類的需求是解決人工智能價值一致性問題的先決條件,解決問題的工具之一是逆強化學習。逆強化學習是將強化學習強化學習是訓練智能機器的標準方法,通過將特定的結果與獎勵聯系起來,機器學習系統(tǒng)可以被訓練成遵循產生這些結果的策略。的方法倒置:通過觀察已經學習了有效策略的智能體行為,從而推斷出導致這些策略的獎勵。意圖是行動者決策過程中的一個關鍵因素。如果行動者能夠理解自己的意圖并將其作為因果推理的依據,那么這意味著智能實體達到了自我認知的層次。我們試圖推斷出激勵人類行為的獎勵、推斷他人行為背后隱藏的原因,其實是在尋找某種人類行為模型。如果這個模型是準確的,我們就能作出有效的推論,反之則會出錯。例如,當教授沒有立即回復學生的電子郵件時,學生可能會推斷出教授對他漠不關心;但與此同時,學生沒有考慮到教授或許正在度假。從歷史上看,尋找人類行為模型與人工智能的發(fā)展密切相關。第一個人工智能系統(tǒng),邏輯理論家能夠通過模擬人類數學家使用的策略自動生成數學證明由西蒙(Herbert Simon)和紐維爾(Allen Newell)于1955年編寫的計算機程序,被認為是第一個用來執(zhí)行自動推理的程序。參見:Pamela McCorduck, Machines Who Think: A Personal Inquiry into the History and Prospects of Artifical Intelligence (A K Peters, 2004), 161。。此外,錯誤信念任務被認為是測試“人類能否理解他人心理狀態(tài)”的可靠實驗,旨在測試兒童對他人信念的理解能力,尤其是那些與自己認知不同的信念。這類任務通常涉及某個故事或情景,其中一個角色根據不正確的信息作出了決定或行動,而測試的目標是關注被試兒童是否能認識到這種信念的錯誤性并預測角色的行為Heinz Wimmer, Josef Perner, “Beliefs about Beliefs: Representation and Constraining Function of Wrong Beliefs in Young Children’s Understanding of Deception,” Cognition 13, no.1 (1983): 106-107.。小男孩馬克西將一塊巧克力放在紅色櫥柜里,然后出門玩耍。在他外出的時候,媽媽將巧克力從紅色櫥柜移到了綠色櫥柜。隨后,馬克西回到家中。在這種情景下,研究者向被試兒童提問:“馬克西會去哪里找巧克力呢?”正確答案應該是“紅色櫥柜”,因為馬克西并未目睹媽媽轉移巧克力位置的過程。根據韋爾曼對178項錯誤信念任務的分析顯示:在通過測試的兒童中,50%的年齡為44個月(3歲零8個月);年齡從44個月增長到45個月,隨之正確率從50%增加到52%Henry M. Wellman, David Cross, Julanne Watson, “Meta-analysis of Theory-of-Mind Development: The Truth About False Belief,” Child Development 72, no.3 (2001): 675.。兒童們通常在大約4到5歲時開始能成功地解答此類錯誤信念任務,顯示出他們開始理解他人的信念可能與事實不符。

      新近的相關研究顯示,人類獨有的這種心智能力,可能自發(fā)地出現在大語言模型中。研究者設計了40個錯誤信念任務,“GPT-3-davinci-001(自2020年5月起)和GPT-3-davinci-002(自2022年1月起)解決了10%的任務;GPT-3-davinci-003(自2022年11月起)和ChatGPT-3.5-turbo(從2023年3月開始)解決了35%的任務,模仿了3歲兒童的表現。ChatGPT-4(自2023年6月起)解決了90%的任務,與7歲兒童的表現相當”Michal Kosinski, “Theory of Mind May Have Spontaneously Emerged in Large Language Models,” arXiv, last modified February 17, 2024, accessed December 23, 2023, https://doi.org/10.48550/arXiv.2302.02083.。另一個案例也顯示了人工智能在處理反事實問題上的進步。大型語言模型的基石是指令微調(instruction tuning),有效地使模型的訓練目標與人類意圖相符合,從而確保模型能夠解釋和執(zhí)行人類的指令?,F有的眾多英文指令微調數據集已顯示出較好的流暢性和準確性,然而中文指令微調的可用數據集要么規(guī)模有限,要么不符合自然的中文交流模式。因此,有研究團隊嘗試建立一個更高質量的中文指令微調數據集,以更好地將模型行為與人類互動結合起來;并從多渠道收集了中文互聯網的高質量人工寫作語料庫,這13個來源包括社區(qū)問答論壇、百科網站、內容創(chuàng)作平臺、考試以及現有的中文自然語言處理數據集;最終經過嚴格的人工過濾處理收集到的語料庫,形成COIG(Chinese Open Instruction Generalist,即中文開源指令數據集)Yuelin Bai et al., “COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning,” arXiv, last modified March 26, 2024, accessed July 23, 2024, https://doi.org/10.48550/arXiv.2403.18058.。研究團隊在CQIA的不同子集上訓練了不同規(guī)模的模型,進行了深入的評估和分析。從結果看,使用GPT4在BELLE-EVAL上評估了Yi-6B在不同數據集上訓練的性能,考試子集在所有子集中實現了最佳性能,在提取、數學任務以及邏輯推理中表現出色。

      綜上,相較于意識層面的對比,因果能力這一層面似乎得到了程度較高的不可區(qū)分性,但在高層級的因果能力上仍然存在提升空間。至此,意識與因果能力兩方面都未展現出強意義上的不可區(qū)分性。

      三" 我們需要智能工具,而非人類意識行動者

      圖靈測試的初衷及其后續(xù)引發(fā)的爭論表明,智能沒有一個絕對的定義,它取決于不同的研究視角。通過圖靈測試的機器具有一定的智能,但圖靈測試并未斷言沒有通過測試的機器一定不具有其他方面的智能。因此,需要考慮一種新的智能觀:智能具有多種功能、形式和結果。

      正如不同的物種能夠更好地適應不同的環(huán)境,不同的智能系統(tǒng)也能夠更好地處理不同的問題。對比人工智能采取的兩種主要路徑:早期的符號人工智能(Symbolic AI)使用符號來代表系統(tǒng)正在推理的內容,擁有程度很高的透明度,我們可以憑借指令完全確定機器的行為。與此相對,神經網絡(Neural Networks)將人腦結構作為智能系統(tǒng)的組成部分進行建模,擁有更強的泛化能力,但知識不透明和系統(tǒng)不穩(wěn)健也由此成為了其弊端。例如,在與李世石的對局中,AlphaGo在第二局下出了令人迷惑的第37手AlphaGo于2016年與世界圍棋冠軍李世石進行對決,并以41的成績獲勝。。從歷史上看,人工智能系統(tǒng)日漸表現出了強大的泛化能力和良好的判斷力,有時甚至展現了認知靈活性和創(chuàng)造力。

      盡管人類大腦和數字計算機可能在結構和運作方式上仍然存在差異,但如果數字計算機能夠很好地處理任務,我們似乎不能否認它展現出了智能。對此,可以借助一種特殊的本體論進行分析:“事實證明,將術語‘本體論’擴展到其基本含義之外……或者將其用于表示更近代的計算機程序必須處理的‘事物’集合,都是非常實用的?!钡つ釥枴さつ崽亍稄募毦桨秃赵倩貋怼罚T文婧、郭瑞東譯,中國紡織出版社2024年版, 第64-65頁。在人類的本體論中,存在著對具體事物的喜愛或者厭惡等情感,但這些都不存在于數字計算機的本體論中。沒有任何機器能夠感受到成功的快樂,在自己的零部件被熔斷時感到悲傷,被眾人奉承時感到自豪,因程序出錯而痛苦,對其他的機器產生愛慕。同時,“我們不希望因某臺機器在選美比賽中無法脫穎而出而懲罰它,也不希望因某個人在與飛機的比賽中輸掉而對他進行懲罰”Alan M. Turing, “Computing Machinery and Intelligence,” Mind 59, no.236 (1950): 435.。圖靈指出,這種極端的唯我論(Solipsist)意味著:如果我們要確認機器會思考,唯一的方法就是成為機器,感受機器的思維。面對智能問題,我們往往天然地持有唯我論立場,而忽視了存在其他非人類智能方式的可能性。有學者認為,由于動物無法使用語言與人類交談,因此我們常常帶有偏見地低估其他動物的智力Frans de Waal, Are We Smart Enough to Know How Smart Animals Are? (W. W. Norton amp; Company, 2016), 1-6. 。那么,當大語言模型已經能夠使用自然語言交談時,以往的舊觀念似乎不再足夠有效。對此,我們不妨采取一種較弱的立場:同時承認人類本體論與非人類本體論的合理性,嘗試放棄人類中心主義的智能觀,正視人工智能日益展現出的新智能。當大眾對不斷出現的人工智能系統(tǒng)的熱潮逐漸放緩時,多視角的意見值得我們關注。

      首先,雖然從人類智能的視角來看,機器與人類之間的不可區(qū)分性仍然較弱,但二者之間的關系已逐漸轉變?yōu)橄嗷ゴ龠M;人工智能不僅會在許多智能活動中模仿人類,還會在這個過程中改變人類。而傳統(tǒng)的人類中心主義智能觀,似乎無法全面解釋這些新的現實問題。近日,有開發(fā)者在測試場景中同時集結了四種人工智能(GPT-4T, Claude 3 Opus, Llama 3, Gemini Pro)以及一個真實的人類,用以測試這些模型能否判斷出誰是人類。最終通過互問互答,人工智能模型輕松獲勝Tore Knabe(@tamulur), “Reverse Turing Test Experiment with AIs,” YouTube, May 28, 2024, accessed July 23, 2024, https://youtu.be/MxTWLm9vT_o?si=kRVYklziUdWSgC4x.。有學者指出,在與人類對話時,大語言模型實際上在執(zhí)行一個更復雜的反向圖靈測試:“你越聰明,提示越聰明,大語言模型看起來就越聰明?!盩errence J. Sejnowski, “Large Language Models and the Reverse Turing Test,” Neural Computation 35, no.3 (2023): 317.

      其次,人類如何看待人工智能的態(tài)度以及如何處理人類與技術之間關系的實踐需要指出的是,“人工智能”不等同于“實現人工智能的技術和方法”。許多描述人工智能的方式似乎都存在著類似的混淆,即根據所使用的技術或方法來定義人工智能。,產生了新的變化。有研究分析,“對于強AI議題的態(tài)度,均經歷了一個轉換過程:AI界從支持者逐漸轉變?yōu)橘|疑者;而哲學社會科學界則從悲觀論者轉化為樂觀論者”王彥雨《“強人工智能”爭論過程中的“態(tài)度轉換”現象研究》,《科學技術哲學研究》2020年第6期,第27頁。。例如,在科幻電影《銀翼殺手》中有著具象化的情節(jié)設定:已退役的銀翼殺手日復一日地進行測試,目的是確定一個看似美麗的年輕女子是否真的是機器人《銀翼殺手》(Blade Runner)是斯科特(Ridley Scott)于1982年拍攝的經典科幻電影,改編自迪克(Philip K. Dick)所著小說《仿生人會夢見電子羊嗎?》。。從最開始我們對新技術的未知而衍生出擔憂與抵觸,到現在各類智能工具和我們日常生活融為一體,現實逐漸表明不可區(qū)分性問題已不僅僅局限于最初的目的——尋找機器與人類的不可區(qū)分性,智能問題需要面對更多新的議題。

      最后,我們還需要警惕認知退步的風險。信息時代也是信息缺失時代,智能問題的研究目標是創(chuàng)造出更為優(yōu)秀的智能工具,而非簡單地復制人類智能的模式。即使人工智能根據已有的數據形成了數量龐大的各種模式,但仍然有更多的可能性從未被數據化或者無法被數據化。如丹尼特所言,“我們不需要人工意識行動者(Artificial Conscious Agents)。有過多的自然意識行動者(Natural Conscious Agents),足以處理任何應該留給這些特權實體的任務。我們需要的是智能工具(Intelligent Tools)”Daniel C. Dennett, “What Can We Do?,” in Possible Minds: Twenty-Five Ways of Looking at AI, ed. John Brockman (Penguin Press, 2019), 51.。人工智能與人類各司其職,那些需要大量數據分析才能達到最優(yōu)解的問題,依舊是大規(guī)模統(tǒng)計模型擅長的工作;而那些涉及到因果機制的問題以及其他無法被數據化的問題則更需要人類智能。

      四" 結語

      綜上所述,圖靈測試及其關注的不可區(qū)分性問題,核心在于探尋人工智能與人類智能二者之間的關系?,F實表明,人工智能已從最初的模仿人類智能逐漸轉變?yōu)殚_始影響人類智能。在人類中心主義智能觀的視角下,以意識以及因果能力作為核心要素,機器與人類之間的不可區(qū)分性程度較弱,并且人類中心主義智能觀已無法有效地解釋新的現實問題。更為可取的態(tài)度是,既不低估當前人工智能的優(yōu)秀表現,又不過早地將其擬人化;在努力創(chuàng)建更優(yōu)秀的人工智能的同時,也應該對已有的人工智能秉持更加謹慎的態(tài)度。

      [責任編輯:何" 毅]

      The Indistinguishability Problem Between Machines and Humans: Revisiting the Turing Test

      Yin Mengjie

      School of Humanities and Social Science, The Chinese University of Hong Kong, Shenzhen, Shenzhen, Guangdong, China

      Email: yinmengjie@cuhk.edu.cn

      Abstract:

      The Turing Test focuses on exploring the indistinguishability between machines and human beings, and has sparked widespread debate on the issue of intelligence. Subsequent variations of the test have diverged from the core issue of intelligence by focusing on achieving the goal of deceiving human beings through technology. Additionally, the issue of intelligence involves many ambiguously defined concepts, leading to a lack of consensus in academia on whether machines can think. New developments in artificial intelligence have revealed many shortcomings and flaws in previously accepted theories when confronted with reality. This requires considering a new perspective on intelligence. Firstly, intelligence has multiple functions, forms, and outcomes. An anthropocentric view of intelligence overlooks the possibility of other nonhuman forms of intelligence. Secondly, whether artificial intelligence can think like humans or develop consciousness are not obstacles in the development process of artificial intelligence; rather, these controversies can help move the issue of intelligence beyond the deadlock of consciousness.

      Key Words: Turing test; artificial intelligence; indistinguishability; understanding; consciousness; causal reasoning ability

      猜你喜歡
      理解人工智能意識
      人的意識可以“上傳”嗎?
      2019:人工智能
      商界(2019年12期)2019-01-03 06:59:05
      人工智能與就業(yè)
      IT經理世界(2018年20期)2018-10-24 02:38:24
      增強“四個意識”發(fā)揮“四大作用”
      人大建設(2018年2期)2018-04-18 12:16:53
      意識不會死
      奧秘(2017年11期)2017-07-05 02:13:08
      數讀人工智能
      小康(2017年16期)2017-06-07 09:00:59
      強化五個意識 堅持五個履職
      人大建設(2017年9期)2017-02-03 02:53:39
      談科學故事促進學生對科學本質的理解
      尹雪艷,永遠的上海夢
      偏遠地區(qū)高三英語學習方法探究
      人間(2016年28期)2016-11-10 00:39:35
      平安县| 梨树县| 越西县| 图木舒克市| 南雄市| 元氏县| 黑龙江省| 崇明县| 团风县| 德钦县| 高台县| 朝阳区| 泉州市| 汝城县| 江川县| 明光市| 崇仁县| 新邵县| 永兴县| 普兰店市| 芮城县| 湖南省| 南召县| 江都市| 宜兴市| 邮箱| 兴义市| 西盟| 昭通市| 洪泽县| 金秀| 汝城县| 台北市| 江津市| 绥滨县| 彩票| 友谊县| 鹤壁市| 新源县| 海丰县| 井陉县|