李志勇,焦微玲
(1.江蘇省社情民意調(diào)查中心,南京 210000;2.鹽城工學院 經(jīng)濟管理學院,江蘇 鹽城 224002)
人工智能(Artificial Intelligence,AI)指制造智能機器的科學和工程,強調(diào)創(chuàng)造能夠在各種新穎和無法預知的情況下模擬、復制和拓展人類智能以有效行動的機器。隨著現(xiàn)代人工智能進入快速發(fā)展階段,除倫理、道德、安全、法律、隱私、社會治理規(guī)則等問題引起廣泛關(guān)注外,人工智能在數(shù)據(jù)獲取和處理、因果推斷、不確定性、結(jié)果可解釋性等方面存在的問題也引發(fā)大量討論。統(tǒng)計學提供了大量的發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)、探索數(shù)據(jù)內(nèi)涵并進行預測的工具和方法,是分析和量化不確定性最重要的學科之一。數(shù)據(jù)科學是從數(shù)據(jù)中提取信息,輔助發(fā)現(xiàn)知識并支持決策的一門科學,統(tǒng)計學是數(shù)據(jù)科學的基礎(chǔ),為數(shù)據(jù)科學提供了基礎(chǔ)理論和方法,人工智能是數(shù)據(jù)科學的一個應用領(lǐng)域。因此,基于數(shù)據(jù)科學全流程正確認識統(tǒng)計學在人工智能中的作用與應用,有助于整合統(tǒng)計學模型與方法,改進人工智能算法及其結(jié)果,進一步推進人工智能發(fā)展,更有助于統(tǒng)計學與人工智能實現(xiàn)融通共進,共同促進數(shù)據(jù)科學發(fā)展。
人工智能是關(guān)于知識的學科——怎樣表示知識以及怎樣獲得知識并使用知識的科學,其核心因素是數(shù)據(jù)、算法和算力。早在20世紀50到60年代,人工智能就開發(fā)了包括感知機(Perceptron)算法、反向傳播(Backpropagation)算法等第一代數(shù)據(jù)驅(qū)動算法。20世紀90年代人工智能再次得到快速發(fā)展,支持向量機(Support Vector Machines)、隨機森林(Random Forest)、貝葉斯方法(Bayesian Methods)等的提出奠定了人工智能機器學習的方法和思路。隨著深度置信網(wǎng)絡算法(Deep Belief Networks)、生成對抗網(wǎng)絡模型(Generative Adversarial Networks,GAN)和深度GAN的提出,人工智能神經(jīng)網(wǎng)絡學習快速發(fā)展,人工智能網(wǎng)絡結(jié)構(gòu)更具有顛覆性。
人工智能技術(shù)及其應用的許多突破源于計算機科學,而統(tǒng)計學在人工智能的整個發(fā)展過程中做出了巨大貢獻[1]。統(tǒng)計學促進了人工智能理論研究與實際應用的發(fā)展,許多統(tǒng)計理論在人工智能領(lǐng)域有著重要應用,統(tǒng)計思維影響著人機協(xié)作數(shù)據(jù)獲取、算法研發(fā)和結(jié)果分析,統(tǒng)計模型與方法則為人工智能算法奠定了堅實基礎(chǔ)并在人工智能系統(tǒng)開發(fā)設(shè)計、算法完善等方面發(fā)揮了重要作用。例如:反向傳播和非線性最小二乘法之間關(guān)系的實現(xiàn)[2];徑向基函數(shù)網(wǎng)絡可看作統(tǒng)計學中的非線性回歸模型來研究;一致性說明、泛化邊界等機器學習方法的理論有效性需要大量的數(shù)理統(tǒng)計和概率論基礎(chǔ)知識;超級機器學習或?qū)挾葘W習系統(tǒng)與多元回歸、嶺回歸等線性數(shù)據(jù)統(tǒng)計方法密切相關(guān);在語音識別以及文本分析和翻譯任務中,統(tǒng)計學中擅長語音識別、文本分析和翻譯的隱馬爾可夫模型得到使用和進一步發(fā)展,并取得巨大成功;基于懲罰或魯棒估計方法改進機器學習算法實現(xiàn)超級機器學習等。
因此,人工智能和統(tǒng)計學有著極強的關(guān)聯(lián)性。目前人工智能培養(yǎng)思維能力的基本途徑是機器學習,機器學習是指“通過使用計算機算法自動發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律”,2000年開始,隨著數(shù)據(jù)規(guī)模的增加,機器學習開始更多地將統(tǒng)計學方法和算法用于模擬機器智能,通過機器學習實現(xiàn)統(tǒng)計學習。還有學者認為人工智能是統(tǒng)計學的應用,有的學者認為統(tǒng)計學是人工智能的重要基礎(chǔ),而諾貝爾經(jīng)濟學獎獲得者Thomas J.Sargent則認為人工智能其實就是統(tǒng)計學。
人工智能本質(zhì)上是數(shù)據(jù)驅(qū)動的,而統(tǒng)計學是從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律的學科,兩者都在數(shù)據(jù)科學中發(fā)揮著核心作用。根據(jù)CRISP-DM(Cross Industry Standard Process for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標準流程)的規(guī)定,數(shù)據(jù)科學工作主要包括業(yè)務理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模、評估和部署六個步驟,每一個步驟都直接關(guān)系到結(jié)果的有效性和可靠性。統(tǒng)計學在數(shù)據(jù)測度和評估方面具有極強的專業(yè)性,在確定研究目標和問題、設(shè)計研究方案、進行數(shù)據(jù)收集與分析、分析和解釋研究結(jié)果方面均有獨特科學的方案。而人工智能往往更專注于數(shù)據(jù)分析而較少關(guān)注其他步驟,這可能導致在關(guān)鍵問題上產(chǎn)生誤導性解釋。因此,本文結(jié)合現(xiàn)有研究對數(shù)據(jù)科學的定義和工作步驟,從研究問題、數(shù)據(jù)收集、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分析、結(jié)果解釋等方面系統(tǒng)探討統(tǒng)計學在人工智能中的作用與應用。
人工智能的核心是機器學習,根據(jù)數(shù)據(jù)庫中的知識發(fā)現(xiàn)概念,機器學習從給定的數(shù)據(jù)或公開數(shù)據(jù)中提取信息和知識,對經(jīng)驗的依賴性很強,結(jié)論的有效性和普適性也因此受到影響。統(tǒng)計學的研究問題從理論問題中衍生出來,實證研究檢驗的變量具有概念化和可操作性,分析遵循“初步的定性認識—科學的定量分析—理性的定性認識”過程,研究結(jié)果服務于特定目標。通過背景分析、確定研究問題進而形成初步的定性認識,將為科學的定量分析奠定良好的基礎(chǔ),從而消除系統(tǒng)性誤差、減少隨機誤差,提高分析推斷精度,使得結(jié)論更加有效和實用。
確定研究問題還有助于選擇更合適的理論框架和方法。統(tǒng)計學具有處理隨機性或部分隨機性問題和數(shù)據(jù)的豐富經(jīng)驗,這些數(shù)據(jù)和問題更加關(guān)注概率、誤差等方面,具有確定性背景的圖論結(jié)構(gòu)數(shù)據(jù)和問題則更加關(guān)注魯棒性或敏感性。
2.2.1 人工智能中的數(shù)據(jù)及其特征
人工智能背景下的數(shù)據(jù)通常具有以下特征:(1)常規(guī)數(shù)據(jù)。人工智能不會基于特定目標或特定研究問題收集數(shù)據(jù),例如出于日常存儲或記賬目的而收集數(shù)據(jù)。將這些常規(guī)數(shù)據(jù)用于科學研究是人工智能的典型應用,例如使用醫(yī)療賬單數(shù)據(jù)預測醫(yī)療事故。這樣的數(shù)據(jù)大多是二手數(shù)據(jù),不但存在大量冗余數(shù)據(jù),而且數(shù)據(jù)的邏輯關(guān)系模糊。(2)方便數(shù)據(jù)。被用于科學研究的數(shù)據(jù)并非隨機抽取的樣品,而是基于可獲取性收集的方便樣品,例如在線問卷收集的數(shù)據(jù)僅僅是由訪問該主頁并愿意花時間填寫問卷的用戶提供的。這樣的樣本數(shù)據(jù)往往缺乏代表性,可能導致系統(tǒng)性統(tǒng)計誤差。(3)高維數(shù)據(jù)。醫(yī)療數(shù)據(jù)、城市數(shù)據(jù)、體育數(shù)據(jù)等往往是高維數(shù)據(jù),人工智能具有處理高維數(shù)據(jù)的先天優(yōu)勢,但是輸入高維數(shù)據(jù)有可能觀察到大量特征值,復雜且具有相互作用的非線性關(guān)系也經(jīng)常被用于預測。高維數(shù)據(jù)不但會導致不確定性增加,而且還可能面臨“維數(shù)災難”,一方面,數(shù)據(jù)降維會導致稀疏性,即高維空間中的樣本變得極度稀疏,造成過度擬合;另一方面,有時即使輸入數(shù)百萬量級的數(shù)據(jù),也只有少數(shù)變量跟結(jié)果相關(guān)。較簡單的模型無法捕捉高維數(shù)據(jù)的復雜性,過于復雜的模型和稀疏的訓練數(shù)據(jù)又容易導致訓練誤差較大,從而影響預測效果。
2.2.2 人工智能數(shù)據(jù)特征對研究結(jié)果的影響
數(shù)據(jù)收集方案是整個研究順利開展的基礎(chǔ),由于人工智能存在上述數(shù)據(jù)特征,因此如果缺乏精心設(shè)計的數(shù)據(jù)收集方案,將會影響人工智能系統(tǒng)或算法。
(1)效度。包括內(nèi)部效度和外部效度,從而影響研究結(jié)果的唯一性、普適性和可推廣性。效度無疑是非常重要的,人工智能的通常做法是基于大規(guī)模benchmarking測試數(shù)據(jù)集驗證該算法模型的優(yōu)越性,由于人工智能程序開發(fā)是動態(tài)迭代的且周期越來越短,尤其是在與移動應用程序或在線學習系統(tǒng)相關(guān)的領(lǐng)域,相應系統(tǒng)、算法和模型的驗證難度越來越大,因此需要對其不斷地進行有效性驗證。
(2)代表性。實踐證明并非數(shù)據(jù)規(guī)模越大代表性就越強以及帶來的預測率更高,而是可能會帶來“假規(guī)律”和“偽相關(guān)”,導致研究結(jié)果失真。例如,深度學習中基于相關(guān)性的理論很難高效獲取知識,在認知智能方面的效果有限,同時還出現(xiàn)了兩個典型悖論:辛普森悖論和伯克森悖論。
(3)模型質(zhì)量和效果。通常用偏差、方差、欠擬合、過擬合來判斷和描述人工智能模型的質(zhì)量。一般來說,當數(shù)據(jù)集數(shù)據(jù)規(guī)模足夠大且準確時,人工智能模型越復雜,偏差和方差越小,模型擬合效果越好。但是對于有噪聲的數(shù)據(jù)集來說,更高的模型復雜度并不意味著更低的估計誤差。由于量化、傳感器限制等因素,實際生活中的數(shù)據(jù)通常是含有噪聲的。此外,數(shù)據(jù)的收集方式,例如時間軸、人工智能中的種族、性別、年齡地位等偏見也會導致結(jié)果產(chǎn)生偏差。所以,缺乏良好的數(shù)據(jù)收集方案可能導致測試數(shù)據(jù)集的錯誤較多,人工智能無法捕捉數(shù)據(jù)潛在分布,結(jié)果往往帶有某種傾向或偏見[3]。
(4)穩(wěn)定性。無論是預測模型還是描述性模型,穩(wěn)定性都非常重要,主要反映為模型在面對輸入數(shù)據(jù)的微小變動時是否依然能保持判斷的準確性,通常用魯棒性來評價和衡量,魯棒性的高低直接決定了機器學習模型的泛化能力。當模型缺乏魯棒性時,在現(xiàn)實中面對紛繁復雜的應用場景時,模型的性能會大打折扣,甚至不可用。
此外,結(jié)果還可能面臨“可重復性危機”(Replication Crisis)。結(jié)果的可復制性是科學方法的重要組成部分,無法復制的研究可能會對許多科學領(lǐng)域產(chǎn)生嚴重影響。事實上,許多研究,特別是在醫(yī)學和社會科學領(lǐng)域,其結(jié)果是難以或不可能復制的。因此,研究人員開展大量研究來驗證以前的發(fā)現(xiàn),以確定這些結(jié)論的可靠性。
2.2.3 基于統(tǒng)計學設(shè)計數(shù)據(jù)收集方案的結(jié)果
采用統(tǒng)計學的概念、技術(shù)、模型、方法等可以優(yōu)化數(shù)據(jù)收集方案,包括樣本設(shè)計、樣本規(guī)模和權(quán)重確定、數(shù)據(jù)集限制、抽樣誤差控制等,從而有助于人工智能系統(tǒng)和算法的優(yōu)化。
(1)提高模型的有效性和準確性。獨立數(shù)據(jù)檢驗、外部驗證等在人工智能中起著至關(guān)重要的作用,但是在許多應用中,最初算法被替換從而導致外部數(shù)據(jù)評估階段從未實現(xiàn)。統(tǒng)計學提供了可以驗證人工智能模型內(nèi)部和外部有效性的設(shè)計,例如使用靈敏度、特異性、ROC曲線和校準曲線等質(zhì)量測度統(tǒng)計指標對人工智能模型進行評估,數(shù)據(jù)生成過程建模、數(shù)據(jù)集的限制、析因?qū)嶒灧ǖ冉y(tǒng)計模型、方法和技術(shù)則有助于收集和處理人工智能程序所需要的訓練數(shù)據(jù)。
(2)提高樣本的準確性和代表性。借助統(tǒng)計技術(shù)、模型和方法可以提高人工智能訓練樣本的表現(xiàn),一方面控制抽樣誤差,增加數(shù)據(jù)樣本,通過抽取足量準確樣本減少噪聲;另一方面加強數(shù)據(jù)代表性,在確保訓練樣本量充足的同時保證足夠的特征。
(3)優(yōu)化模型的擬合效果。統(tǒng)計學提供了最小化統(tǒng)計誤差的方法、技術(shù)和原則,例如統(tǒng)計控制、設(shè)計控制等優(yōu)化設(shè)計方法,(部分)隨機化、(部分)盲法、匹配等專為數(shù)據(jù)收集設(shè)計的技術(shù),以及偏好風險評估、層別法、邊際分析、元分析等不同領(lǐng)域的應用案例。此外,統(tǒng)計學通過對樣本的學習進行擬合,從而求得較好的參數(shù)集擬合,最小二乘法、無偏估計、有偏估計等統(tǒng)計思想和概念在模型的擬合優(yōu)化中得到了充分體現(xiàn)和應用。需要注意的是:機器學習高維空間結(jié)構(gòu)處理高維稀疏數(shù)據(jù)需要大量訓練數(shù)據(jù),還需要大量統(tǒng)計模型和相應的數(shù)學近似值或數(shù)值模擬,更需要具有高級統(tǒng)計素養(yǎng)和經(jīng)驗豐富的統(tǒng)計學專家評估訓練數(shù)據(jù)用于人工智能應用程序的可能性、限制條件和數(shù)量。
(4)增強算法的穩(wěn)定性。統(tǒng)計學提供的變量選擇方法可以提高人工智能算法的穩(wěn)定性。模型的復雜程度影響模型的變量選擇方法,而變量選擇可能會影響模型的穩(wěn)定性、回歸系數(shù)的無偏性、P 值或置信區(qū)間的有效性以及對模型的解釋。因此,許多學者強調(diào)了穩(wěn)定性調(diào)查的重要作用,并在人工智能算法中引入統(tǒng)計學概念,認為穩(wěn)定性調(diào)查和推斷是比較變量選擇策略的主要目標參數(shù)之一[4]。
(5)提升模型的魯棒性。好的數(shù)據(jù)收集設(shè)計方案可以抵消所謂的可復制危機,為了使人工智能系統(tǒng)和算法能更好地應用于真實場景,需要提升模型的魯棒性,并將魯棒性作為模型評估的必要維度。
2.3.1 數(shù)據(jù)質(zhì)量在人工智能中的重要性和影響
數(shù)據(jù)質(zhì)量和相關(guān)性在所有數(shù)據(jù)分析中都非常重要,直接關(guān)系到研究結(jié)果的效度、代表性、偏差、穩(wěn)定性、可復制性等。人工智能系統(tǒng)或算法的成功從根本上取決于數(shù)據(jù)質(zhì)量,將高質(zhì)量數(shù)據(jù)與數(shù)據(jù)思維相結(jié)合可以產(chǎn)生新的、應用范圍更加廣泛的算法[5]。但人工智能算法從數(shù)據(jù)湖中提取相關(guān)測量數(shù)據(jù),即從高維數(shù)據(jù)中提取相關(guān)的影響變量,“維數(shù)災難”不可避免。此外,數(shù)據(jù)量大不一定就具有代表性,足夠多的數(shù)據(jù)并不能自動導致理想的預期。
數(shù)據(jù)質(zhì)量對人工智能系統(tǒng)和算法的影響主要表現(xiàn)在以下兩個方面。
(1)準確性。隨著數(shù)據(jù)收集自動化程度的提高,人工智能能夠以經(jīng)濟、高效且簡便的方式提高測量精度,但是否能夠?qū)崿F(xiàn)數(shù)據(jù)質(zhì)量其他維度的目標還有待驗證。如何處理缺失值是一個常見問題,人工智能只能進行正向思維,根據(jù)所輸入的數(shù)據(jù)進行學習推斷,而且其數(shù)據(jù)收集方法允許冗余數(shù)據(jù)存在,雖然對冗余數(shù)據(jù)可以進行預處理,即通過適當?shù)谋尘爸R使數(shù)據(jù)集變得完整,但首先要能夠?qū)⒈尘爸R恰當?shù)卣系綌?shù)據(jù)提取過程中。
(2)相關(guān)性和及時性。人工智能算法常常先假設(shè)數(shù)據(jù)符合一種模型,例如假設(shè)基于隱藏在數(shù)據(jù)中的模式未來將繼續(xù)存在,再依據(jù)數(shù)據(jù)樣本估計模型的部分參數(shù)及統(tǒng)計量,以此了解數(shù)據(jù)特征。但是在實踐中,往往有很多數(shù)據(jù)并不符合假設(shè)的模型分布,從而導致數(shù)據(jù)分析的結(jié)果不理想。
2.3.2 基于統(tǒng)計學方法評價和提高人工智能的數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量是統(tǒng)計的生命力,相關(guān)性、準確性和可靠性、及時性和準時性、一致性和可比性、可訪問性和清晰度是數(shù)據(jù)質(zhì)量的重要維度。統(tǒng)計學提供了評價數(shù)據(jù)質(zhì)量和提高數(shù)據(jù)質(zhì)量的標準和方法。
(1)診斷與測度數(shù)據(jù)質(zhì)量。統(tǒng)計學的重要貢獻之一是提出了分布的概念,探索性數(shù)據(jù)分析提供了一系列將數(shù)據(jù)經(jīng)驗分布可視化并得出適當度量的工具,這些工具可用于檢測異常值、確定典型值和標準值、檢測和處理缺失值、糾正輸入錯誤,結(jié)合數(shù)據(jù)存儲標準,數(shù)據(jù)測度過程中的誤差可以盡早得到檢測和修正。
(2)提供評價標準并評估數(shù)據(jù)質(zhì)量。通過上述方法,統(tǒng)計學可以幫助評價數(shù)據(jù)質(zhì)量,包括系統(tǒng)化、標準化、記錄完整化等。此外,統(tǒng)計調(diào)查方法主要關(guān)注數(shù)據(jù)質(zhì)量,統(tǒng)計調(diào)查研究通過數(shù)據(jù)內(nèi)部和外部的有效性確保數(shù)據(jù)質(zhì)量,這為人工智能算法發(fā)展奠定了基礎(chǔ)。
(3)處理數(shù)據(jù)缺失問題。統(tǒng)計學思維同時具有正逆向思維,既可根據(jù)已掌握數(shù)據(jù)推斷未知數(shù)據(jù),也可對缺失數(shù)據(jù)進行推斷。統(tǒng)計調(diào)查中缺失數(shù)據(jù)的現(xiàn)象較為普遍,統(tǒng)計學家針對非隨機缺失、隨機缺失、完全隨機缺失、無應答偏差、選擇偏差、測量誤差等情況對缺失值處理進行了深入研究,在缺失數(shù)據(jù)處理方面積累了大量經(jīng)驗,有許多成熟的處理方法和輸入缺失數(shù)據(jù)的程序,例如插補法及其程序、數(shù)據(jù)增強方法等,人工智能算法可以根據(jù)現(xiàn)有的背景和專業(yè)知識處理缺失數(shù)據(jù)從而實現(xiàn)數(shù)據(jù)的完整性。
2.4.1 人工智能的關(guān)聯(lián)分析
30多年前人工智能研究的一個主要挑戰(zhàn)是如何對機器進行編程,從而將潛在原因與一組可觀察到的特征值相互關(guān)聯(lián)起來,例如通過貝葉斯網(wǎng)絡方案解決該問題。隨著人工智能的快速發(fā)展,現(xiàn)在已經(jīng)產(chǎn)生了大量可以完成該項任務的算法和方法,例如,被用于機器人、自動駕駛、計算機輔助檢測和診斷系統(tǒng)、藥物研究和發(fā)現(xiàn)、農(nóng)業(yè)等領(lǐng)域的深度學習可以根據(jù)關(guān)聯(lián)分析發(fā)現(xiàn)和揭示大量數(shù)據(jù)中的事物、特征、結(jié)構(gòu)和數(shù)據(jù)之間的關(guān)聯(lián)。
除了超強的預測能力,人工智能還具有處理大數(shù)據(jù)集的優(yōu)異性能,因此被廣泛用于觀測、處理、分析和記錄工業(yè)大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、零售大數(shù)據(jù)等。但這些數(shù)據(jù)并非按照隨機研究設(shè)計的嚴格框架收集,即使兩個變量之間存在很強的相關(guān)性,也并不等同于他們之間存在因果關(guān)系。大量研究表明,如果缺乏因果關(guān)系考慮,那么從數(shù)據(jù)中學習到的相關(guān)性可能是錯誤的,相關(guān)性學習模型由于泛化能力和穩(wěn)定性較差容易受到場景變化或數(shù)據(jù)中異常值的影響,過度依賴數(shù)據(jù)擬合的結(jié)果往往缺乏可解釋性。因此,許多學者認為當前的機器學習是對數(shù)據(jù)和概率分布曲線的擬合,尋找的是變量之間的相關(guān)性,變量的內(nèi)在因果關(guān)系被忽略和簡化,算法缺乏處理歸納推理、因果推理和過程解釋的能力,這不但使科學研究停留在較淺的關(guān)聯(lián)層面,而且還可能導致模型的魯棒性和可解釋性喪失。
2.4.2 因果分析的重要性
貝葉斯網(wǎng)絡之父、人工智能領(lǐng)域的先驅(qū)Pear(l2010)[6]指出因果和關(guān)聯(lián)的區(qū)別:關(guān)聯(lián)主要根據(jù)觀察變量的聯(lián)合分布來定義相關(guān)關(guān)系或反映事物間的相互依存關(guān)系;而因果不能單獨通過計算數(shù)據(jù)獲得,也不能單獨從控制觀測數(shù)據(jù)的分布中確定。他提出了因果階梯論(Pearl Causal Hierarchy,PCH),認為因果推斷有相關(guān)、干預和反事實三個層級,而機器學習僅實現(xiàn)了第一個層級——關(guān)聯(lián),應該使用因果推斷模型從因果而非單純的數(shù)據(jù)角度開展研究,建議將因果框架與機器學習算法相結(jié)合,使機器能夠得出因果結(jié)論并模擬干預。
科學研究的本質(zhì)是探究變量之間的因果關(guān)系,因果關(guān)系是一種穩(wěn)定的機制,不會隨環(huán)境變化而變化,而且也只有這種穩(wěn)定的結(jié)構(gòu)才是可解釋的。因果關(guān)系可以通過因果推斷實現(xiàn),因果推斷是指在現(xiàn)象已經(jīng)發(fā)生的情況下推出因果關(guān)系結(jié)論的過程,是一種通過事物發(fā)生的原因推導至某個肯定結(jié)果的邏輯方式,在生物醫(yī)學、經(jīng)濟管理和社會科學中有著廣泛應用。因果推斷被認為是人工智能領(lǐng)域的一次范式革命,是近年來人工智能領(lǐng)域的研究熱點之一,也是當前學術(shù)界面臨的難題之一。因果推斷既可以發(fā)現(xiàn)現(xiàn)象背后的深層原因或究其根源,也可以估計定量的因果效應,分析當原因改變時結(jié)果變量的響應,從而幫助人們更科學地做出決策干預,更好地解決生活和科學研究中遇到的問題。
2.4.3 統(tǒng)計學推動人工智能理解因果分析
因果推斷是統(tǒng)計學的核心問題之一,學者們進行了大量相關(guān)探索與研究。例如,1965 年流行病學與醫(yī)學統(tǒng)計學專家Bradford Hill提出一套用來判斷某事件與其可能結(jié)果的因果聯(lián)系的標準,并對必要證據(jù)提出具體要求,正式確立了隨機對照方法,建立多項隨機對照臨床試驗的早期研究方法。1974 年著名統(tǒng)計學家唐納德·魯賓提出反事實框架[7],闡述了潛在結(jié)果的概念,并將其推廣到觀察性數(shù)據(jù)中,開啟統(tǒng)計學界對因果推斷的廣泛研究。潛在結(jié)果框架(Potential Outcome Framework)也叫魯賓因果模型(Rubin Causal Model),其基于潛在結(jié)果框架進行因果推斷,是偏向計量的統(tǒng)計分析方法。之后幾十年,現(xiàn)代社會科學研究人員基于此框架并借助統(tǒng)計學對因果關(guān)系的認識,發(fā)展出包括實驗與準實驗、匹配和傾向值匹配、工具變量、倍差法、斷點回歸等適用于不同情境的因果推斷方法。
(1)控制協(xié)變量的不良影響。與隨機控制試驗不同,協(xié)變量效應(Covariate Effect)在隨機對照試驗中非常重要卻常常被忽略。協(xié)變量雖然不為實驗者所控制,但會影響實驗結(jié)果,不合理地考慮協(xié)變量會導致對因果效應的估計失真,因此在進行隨機對照試驗研究設(shè)計和分析時必須考慮協(xié)變量的影響。當隨機對照研究出現(xiàn)分組不均衡時,協(xié)變量可能帶來結(jié)果偏倚,此時的協(xié)變量變?yōu)榛祀s因素(Confounder),會帶來混雜偏倚,導致結(jié)論偏倚乃至錯誤,所以需要正確區(qū)分處理因素和混雜因素。有兩類統(tǒng)計方法可以用來調(diào)整處理分組間潛在或?qū)嶋H存在的不平衡,從而控制協(xié)變量帶來的偏倚。一是事先控制法,包括完全隨機分組、分層隨機化、匹配隨機化等方法,主要用來強制使處理組間在重要和事先指定的協(xié)變量上達到平衡,從而防止實驗設(shè)計階段出現(xiàn)不平衡。二是事后控制法,根據(jù)協(xié)變量的性質(zhì)和需考慮的協(xié)變量數(shù)目的不同,采用差值法、協(xié)方差分析法、分層分析法、回歸分析法等方法對協(xié)變量進行校正,從而調(diào)整在實驗分析階段出現(xiàn)的不平衡。此外,還可以在評價階段通過傾向評分匹配、邊際結(jié)構(gòu)模型、多元線性回歸模型等對混雜因素進行調(diào)整和均衡??傊?,在觀察性數(shù)據(jù)研究中,識別因果關(guān)系比較困難,在進行實驗設(shè)計和分析評價時,一定要選用正確的統(tǒng)計方法,盡可能地控制和消除混雜因素的影響,改善因果效應估計,提高研究結(jié)論的效度和信度。
控制混雜因素、碰撞因素和中介因素對因果效應估計的影響是不同的。與混雜因素會同時影響處理變量和結(jié)果變量不同,碰撞因素(Colliders)會同時被處理變量和結(jié)果變量影響,對其加以控制會削弱因果關(guān)系推理;而中介因素(Mediator)受處理變量影響,同時又影響結(jié)果變量,會“阻斷”處理變量影響結(jié)果變量的路徑,控制中介因素會改變對兩者之間因果關(guān)系的解釋,導致只能解釋部分因果機制或因果效應估計產(chǎn)生偏差。因此,在數(shù)據(jù)分析中,特別是在縱向數(shù)據(jù)分析中,要重視從理論形成視角區(qū)分觀察數(shù)據(jù)中協(xié)變量與處理和結(jié)果變量的關(guān)系,從而避免因果效應估計中的偏差。
(2)回答因果問題和模擬干預。因果關(guān)系錯綜復雜,需要考慮的變量可能不計其數(shù),將合適的統(tǒng)計學理論和方法整合到人工智能模型和算法中有助于回答因果問題和模擬干預?,F(xiàn)實中最直接、最理想判斷干預與效應之間因果效應的估計方法是隨機實驗。然而由于隨機實驗不可行、不合倫理或需要很長時間才能完成,有時必須依賴真實世界的觀察數(shù)據(jù)做出因果推論,包括確定因果問題并做出回答。對于應用觀察數(shù)據(jù)的研究人員而言,確定和回答因果問題的一個有效方法是設(shè)計可回答該問題的目標實驗方案,包括定義和闡明數(shù)據(jù)收集標準、分組、因果對比、數(shù)據(jù)分析計劃、因果問題及回答方式等要素,并根據(jù)該研究方案進行模擬干預,這也體現(xiàn)了科學設(shè)計研究方案的重要性。
(3)提高模型和算法透明度:將統(tǒng)計方法整合用于檢測和理解人工智能模型與算法中的因果關(guān)系還有助于提高其透明度,從而提高人工智能方法的接受度。已有研究表明,基于因果關(guān)系或因果效應的解釋比基于概率或統(tǒng)計相關(guān)性的解釋更有效,也更具說服力。
2.5.1 人工智能中的不確定性
由于認知、數(shù)據(jù)、模型和預測存在不確定性,因此從數(shù)據(jù)收集、數(shù)據(jù)預處理、選擇模型從數(shù)據(jù)中學習、選擇學習算法訓練所需模型,到從所學習的模型中得出推論,人工智能算法的每一個環(huán)節(jié)都存在固有的不確定性。由于依賴大數(shù)據(jù)、不確定性評價方法復雜等,因此不確定性問題常常被忽略。事實上為了實現(xiàn)高度準確預測目標,人工智能應用程序可能過于注重底層的性能而忽略中間層和web層的性能,雖然使得程序更靈活,但也讓程序的不確定性精確量化變得更加復雜。由于參數(shù)的可變性和參數(shù)、結(jié)構(gòu)、算法、實驗和插值的不確定性,因此人工智能系統(tǒng)做出的預測結(jié)果并不完全可靠,在現(xiàn)實中部署時也面臨著失敗風險。
2.5.2 人工智能的不確定性量化
人工智能的不確定性量化大致包括兩類:一類是解決不確定性的正向傳播問題的方法,例如:蒙特卡羅模擬、重要性抽樣、自適應抽樣等基于模擬的方法,使用學習代理模型或完全貝葉斯方法等基于代理的通用方法,泰勒級數(shù)、攝動法等基于局部展開的方法,Neumann展開、正交或Karhunen-Loeve 展開(KLE)等基于函數(shù)展開的方法,一階可靠性方法(FORM)、二階可靠性方法(SORM)等基于最可能點(MPP)的方法,全因子數(shù)值積分(FFNI)、降維(DR)等基于數(shù)值積分的方法。另一類是解決反向不確定性問題的方法,例如:解決偏差校正和參數(shù)校準問題的貝葉斯框架、模塊化貝葉斯方法、針對模型和差異函數(shù)的高斯過程建模、用于計算未知參數(shù)的后驗分布等。
由于這些方法有的需要嚴格執(zhí)行才能得到精確的置信區(qū)間,有的基于較為理想的假設(shè)條件開發(fā),因此還需要在實踐中驗證其可操作性和理論有效性。此外,選擇特定的不確定性量化方法受到基礎(chǔ)模型、學習任務類型、數(shù)據(jù)特征、學習模型的透明度、最終目標等諸多因素影響,如果使用不當,可能因產(chǎn)生較差的不確定性估計而誤導用戶。當然,如果溝通不暢,即使是高度準確的不確定性估計也可能產(chǎn)生誤導。
2.5.3 基于統(tǒng)計學的不確定性量化
學者們普遍認為綜合數(shù)據(jù)分析無法打破不確定性原理,需要對不確定性進行量化,從而提高估計和預測的有效性和可靠性,防止數(shù)據(jù)欺騙[8]。雖然將人工智能算法嵌入統(tǒng)計模型可能影響其靈活度,但是可以通過指定有效的預測區(qū)間和置信區(qū)間更好地實現(xiàn)不確定性量化或提高結(jié)果的可解釋性。例如:在生存分析(time-to-event analyses)中將Kaplan-Meier 或Aalen-Johansen 非參數(shù)估計和機器學習重采樣方法結(jié)合起來構(gòu)造出累積發(fā)生率函數(shù)(cumulative incidence functions,CIF)的同時置信帶;在時間序列預測中,將人工神經(jīng)網(wǎng)絡與ARIMA 模型混合或者基于多階層結(jié)構(gòu)有助于得到更好的解釋。
研究表明,通過統(tǒng)計學的不確定性量化方法也可以提高人工智能算法的可解釋性和效度。例如:在人工智能背景下假設(shè)特定的概率統(tǒng)計模型或依存結(jié)構(gòu)并開展魯棒性調(diào)查、漸近一致性或(有限)誤差界證明等數(shù)學研究,對(隨機)模擬設(shè)計和易于解釋的輔助統(tǒng)計模型進行探索和闡述,對準確性、靈活性、特異性等人工智能算法的質(zhì)量標準進行詳細分析和評價。
2.6.1 可解釋性在人工智能中的重要性
由于許多人工智能程序和算法的估計參數(shù)難以解釋,輸入的數(shù)據(jù)和輸出的答案之間存在“黑箱”,因此人工智能往往缺乏透明度和可解釋性??山忉屝院饬康氖怯脩艨梢岳斫饽P皖A測背后原因的程度,從而影響用戶對人工智能的信任,并帶來算法歧視、算法安全、算法責任等問題。因此,需要進一步研究以增加其可解釋性,進而幫助研究人員更有效地理解人工智能做出的決策,及時對決策偏差進行糾正,提升算法的可信任性、安全性和性能??山忉尩娜斯ぶ悄懿粌H有助于促進最終用戶的信任、模型可審計性和人工智能的高效使用,還能降低使用人工智能所面臨的合規(guī)性、法律、安全和聲譽問題。
2.6.2 基于統(tǒng)計學提高結(jié)果的可解釋性
研究表明,統(tǒng)計學習方法和人工智能學習方法相輔相成,與不確定性量化一樣,可解釋性提高也高度依賴統(tǒng)計技術(shù)。使用統(tǒng)計模型作為輔助可以使人工智能算法更具解釋力,例如回歸算法、決策樹、分類規(guī)則等傳統(tǒng)的相對簡單的統(tǒng)計模型不僅能夠更好地描述人工智能算法的重要模式,而且能幫助人工智能實現(xiàn)高度的可解釋性;圖像模型、支持向量機、隨機森林等集成算法以及神經(jīng)網(wǎng)絡等不僅可以實現(xiàn)可解釋性,還可以用于不確定性量化,從而提高算法的準確性。
影響人工智能算法可解釋性的一個重要因素是模型的復雜度。一般來說,簡單模型具有更高的透明度,復雜模型可以提高性能,復雜度越高,準確度越高,但同時也意味著模型越難以解釋。因此,制定算法解釋權(quán)和算法說明義務等規(guī)則、減少計算量、降低模型復雜度已成為人工智能不可或缺的一部分。模型復雜度和可解釋性的權(quán)衡方法也是統(tǒng)計學面臨的問題,規(guī)則化、降低模型復雜度使模型具有更好的可解釋性是現(xiàn)代統(tǒng)計學的基本準則,有許多方法可供借鑒,例如經(jīng)驗貝葉斯、估計量收縮處理等方法。
人工智能所要研究的是如何讓計算機或機器去完成過去只有人才能做的智能工作,分類是人工智能研究的一個重要分支,目前對于弱人工智能和強人工智能這一分類基本達成共識,并對應形成了弱人工智能觀和強人工智能觀。弱人工智能是指能夠以人類方式思考并執(zhí)行特定任務的機器、系統(tǒng)或算法等,由于這些機器、系統(tǒng)或算法只能完成程序所賦予的特定任務,無法超越其限制,因此即便是目前人類已經(jīng)創(chuàng)造的最為復雜且具有超級自學習能力的人工智能系統(tǒng),也只是某一特定領(lǐng)域的可追蹤程序。強人工智能是指能夠像人類一樣獨立思考并高效執(zhí)行任何智力任務的機器、系統(tǒng)或算法等,這些機器、系統(tǒng)或算法經(jīng)過適當編程后就是具有精神狀態(tài)的人腦,強人工智能有可能制造出有知覺和自我意識的、真正能推理和解決問題的智能機器。
缺乏穩(wěn)定性、透明度和可解釋性極大地限制了人工智能模型和算法的落地。實踐表明,人工智能已經(jīng)在近十幾年的快速發(fā)展中逐漸陷入僵局。機器學習只是數(shù)據(jù)到概率的一個工具,從概率到真正理解,還需要預測行動的效果、進行反事實想象[9]。因此,因果推理取代關(guān)聯(lián)推理,教會機器理解問題背后的根源,最終理解現(xiàn)實,成為人工智能進一步發(fā)展的關(guān)鍵,“可信任”與“可解釋”已成為人工智能發(fā)展的主要方向。實現(xiàn)強人工智能的突破口在于因果推斷的發(fā)展,強人工智能階段的本質(zhì)就是基于數(shù)據(jù)的學習和推理,將統(tǒng)計學應用到人工智能改進中的目標是促進或支持對模型和數(shù)據(jù)的解釋,并從中獲得知識,提高結(jié)果的可解釋性。