• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)推理的歸納邏輯基礎(chǔ)

      2017-01-09 08:50:34潘文全
      哲學(xué)分析 2016年6期
      關(guān)鍵詞:總體定理概率

      潘文全

      ·科學(xué)技術(shù)的哲學(xué)理解·

      大數(shù)據(jù)推理的歸納邏輯基礎(chǔ)

      潘文全

      大數(shù)據(jù)是當(dāng)今計(jì)算機(jī)發(fā)展的新方向,它的原理是基于已經(jīng)收集到的大數(shù)據(jù)去推測(cè)未來或者總體,所以可以說在大數(shù)據(jù)的分析中使用了很多邏輯推理,但是對(duì)于這一問題的研究并不充分。大數(shù)據(jù)推理不同于經(jīng)典的邏輯推理,它是一種統(tǒng)計(jì)推理,也是一種基于經(jīng)典邏輯推理的復(fù)合推理模式,所以從推理的視角看待大數(shù)據(jù)既可以發(fā)展一種新型的推理方法,對(duì)大數(shù)據(jù)分析也很有幫助。

      大數(shù)據(jù);推理;歸納邏輯

      一、導(dǎo) 言

      “大數(shù)據(jù)”這一術(shù)語最早出現(xiàn)在20世紀(jì)90年代,由于云計(jì)算和物聯(lián)網(wǎng)的發(fā)展,出現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)的大量增長(zhǎng),而且數(shù)據(jù)單位也達(dá)到了ZB級(jí)別,但是這些數(shù)據(jù)超過了人力所能處理的范圍,人們就開始研究如何處理這些數(shù)據(jù),進(jìn)而產(chǎn)生了一個(gè)新的研究領(lǐng)域——大數(shù)據(jù),但是從全世界的范圍來看,對(duì)大數(shù)據(jù)的研究和應(yīng)用還處于初級(jí)階段。

      什么是大數(shù)據(jù)?目前學(xué)術(shù)界還沒有確切的、統(tǒng)一的定義,各方對(duì)大數(shù)據(jù)給出了數(shù)十種不同的定義,通過比較發(fā)現(xiàn)這個(gè)概念具有明顯的時(shí)代相對(duì)性,它是針對(duì)在此之前的網(wǎng)絡(luò)數(shù)據(jù)而言的,所以可以從狹義和廣義兩個(gè)方面來看。狹義的大數(shù)據(jù)主要是指大數(shù)據(jù)的關(guān)鍵技術(shù)以及它在相關(guān)領(lǐng)域的應(yīng)用,這個(gè)定義反映了數(shù)據(jù)規(guī)模的量級(jí)大到無法用常規(guī)的計(jì)算機(jī)軟件對(duì)其進(jìn)行分析處理,也就是海量數(shù)據(jù)的獲取、儲(chǔ)存、管理、分析、應(yīng)用等層面;廣義的大數(shù)據(jù)包括大數(shù)據(jù)工程、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)科學(xué)等相關(guān)的所有領(lǐng)域,所以廣義的定義包含狹義的定義。*中科院深圳先進(jìn)技術(shù)研究院—國(guó)泰安金融大數(shù)據(jù)研究中心:《大數(shù)據(jù)導(dǎo)論》,北京:清華大學(xué)出版社2015年版,第3—26頁。

      大數(shù)據(jù)之謂大數(shù)據(jù),在于它具有四個(gè)特點(diǎn):數(shù)據(jù)規(guī)模大、數(shù)據(jù)種類多、數(shù)據(jù)價(jià)值密度低和數(shù)據(jù)更新頻率快。大數(shù)據(jù)的基本特征是數(shù)據(jù)量大,數(shù)據(jù)規(guī)模是用計(jì)算機(jī)的儲(chǔ)存容量的單位來測(cè)量的,所有的單位按照順序依次為:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,目前互聯(lián)網(wǎng)一天的所產(chǎn)生的數(shù)據(jù)量已經(jīng)達(dá)到了ZB級(jí)別。大數(shù)據(jù)的種類不僅包括傳統(tǒng)的關(guān)系類型數(shù)據(jù),還包括未加工的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù),結(jié)構(gòu)化的數(shù)據(jù)主要是傳統(tǒng)的能夠用二維表結(jié)構(gòu)來表達(dá)的數(shù)據(jù);半結(jié)構(gòu)化的數(shù)據(jù)主要是指較為規(guī)范的純文本的數(shù)據(jù);非結(jié)構(gòu)的數(shù)據(jù)指那些非純文本的數(shù)據(jù),它們沒有固定的格式,例如網(wǎng)頁、視頻、音頻等。這是由于數(shù)據(jù)的來源多樣化了,相對(duì)于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)的產(chǎn)生方式發(fā)生了四個(gè)變化:第一,數(shù)據(jù)的產(chǎn)生由企業(yè)內(nèi)部向企業(yè)外部擴(kuò)展,傳統(tǒng)數(shù)據(jù)主要是來源于企業(yè)內(nèi)部,而大數(shù)據(jù)主要來源于企業(yè)外部,原因是企業(yè)需要利用互聯(lián)網(wǎng)聯(lián)系上下游供應(yīng)商、合作機(jī)構(gòu)以及客戶等;第二,數(shù)據(jù)的生成由Web1.0向Web2.0發(fā)展,個(gè)人從數(shù)據(jù)的使用變成了數(shù)據(jù)的制造,使得數(shù)據(jù)規(guī)模不斷膨脹;第三,從互聯(lián)網(wǎng)向移動(dòng)互聯(lián)網(wǎng)擴(kuò)展,也使得更多的人成為了數(shù)據(jù)的生產(chǎn)者;第四,數(shù)據(jù)的產(chǎn)生從互聯(lián)網(wǎng)向物聯(lián)網(wǎng)發(fā)展,產(chǎn)生了越來越多的傳感器,所以能夠收集種類上更多的數(shù)據(jù),同時(shí)也能收集數(shù)量上更多的數(shù)據(jù)。*方巍、鄭玉、徐江:《大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述》,載《南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版)》2014年第5期。數(shù)據(jù)的產(chǎn)生和更新速度快也是大數(shù)據(jù)的另一個(gè)特征,“一秒定律”是傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)區(qū)別的最顯著的特征。雖然大數(shù)據(jù)的數(shù)據(jù)量呈現(xiàn)幾何級(jí)數(shù)的增長(zhǎng),但是這些數(shù)據(jù)中有價(jià)值的信息卻沒有實(shí)現(xiàn)對(duì)應(yīng)比例的增長(zhǎng),也就是說價(jià)值密度反而降低了,這是因?yàn)榇髷?shù)據(jù)的結(jié)構(gòu)復(fù)雜,難以用傳統(tǒng)的方法進(jìn)行分析,而且實(shí)時(shí)更新速度快,個(gè)體化特征明顯,所以大數(shù)據(jù)的另一個(gè)特征是數(shù)據(jù)的價(jià)值密度很低,遠(yuǎn)遠(yuǎn)低于傳統(tǒng)數(shù)據(jù),這就使得獲得有價(jià)值信息的難度不斷增大。

      發(fā)展大數(shù)據(jù)技術(shù)的目的都是為了應(yīng)用,這也是驅(qū)動(dòng)大數(shù)據(jù)發(fā)展的主要?jiǎng)恿Γ壳按髷?shù)據(jù)主要用于解決很多社會(huì)科學(xué)領(lǐng)域中的問題,早期的運(yùn)用主要是大型互聯(lián)網(wǎng)用于分析網(wǎng)站數(shù)據(jù)和用戶行為,目前公共組織、傳統(tǒng)企業(yè)也在使用大數(shù)據(jù)技術(shù)去完成各種功能需求?;旧洗髷?shù)據(jù)的應(yīng)用呈現(xiàn)出互聯(lián)網(wǎng)領(lǐng)先、其他行業(yè)效仿的狀態(tài)。此外互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)的使用中處于領(lǐng)先的地位,這是源于它們擁有很多的數(shù)據(jù)和強(qiáng)大的技術(shù)手段,能夠進(jìn)行不同層次的研究,比如谷歌、亞馬遜、阿里巴巴等已經(jīng)使用大數(shù)據(jù)產(chǎn)生了很多成果。當(dāng)然大數(shù)據(jù)在非互聯(lián)網(wǎng)企業(yè)中也有巨大的作用,主要體現(xiàn)在通過數(shù)據(jù)挖掘而提供決策建議,企業(yè)的決策必須以事實(shí)為基礎(chǔ),使用大數(shù)據(jù)分析把具有潛力的價(jià)值挖掘出來以優(yōu)化企業(yè)運(yùn)行,從而節(jié)約成本,實(shí)現(xiàn)盈利。在公共組織的應(yīng)用領(lǐng)域主要是指社會(huì)和政府,目前正面臨著就業(yè)、人口、環(huán)境等一系列社會(huì)問題,運(yùn)用大數(shù)據(jù)可以給政府提供決策建議。*陶雪嬌、胡曉峰、劉洋:《大數(shù)據(jù)研究綜述》,載《系統(tǒng)仿真學(xué)報(bào)》2013年第1期。

      二、大數(shù)據(jù)推理

      由上述分析可以看出,發(fā)展大數(shù)據(jù)的主要?jiǎng)訖C(jī)首先在于描述總體的情況,其次是在此基礎(chǔ)之上的預(yù)測(cè)和控制,所以大數(shù)據(jù)的核心在于如何推斷出總體的情況,得出關(guān)于總體真的結(jié)論。在傳統(tǒng)的統(tǒng)計(jì)方法中,已知的只有樣本的信息,然后通過樣本的參數(shù)去歸納出總體的參數(shù);而在大數(shù)據(jù)中,可以認(rèn)為這個(gè)觀點(diǎn)仍然是恰當(dāng)?shù)?,即使相?duì)于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)規(guī)模很大,但是它仍然沒有涵蓋總體的全部信息,或者說在某一次具體的數(shù)據(jù)分析中,受限于技術(shù)條件仍然只是處理樣本數(shù)據(jù)。但是從樣本數(shù)據(jù)到總體數(shù)據(jù)的過渡是如何可能的問題,以及在何種程度上這種過渡是合理的也沒有得到充分的回答。

      因此可以提出下述幾個(gè)問題:第一,為什么已經(jīng)采集到的數(shù)據(jù)能夠反映出事物的性質(zhì)?第二,為什么能由目前已經(jīng)收集到的數(shù)據(jù)區(qū)推測(cè)明天事物的發(fā)展(也就是休謨問題)?第三,由于大數(shù)據(jù)的推理屬于歸納推理,那么如何評(píng)價(jià)大數(shù)據(jù)推理的推理強(qiáng)度?如何確定它犯錯(cuò)誤的可能性?

      第一個(gè)問題可以由隨機(jī)抽樣、大數(shù)定理和中心極限定理來回答。通過抽樣可以得到一個(gè)樣本,它雖然不是總體全部,但是隨機(jī)抽樣保證抽出的任意樣本與總體在性質(zhì)上類似,所以能夠代表總體,但是仍然存在差異,這個(gè)差異就導(dǎo)致從樣本推斷總體可能出現(xiàn)邏輯錯(cuò)誤,也就是說不具有保真性,但是通過重復(fù)隨機(jī)抽樣而形成一個(gè)樣本分布,利用這個(gè)樣本分布可以去度量出錯(cuò)的概率,也可以去度量大數(shù)據(jù)推理的強(qiáng)度,這個(gè)過程就是大數(shù)定理所表達(dá)的東西。

      大數(shù)定理是由概率的統(tǒng)計(jì)定義“頻率收斂于概率”發(fā)展起來的,而且匹配大數(shù)據(jù)的數(shù)據(jù)規(guī)模龐大這個(gè)性質(zhì),因?yàn)榇髷?shù)定理本身就要求數(shù)據(jù)量越大得出的結(jié)論越可靠。假設(shè)做了n次獨(dú)立抽樣,觀察事件A是否發(fā)生,且發(fā)生的概率為p,那么可以引入隨機(jī)變量假設(shè)X1, X2, …, Xn…,對(duì)于任意的Xi(i∈N),如果在第i次抽樣時(shí)事件A發(fā)生了,則Xi=1,反之Xi=0,那么在n次抽樣中事件A一共出現(xiàn)了X1+…+Xn次,而頻率就是:

      如果P(A)=p,則頻率趨近于概率,也就是說當(dāng)抽樣次數(shù)n很大時(shí)pn接近于p。“大數(shù)”的意思就是指涉及大量數(shù)目的觀察值Xi,所以此定理只有在大量次數(shù)的觀察之下才能成立。恰好滿足大數(shù)據(jù)數(shù)據(jù)規(guī)模大的特點(diǎn)。比如為了測(cè)量所有中國(guó)人的消費(fèi)水平,抽取1000個(gè)人乃至10000個(gè)人,但是這1000個(gè)人或者10000個(gè)人的平均消費(fèi)水平與所有中國(guó)人的消費(fèi)水平都存在差異,但是當(dāng)抽取的樣本容量n逐漸增加時(shí),樣本的平均值的極限就是所有中國(guó)人的消費(fèi)水平。這個(gè)定理把頻率和概率聯(lián)系起來了,而大數(shù)據(jù)的特點(diǎn)就是海量的數(shù)據(jù),所以用大數(shù)據(jù)的數(shù)值特征能夠反映事物總體的性質(zhì)。

      雖然大數(shù)定理能夠提供一種手段去測(cè)量很多隨機(jī)變量的數(shù)值,但是還有很多變量難以測(cè)量,或者難以計(jì)算,這個(gè)時(shí)候就需要中心極限定理。設(shè)X1, X2, …, Xn, …,為獨(dú)立同分布的隨機(jī)變量,E(Xi)=a, Var(Xi)=σ2, 0<σ2<∞,則對(duì)于任意實(shí)數(shù)x,有

      該定理的意思是,對(duì)于很多隨機(jī)變量,如不清楚它們的分布函數(shù),那么就很難求出它們的概率,這個(gè)時(shí)候通過對(duì)這些隨機(jī)變量進(jìn)行標(biāo)準(zhǔn)正太化形成一個(gè)新的隨機(jī)變量,這個(gè)新的隨機(jī)變量的分布近似地服從于標(biāo)準(zhǔn)正態(tài)分布,通過處理標(biāo)準(zhǔn)正態(tài)分布就可以得到原隨機(jī)變量的概率值。*陳希孺:《概率論與數(shù)理統(tǒng)計(jì)》,合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社2009年版,第140—145頁。通過運(yùn)用這兩個(gè)定理以及隨機(jī)變量的分布函數(shù)可以得到隨機(jī)變量的事件的概率。

      最后兩個(gè)問題就是由統(tǒng)計(jì)推理來回答。統(tǒng)計(jì)推理就是通過分析已被觀察到的樣本數(shù)據(jù)去推測(cè)全體所具有的性質(zhì),統(tǒng)計(jì)推理具有不同的范式,F(xiàn)orster描述了三種范式:頻率推理、貝葉斯統(tǒng)計(jì)推理、其他統(tǒng)計(jì)推理。

      頻率推理是指從樣本數(shù)據(jù)的比例或者頻率來得出結(jié)論的統(tǒng)計(jì)推理,它與概率的頻率解釋聯(lián)系在一起,特別是任意的抽樣都能夠被看成是同一抽樣的重復(fù)序列中的一個(gè),每一個(gè)抽樣都能夠獨(dú)立地產(chǎn)生統(tǒng)計(jì)結(jié)果。這種范式通過重復(fù)考察樣本數(shù)據(jù)的特征而去量化統(tǒng)計(jì)總體的頻率性質(zhì),其中頻率推理中最常見的推理形式是假設(shè)檢驗(yàn)和置信區(qū)間。

      在統(tǒng)計(jì)推理中,通過樣本統(tǒng)計(jì)量得出的差異而去推斷總體參數(shù)之間是否存在差異,這種推理過程就叫做假設(shè)檢驗(yàn),它的原理是首先對(duì)總體參數(shù)或者總體分布做出某個(gè)假設(shè),然后利用樣本信息來判斷假設(shè)是否合理,從而決定能否接受假設(shè),很明顯這是一種歸納推理。在大數(shù)據(jù)中對(duì)總體的假設(shè)一般指用統(tǒng)計(jì)性術(shù)語對(duì)總體所做出的假設(shè)性說明,通常記為H1。一個(gè)完整的假設(shè)檢驗(yàn)的推理模式包括五個(gè)步驟:第一步,提出科學(xué)假設(shè)H1以及與科學(xué)假設(shè)相對(duì)立的虛無假設(shè)H0;第二步,選擇合適的檢驗(yàn)統(tǒng)計(jì)量;第三步,規(guī)定顯著性水平α,顯著性水平的大小應(yīng)該因地制宜,如果要求推理的結(jié)果較精確,則α偏小,反之則α偏大;第四步,根據(jù)樣本計(jì)算出檢驗(yàn)統(tǒng)計(jì)量的具體值;第五步,做出推論,即依據(jù)α和統(tǒng)計(jì)量的分布,用計(jì)算出的統(tǒng)計(jì)量的值同臨界值相比較,判定是否接受虛無假設(shè),如果接受虛無假設(shè),那么推斷出對(duì)總體的假設(shè)為假,如果拒絕虛無假設(shè),那么推斷出對(duì)總體的假設(shè)為真。*張厚粲:《現(xiàn)代心理與教育統(tǒng)計(jì)學(xué)》,北京:北京師范大學(xué)出版社2003年版,第265—266頁。

      例如,某購(gòu)物網(wǎng)站對(duì)其用戶的網(wǎng)購(gòu)消費(fèi)水平進(jìn)行大數(shù)據(jù)分析,為了計(jì)算方便,假設(shè)用戶的數(shù)量n=160,結(jié)果顯示平均消費(fèi)額度μ1=10500元,已知全國(guó)網(wǎng)購(gòu)消費(fèi)的常模為μ0=10000, σ0=2000,那么該網(wǎng)站的用戶的消費(fèi)水平是否與常模水平有差異?研究這個(gè)問題的目的是通過大數(shù)據(jù)分析的結(jié)果去推斷該網(wǎng)站用戶的消費(fèi)水平是否與一般水平不同。若以μ表示該網(wǎng)站用戶消費(fèi)水平的平均數(shù),則檢驗(yàn)的目的是要證實(shí)是否μ1≠μ0,所以研究假設(shè)為H1: μ1≠μ0。

      由于在大數(shù)據(jù)推理中不能直接對(duì)H1進(jìn)行檢驗(yàn),所以需要使用反證法。它的原理是首先確立H1的對(duì)立假設(shè)H0,由于H1與H0相互對(duì)立,如果證明了H0為假,那么得證H1為真;如果證明了H0為真,那么得證H1為假。這里確證H0為假不是邏輯學(xué)中的導(dǎo)致邏輯矛盾,而是指在一次試驗(yàn)中小概率事件發(fā)生了,它是基于“在一次試驗(yàn)中小概率事件幾乎不可能發(fā)生”的原理,也就是說如果假設(shè)H0為真,并沒有導(dǎo)致小概率事件的發(fā)生,那么就不能拒絕H0,然后就只有拒絕H1,所以H1為假;如果假設(shè)H0為真,導(dǎo)致了小概率事件的發(fā)生,那么就必須拒絕H0,因此接受H1,所以H1為真。

      在上文的例子中所做的假設(shè)為:

      H1: μ1≠μ0。

      H0: μ1=μ0。

      由于假設(shè)檢驗(yàn)推理是歸納推理,又因?yàn)闅w納推理不具有保真性,所以有可能犯推理錯(cuò)誤,其中主要包括Ⅰ型錯(cuò)誤和Ⅱ型錯(cuò)誤。μ1是從總體中抽取的任意一個(gè)樣本的平均數(shù),它可能不等于μ0,但是只要沒有超出左右兩個(gè)臨界值,那么就認(rèn)為μ0和μ1的差異是由誤差造成的,也就是它們的差異不顯著,這時(shí)不能推翻虛無假設(shè)H0,如果兩端的面積很小,而μ1又落入其中,也就是說小概率事件出現(xiàn)了,那么就有充分的理由否定虛無假設(shè),也就是說μ0和μ1的差異顯著。然而即使兩端的面積再小,如α=0.01,也有1%的概率落入其中,這時(shí)H0仍有1%的概率是真的,所以按照上面的分析仍可能做出μ0和μ1的差異顯著的結(jié)論,這時(shí)犯錯(cuò)誤的概率就是1%,所以把這類拒絕H0時(shí)所犯的推理錯(cuò)誤叫做Ⅰ型錯(cuò)誤,也叫α型錯(cuò)誤。如果μ1沒有落入兩端,按照反證法必須接受H0,這時(shí)也可能犯推理錯(cuò)誤,把這種接受H0所犯的推理錯(cuò)誤叫做Ⅱ型錯(cuò)誤,也叫β型錯(cuò)誤,也就是說接受H0并不等于說μ0和μ1完全沒有差異,同樣有犯錯(cuò)誤的可能性,不能由此得出沒有差異的結(jié)論。*張厚粲:《現(xiàn)代心理與教育統(tǒng)計(jì)學(xué)》,北京:北京師范大學(xué)出版社2003年版,第245—261頁。所以,總體的實(shí)際情況通常是未知的,利用樣本去推斷總體時(shí)有出現(xiàn)推理錯(cuò)誤的可能:第一,虛無假設(shè)本來是正確的,但是拒絕了它,這就是Ⅰ型錯(cuò)誤,也被稱為棄真錯(cuò)誤;第二虛無假設(shè)本來是假的但是接受了它,這就是Ⅱ型錯(cuò)誤,也被稱為取偽錯(cuò)誤。

      頻率推理另一種形式是參數(shù)估計(jì)推理,即從樣本獲得了數(shù)據(jù)之后,如何對(duì)總體的相應(yīng)特征做出推斷,也就是如何從局部結(jié)果推斷出總體的情況,這就是總體參數(shù)估計(jì),這個(gè)問題又可以分為點(diǎn)估計(jì)和區(qū)間估計(jì),很明顯這也是一種歸納推理。

      點(diǎn)估計(jì)推理是指用某個(gè)具體數(shù)值來表示樣本統(tǒng)計(jì)量,進(jìn)而去推斷總體的特征也可以用此數(shù)值來表示,比如利用樣本的相關(guān)系數(shù)去推斷總體的相關(guān)系數(shù)。在點(diǎn)估計(jì)推理中可以用多種樣本統(tǒng)計(jì)量去推斷總體,比如用樣本的中位數(shù)、眾數(shù)、平均數(shù)都可以去推斷總體的平均數(shù),但是它們之間的推理強(qiáng)度是不一樣的,也就是說誤差不一樣,所以就產(chǎn)生了評(píng)價(jià)這些推理有效性的問題。通常一個(gè)好的點(diǎn)估計(jì)推理具備無偏性、有效性、一致性和充分性。但是無論如何,點(diǎn)估計(jì)推理總是存在誤差的,而且又不能提供偏差的程度,所以這些推理總有不足之處,而區(qū)間估計(jì)推理在一定程度上彌補(bǔ)了這個(gè)缺點(diǎn)。

      綜上所述,只要樣本的數(shù)據(jù)是真的,利用上面的假設(shè)檢驗(yàn)推理和參數(shù)估計(jì)推理,就可以保證得到的關(guān)于總體的結(jié)論是歸納為真的,而且是強(qiáng)歸納為真的;與此同時(shí)還可以給出結(jié)論為假的概率。

      貝葉斯推理是另一種統(tǒng)計(jì)推理的方法,這種方法不同于上述假設(shè)檢驗(yàn)推理和參數(shù)估計(jì)推理,因?yàn)樯鲜龇椒ǜ灿诟怕实念l率解釋,而這種方法源于概率的主觀解釋。它的原理是當(dāng)發(fā)現(xiàn)新證據(jù)時(shí),通過先驗(yàn)分布的概率密度函數(shù),運(yùn)用下述貝葉斯定理更新概率,所以貝葉斯推理是統(tǒng)計(jì)中一個(gè)重要技術(shù)。

      表1 兩組后驗(yàn)分布的平均值和標(biāo)準(zhǔn)差比較*程獻(xiàn)禮:《貝葉斯推理的邏輯哲學(xué)研究》,南開大學(xué)博士論文,2013年,第110—111頁。

      除了上述的常規(guī)統(tǒng)計(jì)推理之外,還有基于ACI的推理、置信推理、結(jié)構(gòu)推理等,它們與上述推理的原理不盡相同,但是都服務(wù)于從已知的樣本去推斷未知的總體這一目的。

      三、結(jié) 論

      通過以上的闡述,我們可以得出:大數(shù)據(jù)的推理是一種復(fù)合的推理模式,雖然不同統(tǒng)計(jì)推理的具體過程不盡相同,但是它們的操作過程是一致,即從樣本去推斷總體,也就是從已知推出未知,那么這種推理屬于歸納推理,這就使得它不具有保真性,所以在這種推理中概率和統(tǒng)計(jì)具有核心的作用,它們被用于去度量推理的強(qiáng)度以及出錯(cuò)的概率。因此出現(xiàn)推理錯(cuò)誤就在所難免,比如假設(shè)檢驗(yàn)中的Ⅰ型錯(cuò)誤和Ⅱ型錯(cuò)誤,但是這種推理的歸納強(qiáng)度很高,是一種有效的歸納推理,它能夠在恰當(dāng)?shù)姆秶鷥?nèi)保證從樣本到總體的推理的可靠性。

      (責(zé)任編輯:韋海波)

      潘文全,南開大學(xué)哲學(xué)院博士研究生。

      本文受國(guó)家社科基金重大項(xiàng)目“現(xiàn)代歸納邏輯的新發(fā)展、理論前沿與應(yīng)用研究”(項(xiàng)目編號(hào):15ZDB018)、國(guó)家社科基金重點(diǎn)項(xiàng)目“基于邏輯視域的認(rèn)知研究”(項(xiàng)目編號(hào):11AZD056)的資助。

      B80

      A

      2095-0047(2016)6-0104-09

      猜你喜歡
      總體定理概率
      J. Liouville定理
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      概率與統(tǒng)計(jì)(一)
      概率與統(tǒng)計(jì)(二)
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      2020年秋糧收購(gòu)總體進(jìn)度快于上年
      A Study on English listening status of students in vocational school
      外匯市場(chǎng)運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢(shì)
      “三共定理”及其應(yīng)用(上)
      兴仁县| 焦作市| 盐山县| 黎平县| 景泰县| 名山县| 新宾| 聂拉木县| 思南县| 张北县| 泰州市| 牙克石市| 西吉县| 鞍山市| 苗栗市| 贵港市| 恩平市| 博乐市| 平和县| 临朐县| 渭源县| 平远县| 始兴县| 囊谦县| 惠安县| 浦江县| 佳木斯市| 竹溪县| 湖南省| 民和| 林口县| 贵溪市| 武安市| 桦川县| 平罗县| 江陵县| 山东| 雅安市| 聂拉木县| 温宿县| 永平县|