徐傳勝
在日常生活中我們時(shí)時(shí)刻刻都會(huì)遇到大量數(shù)據(jù),其實(shí)真正有用的信息是隱藏在數(shù)據(jù)之后的整體特征描述和發(fā)展預(yù)測(cè).
同學(xué)們可能聽說過諺語:矮娘矮一個(gè),矮爹矮一窩;四十三,花眼關(guān);七十三,八十四,閻王不叫自己去等.這其實(shí)都是一些數(shù)據(jù)統(tǒng)計(jì)規(guī)律.如最后一條雖然是借用了孔孟兩大圣人的享年,但我國人口普查資料表明,在73歲和84歲時(shí),人較易死亡,即其作為人類死亡線的兩個(gè)峰值有著深刻的數(shù)據(jù)分析背景,
數(shù)據(jù)分析理論可追溯到距今近三千年的周朝著作《易經(jīng)》,相傳其為伏羲、周文王、周公旦等先后編撰,該宏著以大自然現(xiàn)象的數(shù)量表現(xiàn)為研究對(duì)象,以太極、兩儀、四象、八卦、六十四支直至三百八十四爻的統(tǒng)計(jì)方法,通過各種演變結(jié)果進(jìn)行推算和預(yù)測(cè).后經(jīng)孔子立著,在我國漢代以后產(chǎn)生了極為深遠(yuǎn)的影響.
1.原始統(tǒng)計(jì)思想.
數(shù)據(jù)分析可謂古而有之.數(shù)(shù)的概念源于數(shù)(shǔ),數(shù)(shù)由人類智慧所創(chuàng)造,可用來數(shù)(shǔ)各種集合中的對(duì)象數(shù)目,其與對(duì)象特征無關(guān).如某個(gè)部落必須知道其有多少成員,有多少敵人,捕獲了多少獵物等.即使一個(gè)人也需要知道他羊群里的羊有多少.或許最早的統(tǒng)計(jì)方法就是使用簡(jiǎn)單的一一對(duì)應(yīng)原則來進(jìn)行的,即不斷地?cái)?shù)(shǔ)與量(liáng).最早人類可能是用手指記數(shù),當(dāng)十指不敷運(yùn)用時(shí),隨處可見的石子便成了替代與補(bǔ)充,
《周易·系辭下》云:上古結(jié)繩而治,后世圣人易之以書契,百官以治,萬民以察.顯然記數(shù)的石子堆難以長(zhǎng)久保存信息,故而產(chǎn)生了結(jié)繩記數(shù):重要之事,則在某繩上系個(gè)大結(jié):一般之事,則系個(gè)小結(jié).這說明那時(shí)已用結(jié)繩法來表現(xiàn)社會(huì)現(xiàn)象的數(shù)量,并產(chǎn)生了簡(jiǎn)單分組(大事、小事)與簡(jiǎn)單分組總量指標(biāo)(大事件數(shù)、小事件數(shù)).后來,隨著社會(huì)的進(jìn)步和發(fā)展,書契記數(shù)誕生了.所謂書契就是在某些物品(如狼骨)上刻畫符號(hào),是一種以數(shù)字為主體的經(jīng)濟(jì)記錄方法.結(jié)繩、刻痕之法大約持續(xù)了數(shù)萬年之久,才迎來書寫記數(shù)的誕生.
2.覓求數(shù)據(jù)規(guī)律.
數(shù)據(jù)分析之目的就是把隱藏在一堆看似雜亂無章數(shù)據(jù)中的信息集中和提煉出來,以尋找其內(nèi)在規(guī)律,這可幫助人們做出正確判斷,以采取適當(dāng)行動(dòng).
古人在探索大自然奧秘的過程中,十分注重調(diào)查研究,可謂上至天文,下至地理,涉及很多方面,如在《周易·系辭上》中說:仰以觀于天文,俯以察于地理,是故知幽明之故.大意為抬頭仰望天象,低頭查勘地理,因而可知幽暗和光明的道理.在《萃·彖》中有“觀其所聚,而天地萬物之情可見矣”,即觀察事物的聚散情況,可探求其發(fā)展規(guī)律.而在《恒·彖》中有“觀其所恒,而天地萬物之情可見矣”,指觀察其經(jīng)常存在的部分,亦可了解到萬物內(nèi)在的道理,即透過現(xiàn)象看本質(zhì).“其稱名也小,其取類也大”(《周易·系辭下》),則說明具體看一個(gè)事物是比較局限的,但其所代表的類別則有可能較大.止匕乃由個(gè)體來推論整體的性質(zhì).
“彰往而察來,而微顯闡幽”“極數(shù)知來之謂占”都是說先要收集資料,了解過去,再根據(jù)一定的數(shù)學(xué)原理建立統(tǒng)計(jì)模型,才能預(yù)測(cè)事物的發(fā)展規(guī)律.可見古人首先對(duì)自然現(xiàn)象進(jìn)行了廣泛觀察,找出了最為典型的事物作為代表,其次編制出了一套符合自然規(guī)律的符號(hào)體系,應(yīng)用其去概括自然界萬物的相互聯(lián)系,用太極、兩儀、四象、八卦、六十四支直至三百八十四爻來半定量地描述其復(fù)雜的動(dòng)態(tài)變化.古人較多應(yīng)用定性的類比方法找出不同事物之間的共同點(diǎn),從而做出聯(lián)想、推斷和預(yù)測(cè).
3.平均數(shù)的應(yīng)用.
為了有利于數(shù)據(jù)分析,《周易》提出和應(yīng)用了統(tǒng)計(jì)分組和平均數(shù)的概念.在《周易·系辭上》首先提出“方以類聚,物以群分”的統(tǒng)計(jì)分類思想,即我們通常所說的物以類聚,人以群分,通觀《周易》,可見其體現(xiàn)了現(xiàn)代統(tǒng)計(jì)分組法的基本思想,即同類事物聚在一起不是偶然的,而是在同質(zhì)基礎(chǔ)上聚為一類,觀察這些同類群體可洞察萬物之本質(zhì),按不同類別分辨事物時(shí),不要混淆其差別.
平均數(shù)思想主要體現(xiàn)在《謙》中,“謙,君子以裒多益寡,稱物平施”.“裒”(póu)指減少,“益”為增加,“裒多益寡”就是指對(duì)研究對(duì)象的各個(gè)單位數(shù)量減有余而補(bǔ)不足,“稱物平施”即指衡量事物要均等,故而大意為截取多余、增加匱乏,衡量事物的多寡而公平給予.這就為平均數(shù)理論奠定了基礎(chǔ).平均數(shù)就是對(duì)研究對(duì)象的某個(gè)數(shù)量標(biāo)志的變量減有余而補(bǔ)不足所求得的一般水平.計(jì)算平均數(shù)的作用就在于衡量事物要均等.
需要說明的是,平均數(shù)有時(shí)可能會(huì)掩蓋原始數(shù)據(jù)的某些信息,還會(huì)受到極端值的影響.如班級(jí)平均分?jǐn)?shù)往往會(huì)因?yàn)橐粌擅患案竦耐瑢W(xué)而大幅下降.在各種比賽中,采用“去掉一個(gè)最高分,去掉一個(gè)最低分,再取平均值”的方法,是因?yàn)閷⑸贁?shù)異常值去掉后計(jì)算出的平均值具有更好的代表性與穩(wěn)定性,
包含大量繁雜數(shù)據(jù)的信息對(duì)每個(gè)人都是平等的,差別在于是否能從中甄別規(guī)律,從而更好地理解世界,抓住機(jī)遇.運(yùn)用數(shù)據(jù)進(jìn)行推斷的思考方法,是現(xiàn)代社會(huì)普遍適用且強(qiáng)有力的思維方式,是信息時(shí)代每個(gè)公民基本素養(yǎng)的一部分.同學(xué)們要養(yǎng)成用數(shù)據(jù)說話的態(tài)度,逐步形成科學(xué)的世界觀與方法論.