王東瑩,孟麗新
(吉林財經(jīng)大學(xué),吉林 長春)
隨著云計算、人工智能、物聯(lián)網(wǎng)等新興科學(xué)技術(shù)的迅猛發(fā)展,各個行業(yè)和領(lǐng)域不斷地創(chuàng)造巨量的數(shù)據(jù)、建立龐大的數(shù)據(jù)庫,我們正處于前所未有的大數(shù)據(jù)環(huán)境。大數(shù)據(jù)涉及海量信息,極具研究價值和產(chǎn)業(yè)價值,并將深刻影響人類的決策模式[1]。針對大數(shù)據(jù)的存儲、處理、分析等關(guān)鍵技術(shù)離不開統(tǒng)計理論的支撐,但經(jīng)典的統(tǒng)計分析方法不能直接遷移到大數(shù)據(jù),統(tǒng)計學(xué)科發(fā)展面臨著大數(shù)據(jù)帶來了重大機(jī)遇和挑戰(zhàn)。為滿足學(xué)科發(fā)展需要,統(tǒng)計專業(yè)教學(xué)需要對教學(xué)內(nèi)容、培養(yǎng)模式進(jìn)行改革,以培養(yǎng)適合大數(shù)據(jù)時代需要的高質(zhì)量人才。
美國統(tǒng)計學(xué)會2000年首次發(fā)布統(tǒng)計學(xué)本科專業(yè)指導(dǎo)性教學(xué)綱要[2],旨在調(diào)整統(tǒng)計專業(yè)學(xué)生培養(yǎng)模式,以適應(yīng)大數(shù)據(jù)時代需求。該綱要于2014年進(jìn)行了一次全面修訂和更新[3],重點(diǎn)強(qiáng)調(diào)統(tǒng)計專業(yè)人才技能培養(yǎng)的四個方面:(1)數(shù)據(jù)科學(xué)日益重要,統(tǒng)計專業(yè)人才不僅需要扎實的數(shù)學(xué)和統(tǒng)計基礎(chǔ),還要有強(qiáng)大的統(tǒng)計計算和編程能力,可以熟練使用專業(yè)統(tǒng)計軟件和數(shù)據(jù)庫;(2)真實數(shù)據(jù)是統(tǒng)計專業(yè)教育的重要組成部分;(3)更加多樣化的統(tǒng)計模型和方法;(4)通過語言、圖表和動畫等用戶易于理解的方式表達(dá)數(shù)據(jù)分析結(jié)論的能力。該人才培養(yǎng)模式對于國內(nèi)統(tǒng)計專業(yè)本科教學(xué)具有借鑒意義。以往, 國內(nèi)統(tǒng)計專業(yè)教學(xué)更多地關(guān)注于統(tǒng)計學(xué)理論與分析方法的講授,而忽略應(yīng)用層面上實踐教學(xué)[4]。當(dāng)學(xué)生面對結(jié)構(gòu)復(fù)雜的真實數(shù)據(jù)時,會遇到各種各樣無法事先預(yù)測的問題,較難給出有效的分析結(jié)果。因此,在大數(shù)據(jù)的時代背景下,統(tǒng)計專業(yè)教學(xué)應(yīng)當(dāng)轉(zhuǎn)向以真實數(shù)據(jù)為驅(qū)動的人才培養(yǎng)模式,側(cè)重于面對真實數(shù)據(jù)的統(tǒng)計模型、統(tǒng)計計算、統(tǒng)計表述。
大數(shù)據(jù)時代背景下,真實數(shù)據(jù)較為顯著的特征可概括為四“V”特征:數(shù)據(jù)量大 (volume)、數(shù)據(jù)類型多樣 (variety)、數(shù)據(jù)價值密度低 (value) 以及速率快 (velocity)[5]?,F(xiàn)有統(tǒng)計學(xué)理論和方法在處理大數(shù)據(jù)的過程中面臨諸多難題,如何建立以數(shù)據(jù)為驅(qū)動的人才培養(yǎng)模式,是統(tǒng)計學(xué)科教學(xué)亟待認(rèn)真研究和解決的難題。
由于大數(shù)據(jù)具有四“V”特征,經(jīng)典統(tǒng)計分析方法可能失效。例如主成分分析、因子分析等多元統(tǒng)計方法主要針對的是數(shù)據(jù)量大、解釋變量少的情形,不適用于具有明顯高維度特征的大數(shù)據(jù)分析。再如,由于數(shù)據(jù)具有大量性,很容易找到顯著相關(guān)關(guān)系,但是難以解釋相關(guān)的意義,所以顯著性檢驗在大數(shù)據(jù)分析中不再占據(jù)中心位置。面對大數(shù)據(jù)的統(tǒng)計分析方法更多地依賴于統(tǒng)計模型來刻畫數(shù)量關(guān)系。然而,在大數(shù)據(jù)時代,人們更容易從不同渠道獲取數(shù)據(jù),為了兼顧不同來源數(shù)據(jù)的同質(zhì)性與異質(zhì)性特征,需要建立更復(fù)雜的統(tǒng)計模型。因此,針對大數(shù)據(jù)的高維數(shù)據(jù)建模及模型評價是統(tǒng)計學(xué)亟待解決的重要問題之一。
在大數(shù)據(jù)分析中,基于完整數(shù)據(jù)的運(yùn)算幾乎難以實現(xiàn),從中選取具有代表性的部分?jǐn)?shù)據(jù)進(jìn)行分析不失為一個可行辦法。抽樣這一經(jīng)典的統(tǒng)計方法,可以在大數(shù)據(jù)分析中發(fā)揮重要作用。但是大數(shù)據(jù)通常是在不同的時間、用不同的方法收集,隨后把整個數(shù)據(jù)合并起來,這導(dǎo)致大數(shù)據(jù)內(nèi)部許多部分的數(shù)據(jù)存在明顯差異,無法滿足統(tǒng)計抽樣中同質(zhì)性等基本假設(shè)。因此,大數(shù)據(jù)環(huán)境對抽樣方法提出了更加嚴(yán)格的要求,需要新的適應(yīng)性、序貫性、動態(tài)的抽樣方法,例如基于案例的抽樣方法和基于事件的抽樣方法[6],以獲取符合統(tǒng)計目的和精度所需的樣本。
大數(shù)據(jù)涵蓋了豐富的信息,但同時也相當(dāng)松散且雜亂無章,數(shù)據(jù)噪音增多。在數(shù)據(jù)分析之前必須進(jìn)行數(shù)據(jù)清洗、降噪、提純等預(yù)處理工作,但是預(yù)處理如此大量的數(shù)據(jù)對于機(jī)器硬件以及算法都是嚴(yán)峻的考驗[5]。目前,機(jī)器學(xué)習(xí)算法和云計算是進(jìn)行大數(shù)據(jù)處理的有力工具,這使得將現(xiàn)有統(tǒng)計方法移遷到大數(shù)據(jù)背景下必須作出調(diào)整,以適應(yīng)機(jī)器學(xué)習(xí)算法和云計算的框架,算法需要變得具有可擴(kuò)展性。
此外,大數(shù)據(jù)思維注重全量樣本數(shù)據(jù)而不是局部數(shù)據(jù),當(dāng)數(shù)據(jù)量增長到一定規(guī)模以后,可以從小量數(shù)據(jù)中挖掘出有效信息的算法并一定適用于大數(shù)據(jù)。但在選擇算法處理大數(shù)據(jù)時仍須謹(jǐn)慎,并且多數(shù)情況下須做成調(diào)整和修正。以經(jīng)典的Bootstrap子抽樣方法為例,基于樣本子集構(gòu)造經(jīng)驗樣本的方法可以實現(xiàn)降低計算復(fù)雜度的目的,但數(shù)據(jù)變異性的相應(yīng)降低導(dǎo)致其結(jié)果依賴于子樣本的選取。由此看出,此類算法在研究大數(shù)據(jù)在概率和統(tǒng)計問題中具有優(yōu)勢,但要達(dá)到降低計算復(fù)雜度,同時提高計算效率和估計精度的目的,仍需對其進(jìn)行修正。
大數(shù)據(jù)時代主要面臨的是非結(jié)構(gòu)化、規(guī)模化數(shù)據(jù),當(dāng)前統(tǒng)計專業(yè)教學(xué)在大數(shù)據(jù)分析方面具有局限性,主要體現(xiàn)為:統(tǒng)計模型及分析方法主要針對結(jié)構(gòu)化數(shù)據(jù)、少量數(shù)據(jù),不能直接遷移到大數(shù)據(jù);側(cè)重于理論傳授,實踐環(huán)節(jié)相對薄弱[7],容易導(dǎo)致學(xué)生面對實際數(shù)據(jù)時無從下手。因此,統(tǒng)計專業(yè)教學(xué)過程中建立以數(shù)據(jù)為驅(qū)動的人才培養(yǎng)模式以適應(yīng)大數(shù)據(jù)時代要求,可以從以下三個方面入手。
面對高速產(chǎn)生、多種類、多來源、多模態(tài)的海量數(shù)據(jù),如何建立大數(shù)據(jù)分析方法,是統(tǒng)計專業(yè)教學(xué)的重大挑戰(zhàn)。以往統(tǒng)計專業(yè)本科教學(xué)主要圍繞線性回歸模型、時間序列分析和多元統(tǒng)計分析展開,遠(yuǎn)遠(yuǎn)不能滿足大數(shù)據(jù)分析的實際需要。大數(shù)據(jù)分析起源于互聯(lián)網(wǎng)數(shù)據(jù)的高度聚集和流動,具有分布式或數(shù)據(jù)流形式的存儲結(jié)構(gòu),需要對傳統(tǒng)數(shù)據(jù)分析方法進(jìn)行分解、規(guī)約、流分析的改進(jìn)[8]。因此,統(tǒng)計專業(yè)教學(xué)中引入新數(shù)據(jù)分析方法,并與傳統(tǒng)統(tǒng)計數(shù)據(jù)分析理論進(jìn)行區(qū)分和聯(lián)系,對于培養(yǎng)學(xué)生的數(shù)據(jù)思維能力十分必要。
一直以來,大量數(shù)學(xué)知識、計算機(jī)知識被廣泛地用于解決統(tǒng)計問題。而大數(shù)據(jù)背景下的統(tǒng)計專業(yè)面臨的實際問題和具體數(shù)據(jù)更加繁復(fù),與數(shù)學(xué)和計算機(jī)學(xué)科的交叉融合有助于豐富問題的解決方法、簡化問題的解決路徑。
當(dāng)前統(tǒng)計專業(yè)日常教學(xué)中融入了數(shù)學(xué)專業(yè)知識,主要包括微積分、線性代數(shù)等基礎(chǔ)知識,培養(yǎng)學(xué)生的數(shù)學(xué)運(yùn)算能力。然而,大數(shù)據(jù)所涉及的運(yùn)算量十分巨大,并非數(shù)學(xué)計算方法能夠解決,需要借助于計算機(jī)等外部設(shè)備。因此統(tǒng)計與數(shù)學(xué)專業(yè)知識的結(jié)合,應(yīng)當(dāng)側(cè)重于培養(yǎng)學(xué)生數(shù)學(xué)思維而非運(yùn)算能力。
隨著數(shù)據(jù)可視化工具、數(shù)據(jù)庫、分布式計算、數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等方法,越來越廣泛地應(yīng)用于解決統(tǒng)計問題,統(tǒng)計專業(yè)技能培養(yǎng)過程中應(yīng)充分考慮與計算機(jī)學(xué)科的交叉融合,注重培養(yǎng)學(xué)生的編程能力和算法思維。熟練掌握數(shù)據(jù)庫和統(tǒng)計軟件的使用方法,能夠讀寫數(shù)據(jù)庫、編寫程序、設(shè)計算法、進(jìn)行統(tǒng)計分析與建模,是當(dāng)下統(tǒng)計專業(yè)畢業(yè)生的一項基本技能。
大數(shù)據(jù)時代,統(tǒng)計工作的研究對象是大規(guī)模的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),具有較強(qiáng)的實際應(yīng)用背景。然而,我國當(dāng)前統(tǒng)計教學(xué)更多地針對教科書提供的二手?jǐn)?shù)據(jù),數(shù)據(jù)的應(yīng)用背景明顯被淡化,這種教學(xué)模式忽視了實際問題與數(shù)據(jù)分析之間的聯(lián)系,學(xué)生的數(shù)據(jù)思維和問題解決能力得不到很好的鍛煉,當(dāng)他們遇到復(fù)雜的大數(shù)據(jù)分析問題時往往無從下手。因此,大數(shù)據(jù)必然引發(fā)新的教學(xué)模式,統(tǒng)計學(xué)課程應(yīng)當(dāng)引入來源于實際應(yīng)用領(lǐng)域真實數(shù)據(jù),引導(dǎo)學(xué)生把實際問題轉(zhuǎn)化為統(tǒng)計問題并進(jìn)行數(shù)據(jù)分析,培養(yǎng)學(xué)生用數(shù)據(jù)思考的能力。同時,統(tǒng)計專業(yè)教學(xué)應(yīng)當(dāng)逐步強(qiáng)化實踐教學(xué)所占的比重。通過大量的實踐訓(xùn)練,幫助學(xué)生積累統(tǒng)計分析方法的應(yīng)用經(jīng)驗,引導(dǎo)學(xué)生結(jié)合實際問題對各類統(tǒng)計方法的適用性做出評價,并能有效呈現(xiàn)和表達(dá)他們的分析結(jié)論。這是一項極具挑戰(zhàn)性的教學(xué)改革,但對提高統(tǒng)計人才的培養(yǎng)質(zhì)量意義重大。
隨著大數(shù)據(jù)不停地快速增長,從基因組到自然科學(xué)、再到社會科學(xué),統(tǒng)計方法被廣泛地應(yīng)用于跨學(xué)科的研究領(lǐng)域,統(tǒng)計學(xué)知識對社會、經(jīng)濟(jì)、醫(yī)學(xué)、生物、商業(yè)等領(lǐng)域影響越來越大。在這樣的時代背景下,統(tǒng)計人才應(yīng)該具備交叉學(xué)科的綜合性知識與基本技能,通過數(shù)據(jù)分析解決行業(yè)問題,這既是統(tǒng)計人才的機(jī)遇也是挑戰(zhàn)。熟悉計算機(jī)編程技術(shù),并與業(yè)界充分融合的統(tǒng)計專業(yè)人才,能夠為科學(xué)實踐提供更高效、更穩(wěn)健的數(shù)據(jù)處理與分析技術(shù)。因此,統(tǒng)計專業(yè)人才培養(yǎng)應(yīng)當(dāng)注重多學(xué)科交叉培養(yǎng)的模式,使學(xué)生對于統(tǒng)計問題的實際研究背景有更清晰的認(rèn)識,能夠根據(jù)具體科學(xué)領(lǐng)域?qū)y(tǒng)計分析方法進(jìn)行適當(dāng)調(diào)整,以期獲得可靠的分析結(jié)論。
現(xiàn)階段高校存在統(tǒng)計學(xué)方法課程過多且平行開設(shè)[9],簡化過多的知識層次,建立完善的課程體系,形成清晰的課程模塊對于基本素質(zhì)教育和基本技能培養(yǎng)具有重要意義。根據(jù)美國統(tǒng)計學(xué)會統(tǒng)計學(xué)本科專業(yè)指導(dǎo)性教學(xué)綱要[3],統(tǒng)計專業(yè)的課程設(shè)置應(yīng)該涵蓋統(tǒng)計方法與統(tǒng)計理論、數(shù)據(jù)操作與統(tǒng)計計算、數(shù)學(xué)基礎(chǔ)、實踐訓(xùn)練四大課程模塊。這對于國內(nèi)統(tǒng)計專業(yè)本科教學(xué)具有借鑒意義。統(tǒng)計方法與統(tǒng)計理論必然是核心內(nèi)容,后三者作為輔助也起到關(guān)鍵作用。
其中,統(tǒng)計計算是模擬研究的必要工具。通過隨機(jī)模擬來驗證解析方法已經(jīng)得出的結(jié)論,是一種非常有效的學(xué)習(xí)方法[10]。然而,統(tǒng)計計算方法的模擬過程必須依賴于專門的統(tǒng)計分析軟件。在大數(shù)據(jù)背景下,R軟件可進(jìn)行數(shù)據(jù)挖掘、建立統(tǒng)計模型并求解,在功能上遠(yuǎn)超SPSS,與SAS不相上下。應(yīng)用R軟件以及持續(xù)更新的R包進(jìn)行實踐教學(xué),既可以促進(jìn)學(xué)生對于統(tǒng)計計算技術(shù)的理解,也鍛煉了模擬分析的能力,為其從事數(shù)據(jù)分析相關(guān)工作打下理論基礎(chǔ)。
其次,數(shù)學(xué)基礎(chǔ)的建立是為了加深對統(tǒng)計模型和理論的理解,提高數(shù)據(jù)分析結(jié)果的可靠性。統(tǒng)計專業(yè)的本科生應(yīng)當(dāng)具備扎實的數(shù)學(xué)理論基礎(chǔ)?;A(chǔ)課程模塊包括微積分,如一元和多元微積分;線性代數(shù),如矩陣運(yùn)算、特征根求解、歐式空間投影;隨機(jī)過程,如隨機(jī)變量、Markov鏈;優(yōu)化方法,如梯度下降法、牛頓法、擬牛頓法等。對于數(shù)學(xué)基礎(chǔ)知識的講授過程中應(yīng)重點(diǎn)強(qiáng)調(diào)其在統(tǒng)計中的應(yīng)用。
實踐訓(xùn)練部分強(qiáng)調(diào)對真實數(shù)據(jù)的清洗、建模、可視化,鍛煉學(xué)生對統(tǒng)計分析方法的應(yīng)用能力。結(jié)合具體行業(yè)數(shù)據(jù),講解數(shù)據(jù)分析過程中容易遇到的各類問題,探索統(tǒng)計方法的適用性,有助于加強(qiáng)學(xué)生的實操能力,掌握從事數(shù)據(jù)分析相關(guān)工作基本技能。
大數(shù)據(jù)時代背景下,統(tǒng)計學(xué)面臨的數(shù)據(jù)來源于各個行業(yè),涉及多種學(xué)科,在各實踐領(lǐng)域具有廣泛地應(yīng)用,逐漸成為支撐學(xué)科。因此,統(tǒng)計專業(yè)教學(xué)培養(yǎng)任務(wù)愈加繁重、目標(biāo)對象更為廣泛。對于統(tǒng)計專業(yè)人才的具體要求可歸納為:(1)具有扎實的數(shù)學(xué)、統(tǒng)計學(xué)基礎(chǔ),以及交叉學(xué)科綜合性知識;(2)具有統(tǒng)計計算和編程基本能力;(3)具有數(shù)據(jù)思維和素養(yǎng);(4)具有創(chuàng)新、分析和解決問題能力。該目標(biāo)側(cè)重于學(xué)生三個思維和一種能力,即數(shù)據(jù)思維、算法思維、創(chuàng)新思維和解決問題的能力,以適應(yīng)社會的實際需要。
在大數(shù)據(jù)時代背景下,統(tǒng)計專業(yè)人才面臨重大的機(jī)遇和挑戰(zhàn)。統(tǒng)計專業(yè)教學(xué)應(yīng)當(dāng)轉(zhuǎn)向以真實數(shù)據(jù)為驅(qū)動的人才培養(yǎng)模式,以培養(yǎng)具有數(shù)據(jù)思維、編程能力、實踐能力的應(yīng)用型數(shù)據(jù)分析人才為目標(biāo),并通過大量行業(yè)大數(shù)據(jù)的實踐訓(xùn)練,全面提升人才競爭力,以拓寬本專業(yè)的就業(yè)方向和途徑。