廣東財(cái)經(jīng)大學(xué)華商學(xué)院 趙慧琴華南農(nóng)業(yè)大學(xué) 劉金山
基于大數(shù)據(jù)時(shí)代的《數(shù)據(jù)處理技術(shù)與SPSS》實(shí)驗(yàn)課程的教學(xué)改革與探討
廣東財(cái)經(jīng)大學(xué)華商學(xué)院 趙慧琴
華南農(nóng)業(yè)大學(xué) 劉金山
隨著社會(huì)科學(xué)技術(shù)的不斷發(fā)展,人們已逐漸進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)的分析,也因此變得越來(lái)越重要?!稊?shù)據(jù)處理技術(shù)與SPSS》作為一門數(shù)據(jù)分析的課程,也要不斷適應(yīng)大數(shù)據(jù)的需求。因此,本文針對(duì)大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的特點(diǎn),找出《數(shù)據(jù)處理技術(shù)與SPSS》課程的實(shí)驗(yàn)教學(xué)中還存在的一些問(wèn)題,并針對(duì)這些問(wèn)題提出相應(yīng)的對(duì)策,一定程度上為同類課程的教學(xué)提供借鑒參考。
大數(shù)據(jù);實(shí)驗(yàn)課程;SPSS;教學(xué)改革
隨著社會(huì)科學(xué)技術(shù)的飛速發(fā)展,尤其是電腦-互聯(lián)網(wǎng)的普及,淘寶網(wǎng)的出現(xiàn),智能手機(jī)等快速移動(dòng)設(shè)備的不斷更新,使得數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),人們逐漸進(jìn)入大數(shù)據(jù)時(shí)代。2015年9月,經(jīng)李克強(qiáng)總理簽批,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展工作。可見(jiàn),大數(shù)據(jù)是越來(lái)越受到了大家的關(guān)注,尤其是國(guó)家層面的關(guān)注。大數(shù)據(jù)不是基于人工設(shè)計(jì)、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)與工具可以自動(dòng)記錄與儲(chǔ)存和連續(xù)擴(kuò)充的、大大超出傳統(tǒng)統(tǒng)計(jì)記錄與儲(chǔ)存能力的一切類型的數(shù)據(jù)[1]。大數(shù)據(jù)不僅復(fù)雜多樣,而且具有潛在價(jià)值,可以根據(jù)需求不同將其運(yùn)用到生物、醫(yī)療、經(jīng)濟(jì)、金融、科學(xué)、環(huán)保等眾多領(lǐng)域。大數(shù)據(jù)作為一種戰(zhàn)略性資源,對(duì)科技進(jìn)步和社會(huì)發(fā)展具有重要的現(xiàn)實(shí)意義。
大數(shù)據(jù)的潛在價(jià)值,往往都需通過(guò)數(shù)據(jù)分析才能實(shí)現(xiàn),而SPSS軟件正是數(shù)據(jù)分析的一種常用工具。因此,在這樣的大數(shù)據(jù)時(shí)代,關(guān)于SPSS軟件的實(shí)驗(yàn)課程的教學(xué)就顯得尤為重要。
(一)大數(shù)據(jù)不會(huì)自動(dòng)產(chǎn)生好的分析結(jié)果
大數(shù)據(jù)不會(huì)自動(dòng)產(chǎn)生好的分析結(jié)果[2]。數(shù)據(jù)分析結(jié)果好壞一定程度上與數(shù)據(jù)的完整性、代表性有關(guān)。如果數(shù)據(jù)不完整或取舍不當(dāng)、代表性不強(qiáng),就易產(chǎn)生錯(cuò)誤的結(jié)論。比如利用樣本數(shù)據(jù)推斷總體特征時(shí),如果總體的變異性小,那么抽得的樣本的數(shù)據(jù)就能較好反映總體的特征。反過(guò)來(lái),如果總體的變異性較大,那么抽得的樣本的數(shù)據(jù)未必能反映總體的特征,也就是樣本的取舍不當(dāng),使得代表性不強(qiáng),則會(huì)嚴(yán)重影響分析結(jié)果。
(二)大數(shù)據(jù)分析中對(duì)事物的分類、篩選和聚類分析等運(yùn)用較多
近些年來(lái),大數(shù)據(jù)的處理技術(shù)已得到一定的發(fā)展,但也還存在一些問(wèn)題,有時(shí)需要借助計(jì)算機(jī)科學(xué)、數(shù)學(xué)等學(xué)科聯(lián)合解決。與此同時(shí),為了更好挖掘大數(shù)據(jù)的價(jià)值,還需要對(duì)大數(shù)據(jù)進(jìn)行篩選、分類、聚類等分析,從中發(fā)現(xiàn)規(guī)律,解決問(wèn)題。
(三)大數(shù)據(jù)分析往往會(huì)涉及不同時(shí)間和不同空間上的數(shù)據(jù)變化規(guī)律
大數(shù)據(jù)分析往往會(huì)涉及不同時(shí)間和不同空間上的數(shù)據(jù)。時(shí)間維度包含生命周期、數(shù)據(jù)的時(shí)間態(tài)、流化與增量、時(shí)效等元素,空間維度又包含三元空間、粒度、數(shù)據(jù)傳輸與遷移、數(shù)據(jù)空間等元素[2]。針對(duì)這些數(shù)據(jù),一方面要找到它們變化的規(guī)律,了解它們的本質(zhì)特征,然后再對(duì)應(yīng)設(shè)計(jì)計(jì)算模型和算法。
(四)大數(shù)據(jù)的核心是預(yù)測(cè)
大數(shù)據(jù)是把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上預(yù)測(cè)事情發(fā)生的可能性。比如淘寶網(wǎng)上預(yù)測(cè)某種商品在某一段時(shí)間內(nèi)的銷售量,這樣店員可以根據(jù)預(yù)測(cè)的銷售量提前準(zhǔn)備相應(yīng)的供貨量。還比如對(duì)股市的波動(dòng)情況進(jìn)行分析,建立時(shí)間序列模型,再根據(jù)所得模型預(yù)測(cè)未來(lái)某一時(shí)間的股市價(jià)格。通過(guò)這兩個(gè)例子我們可以發(fā)現(xiàn)建模的重要性,只有模型建好、建準(zhǔn)確了,才能保證結(jié)果預(yù)測(cè)的準(zhǔn)確性。
(五)在大數(shù)據(jù)時(shí)代,更關(guān)注的是事物之間的相關(guān)關(guān)系,而不是因果關(guān)系
舍恩伯格和庫(kù)克耶提出大數(shù)據(jù)時(shí)代的三大趨勢(shì)之一就是相關(guān)分析對(duì)原來(lái)因果關(guān)系的替代[3]。當(dāng)然,這種替代也不是完全的。大數(shù)據(jù)時(shí)代來(lái)臨之前,研究者往往會(huì)更關(guān)注事物之間的因果關(guān)系。但事實(shí)上,我們有時(shí)只要知道相關(guān)關(guān)系就可以解決問(wèn)題了。比如知道什么時(shí)候是買機(jī)票的最佳時(shí)機(jī),就算不知道價(jià)格變化的原因也沒(méi)關(guān)系。相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在預(yù)測(cè)未來(lái),不僅涉及到線性關(guān)系,還有非線性關(guān)系。比如研究人們收入水平與幸福感之間的關(guān)系。通過(guò)研究發(fā)現(xiàn)并不是收入水平越高,幸福感就越高。它們之間實(shí)際是一條曲線。這個(gè)發(fā)現(xiàn)對(duì)決策者來(lái)說(shuō)就很重要。政策重心不是完全放在增加收入上,而是提高低收入人群的收入水平。
(一)教師科研項(xiàng)目和實(shí)踐案例缺乏,尤其缺乏大數(shù)據(jù)案例
首先,一些教師由于進(jìn)行橫向、縱向項(xiàng)目的主持和參與研究較少,在科研實(shí)踐能力上存在不足,導(dǎo)致實(shí)踐案例選擇受限,或沒(méi)有形成完整的統(tǒng)計(jì)分析意識(shí),而科研實(shí)踐能為課程教學(xué)準(zhǔn)備大量的素材,提高課程教學(xué)的新穎性和前沿性,但教師的科研方面不足勢(shì)必會(huì)影響到案例的選取。其次,由于教師缺乏實(shí)際公司、企業(yè)等職場(chǎng)的工作經(jīng)驗(yàn),對(duì)這些公司、企業(yè)的實(shí)際問(wèn)題的分析也就少之又少,這樣的實(shí)踐案例也就不容易獲得。再者,由于近幾年才逐漸進(jìn)入大數(shù)據(jù)時(shí)代,因此,在實(shí)際的實(shí)驗(yàn)教學(xué)案例中,關(guān)于大數(shù)據(jù)的例子是比較少的。往往是過(guò)去幾年的一些案例數(shù)據(jù),這些數(shù)據(jù)顯然已經(jīng)過(guò)時(shí),不具時(shí)效性。
(二)實(shí)驗(yàn)內(nèi)容訓(xùn)練的側(cè)重點(diǎn)與大數(shù)據(jù)時(shí)代的實(shí)際工作中的側(cè)重點(diǎn)不一致
在以往常規(guī)的實(shí)驗(yàn)內(nèi)容教學(xué)中,一般針對(duì)描述性統(tǒng)計(jì)分析方法、參數(shù)檢驗(yàn)、非參數(shù)檢驗(yàn)、方差分析、回歸分析、聚類分析、因子分析等內(nèi)容講解和應(yīng)用多一些。但在大數(shù)據(jù)時(shí)代,除了前面的一些方法,還對(duì)相關(guān)分析、主成分分析、時(shí)間序列分析等運(yùn)用也較多。再者,針對(duì)每一種方法訓(xùn)練的側(cè)重點(diǎn)也不同,比如針對(duì)回歸分析,在常規(guī)教學(xué)中更關(guān)注模型的建立和檢驗(yàn),而對(duì)模型的預(yù)測(cè)應(yīng)用卻訓(xùn)練不多。這顯然與大數(shù)據(jù)的核心不一致。因此,針對(duì)實(shí)驗(yàn)教學(xué)的內(nèi)容側(cè)重點(diǎn)就要做些調(diào)整和補(bǔ)充。
(三)軟硬件配置不夠先進(jìn),不能滿足大數(shù)據(jù)的需求
大數(shù)據(jù)的特點(diǎn)之一就是會(huì)有海量數(shù)據(jù)出現(xiàn),而海量數(shù)據(jù)對(duì)內(nèi)存的要求很高。我們現(xiàn)在所用的內(nèi)存通常容納不了海量數(shù)據(jù),比如我國(guó)所有移動(dòng)客戶的相關(guān)資料信息就是海量的數(shù)據(jù)。曾經(jīng)一高校的教授被中國(guó)移動(dòng)委托進(jìn)行客戶群的研究,當(dāng)該教授要把數(shù)據(jù)資料拷在電腦里時(shí),拷到中間死機(jī)了,后來(lái)才發(fā)現(xiàn)數(shù)據(jù)太多,電腦容量不夠,內(nèi)存偏小。
(四)對(duì)學(xué)生收集數(shù)據(jù)的能力培養(yǎng)不夠,尤其是大數(shù)據(jù)的收集
教師在對(duì)學(xué)生進(jìn)行實(shí)驗(yàn)訓(xùn)練時(shí),一般都把現(xiàn)成的數(shù)據(jù)放在SPSS數(shù)據(jù)文件里,再發(fā)給學(xué)生練習(xí)的。學(xué)生也只會(huì)照搬書里的方法步驟進(jìn)行SPSS的菜單操作和數(shù)據(jù)結(jié)果分析。但對(duì)于如何獲得數(shù)據(jù)以及如何在SPSS里設(shè)置數(shù)據(jù)變量或者在Excel的數(shù)據(jù)如何根據(jù)分析需要放在SPSS數(shù)據(jù)文件里卻是很不熟悉。如果給學(xué)生一個(gè)實(shí)際問(wèn)題進(jìn)行分析,從收集數(shù)據(jù)、輸入SPSS數(shù)據(jù)到分析數(shù)據(jù),學(xué)生可能就無(wú)從下手了。
(五)學(xué)生對(duì)大數(shù)據(jù)處理結(jié)果不能很好的分析解釋
學(xué)生在學(xué)習(xí)SPSS的課程時(shí),往往更關(guān)注軟件的操作,但對(duì)軟件運(yùn)行出的結(jié)果卻容易忽略。這也與學(xué)生在學(xué)習(xí)相關(guān)統(tǒng)計(jì)理論知識(shí)時(shí),知其然,不知其所以然有關(guān)。比如在主成分分析中,對(duì)各主成分表達(dá)式的書寫中,表達(dá)式的系數(shù)計(jì)算(每個(gè)特征值對(duì)應(yīng)的單位特征向量)就是一個(gè)難點(diǎn)。還有每個(gè)主成分的得分計(jì)算,要求帶標(biāo)準(zhǔn)化后的變量值進(jìn)行計(jì)算,但很多學(xué)生在此處往往會(huì)忘記變量的標(biāo)準(zhǔn)化,直接帶入計(jì)算。還比如在因子分析中,有些學(xué)生不清楚每個(gè)因子得分可在數(shù)據(jù)編輯窗口直接可得出,還要自己動(dòng)手算半天,算完還不正確,這樣再根據(jù)每個(gè)因子得分計(jì)算綜合得分時(shí),也就更不能保證正確了。
(一)不斷更新實(shí)踐案例,增加大數(shù)據(jù)分析的案例
為了適應(yīng)大數(shù)據(jù)時(shí)代的需求,教師在教學(xué)的過(guò)程中一方面要更新實(shí)踐案例,結(jié)合現(xiàn)今的一些公司企業(yè)的案例給學(xué)生講解數(shù)據(jù)分析方法,另一方面還要多找些關(guān)于大數(shù)據(jù)的案例,比如涉及中國(guó)移動(dòng)、中國(guó)聯(lián)通、淘寶網(wǎng)等有海量數(shù)據(jù)的案例分析。針對(duì)這些案例,給學(xué)生講解具體問(wèn)題中用到哪些統(tǒng)計(jì)方法進(jìn)行分析,如何分析結(jié)果等都要講解得很清楚。
(二)實(shí)驗(yàn)內(nèi)容要與時(shí)俱進(jìn),與大數(shù)據(jù)時(shí)代的實(shí)際工作緊密結(jié)合
針對(duì)實(shí)驗(yàn)內(nèi)容要與現(xiàn)今的大數(shù)據(jù)時(shí)代相適應(yīng)。因此,首先增加一些更適合大數(shù)據(jù)分析的實(shí)驗(yàn)內(nèi)容,設(shè)計(jì)對(duì)應(yīng)的實(shí)驗(yàn)項(xiàng)目,同時(shí)還要調(diào)整實(shí)驗(yàn)內(nèi)容的講解和訓(xùn)練的學(xué)時(shí)數(shù)。比如增加主成分分析方法和時(shí)間序列分析方法的學(xué)時(shí)數(shù);還比如對(duì)于回歸分析,要增加一些模型預(yù)測(cè)的內(nèi)容的訓(xùn)練;而對(duì)于非參數(shù)檢驗(yàn),由于實(shí)際用得并不多,可適當(dāng)減少一些學(xué)時(shí)。對(duì)于需要調(diào)查問(wèn)卷進(jìn)行分析問(wèn)題時(shí),則要增加一些實(shí)際案例的訓(xùn)練,讓學(xué)生從問(wèn)卷的設(shè)計(jì)到數(shù)據(jù)的收集、處理、分析等整個(gè)過(guò)程都要參與完成,以達(dá)到讓學(xué)生運(yùn)用SPSS軟件真正解決實(shí)際問(wèn)題的能力。
(三)提高數(shù)據(jù)分析的軟硬件配置,滿足大數(shù)據(jù)分析的需求
大數(shù)據(jù)分析首先要有較高的硬件配置,尤其是內(nèi)存的容量要足夠大,要能夠容納海量數(shù)據(jù),即至少要在1000個(gè)TB以上。其次,要有較新版本的SPSS軟件,版本越高,其功能越多,使用越方便,越符合大數(shù)據(jù)分析的需要。目前較新的SPSS軟件版本已達(dá)到22.0,而且是商業(yè)版的居多,即IBM SPSS 22.0.IBM CEO Sam Palmisano曾表示IBM正在將新一代數(shù)據(jù)分析作為公司的研發(fā)重點(diǎn), IBM在此項(xiàng)目上投資了1億美元。IBM實(shí)驗(yàn)室的研究遠(yuǎn)遠(yuǎn)超出了海量數(shù)據(jù)的范圍,并已經(jīng)著手大數(shù)據(jù)的分析研究。(四)豐富大數(shù)據(jù)資料來(lái)源,提高學(xué)生搜集數(shù)據(jù)的能力
為了提高學(xué)生自主學(xué)習(xí)能力,在搜集實(shí)驗(yàn)數(shù)據(jù)的手段上進(jìn)行改革。一方面,讓學(xué)生從國(guó)內(nèi)外優(yōu)秀教材、各類統(tǒng)計(jì)年鑒、市場(chǎng)調(diào)查資料中搜集統(tǒng)計(jì)分析資料,提高學(xué)生統(tǒng)計(jì)資料的獲取、篩選能力;另一方面,通過(guò)中國(guó)知網(wǎng)數(shù)據(jù)庫(kù),查閱相關(guān)經(jīng)濟(jì)管理類專業(yè)文章,找出文章中有用的數(shù)據(jù)。教師可以讓學(xué)生多參加一些比賽,比如市場(chǎng)調(diào)查大賽,全國(guó)數(shù)學(xué)建模大賽、全國(guó)統(tǒng)計(jì)建模大賽等,這些比賽都需要先搜集相關(guān)數(shù)據(jù),再分析、處理數(shù)據(jù)的。
(五)加強(qiáng)對(duì)學(xué)生統(tǒng)計(jì)分析方法的理論指導(dǎo),提高學(xué)生分析解釋數(shù)據(jù)的能力
教師在上課過(guò)程中,要邊講統(tǒng)計(jì)方法理論邊講具體應(yīng)用。有些應(yīng)用是在軟件操作的過(guò)程中,有些應(yīng)用在數(shù)據(jù)分析運(yùn)行結(jié)果中。比如,對(duì)于數(shù)據(jù)的標(biāo)準(zhǔn)化,一方面要指導(dǎo)學(xué)生數(shù)據(jù)標(biāo)準(zhǔn)化的計(jì)算公式,和標(biāo)準(zhǔn)化后的數(shù)據(jù)特征;另一方面則是操作,指導(dǎo)學(xué)生在菜單中通過(guò)分析→描述統(tǒng)計(jì)→描述,打開(kāi)對(duì)話框,把要標(biāo)準(zhǔn)化的變量從左邊框中移入到右邊變量框中,然后選擇將標(biāo)準(zhǔn)化得分另存為變量,點(diǎn)擊確定后,提醒學(xué)生在數(shù)據(jù)編輯窗口便可看到標(biāo)準(zhǔn)化的結(jié)果了,這樣也就方便進(jìn)行主成分分析了。還比如對(duì)于各種檢驗(yàn)的結(jié)果判斷,通常情況是要把檢驗(yàn)統(tǒng)計(jì)量算出的概率P值與顯著性水平大小α進(jìn)行比較。若 P<α,則要拒絕原假設(shè)。
總之,通過(guò)對(duì)數(shù)據(jù)處理技術(shù)與SPSS實(shí)驗(yàn)課程教學(xué)的改革,有利于學(xué)生學(xué)習(xí)效果的提升,另外還培養(yǎng)了學(xué)生分析問(wèn)題、解決問(wèn)題以及自主學(xué)習(xí)、團(tuán)隊(duì)合作的能力。研究結(jié)果能為該類課程的教學(xué)實(shí)施提供一定的參考。
[1]李金昌。大數(shù)據(jù)與統(tǒng)計(jì)新思維[J]。統(tǒng)計(jì)研究,2014,(1):13-15.
[2]李金昌。從政治算術(shù)到大數(shù)據(jù)分析[J]。統(tǒng)計(jì)研究,2014,31(11)。
[3]田茂再。大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)重構(gòu)研究中的幾個(gè)熱點(diǎn)問(wèn)題[J]。統(tǒng)計(jì)研究,2015,32(5):3-12.
[4]邱東。大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J]。統(tǒng)計(jì)研究,2014,(1):16-22.
[5]方巍,鄭玉,徐江。大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J]。南京信息工程大學(xué)學(xué)報(bào),2014(23):3-15.
[6][英]維克托。邁爾-舍恩伯格等著,盛楊燕等譯。大數(shù)據(jù)時(shí)代-生活、工作和思維的大變革[M]。浙江人民出版社,2013.1.
[7]朱建平,章貴軍,劉曉葳。大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J]。統(tǒng)計(jì)研究,2014,(2):10-19.
[8]竇清?;诮鹑谑袌?chǎng)綜合實(shí)驗(yàn)室的SPSS實(shí)驗(yàn)教學(xué)的思考[J]。實(shí)驗(yàn)室研究與探索,2007,(4):21-23.
趙慧琴(1982-),女,山西人,廣東財(cái)經(jīng)大學(xué)華商學(xué)院統(tǒng)計(jì)學(xué)講師,主要研究方向?yàn)榻?jīng)濟(jì)統(tǒng)計(jì)。
劉金山(1958-),男,河南人,教授,現(xiàn)為華南農(nóng)業(yè)大學(xué)教授,主要研究方向?yàn)楝F(xiàn)代貝葉斯方法、金融統(tǒng)計(jì)等。
注:本文為2014年廣東省青年創(chuàng)新人才類項(xiàng)目《數(shù)據(jù)處理技術(shù)與SPSS重點(diǎn)課程建設(shè)》,2014年廣東省質(zhì)量工程項(xiàng)目《統(tǒng)計(jì)學(xué)專業(yè)實(shí)驗(yàn)教學(xué)示范中心》,2013年廣東省質(zhì)量工程項(xiàng)目《經(jīng)管綜合實(shí)驗(yàn)教學(xué)中心》的階段性成果。