王世純 許新華 張洪春 黃嘉成
摘 要:為了調(diào)查不同個體之間獲取教育大數(shù)據(jù)途徑的差異以及探討Python爬蟲對獲取教育大數(shù)據(jù)的影響,本研究采用問卷調(diào)查的形式,對計算機(jī)、統(tǒng)計學(xué)相關(guān)專業(yè)的師生進(jìn)行了調(diào)查。本文采用SPSS19.0對收回來的數(shù)據(jù)進(jìn)行分析,統(tǒng)計他們常用的教育大數(shù)據(jù)獲取方法,比較不同個體之間獲取教育大數(shù)據(jù)的區(qū)別。研究發(fā)現(xiàn),目前獲取教育大數(shù)據(jù)的主要途徑還是在線搜索,且不同職業(yè)、年級、性別的個體無顯著差異,編程經(jīng)驗(yàn)和年限對Python爬蟲獲取大數(shù)據(jù)途徑有顯著影響,但主觀因素影響不大。
關(guān)鍵詞:Python;網(wǎng)絡(luò)爬蟲;教育大數(shù)據(jù)
中圖分類號:G43 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2018)09-0079-03
一、引言
伴隨著“互聯(lián)網(wǎng)+”、物聯(lián)網(wǎng)、云計算時代的到來,大數(shù)據(jù)在我們的生產(chǎn)生活中扮演著越來越重要的角色,可以說大數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)。聯(lián)合國在 2012 年發(fā)布的大數(shù)據(jù)白皮書《Big Data for Development:Challenges & Opportunities》中指出大數(shù)據(jù)的出現(xiàn)將會對社會各個領(lǐng)域產(chǎn)生深刻影響。[1]在教育領(lǐng)域,每天都會產(chǎn)生海量的教育大數(shù)據(jù),[2]獲取教育大數(shù)據(jù)的途徑也有很多,例如線下調(diào)查、在線搜索、網(wǎng)絡(luò)調(diào)查問卷和網(wǎng)絡(luò)爬蟲等等。本研究為了探究個體差異對教育大數(shù)據(jù)獲取途徑的影響,對計算機(jī)、統(tǒng)計學(xué)相關(guān)專業(yè)師生的編程能力、Python技術(shù)掌握程度以及獲取教育大數(shù)據(jù)的途徑進(jìn)行了調(diào)查。
Python是一種面向?qū)ο蟮慕忉屝杂嬎銠C(jī)程序語言,其實(shí)它問世的時間并不長,但它以其簡潔的語法、豐富的標(biāo)準(zhǔn)庫和強(qiáng)大的第三方庫,已經(jīng)完全能夠和C、C++等語言輕松聯(lián)結(jié),并重寫封裝為可用的標(biāo)準(zhǔn)類庫,易于擴(kuò)展。[2]Python現(xiàn)已逐漸取代其他大多數(shù)計算機(jī)編程語言,成為現(xiàn)在網(wǎng)絡(luò)爬蟲和機(jī)器學(xué)習(xí)的主流工具。
教育大數(shù)據(jù)為教育信息化的發(fā)展帶來了新的機(jī)遇,[3]傳統(tǒng)的數(shù)據(jù)收集方法已不能滿足日新月異的現(xiàn)代化發(fā)展需求,隨著網(wǎng)絡(luò)爬蟲和Python語言的發(fā)展,網(wǎng)絡(luò)教育數(shù)據(jù)的獲取越來越容易,越來越方便,速度越來越快,但對計算機(jī)語言使用的熟悉程度也有一定的考驗(yàn)。那么如何在大量的教育數(shù)據(jù)中獲取我們所需要的、有用的信息是每一個教育研究者應(yīng)該考慮的問題。
二、相關(guān)概念
1.網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲(又稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。[4]網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。[4]實(shí)際的網(wǎng)絡(luò)爬蟲是由幾種爬蟲技術(shù)結(jié)合實(shí)現(xiàn)的。隨著“互聯(lián)網(wǎng)+”的發(fā)展,網(wǎng)絡(luò)信息量呈現(xiàn)出爆發(fā)式增長,僅僅只用搜索引擎已經(jīng)不能快速、準(zhǔn)確地獲取到我們所需要的信息,并且會附帶著額外的我們不需要的廣告信息,因此,網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生。
2.教育大數(shù)據(jù)
教育大數(shù)據(jù)分為廣義和狹義,廣義的教育大數(shù)據(jù)泛指所有來源于日常教育活動中人類的行為數(shù)據(jù);狹義的教育大數(shù)據(jù)是指學(xué)習(xí)者學(xué)習(xí)的行為數(shù)據(jù)。[5]也有學(xué)者認(rèn)為教育大數(shù)據(jù)指整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的,一切用于教育發(fā)展并可創(chuàng)造巨大潛在價值的數(shù)據(jù)集合。[6]教育,體現(xiàn)的是一種共享的思想,通過各種技術(shù)實(shí)現(xiàn)教育數(shù)據(jù)的收集,本研究主要是了解網(wǎng)絡(luò)教育數(shù)據(jù)的獲取。
三、研究過程
1.研究目標(biāo)與假設(shè)
本研究是為了了解計算機(jī)、統(tǒng)計學(xué)相關(guān)專業(yè)Python爬蟲技術(shù)掌握情況以及常用的獲取教育數(shù)據(jù)的方式,比較不同個體之間獲取教育大數(shù)據(jù)的區(qū)別,從而探究不同個體Python掌握程度、學(xué)習(xí)編程年限、主觀因素對獲取教育大數(shù)據(jù)的影響。
Python語言雖然得到極大的發(fā)展,但全國很多高校并沒有把Python語言作為一門課程,學(xué)生對之了解太少,技術(shù)掌握不夠,爬蟲技術(shù)也不是每一個計算機(jī)專業(yè)的人都會掌握。因此,我們大膽假設(shè):近幾年獲取教育大數(shù)據(jù)的主要途徑還是在線搜索,并且學(xué)生與老師之間存在顯著差別。
2.研究問卷的設(shè)計
(1)設(shè)計過程
問卷調(diào)查為本文的主要研究方法,為保證本研究的公正、客觀,在進(jìn)行調(diào)查問卷設(shè)計之前,筆者查閱了相關(guān)文獻(xiàn),之后初步編寫了適合本研究的調(diào)查問卷,隨后請老師對本問卷進(jìn)行評價,給出了寶貴的意見,并對問卷的內(nèi)容進(jìn)行適當(dāng)?shù)男拚?;之后進(jìn)行小范圍的前測,刪除其中信度和效度較低的題項(xiàng),最終形成了完整的問卷。
(2)設(shè)計結(jié)果
經(jīng)過上述步驟,制定了“基于Python爬蟲的教育大數(shù)據(jù)獲取調(diào)查問卷”。本問卷總體設(shè)計為三個維度,分別為:基本信息、Python爬蟲了解程度和技術(shù)掌握、獲取教育大數(shù)據(jù)的現(xiàn)狀。共包括16個題項(xiàng),為了方便統(tǒng)計,問卷主要設(shè)置為單選題;但為了解Python掌握程度和獲取教育大數(shù)據(jù)途徑,本問卷還設(shè)計了多選題和一個主觀題。
3.問卷數(shù)據(jù)的收集
(1)被試分析
由于本問卷是基于Python和網(wǎng)絡(luò)爬蟲,所以對被試的專業(yè)和編程能力有一定的要求。參與本問卷的對象皆來自教育技術(shù)學(xué)、現(xiàn)代教育技術(shù)、通信工程、信息工程、網(wǎng)絡(luò)工程、數(shù)字媒體技術(shù)、計算機(jī)科學(xué)與技術(shù)、計算機(jī)應(yīng)用、數(shù)學(xué)與統(tǒng)計等專業(yè),部分非計算機(jī)和統(tǒng)計相關(guān)專業(yè)的問卷已剔除。填寫問卷的學(xué)生或老師來自云南、湖北、湖南、四川、福建、廣東 、浙江等省份,具有一定的代表性。
(2)問卷的發(fā)放與回收
本問卷通過問卷星進(jìn)行發(fā)放與回收,調(diào)研開始于2017年10月25日,截止于2017年11月2日。共回收問卷120份,其中106份為有效問卷,有效率為88.3%,達(dá)到預(yù)期數(shù)據(jù)需求。
在回收的106份有效問卷中,男性36人參與問卷,占總?cè)藬?shù)的33.96%,女性70人,占總?cè)藬?shù)的66.04%;老師31人,占29.25%,學(xué)生66人,占62.26%,還有部分已畢業(yè)但未從事教育行業(yè)的計算機(jī)相關(guān)專業(yè)的人參與了問卷;其中教育技術(shù)學(xué)專業(yè)為66.98%,信息工程為10.38%,計算機(jī)科學(xué)與技術(shù)為10.6%,其余小部分為其他專業(yè);其中本科生51人,研究生14人,已參加工作41人。
4.信效度分析
本文采用SPSS19.0進(jìn)行問卷信度和效度的分析。本問卷的Cronbach alpha 系數(shù)為0.748,表明此問卷的內(nèi)部一致性良好。本問卷對結(jié)構(gòu)效度進(jìn)行了檢驗(yàn),進(jìn)行探索性因子分析,KMO值為0.717,Bartlett 球體檢驗(yàn)結(jié)果顯示顯著性水平為0.000,小于0.001,滿足了統(tǒng)計學(xué)意義,該問卷結(jié)構(gòu)效度良好。
四、研究結(jié)果
1.獲取教育大數(shù)據(jù)的差異特征
不同的個體獲取教育大數(shù)據(jù)方法各不相同,為探討不同性別、年級、職業(yè)對教育大數(shù)據(jù)獲取途徑的影響,本文采用描述性統(tǒng)計和獨(dú)立樣本T檢驗(yàn)以及單因素方差分析等統(tǒng)計學(xué)方法進(jìn)行統(tǒng)計分析。
通過獨(dú)立樣本T檢驗(yàn)可知,F(xiàn)值為1.955,對應(yīng)的概率P值(Sig.=0.165),大于顯著性水平0.05,因此,兩總體方差無顯著差異,應(yīng)看第一行的t檢驗(yàn)結(jié)果,等方差假設(shè)下的Sig為0.092,,大于0.05,因此,兩總體均值無顯著差異,即,獲取教育大數(shù)據(jù)的途徑與性別無關(guān)。
年級對教育大數(shù)據(jù)獲取途徑的影響用單因素方差分析,結(jié)果顯示,顯著性水平為0.063,大于0.05,因此認(rèn)為各個年級獲取教育大數(shù)據(jù)途徑無顯著差異。
按照上述方法,本研究通過獨(dú)立樣本t檢驗(yàn)分析可知,職業(yè)對教育大數(shù)據(jù)獲取途徑的影響無顯著差異。結(jié)果顯示,p值為0.9,明顯大于0.05,因此認(rèn)為職業(yè)對獲取教育大數(shù)據(jù)的途徑無顯著影響。
2.Python爬取教育大數(shù)據(jù)的影響因素
(1)面向?qū)ο缶幊探?jīng)驗(yàn)對Python技術(shù)掌握的影響
每一門編程語言都有它自己獨(dú)特的特點(diǎn),本文為探究不同的編程語言對Python技術(shù)掌握和用Python進(jìn)行網(wǎng)絡(luò)爬蟲的影響,利用統(tǒng)計學(xué)相關(guān)分析作為分析方法。
經(jīng)過分析,面向?qū)ο缶幊探?jīng)驗(yàn)對Python技術(shù)掌握在0 .01 水平(雙側(cè))上顯著相關(guān),Pearson相關(guān)系數(shù)為0.835,說明面向?qū)ο缶幊陶Z言的學(xué)習(xí)對Python技術(shù)掌握有較大影響。
(2)學(xué)習(xí)編程年限對Python爬取教育大數(shù)據(jù)的影響
在本研究中,學(xué)習(xí)編程年限與Python爬取教育數(shù)據(jù)的Pearson相關(guān)系數(shù)為0.414,在0 .01 水平(雙側(cè))上顯著相關(guān)。說明學(xué)習(xí)編程年限越長,Python掌握情況越好,學(xué)習(xí)編程年限對Python爬取教育大數(shù)據(jù)有較大影響。
(3)主觀因素對獲取教育大數(shù)據(jù)途徑的影響
通過相關(guān)分析,Python掌握程度與被試主觀意愿的Pearson相關(guān)系數(shù)為0.048,顯著性水平為0.624,不應(yīng)該拒絕原假設(shè),因此認(rèn)為兩總體零相關(guān)。由此可見,雖然有些人掌握了Python語法,能利用Python進(jìn)行編程并且能進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的爬取,但他們還是不愿意用Python網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)。
五、結(jié)論
1.不同個體獲得教育大數(shù)據(jù)途徑不同,但以在線搜索為主
經(jīng)過上述分析,不同性別、職業(yè)、年級獲取數(shù)據(jù)方式無顯著差異,總體來說,65.09%的表示獲取數(shù)據(jù)主要是用在線搜索,用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的只有少數(shù),如圖1所示。因此,研究結(jié)果與研究假設(shè)一致,近年來獲取教育大數(shù)據(jù)的主要途徑還是在線搜索。且本研究發(fā)現(xiàn),職業(yè)因素對教育大數(shù)據(jù)獲取途徑影響不大,這與研究假設(shè)不一致,原因是本研究的調(diào)查對象有很多是剛畢業(yè)的師范生,他們畢業(yè)后也成為了老師,與已經(jīng)工作很多年的老師沒有進(jìn)行區(qū)分,這也是本研究不足的地方。
2.Python技術(shù)普及度不夠,這是Python網(wǎng)絡(luò)爬蟲應(yīng)用不廣泛的主要原因
掌握Python基礎(chǔ)語法、能利用Python進(jìn)行簡單的編程、了解網(wǎng)絡(luò)爬蟲是基于Python爬蟲獲取數(shù)據(jù)的基礎(chǔ)。本次調(diào)研的大學(xué)生或老師表示,有46.23%的人雖然為計算機(jī)相關(guān)專業(yè),但從來沒有聽說過網(wǎng)絡(luò)爬蟲,更不要說用爬蟲技術(shù)來獲取教育大數(shù)據(jù)。且經(jīng)過交叉分析(見表1),女生中沒聽過網(wǎng)絡(luò)爬蟲的有54.29%,男生僅為30.56%;且選擇這項(xiàng)的大一、大二本科生較多,他們剛進(jìn)入大學(xué)的象牙塔,沒聽說過網(wǎng)絡(luò)爬蟲也是情有可原。且有83.96%的人表示從來沒學(xué)過Python,90.57%的表示不會利用Python進(jìn)行編程,更不要談利用Python獲取數(shù)據(jù)。因此,技術(shù)掌握不到位,進(jìn)行網(wǎng)絡(luò)爬蟲的基礎(chǔ)就沒有,這是網(wǎng)絡(luò)爬蟲應(yīng)用不廣泛的主要原因。
3.編程經(jīng)驗(yàn)和年限對Python爬蟲獲取大數(shù)據(jù)途徑有顯著影響 ,但主觀因素影響不大
Python語法簡潔,在擁有了其他面向?qū)ο笳Z言編程經(jīng)驗(yàn)(比如Java)的基礎(chǔ)上再來學(xué)習(xí)Python相對來說會容易很多,學(xué)習(xí)時間也會少很多。學(xué)習(xí)編程年限越長,Python掌握程度越好,也越具備Python爬蟲獲取數(shù)據(jù)的條件,但學(xué)習(xí)技術(shù)也有一個過程,可能有些學(xué)生目前正在學(xué)習(xí)技術(shù),卻還沒有達(dá)到能夠編寫程序獲取數(shù)據(jù)的水平;但也不排除有些人有足夠的技術(shù),卻不愿意利用爬蟲技術(shù)獲取數(shù)據(jù)。筆者通過調(diào)查,發(fā)現(xiàn)雖然有時在線搜索結(jié)果不準(zhǔn)確,但對于大多數(shù)人來說,獲取普通數(shù)據(jù)在線搜索能夠滿足需求,不需要再額外花時間去編寫爬蟲程序。
參考文獻(xiàn):
[1]Big Data for Development: Challenges &Opportunities;[DB/OL].2012-05-01.http://www.unglobalpulse.org/sites/default/files/BigDataforDevelopment-UNGlobalPulseJune2012.pdf.
[2]郭麗蓉.基于 Python 的網(wǎng)絡(luò)爬蟲程序設(shè)計[J].電子技術(shù)與軟件工程,2017(12):248-249.
[3]顧小清,鄭隆威,簡菁.獲取教育大數(shù)據(jù):基于xAPI規(guī)范對學(xué)習(xí)經(jīng)歷數(shù)據(jù)的獲取與共享[J].現(xiàn)代遠(yuǎn)程教育研究,2014(5):13-23.
[4]范傳輝.Python爬蟲開發(fā)與項(xiàng)目實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2017(3):69-72.
[5]杜婧敏,方海光,李維楊,仝賽賽.教育大數(shù)據(jù)研究綜述[J].中國教育信息化,2016(19):11-17.
[6]楊現(xiàn)民,唐斯斯,李冀.發(fā)展教育大數(shù)據(jù):內(nèi)涵、價值和挑戰(zhàn)[J].現(xiàn)代遠(yuǎn)程教育研究,2016(1):50-61.
(編輯:王曉明)