胡繼明 辛海源 李揚陽 牛文鈺 付航
摘 要: 針對學(xué)生成績影響的問題,對學(xué)生成績和其所在的環(huán)境進行分析,找出學(xué)生成績影響的因素,首先運用爬蟲原理對所需數(shù)據(jù)的爬取工作,在爬取的過程中刪掉噪聲數(shù)據(jù),保存有效數(shù)據(jù),安裝Hadoop,Linux環(huán)境,進行聯(lián)機操作,對數(shù)據(jù)進行分析,最后制圖進行可視化工作。
關(guān)鍵詞: 數(shù)據(jù)收集;數(shù)據(jù)清洗;數(shù)據(jù)挖掘;數(shù)據(jù)可視化;
【中圖分類號】 G632 【文獻標識碼】 A【文章編號】 2236-1879(2018)14-0046-01
第一章 概述
1.1研究背景:
當今的學(xué)生成績在科技的發(fā)展下影響其成績的方式已經(jīng)變得多種多樣,很多學(xué)生不知道自己被什么影響了學(xué)習(xí)成績,平時感覺學(xué)的很好,可考試時成績卻不稱心如意。而我們要做的就是分析出有哪些因素影響了學(xué),為學(xué)生的成績的提高提供參考。
1.2 項目意義:
認識大數(shù)據(jù),處理大數(shù)據(jù),挖掘大數(shù)據(jù)的應(yīng)用價值,從實踐中學(xué)習(xí)大數(shù)據(jù)技術(shù)是本項目學(xué)習(xí)和實踐大數(shù)據(jù)技術(shù)的重要意義。
第二章 大數(shù)據(jù)技術(shù)相關(guān)介紹
2.1數(shù)據(jù)收集。
利用網(wǎng)絡(luò)爬蟲從各個教育網(wǎng)爬取所需數(shù)據(jù):對于爬取回來的網(wǎng)頁內(nèi)容,可以通過re、beautifulsoup4等函數(shù)庫來處理,其中最重要且最主流的兩個函數(shù)庫:requests 和beautifulsoup4,它們都是第三方庫。requests 庫是一個簡潔且簡單的處理HTTP請求的第三方庫,建立在Python 語言的urllib3 庫基礎(chǔ)上。get()是獲取網(wǎng)頁最常用的方式。 Beautiful Soup提供一些簡單的、python式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。
2.2數(shù)據(jù)清洗。
數(shù)據(jù)的格式無法滿足我們的要求,或者是數(shù)據(jù)出現(xiàn)缺省值等,以至于達不到對數(shù)據(jù)處理的基本要求,需要對該數(shù)據(jù)進行預(yù)處理。數(shù)據(jù)集成通過實體識別、冗余和相關(guān)性分析來實現(xiàn)。
2.3數(shù)據(jù)挖掘。
從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、人們所不知道的、但又是潛在有用信息。一般方法有決策樹方法、聚類方法、數(shù)學(xué)建模法等。根據(jù)數(shù)據(jù)的大小、形式等用不同的方法挖掘潛在的有價值的信息。
2.4數(shù)據(jù)可視化。
借助于圖形化手段,繪制折線、柱形、扇形、雷達圖等,清晰有效地傳達與溝通信息。數(shù)據(jù)可視化與信息圖形、信息可視化、科學(xué)可視化以及統(tǒng)計圖形密切相關(guān)。數(shù)據(jù)可視化技術(shù)包括:數(shù)據(jù)空間、數(shù)據(jù)開發(fā)等。
2.5環(huán)境搭建。
在虛擬機上裝好 Ubuntu 系統(tǒng),在Ubuntu上安裝必要的python,java,Hadoop環(huán)境,java可以選用系統(tǒng)自帶的Java環(huán)境配置,python我們選用的是python3.6。
第三章 分析方法總結(jié)及結(jié)果展示
3.1 學(xué)生成績分類標號。
對爬蟲方式收集的數(shù)據(jù)。將獲得的數(shù)據(jù)進行標號,對是否是班干部的同學(xué)進行標注,是班干部為1,不是為0,家境,教育資源等因素都標號,任何一個因素都標號為1或0。
3.2對學(xué)生成績進行分類。
為了實現(xiàn)分析我們將學(xué)生成績逐級從低到高分為5類,首先我們分析學(xué)習(xí)在優(yōu)良以上的學(xué)生情況,從側(cè)面反映出學(xué)習(xí)差的原因
從中我們選取百分制分數(shù)60-100段來分析我們對學(xué)生家境進行了0和1標號,對家庭富裕的學(xué)生進行標號
家庭有車有房為家境較好的
一線城市為教育資源較好的
0代表家境很好的學(xué)習(xí)成績差的,1代表學(xué)習(xí)成績好的家境也好的,運用python進行可視化操作進行繪圖。
如上圖所示家庭條件好的,學(xué)習(xí)成績好的占優(yōu)勢。
在對家庭條件不好的學(xué)生進行標號,0代表學(xué)習(xí)差的,1代表學(xué)習(xí)好的,同樣運用python進行可視化操作的如圖所示:
同樣可以看出學(xué)習(xí)好學(xué)生的比例反而比家境好學(xué)習(xí)好的占的比例更高了。
從圖中可以看出家境好的學(xué)習(xí)好的人數(shù)明顯比家境不好的學(xué)習(xí)人數(shù)多了很多。對這個問題我們進行了分析發(fā)現(xiàn)家境不好,學(xué)習(xí)不好的學(xué)生早早出去打工了。
我們還對學(xué)生是否當班干部進行了分析發(fā)現(xiàn)學(xué)生學(xué)習(xí)好的占了很大一部分比例,經(jīng)過分析發(fā)現(xiàn)大部分學(xué)生都是學(xué)習(xí)好了之后才當上班干部的。從而來促進學(xué)生的學(xué)習(xí)。我們又對不同的地區(qū)城市的成績進行了分析,發(fā)現(xiàn)城市越發(fā)達學(xué)生成績好的比例越高。最后發(fā)現(xiàn)在外在原因越有利的情況下學(xué)習(xí)好的比例越高,這個結(jié)果也很符合道理。
第四章 總結(jié)概括
4.1項目總結(jié)。
系統(tǒng)的分析方法可以有效地挖掘出學(xué)生成績背后所蘊含的價值,提供衡量校園教學(xué)質(zhì)量信息,讓學(xué)生更好的掌握專業(yè)技能,幫助學(xué)生提高學(xué)習(xí)效率,提升學(xué)習(xí)質(zhì)量,為社會提供更多的價值。
4.2結(jié)束語。
本文論述了大數(shù)據(jù)技術(shù)對學(xué)生學(xué)習(xí)成績的分析,大數(shù)據(jù)技術(shù)僅是分析學(xué)生學(xué)習(xí)成績的一種手段,通過數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)清洗、數(shù)據(jù)挖掘、數(shù)據(jù)可視化對學(xué)生學(xué)習(xí)成績進行分析,在分析數(shù)據(jù)的同時挖掘出隱藏在數(shù)據(jù)背后的價值,以便學(xué)校更好地制定教學(xué)計劃。
參考文獻
[1] 羅福強 李瑤 陳虹君.大數(shù)據(jù)技術(shù)基礎(chǔ)——基于Hadoop與Spark[M].人民郵電出版社.2017-05
[2] 肖睿 雷剛躍.Hadoop & Spark 大數(shù)據(jù)開發(fā)實踐[M].中國水利水電出版社.2017-07-01
[3] Tom Wbite.Hadoop 權(quán)威指南[M].華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué).2017-07-01
[4] 劉增杰.MySQL 5.7從入門到精通(視頻教學(xué)版).清華大學(xué)出版社.2016-08-01
[5] 明日科技.Java精彩編程200例 全彩版.吉林大學(xué)出版社.2017-09-01
[6] 張良均,王路,譚立云,蘇劍林.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn).機械工業(yè)出版社.2015-11-01
[7] 明日科技.零基礎(chǔ)學(xué)Android.吉林大學(xué)出版社.2017-09-01