江接寶 王朝暉
摘要:針對(duì)《大數(shù)據(jù)技術(shù)》課程中涉及的Hadoop組件搭建實(shí)踐教學(xué)難開(kāi)展,提出基于VirtualBox服務(wù)器虛擬化技術(shù)的實(shí)踐方法。在介紹了VirtualBox虛擬化軟件、虛擬機(jī)以及Hadoop平臺(tái),通過(guò)從關(guān)鍵技術(shù)與工具介紹、基本工作原理、實(shí)踐教學(xué)內(nèi)容與效果三個(gè)方面,詳細(xì)介紹了VirtualBox服務(wù)器虛擬化技術(shù)應(yīng)用于大數(shù)據(jù)技術(shù)課程教學(xué)。經(jīng)過(guò)實(shí)際班級(jí)實(shí)踐教學(xué)檢驗(yàn),該方法方便學(xué)生學(xué)習(xí)Hadoop組件的實(shí)踐操作,提高了學(xué)生學(xué)習(xí)積極性。
關(guān)鍵詞:大數(shù)據(jù);虛擬機(jī);Hadoop;VirtualBox;Xshell;Xftp
中圖分類(lèi)號(hào): G424? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)35-0107-02
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
國(guó)家“十三五”規(guī)劃綱要中提出:“實(shí)施國(guó)家級(jí)大數(shù)據(jù)戰(zhàn)略,推動(dòng)數(shù)據(jù)資源開(kāi)放與共享”,各行各業(yè)新建大數(shù)據(jù)平臺(tái)與數(shù)據(jù)中心,急需大數(shù)據(jù)相關(guān)技術(shù)技能人才。各高職院校近幾年新增大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè),開(kāi)設(shè)大數(shù)據(jù)相關(guān)的課程,其中在各個(gè)高職院校大數(shù)據(jù)實(shí)踐教學(xué)方面處于探索階段,以前一般是在研究生階段才設(shè)置大數(shù)據(jù)技術(shù)課程。大數(shù)據(jù)技術(shù)課程在實(shí)踐教學(xué)內(nèi)容設(shè)計(jì)、教學(xué)平臺(tái)選擇和教學(xué)方法方面面臨較大的挑戰(zhàn)。在大數(shù)據(jù)技術(shù)課程實(shí)踐教學(xué)中,缺少大數(shù)據(jù)技術(shù)教學(xué)案例,實(shí)踐學(xué)習(xí)開(kāi)展難度較大,實(shí)驗(yàn)環(huán)境搭建困難等問(wèn)題比較普遍。本文提出《大數(shù)據(jù)技術(shù)》課程實(shí)踐教學(xué)改革,提高課程實(shí)踐教學(xué)效果。
1關(guān)鍵技術(shù)與工具介紹
VirtualBox:是一款源代碼免費(fèi)向公眾開(kāi)放的開(kāi)源軟件,該軟件源代碼對(duì)公眾透明可見(jiàn),安全隱患更容易被發(fā)現(xiàn),更容易得到修正與更新。因此,與VMWare虛擬化軟件相比,該軟件更加安全且節(jié)約使用成本,可控性高。它可以在Windows、Mac、Linux等操作系統(tǒng)運(yùn)行與使用,通用性強(qiáng)。它適用于32/64位Windows系統(tǒng),且主機(jī)與虛擬機(jī)相互隔離,無(wú)關(guān)聯(lián)性,使用該軟件創(chuàng)建的虛擬機(jī)系統(tǒng)可安裝Linux、Unix、Windows等操作系統(tǒng);在虛擬機(jī)中進(jìn)行的系統(tǒng)安裝與使用不會(huì)對(duì)原來(lái)主機(jī)造成任何影響,不影響原主機(jī)安全性。可以方便生成與導(dǎo)入OCA鏡像文件,方便案例教學(xué)。
虛擬機(jī):指通過(guò)軟件來(lái)(VirtualBox)模擬一整套計(jì)算機(jī)硬件系統(tǒng),該硬件系統(tǒng)具備普通主機(jī)完整的功能,在系統(tǒng)上的所有操作均與原主機(jī)本身的硬件系統(tǒng)無(wú)關(guān),是虛擬出來(lái)的一套模擬系統(tǒng)??梢岳斫鉃椋ㄟ^(guò)虛擬機(jī),在原主機(jī)系統(tǒng)上又增加了一臺(tái)主機(jī),并且可以在該虛擬的主機(jī)上安裝Linux、Unix、Windows等操作系統(tǒng),在新按照的操作系統(tǒng)上安裝運(yùn)行獨(dú)立軟件、配置個(gè)性化設(shè)置、保存操作數(shù)據(jù),具有獨(dú)立運(yùn)行環(huán)境,在該系統(tǒng)進(jìn)行的任何的操作,不會(huì)對(duì)原主機(jī)的真實(shí)系統(tǒng)產(chǎn)生任何影響。
Hadoop:是目前最流行的大數(shù)據(jù)教學(xué)與生產(chǎn)使用的平臺(tái)之一;它最先由Doug Cutting模仿谷歌公司的GFS(文件系統(tǒng))與MapReduce(計(jì)算框架)而設(shè)計(jì)的一個(gè)大數(shù)據(jù)平臺(tái),后來(lái)該項(xiàng)目貢獻(xiàn)給Apache基金會(huì)作為開(kāi)源軟件。Hadoop其實(shí)是一個(gè)生態(tài)系統(tǒng),包括HDFS分布式文件系統(tǒng)、MapReduce數(shù)據(jù)處理框架、HBase數(shù)據(jù)庫(kù)、Hive數(shù)據(jù)倉(cāng)庫(kù)、Spark與Zookeeper協(xié)調(diào)器等功能模塊組件。目前Hadoop平臺(tái)已經(jīng)支持搭建成幾千臺(tái)機(jī)器組成的分布式集群,穩(wěn)定提供大數(shù)據(jù)計(jì)算處理服務(wù)。
Xshell:是一款功能強(qiáng)大的終端模擬軟件,它支持SSH1,SSH2與TELNET相關(guān)協(xié)議。在大數(shù)據(jù)平臺(tái)教學(xué)中,支持同時(shí)以多個(gè)窗口實(shí)現(xiàn)多個(gè)Linux主機(jī)的管理,且支持記住Linux主機(jī)的賬號(hào)密碼功能,shell命令編寫(xiě)方便。
Xftp:是一個(gè)功能強(qiáng)大的文件傳輸軟件,在大數(shù)據(jù)平臺(tái)教學(xué)中,用于將Windows主機(jī)的文件安全方便的上傳到在Linux主機(jī),很好地解決Windows系統(tǒng)與Linux系統(tǒng)文件傳輸不方便的問(wèn)題。
2 基本工作原理
普通用戶在PC機(jī)Windows系統(tǒng)上安裝VirtualBox軟件,通過(guò)VirtualBox安裝Linux系統(tǒng)虛擬機(jī),在Linux上面安裝hadoop、Hbase、Hive等組件,實(shí)現(xiàn)大數(shù)據(jù)技術(shù)實(shí)踐操作。其中,Xshell,Xftp安裝在Windows系統(tǒng)上面,Xshell用于連接Linux虛擬機(jī)主機(jī)、shell命令編寫(xiě);Xftp用戶與Linux和Windows PC之間傳輸文件。具體系統(tǒng)架構(gòu)圖如圖1所示。
3 實(shí)踐教學(xué)內(nèi)容與效果
通過(guò)10個(gè)實(shí)驗(yàn)涵蓋了大數(shù)據(jù)技術(shù)Hadoop生態(tài)系統(tǒng)的多個(gè)組件的主要實(shí)踐教學(xué)內(nèi)容,具體實(shí)驗(yàn)如下表1所示。
《大數(shù)據(jù)技術(shù)》課程涉及相關(guān)軟件工具較多,為了讓學(xué)生更好地掌握各個(gè)工具組件的搭建與使用,可以將每一個(gè)實(shí)驗(yàn)完成后,通過(guò)VirtualBox導(dǎo)出后綴.ova的鏡像文件。通過(guò)VirtualBox可以直接導(dǎo)入鏡像文件,方便學(xué)生查看安裝的配置文件或者繼續(xù)下一個(gè)實(shí)驗(yàn)。在個(gè)人PC主機(jī)通過(guò)安裝VirtualBox軟件,在VirtualBox上面安裝Linux虛擬機(jī),在虛擬機(jī)上安裝Hadoop偽分布式平臺(tái),或者在單機(jī)上新建3個(gè)虛擬機(jī)來(lái)模擬Hadoop完全分布式高可用的平臺(tái)環(huán)境。該方法的優(yōu)點(diǎn)是對(duì)硬件環(huán)境要求不高,一般內(nèi)存8G且CPU是i5處理器,既可以滿足實(shí)驗(yàn)環(huán)境的條件,適合學(xué)生自學(xué)練習(xí)使用。該方法缺點(diǎn)是單機(jī)性虛擬環(huán)境下搭建,在整個(gè)學(xué)習(xí)過(guò)程中數(shù)據(jù)處理與調(diào)試效率較低,很難體驗(yàn)到分布式計(jì)算提供的高效率。本文中PC機(jī)的Windows系統(tǒng)需要在BIOS設(shè)置硬件虛擬化支持功能,有些機(jī)器默認(rèn)不支持;虛擬機(jī)上面安裝的Linux系統(tǒng)需設(shè)置固定IP地址,方便Xshell與Xftp連接操作,不需要每次更換IP;每個(gè)實(shí)驗(yàn)階段完成,導(dǎo)出oca鏡像文件。大數(shù)據(jù)相關(guān)技術(shù)還包含數(shù)據(jù)抽取(extract)、數(shù)據(jù)轉(zhuǎn)換(transform)、數(shù)據(jù)加載(load)等內(nèi)容,在教學(xué)內(nèi)容的設(shè)計(jì)中,需要根據(jù)課程目標(biāo)、學(xué)情分析、學(xué)時(shí)安排和實(shí)驗(yàn)條件等因素做適當(dāng)?shù)恼{(diào)整。
4 小結(jié)
在高職院校的大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)的《大數(shù)據(jù)技術(shù)》課程教學(xué)實(shí)踐中,使用了本文的方法開(kāi)展教學(xué),對(duì)硬件環(huán)境要求不高,實(shí)踐環(huán)節(jié)上手難度不大,也適合學(xué)生自學(xué)使用。針對(duì)大數(shù)據(jù)技術(shù)課程的實(shí)踐教學(xué)改革是一個(gè)不斷豐富的過(guò)程,在今后的教學(xué)實(shí)踐過(guò)程中我們還需要根據(jù)學(xué)生的反饋與業(yè)界技術(shù)工具變更而不斷總結(jié)與提升,緊跟行業(yè)大數(shù)據(jù)技術(shù)發(fā)展方向與就業(yè)招聘崗位技能需求,不斷提升教學(xué)水平和質(zhì)量。
參考文獻(xiàn):
[1] 梁晶,胡新榮.Hadoop大數(shù)據(jù)開(kāi)發(fā)課程實(shí)踐教學(xué)研究[J].計(jì)算機(jī)教育,2020(2):166-169.
[2] 王永坤,羅萱,金耀輝.基于私有云和物理機(jī)的混合型大數(shù)據(jù)平臺(tái)設(shè)計(jì)及實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2018,40(2):191-199.
[3] 王偉,劉偉,崔海波.基于云件服務(wù)的新一代大數(shù)據(jù)工程實(shí)訓(xùn)平臺(tái)[J].計(jì)算機(jī)教育,2018(4):162-166.
[4] 潘竟峰.基于VirtualBox虛擬機(jī)技術(shù)的信息化教學(xué)平臺(tái)構(gòu)建與應(yīng)用[J].實(shí)訓(xùn)與實(shí)踐探索,2019(8): 69-72.
[5] 王焱,吳青林.基于Docker和OpenStack的高校大數(shù)據(jù)云實(shí)驗(yàn)室構(gòu)建[J].實(shí)驗(yàn)技術(shù)與管理,2019,36(9):254-258.
[6] 羅曉慧.虛擬機(jī)技術(shù)的應(yīng)用[J].探索與觀察,2011(7):186-189.
【通聯(lián)編輯:唐一東】