• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)的學習者行為分析平臺構建研究

      2021-05-21 11:29張麗萍葛福鴻
      中國教育信息化·高教職教 2021年3期

      張麗萍 葛福鴻

      摘? ?要:近年來,國內(nèi)的微課、慕課、網(wǎng)絡課堂等發(fā)展迅速,依托大數(shù)據(jù)技術,能夠把學習過程和效果更加透明地呈現(xiàn)給每一個學習者。文章基于Hadoop生態(tài)系統(tǒng),設計并開發(fā)了一個輕量級的教育類大數(shù)據(jù)處理系統(tǒng),可從網(wǎng)絡課堂、網(wǎng)站、微信、APP等新媒體獲取數(shù)據(jù)。通過對數(shù)據(jù)的收集、清洗、分析,進而挖掘數(shù)據(jù)中更多有價值的信息,為學習者提供更好的服務。文章以網(wǎng)絡課程網(wǎng)站中session數(shù)據(jù)分析為例,通過分析可獲取頁面跳轉(zhuǎn)轉(zhuǎn)化率、熱門課程離線統(tǒng)計、廣告流量實時統(tǒng)計和黑名單過濾等,為網(wǎng)絡課程網(wǎng)站的后期建設提供量化依據(jù)。

      關鍵詞:大數(shù)據(jù);教育大數(shù)據(jù);Hadoop;session

      中圖分類號:G40-057 文獻標志碼:A 文章編號:1673-8454(2021)05-0050-04

      隨著移動互聯(lián)網(wǎng)技術的發(fā)展,大數(shù)據(jù)的力量開始席卷各個行業(yè)領域,并對人們的思維、生活、工作、學習等產(chǎn)生重大的影響。使用新的大數(shù)據(jù)處理技術,數(shù)據(jù)的收集、分析和處理都發(fā)生了變化,通過對海量數(shù)據(jù)的收集和數(shù)據(jù)更深層次的挖掘,能夠發(fā)現(xiàn)數(shù)據(jù)中更多的價值。

      本文對學習者行為進行了分析,從大數(shù)據(jù)分析平臺的設計、環(huán)境搭建、session日志分析模塊三個方面進行實踐和探索。研究過程主要分成兩個階段:第一階段是大數(shù)據(jù)開發(fā)系統(tǒng)的規(guī)劃和部署。對平臺系統(tǒng)進行構建,對系統(tǒng)需要的組件做進一步規(guī)劃,搭建測試服務器和開發(fā)環(huán)境。第二階段是數(shù)據(jù)處理模塊的設計和開發(fā)。通過對真實場景的模擬,對網(wǎng)絡課程類型網(wǎng)站session數(shù)據(jù)展開處理,進而設計和模擬一個處理微課及其他慕課網(wǎng)站信息的大數(shù)據(jù)處理平臺。

      一、大數(shù)據(jù)及相關技術闡述

      1.大數(shù)據(jù)

      一般認為,大數(shù)據(jù)(big data)是通過先進技術進行收集、存儲和處理的數(shù)據(jù)集合,是海量、不規(guī)則的信息,是具有預測力,可以提供決策支持的信息資源。其導致了新的處理技術的誕生,如谷歌的MapReducehe 和開源Hadoop平臺(最初源于雅虎)。更重要的是,這些數(shù)據(jù)不再需要用傳統(tǒng)的數(shù)據(jù)庫表格來整齊地排列——一些可以消除僵化的層次結構和一致性的技術也出現(xiàn)了。

      大數(shù)據(jù)的本質(zhì)在于分析信息時的三個轉(zhuǎn)變:第一個轉(zhuǎn)變是,在大數(shù)據(jù)時代,需要分析的數(shù)據(jù)更多。不同于傳統(tǒng)的數(shù)據(jù)分析,收集的數(shù)據(jù)是部分樣本,大數(shù)據(jù)分析經(jīng)常會收集研究對象相關的所有數(shù)據(jù)。第二個轉(zhuǎn)變是,不再熱衷于追求精確性。精確性是信息量少的時代的產(chǎn)物。只有接受不精確性,才能充分利用大量的不精確、非結構化的數(shù)據(jù),真正挖掘數(shù)據(jù)寶藏潛在的價值。第三個轉(zhuǎn)變是,不再熱衷于尋找因果關系。知道“是什么”就夠了,不再糾結于“為什么”。在大數(shù)據(jù)時代,要讓數(shù)據(jù)自己“發(fā)聲”,不需要知道現(xiàn)象背后的原因。此外,大數(shù)據(jù)的相關關系分析法不易受主觀意識的影響,且更準確、更快,因此,建立在相關關系分析法基礎上的預測是大數(shù)據(jù)的核心[1]。

      總之,在大規(guī)模數(shù)據(jù)的基礎上進行數(shù)據(jù)挖掘完成的工作,在小規(guī)模數(shù)據(jù)的基礎上是實現(xiàn)不了的。大數(shù)據(jù)是人們獲得新的認知的源泉。例如:淘寶可以推薦用戶想要的商品、QQ可以猜出用戶認識誰、京東知道用戶的喜好。大數(shù)據(jù)在教育領域的應用也在逐漸突出其重要的價值,特別是教育大數(shù)據(jù)可以為教育部門提供決策依據(jù),為教師對教學進行調(diào)整提供量化依據(jù),為學生的學習提供預測和改進依據(jù),為實現(xiàn)個性化學習提供技術支撐。

      2.采用的相關技術

      (1)Hadoop

      Hadoop是采用分布式架構的平臺,為用戶提供可靠的、靈活的數(shù)據(jù)處理功能,使得用戶的開發(fā)變得方便、快捷。Hadoop以HDFS和MapReduce框架為核心。HDFS是一個高度容錯、可靠的分布式文件系統(tǒng)[2]。

      (2)Apache Spark

      Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速、通用的計算引擎。和MapReduce框架相比,Spark是基于內(nèi)存計算的,在數(shù)據(jù)處理過程中采用了成本更低的洗牌方式,相比其他大數(shù)據(jù)處理技術會有極大的效率提升。此外,Apache Spark支持更多的函數(shù),提供交互式的處理環(huán)境,在大數(shù)據(jù)分析和機器學習領域有著巨大的優(yōu)勢。

      (3)Ubuntu系統(tǒng)

      Ubuntu是一個高效的Linux操作系統(tǒng)。其提供了可靠穩(wěn)定的工作環(huán)境和用戶交互界面,因而在生產(chǎn)和生活中有很高的使用率。由于大數(shù)據(jù)開發(fā)常用的軟件基本都需要Linux運行環(huán)境,因而在課題研究、開發(fā)、測試中都會使用Ubuntu系統(tǒng)。

      二、學習者訪問session介紹

      學習者在瀏覽學習網(wǎng)站時,通常有很多鼠標點擊行為,如點擊菜單中的某個選項、瀏覽某個學習內(nèi)容、關閉學習頁面等。學習者的每一次對學習內(nèi)容的操作,可以將其理解為一個行為。一次學習者訪問session,指的是學習者進行一次學習的操作過程,包括進入學習網(wǎng)站、點擊各種操作、離開學習網(wǎng)站。

      session實際上是一個網(wǎng)站中最基本的數(shù)據(jù)和大數(shù)據(jù)來源。在以往的在線教育類型網(wǎng)站(如微課、慕課等)中,并沒有對session數(shù)據(jù)進行處理或有類似的處理。因為當網(wǎng)站的訪問量增長較快時,對于session數(shù)據(jù)的處理效率會大幅度降低。不僅僅需要考慮到對較大規(guī)模數(shù)據(jù)的處理,而且還要解決存儲等問題,因為單臺服務器已經(jīng)不能滿足這樣龐大數(shù)據(jù)的處理。然而,在session數(shù)據(jù)中,又包含著很多有價值的數(shù)據(jù)。如通過session可以獲取當前訪問網(wǎng)站的人數(shù)、學習者訪問的欄目、訪問量較大的欄目。通過這些數(shù)據(jù),可以有效地幫助管理員分析哪些欄目受歡迎、哪些欄目值得推薦、網(wǎng)站是否存在異常等等。除此之外,還可以根據(jù)session數(shù)據(jù)幫助實現(xiàn)智能推薦、人物畫像等功能。

      三、大數(shù)據(jù)分析平臺的構建

      該平臺有別于傳統(tǒng)的數(shù)據(jù)分析平臺,除了實現(xiàn)基本的功能需求,平臺主要提供了對大數(shù)據(jù)的支持。龐大的數(shù)據(jù)會給集群帶來嚴峻的考驗,如存儲、任務調(diào)度、負載均衡等。因而必須保證平臺的穩(wěn)定、可維護、可擴展、容錯等。

      1.平臺特征

      在該平臺的設計中,具備如下特點:①支持多種數(shù)據(jù)源。能夠支持網(wǎng)站、APP、微信平臺等常見媒體的數(shù)據(jù)。②平臺可靠性強?;灸軌?qū)崿F(xiàn)數(shù)據(jù)的完整收集、集中存儲和快速處理。③支持大規(guī)模數(shù)據(jù)的收集和分析。④支持近實時分析和離線分析。⑤有良好的容錯性和擴容性,便于今后進行更深層次的開發(fā)。

      2.平臺拓撲結構

      該平臺采用了樹形拓撲結構,如圖1所示。這樣的設計可以使得平臺易于擴展,容易在網(wǎng)絡中加入分支或者新節(jié)點來滿足不同的需求,此外,也能在一定程度上便于隔離故障,不會影響整個系統(tǒng)。在根節(jié)點上,Hadoop分布式文件系統(tǒng)可靠、穩(wěn)定、易于擴展、容錯性高的特點也使得平臺能夠更加穩(wěn)定地運行。

      3.平臺總體結構

      平臺的目標主要是對微課類型網(wǎng)站的日志進行分析處理,考慮到平臺的擴展性和實用性,平臺在設計時采用了如圖2所示的結構。

      總體上,該平臺分為日志采集模塊、邏輯處理模塊、可視化展示模塊、任務管理模塊。日志采集模塊的主要任務是獲取各個服務器的數(shù)據(jù),并對數(shù)據(jù)進行清洗處理。邏輯處理模塊主要按照不同的場景對數(shù)據(jù)進行處理,如獲取訂閱量、排名前若干位的課程名稱、訪問年齡分布、搜索關鍵詞排名等??梢暬K主要對大數(shù)據(jù)處理的結果通過可視化視覺效果進行展示,更加直觀形象地了解數(shù)據(jù)的情況。在模塊設計上,該模塊分為圖表展示和數(shù)據(jù)展示。任務管理模塊主要負責集群的任務調(diào)度、任務狀態(tài)監(jiān)控、任務配置等功能。在這里采用了Azkaba對這方面的任務進行管理[3]。

      4.開發(fā)環(huán)境搭建

      由于完整設置開發(fā)環(huán)境的工作量較大,因此對環(huán)境進行了適度的調(diào)整。具體調(diào)節(jié)如下:在數(shù)據(jù)處理流程上,數(shù)據(jù)在通過采集后導入HDFS,然后Spark直接讀取HDFS中新導入的數(shù)據(jù),并進行處理。在這里,數(shù)據(jù)采集過程簡化為模擬數(shù)據(jù)生成,即將數(shù)據(jù)直接導入到HDFS中。

      此外,一些學習者的注冊信息等基礎數(shù)據(jù),是存儲在MySQL的數(shù)據(jù),可以使用sqoop工具便捷導入到數(shù)據(jù)倉庫Hive中。并在Hive中進行計算。計算的結果可以再使用sqoop導出到MySQL數(shù)據(jù)庫中,方便其他模塊使用[4]。具體的開發(fā)環(huán)境如圖3所示。

      5.數(shù)據(jù)設計

      由于條件限制和測試需要等原因,直接模擬生產(chǎn)數(shù)據(jù)有一些困難。因而在模擬數(shù)據(jù)時,進行了一些簡化。但其并不會影響需求。在一般場景下,采集到的數(shù)據(jù)都會經(jīng)過ETL過程。將需要的數(shù)據(jù)轉(zhuǎn)化為符合計算的格式,即數(shù)據(jù)清洗[5]。所以,模擬數(shù)據(jù)和經(jīng)過清洗的數(shù)據(jù)是一致的,并不會影響功能。

      (1)學習者基礎信息數(shù)據(jù):主要記錄學習者在網(wǎng)站、APP等注冊的信息??砂▽W習者登錄名、性別、年齡、專業(yè)、城市等。

      (2)學習者訪問行為session數(shù)據(jù):包括學習者點擊行為的時間、學習者ID、點擊某課程、搜索關鍵詞后進入的頁面、導航、訂閱的課程、進行的討論、參加的小組、學習者的瀏覽行為次數(shù)等。

      四、學習者訪問session數(shù)據(jù)分析

      在該模塊中,采用spark對session數(shù)據(jù)進行處理,具體實現(xiàn)的功能如下:

      1.學習者信息和Session聚合處理

      該模塊主要是對學習者訪問session進行統(tǒng)計分析,可以協(xié)助網(wǎng)站管理員看到各種聚合條件下的學習者行為各項統(tǒng)計指標,從而為學習課程的設置和推送提供策略支持。同時也能使用這些參數(shù)并結合推薦算法做智能推薦。

      指定條件篩選session,可在篩選時設定一些條件,如在某個時間段訪問的學習者,搜索過某些關鍵詞的學習者等。這些信息能幫助我們劃分對象群體,極大地方便對各種復雜業(yè)務的邏輯分析。再比如,通過session聚合指標計算,獲取點擊量、觀看量和評論量都排名前10的課程名稱,獲取熱門話題點擊數(shù)量排名前10的session,并獲取學習者相應的一些信息。這一功能對于課程的評價機制是非常實用的技術實現(xiàn),對課程的評價采用量化的手段進行呈現(xiàn),使評價更加客觀、公平、有說服力。

      2.頁面跳轉(zhuǎn)轉(zhuǎn)化率統(tǒng)計

      在進行網(wǎng)站設計時,一般會對學習者的瀏覽行為進行設計,但設計可能并不是一次性就能滿足需求的,需要不斷地進行調(diào)整。通過對頁面跳轉(zhuǎn)轉(zhuǎn)化率進行分析,從而對網(wǎng)頁布局、欄目等內(nèi)容進行更好的優(yōu)化設計。作為數(shù)據(jù)分析人員,可以深層次地分析這些數(shù)據(jù),從而進行人物畫像、個性化調(diào)整等。圖4為一個網(wǎng)頁訪問順序示意。

      該圖的場景在網(wǎng)站訪問中是較為常見的,筆者假設各個頁面的編號為1,2,3,4。在設計上,管理員希望訪問次序為1->2->3->4。但是在實際上,訪問次序跟希望的并不一樣。通過頁面單跳轉(zhuǎn)化率,可以得到真實的訪問次序和熱點的位置,進而分析各頁面設計的合理性。此外,還可以對頁面進行更進一步的劃分,測試頁面熱點區(qū)。

      該模塊設計實現(xiàn)如下功能:指定范圍內(nèi)的學習者訪問行為數(shù)據(jù),計算和判斷頁面流ID中每兩個頁面組成的頁面切片,它的訪問量是多少;根據(jù)指定頁面流中各個頁面切片的訪問量,計算各個頁面的切片轉(zhuǎn)化率并將計算結果寫入數(shù)據(jù)庫中。

      3.熱門課程離線統(tǒng)計

      該模塊主要實現(xiàn)統(tǒng)計點擊、參與、評論的熱門課程排名前若干位的數(shù)量。在服務器部署離線統(tǒng)計任務的定時調(diào)度。該模塊可以為管理員和學習者提供熱門課程的整體情況,從而對課程的推送進行調(diào)整。

      4.訪問時長計算占比

      在訪問時間占比功能中,對學習者的訪問時間長短進行了劃分,計算單位時間內(nèi)各個時間段在當前時間段內(nèi)的比例。

      統(tǒng)計網(wǎng)站的session數(shù)據(jù)中,訪問時長在各個預設時間段范圍內(nèi)的session占比。session的訪問時長,指一個session從開始訪問到結束訪問之間的時間范圍。通過這個值,管理員可以對學習者的行為進行估計。在一般情況下,學習者會選擇其感興趣的頁面,并在這些頁面停留較長時間,對于不感興趣的頁面,可能停留的時間較少。因此訪問時長也能在一定程度上反映一個學習者的瀏覽習慣。如時間為1s~3s,學習者可能僅僅是簡單瀏覽;而時間為30m以上,可能學習者正在進行學習。如在某一個課程直播頁面的訪問信息中,如果學習者的停留時間普遍低于1分鐘,則很可能這個頁面出現(xiàn)了問題,需要管理員進行管理調(diào)整。通過對某個特定時間的占比統(tǒng)計,可以調(diào)整模塊的內(nèi)容、推薦信息等。

      5.流量實時統(tǒng)計和黑名單過濾

      網(wǎng)站經(jīng)常會面臨一些異常訪問,因此有必要對數(shù)據(jù)進行監(jiān)控和限制。使用大數(shù)據(jù)技術進行安全監(jiān)控分析,面對的是整個網(wǎng)站的訪問數(shù)據(jù),監(jiān)控的樣本比傳統(tǒng)監(jiān)控有極大的增加,通過合理的計算和分析,可以很大程度上提高網(wǎng)站的安全性。

      該模塊可以根據(jù)session信息來實時統(tǒng)計流量,以發(fā)現(xiàn)異常學習者,經(jīng)過鑒別后,可將異常學習者加入到黑名單中。session通常會記錄一些學習者的訪問信息,當學習者訪問異常時,通過session數(shù)據(jù)能較為明顯地表現(xiàn)出來。在這里設定為單位時間內(nèi),同一學習者的訪問次數(shù)大于某值時,即為黑名單學習者,并將其記錄到數(shù)據(jù)庫中。

      6.對結果進行可視化展示

      對數(shù)據(jù)結果進行可視化展示是很重要的一個環(huán)節(jié),通過對數(shù)據(jù)進行可視化展示,可以讓數(shù)據(jù)更加易于理解[6]。這里使用echarts實現(xiàn)數(shù)據(jù)的可視化效果,并使用靜態(tài)的方式進行數(shù)據(jù)展示,包括柱狀圖、餅狀圖、折線圖等,使學習者更簡潔直觀地了解數(shù)據(jù)的基本情況??梢暬Y果展示示例如圖5、圖6所示。

      五、結語

      本文詳細介紹了大數(shù)據(jù)平臺的架構、部署和針對教育類型網(wǎng)站(網(wǎng)絡課程類型)的session數(shù)據(jù)開發(fā)。綜合介紹了基于Hadoop的大數(shù)據(jù)開發(fā)架構以及大數(shù)據(jù)在學習者行為分析中的應用?;诖髷?shù)據(jù)的學習者行為分析將對教育類平臺的優(yōu)化和推廣起到積極作用,這種研究思路值得智慧教育研究者借鑒。

      參考文獻:

      [1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:8-18.

      [2]王正也.基于Hadoop平臺的海量數(shù)據(jù)查詢分析系統(tǒng)的性能優(yōu)化研究[D].北京:北京郵電大學,2015:6-10.

      [3]劉季函.基于Spark的網(wǎng)絡日志分析系統(tǒng)的設計與實現(xiàn)[D].南京:南京大學,2014.

      [4]劉永增,張曉景,李先毅.基于Hadoop/Hive的Web日志分析系統(tǒng)的設計[J]. 廣西大學學報(自然科學版), 2011,36(s1):315-316.

      [5]王英哲.大數(shù)據(jù)時代文獻分析與利用[J].石家莊職業(yè)技術學院學報,2014(2):53-54.

      [6]張春生,郭長杰,尹兆濤.基于大數(shù)據(jù)技術的IT基礎設施日志分析系統(tǒng)設計與實現(xiàn)[J].微型電腦應用,2016,32(6):50-51.

      (編輯:王曉明)

      札达县| 仁怀市| 墨竹工卡县| 海淀区| 湘西| 游戏| 楚雄市| 衡山县| 平南县| 清丰县| 滦平县| 芮城县| 汝南县| 甘德县| 富民县| 突泉县| 临西县| 屏南县| 许昌县| 焦作市| 东丰县| 阿克苏市| 于都县| 木兰县| 云南省| 乐东| 闸北区| 曲麻莱县| 读书| 汉中市| 乌拉特后旗| 开化县| 沂水县| 古浪县| 金山区| 凉城县| 绵阳市| 伽师县| 宁陵县| 潮州市| 孝昌县|