• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)在高校中的應(yīng)用研究

      2014-03-13 01:55:02孫其偉陸春
      中國(guó)教育網(wǎng)絡(luò) 2014年1期
      關(guān)鍵詞:校友結(jié)構(gòu)化分析

      文/孫其偉 陸春

      大數(shù)據(jù)在高校中的應(yīng)用研究

      文/孫其偉 陸春

      移動(dòng)互聯(lián)、MOOC等技術(shù)的不斷興起給高校的發(fā)展帶來了極大的挑戰(zhàn),為了應(yīng)對(duì)這種挑戰(zhàn),高校應(yīng)當(dāng)充分發(fā)揮大數(shù)據(jù)在其中的支撐作用。

      高校大數(shù)據(jù)及其處理架構(gòu)

      高校中匯聚著大量的信息,從學(xué)生角度來看,包括聯(lián)系方式等基本信息,食堂消費(fèi)、住宿晚歸等生活信息,選課、課后作業(yè)、借閱圖書、成績(jī)等學(xué)習(xí)信息,參與的社團(tuán)、競(jìng)賽、講座等第二課堂信息;從教師角度來看,包含教學(xué)任務(wù)、課件等教學(xué)信息,論文著作、科學(xué)研究數(shù)據(jù)等科研信息;從管理者的角度來看,包含學(xué)校的資產(chǎn)信息、師資信息、招生就業(yè)信息等。同時(shí)隨著移動(dòng)互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術(shù)的興起,學(xué)校師生主動(dòng)產(chǎn)生和由設(shè)備自動(dòng)收集的信息越來越多,如微博、微信等社交信息,各類搜索點(diǎn)擊記錄信息等。上述信息存在著數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、產(chǎn)生頻率快的特點(diǎn)。這導(dǎo)致利用常用軟件工具捕獲、管理和處理此類數(shù)據(jù)所耗費(fèi)時(shí)間超過了可容忍的時(shí)間。

      大數(shù)據(jù)的處理流程與一般數(shù)據(jù)的處理過程類似,可以定義為在合適工具的輔助下對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,將結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ),利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析從中提取有益的知識(shí),并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來說可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析和數(shù)據(jù)展示。

      數(shù)據(jù)抽取與集成

      大數(shù)據(jù)的數(shù)據(jù)來源非常廣泛,既包括傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),也包括XML等半結(jié)構(gòu)化數(shù)據(jù),以及以視頻、音頻、文本和其他形式存在的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)抽取和集成要解決的主要問題就是收集各種碎片化的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)質(zhì)量,同時(shí)根據(jù)時(shí)間演進(jìn)不斷更新數(shù)據(jù)模式,確定數(shù)據(jù)實(shí)體及其之間的關(guān)系,最終將數(shù)據(jù)按照統(tǒng)一的格式進(jìn)行存儲(chǔ),以便提供給上層用來進(jìn)行數(shù)據(jù)分析。

      目前高校已經(jīng)基本建立了完備的管理信息系統(tǒng)、學(xué)習(xí)管理系統(tǒng)等,在統(tǒng)一數(shù)據(jù)中心中積累了大量的結(jié)構(gòu)化數(shù)據(jù);同時(shí)各類系統(tǒng)中還散布著大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過一定處理后,可以轉(zhuǎn)化為更容易分析使用的結(jié)構(gòu)化數(shù)據(jù)。

      數(shù)據(jù)分析

      經(jīng)過抽取和集成得到的數(shù)據(jù),需要經(jīng)過分析挖掘其潛在的價(jià)值。

      圖1 就業(yè)分析模型

      經(jīng)過抽取和集成得到的數(shù)據(jù),需要經(jīng)過分析挖掘其潛在的價(jià)值。傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等方法仍然可以用來對(duì)數(shù)據(jù)進(jìn)行分析,只是需要根據(jù)大數(shù)據(jù)的特征進(jìn)行調(diào)整。首先,為了實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的分析,需要依據(jù)Map/Reduce模型,將數(shù)據(jù)拆分處理,然后再將結(jié)果匯總,一個(gè)完整的分析可能會(huì)經(jīng)過多層類似的處理過程;其次,大數(shù)據(jù)的應(yīng)用通常具有實(shí)時(shí)性的特點(diǎn),數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而遞減,因此分析方法需要平衡處理的效率和準(zhǔn)確率;最后,大數(shù)據(jù)一般構(gòu)建在云計(jì)算平臺(tái)之上,分析方法需要考慮與云計(jì)算平臺(tái)的集成或做為一種云服務(wù)。

      數(shù)據(jù)展示

      數(shù)據(jù)分析得到的分析結(jié)果,需要以直觀可理解的方式呈獻(xiàn)給最終用戶,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析產(chǎn)生的結(jié)果有可能也是非常大量的,且結(jié)果之間的關(guān)聯(lián)關(guān)系復(fù)雜、數(shù)據(jù)維度更多,數(shù)據(jù)可視化技術(shù)通過更加適合人類思維的圖形化的方式展示數(shù)據(jù)分析結(jié)果,已經(jīng)被證明是展示數(shù)據(jù)分析結(jié)果非常有效的方法。常見的可視化方法有:多維疊加式數(shù)據(jù)可視化、數(shù)據(jù)在空間、時(shí)間坐標(biāo)中的變化和對(duì)比等,當(dāng)然要將枯燥的信息轉(zhuǎn)換為美麗的、令人印象深刻的圖形,需要較高的技術(shù)素養(yǎng)和藝術(shù)素養(yǎng)。

      大數(shù)據(jù)在高校中的典型應(yīng)用

      很多高校正在使用大數(shù)據(jù)分析技術(shù)解決遇到的實(shí)際問題,如美國(guó)德克薩斯大學(xué)利用大數(shù)據(jù)技術(shù)分析學(xué)校用戶IT使用行為產(chǎn)生的數(shù)據(jù),確定用戶行為異常,審計(jì)IT基礎(chǔ)環(huán)境,制定安全防護(hù)措施。其他的一些應(yīng)用場(chǎng)景包括分析學(xué)生參與網(wǎng)絡(luò)課堂產(chǎn)生的數(shù)據(jù),進(jìn)而確定如何改進(jìn)課程講述方式,達(dá)到因材施教的教育目標(biāo)。

      高??梢栽诰蜆I(yè)情況分析、學(xué)習(xí)行為分析、學(xué)科規(guī)劃、心理咨詢、校友聯(lián)絡(luò)等方面借助大數(shù)據(jù)分析技術(shù),挖掘數(shù)據(jù)中潛在的價(jià)值。

      就業(yè)情況分析

      當(dāng)前市場(chǎng)經(jīng)濟(jì)高速發(fā)展、高校不斷擴(kuò)招、就業(yè)制度改革不斷深化和畢業(yè)生數(shù)量逐年增加、社會(huì)整體就業(yè)形勢(shì)日益嚴(yán)峻,大學(xué)生就業(yè)問題己經(jīng)越來越成為目前大家共同關(guān)心的話題,研究大學(xué)生就業(yè)問題具有緊迫性和重要性。本文提出在大數(shù)據(jù)分析框架下的就業(yè)問題分析思路。

      圖2 數(shù)據(jù)抽取方式

      1.數(shù)據(jù)來源

      傳統(tǒng)的就業(yè)分析一般從就業(yè)單位、就業(yè)地區(qū)、所在院系專業(yè)、性別、簽約類別、就業(yè)年份等維度來分析,得到的只是一般意義上的統(tǒng)計(jì)結(jié)果,對(duì)于指導(dǎo)單個(gè)學(xué)生的就業(yè)以及預(yù)測(cè)未來的就業(yè)情況發(fā)揮的作用比較有限。應(yīng)用大數(shù)據(jù)分析技術(shù),就可以將學(xué)生就業(yè)模型涉及到的學(xué)習(xí)情況、社團(tuán)信息、生活信息、校外實(shí)習(xí)、參加的競(jìng)賽及獲獎(jiǎng)情況、所投公司當(dāng)年的招聘計(jì)劃、歷屆學(xué)生在所投公司的表現(xiàn)等眾多的信息進(jìn)行收集。以上海財(cái)經(jīng)大學(xué)為例,可以從圖1所示的各類系統(tǒng)中抽取學(xué)生的各類信息,構(gòu)成就業(yè)分析模型所需的各類數(shù)據(jù)。

      2.數(shù)據(jù)抽取與存儲(chǔ)

      針對(duì)數(shù)據(jù)來源的不同,我們采取不同的數(shù)據(jù)抽取方式,對(duì)于結(jié)構(gòu)良好的各信息系統(tǒng)的數(shù)據(jù),我們采用ETL工具如InformaticaPowercenter、Kettle將數(shù)據(jù)抽取到HBase數(shù)據(jù)庫(kù)中;對(duì)于Web網(wǎng)頁這類非結(jié)構(gòu)化數(shù)據(jù),通過Nutch進(jìn)行抓取,Solr對(duì)數(shù)據(jù)進(jìn)行索引后存儲(chǔ)到Hbase數(shù)據(jù)庫(kù)中,示意圖如圖2所示。Hbase數(shù)據(jù)庫(kù)是一個(gè)開源的高可靠性、高性能、可伸縮、并非建立在關(guān)系模型基礎(chǔ)上的分布式數(shù)據(jù)庫(kù),用以存儲(chǔ)大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。

      3.數(shù)據(jù)分析

      將就業(yè)分析模型所需的數(shù)據(jù)存儲(chǔ)在Hbase數(shù)據(jù)庫(kù)后,可以利用Hive對(duì)Hbase中的數(shù)據(jù)進(jìn)行查詢和分析。Hive提供了一種簡(jiǎn)單的類SQL查詢語言,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。通過Hive我們可以實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)所實(shí)現(xiàn)的對(duì)就業(yè)數(shù)據(jù)的匯總統(tǒng)計(jì)分析,而且可以容易的擴(kuò)展其存儲(chǔ)能力和計(jì)算能力。

      圖3 就業(yè)數(shù)據(jù)分析

      除了數(shù)據(jù)統(tǒng)計(jì)分析之外,我們還可以利用Mahout這個(gè)機(jī)器學(xué)習(xí)工具對(duì)數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)使用先驗(yàn)知識(shí)對(duì)數(shù)據(jù)進(jìn)行分類;無監(jiān)督學(xué)習(xí)則由計(jì)算機(jī)自己學(xué)習(xí)處理數(shù)據(jù),并在做出判斷后給予一定的激勵(lì)或懲罰。在進(jìn)行就業(yè)分析時(shí),我們可以使用Mahout已經(jīng)實(shí)現(xiàn)的具體方法。首先是協(xié)作篩選,通過分析已就業(yè)學(xué)生的成績(jī)、參加的社團(tuán)活動(dòng)、關(guān)注的行業(yè)、性格特點(diǎn)、就業(yè)單位、就業(yè)崗位等,計(jì)算學(xué)生之間的相似度,為即將畢業(yè)的學(xué)生推薦適合的就業(yè)單位和崗位,提供個(gè)性化的服務(wù);其次是聚類,這是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,我們可以通過不同的維度將未能及時(shí)就業(yè)的學(xué)生進(jìn)行分析,從中找出其共同的特點(diǎn),再通過比較在校學(xué)生的相關(guān)屬性,及時(shí)對(duì)學(xué)生給出預(yù)警,以便其在后續(xù)的學(xué)習(xí)和生活中加以改進(jìn),如圖3所示。

      4.數(shù)據(jù)展示

      在數(shù)據(jù)展示層,我們可以使用Tableau軟件將分析的結(jié)果進(jìn)行可視化的展示,Tableau將數(shù)據(jù)與美觀的圖表完美地結(jié)合在一起,它包含非常多的預(yù)定義的圖表格式,同時(shí)還可以將時(shí)間、地圖等多種維度在單一的圖表中進(jìn)行展示。

      學(xué)習(xí)行為分析

      為了支持學(xué)生的自主學(xué)習(xí),高校一般都有自己的學(xué)習(xí)管理系統(tǒng)如Blackboard、Sakai等。這些學(xué)習(xí)管理系統(tǒng)為學(xué)生、教師提供了課程學(xué)習(xí)和交流的空間。美國(guó)教育部教育技術(shù)辦公室認(rèn)為教育數(shù)據(jù)分為鍵擊層(keystroke level)、回答層(answer level)、學(xué)期層(session level)、學(xué)生層(student level)、教室層(classroom level)、教師層(teacher level)和學(xué)校層(school level),數(shù)據(jù)就寓居在這些不同的層之中。一般高校每年的開課數(shù)在數(shù)千門,學(xué)生數(shù)在數(shù)萬人,產(chǎn)生的數(shù)據(jù)量非常大。應(yīng)用大數(shù)據(jù)分析技術(shù)使得監(jiān)控學(xué)生的每一個(gè)學(xué)習(xí)行為變?yōu)榱丝赡?,學(xué)生在回答一個(gè)問題時(shí)用了多長(zhǎng)時(shí)間,哪些問題被跳過了,為了回答問題而作的研究工作等都可以獲得,用這些學(xué)生學(xué)習(xí)的行為檔案創(chuàng)造適應(yīng)性的學(xué)習(xí)系統(tǒng)能夠提高學(xué)生的學(xué)習(xí)效果。

      學(xué)科規(guī)劃

      促進(jìn)學(xué)科交叉融合發(fā)展,構(gòu)筑有生命力的學(xué)科生態(tài),打造凸顯核心競(jìng)爭(zhēng)力的高水平學(xué)科是學(xué)校學(xué)科規(guī)劃的重要任務(wù)。借助大數(shù)據(jù)分析技術(shù),充分收集各學(xué)科的教學(xué)狀態(tài)數(shù)據(jù)、科研項(xiàng)目數(shù)據(jù)、前沿發(fā)展動(dòng)態(tài)等信息,從而分析學(xué)科建設(shè)存在的不足,確定學(xué)科未來發(fā)展的方向,發(fā)掘出潛在的具有國(guó)際視野的學(xué)科帶頭人。

      心理咨詢

      論壇、微博等平臺(tái)上每天都會(huì)產(chǎn)生由評(píng)論、帖子、留言等數(shù)據(jù),這些數(shù)據(jù)集反映了師生的思想情況、情感走向和行為動(dòng)態(tài),對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)的存儲(chǔ)、管理并使用大數(shù)據(jù)技術(shù)進(jìn)行有效的分析利用,建立師生思想情感模型,對(duì)掌握師生心理健康程度,有針對(duì)性地加強(qiáng)對(duì)師生的心理輔導(dǎo)有著重要的意義。

      校友聯(lián)絡(luò)

      校友資源猶如一座座寶藏,對(duì)高校的發(fā)展建設(shè)有著不可替代的重要作用,是高校工作的重要組成部分。有效地把校友聯(lián)絡(luò)起來、團(tuán)結(jié)起來,對(duì)學(xué)校的建設(shè)和發(fā)展具有重要意義。利用傳統(tǒng)的管理方法,僅校友信息收集就要耗費(fèi)大量的時(shí)間和精力。利用大數(shù)據(jù)技術(shù),收集各類社交網(wǎng)站上的非結(jié)構(gòu)化數(shù)據(jù),通過分類、聚類等數(shù)據(jù)挖掘方法,確定校友身份并收集其聯(lián)系方式、參加的活動(dòng)信息等,可以大大提高校友數(shù)據(jù)收集的效率,為以后利用校友資源提供良好的基礎(chǔ)。

      應(yīng)用難點(diǎn)與對(duì)策

      大數(shù)據(jù)在高校應(yīng)用的美好前景令人神往,但目前大數(shù)據(jù)的應(yīng)用還存在很多應(yīng)用難點(diǎn),主要有數(shù)據(jù)集成困難、數(shù)據(jù)分析方法有待改進(jìn)和數(shù)據(jù)隱私問題。

      數(shù)據(jù)集成

      在很多高校中,因?yàn)楣芾硇畔⑾到y(tǒng)設(shè)計(jì)時(shí)未考慮到對(duì)一些過程數(shù)據(jù)的收集,導(dǎo)致在分析時(shí)缺乏必要的數(shù)據(jù)來源,需要對(duì)應(yīng)用系統(tǒng)進(jìn)行擴(kuò)展;同時(shí)對(duì)于定義良好的結(jié)構(gòu)化數(shù)據(jù)很多高校也尚未很好的集成。在大數(shù)據(jù)時(shí)代,異構(gòu)的數(shù)據(jù)類型、廣泛存在的數(shù)據(jù)來源、參差不齊的數(shù)據(jù)質(zhì)量給數(shù)據(jù)集成帶來了新的挑戰(zhàn)。高校應(yīng)該探索融合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一模型,同時(shí)提高數(shù)據(jù)采集的質(zhì)量,強(qiáng)化數(shù)據(jù)文化。

      數(shù)據(jù)分析方法

      半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的迅猛增長(zhǎng),給傳統(tǒng)的聚類、關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù)帶來了巨大的沖擊和挑戰(zhàn)。一方面,很多應(yīng)用場(chǎng)景要求數(shù)據(jù)的實(shí)時(shí)分析;另一方面缺乏對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的先驗(yàn)知識(shí),難以構(gòu)建其間的關(guān)聯(lián)關(guān)系。高校需要緊密跟蹤業(yè)界對(duì)大數(shù)據(jù)分析方法的研究動(dòng)態(tài),同時(shí)通過高校間的協(xié)作溝通探索新型的數(shù)據(jù)分析方法。

      數(shù)據(jù)隱私

      大數(shù)據(jù)分析的數(shù)據(jù)基礎(chǔ)必然建立在獲取更多個(gè)人信息之上,而且通過分析還可以使數(shù)據(jù)之間產(chǎn)生關(guān)聯(lián)關(guān)系,進(jìn)而揭示更多的個(gè)人隱私。然而為了保護(hù)隱私就將所有數(shù)據(jù)加以隱藏,那么數(shù)據(jù)的價(jià)值就無法體現(xiàn)。這種矛盾在相當(dāng)長(zhǎng)的時(shí)間內(nèi)必將一直存在,需要通過技術(shù)和制度的完善逐步解決。

      移動(dòng)互聯(lián)、MOOC等技術(shù)的不斷興起給高校的發(fā)展帶來了極大的挑戰(zhàn),為了應(yīng)對(duì)這種挑戰(zhàn),高校應(yīng)當(dāng)充分發(fā)揮大數(shù)據(jù)在其中的支撐作用。在人才培養(yǎng)、科學(xué)研究和管理等方面廣泛收集過程數(shù)據(jù),結(jié)合可視化技術(shù)充分分析和挖掘蘊(yùn)含在數(shù)據(jù)之中的豐富價(jià)值。同時(shí)我們需要在高校內(nèi)倡導(dǎo)和強(qiáng)化數(shù)據(jù)文化,建立持久運(yùn)作的收集、分析數(shù)據(jù)并將分析結(jié)果轉(zhuǎn)換為教育決策和實(shí)踐的體系,真正發(fā)揮大數(shù)據(jù)在高校發(fā)展中的價(jià)值。

      (作者單位為上海財(cái)經(jīng)大學(xué)信息化辦公室)

      猜你喜歡
      校友結(jié)構(gòu)化分析
      安慶師范大學(xué)優(yōu)秀校友
      安慶師范大學(xué)優(yōu)秀校友
      校友風(fēng)采
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      隱蔽失效適航要求符合性驗(yàn)證分析
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      校友風(fēng)采
      海峽姐妹(2018年10期)2018-12-26 01:20:54
      電力系統(tǒng)不平衡分析
      電子制作(2018年18期)2018-11-14 01:48:24
      電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      珠海市| 漾濞| 庐江县| 遂昌县| 中超| 西乌珠穆沁旗| 阜新| 大邑县| 江门市| 海伦市| 葵青区| 孝感市| 怀仁县| 平远县| 东丽区| 浠水县| 拜城县| 怀宁县| 城固县| 乐陵市| 镇远县| 金溪县| 刚察县| 西乌珠穆沁旗| 香港| 莱州市| 峨眉山市| 东丽区| 吉水县| 宜州市| 陵川县| 河源市| 松桃| 阜城县| 来宾市| 英超| 石渠县| 乌审旗| 垦利县| 交口县| 克山县|