方丹丹
摘 要:隨著大數(shù)據(jù)技術(shù)的發(fā)展,探討大數(shù)據(jù)在高等教育領(lǐng)域的深度應(yīng)用,成為當(dāng)前高校關(guān)注的熱點(diǎn),文章探討了大數(shù)據(jù)技術(shù)給高校教師職業(yè)生涯規(guī)劃帶來的新思路和方法,從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用三個(gè)層次構(gòu)建了基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃總體框架,并重點(diǎn)介紹了模型和算法的選擇,為大數(shù)據(jù)在高校人才培養(yǎng)方面的應(yīng)用提供可行性參考。
關(guān)鍵詞:大數(shù)據(jù);職業(yè)生涯規(guī)劃
中圖分類號:G645 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2017)14-0072-04
隨著大數(shù)據(jù)時(shí)代的到來,云計(jì)算、智能化、移動化、數(shù)據(jù)挖掘等新興技術(shù)的應(yīng)用和普及,使得數(shù)據(jù)處理能力與日俱增,通過大數(shù)據(jù)技術(shù)可以對事物進(jìn)行多維度、多層次的數(shù)據(jù)分析,獲得有價(jià)值的信息,及時(shí)準(zhǔn)確、全面深入地把握事物發(fā)展的規(guī)律,對未來的發(fā)展方向和趨勢進(jìn)行預(yù)測,極大地提高我們認(rèn)識世界的能力。在教育領(lǐng)域,也迅速掀起了大數(shù)據(jù)促進(jìn)教育改革和創(chuàng)新發(fā)展相關(guān)研究的熱潮,大數(shù)據(jù)的教育應(yīng)用研究迅猛發(fā)展起來。2014 年3 月,教育部辦公廳印發(fā)的《2014 年教育信息化工作要點(diǎn)》中指出:加強(qiáng)對動態(tài)監(jiān)測、決策應(yīng)用、教育預(yù)測等相關(guān)數(shù)據(jù)資源的整合與集成,為教育決策提供及時(shí)和準(zhǔn)確的數(shù)據(jù)支持,推動教育基礎(chǔ)數(shù)據(jù)在全國的共享。可見,大數(shù)據(jù)與教育領(lǐng)域的深度融合,是當(dāng)前教育事業(yè)發(fā)展的必然趨勢。大數(shù)據(jù)技術(shù)應(yīng)用于高校教師職業(yè)生涯規(guī)劃的研究也是重要的研究方向,定性的研究方法向定量化的研究方向轉(zhuǎn)變,確定教師職業(yè)發(fā)展規(guī)劃的指標(biāo)因子以及挖掘教師個(gè)人信息中的知識與規(guī)律,創(chuàng)新研究教師職業(yè)發(fā)展的路徑,通過對不同崗位、不同階段、不同目標(biāo)的教師在自我認(rèn)知的數(shù)據(jù)分析基礎(chǔ)之上,輔助教師制定個(gè)人的職業(yè)生涯規(guī)劃。
一、大數(shù)據(jù)概述
大數(shù)據(jù)(Big Data)一詞最早出現(xiàn)在20 世紀(jì)90 年代,主要用來表示數(shù)據(jù)的量化特征,相當(dāng)于日常用語中的“數(shù)據(jù)量大”[1]。而2008 年9 月《自然》雜志所出版的文章Big Data: Science in the Petabyte Era,將大數(shù)據(jù)賦予了一種全新的科學(xué)理念,超越了單純數(shù)量意義的描述,引起了學(xué)術(shù)界的廣泛關(guān)注[2]。美國首屈一指的咨詢公司麥肯錫是研究大數(shù)據(jù)的先驅(qū),在其報(bào)告《Big data: The next frontier for innovation, competition, and productivity》中給出的大數(shù)據(jù)定義是:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。但它同時(shí)強(qiáng)調(diào),并不是說一定要超過特定TB 值的數(shù)據(jù)集才能算是大數(shù)據(jù)。隨后,又出現(xiàn)了許多大數(shù)據(jù)的定義,綜合各種定義,概括大數(shù)據(jù)的特征:并沒有明確的界限,它不僅僅是數(shù)據(jù)量大,還有類型繁多、價(jià)值密度低、速度快、時(shí)效高的特征。
二、高校教師職業(yè)生涯規(guī)劃的現(xiàn)狀和不足
高校教師職業(yè)生涯規(guī)劃是高校教師結(jié)合自身特點(diǎn)和所處的環(huán)境,制定職業(yè)發(fā)展目標(biāo),對影響職業(yè)發(fā)展的各方面進(jìn)行規(guī)劃,并根據(jù)目標(biāo)的實(shí)現(xiàn)程度,不斷反饋和調(diào)整,最終實(shí)現(xiàn)目標(biāo)的過程[3]。
職業(yè)生涯規(guī)劃對高校教師的發(fā)展至關(guān)重要,合理的職業(yè)生涯規(guī)劃有助于教師了解自己以及自身所處的職業(yè)環(huán)境,明確發(fā)展方向,預(yù)測發(fā)展前景,克服發(fā)展的盲目性,極大地挖掘自身的潛能,實(shí)現(xiàn)個(gè)人價(jià)值和社會價(jià)值。
對于高校教師職業(yè)生涯規(guī)劃的相關(guān)研究已取得一些成果,研究者們對現(xiàn)狀進(jìn)行了充分的分析,目前存在的不足主要表現(xiàn)在如下幾個(gè)方面:高校教師對職業(yè)發(fā)展?jié)M意度較低,且缺乏明確的規(guī)劃和目標(biāo);重視程度和支持力度不夠,缺乏系統(tǒng)的職業(yè)規(guī)劃政策和指導(dǎo);職業(yè)生涯規(guī)劃內(nèi)容片面、形式單一、缺少創(chuàng)新,缺乏個(gè)性化,達(dá)不到預(yù)期效果;研究成果以理論研究為主,缺少定量研究,缺少可操作的模型。
三、大數(shù)據(jù)給高校教師職業(yè)發(fā)展規(guī)劃帶來新機(jī)遇和挑戰(zhàn)
大數(shù)據(jù)時(shí)代,不僅對高校教師的知識體系、教學(xué)方式、教學(xué)評價(jià)等帶來了革命性的影響,也為教師進(jìn)行職業(yè)生涯規(guī)劃提供了新思路和方法。
1.以大數(shù)據(jù)為依據(jù),幫助教師建立更完整、準(zhǔn)確的自我認(rèn)知和職業(yè)環(huán)境認(rèn)知
良好的自我認(rèn)知是職業(yè)生涯規(guī)劃的前提和關(guān)鍵,自我認(rèn)知包括對自己的專業(yè)技能水平、性格特征、興趣愛好、特長、個(gè)人需求等各方面的認(rèn)識和了解,傳統(tǒng)的自我認(rèn)知建立在自己感知的基礎(chǔ)上,是感性的認(rèn)知,不是量化的,而大數(shù)據(jù)可以將“人”數(shù)據(jù)化。隨著全社會信息化程度越來越高,越來越多的業(yè)務(wù)依賴于信息化應(yīng)用,用戶在與應(yīng)用交互的過程中產(chǎn)生大量的數(shù)據(jù);此外,網(wǎng)絡(luò)數(shù)據(jù)記錄了用戶的行為,可穿戴設(shè)備記錄人們的身體狀況、行動軌跡等。無處不在的數(shù)據(jù),為人們的自我認(rèn)知提供了量化的工具,使人們能夠更加準(zhǔn)確客觀地認(rèn)識自己。
職業(yè)環(huán)境認(rèn)知包括晉升制度、獎(jiǎng)勵(lì)制度、薪酬制度等學(xué)校職業(yè)環(huán)境,也包括社會地位、收入福利等社會職業(yè)環(huán)境。職業(yè)環(huán)境會隨著國家或者學(xué)校的政策調(diào)整而發(fā)生變化。大數(shù)據(jù)時(shí)代,高校教師可以更多更快地獲取到外界的大量實(shí)時(shí)信息,學(xué)校整體職業(yè)環(huán)境、學(xué)校的發(fā)展規(guī)劃、學(xué)科建設(shè)情況、職業(yè)發(fā)展前景都可以通過數(shù)據(jù)進(jìn)行展示,為教師分析自身所在的職業(yè)環(huán)境和職業(yè)發(fā)展趨勢,提供了有力的數(shù)據(jù)支撐。
2.大數(shù)據(jù)分析幫助教師選擇職業(yè)規(guī)劃路線
在自我認(rèn)知和職業(yè)環(huán)境認(rèn)知的基礎(chǔ)上,教師對職業(yè)生涯路線做出選擇,不同的發(fā)展路線,對教師的素質(zhì)要求不同,也會產(chǎn)生不一樣的職業(yè)發(fā)展的結(jié)果。一般而言,教師根據(jù)自身的條件和所處的環(huán)境,對個(gè)人的職業(yè)生涯路線做出的判斷和選擇,很多時(shí)候都是主觀判斷的結(jié)果。而以大數(shù)據(jù)分析為基礎(chǔ),一方面可以清晰地看到不同職業(yè)發(fā)展路線的要求和區(qū)別,也可以看到不同職業(yè)發(fā)展路線帶來的影響和結(jié)果,甚至可以看到學(xué)校歷年的職業(yè)發(fā)展路線選擇的歷史數(shù)據(jù),為個(gè)人進(jìn)行選擇提供依據(jù)。
3.個(gè)性化的大數(shù)據(jù)服務(wù)輔助教師職業(yè)發(fā)展
選定職業(yè)發(fā)展路線之后,教師需要制定階段性目標(biāo),確定相應(yīng)的教育、發(fā)展和培訓(xùn)計(jì)劃,并做出合理安排,個(gè)性化的大數(shù)據(jù)服務(wù)是結(jié)合教師的個(gè)人特征和階段性目標(biāo),進(jìn)行個(gè)性化的推薦,推薦的內(nèi)容包括教學(xué)資料、科研項(xiàng)目、圖書、培訓(xùn)等各個(gè)方面,讓數(shù)據(jù)參與到教師的成長過程中,幫助教師更好地發(fā)展。
4.大數(shù)據(jù)報(bào)告對階段性目標(biāo)進(jìn)行總結(jié)和修正
教師職業(yè)規(guī)劃的過程還包括根據(jù)目標(biāo)的實(shí)現(xiàn)程度,不斷反饋和調(diào)整,最終實(shí)現(xiàn)既定目標(biāo)。大數(shù)據(jù)報(bào)告對教師各方面的數(shù)據(jù)進(jìn)行總結(jié)和分析,隨時(shí)生成的大數(shù)據(jù)報(bào)告可以讓教師隨時(shí)了解和掌握目標(biāo)實(shí)現(xiàn)的情況,對產(chǎn)生的偏差進(jìn)行不斷修正和調(diào)整。
四、基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃總體框架
本研究從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用三個(gè)層次構(gòu)建了基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃總體框架,如圖1所示。
1.數(shù)據(jù)采集
教師數(shù)據(jù)主要來源于學(xué)校業(yè)務(wù)系統(tǒng)數(shù)據(jù)和網(wǎng)絡(luò)服務(wù)器的瀏覽數(shù)據(jù),學(xué)校業(yè)務(wù)系統(tǒng)包括人力資源管理系統(tǒng)、教務(wù)系統(tǒng)、教學(xué)平臺、科研管理系統(tǒng)、圖書借閱系統(tǒng)、E卡通系統(tǒng)等,可以獲取到教師基本信息、教學(xué)信息、科研成果、圖書借閱信息、校內(nèi)消費(fèi)信息等數(shù)據(jù),這些數(shù)據(jù)大多是結(jié)構(gòu)化數(shù)據(jù),不要求實(shí)時(shí)處理,因此可通過ETL(Extract-Transform-Load)工具進(jìn)行數(shù)據(jù)的自動采集,將數(shù)據(jù)從源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端。網(wǎng)絡(luò)瀏覽數(shù)據(jù)是從網(wǎng)絡(luò)服務(wù)器獲取到用戶的網(wǎng)絡(luò)行為數(shù)據(jù),這部分?jǐn)?shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)量巨大、多類別、更新頻率高,可采用一個(gè)高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)Flume工具進(jìn)行采集。
2.數(shù)據(jù)處理
數(shù)據(jù)處理包括數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析與挖掘等,本研究采用一個(gè)開源分布式計(jì)算平臺Hadoop。采集到的數(shù)據(jù)首先要進(jìn)行數(shù)據(jù)存儲,ETL工具采集到的數(shù)據(jù)一般存儲到傳統(tǒng)關(guān)系型數(shù)據(jù)庫mysql或者oracle中,再通過Sqoop工具導(dǎo)入到hbase中。Flume采集到的海量網(wǎng)絡(luò)瀏覽數(shù)據(jù)采用Lambda大數(shù)據(jù)架構(gòu),分為批處理和實(shí)時(shí)處理兩部分,批處理部分采用Hadoop實(shí)現(xiàn),包括HDFS和Hadoop MapReduce,包括對全部數(shù)據(jù)集的預(yù)計(jì)算。實(shí)時(shí)處理利用流處理系統(tǒng)如kafka、Storm、S4、Spark等,采用各種復(fù)雜的增量算法實(shí)現(xiàn)。
數(shù)據(jù)計(jì)算采用分布式計(jì)算框架,根據(jù)不同的應(yīng)用場景選擇離線計(jì)算、交互式計(jì)算或者流式計(jì)算,主要用到的框架包括MapReduce、Spark、Impala、Storm等。
數(shù)據(jù)分析與挖掘使用Mahout機(jī)器學(xué)習(xí)算法庫提供的一些可擴(kuò)展的經(jīng)典算法的實(shí)現(xiàn),包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘等,應(yīng)用到各個(gè)不同的模型中。
3.數(shù)據(jù)應(yīng)用
本研究的數(shù)據(jù)應(yīng)用包括:教師畫像、個(gè)性化推薦、分析與預(yù)測、大數(shù)據(jù)報(bào)告四個(gè)部分。教師畫像是對現(xiàn)實(shí)世界中教師的數(shù)學(xué)建模,是通過分析挖掘教師盡可能多的數(shù)據(jù)信息得到的,用標(biāo)簽的集合來表示。個(gè)性化推薦基于教師畫像的標(biāo)簽特征,構(gòu)建推薦模型,選擇推薦算法,實(shí)現(xiàn)推薦感興趣的信息給教師。分析與預(yù)測結(jié)合教師畫像的標(biāo)簽特征和學(xué)校職業(yè)規(guī)劃環(huán)境,分析個(gè)人職業(yè)發(fā)展的方向和目標(biāo),并預(yù)測是否能夠達(dá)到下一個(gè)目標(biāo)。大數(shù)據(jù)報(bào)告以數(shù)據(jù)的方式總結(jié)個(gè)人階段性成果,分析職業(yè)發(fā)展過程中現(xiàn)實(shí)和目標(biāo)的偏差。
五、基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃的模型與算法
教師畫像、個(gè)性化推薦、分析與預(yù)測、大數(shù)據(jù)報(bào)告四個(gè)部分既是一個(gè)整體,各部分相互聯(lián)系,又是不同的功能模塊,無論是需求設(shè)計(jì)、功能設(shè)計(jì)、架構(gòu)設(shè)計(jì)、模型和算法設(shè)計(jì)上都有很大的區(qū)別。本研究擬從共性和方法上進(jìn)行論述,重點(diǎn)介紹模型和算法的選擇。
建模的過程是在明確需求、了解數(shù)據(jù)、構(gòu)造特征的基礎(chǔ)上,根據(jù)實(shí)際的應(yīng)用場景,選擇模型和算法,本研究的模型和算法如圖2所示。
1.數(shù)據(jù)預(yù)處理
數(shù)據(jù)處理的流程,一般先要明確問題,了解數(shù)據(jù)的規(guī)模,重要特征的覆蓋度,并明確需求和數(shù)據(jù)的匹配度。再對數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理的過程包括對數(shù)據(jù)進(jìn)行集成、數(shù)據(jù)采樣、數(shù)據(jù)清洗、缺失值處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)沖突處理等。其次是特征工程,特征是指對所需要解決的問題有用的屬性,特征的提取、選擇和構(gòu)造是通過相關(guān)系數(shù)等方式來計(jì)算特征的重要性,針對所解決的問題選擇最有用的特征集合,本研究構(gòu)造的特征包括:教師的性別、年齡、教育程度、籍貫、收入水平等基礎(chǔ)屬性,教師的教授課程、學(xué)生人數(shù)、課時(shí)量、學(xué)生評價(jià)等教學(xué)屬性,教師的論文、科研項(xiàng)目、橫向課題、縱向課題、學(xué)術(shù)會議等科研成果屬性,專業(yè)、研究方向、職稱等專業(yè)技能屬性,閱讀偏好、消費(fèi)偏好等興趣偏好,借閱圖書、E卡消費(fèi)、資料搜索等行為屬性。
2.模型與算法選擇
明確問題和需求后,根據(jù)問題的分類,選擇模型和算法。
分類問題是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定的類別中。聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低?;貧w分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值特性,通過函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系。關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。
選擇模型和算法考慮的因素包括:數(shù)據(jù)訓(xùn)練集的大小、特征的維度、所要解決的問題是否是線性可分、特征是否獨(dú)立、對性能有哪些要求等。選擇方法可采用奧卡姆剃刀原理,這個(gè)原理稱為“如無必要,勿增實(shí)體”,即“簡單有效原理”。比如對于分類問題,只要認(rèn)為問題是線性可分的,即可采用LR分類器(Logistic Regression Classifier),該模型比較抗噪,效率高,可以應(yīng)用于數(shù)據(jù)特別大的場景,很容易分布式實(shí)現(xiàn)。比如Ensenble方法(組合方法),根據(jù)training set訓(xùn)練多個(gè)模型,然后綜合各個(gè)模型的結(jié)果,做出預(yù)測,該方法組合多個(gè)模型,可以獲得更好的效果,使集成的模型具有更強(qiáng)的泛化能力。
建模時(shí)通常會執(zhí)行多次迭代,選擇合適的模型算法,運(yùn)行多個(gè)可能的模型,然后再對這些參數(shù)進(jìn)行微調(diào)以便對模型進(jìn)行優(yōu)化,最終選擇出一個(gè)最佳的模型。
3.模型與算法評價(jià)
最后需要對模型和算法進(jìn)行評價(jià),本研究采用廣泛應(yīng)用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的兩個(gè)度量值:準(zhǔn)確率和召回率,來評價(jià)結(jié)果的質(zhì)量,如表1所示。
準(zhǔn)確率accuracy=(TP+TN)/(P+N),就是被分對的樣本數(shù)除以所有的樣本數(shù)。通常來說,準(zhǔn)確率越高,分類器越好;召回率recall=TP/(TP+FN),召回率是覆蓋面的度量,度量有多少個(gè)正例被分為正例。
六、結(jié)束語
大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,帶來了各行各業(yè)的大數(shù)據(jù)應(yīng)用創(chuàng)新,在高等教育領(lǐng)域亦如此,不僅在教學(xué)方式、教學(xué)管理、學(xué)生管理等各個(gè)方面,在高校教師的職業(yè)發(fā)展方面,大數(shù)據(jù)應(yīng)用也有其應(yīng)用價(jià)值。本文提出了教師畫像、個(gè)性化推薦、分析與預(yù)測、大數(shù)據(jù)報(bào)告四個(gè)方面的創(chuàng)新應(yīng)用,并從技術(shù)角度,在數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用三個(gè)層次構(gòu)建了基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃總體框架,重點(diǎn)討論了模型和算法的選擇?;诒疚牡难芯績?nèi)容,可作為高校構(gòu)建支撐高校教師職業(yè)生涯規(guī)劃的大數(shù)據(jù)平臺的參考。未來隨著技術(shù)的更新和進(jìn)步,在技術(shù)架構(gòu)、模型和算法的選擇方面,可以繼續(xù)進(jìn)行更深一步的探討。
參考文獻(xiàn):
[1]安濤,趙可云.大數(shù)據(jù)時(shí)代的教育技術(shù)發(fā)展取向[J].現(xiàn)代教育技術(shù),2006(2).
[2]宋學(xué)清,劉雨.大數(shù)據(jù):信息技術(shù)與信息管理的一次變革[J].情報(bào)科學(xué),2014(9).
[3]汪霞.關(guān)于高校教師職業(yè)生涯規(guī)劃的思考[J].信陽師范學(xué)院學(xué)報(bào)(哲學(xué)社會科學(xué)版),2010(2).
(編輯:魯利瑞)