• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)的大學(xué)生綜合行為畫像探索

      2019-01-21 03:43:06
      關(guān)鍵詞:作息畫像標(biāo)簽

      朱 錦 龍

      (亳州學(xué)院電子與信息工程系, 安徽 亳州 236800)

      2008年,在《Nature》雜志首次出現(xiàn)了“大數(shù)據(jù)(Big Data)”這一概念[1]。大數(shù)據(jù)一般指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是在新處理模式下才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[2]。隨著高校教育信息化的不斷發(fā)展,校園一卡通管理系統(tǒng)、教務(wù)管理系統(tǒng)、學(xué)工系統(tǒng)、圖書管理系統(tǒng)、校園WiFi、智能樓宇等系統(tǒng)的廣泛應(yīng)用,智慧校園平臺(tái)累積了大量學(xué)生校園行為日常數(shù)據(jù)。這些日常數(shù)據(jù)就構(gòu)成了高校學(xué)生行為大數(shù)據(jù),這些數(shù)據(jù)基本能夠客觀、真實(shí)地反映學(xué)生校園生活狀況。我們可以利用智慧平臺(tái)累積的大數(shù)據(jù),充分挖掘發(fā)揮數(shù)據(jù)在學(xué)生管理和行為預(yù)警中的價(jià)值,通過大學(xué)生綜合行為畫像,分析學(xué)生的行為習(xí)慣和特點(diǎn),從而更好地了解和引導(dǎo)學(xué)生。

      1 大學(xué)生綜合行為畫像構(gòu)建

      行為畫像是真實(shí)用戶的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)人的模型[3]。運(yùn)用數(shù)據(jù)挖掘技術(shù)進(jìn)行模型計(jì)算和標(biāo)簽化處理,用數(shù)據(jù)對(duì)大學(xué)生進(jìn)行綜合行為畫像,可以多維度準(zhǔn)確展現(xiàn)大學(xué)生的真實(shí)生活動(dòng)態(tài)。授課教師借助畫像信息可以改進(jìn)教學(xué)方式、進(jìn)行學(xué)習(xí)指導(dǎo);輔導(dǎo)員借助畫像信息可以及時(shí)進(jìn)行行為預(yù)警和干預(yù),改變管理手段和管理水平;學(xué)生本人也可以及時(shí)約束自己,改善學(xué)習(xí)方法,糾正不良生活、作息習(xí)慣。大學(xué)生綜合行為畫像可以概括為,基于校園大數(shù)據(jù)將學(xué)生行為信息標(biāo)簽化[4]。本次研究主要探討如何收集、處理各類數(shù)據(jù),將數(shù)據(jù)標(biāo)簽化,從而構(gòu)建大學(xué)生校園生活動(dòng)態(tài)的綜合行為畫像。大學(xué)生綜合行為畫像構(gòu)建流程如圖1所示。

      1.1 數(shù)據(jù)采集

      智慧校園平臺(tái)通過業(yè)務(wù)管理系統(tǒng)、硬件設(shè)備和瀏覽網(wǎng)站累積了海量大學(xué)生校園生活行為數(shù)據(jù)。從這些數(shù)據(jù)中抽取出所需數(shù)據(jù),并通過進(jìn)一步數(shù)據(jù)挖掘,即可全面展示一個(gè)大學(xué)生的綜合信息。這些數(shù)據(jù)包括靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù),以及結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。靜態(tài)數(shù)據(jù)主要包括學(xué)生的基本信息,如姓名、年齡、性別、民族、專業(yè)年級(jí)、考試成績等;動(dòng)態(tài)數(shù)據(jù)主要包括課程學(xué)習(xí)數(shù)據(jù)、作息時(shí)間數(shù)據(jù)、校園卡消費(fèi)數(shù)據(jù)、網(wǎng)絡(luò)訪問數(shù)據(jù)、圖書借閱數(shù)據(jù)等。結(jié)構(gòu)化數(shù)據(jù)主要包括智慧校園平臺(tái)數(shù)據(jù)庫中按照一定數(shù)據(jù)標(biāo)準(zhǔn)存儲(chǔ)的規(guī)范數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)主要包括網(wǎng)頁、CSV文件、Excel文件、圖片信息、視頻信息等數(shù)據(jù)。數(shù)據(jù)采集工作中,應(yīng)采集有用信息,剔除冗余信息,確定綜合行為畫像中用到的信息數(shù)據(jù)。

      1.2 數(shù)據(jù)清洗

      采集的原始數(shù)據(jù)來源于不同系統(tǒng),多是不規(guī)范、不完整、重復(fù)、異常的“臟數(shù)據(jù)”。對(duì)于“臟數(shù)據(jù)”,應(yīng)先進(jìn)行清洗,完成異構(gòu)多數(shù)據(jù)源的數(shù)據(jù)整合,以實(shí)現(xiàn)不同數(shù)據(jù)源間的數(shù)據(jù)同步。

      按照一定的數(shù)據(jù)標(biāo)準(zhǔn),連接訪問不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫。對(duì)于不規(guī)范數(shù)據(jù),進(jìn)行創(chuàng)建、瀏覽、刪除和修改,形成統(tǒng)一數(shù)據(jù)庫,存儲(chǔ)于數(shù)據(jù)倉庫中。對(duì)于不完整的數(shù)據(jù),一般采用機(jī)器學(xué)習(xí)的方式插補(bǔ),自動(dòng)完成整合。如,有的數(shù)據(jù)庫存在“空”值,通常以“0”或平均值予以替換。當(dāng)系統(tǒng)無法自動(dòng)完成時(shí),采用人工干預(yù)的方式來完成。異常數(shù)據(jù)是指超過正常數(shù)值范圍的數(shù)據(jù),對(duì)此類數(shù)據(jù)需篩選出來另行處理或刪除。

      畫像展示(向輔導(dǎo)員、授課教師、學(xué)生本人)

      1.3 數(shù)據(jù)標(biāo)簽化

      標(biāo)簽通常是指人工定義的高度精煉的特征符號(hào)標(biāo)識(shí),是特征的一種呈現(xiàn)方式[5]。它有兩個(gè)明顯特征:一是語義化,便于幫助人們理解標(biāo)簽的含義;二是短文本,有利于機(jī)器提取標(biāo)準(zhǔn)化信息。數(shù)據(jù)標(biāo)簽化是指對(duì)原始數(shù)據(jù)進(jìn)行分析,抽取學(xué)生行為相關(guān)變量或?qū)傩?,并為其貼上“標(biāo)簽”。各個(gè)標(biāo)簽從不同的角度描述數(shù)據(jù)對(duì)象,既有區(qū)別又有聯(lián)系,從而共同構(gòu)成學(xué)生行為畫像整體。

      根據(jù)大學(xué)生校園行為原始數(shù)據(jù),挖掘出有用的綜合行為畫像信息,進(jìn)而進(jìn)行模型計(jì)算、分析和評(píng)價(jià)。特征標(biāo)簽分為靜態(tài)特征標(biāo)簽和動(dòng)態(tài)特征標(biāo)簽:靜態(tài)特征標(biāo)簽主要包括姓名、年齡、性別、專業(yè)年級(jí)、考試成績等;動(dòng)態(tài)特征標(biāo)簽包括學(xué)習(xí)水平、上網(wǎng)習(xí)慣、作息習(xí)慣、消費(fèi)水平、飲食規(guī)律、社交關(guān)系等。大學(xué)生行為畫像特征標(biāo)簽如表1所示。

      表1 大學(xué)生行為畫像特征標(biāo)簽

      1.4 綜合行為畫像構(gòu)建

      大學(xué)生綜合行為畫像是現(xiàn)實(shí)生活中實(shí)際樣本的數(shù)學(xué)建模,構(gòu)建基礎(chǔ)是從大學(xué)生校園行為軌跡中抽象而來的各種特征標(biāo)簽。通過一系列信息標(biāo)簽,可勾勒出學(xué)生的校園生活形象,進(jìn)而為其學(xué)習(xí)管理、成績分析、行為預(yù)警提供幫助。

      (1) 構(gòu)建原則。綜合行為畫像來源于數(shù)據(jù),構(gòu)建的原則是能夠真實(shí)反映本體?;诒倔w的個(gè)體畫像,集成了行為建模的概念和屬性,是行為個(gè)體畫像與本體論相結(jié)合的產(chǎn)物[6]?;诒倔w的知識(shí)表示方法,通常由實(shí)例、類、關(guān)系、函數(shù)和公理等部分組成。在計(jì)算機(jī)科學(xué)與信息科學(xué)領(lǐng)域,本體是指一種形式化的對(duì)于共享概念體系的明確說明。它是一種共享詞表,是一種特殊類型的術(shù)語集,是對(duì)特定領(lǐng)域之中某類概念及其相互之間關(guān)系的形式化表達(dá),是人們以自己興趣領(lǐng)域的知識(shí)為素材、運(yùn)用信息科學(xué)的本體論原理而編寫出來的作品[7]。描述這樣一個(gè)畫像模型,需要一套數(shù)據(jù)化、符號(hào)化、形式化的標(biāo)準(zhǔn)知識(shí)體系,通過機(jī)器去理解、推理這套知識(shí)體系,使其進(jìn)一步形式化。畫像構(gòu)建原則如圖2所示。

      圖2 畫像構(gòu)建原則

      (2) 構(gòu)建方法。遵循樸素的行為特征表示規(guī)律,依據(jù)現(xiàn)實(shí),建立模型,給出標(biāo)簽。行為畫像需要表現(xiàn)的是現(xiàn)實(shí)生活中業(yè)務(wù)系統(tǒng)對(duì)應(yīng)的特征學(xué)生,應(yīng)先建立學(xué)生特征模型,進(jìn)一步通過符號(hào)化抽象成學(xué)生特征的符號(hào),即標(biāo)簽,而標(biāo)簽又能代表現(xiàn)實(shí)生活中的實(shí)體。比如某個(gè)學(xué)生個(gè)體有“上課紀(jì)律好”“學(xué)習(xí)成績好”“經(jīng)常去圖書館”等特征,則可以用“學(xué)霸”這個(gè)詞作為符號(hào)和標(biāo)簽,表示這位同學(xué)的學(xué)習(xí)水平。

      2 綜合行為畫像探索與分析

      2.1 綜合行為畫像特征標(biāo)簽數(shù)據(jù)處理

      用于綜合行為畫像的數(shù)據(jù)來源于不同的業(yè)務(wù)系統(tǒng),代表不同的特征標(biāo)簽,數(shù)據(jù)的單位、數(shù)量級(jí)別、取值范圍都不一樣。有的數(shù)據(jù)取值范圍特別大,會(huì)導(dǎo)致算法的訓(xùn)練時(shí)間過長,收斂較慢;取值范圍大的數(shù)據(jù)在模式分類中的貢獻(xiàn)也可能偏大,而取值范圍小的數(shù)據(jù)貢獻(xiàn)就可能非常小,數(shù)據(jù)之間的可比性較差。因此,需要對(duì)特征標(biāo)簽數(shù)據(jù)進(jìn)行歸一化處理,歸納統(tǒng)一樣本的統(tǒng)計(jì)分布性,在保持?jǐn)?shù)據(jù)之間相對(duì)關(guān)系的同時(shí),使無可比性的數(shù)據(jù)具有可比性。歸一化就是將數(shù)據(jù)映射到[0,1]或[-1,1]區(qū)間,如歸一為(0.1,0.9)。

      在機(jī)器學(xué)習(xí)算法和數(shù)據(jù)挖掘工作中,歸一化環(huán)節(jié)可以簡化計(jì)算方式,將有量綱的表達(dá)式變換為無量綱的表達(dá)式,變?yōu)榧兞?。例如在?yīng)用SVM之前,數(shù)據(jù)縮放非常重要,它可以避免小數(shù)值區(qū)間的屬性過多地被大數(shù)值區(qū)間的屬性所支配,同時(shí)降低計(jì)算過程中數(shù)值的復(fù)雜度。常用的數(shù)據(jù)歸一化包括線性函數(shù)歸一化(Min-Max Scaling)和0均值標(biāo)準(zhǔn)化(Z-Score Standardization)。

      (1) 線性函數(shù)歸一化。線性函數(shù)歸一化是將原始特征標(biāo)簽數(shù)據(jù)通過線性化方式映射到[0,1]區(qū)間,歸一化函數(shù)如下:

      該函數(shù)能夠?qū)崿F(xiàn)對(duì)原始特征標(biāo)簽數(shù)據(jù)的等比例縮放,其中Xn為歸一化后的數(shù)據(jù),X為轉(zhuǎn)換前值,Xmax和Xmin分別為原始值集的最大值和最小值。函數(shù)實(shí)現(xiàn):LaTex:{X}_{n}=frac{X-Xmin}{Xmax-Xmin}。

      (2) 0均值標(biāo)準(zhǔn)化。0均值標(biāo)準(zhǔn)化是指對(duì)原始特征標(biāo)簽數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,將原始數(shù)據(jù)值X通過Z-score標(biāo)準(zhǔn)化到Xn。標(biāo)準(zhǔn)化后的數(shù)據(jù)呈正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,在一定程度上改變了特征的分布。函數(shù)如下:

      該歸一化函數(shù)能夠處理原始數(shù)據(jù)的分布,近似為高斯分布數(shù)據(jù)。其中,Xn為標(biāo)準(zhǔn)化后的新數(shù)據(jù),X為原數(shù)據(jù)值,μ為均值,σ為標(biāo)準(zhǔn)差。函數(shù)實(shí)現(xiàn):LaTex:{X}_{n}=frac{X-mu }{sigma }。

      通常在分類、聚類算法中,需要使用距離來度量相似性的時(shí)候,或者使用PCA技術(shù)進(jìn)行降維的時(shí)候,0均值標(biāo)準(zhǔn)化方法表現(xiàn)更好;而在不涉及距離度量、協(xié)方差計(jì)算、數(shù)據(jù)屬性不符合正態(tài)分布的時(shí)候,可以采用線性函數(shù)歸一化方法。比如,圖像處理中,將RGB圖像轉(zhuǎn)換為灰度圖像后,將其值限定在[0,255]區(qū)間。

      2.2 大學(xué)生綜合行為畫像應(yīng)用分析

      綜合行為畫像主要從學(xué)習(xí)、三餐習(xí)慣、作息習(xí)慣、社交關(guān)系、消費(fèi)水平、上網(wǎng)習(xí)慣等方面進(jìn)行分析評(píng)價(jià)。

      (1) 學(xué)習(xí)。這里主要對(duì)準(zhǔn)點(diǎn)率、出勤率、成績進(jìn)行加權(quán)求和,得到學(xué)習(xí)指數(shù),通過學(xué)習(xí)指數(shù)反映學(xué)生的學(xué)習(xí)基礎(chǔ)與學(xué)習(xí)態(tài)度。學(xué)習(xí)指數(shù)L:L=f(s),其中f(s)為歸一化函數(shù),s為各個(gè)指標(biāo)的評(píng)價(jià)值。特征標(biāo)簽評(píng)價(jià)等級(jí)分為:學(xué)霸、學(xué)優(yōu)、學(xué)良、學(xué)中和學(xué)差。

      (2) 三餐習(xí)慣。三餐習(xí)慣用規(guī)律度表示,即按照飲食指數(shù)設(shè)定等級(jí),并給予評(píng)價(jià)。

      飲食指數(shù)歸一化函數(shù):

      pm=-1×(21.362-0.003p-0.330p2)

      s=sl-ss

      pn=-1×(21.050-0.027p′-0.330p′2)

      式中:Y為飲食指數(shù);pm為早餐評(píng)價(jià);td用餐標(biāo)準(zhǔn)差評(píng)價(jià);pn為夜宵評(píng)價(jià);p為早餐頻率;t為三餐平均標(biāo)準(zhǔn)差;s為消費(fèi)差評(píng)價(jià);sl和ss分別為午餐和晚餐的日均消費(fèi)金額;p′為夜宵餐比例。

      (3) 作息習(xí)慣。作息習(xí)慣用規(guī)律度表示,根據(jù)睡眠時(shí)間、入睡時(shí)間和起床時(shí)間等計(jì)算作息指數(shù),對(duì)作息指數(shù)設(shè)定等級(jí),進(jìn)行作息習(xí)慣評(píng)價(jià)。

      作息指數(shù)函數(shù):

      式中:S為作息指數(shù);f(x)為歸一化函數(shù);tc為睡眠時(shí)間評(píng)價(jià);t0為平均睡眠時(shí)長;ti為入睡時(shí)間評(píng)價(jià);t1為平均入睡時(shí)間;tu為起床時(shí)間評(píng)價(jià);t2為平均起床時(shí)間。

      (4) 社交關(guān)系。由于大學(xué)生社交圈人數(shù)有限,這里以間隔5位同學(xué)作為目標(biāo)同學(xué)的共現(xiàn)對(duì)。如同學(xué)k,所在隊(duì)列中獲取有效共現(xiàn)對(duì)[(xk-5,xk),(xk-4,xk+1),…(xk,xk+5)],收集并計(jì)算共現(xiàn)對(duì)出現(xiàn)的次數(shù)。通過Louvain社區(qū)發(fā)現(xiàn)算法識(shí)別學(xué)生的關(guān)系群體,從而發(fā)現(xiàn)社群中離群索居的對(duì)象。

      (5) 消費(fèi)水平。通過學(xué)生日均消費(fèi)金額c,計(jì)算消費(fèi)力指數(shù)Sp,評(píng)價(jià)學(xué)生的消費(fèi)水平,Sp=f(c)。結(jié)合學(xué)生用餐消費(fèi)和消費(fèi)場所、位置等判定消費(fèi)水平及消費(fèi)行為。

      (6) 上網(wǎng)習(xí)慣。以日均上網(wǎng)時(shí)長為主要因素計(jì)算上網(wǎng)指數(shù)N,日均上網(wǎng)時(shí)長t與網(wǎng)絡(luò)成癮度具有線性相關(guān)性[8]。以上網(wǎng)指數(shù)N評(píng)價(jià)學(xué)生上網(wǎng)健康度:N=f(1.725+0.321t)。

      下面就綜合行為畫像與學(xué)習(xí)成績相關(guān)度特征標(biāo)簽數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)如表2所示。

      表2 學(xué)習(xí)成績相關(guān)度

      可以看出,上網(wǎng)類型和上網(wǎng)行為對(duì)成績有較大的影響。多瀏覽文庫、參考資料網(wǎng)站,在教學(xué)區(qū)上網(wǎng)時(shí)間長等行為指標(biāo)對(duì)成績有幫助,而瀏覽低俗網(wǎng)站,進(jìn)行高強(qiáng)度聊天、看小說、玩游戲等行為指標(biāo)對(duì)成績不利。消費(fèi)方面,學(xué)習(xí)支出多及經(jīng)常在校就餐等行為指標(biāo)對(duì)成績有正面作用,晚餐消費(fèi)和普通餐飲特色消費(fèi)行為指標(biāo)影響學(xué)習(xí)指數(shù)。指數(shù)方面,良好的飲食作息,周末多去室外活動(dòng)對(duì)成績也有正面作用。基本信息方面,不同生源對(duì)成績模型有不同影響。如,華北地區(qū)生源對(duì)成績的影響度一般較低,西北地區(qū)生源對(duì)成績的影響度較高。此外,男生取得高分的比例較低,貧困也是影響學(xué)生取得高分的重要原因。

      3 結(jié) 語

      當(dāng)前,高校智慧校園建設(shè)不斷深入,大學(xué)生行為數(shù)據(jù)累積量越來越大。在信息化社會(huì)里,數(shù)據(jù)即資源,數(shù)據(jù)即價(jià)值,這一點(diǎn)被越來越多人所認(rèn)同。借助大數(shù)據(jù)挖掘、分析技術(shù),充分發(fā)揮數(shù)據(jù)價(jià)值,為大學(xué)生進(jìn)行綜合行為畫像,可以及時(shí)掌握學(xué)生學(xué)習(xí)狀況和生活動(dòng)態(tài),為教師教學(xué)、領(lǐng)導(dǎo)決策、學(xué)生管理、行為預(yù)警等提供準(zhǔn)確信息。

      猜你喜歡
      作息畫像標(biāo)簽
      不 順
      意林(2023年9期)2023-07-10 06:28:15
      威猛的畫像
      愛心健康作息表
      “00后”畫像
      畫像
      超級(jí)秀場 作息規(guī)律
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      標(biāo)簽化傷害了誰
      聯(lián)合多元作息的激光雷達(dá)點(diǎn)云多核分類方法研究
      湾仔区| 嘉兴市| 利津县| 井陉县| 乃东县| 海盐县| 错那县| 吴旗县| 长海县| 兴业县| 澎湖县| 柘荣县| 靖边县| 遵义县| 大同县| 许昌县| 额尔古纳市| 尼玛县| 中超| 山阴县| 建瓯市| 伊川县| 确山县| 饶阳县| 阜新市| 霍林郭勒市| 聊城市| 同德县| 凯里市| 万盛区| 奉新县| 临洮县| 邢台县| 香格里拉县| 大新县| 班玛县| 虞城县| 霸州市| 广丰县| 简阳市| 包头市|