• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      什么影響學生就業(yè):大數(shù)據(jù)模型告訴你

      2016-09-14 05:55:28韓霖金健宇方丹丹
      中國教育網(wǎng)絡 2016年7期
      關(guān)鍵詞:數(shù)學模型遺傳算法規(guī)范化

      文/韓霖 金健宇 方丹丹

      什么影響學生就業(yè):大數(shù)據(jù)模型告訴你

      文/韓霖 金健宇 方丹丹

      隨著計算機技術(shù)和信息技術(shù)的發(fā)展,高校各業(yè)務管理系統(tǒng)經(jīng)過多年的運行和使用積累了大量數(shù)據(jù),包括大學生在校期間學習生活等各方面的詳細數(shù)據(jù),其中部分因素對就業(yè)有著或多或少的影響??梢岳脤Υ髷?shù)據(jù)的挖掘和處理得到海量數(shù)據(jù)里面蘊含的有價值的數(shù)據(jù)。

      基于以上背景,本文針對大學生就業(yè)過程中亟需提高就業(yè)服務質(zhì)量,提升就業(yè)數(shù)據(jù)的信息價值問題,以及大學生就業(yè)之前的求學過程中有利于就業(yè)的個性化發(fā)展問題,建立影響因素的數(shù)學模型,并用于就業(yè)工作的改進,包括就業(yè)時根據(jù)個人情況的就業(yè)方向和就業(yè)單位的個性化建議以及求學過程中根據(jù)個人就業(yè)意愿對個人發(fā)展的建議等。

      數(shù)據(jù)收集

      1.數(shù)據(jù)的收集范圍

      本文以大學生就業(yè)為研究對象,最終要根據(jù)建立的數(shù)學模型對學校就業(yè)政策提出建議,對大學生就業(yè)和就業(yè)前的發(fā)展提出建議,所有與之相關(guān)的所有數(shù)據(jù)都在收集的范圍之內(nèi)。收集的數(shù)據(jù)經(jīng)過處理之后,其中影響比較大的因素作為主要研究對象。另外,在此過程長期的運行中,各因素的影響程度會有所變化,建議也要隨著實際情況而動態(tài)變化。

      各相關(guān)數(shù)據(jù)存在于學校不同部門的業(yè)務系統(tǒng)中。其中招聘信息和學生就業(yè)信息在學生就業(yè)系統(tǒng)中,學生基本信息、成績等信息在學工和教務系統(tǒng)中,校園卡消費信息在財務系統(tǒng)中,圖書借閱信息在圖書館系統(tǒng)中,學生日常上網(wǎng)信息在網(wǎng)絡計費系統(tǒng)中,學生科研信息在科研信息系統(tǒng)中。

      2.數(shù)據(jù)的收集和存儲

      由于各個業(yè)務系統(tǒng)都是相對獨立的,所以數(shù)據(jù)不僅是分散的,其記錄方式和格式也都各不相同,為了解決這個問題,先建立數(shù)據(jù)中心,再將數(shù)據(jù)中心的數(shù)據(jù)庫與各個業(yè)務系統(tǒng)的數(shù)據(jù)庫對接,實現(xiàn)數(shù)據(jù)的同步,將分散的數(shù)據(jù)復制到數(shù)據(jù)中心統(tǒng)一存儲,并在同步的過程中建立好對應關(guān)系,在數(shù)據(jù)中心的數(shù)據(jù)庫中按照便于處理的形式進行存儲,例如:同一字段在不同的業(yè)務系統(tǒng)中其存儲格式是不同的,那么數(shù)據(jù)中心會指定一種標準的存儲格式,并在數(shù)據(jù)庫同步的過程中將不符合標準的數(shù)據(jù)進行對應的格式轉(zhuǎn)換。

      數(shù)據(jù)處理

      搜集的數(shù)據(jù)將作為數(shù)學模型的輸入和輸出進行運算,數(shù)據(jù)的質(zhì)量好壞在一定程度上影響了數(shù)學模型能夠優(yōu)化到的程度的高低,所以在進行計算之前,要對數(shù)據(jù)進行質(zhì)量的優(yōu)化即數(shù)據(jù)清洗和數(shù)據(jù)規(guī)范化。

      1. 數(shù)據(jù)清洗

      核心企業(yè)的地位重要,存在沒有及時回款的情況,產(chǎn)生應收賬款。下游經(jīng)銷商需要大量存貨,需要付出預付款,導致存貨成本。上下游企業(yè)的信用較低,難以獲得相應的貸款,阻礙了發(fā)展。降低成本、信用傳遞、背書分享,在這樣的背景下產(chǎn)生了供應鏈金融。

      數(shù)據(jù)清洗就是把“臟”的部分數(shù)據(jù)“洗掉”,發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務系統(tǒng)中抽取而來并包含歷史數(shù)據(jù),有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,此類錯誤的或有沖突的數(shù)據(jù)稱為“臟數(shù)據(jù)”。需要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。

      表1 數(shù)據(jù)數(shù)值化

      2. 數(shù)據(jù)規(guī)范化

      數(shù)據(jù)規(guī)范化包括數(shù)據(jù)數(shù)值化和標準化兩步,先對非數(shù)值部分的數(shù)據(jù)進行數(shù)值化處理,然后再對所有數(shù)據(jù)進行標準化處理,得到的數(shù)據(jù)作為數(shù)學模型的數(shù)據(jù)基礎。

      3. 數(shù)據(jù)數(shù)值化

      數(shù)據(jù)數(shù)值化顧名思義是針對那些不是以數(shù)值來存儲的數(shù)據(jù),要將其以一定的規(guī)則轉(zhuǎn)換成數(shù)值,方可作為數(shù)學模型的數(shù)據(jù)基礎,便于進行計算。例如就業(yè)結(jié)果數(shù)據(jù)的數(shù)值化過程見表1,對于不同的指標分別將其非數(shù)值的數(shù)據(jù)按照統(tǒng)一的標準一一對應成為數(shù)值,數(shù)值并不代表何種實際意義,只是為了便于運算。

      4. 數(shù)據(jù)標準化

      在多指標評價體系中,由于各評價指標的性質(zhì)不同,通常具有不同的量綱和數(shù)量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數(shù)值較高的指標在綜合分析中的作用,相對削弱數(shù)值水平較低指標的作用。因此,為了保證結(jié)果的可靠性,需要對原始指標數(shù)據(jù)進行標準化處理。

      例如某門課程的成績t1取值范圍是從0至100,另外一門課程成績t2的取值范圍是從0至150,在直接使用數(shù)據(jù)進行運算時會造成權(quán)重的不均衡,所以按公式1進行處理得到t1'和t2',其取值范圍都是0 至1且代表某成績樣本在取值范圍中所處位置高低的百分比。

      應用公式: t'=t/(tmax-tmin)

      就業(yè)影響因素數(shù)學模型

      1. 機器學習

      機器學習是人工智能的核心,是使計算機具有智能的根本途徑,它研究了計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。在本文中,機器學習利用了計算機的高性能和大數(shù)據(jù)處理的優(yōu)勢,模擬人類對指標的評判,經(jīng)過不斷的優(yōu)化和迭代從而建立指標體系,并據(jù)此進行智能推薦。

      2.遺傳算法優(yōu)化的人工神經(jīng)網(wǎng)絡

      人工神經(jīng)網(wǎng)絡是對人類大腦的一種物理結(jié)構(gòu)上的模擬,即以計算機仿真的方法,從物理結(jié)構(gòu)上模擬人腦,以使系統(tǒng)具有人腦的某些智能。

      遺傳算法以生物進化過程為背景,模擬生物進化的步驟,將繁殖、雜交、變異、競爭和選擇等概念引入到算法中,通過維持一組可行解,并通過對可行解的重新組合,改進可行解在多維空間內(nèi)的移動軌跡或趨向,最終走向最優(yōu)解。它克服了傳統(tǒng)優(yōu)化方法的缺點,是一種全局優(yōu)化算法。

      基于遺傳算法的人工神經(jīng)網(wǎng)絡的基本原理是用遺傳算法對神經(jīng)網(wǎng)絡的連接權(quán)值進行優(yōu)化學習,利用遺傳算法的尋優(yōu)能力來獲取最佳權(quán)值。由于遺傳算法具有魯棒性強、隨機性、全局性以及適于并行處理的優(yōu)點,所以被廣泛應用于神經(jīng)網(wǎng)絡中。

      對于本文研究的大學生就業(yè)影響因素的指標體系,為基于遺傳算法的神經(jīng)網(wǎng)絡模型準備數(shù)據(jù)基礎,首先要明確政策可控類數(shù)據(jù)和個人可控類數(shù)據(jù)以及學生就業(yè)結(jié)果數(shù)據(jù)。其中,政策可控類數(shù)據(jù)是指政策的制定和管理者可以進行調(diào)控的數(shù)據(jù)類別,個人可控類數(shù)據(jù)是指個人在發(fā)展和規(guī)劃中可以進行改進和控制的數(shù)據(jù)類別,學生就業(yè)結(jié)果數(shù)據(jù)是指不可直接進行改變的學生就業(yè)結(jié)果類數(shù)據(jù)。本文建立數(shù)學模型并研究大學生就業(yè)因素,最終目的在于利用對可控類數(shù)據(jù)的調(diào)控和改進,對不可直接改變的就業(yè)結(jié)果類數(shù)據(jù)進行間接的影響,幫助廣大學生實現(xiàn)更好的就業(yè)目標。

      圖1 數(shù)學模型

      3.數(shù)據(jù)模型的建立和優(yōu)化

      數(shù)學模型的建立如圖1所示,對政策可控類數(shù)據(jù)、個人可控類數(shù)據(jù)以及學生就業(yè)結(jié)果數(shù)據(jù)分別進行數(shù)據(jù)清洗和數(shù)據(jù)規(guī)范化處理,得到的結(jié)果數(shù)據(jù)分別作為核心算法的輸入和輸出,其中數(shù)據(jù)清洗的目的是為了將異常數(shù)據(jù)過濾掉以提高整個系統(tǒng)的運算準確率;數(shù)據(jù)規(guī)范化則包括非數(shù)值數(shù)據(jù)數(shù)值化、數(shù)據(jù)標準化等過程,規(guī)范化得到的數(shù)據(jù)作為核心算法的輸入,規(guī)范化做得越好則核心算法的效率和準確度也會更高;核心算法是由遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡模型。

      核心算法數(shù)學模型的建立和優(yōu)化是以這三類大數(shù)據(jù)為基礎的,利用大量的數(shù)據(jù)樣本作為輸入和輸出來進行訓練得到相對比較成熟的數(shù)學模型,利用該模型可以在輸入新樣本時得到非常接近實際數(shù)據(jù)的輸出結(jié)果。為了保證核心算法數(shù)據(jù)模型的高準確性,隨著時間的流逝和大量新數(shù)據(jù)的獲取,需要不斷地用新樣本數(shù)據(jù)去繼續(xù)訓練以得到更加優(yōu)化的數(shù)據(jù)模型并達到更高的準確率。

      其次,基于理論研究和實踐經(jīng)驗,根據(jù)學生就業(yè)方向和個人要求的不同,確立學生就業(yè)結(jié)果數(shù)據(jù)中的若干種標桿數(shù)據(jù),標桿數(shù)據(jù)的確定并不是選取某個樣本,而是綜合考慮每項數(shù)據(jù)指標得到的理想的學生就業(yè)結(jié)果數(shù)據(jù),同樣經(jīng)過數(shù)據(jù)清洗和數(shù)據(jù)規(guī)范化得到核心算法的若干標桿輸出數(shù)據(jù)。

      再次,對于某個樣本,在將其各項指標數(shù)據(jù)輸入核心算法后得到的輸出數(shù)據(jù)一般是偏離標桿輸出數(shù)據(jù)的,通過對樣本輸入的多個數(shù)據(jù)進行變化試驗,得到如何改變輸入才能更加接近目標的標桿輸出數(shù)據(jù),在此過程中,通過單個指標數(shù)據(jù)變化而保持其他指標數(shù)據(jù)不變的試驗可以用來判定哪些指標更能影響輸出結(jié)果,以此為依據(jù)選取用于向用戶建議的指標項。

      最后,通過數(shù)據(jù)規(guī)范化的逆運算得到輸入數(shù)據(jù)所對應的兩類可控數(shù)據(jù)的變化建議,再提供給被建議者。

      在實際的應用當中,模型在不斷的迭代和優(yōu)化,在其中某一時間被選取的個人可控類數(shù)據(jù)可能包括:每月圖書借閱數(shù)、每周到食堂早餐次數(shù)、每月逃課次數(shù)、每學期各科成績以及參加課外活動的次數(shù)及類型等數(shù)據(jù),選取的政策可控類數(shù)據(jù)可能包括每年舉辦就業(yè)創(chuàng)業(yè)培訓講座的次數(shù)、對逃課行為的處理嚴重程度、對成績提高的學生設置獎勵的情況等數(shù)據(jù)。為了更好地利用機器學習運算客觀準確的優(yōu)勢,將人為主觀判斷造成的不準確影響降到最低,在選取影響因素的過程中也要先考慮盡量多的因素,然后根據(jù)機器學習的運算結(jié)果來篩選,而不是按個人的印象來決定選取哪些不選取哪些,如此整個系統(tǒng)就能更加高效準確地運行起來并不斷地自我優(yōu)化,同時提供越來越符合實際且效果好的建議。

      (作者單位為對外經(jīng)濟貿(mào)易大學)

      猜你喜歡
      數(shù)學模型遺傳算法規(guī)范化
      AHP法短跑數(shù)學模型分析
      活用數(shù)學模型,理解排列組合
      價格認定的規(guī)范化之路
      商周刊(2017年23期)2017-11-24 03:24:09
      基于自適應遺傳算法的CSAMT一維反演
      一種基于遺傳算法的聚類分析方法在DNA序列比較中的應用
      基于遺傳算法和LS-SVM的財務危機預測
      對一個數(shù)學模型的思考
      基于改進的遺傳算法的模糊聚類算法
      狂犬?、蠹壉┞兑?guī)范化預防處置實踐
      高血壓病中醫(yī)規(guī)范化管理模式思考
      甘德县| 云霄县| 新巴尔虎左旗| 双辽市| 宿州市| 三门县| 南涧| 资溪县| 易门县| 安庆市| 西乌珠穆沁旗| 陆良县| 鸡西市| 昂仁县| 富源县| 阳朔县| 满洲里市| 耒阳市| 时尚| 获嘉县| 博乐市| 武义县| 麻栗坡县| 常州市| 手游| 自贡市| 嘉荫县| 榆社县| 息烽县| 宜兰县| 洮南市| 淮南市| 抚松县| 读书| 栾城县| 蕉岭县| 油尖旺区| 于都县| 东至县| 武乡县| 新平|