• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      OLAP在大學(xué)生首次職業(yè)類型選擇中的應(yīng)用研究

      2014-03-01 06:13:14王善勤孟龍梅王小林
      吉林化工學(xué)院學(xué)報 2014年9期
      關(guān)鍵詞:決策樹數(shù)據(jù)挖掘職業(yè)

      王善勤,孟龍梅,王小林

      (1.滁州職業(yè)技術(shù)學(xué)院信息工程系,安徽滁州239000;2.安徽工業(yè)大學(xué)計算機(jī)學(xué)院,安徽馬鞍山243032)

      隨著信息技術(shù)的發(fā)展和大學(xué)生職業(yè)類型選擇相關(guān)數(shù)據(jù)量的增長,聯(lián)機(jī)事物處理技術(shù)已無法同時滿足高效作業(yè)和決策支持的需求,造成了海量數(shù)據(jù)與信息“孤島”的并存[1].近年來,對職業(yè)生涯領(lǐng)域的研究工作,國外已經(jīng)比較深入全面[2],對職業(yè)、職業(yè)類型選擇及職業(yè)價值觀等方面做了深入地研究,國內(nèi)在此方面的研究相對較淺、單一.國內(nèi)外專家學(xué)者對OLAP技術(shù)在各行各業(yè)進(jìn)行應(yīng)用研究,但對國內(nèi)大學(xué)生首次職業(yè)類型選擇的應(yīng)用研究還是空白.目前,安徽工業(yè)大學(xué)的王善勤、王小林、陳業(yè)斌已對高職學(xué)生職業(yè)類型選擇數(shù)據(jù)倉庫進(jìn)行了研究與構(gòu)建.鑒于此,以安徽工業(yè)大學(xué)、滁州學(xué)院、滁州職業(yè)技術(shù)學(xué)院近三年畢業(yè)生首次選擇的職業(yè)類型與個人先天因素作為數(shù)據(jù)源來構(gòu)建的數(shù)據(jù)倉庫為基礎(chǔ),以O(shè)LAP技術(shù)為手段,建立了大學(xué)生首次職業(yè)類型選擇預(yù)測模型,對大學(xué)畢業(yè)生首次職業(yè)類型選擇進(jìn)行預(yù)測與指導(dǎo),能夠更好地為職業(yè)規(guī)劃指導(dǎo)師做好學(xué)生職業(yè)類型選擇指導(dǎo)工作提供依據(jù)參考.

      1 OLAP介紹

      聯(lián)機(jī)分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父 E.F.codd于1993年提出的:OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)[3].OLAP主要是用來對用戶當(dāng)前的及歷史的數(shù)據(jù)進(jìn)行分析,完成大量的查詢操作,對時間的要求相對不高.OLAP的步驟如圖1所示.

      圖1 OLAP的步驟

      2 數(shù)據(jù)預(yù)處理

      如果數(shù)據(jù)倉庫中存在臟數(shù)據(jù),決策分析系統(tǒng)也就失去根基.由于現(xiàn)實世界數(shù)據(jù)常存在含有噪聲、不完全的和不一致的現(xiàn)象,提高數(shù)據(jù)的質(zhì)量是非常重要的[4].因此數(shù)據(jù)預(yù)處理是整個OLAP過程中一個非常重要的步驟.此文研究分析的數(shù)據(jù)來源于已構(gòu)建好的數(shù)據(jù)倉庫,對數(shù)據(jù)倉庫中的數(shù)據(jù)集市數(shù)據(jù)進(jìn)行進(jìn)一步清洗,根據(jù)業(yè)務(wù)需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換.由于人的氣質(zhì)、興趣、性格、職業(yè)類型做個絕對區(qū)分是一件比較復(fù)雜的事,所以在對數(shù)據(jù)進(jìn)行OLAP之前必須針對先天因素影響下大學(xué)生職業(yè)類型選擇的主題進(jìn)行數(shù)據(jù)的預(yù)處理.

      2.1 數(shù)據(jù)清洗

      (1)數(shù)據(jù)通常存在的問題.噪聲數(shù)據(jù)是指數(shù)據(jù)中存在著錯誤或異常的數(shù)據(jù)[5].比如,被測試人在心情最低谷或最高漲的時候,進(jìn)行測試,數(shù)據(jù)可能存在一定波動,當(dāng)情緒正常時,沒有參加測試,導(dǎo)致數(shù)據(jù)特別低(高).不完整數(shù)據(jù)是指感興趣的屬性沒有值[6].例如,有的工作人員在就業(yè)質(zhì)量跟蹤調(diào)查時,沒有詳細(xì)統(tǒng)計就業(yè)崗位、在其崗位發(fā)展情況及綜合滿意度等.

      (2)數(shù)據(jù)清理處理方法有平滑噪聲數(shù)據(jù)、填補(bǔ)遺漏的數(shù)據(jù)、識別或去除異常值及解決不一致問題幾種.例如存在問題的數(shù)據(jù)會給整個OLAP的過程注入無色無味的“毒藥”,會導(dǎo)致數(shù)據(jù)模型出現(xiàn)“畸形”,雖然OLAP過程大都能處理噪聲數(shù)據(jù),但挖掘分析工作的重點常放在怎么避免結(jié)果過分逼近實驗數(shù)據(jù)上.

      2.2 數(shù)據(jù)轉(zhuǎn)換

      數(shù)據(jù)轉(zhuǎn)換是把一種格式的數(shù)據(jù)轉(zhuǎn)換為另一種格式的數(shù)據(jù),并進(jìn)行規(guī)范化,構(gòu)成一個適合聯(lián)機(jī)分析處理的描述形式.此研究中數(shù)據(jù)轉(zhuǎn)換主要包括以下幾點:

      (1)合計處理:對數(shù)據(jù)進(jìn)行總結(jié)或合計操作,如學(xué)生氣質(zhì)分值進(jìn)行合計測試操作得到最后平均分值.

      (2)規(guī)格化:有關(guān)屬性按比例進(jìn)行縮放,將其定格在特定的小區(qū)域中.

      2.3 數(shù)據(jù)屬性的選擇及預(yù)處理后數(shù)據(jù)

      選擇數(shù)據(jù)的屬性,是在已有屬性集的基礎(chǔ)上構(gòu)建新的屬性.屬性選取標(biāo)準(zhǔn)在決策樹領(lǐng)域可分屬性間相互獨立的選擇方法、屬性之間相互關(guān)聯(lián)的選擇方法兩類.文中使用屬性間相互獨立的選擇方法來確定關(guān)于大學(xué)生先天因素及首次選擇職業(yè)類型情況的數(shù)據(jù)表屬性,共有1個ID屬性,5個普通屬性,其中序號表示ID屬性,性別屬性表示學(xué)生的性別、氣質(zhì)表示學(xué)生的氣質(zhì)類別、性格表示學(xué)生的性格類別、興趣表示學(xué)生興趣類別、職業(yè)類型表示大學(xué)生首次選擇的職業(yè)類型.

      對先天因素影響下大學(xué)生首次職業(yè)類型選擇為主題的數(shù)據(jù)信息進(jìn)行預(yù)處理后,選取89條典型的樣本記錄.為了便于描述,序號字段屬性改為自動編號,種子值為1,增量值為1.如圖2所示.

      圖2 “先天”條件下首次職業(yè)類型選擇信息

      3 分析工具提供的算法在職業(yè)類型選擇中的應(yīng)用

      從目前企業(yè)的應(yīng)用上來看,OLAP分析大多是通過使用OLAP工具來實現(xiàn)的,目前國內(nèi)流行的OLAP工具主要有下列產(chǎn)品:Cognos(Powerplay)、Hyperion(Essbase)、微軟(Analysis Service)、MicroStrategy.綜合考慮大學(xué)生職業(yè)類型選擇需求和研究團(tuán)隊的現(xiàn)狀,選用了微軟(Analysis Service)作為聯(lián)機(jī)處理分析工具.

      3.1 分析工具提供的決策樹算法在首次職業(yè)類型選擇中的應(yīng)用

      微軟數(shù)據(jù)分析工具提供的決策樹算法是一種混合算法,它綜合了多種不同的創(chuàng)建樹的方法,并支持多種分析任務(wù).本文使用Microsoft工具提供的決策樹算法在學(xué)生先天因素中找出性別、性格、氣質(zhì)、興趣四個方面對首次職業(yè)類型選擇影響度情況,并能挖掘分析出相應(yīng)規(guī)則.

      3.1.1創(chuàng)建“先天”職業(yè)類型選擇模式的 OLAP模型

      在Analysis Manager樹視圖的“挖掘結(jié)構(gòu)”中建立挖掘結(jié)構(gòu);通過挖掘結(jié)構(gòu)向?qū)?,選擇決策樹挖掘技術(shù);指定定型數(shù)據(jù);為挖掘結(jié)構(gòu)命名,根據(jù)算法名命名為“決策樹算法”,即建立完成“決策樹算法”挖掘結(jié)構(gòu).

      3.1.2 設(shè)置挖掘參數(shù)

      在挖掘模型編輯器中,包含顯示模型和模型列的表,還包含一個屬性窗口中.用挖掘模型編輯器,可為每個模型設(shè)置算法特有的參數(shù).右鍵單擊“Microsoft_Deccision_Trees”,在彈出的菜單中選擇“設(shè)置算法參數(shù)”.決策樹算法通過控制所生成的挖掘模型的性能和準(zhǔn)確性.這些參數(shù)可控制樹的增長、樹的形狀和輸入/輸出屬性的設(shè)置.下面給出本算法的參數(shù)作一些分析與設(shè)置.

      (1)COMPLEXITY_PENALTY,此參數(shù)控制決策樹的增長.值越小,則分叉數(shù)越多;值越大,則分叉數(shù)越少.在本次挖掘中,事務(wù)表中有六個字段屬性,符合要求的數(shù)據(jù)量不是很大,我們將此參數(shù)設(shè)置的比較小,即COMPLEXITY_PENALTY=0.01,進(jìn)而控制樹的生長.

      (2)MINIMUM_SUPPORT,此參數(shù)確定在決策樹中生成拆分所需的葉事例的最少數(shù)量.默認(rèn)值為10.如果數(shù)據(jù)集非常大,則可能需要增大此值,以避免過度定型.比如將這個參數(shù)值設(shè)為6,表示任拆分而產(chǎn)生的子節(jié)點的個數(shù)至少有5個.由于職業(yè)類型有6種,經(jīng)處理后數(shù)據(jù)量不是很大,我們將此參數(shù)值設(shè)置為1,即 MINIMUM_SUPPORT=1.

      (3)SCORE_METHOD,此參數(shù)確定用于計算拆分分?jǐn)?shù)的方法.該參數(shù)有三種可能的取值:SCORE_METHOD=1,說明該算法使用信息熵控制樹的增長.SCORE_METHOD=3,說明該算法使用Bayesian with K2 Prior方法,表示樹的節(jié)點中可預(yù)測屬性的每一個狀態(tài)增加一個常量,而無用考慮該屬性在樹中所處的層次.SCORE_METHOD=4,這是告訴算法使用Bayesian Dirichlet Equivalent(BDE)with uniform prior方法,這種取值也是默認(rèn)值,根據(jù)樹節(jié)點的層次為每一個可預(yù)測的狀態(tài)增加權(quán)支持度.由于我們在建模過程中,使用的是信息熵的算法,因此選擇該參數(shù)值為1,即SCORE_METHOD=1.

      (4)SPLIT_METHOD,此參數(shù)確定用于拆分節(jié)點的方法,該參數(shù)控制樹的形狀.該參數(shù)有三種可能的取值:SPLIT_METHOD=1,(Binary)指示無論屬性值的實際數(shù)量是多少,樹都拆分為兩個分支.SPLIT_METHOD=2,(Complete)指示樹可以創(chuàng)建與屬性值數(shù)目相同的分叉.SPLIT_METHOD=3,(Both)指定 Analysis Services可確定應(yīng)使用binary還是 complete,以獲得最佳結(jié)果.這種取值也是默認(rèn)值.

      (5)FORCE_REGRESSOR,此參數(shù)強(qiáng)制算法將指定的列用作回歸量,此參數(shù)只用于預(yù)測連續(xù)屬性的決策樹.因為我們前期對數(shù)據(jù)進(jìn)行大量操作,連續(xù)屬性已轉(zhuǎn)換成離散的屬性,所以此參數(shù)此處不做設(shè)置.

      3.1.3 生成和部署

      在開發(fā)窗口選擇“生成”菜單中的“部署”命令,出現(xiàn)“處理進(jìn)度”提示框,提供有關(guān)處理操作的一些狀態(tài)信息.當(dāng)處理完成后,可看到處理步驟的細(xì)節(jié)信息.現(xiàn)在數(shù)據(jù)挖掘模型部署好后,可以使用這些模型對大學(xué)生首次職業(yè)類型選擇進(jìn)行深入分析研究,挖掘出相應(yīng)規(guī)則供來預(yù)測新畢業(yè)生職業(yè)類型選擇情況.

      3.1.4 分析研究挖掘出的職業(yè)類型選擇模型

      微軟Analysis Services為每一個數(shù)據(jù)挖掘的算法都提供一個自己的查看器.“數(shù)據(jù)挖掘查看器”提供的實際模型視圖有兩種基本的類型,即圖和表.

      (1)職業(yè)類型選擇測評依賴關(guān)系

      依賴關(guān)系網(wǎng)絡(luò)顯示決策樹模型中所有屬性之間的關(guān)系,這些屬性派生自決策樹模型的內(nèi)容.如圖3所示.圖中線上編號代表各維度與職業(yè)類型之間存在關(guān)聯(lián)強(qiáng)度排序,由此可看出職業(yè)類型選擇受興趣影響最強(qiáng),依次是性格、氣質(zhì)、性別.

      圖3 決策樹模型依賴關(guān)系

      (2)挖掘模型

      圖4 挖掘圖例

      技能型、經(jīng)管型、社交型、事務(wù)型、研究型、藝術(shù)型,下面給出大學(xué)生首次職業(yè)類型選擇社交型決策樹模型,如圖5所示.

      圖5 職業(yè)類型為社交型的典型決策樹模型

      圖5中的樹是水平擺放的,最左邊是分類節(jié)點較突出分類因素;節(jié)點著色各有不同,著色深的節(jié)點是支持事例較多的.決策樹的模型所反映出來的規(guī)則非常容易理解,每一條從最左邊節(jié)點到最右邊的葉子節(jié)點就是一條規(guī)則.

      3.1.5 挖掘準(zhǔn)確性分析

      微軟的商業(yè)智能開發(fā)平臺提供“挖掘準(zhǔn)確性圖表”窗格,以用來衡量所創(chuàng)建模型的質(zhì)量和精確性.圖6是決策樹算法挖掘模型的提升圖,此圖顯示了挖掘模型的整體預(yù)測準(zhǔn)確性與理想模型的對比.此圖的橫坐標(biāo)表示比較預(yù)測的測試數(shù)據(jù)集的百分比,縱軸表示準(zhǔn)確預(yù)測的百分比.從圖中可以觀測到一條對角線,使用50%的數(shù)據(jù)來獲得50%的目標(biāo),此挖掘模型總體準(zhǔn)確度是相當(dāng)高的.

      圖6 決策樹算法挖掘模型的提升圖

      此決策樹模型在50%的數(shù)據(jù)中的預(yù)測準(zhǔn)確率為47.14%,當(dāng)數(shù)據(jù)量是100%時,此模型的預(yù)測準(zhǔn)確率達(dá)到94.29%.

      3.1.6 結(jié)果分析

      從以上挖掘結(jié)果可以分析出,大學(xué)生首次職業(yè)類型選擇與興趣存在很大內(nèi)在的關(guān)聯(lián)度.由此得出結(jié)果,興趣對大學(xué)首次職業(yè)類型選擇影響最大.通過對學(xué)生興趣、性格、氣質(zhì)、性別情況預(yù)測大學(xué)生的首次職業(yè)類型選擇情況進(jìn)行數(shù)據(jù)挖掘分析.大學(xué)生為了更好做好首次職業(yè)類型選擇,要加強(qiáng)自己興趣培養(yǎng),進(jìn)而做好職業(yè)規(guī)劃,最終能實現(xiàn)“人職匹配”.從分析可看出,個人性格、氣質(zhì)對高職學(xué)生職業(yè)類型選擇也有一定影響,性別對職業(yè)類型選擇影響并不是很大.

      3.2 分析工具提供的關(guān)聯(lián)規(guī)則算法在職業(yè)類型選擇中的應(yīng)用

      在Analysis Manager中創(chuàng)建模型及相關(guān)設(shè)置如上,這里不在贅述,直接分析結(jié)果.3.2.1 職業(yè)類型選擇測評依賴關(guān)系

      依賴關(guān)系如圖7所示.連接線上數(shù)字表示關(guān)聯(lián)強(qiáng)度,1表示是最強(qiáng),8表示最弱.

      圖7 關(guān)聯(lián)規(guī)則模型依賴關(guān)系

      3.2.2 挖掘模型

      圖8顯示了大學(xué)畢業(yè)生職業(yè)類型選擇關(guān)聯(lián)規(guī)則模型.

      圖8 關(guān)聯(lián)規(guī)則模型

      3.2.3 挖掘準(zhǔn)確性分析

      圖9給出關(guān)聯(lián)規(guī)則模型的提升圖.圖9展示了這個挖掘模型的提升圖,從圖中可以看出,準(zhǔn)確度良好.此實際決策樹模型在50%的數(shù)據(jù)中的預(yù)測準(zhǔn)確率分別為47.14%,而當(dāng)數(shù)據(jù)量達(dá)到100%時,該模型的預(yù)測準(zhǔn)確率為68.57%.

      圖9 關(guān)聯(lián)規(guī)則模型的提升圖

      3.2.4 結(jié)果分析

      從以上挖掘結(jié)果可以分析出,大學(xué)畢業(yè)生職業(yè)類型選擇與個人先天因素存在一些內(nèi)在的規(guī)則.由此同樣得出結(jié)果,興趣對大學(xué)生畢業(yè)生首次職業(yè)類型選擇影響最大,個人性格、氣質(zhì)對高職學(xué)生職業(yè)類型選擇也有一定影響.

      4 職業(yè)類型選擇數(shù)據(jù)挖掘規(guī)則提取及分析

      通過對以上兩個模型進(jìn)行分析,得出大學(xué)畢業(yè)生首次職業(yè)類型選擇與人的興趣、性格、氣質(zhì)、性別有一定的關(guān)聯(lián),提取支持率比較高的規(guī)則,可供職業(yè)規(guī)劃指導(dǎo)師參考、大學(xué)生首次職業(yè)類型選擇的決策支持;將上述結(jié)論應(yīng)用到高等院校職業(yè)類型選擇專家指導(dǎo)系統(tǒng)中,也進(jìn)一步推進(jìn)高等院校職業(yè)規(guī)劃工作信息建設(shè).興趣用Xq表示,性格用Xg表示,性別用Sex表示,氣質(zhì)用Qz表示,職業(yè)類型用Lx表示;表示部分規(guī)則如下:

      If Xq=企業(yè)型and Xg=嚴(yán)謹(jǐn)型and Sex=男then Lx=經(jīng)管型

      If Xq=企業(yè)型 and Xg=自我表現(xiàn)型 and Sex=女then Lx=經(jīng)管型

      If Xq=實用型and Xg=重復(fù)型and Qz=活潑型then Lx=事務(wù)型

      If Xq=常規(guī)型and Qz=安靜型and Xg=服從型then Lx=事務(wù)型

      If Xq=研究型and Xg=變化型and Qz=活潑型then Lx=研究型

      If Xq=研究型and Xg=協(xié)作型and Qz=戰(zhàn)斗型then Lx=研究型

      If Xq=藝術(shù)型and Sex=女then Lx=藝術(shù)型

      If Xq=實用型and Qz=戰(zhàn)斗類型then Lx=社交型

      If Xg=嚴(yán)謹(jǐn)型and Xq=實用型then Lx=社交型

      If Xq=研究型and Xg=自我表現(xiàn)型then Lx=技能型

      If Xq=實用型and Xg=獨立型and Xg=Qz=安靜型and Sex=男then Lx=技能型

      If Xq=常規(guī)型and Qz=呆板而羞澀型then Lx=技能型

      ……

      5 結(jié) 論

      將OLAP技術(shù)應(yīng)用到大學(xué)生首次職業(yè)類型選擇指導(dǎo)的實際工作中,為做好高校學(xué)生職業(yè)生涯規(guī)劃工作提供新思路.利用微軟數(shù)據(jù)分析工具提供的決策樹算法、關(guān)聯(lián)規(guī)則算法創(chuàng)建兩個模型并進(jìn)行對比分析出學(xué)生的興趣、性格、氣質(zhì)、性別與首次選擇的職業(yè)類型存在的潛在規(guī)律,挖掘出興趣對大學(xué)生首次職業(yè)類型選擇影響較大等許多有參考價值的成果.但仍存在研究數(shù)據(jù)不夠豐富、數(shù)據(jù)處理過程繁瑣等,所以還有待進(jìn)一步研究.

      [1] 張美虎,等.OLAP工具在企業(yè)決策支持系統(tǒng)中的應(yīng)用[J].淮陰工學(xué)院學(xué)報,2009,(1):55-56.

      [2] 康雁冰.職業(yè)發(fā)展與大學(xué)生職業(yè)規(guī)劃[J].創(chuàng)新與創(chuàng)業(yè)教育.2012,3(6):29-30.

      [3] 容曉暉.基于數(shù)據(jù)挖掘的郵政業(yè)務(wù)量收系統(tǒng)改進(jìn)方案研究[D].沈陽:東北大學(xué),2009:6-7..

      [4] 徐娟.基于數(shù)據(jù)挖掘技術(shù)的信用評估模型研究[D].合肥:合肥工業(yè)大學(xué),2009:4-5.

      [5] 馬勇.惡意網(wǎng)頁的分析及識別方法研究[D].天津:南開大學(xué),2008:11-12.

      [6] 周成義.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)企業(yè)中的研究與應(yīng)用[D].鞍山:遼寧科技大學(xué),2007:3-4.

      猜你喜歡
      決策樹數(shù)據(jù)挖掘職業(yè)
      守護(hù)的心,衍生新職業(yè)
      金橋(2021年8期)2021-08-23 01:06:44
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      職業(yè)寫作
      文苑(2018年20期)2018-11-09 01:36:00
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      我愛的職業(yè)
      基于決策樹的出租車乘客出行目的識別
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      松溪县| 青阳县| 庆云县| 宁城县| 西畴县| 肇东市| 湖北省| 宁城县| 大城县| 额尔古纳市| 三穗县| 广德县| 苏尼特左旗| 郸城县| 清苑县| 青州市| 定远县| 梨树县| 明光市| 苏州市| 广汉市| 广西| 嘉禾县| 亚东县| 元阳县| 壤塘县| 宜昌市| 闽侯县| 富顺县| 黄浦区| 察隅县| 通榆县| 梁山县| 连城县| 天台县| 息烽县| 辽阳县| 泰州市| 福贡县| 九江县| 萝北县|