• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘技術(shù)的高職信息資源獲取研究

      2016-05-18 08:34:45鄧連瑾
      關(guān)鍵詞:剪枝決策樹增益

      鄧連瑾

      (天津渤海職業(yè)技術(shù)學院,天津 300221)

      ?

      基于數(shù)據(jù)挖掘技術(shù)的高職信息資源獲取研究

      鄧連瑾

      (天津渤海職業(yè)技術(shù)學院,天津300221)

      摘要:高校信息系統(tǒng)經(jīng)過多年運行,積累了海量綜合反映學生各方面學習特征的數(shù)據(jù),充分利用這些信息將極大改進教學工作。但從這些海量數(shù)據(jù)中提取出規(guī)律性的信息并指導教學工作,卻是信息系統(tǒng)使用的瓶頸。文本提出了采用C4.5決策樹這一數(shù)據(jù)挖掘領(lǐng)域的重要算法,為海量數(shù)據(jù)提取提供了一條行之有效的途徑。

      關(guān)鍵詞:數(shù)據(jù)挖掘;高校;C4.5

      一、 引言

      近年來,隨著教育信息化水平的進一步提高,高校信息管理系統(tǒng)經(jīng)過多年運營,存儲了海量歷史數(shù)據(jù),從這些不斷積淀的歷史數(shù)據(jù)中挖掘出有用信息將會對提高高職院校教學工作起到很大作用。作者經(jīng)過多年探討和研究,最終選擇以數(shù)據(jù)挖掘技術(shù)來解決從這些海量歷史數(shù)據(jù)中抽取有用信息的難題,進一步推動了高職院校教育信息化工作。

      數(shù)據(jù)挖掘(Data Mining)就是從海量數(shù)據(jù)中抽取出潛在的、有價值的知識(模型或規(guī)則)的過程。它融合了數(shù)據(jù)庫、人工智能等等多個領(lǐng)域的前沿理論,能提取海量歷史數(shù)據(jù)中隱藏的、并且具有應(yīng)用價值的深層信息。目前在我國教育領(lǐng)域,該技術(shù)的應(yīng)用研究還處于初級階段。本文結(jié)合自身多年高職教育實際工作經(jīng)驗,對該技術(shù)在高職教育信息化中的應(yīng)用展開深入研究。

      二、 數(shù)據(jù)挖掘技術(shù)簡介

      數(shù)據(jù)挖掘(Data Mining)就是從海量數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程,屬于一種深層次的數(shù)據(jù)分析方法。它是一門交叉學科,包括統(tǒng)計學、數(shù)據(jù)庫技術(shù)、模糊數(shù)學、模式識別等多種相關(guān)前沿技術(shù)。該技術(shù)主要由挖掘算法、海量歷史數(shù)據(jù)、數(shù)學建模能力這三個部分組成。

      作為一種有效利用海量數(shù)據(jù)資源的技術(shù)手段,數(shù)據(jù)挖掘在教育領(lǐng)域具有廣闊的應(yīng)用前景。只有正確理解數(shù)據(jù)挖掘的技術(shù)特點,才能減少應(yīng)用的盲目性,充分發(fā)揮其技術(shù)優(yōu)勢。下面簡要介紹數(shù)據(jù)挖掘的幾種技術(shù)方法。

      (一)關(guān)聯(lián)規(guī)則

      關(guān)聯(lián)規(guī)則,是指挖掘用來發(fā)現(xiàn)數(shù)據(jù)集中數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,是將數(shù)據(jù)挖掘技術(shù)應(yīng)用在有效提取海量教育歷史數(shù)據(jù)中有用信息這一教育領(lǐng)域,將有非常高的利用價值和發(fā)展前景。但是在實際研究過程中,只有正確理解該技術(shù)的特點才能避免盲目性,降低研發(fā)過程中的損失,使研究更有方向性,更能充分發(fā)揮該技術(shù)的優(yōu)勢。

      (二)分類與預(yù)測

      對海量原始數(shù)據(jù)進行分類和預(yù)測是數(shù)據(jù)挖掘的另一種重要方法。它針對已有數(shù)據(jù)集,構(gòu)建出一個分類函數(shù)或模型,從而將數(shù)據(jù)集中數(shù)據(jù)分別映射到已識別出的類別中。預(yù)測是從已有數(shù)據(jù)中自動推導出推廣的模型,即對未知數(shù)據(jù)進行預(yù)測。

      (三)聚類規(guī)則

      聚類是一種比較常見的處理過程,其依托已有數(shù)據(jù),將海量原始數(shù)據(jù)按照某種潛在的相似性進行歸類,最終得到若干種類別。歸類的目標是類別內(nèi)部個體關(guān)系盡量近,類別之間個體關(guān)系盡量遠,從而達到一種“抱團”效應(yīng)。和上文所述的分類方法不同,最終得到的不同類別不是事先預(yù)定的,而是在數(shù)據(jù)處理過程中逐步產(chǎn)生的。

      (四)孤立點分析

      孤立點是指數(shù)據(jù)集中與多數(shù)數(shù)據(jù)的特征或行為完全不一致的數(shù)據(jù)。早期數(shù)據(jù)挖掘算法中,習慣將孤立點從數(shù)據(jù)集合中刪除,以保證數(shù)據(jù)的純潔性。經(jīng)深入研究發(fā)現(xiàn)孤立點可能代表了某些具有較大應(yīng)用價值的特殊規(guī)則,因而需對其作特殊處理。

      (五)演變分析

      演變分析是指根據(jù)已有數(shù)據(jù)的特征對數(shù)據(jù)的發(fā)展變化作出預(yù)測與分析。該方法主要應(yīng)用于對時間序列數(shù)據(jù)的分析。

      數(shù)據(jù)挖掘整個過程一般包括以下七個步驟:問題的理解和提出、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示,上述各過程不是一次完成,某些步驟或全過程均可能出現(xiàn)重復進行。

      1.問題的理解和提出:在開始數(shù)據(jù)挖掘之前,最基礎(chǔ)的工作就是理解數(shù)據(jù)集和相關(guān)業(yè)務(wù)問題,在此基礎(chǔ)上提出問題,并明確數(shù)據(jù)挖掘的目標;

      2.數(shù)據(jù)收集:廣泛收集源數(shù)據(jù),并以數(shù)據(jù)庫等形式進行存儲,為下一步數(shù)據(jù)挖掘準備;

      3.數(shù)據(jù)處理:對收集的源數(shù)據(jù)進行預(yù)處理,例如去除噪聲數(shù)據(jù)等等,去除各干擾因素的影響,使數(shù)據(jù)能夠真實反映挖掘?qū)ο螅?/p>

      4.數(shù)據(jù)變換:針對后面數(shù)據(jù)挖掘的要求,將經(jīng)過去除噪聲數(shù)據(jù)處理后的數(shù)據(jù)進行轉(zhuǎn)換,使其更加適合數(shù)據(jù)挖掘操作;

      5.數(shù)據(jù)挖掘:可以利用單一或復合的數(shù)據(jù)挖掘方法對數(shù)據(jù)進行分析,挖掘已確定的目標所需要的各種規(guī)則、趨勢、類別、模型等;

      6.模式評估:對挖掘后發(fā)現(xiàn)的各種規(guī)則、趨勢、類別、模型等等進行評估,從而保證挖掘結(jié)果的正確性;

      7.知識表示:將挖掘結(jié)果以可視化的形式提供給用戶,以便使用。

      為初始數(shù)據(jù)建立模型是數(shù)據(jù)挖掘技術(shù)的關(guān)鍵步驟。同一數(shù)據(jù)源,采用不同的建模方法,其建模結(jié)果也不相同,因此建模技術(shù)才是數(shù)據(jù)挖掘技術(shù)的核心。通過對該技術(shù)的深入研究,目前已經(jīng)發(fā)展出諸如神經(jīng)網(wǎng)絡(luò)方法、遺傳算法和決策樹法等多種建模方法。其中決策樹法應(yīng)用最為廣泛。

      決策樹法的核心思想是將原始數(shù)據(jù)作為訓練數(shù)據(jù)集,先對其進行分類,在分類過程中逐漸形成樹結(jié)構(gòu)。如果僅根據(jù)已有的原始數(shù)據(jù)不能形成正確的分類樹,則補充一些例外數(shù)據(jù)進行分類,重復上述過程直到形成正確的決策樹分類。在數(shù)據(jù)挖掘過程中可以根據(jù)決策樹分類結(jié)果進行預(yù)測。決策樹由分支、決策節(jié)點和葉子組成。其中最上面的節(jié)點是根節(jié)點,向下每一個分支是決策節(jié)點或葉子節(jié)點。決策節(jié)點代表對當前的一個問題進行決策,決策的依據(jù)就是該節(jié)點對應(yīng)于待分類對象的各項屬性。樹中每個葉子節(jié)點都代表一種分類結(jié)果。利用決策樹進行分類的過程即沿已有決策樹自上而下進行不斷決策的過程,在每個決策節(jié)點都會依據(jù)當前對象屬性進行一次決策,走向下一個分支,重復進行該決策過程,最終到達葉子節(jié)點,獲得判斷結(jié)果。數(shù)據(jù)挖掘領(lǐng)域很多建模方法均需要事先熟知決策所屬領(lǐng)域的相關(guān)知識,設(shè)定相關(guān)決策參數(shù)。根據(jù)上述算法流程可知,決策樹算法的優(yōu)勢在于不需要這些領(lǐng)域知識,并根據(jù)這些知識設(shè)定決策參數(shù)。因此該算法適用于探索性領(lǐng)域的數(shù)據(jù)挖掘。

      由J.Ross Quinlan提出的C4.5算法是國際上公認的最具影響的基于信息熵的決策樹算法,它根據(jù)屬性集的取值進行分類。該算法源于ID3算法,但在以下幾方面進行了優(yōu)化。

      (1)對源數(shù)據(jù)要求較低,能夠?qū)Σ煌暾臄?shù)據(jù)進行處理;

      (2)可以在決策樹的構(gòu)造過程中剪枝;

      (3)不僅能夠處理離散數(shù)據(jù),還能夠完成對連續(xù)屬性進行離散化處理;

      (4)原ID3算法使用信息增益選擇屬性,改進后的算法使用信息增益率來選擇屬性,解決了選擇屬性時偏向選擇取值多的屬性的問題。

      經(jīng)過對大量原始數(shù)據(jù)的分類測試對比,證明改進后的C4.5算法較原始的ID3算法生成的決策樹更小,生成規(guī)則更簡便,而且其分類效率更高,性能更優(yōu)越。

      三、 數(shù)據(jù)挖掘算法研究

      C4.5算法實現(xiàn)過程中,有兩個最核心的技術(shù)點,分別是屬性選擇度量和樹剪枝,下面將分別介紹它們。

      (一)屬性選擇度量

      鑒于通過原始數(shù)據(jù)集的數(shù)據(jù)挖掘處理,可以獲得一個完整的決策樹,在對一個新數(shù)據(jù)記錄進行判別時,只需沿這個決策樹走下來即可得到判別結(jié)果。但是一個數(shù)據(jù)元組本身有很多屬性,該如何對各項屬性進行排序是個重要的研究點,其實解決該問題的關(guān)鍵點在于屬性選擇度量。

      屬性選擇度量決定了給定節(jié)點上元組如何分裂,因此又被稱為分裂規(guī)則。屬性選擇度量給源數(shù)據(jù)每個屬性提供了秩評定,將具有最高得分的屬性作為分裂屬性。目前屬性選擇度量中最為流行的是信息增益和增益率。

      假設(shè)D是類標記元組訓練集,類標記屬性具有Ci(i=1,2,...,m)這m個不同值,CiD是D中Ci類的元組的集合,|D|和|CiD|則為D和CiD中元組的數(shù)量。

      1.信息增益

      ID3算法中使用信息增益來進行屬性選擇度量。該算法在處理決策樹中某一節(jié)點時,選擇信息增益最大的屬性作為該節(jié)點的分裂屬性。采用該屬性將使結(jié)果劃分過程中所需信息量最小。在對D中的元組進行分類時所需要的期望信息為:

      (1)

      按屬性A將D中的元組劃分成v個不同的類。此時為得到準確的分類所需要的期望信息為:

      (2)

      信息增益即為兩者之差:

      Gain(A)=Info(D)-InfoA(D)

      (3)

      2.信息增益率

      信息增益率使用“分裂信息”值將前述信息增益進行規(guī)范化,分裂信息的定義為:

      (4)

      該值表示將數(shù)據(jù)集D劃分成對應(yīng)于屬性A的v個輸出而產(chǎn)生的信息。信息增益率則定義為:

      (5)

      最終選擇具有最大增益率的屬性作為分裂屬性。

      (二)樹剪枝

      構(gòu)建決策樹過程中,原始數(shù)據(jù)中的噪聲數(shù)據(jù)會導致所構(gòu)建的樹中某些節(jié)點反映的正是這些異常數(shù)據(jù)。對于這種現(xiàn)象,決策樹算法中采用剪枝方法來解決該問題。剪枝方法通常進行統(tǒng)計學度量,剪去最不可靠的分支節(jié)點。根據(jù)剪枝時間的不同,一般分為兩種剪枝方法:先剪枝、后剪枝。

      1.先剪枝

      先剪枝方法是指在構(gòu)建決策樹過程中,遇到某個節(jié)點時根據(jù)某一原則停止繼續(xù)構(gòu)造基于該節(jié)點的子樹而達到剪枝的目的。該截止的節(jié)點即變?yōu)槿~子節(jié)點,該葉子節(jié)點取該節(jié)點下原始數(shù)據(jù)的訓練集中最頻繁的類作為自己對應(yīng)的類。該剪枝方法的剪枝原則有如下幾種:

      (1)根據(jù)決策樹的高度限制進行剪枝,當超出高度閾值就停止決策樹生長;

      (2)放寬節(jié)點對數(shù)據(jù)的限制只需其具有相同特征向量,不一定屬于同類也可停止繼續(xù)構(gòu)造子樹;

      (3)設(shè)置某個該節(jié)點最小實例數(shù)據(jù)數(shù)的閾值,當該節(jié)點對應(yīng)實例數(shù)據(jù)數(shù)量小于此閾值時即可停止構(gòu)造子樹。此方法不會遺漏數(shù)據(jù)量較小的那些特殊情況,而有時這些特殊情況會反映問題的實質(zhì);

      (4)在每次構(gòu)造新節(jié)點時計算對整個決策樹性能的增益,如果該增益小于某個設(shè)定的閾值則停止構(gòu)造新節(jié)點。

      先剪枝方法存在視野方面的缺陷,即當基于上述某一原則應(yīng)該進行剪枝、停止構(gòu)造時,如果依然構(gòu)造則發(fā)現(xiàn)下一步又符合前述原則可以繼續(xù)構(gòu)造,因此會導致過分剪枝的情況,造成決策樹的缺陷。

      2.后剪枝

      基于前述先剪枝方法存在固有缺陷,因此中實際構(gòu)造決策樹時更多使用后剪枝方法,即先構(gòu)造完全生長的決策樹,再在此基礎(chǔ)上剪去部分多余分支,而改為葉子節(jié)點。該葉子節(jié)點一般用子樹中最頻繁的子類來作為自己對應(yīng)的類。

      C4.5算法采用悲觀剪枝法,該方法不需要獨立的剪枝數(shù)據(jù)集,而采用原始數(shù)據(jù)集來構(gòu)造決策樹,并使用它來進行剪枝。具體算法如下所述。

      首先定義如下變量:

      T:訓練集生成的決策樹

      S:T的子樹

      L(s):S的葉節(jié)點數(shù)

      K:到達某個葉節(jié)點的元組數(shù)

      J:K中分類錯誤的元組數(shù)

      ∑K:到達此子樹的葉節(jié)點的元組個數(shù)總和

      ∑J:此子樹中被錯誤分類的元組個數(shù)總和

      因此在分類新元組時錯誤分類個數(shù)為∑J+L(S)/2。當采用此決策樹分類數(shù)據(jù)時,假設(shè)E為分類錯誤個數(shù),如下式成立則刪掉子樹S,并用葉節(jié)點代替。

      關(guān)鍵算法代碼如下:

      function tree = make_tree(patterns, targets, inc_node, discrete_dim, maxNbin, base) ;//遍歷構(gòu)建樹

      [Ni, L]= size(patterns);

      Uc = unique(targets);

      tree.dim = 0;

      tree.split_loc = inf;

      if isempty(patterns), return end [m, largest] = max(H);

      tree.Nf = [];

      tree.split_loc = [];

      tree.child = Uc(largest);

      return end

      Pnode(i) = length(find(targets == Uc(i))) / L;

      end

      Inode = -sum(Pnode.*log(Pnode)/log(2));

      split_loc = ones(1, Ni)*inf;

      for i = 1:Ni,

      data = patterns(i,:);

      Ud = unique(data);

      Nbins = length(Ud);

      if (discrete_dim(i)),

      for j = 1:length(Uc), for k = 1:Nbins,

      indices = find((targets == Uc(j)) & (patterns(i,:) == Ud(k)))。

      四、 技術(shù)應(yīng)用

      由于招生工作是高校重點工作之一,因此對高考畢業(yè)生的專業(yè)選擇進行分析,對招生工作,以及后面的課程建設(shè)工作至關(guān)重要。初始數(shù)據(jù)集如下表1所示,它表示的是高校專業(yè)相關(guān)信息與高考畢業(yè)生專業(yè)選擇之間的關(guān)系。

      序號專業(yè)就業(yè)機會起薪課程難易度興趣是否詵擇1金融學2565388454068TRUETRUE2土木工程2215432535672TRUETRUE3國際經(jīng)濟與貿(mào)易2144896420257FALSEFALSE4機械設(shè)計制造及其自動化1884855315854FALSEFALSE5會計學1713520375062TRUEFALSE6電氣工程及其自動化1656524334056FALSEFALSE7經(jīng)濟學1587732480066TRUETRUE8臨床醫(yī)學1377034465075TRUEFALSE9英語1258043363059FALSEFALSE10法學1254556326052TRUEFALSE

      表1高考畢業(yè)生專業(yè)選擇初始數(shù)據(jù)集

      五、 總結(jié)與展望

      隨著教育信息化的不斷發(fā)展,各信息系統(tǒng)中存儲的教學信息量不斷增長,數(shù)據(jù)挖掘技術(shù)為充分利用這些數(shù)據(jù)提供了技術(shù)基礎(chǔ)。本文在分析數(shù)據(jù)挖掘相關(guān)技術(shù)的基礎(chǔ)上,通過利用C4.5決策樹這一數(shù)據(jù)挖掘領(lǐng)域最常用的方法,對積淀的教學相關(guān)數(shù)據(jù)進行處理,并根據(jù)處理結(jié)果尋找其隱含的內(nèi)在聯(lián)系,最后依據(jù)這些內(nèi)在聯(lián)系采用有針對性的教學方法,提高教育水平。實踐證明,數(shù)據(jù)挖掘技術(shù)具有廣闊的應(yīng)用空間,因此將其應(yīng)用于高等教育,必將取得良好的應(yīng)用效果。

      圖1 在數(shù)據(jù)集上通過C4.5生成的決策樹

      參考文獻:

      [1]美Mehmed Kantardzic著.數(shù)據(jù)挖掘概念、模型、方法和算法[M].閃四清等,譯.北京:清華大學出版社,2003.

      [2]Dunham M.Data Mining : Introductory and Advanced Topics [M].Upper Saddle River, N J : Pears on Education, 2003.

      [3]Han J, Kamber M.Data Mining : Concepts and Techniques [M].San Francisco : Morgan Kaufmann Publishers , 2001.

      [4]Margaret H.Dunham著.數(shù)據(jù)挖掘教程 [M].郭崇慧,田鳳占等,譯.北京: 清華大學出版社,2003.

      [5]夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) [M].北京: 科學出版社,2004.

      [6]David Hand Heikki Padhraic Smyth著.數(shù)據(jù)挖掘原理 [M].廖麗, 宋俊等,譯.北京:機械工業(yè)出版社,2003.

      [7]Lim TS, Loh WY, Shih YS.A comparis on of prediction accuracy, complexity, and training time of thirty three old and new classification algorithms [J].Machine Learning ,2000, 40 : 203-229.

      Research on Obtaining of Higher Vocational Information Resources based on Data Mining Technology

      DENG Lian-jin

      (TianjinBohaiVocationalTechnicalCollege,Tianjin, 300221)

      Abstract:through many years’ running, the college information system has accumulated masses of data reflecting various learning characteristics of the students and the full utilization of such information will improve teaching greatly.However, it is a bottleneck for the use of information system to abstract regular information from these masses of data and guide teaching.In this paper, it is proposed o apply C4.5 decision-making tree, an important algorithm in data mining field to provide an effective approach for the extraction of masses of data.

      Key words:data mining; college; C4.5

      中圖分類號:TP751.1

      文獻標識碼:A

      文章編號:1673-582X(2016)04-0099-07

      作者簡介:鄧連瑾(1981-),女,天津市人,天津渤海職業(yè)技術(shù)學院信息工程系講師,主要研究方向:人工智能與圖形圖像。

      收稿日期:2016-01-22

      猜你喜歡
      剪枝決策樹增益
      人到晚年宜“剪枝”
      基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
      基于YOLOv4-Tiny模型剪枝算法
      基于單片機的程控增益放大器設(shè)計
      電子制作(2019年19期)2019-11-23 08:41:36
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      基于Multisim10和AD603的程控增益放大器仿真研究
      電子制作(2018年19期)2018-11-14 02:37:02
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      剪枝
      天津詩人(2017年2期)2017-03-16 03:09:39
      基于決策樹的出租車乘客出行目的識別
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      清河县| 崇文区| 新绛县| 清水河县| 河津市| 灵山县| 界首市| 山丹县| 永春县| 二连浩特市| 密山市| 张北县| 温泉县| 烟台市| 山丹县| 江孜县| 元氏县| 嘉善县| 永吉县| 灵寿县| 肇东市| 隆林| 永川市| 建昌县| 南郑县| 茌平县| 扎鲁特旗| 泽库县| 连城县| 西青区| 泰安市| 曲阳县| 陆川县| 赤峰市| 宁远县| 二连浩特市| 辉县市| 民乐县| 平乡县| 高雄县| 固镇县|