• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征加權(quán)與特征選擇的數(shù)據(jù)挖掘算法研究

      2016-03-14 03:22:41孫興文
      關(guān)鍵詞:特征選擇子集數(shù)據(jù)挖掘

      ◆孫興文

      (永州職業(yè)技術(shù)學(xué)院 湖南 425100)

      基于特征加權(quán)與特征選擇的數(shù)據(jù)挖掘算法研究

      ◆孫興文

      (永州職業(yè)技術(shù)學(xué)院 湖南 425100)

      數(shù)據(jù)挖掘作為一門迅速發(fā)展的研究領(lǐng)域,面臨著越來越多新的問題和挑戰(zhàn)。數(shù)據(jù)挖掘在科技、航空、軍事等多個(gè)領(lǐng)域得到了廣泛應(yīng)用,甚至直接決定了行業(yè)的發(fā)展速度和先進(jìn)性,但是在實(shí)踐當(dāng)中,同樣存在許多的問題。本文根據(jù)數(shù)據(jù)挖掘的特性展開分析,以特征加權(quán)與特征選擇的方法進(jìn)行計(jì)算。

      特征加權(quán);特征選擇;數(shù)據(jù)挖掘;算法

      0 前言

      特征加權(quán)算法也被稱為knn算法,就是在挖掘數(shù)據(jù)的計(jì)算當(dāng)中,集合數(shù)據(jù)樣本權(quán)重和特征權(quán)重來確定其真實(shí)性和準(zhǔn)確性。在一定的條件下,能夠極大地提高數(shù)據(jù)分類準(zhǔn)確率,但是卻改變不了計(jì)算機(jī)信息技術(shù)中的主頁和惡意軟件問題,也無法進(jìn)行查驗(yàn)。

      1 數(shù)據(jù)挖掘綜述

      數(shù)據(jù)挖掘的應(yīng)用范圍較廣,不僅是實(shí)現(xiàn)數(shù)據(jù)庫知識發(fā)現(xiàn)的重要步驟,還能從眾多的數(shù)據(jù)庫當(dāng)中快速、自動(dòng)搜索隱藏在龐大數(shù)據(jù)中非常有價(jià)值的規(guī)律信息,數(shù)據(jù)挖掘也是一種對某種決策的支持過程。但隨著科技的發(fā)展,數(shù)據(jù)挖掘面臨著諸多的挑戰(zhàn),首先是數(shù)據(jù)的挖掘規(guī)模越來越大,龐大的數(shù)據(jù)無法采用有效的辦法進(jìn)行歸納梳理,也不能更好地管理和運(yùn)用;其次是隨著數(shù)據(jù)特征的維數(shù)不斷增加,呈現(xiàn)出許多的維數(shù)災(zāi)難問題;最后是數(shù)據(jù)挖掘,特別是計(jì)算機(jī)信息技術(shù)的數(shù)據(jù)挖掘當(dāng)中,更多的是強(qiáng)調(diào)由學(xué)科交叉產(chǎn)生的綜合性,在挖掘過程中不僅要求工程技術(shù)人員能夠設(shè)計(jì)出具有靈活運(yùn)用統(tǒng)計(jì)、計(jì)算機(jī)、數(shù)學(xué)的建模技術(shù),還需要具有生物、醫(yī)學(xué)、證劵金融等學(xué)科的知識背景。這些交叉性、多樣化的學(xué)科數(shù)據(jù)挖掘,不僅需要更為科學(xué)有效的管理,還需要對龐大的數(shù)據(jù)流精確的分析方法,尤其是針對高維數(shù)據(jù)的特征加權(quán)和特征選擇方法上,同時(shí)也要對生物信息學(xué)點(diǎn)的交叉性較強(qiáng)的學(xué)科的數(shù)據(jù)挖掘方式加以提升,提高其數(shù)據(jù)準(zhǔn)確性和科學(xué)性,精確數(shù)據(jù)內(nèi)容。

      本文中主要利用特征加權(quán)軟、硬空間聚類方式進(jìn)行計(jì)算,并將特征選擇應(yīng)用到實(shí)踐當(dāng)中。尤其是因?yàn)閿?shù)據(jù)交叉性強(qiáng),數(shù)量龐大,甚至出現(xiàn)高維數(shù)據(jù)的現(xiàn)象,以此探討特征加權(quán)和選擇的問題,以及對多學(xué)科交叉進(jìn)行研究探討。

      2 基于數(shù)據(jù)挖掘規(guī)模龐大的軟子空間聚類算法

      軟子空間聚類算法主要是將挖掘數(shù)據(jù)的原始特征空間分為不同的子區(qū)域,站在不同的角度考察各個(gè)數(shù)據(jù)的分類,在分類的過程中找到相對應(yīng)的特征子空間。運(yùn)用軟子空間聚類算法對挖掘數(shù)據(jù)進(jìn)行計(jì)算,實(shí)際上就是將傳統(tǒng)的特征選擇技術(shù)和聚類算法進(jìn)行有機(jī)結(jié)合,讓每個(gè)數(shù)據(jù)簇都能得到對應(yīng)的特征子集或者權(quán)重,以下進(jìn)行具體分析。

      2.1 自底向上子空間聚類算法

      所謂自底向上子空間聚類算法主要是依照網(wǎng)絡(luò)e構(gòu)建密度設(shè)定,利用網(wǎng)絡(luò)的自底向上的搜索策略將子空間中的數(shù)據(jù)簇聚攏合算。這種方式能夠?qū)⑼诰驍?shù)據(jù)最原始的特征空間分成若干個(gè)小網(wǎng)格,按照不同的特性將數(shù)據(jù)簇落到相應(yīng)的網(wǎng)格樣本點(diǎn),能夠準(zhǔn)確落到相應(yīng)網(wǎng)格中的概率,就表示這個(gè)子空間的密度狀況。當(dāng)某個(gè)網(wǎng)格中的密度超過一定閾值后,需要將子空間作為密集單元保留,對不密集的網(wǎng)格空間直接舍棄,在自底向上的子空間聚類算法當(dāng)中是利用熵理論作為密度度量,再通過靜態(tài)網(wǎng)格進(jìn)行計(jì)算,動(dòng)態(tài)網(wǎng)格查找策略,這樣才能夠得到更加穩(wěn)定的劃分結(jié)果。

      2.2 自頂向下子空間聚類算法

      自頂向下的聚類算法運(yùn)用的是數(shù)據(jù)投影技術(shù)的迭代搜索策略進(jìn)行挖掘計(jì)算,首先是將整個(gè)挖掘數(shù)據(jù)劃分為多個(gè)不同的數(shù)據(jù)簇,比如生物學(xué)一類、醫(yī)學(xué)一類,每個(gè)數(shù)據(jù)簇都有相同的權(quán)值及不同類型的特征權(quán)重。劃分好后就能夠采用迭代策略對這些初步數(shù)據(jù)不斷更新改良,重新定義數(shù)據(jù)簇的權(quán)重和聚類。當(dāng)然龐大數(shù)據(jù)的迭代計(jì)算復(fù)雜度相當(dāng)高,所以在計(jì)算時(shí)通常采用采樣以提高其準(zhǔn)確性,比如PROCLUS(普羅克洛斯)、FINDIT等。運(yùn)用以上計(jì)算方式在初始、迭代、改良等階段的計(jì)算有所不同。在初始數(shù)據(jù)階段的計(jì)算就是隨機(jī)抽樣,運(yùn)用數(shù)據(jù)的探析策略尋找網(wǎng)格潛在中心集合的超集,只要保證挖掘數(shù)據(jù)簇中都有一個(gè)超集中心點(diǎn)即可。而在迭代階段則是從超集當(dāng)中隨機(jī)選一個(gè)聚類中心,以此替代當(dāng)前集合中不好的樣本點(diǎn),以此循環(huán)得到更為優(yōu)質(zhì)的中心點(diǎn)集,直到每個(gè)聚類中心點(diǎn)的集合達(dá)到穩(wěn)定后,再以子空間樣本點(diǎn)對聚類中心平均距離做數(shù)據(jù)簇半徑,找到對應(yīng)特征子集。在改良極端就是將每個(gè)數(shù)據(jù)簇聚類中心再次掃描確定特征子集,并計(jì)算出樣本點(diǎn)到中心的曼哈頓距離,去除孤立點(diǎn)后重新劃分。

      2.3 模糊加權(quán)軟子空間聚類算法

      上述兩種方式是軟子空間聚類,而模糊加權(quán)空間聚類算法屬于硬子空間聚類計(jì)算,在計(jì)算時(shí)具有更好的適應(yīng)性和靈活性。具體來說就是將挖掘數(shù)據(jù)集,由軟子空間計(jì)算出聚類中心V={v1,1≤i≤C},C是獲得的數(shù)據(jù)簇的聚類中心數(shù)量,j則表示樣本x是屬于第j個(gè)聚類中心vi的模糊隸屬度,要計(jì)算出整個(gè)數(shù)據(jù)集的模糊隸屬度矩陣U={uij|l≤i≤C,l≤j≤N|}。當(dāng)然為了更好地挖掘每個(gè)數(shù)據(jù)集子空間結(jié)構(gòu),聚類計(jì)算方法會在聚類當(dāng)中,都會賦予每簇?cái)?shù)據(jù)特征加權(quán)系數(shù)。在計(jì)算當(dāng)中用wik表示與某個(gè)特征對應(yīng)的數(shù)據(jù)簇的重要性,以w來表示數(shù)據(jù)集特征加權(quán)系數(shù),將相應(yīng)的特征加權(quán)系數(shù)和模糊加權(quán)指數(shù)引入函數(shù)計(jì)算公式當(dāng)中:。在計(jì)算的過程中,只要給定m和t相應(yīng)的數(shù)據(jù),就能計(jì)算出初始、迭代、改良等階段的數(shù)據(jù)。比如當(dāng)m大于1和t大于1時(shí),最小化的FWSC算法的目標(biāo)函數(shù)計(jì)算出的模糊隸屬度。

      3 特征選擇算法

      特征選擇是數(shù)據(jù)挖掘和機(jī)械領(lǐng)域的關(guān)鍵,在挖掘數(shù)據(jù)數(shù)量龐大及高維特征時(shí),原有的特征選擇方式不能更精確數(shù)據(jù)。要獲得有效的數(shù)據(jù),就需要在計(jì)算的框架內(nèi)有針對性的選擇,這就是特征選擇。特征選擇主要是通過對原始特征空間數(shù)據(jù)簇進(jìn)行篩選,生成策略,然后形成特征子集,對選擇的數(shù)據(jù)進(jìn)行評價(jià),停止條件選擇,最后得出結(jié)論等幾個(gè)步驟。

      3.1 過濾型特征選擇方式

      過濾型特征選擇最大的優(yōu)勢是不會依靠相應(yīng)的分類器材,確定時(shí)僅靠數(shù)據(jù)本省的特征,在選擇時(shí)先假設(shè)每個(gè)特征都是獨(dú)立存在的,采用某種搜索方式選擇出合理的特征子集。在選擇算法當(dāng)中,過濾型是最為簡單的,常見的計(jì)算方式有FOCUS、Relief和分?jǐn)?shù)方程。在選擇期間,選用一組具有代表的特征作為數(shù)據(jù)的子集,這是有利于提高計(jì)算的準(zhǔn)確率,具體方式如圖1所示:

      猜你喜歡
      特征選擇子集數(shù)據(jù)挖掘
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      關(guān)于奇數(shù)階二元子集的分離序列
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      禄丰县| 息烽县| 任丘市| 沧州市| 彭阳县| 锡林浩特市| 驻马店市| 仁布县| 三穗县| 万盛区| 嵊州市| 烟台市| 崇州市| 札达县| 长海县| 乌审旗| 大田县| 水城县| 资溪县| 林州市| 义乌市| 浦城县| 淮滨县| 红安县| 江北区| 阿坝| 囊谦县| 怀安县| 九台市| 鸡西市| 康保县| 洛扎县| 通州市| 化德县| 时尚| 福海县| 浠水县| 东台市| 玛纳斯县| 璧山县| 田东县|