• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗算法

      2016-06-02 05:55:08李景民吉林工商學(xué)院長春130062
      黑龍江科學(xué) 2016年3期
      關(guān)鍵詞:數(shù)據(jù)庫

      李景民(吉林工商學(xué)院,長春130062)

      ?

      一種基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗算法

      李景民
      (吉林工商學(xué)院,長春130062)

      摘要:在數(shù)據(jù)庫的應(yīng)用中經(jīng)常會出現(xiàn)數(shù)據(jù)的“相似重復(fù)記錄”問題,筆者提出一種基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗算法。這種算法主要采用了基于非監(jiān)控學(xué)習(xí)的方法,在學(xué)習(xí)過程中能夠結(jié)合需要增添新的聚類,去除錯誤聚類,進(jìn)而能夠避免出現(xiàn)死神經(jīng)元問題,經(jīng)實(shí)驗(yàn)數(shù)據(jù)證明可以有效地實(shí)體識別。

      關(guān)鍵詞:非監(jiān)控學(xué)習(xí);數(shù)據(jù)清洗;數(shù)據(jù)庫;數(shù)據(jù)轉(zhuǎn)換

      在現(xiàn)代高等院??蒲邢到y(tǒng)信息化的建設(shè)過程中,管理人員發(fā)現(xiàn)存在數(shù)量龐大的異構(gòu)系統(tǒng)、海量的資源。面對如此多的不同來源、較為分散和清潔度不夠的信息,科研系統(tǒng)管理人員需要提煉有效信息,以供決策,因而急需信息集成和整合的行之有效的方法。創(chuàng)建數(shù)據(jù)倉庫的主要目標(biāo)是提供準(zhǔn)確的數(shù)據(jù),為數(shù)據(jù)分析服務(wù),為科研領(lǐng)導(dǎo)的決策提供參考。為了能夠?qū)φ_決策提供足夠的支持,需要依據(jù)的參考數(shù)據(jù)應(yīng)該是可靠的,沒有偏差的,以體現(xiàn)科研的實(shí)際情況[1,2]。鑒于以上的環(huán)境及需求,ETL技術(shù)作為一種工具和手段蓬勃發(fā)展起來。ETL主要是指數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、加載的過程。ETL是建立數(shù)據(jù)倉庫非常重要的一個步驟,管理員從數(shù)據(jù)源中提煉出需要的數(shù)據(jù),經(jīng)過數(shù)據(jù)轉(zhuǎn)換及數(shù)據(jù)清洗過程,最后根據(jù)事先確定好的數(shù)據(jù)倉庫模型,把數(shù)據(jù)最終加載到數(shù)據(jù)倉庫中去。

      在科研管理系統(tǒng)當(dāng)中,由于數(shù)據(jù)倉庫中的數(shù)據(jù)可能來源于多種不同的數(shù)據(jù)源,該數(shù)據(jù)源又可能存在于差異的硬件平臺上,數(shù)據(jù)庫管理系統(tǒng)也千差萬別,這就導(dǎo)致這些數(shù)據(jù)在很多方面都是不同的,甚至是相互沖突的,所以控制數(shù)據(jù)質(zhì)量成為極為重要的問題。

      1  ETL技術(shù)中的數(shù)據(jù)質(zhì)量控制方法

      1.1數(shù)據(jù)質(zhì)量問題的類別

      在科研管理系統(tǒng)中進(jìn)行數(shù)據(jù)ETL過程時,管理者有可能碰到形形色色的數(shù)據(jù)質(zhì)量問題,有必要將它們進(jìn)行分類管理。通過總結(jié)該問題的產(chǎn)生究竟是在模式層還是在實(shí)例層,進(jìn)而把數(shù)據(jù)質(zhì)量問題進(jìn)一步劃分成四大類:A.單數(shù)據(jù)源模式層問題。B.單數(shù)據(jù)源實(shí)例層問題。C.多數(shù)據(jù)源模式層問題。D.多數(shù)據(jù)源實(shí)例層問題。

      如果在模式層次上存在問題,那么在實(shí)例層次上會有相應(yīng)的體現(xiàn),不好的數(shù)據(jù)模式設(shè)計、定義的完整性約束缺乏、多個數(shù)據(jù)源之間命名沖突以及結(jié)構(gòu)沖突等,全部都是這類問題。人們可以采用改進(jìn)模式設(shè)計、模式轉(zhuǎn)化和模式集成的方法解決模式層次上的問題。目前主流的方法是通過相關(guān)問題域的專家,采用手工方法來處理此類問題,但是效率低下。

      1.2數(shù)據(jù)質(zhì)量評估方法

      在高??蒲邢到y(tǒng)中,需要解決不同數(shù)據(jù)質(zhì)量的異常問題,首要任務(wù)是分析產(chǎn)生異常的根源。導(dǎo)致數(shù)據(jù)異常的因素較多,可能是系統(tǒng)自身的原因,也可能是歷史因素[3]:在不同階段,系統(tǒng)的數(shù)據(jù)模型可能存在差異;相應(yīng)的處理過程有所區(qū)別;新舊幾套系統(tǒng)模塊處理財務(wù)、人事等有關(guān)信息時有所區(qū)別;老舊系統(tǒng)與新增業(yè)務(wù)以及管理系統(tǒng)數(shù)據(jù)在進(jìn)行集成時的不完備也會產(chǎn)生差異;源系統(tǒng)在數(shù)據(jù)輸入時沒有對數(shù)據(jù)進(jìn)行數(shù)據(jù)驗(yàn)證,無法攔截不合格的數(shù)據(jù)輸入到系統(tǒng)。分析數(shù)據(jù)質(zhì)量應(yīng)該從以上幾個方面進(jìn)行考量,評估采集到的具體數(shù)據(jù)源,衡量數(shù)據(jù)源的質(zhì)量,進(jìn)而確定采用的ETL規(guī)則。

      2 基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗策略

      2.1數(shù)據(jù)清洗

      所謂數(shù)據(jù)清洗就是在檢測數(shù)據(jù)集中過程之后出現(xiàn)的錯誤和差異,并通過人工或者自動化工具將其刪除和修正,進(jìn)而提升數(shù)據(jù)質(zhì)量。

      在對實(shí)例層次的數(shù)據(jù)進(jìn)行清洗的過程中,即使通過模式轉(zhuǎn)化和集成取得了一致模式,在實(shí)例層上依舊需要對不一致性進(jìn)行清除,關(guān)鍵是對缺損屬性修正,并進(jìn)行相應(yīng)的實(shí)體識別。處理缺損屬性時,主要是針對不確定信息的理論,對于不完全數(shù)據(jù),需要進(jìn)行推理和相應(yīng)的研究,并且提出合適的規(guī)則。在實(shí)體識別時,對于相同的實(shí)體,在不同的數(shù)據(jù)源的記錄中,有可能標(biāo)識的主鍵是不同的,這些信息在內(nèi)容上互為補(bǔ)充,可能存在冗余情況,嚴(yán)重時甚至?xí)谢ハ嗝艿那闆r。

      針對相似重復(fù)記錄的處理方式,筆者采用了非監(jiān)控的學(xué)習(xí)方法,以此來處理數(shù)據(jù)集中過程中的實(shí)體識別困難。非監(jiān)控學(xué)習(xí)是針對海量的、未標(biāo)記的數(shù)據(jù)分析的聚類技術(shù)。主要目的是提供一系列類,而且要求相同類中數(shù)據(jù)的特性要保持一致,類別不同的數(shù)據(jù)要有明顯的、便于區(qū)分的差異。

      2.2非監(jiān)控學(xué)習(xí)算法

      這種學(xué)習(xí)方法主要包括競爭學(xué)習(xí)和增強(qiáng)式學(xué)習(xí)兩種方法。筆者在實(shí)體識別中總結(jié)出采用基于Hebbian假設(shè)的一種非監(jiān)控的學(xué)習(xí)算法。

      由Hebbian的假設(shè),神經(jīng)元的學(xué)習(xí)規(guī)則能夠用如下的函數(shù)進(jìn)行表示:

      表達(dá)式中的W為突觸權(quán)值向量,X表示輸入樣本向量,ψ()是可微函數(shù),α≥0是遺忘系數(shù)。神經(jīng)元的輸出為:

      2.3非監(jiān)控學(xué)習(xí)算法性能測試

      在對非監(jiān)控學(xué)習(xí)算法性能進(jìn)行測試的過程中,設(shè)計了兩組數(shù)據(jù)。其中一組是系數(shù)σ=0.05服從高斯分布的測試數(shù)據(jù),另外一組是系數(shù)σ=0.5測試數(shù)據(jù)。結(jié)果是σ=0.05,數(shù)據(jù)相對集中,聚類邊界明顯;σ=0.5,數(shù)據(jù)不集中,聚類邊界不夠清晰。

      因?yàn)閺亩鄶?shù)據(jù)源當(dāng)中直接進(jìn)行對象識別具有非常大的困難,所以我們可以把整個識別過程分成不同的階段來完成。

      3 結(jié)論

      在進(jìn)行數(shù)據(jù)清洗操作中,利用非監(jiān)控學(xué)習(xí)算法處理在實(shí)體識別方面的問題,完成“相似重復(fù)記錄”的查詢,可以進(jìn)一步提高清洗的準(zhǔn)確程度。

      參考文獻(xiàn):

      [1]Wand Y,Anchoring Wang R Y.Data Quality Dimensions In Ontological Foundations[J].Commun ACM39,1996,(11):86- 95.

      [2]Strong Diane M,Lee Yang W,Wang Richard Y.Data Quality In Context[J].Commun ACM40,1997,(05):103- 110.

      [3]郭志懋,周傲英(Guo Z.M., Zhou A.Y.).數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述(Research on Data Quality and Data Cleaning:a Survey)[J]軟件學(xué)報(Journal of Software),2002,13(11):2076- 2082.

      中圖分類號:TP311.13

      文獻(xiàn)標(biāo)志碼:A

      文章編號:1674- 8646(2016)02- 0044- 02

      收稿日期:2015- 12- 19

      猜你喜歡
      數(shù)據(jù)庫
      數(shù)據(jù)庫
      財經(jīng)(2017年15期)2017-07-03 22:40:49
      數(shù)據(jù)庫
      財經(jīng)(2017年2期)2017-03-10 14:35:35
      兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
      數(shù)據(jù)庫
      財經(jīng)(2016年15期)2016-06-03 07:38:02
      數(shù)據(jù)庫
      財經(jīng)(2016年3期)2016-03-07 07:44:46
      數(shù)據(jù)庫
      財經(jīng)(2016年6期)2016-02-24 07:41:51
      數(shù)據(jù)庫
      財經(jīng)(2015年3期)2015-06-09 17:41:31
      數(shù)據(jù)庫
      財經(jīng)(2014年21期)2014-08-18 01:50:18
      數(shù)據(jù)庫
      財經(jīng)(2014年6期)2014-03-12 08:28:19
      數(shù)據(jù)庫
      財經(jīng)(2013年6期)2013-04-29 17:59:30
      大悟县| 于田县| 香格里拉县| 广汉市| 邵武市| 高邮市| 南康市| 汝城县| 瑞丽市| 宜兰市| 满洲里市| 凤台县| 丰城市| 景德镇市| 界首市| 塔河县| 乌拉特后旗| 长海县| 额尔古纳市| 江阴市| 黎城县| 常州市| 石渠县| 井陉县| 富川| 海口市| 开平市| 信丰县| 山阴县| 临澧县| 太谷县| 霸州市| 弥勒县| 常熟市| 罗田县| 南岸区| 烟台市| 萝北县| 崇左市| 西青区| 锡林浩特市|