一種基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗算法

2016-06-02 05:55:08李景民吉林工商學(xué)院長春130062

黑龍江科學(xué) 2016年3期

李景民（吉林工商學(xué)院，長春130062）

李景民
（吉林工商學(xué)院，長春130062）

摘要：在數(shù)據(jù)庫的應(yīng)用中經(jīng)常會出現(xiàn)數(shù)據(jù)的“相似重復(fù)記錄”問題，筆者提出一種基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗算法。這種算法主要采用了基于非監(jiān)控學(xué)習(xí)的方法，在學(xué)習(xí)過程中能夠結(jié)合需要增添新的聚類，去除錯誤聚類，進(jìn)而能夠避免出現(xiàn)死神經(jīng)元問題，經(jīng)實(shí)驗(yàn)數(shù)據(jù)證明可以有效地實(shí)體識別。

關(guān)鍵詞：非監(jiān)控學(xué)習(xí)；數(shù)據(jù)清洗；數(shù)據(jù)庫；數(shù)據(jù)轉(zhuǎn)換

在現(xiàn)代高等院?？蒲邢到y(tǒng)信息化的建設(shè)過程中，管理人員發(fā)現(xiàn)存在數(shù)量龐大的異構(gòu)系統(tǒng)、海量的資源。面對如此多的不同來源、較為分散和清潔度不夠的信息，科研系統(tǒng)管理人員需要提煉有效信息，以供決策，因而急需信息集成和整合的行之有效的方法。創(chuàng)建數(shù)據(jù)倉庫的主要目標(biāo)是提供準(zhǔn)確的數(shù)據(jù)，為數(shù)據(jù)分析服務(wù)，為科研領(lǐng)導(dǎo)的決策提供參考。為了能夠?qū)φ_決策提供足夠的支持，需要依據(jù)的參考數(shù)據(jù)應(yīng)該是可靠的，沒有偏差的，以體現(xiàn)科研的實(shí)際情況［1,2］。鑒于以上的環(huán)境及需求，ETL技術(shù)作為一種工具和手段蓬勃發(fā)展起來。ETL主要是指數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、加載的過程。ETL是建立數(shù)據(jù)倉庫非常重要的一個步驟，管理員從數(shù)據(jù)源中提煉出需要的數(shù)據(jù)，經(jīng)過數(shù)據(jù)轉(zhuǎn)換及數(shù)據(jù)清洗過程，最后根據(jù)事先確定好的數(shù)據(jù)倉庫模型，把數(shù)據(jù)最終加載到數(shù)據(jù)倉庫中去。

在科研管理系統(tǒng)當(dāng)中，由于數(shù)據(jù)倉庫中的數(shù)據(jù)可能來源于多種不同的數(shù)據(jù)源，該數(shù)據(jù)源又可能存在于差異的硬件平臺上，數(shù)據(jù)庫管理系統(tǒng)也千差萬別，這就導(dǎo)致這些數(shù)據(jù)在很多方面都是不同的，甚至是相互沖突的，所以控制數(shù)據(jù)質(zhì)量成為極為重要的問題。

1　 ETL技術(shù)中的數(shù)據(jù)質(zhì)量控制方法

1.1數(shù)據(jù)質(zhì)量問題的類別

在科研管理系統(tǒng)中進(jìn)行數(shù)據(jù)ETL過程時，管理者有可能碰到形形色色的數(shù)據(jù)質(zhì)量問題，有必要將它們進(jìn)行分類管理。通過總結(jié)該問題的產(chǎn)生究竟是在模式層還是在實(shí)例層，進(jìn)而把數(shù)據(jù)質(zhì)量問題進(jìn)一步劃分成四大類：A.單數(shù)據(jù)源模式層問題。B.單數(shù)據(jù)源實(shí)例層問題。C.多數(shù)據(jù)源模式層問題。D.多數(shù)據(jù)源實(shí)例層問題。

如果在模式層次上存在問題，那么在實(shí)例層次上會有相應(yīng)的體現(xiàn)，不好的數(shù)據(jù)模式設(shè)計、定義的完整性約束缺乏、多個數(shù)據(jù)源之間命名沖突以及結(jié)構(gòu)沖突等，全部都是這類問題。人們可以采用改進(jìn)模式設(shè)計、模式轉(zhuǎn)化和模式集成的方法解決模式層次上的問題。目前主流的方法是通過相關(guān)問題域的專家，采用手工方法來處理此類問題，但是效率低下。

1.2數(shù)據(jù)質(zhì)量評估方法

在高?？蒲邢到y(tǒng)中，需要解決不同數(shù)據(jù)質(zhì)量的異常問題，首要任務(wù)是分析產(chǎn)生異常的根源。導(dǎo)致數(shù)據(jù)異常的因素較多，可能是系統(tǒng)自身的原因，也可能是歷史因素［3］：在不同階段，系統(tǒng)的數(shù)據(jù)模型可能存在差異；相應(yīng)的處理過程有所區(qū)別；新舊幾套系統(tǒng)模塊處理財務(wù)、人事等有關(guān)信息時有所區(qū)別；老舊系統(tǒng)與新增業(yè)務(wù)以及管理系統(tǒng)數(shù)據(jù)在進(jìn)行集成時的不完備也會產(chǎn)生差異；源系統(tǒng)在數(shù)據(jù)輸入時沒有對數(shù)據(jù)進(jìn)行數(shù)據(jù)驗(yàn)證，無法攔截不合格的數(shù)據(jù)輸入到系統(tǒng)。分析數(shù)據(jù)質(zhì)量應(yīng)該從以上幾個方面進(jìn)行考量，評估采集到的具體數(shù)據(jù)源，衡量數(shù)據(jù)源的質(zhì)量，進(jìn)而確定采用的ETL規(guī)則。

2　基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗策略

2.1數(shù)據(jù)清洗

所謂數(shù)據(jù)清洗就是在檢測數(shù)據(jù)集中過程之后出現(xiàn)的錯誤和差異，并通過人工或者自動化工具將其刪除和修正，進(jìn)而提升數(shù)據(jù)質(zhì)量。

在對實(shí)例層次的數(shù)據(jù)進(jìn)行清洗的過程中，即使通過模式轉(zhuǎn)化和集成取得了一致模式，在實(shí)例層上依舊需要對不一致性進(jìn)行清除，關(guān)鍵是對缺損屬性修正，并進(jìn)行相應(yīng)的實(shí)體識別。處理缺損屬性時，主要是針對不確定信息的理論，對于不完全數(shù)據(jù)，需要進(jìn)行推理和相應(yīng)的研究，并且提出合適的規(guī)則。在實(shí)體識別時，對于相同的實(shí)體，在不同的數(shù)據(jù)源的記錄中，有可能標(biāo)識的主鍵是不同的，這些信息在內(nèi)容上互為補(bǔ)充，可能存在冗余情況，嚴(yán)重時甚至?xí)谢ハ嗝艿那闆r。

針對相似重復(fù)記錄的處理方式，筆者采用了非監(jiān)控的學(xué)習(xí)方法，以此來處理數(shù)據(jù)集中過程中的實(shí)體識別困難。非監(jiān)控學(xué)習(xí)是針對海量的、未標(biāo)記的數(shù)據(jù)分析的聚類技術(shù)。主要目的是提供一系列類，而且要求相同類中數(shù)據(jù)的特性要保持一致，類別不同的數(shù)據(jù)要有明顯的、便于區(qū)分的差異。

2.2非監(jiān)控學(xué)習(xí)算法

這種學(xué)習(xí)方法主要包括競爭學(xué)習(xí)和增強(qiáng)式學(xué)習(xí)兩種方法。筆者在實(shí)體識別中總結(jié)出采用基于Hebbian假設(shè)的一種非監(jiān)控的學(xué)習(xí)算法。

由Hebbian的假設(shè)，神經(jīng)元的學(xué)習(xí)規(guī)則能夠用如下的函數(shù)進(jìn)行表示:

表達(dá)式中的W為突觸權(quán)值向量，X表示輸入樣本向量，ψ（）是可微函數(shù)，α≥0是遺忘系數(shù)。神經(jīng)元的輸出為:

2.3非監(jiān)控學(xué)習(xí)算法性能測試

在對非監(jiān)控學(xué)習(xí)算法性能進(jìn)行測試的過程中，設(shè)計了兩組數(shù)據(jù)。其中一組是系數(shù)σ=0.05服從高斯分布的測試數(shù)據(jù)，另外一組是系數(shù)σ=0.5測試數(shù)據(jù)。結(jié)果是σ=0.05，數(shù)據(jù)相對集中，聚類邊界明顯；σ=0.5，數(shù)據(jù)不集中，聚類邊界不夠清晰。

因?yàn)閺亩鄶?shù)據(jù)源當(dāng)中直接進(jìn)行對象識別具有非常大的困難，所以我們可以把整個識別過程分成不同的階段來完成。

3　結(jié)論

在進(jìn)行數(shù)據(jù)清洗操作中，利用非監(jiān)控學(xué)習(xí)算法處理在實(shí)體識別方面的問題，完成“相似重復(fù)記錄”的查詢，可以進(jìn)一步提高清洗的準(zhǔn)確程度。

參考文獻(xiàn)：

［1］Wand Y，Anchoring Wang R Y.Data Quality Dimensions In Ontological Foundations［J］.Commun ACM39，1996，（11）：86- 95.

［2］Strong Diane M，Lee Yang W，Wang Richard Y.Data Quality In Context［J］.Commun ACM40，1997，（05）：103- 110.

［3］郭志懋，周傲英(Guo Z.M., Zhou A.Y.).數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述(Research on Data Quality and Data Cleaning:a Survey)［J］軟件學(xué)報(Journal of Software)，2002，13（11）：2076- 2082.

中圖分類號：TP311.13

文獻(xiàn)標(biāo)志碼：A

文章編號：1674- 8646（2016）02- 0044- 02

收稿日期：2015- 12- 19

一種基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗算法

1 ETL技術(shù)中的數(shù)據(jù)質(zhì)量控制方法

2 基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗策略

3 結(jié)論

1　 ETL技術(shù)中的數(shù)據(jù)質(zhì)量控制方法

2　基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗策略

3　結(jié)論