李景民(吉林工商學(xué)院,長春130062)
?
一種基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗算法
李景民
(吉林工商學(xué)院,長春130062)
摘要:在數(shù)據(jù)庫的應(yīng)用中經(jīng)常會出現(xiàn)數(shù)據(jù)的“相似重復(fù)記錄”問題,筆者提出一種基于非監(jiān)控學(xué)習(xí)的數(shù)據(jù)清洗算法。這種算法主要采用了基于非監(jiān)控學(xué)習(xí)的方法,在學(xué)習(xí)過程中能夠結(jié)合需要增添新的聚類,去除錯誤聚類,進(jìn)而能夠避免出現(xiàn)死神經(jīng)元問題,經(jīng)實(shí)驗(yàn)數(shù)據(jù)證明可以有效地實(shí)體識別。
關(guān)鍵詞:非監(jiān)控學(xué)習(xí);數(shù)據(jù)清洗;數(shù)據(jù)庫;數(shù)據(jù)轉(zhuǎn)換
在現(xiàn)代高等院??蒲邢到y(tǒng)信息化的建設(shè)過程中,管理人員發(fā)現(xiàn)存在數(shù)量龐大的異構(gòu)系統(tǒng)、海量的資源。面對如此多的不同來源、較為分散和清潔度不夠的信息,科研系統(tǒng)管理人員需要提煉有效信息,以供決策,因而急需信息集成和整合的行之有效的方法。創(chuàng)建數(shù)據(jù)倉庫的主要目標(biāo)是提供準(zhǔn)確的數(shù)據(jù),為數(shù)據(jù)分析服務(wù),為科研領(lǐng)導(dǎo)的決策提供參考。為了能夠?qū)φ_決策提供足夠的支持,需要依據(jù)的參考數(shù)據(jù)應(yīng)該是可靠的,沒有偏差的,以體現(xiàn)科研的實(shí)際情況[1,2]。鑒于以上的環(huán)境及需求,ETL技術(shù)作為一種工具和手段蓬勃發(fā)展起來。ETL主要是指數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、加載的過程。ETL是建立數(shù)據(jù)倉庫非常重要的一個步驟,管理員從數(shù)據(jù)源中提煉出需要的數(shù)據(jù),經(jīng)過數(shù)據(jù)轉(zhuǎn)換及數(shù)據(jù)清洗過程,最后根據(jù)事先確定好的數(shù)據(jù)倉庫模型,把數(shù)據(jù)最終加載到數(shù)據(jù)倉庫中去。
在科研管理系統(tǒng)當(dāng)中,由于數(shù)據(jù)倉庫中的數(shù)據(jù)可能來源于多種不同的數(shù)據(jù)源,該數(shù)據(jù)源又可能存在于差異的硬件平臺上,數(shù)據(jù)庫管理系統(tǒng)也千差萬別,這就導(dǎo)致這些數(shù)據(jù)在很多方面都是不同的,甚至是相互沖突的,所以控制數(shù)據(jù)質(zhì)量成為極為重要的問題。
1.1數(shù)據(jù)質(zhì)量問題的類別
在科研管理系統(tǒng)中進(jìn)行數(shù)據(jù)ETL過程時,管理者有可能碰到形形色色的數(shù)據(jù)質(zhì)量問題,有必要將它們進(jìn)行分類管理。通過總結(jié)該問題的產(chǎn)生究竟是在模式層還是在實(shí)例層,進(jìn)而把數(shù)據(jù)質(zhì)量問題進(jìn)一步劃分成四大類:A.單數(shù)據(jù)源模式層問題。B.單數(shù)據(jù)源實(shí)例層問題。C.多數(shù)據(jù)源模式層問題。D.多數(shù)據(jù)源實(shí)例層問題。
如果在模式層次上存在問題,那么在實(shí)例層次上會有相應(yīng)的體現(xiàn),不好的數(shù)據(jù)模式設(shè)計、定義的完整性約束缺乏、多個數(shù)據(jù)源之間命名沖突以及結(jié)構(gòu)沖突等,全部都是這類問題。人們可以采用改進(jìn)模式設(shè)計、模式轉(zhuǎn)化和模式集成的方法解決模式層次上的問題。目前主流的方法是通過相關(guān)問題域的專家,采用手工方法來處理此類問題,但是效率低下。
1.2數(shù)據(jù)質(zhì)量評估方法
在高??蒲邢到y(tǒng)中,需要解決不同數(shù)據(jù)質(zhì)量的異常問題,首要任務(wù)是分析產(chǎn)生異常的根源。導(dǎo)致數(shù)據(jù)異常的因素較多,可能是系統(tǒng)自身的原因,也可能是歷史因素[3]:在不同階段,系統(tǒng)的數(shù)據(jù)模型可能存在差異;相應(yīng)的處理過程有所區(qū)別;新舊幾套系統(tǒng)模塊處理財務(wù)、人事等有關(guān)信息時有所區(qū)別;老舊系統(tǒng)與新增業(yè)務(wù)以及管理系統(tǒng)數(shù)據(jù)在進(jìn)行集成時的不完備也會產(chǎn)生差異;源系統(tǒng)在數(shù)據(jù)輸入時沒有對數(shù)據(jù)進(jìn)行數(shù)據(jù)驗(yàn)證,無法攔截不合格的數(shù)據(jù)輸入到系統(tǒng)。分析數(shù)據(jù)質(zhì)量應(yīng)該從以上幾個方面進(jìn)行考量,評估采集到的具體數(shù)據(jù)源,衡量數(shù)據(jù)源的質(zhì)量,進(jìn)而確定采用的ETL規(guī)則。
2.1數(shù)據(jù)清洗
所謂數(shù)據(jù)清洗就是在檢測數(shù)據(jù)集中過程之后出現(xiàn)的錯誤和差異,并通過人工或者自動化工具將其刪除和修正,進(jìn)而提升數(shù)據(jù)質(zhì)量。
在對實(shí)例層次的數(shù)據(jù)進(jìn)行清洗的過程中,即使通過模式轉(zhuǎn)化和集成取得了一致模式,在實(shí)例層上依舊需要對不一致性進(jìn)行清除,關(guān)鍵是對缺損屬性修正,并進(jìn)行相應(yīng)的實(shí)體識別。處理缺損屬性時,主要是針對不確定信息的理論,對于不完全數(shù)據(jù),需要進(jìn)行推理和相應(yīng)的研究,并且提出合適的規(guī)則。在實(shí)體識別時,對于相同的實(shí)體,在不同的數(shù)據(jù)源的記錄中,有可能標(biāo)識的主鍵是不同的,這些信息在內(nèi)容上互為補(bǔ)充,可能存在冗余情況,嚴(yán)重時甚至?xí)谢ハ嗝艿那闆r。
針對相似重復(fù)記錄的處理方式,筆者采用了非監(jiān)控的學(xué)習(xí)方法,以此來處理數(shù)據(jù)集中過程中的實(shí)體識別困難。非監(jiān)控學(xué)習(xí)是針對海量的、未標(biāo)記的數(shù)據(jù)分析的聚類技術(shù)。主要目的是提供一系列類,而且要求相同類中數(shù)據(jù)的特性要保持一致,類別不同的數(shù)據(jù)要有明顯的、便于區(qū)分的差異。
2.2非監(jiān)控學(xué)習(xí)算法
這種學(xué)習(xí)方法主要包括競爭學(xué)習(xí)和增強(qiáng)式學(xué)習(xí)兩種方法。筆者在實(shí)體識別中總結(jié)出采用基于Hebbian假設(shè)的一種非監(jiān)控的學(xué)習(xí)算法。
由Hebbian的假設(shè),神經(jīng)元的學(xué)習(xí)規(guī)則能夠用如下的函數(shù)進(jìn)行表示:
表達(dá)式中的W為突觸權(quán)值向量,X表示輸入樣本向量,ψ()是可微函數(shù),α≥0是遺忘系數(shù)。神經(jīng)元的輸出為:
2.3非監(jiān)控學(xué)習(xí)算法性能測試
在對非監(jiān)控學(xué)習(xí)算法性能進(jìn)行測試的過程中,設(shè)計了兩組數(shù)據(jù)。其中一組是系數(shù)σ=0.05服從高斯分布的測試數(shù)據(jù),另外一組是系數(shù)σ=0.5測試數(shù)據(jù)。結(jié)果是σ=0.05,數(shù)據(jù)相對集中,聚類邊界明顯;σ=0.5,數(shù)據(jù)不集中,聚類邊界不夠清晰。
因?yàn)閺亩鄶?shù)據(jù)源當(dāng)中直接進(jìn)行對象識別具有非常大的困難,所以我們可以把整個識別過程分成不同的階段來完成。
在進(jìn)行數(shù)據(jù)清洗操作中,利用非監(jiān)控學(xué)習(xí)算法處理在實(shí)體識別方面的問題,完成“相似重復(fù)記錄”的查詢,可以進(jìn)一步提高清洗的準(zhǔn)確程度。
參考文獻(xiàn):
[1]Wand Y,Anchoring Wang R Y.Data Quality Dimensions In Ontological Foundations[J].Commun ACM39,1996,(11):86- 95.
[2]Strong Diane M,Lee Yang W,Wang Richard Y.Data Quality In Context[J].Commun ACM40,1997,(05):103- 110.
[3]郭志懋,周傲英(Guo Z.M., Zhou A.Y.).數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述(Research on Data Quality and Data Cleaning:a Survey)[J]軟件學(xué)報(Journal of Software),2002,13(11):2076- 2082.
中圖分類號:TP311.13
文獻(xiàn)標(biāo)志碼:A
文章編號:1674- 8646(2016)02- 0044- 02
收稿日期:2015- 12- 19