谷安楠 北京交通大學(xué)海濱學(xué)院
目前,我國互聯(lián)網(wǎng)普及率已經(jīng)超過了60%,并且互聯(lián)網(wǎng)用戶已經(jīng)超過了8億,這充分說明了我國互聯(lián)網(wǎng)用戶體量的龐大,在此背景下,有力的推動了軟件行業(yè)的發(fā)展。為了進(jìn)一步推動軟件行業(yè)的發(fā)展,軟件開法過程中對數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來越廣泛,不僅提升了自身的競爭力,而且也能更好的滿足用戶的需求。
數(shù)據(jù)挖掘技術(shù)伴隨著計算機技術(shù)而產(chǎn)生,計算機科技的發(fā)展,產(chǎn)生了海量的數(shù)據(jù)信息,而這些信息有的屬于顯性信息,有的屬于隱性信息。應(yīng)用數(shù)據(jù)挖掘技術(shù),便是對海量信息背后的價值進(jìn)行充分挖掘和利用,使其更好的為人們服務(wù)。數(shù)據(jù)挖掘技術(shù)的實現(xiàn),通常情況下都需要結(jié)合在線分析學(xué)、統(tǒng)計學(xué)、情報學(xué)等方面技術(shù),這樣才能更好的實現(xiàn)數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘技術(shù)流程是指從數(shù)據(jù)清理到知識的整個過程,并且在此過程中的每一個流程都十分重要。第一,信息收集流程,在數(shù)據(jù)挖掘過程中,信息收集是第一階段內(nèi)容,信息收集的作用在于可以從數(shù)據(jù)中分析出需要的特征信息,并將需要的特征信息進(jìn)行收集。信息收集完成后需要進(jìn)行數(shù)據(jù)存入。第二,數(shù)據(jù)集成流程,通過信息收集流程,實現(xiàn)了對數(shù)據(jù)的收集和儲存,在此基礎(chǔ)上,對數(shù)據(jù)進(jìn)行集成分類。數(shù)據(jù)集成分類的作用在于可以滿足對數(shù)據(jù)的不同需求,能夠為數(shù)據(jù)的共享奠定基礎(chǔ)。第三,數(shù)據(jù)規(guī)約流程,數(shù)據(jù)挖掘通常都會面對數(shù)量龐大的數(shù)據(jù)信息,再加之?dāng)?shù)據(jù)挖掘的算法十分復(fù)雜,會消耗大量時間,因此,數(shù)據(jù)挖掘的壓力相對較大。而通過數(shù)據(jù)規(guī)約流程,不僅可以減少數(shù)據(jù)處理的時間,而且還可以有效保證數(shù)據(jù)的完整性,避免因數(shù)據(jù)挖掘而影響數(shù)據(jù)的質(zhì)量。第四,數(shù)據(jù)清理流程,通過這一流程,能夠提升數(shù)據(jù)的有效性,雖然以上幾個環(huán)節(jié)可以對數(shù)據(jù)信息進(jìn)行處理,但是仍然還會存在無效數(shù)據(jù)以及數(shù)據(jù)不完整的情況,而數(shù)據(jù)清理便是將這些無效數(shù)據(jù)以及不完整數(shù)據(jù)進(jìn)行清理,進(jìn)而保障整個數(shù)據(jù)庫的質(zhì)量。與此同時,在數(shù)據(jù)清理的過程中,還可以對那些完整以及準(zhǔn)確的信息進(jìn)行分類與儲存,進(jìn)而可以進(jìn)一步提升數(shù)據(jù)的有效性。第五,數(shù)據(jù)變換流程,在數(shù)據(jù)挖掘過程中,數(shù)據(jù)變換流程是十分重要的流程之一。數(shù)據(jù)變換流程實現(xiàn)了對數(shù)據(jù)形式的轉(zhuǎn)換,為數(shù)據(jù)的離散以及數(shù)據(jù)的分層奠定基礎(chǔ)。第六,數(shù)據(jù)挖掘流程,應(yīng)用模糊集、統(tǒng)計方法以及決策樹等方法進(jìn)行數(shù)據(jù)挖掘,進(jìn)而幫助人們獲取有價值的信息。第七,模式評估流程,在此流程中,主要是由香港專家對數(shù)據(jù)挖掘結(jié)果進(jìn)行評估,確保數(shù)據(jù)的有效性以及數(shù)據(jù)的真實性等。第八,知識表示流程,知識表示流程是指將所挖掘的數(shù)據(jù)呈現(xiàn)給用戶??v觀整個數(shù)據(jù)挖掘的流程,其中成本耗費量最大的為數(shù)據(jù)收集環(huán)節(jié),耗費精力最多的為數(shù)據(jù)處理環(huán)節(jié),因此,在數(shù)據(jù)挖掘的過程中應(yīng)加強對數(shù)據(jù)收集和數(shù)據(jù)處理兩個環(huán)節(jié)的優(yōu)化,在提升數(shù)據(jù)挖掘效率的同時降低數(shù)據(jù)挖掘的成本。
在開發(fā)軟件工程系統(tǒng)的過程中,會涉及到結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),軟件代碼在非結(jié)構(gòu)化數(shù)據(jù)中起到了非常重要的作用,而軟件的版本信息則在結(jié)構(gòu)化數(shù)據(jù)中發(fā)揮著至關(guān)重要的作用。這便需要明確區(qū)分結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),這是數(shù)據(jù)挖掘的關(guān)鍵所在。如果二者之間的區(qū)分不明確,則會導(dǎo)致數(shù)據(jù)處理的難度與數(shù)據(jù)挖掘技術(shù)水平不一致,這必將會給數(shù)據(jù)挖掘帶來不利影響,導(dǎo)致數(shù)據(jù)挖掘質(zhì)量相對較低。但是針對結(jié)構(gòu)化屬于與非結(jié)構(gòu)化數(shù)據(jù)的分類十分復(fù)雜,難度較大,進(jìn)而會導(dǎo)致數(shù)據(jù)挖掘技術(shù)的應(yīng)用存在較大的局限性,難以充分發(fā)揮出數(shù)據(jù)挖掘技術(shù)的作用,因此也會給軟件工程的開發(fā)帶來不利影響。
隨著計算機科技的不斷發(fā)展,計算機科技的作用以及影響范圍也在不斷擴大,目前計算機科技已經(jīng)基本被應(yīng)用于各個領(lǐng)域之中,絕大多數(shù)行業(yè)都需要應(yīng)用計算機科技。這種現(xiàn)象決定了數(shù)據(jù)挖掘技術(shù)也會存在于多個行業(yè)之中,不同的行業(yè)對數(shù)據(jù)挖掘技術(shù)制定了不同的標(biāo)準(zhǔn),因此便導(dǎo)致了數(shù)據(jù)挖掘工作標(biāo)準(zhǔn)多樣化的問題,這在很大程度上提升了軟件信息的復(fù)雜程度。除此之外,不同領(lǐng)域之中存在著較大的差異,相關(guān)的應(yīng)用信息差別巨大,這些因素都會對數(shù)據(jù)的挖掘結(jié)果產(chǎn)生影響。
在軟件工程開發(fā)過程中,漏洞檢測是十分關(guān)鍵的環(huán)節(jié)之一,通過漏洞檢測,可以幫助人們發(fā)現(xiàn)軟件工程中存在的疏漏,進(jìn)而可以通過補丁來完善數(shù)據(jù)系統(tǒng),有效彌補漏洞。根據(jù)相關(guān)調(diào)查顯示,在商業(yè)應(yīng)用過程中出現(xiàn)的信息泄露事件,有86%都是因為系統(tǒng)漏洞所造成的,而要想避免信息泄露事件的發(fā)生,應(yīng)不斷優(yōu)化漏洞檢測工作,提升系統(tǒng)的穩(wěn)定性。要結(jié)合客戶的需求來開展漏洞檢測,對檢測出來的漏洞要加強數(shù)據(jù)分析,為以后的軟件工程提供數(shù)據(jù)參考。另外,還要注重數(shù)據(jù)清理工作,確保系統(tǒng)空間充足。應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠?qū)崿F(xiàn)對漏洞的精準(zhǔn)定位,進(jìn)而為漏洞彌補帶來了極大的便利。因此,合理應(yīng)用數(shù)據(jù)挖掘技術(shù),能在很大程度上提升漏洞檢測的效率。值得注意的是,在數(shù)據(jù)轉(zhuǎn)化過程中要保證數(shù)據(jù)轉(zhuǎn)化后的有效性,避免出現(xiàn)數(shù)據(jù)不對等現(xiàn)象,因為數(shù)據(jù)不對等現(xiàn)象會給漏洞的檢測帶來不利影響。
多人編輯統(tǒng)一檔案的情況在信息挖掘過程中并不罕見,針對這種情況,需要對檔案做出及時的更新,這樣才能使每個工作人員都能了解到檔案的最新情況。軟件開發(fā)工程采用版本控制技術(shù)來達(dá)到這一目標(biāo)。在版本控制信息挖掘的過程中,要加強對變更工作的重視,優(yōu)化工作程序,提升對檔案未來變化情況的檢測能力。針對漏洞的檢測,一方面要加強對當(dāng)下漏洞的檢測,另一方面要對未來漏洞進(jìn)行預(yù)測,這樣可以在很大程度上降低維護成本,同時還可以為系統(tǒng)軟件維護效率提供保障。
項目管理對于系統(tǒng)的優(yōu)化具有十分重要的作用,而數(shù)據(jù)挖掘有助于項目管理水平的提升,將數(shù)據(jù)挖掘技術(shù)與軟件項目管理相結(jié)合,可以為項目管理帶來極大的便利,同時還能夠推動項目管理水平和效率的提升。除此之外,數(shù)據(jù)挖掘技術(shù)還可以為崗位工作人員的職責(zé)分配提供幫助,有助于保障軟件工程的發(fā)展。將數(shù)據(jù)挖掘技術(shù)與軟件項目管理相結(jié)合,可以更好控制軟件工程,同時也給系統(tǒng)信息的查找?guī)砹藰O大的便利。
隨著軟件工程的發(fā)展,其開發(fā)難度也在不斷提升,而數(shù)據(jù)挖掘技術(shù)的應(yīng)用,可以為軟件工程提供重要的保障。因此我們應(yīng)加強對數(shù)據(jù)挖掘技術(shù)的應(yīng)用,同時拓展對該技術(shù)應(yīng)用的深度和范圍。