王佳音
摘要:數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對收集到的數(shù)據(jù)進(jìn)行分析,將它們加以匯總和理解并消化,以求最大地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。不論是哪個領(lǐng)域,產(chǎn)生數(shù)據(jù)的量都是十分龐大的,如果可以挖掘其中的價值,就必然會獲得巨大的回報。但是僅僅通過人工來分析的效果是很差的,因?yàn)槿说哪芰κ怯邢薜?,所以?shù)據(jù)分析系統(tǒng)就成為了一個重要的工具。
數(shù)據(jù)分析系統(tǒng)的四個主要功能是配置、采集、處理和應(yīng)用,并且其中包含采集數(shù)據(jù)、分析整理、構(gòu)建模型等流程。這些功能看似簡單,但是卻能找到數(shù)據(jù)的規(guī)律,從而對某一事件的結(jié)果進(jìn)行預(yù)測。這對于很多決策者來說是很具有價值的,分析的結(jié)果可以讓他們獲知市場的大致動向,并減少做出錯誤決斷的情況。因此,該系統(tǒng)對于任何領(lǐng)域來說,其價值都是難以估量的。
關(guān)鍵詞:數(shù)據(jù)分析系統(tǒng);技術(shù);改進(jìn)
一、數(shù)據(jù)分析系統(tǒng)概述
(一)數(shù)據(jù)分析的常用方法
現(xiàn)在分析中一些常用方法都是比較可靠的,獲取的結(jié)果基本是準(zhǔn)確的,不會與實(shí)際有較大的差異。描述性統(tǒng)計(jì)是使用頻率最高的方法,它可以較好地揭示數(shù)據(jù)的分布特性,例如數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散程度分析等。將這些結(jié)果進(jìn)行統(tǒng)一地分析與總結(jié),就能從中找到一個潛在的規(guī)律。該方法比較使用與具有順序規(guī)律的數(shù)據(jù),整體需要是連續(xù)的,這樣才能更好地從中獲取信息。
(二)數(shù)據(jù)分析系統(tǒng)的典型構(gòu)架
數(shù)據(jù)分析系統(tǒng)的功能性主要體現(xiàn)在其采集以及處理兩方面,這也是最難通過人工來完成的工作。該系統(tǒng)可以獲取大量的業(yè)務(wù)數(shù)據(jù),并對它們進(jìn)行分類存儲以及分析。系統(tǒng)對原始數(shù)據(jù)進(jìn)行處理轉(zhuǎn)換,并存儲在數(shù)據(jù)庫中,再根據(jù)需求將數(shù)據(jù)轉(zhuǎn)換成可利用的模型,再進(jìn)行進(jìn)一步地分析。整個系統(tǒng)是層級結(jié)構(gòu)的,不同功能的進(jìn)行是分層逐步來完成的,因此效率得到了保證,相互干擾的情況也基本不會出現(xiàn)。
(三)數(shù)據(jù)分析系統(tǒng)的基本流程
在流程中,最不可缺少的一個步驟就是構(gòu)建數(shù)據(jù)模型,這樣就能將抽象的符號具體化成為可以分析的圖形。系統(tǒng)的其中一項(xiàng)功能就是分析這些模型,從而獲得所需的結(jié)果。數(shù)據(jù)分析至少包含探索性數(shù)據(jù)分析、模型選定、推斷分析三個過程。因?yàn)榉治龅牧客ǔJ蔷薮蟮?,所以在不同線程中的這三個過程都是并行的,這樣的效率會很高,最后的結(jié)果只需要進(jìn)行匯總就可以了。數(shù)據(jù)在獲取后,通常是無序的,類型也使多種多樣,很難找到其中存在的關(guān)聯(lián),所以需要將其制作成相應(yīng)的圖表或是其他類型的形象,并找出其中的規(guī)律。在找到大致規(guī)律后,需要進(jìn)行模型選定,先列舉出多個模型,最后通過逐步排除來找到最能體現(xiàn)出數(shù)據(jù)規(guī)律特點(diǎn)的模型。最后,就是對模型進(jìn)行推斷分析,獲取結(jié)果。我們可以將這個流程簡單地總結(jié)為加工、整理、分析,所有的系統(tǒng)在功能上基本都是大同小異,不會脫離這三個重點(diǎn)。
二、數(shù)據(jù)分析系統(tǒng)在技術(shù)方面的改進(jìn)措施
(一)數(shù)據(jù)分析指標(biāo)選取方法的改進(jìn)
數(shù)據(jù)指標(biāo)是數(shù)據(jù)分析的有力手段。如果能選擇一個合適的指標(biāo),就能讓分析結(jié)果更加可靠,還能減少所需要消耗的資源,可以說是一舉兩得。數(shù)據(jù)指標(biāo)需要符合幾個基本特征,才能確定其是比較合適的。首先是具有較高的比較性,可以比較出在不同時段、用戶之間的表現(xiàn)差異,這樣就可以更容易獲得分析對象的走向趨勢。易讀性也是比較關(guān)鍵的,這直接決定了指標(biāo)是否容易讓人理解,這也是其功能性的側(cè)面驗(yàn)證。最重要的就是具有全面性,也就是有限的指標(biāo)可以描述出盡可能多的對象特征,這樣就更加易于就某一問題做出判斷。就這些特征,我們可以總結(jié)出大致的改進(jìn)措施。對指標(biāo)進(jìn)行定性與量化,定性可以體現(xiàn)對象的主觀因素,具有一定判斷性,量化可以衡量客觀特征,進(jìn)而過濾掉一些沒有作用的指標(biāo),尤其是一些具有欺騙意義的指標(biāo)。例如網(wǎng)站的“累積注冊量”就是這樣的一種指標(biāo),其并不能體現(xiàn)出網(wǎng)站當(dāng)前的狀態(tài),所以并沒有實(shí)際的參考價值。
(二)簡歷標(biāo)準(zhǔn)的代碼庫和數(shù)據(jù)集市
因?yàn)橄到y(tǒng)中的代碼有很多都是面向客戶的,所以是根據(jù)功能來設(shè)計(jì)的,并且本身的重復(fù)率很高。因此,為了節(jié)省在編寫代碼上消耗的時間,就可以構(gòu)建一個代碼庫。這個庫中可以存儲各種類型的代碼,當(dāng)某個部門需要使用時,就可以按需求從中提取出所需的代碼。這樣有助于代碼的共享,可以促進(jìn)效率的增長,也能提高代碼的利用率。數(shù)據(jù)集市的概念也與之十分相似,就是將一些數(shù)據(jù)進(jìn)行共享或是交易,這樣在不同的項(xiàng)目中如果要用到同一批數(shù)據(jù),只需要在集市中提取就可以了,這樣就能顯著減少收集所需要的時間。構(gòu)建一個規(guī)模巨大的集市,有助于推動數(shù)據(jù)分析這個學(xué)科的發(fā)展,讓不同的領(lǐng)域都能因此而受益。但目前這只是一種想法,因?yàn)椴糠謹(jǐn)?shù)據(jù)是不易公開或用來交易的,所以現(xiàn)在集市的概念大多用在企業(yè)之間的合作中。
(三)數(shù)據(jù)分析系統(tǒng)的交互與兼容改進(jìn)
提高系統(tǒng)的交互與兼容性,是保障數(shù)據(jù)分析效率的有效手段?,F(xiàn)有的系統(tǒng)大多都只是支持文本、表格等幾種主要的格式,所以當(dāng)有一些特定的檢索需求時,系統(tǒng)是不能直接完成的。這是一種兼容性不足的體現(xiàn),所以應(yīng)當(dāng)增加可兼容的數(shù)據(jù)格式。對于一些特殊的數(shù)據(jù)格式,即使不能識別,也需要為其構(gòu)建擴(kuò)展結(jié)構(gòu),讓系統(tǒng)仍然實(shí)現(xiàn)一定功能。在系統(tǒng)投入使用前,需要對其進(jìn)行全面測試,可以通過使用其進(jìn)行大量的運(yùn)算,從而測試其容錯性能以及在檢測、分析方面是否有不足。
結(jié)語:總得來講,數(shù)據(jù)分析并不只是存在于理論上,而是可以真正地被使用到各個領(lǐng)域的一個學(xué)科。該學(xué)科的出現(xiàn)讓所有的行業(yè)都受到了影響,從積極的角度看,如果可以合理使用分析方法,就能提高數(shù)據(jù)的利用率,并挖掘其中的價值,從而避免其中包含的珍貴信息被浪費(fèi)掉?,F(xiàn)有的數(shù)據(jù)分析系統(tǒng)雖然具備強(qiáng)大的分析功能,但是仍然有很多可以改進(jìn)的地方。如果可以從技術(shù)層面上將系統(tǒng)更新,就能提高分析的準(zhǔn)確性。文章就目前系統(tǒng)的技術(shù)改進(jìn)提出了一些建議,希望可以起到一定的參考作用。
參考文獻(xiàn):
[1]鄒鵬.數(shù)據(jù)分析系統(tǒng)及其技術(shù)的改進(jìn)措施[J].科學(xué)與財(cái)富,2016,15(6)
[2]周文瓊.大數(shù)據(jù)環(huán)境下的電力客戶服務(wù)數(shù)據(jù)分析系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(5)
[3]劉梅.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].數(shù)字化用戶,2018年43期 >