鄒鵬
摘 要:隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展和計(jì)算與統(tǒng)計(jì)科學(xué)的不斷進(jìn)步,針對(duì)不同應(yīng)用領(lǐng)域,出現(xiàn)了大量的專業(yè)數(shù)據(jù)分析系統(tǒng)。數(shù)據(jù)分析系統(tǒng)就是通過對(duì)生產(chǎn)活動(dòng)中所出現(xiàn)的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其間的數(shù)值與邏輯規(guī)律,對(duì)分析對(duì)象的決策、改進(jìn)提供參考。常見的數(shù)據(jù)分析系統(tǒng)至少包括配置、采集、處理和應(yīng)用4個(gè)層級(jí),并包含采集數(shù)據(jù)、分析整理、提出模型、分析檢驗(yàn)等基本流程。針對(duì)現(xiàn)有的數(shù)據(jù)分析系統(tǒng),要想更好地改進(jìn)其性能,一方面要選取更適宜的數(shù)據(jù)分析指標(biāo),使數(shù)據(jù)分析更加具有可靠性;在軟件編寫時(shí),建立標(biāo)準(zhǔn)代碼庫(kù)與數(shù)據(jù)集市,并改進(jìn)其交互性、兼容性也顯得格外重要。
關(guān)鍵詞:數(shù)據(jù)分析系統(tǒng);技術(shù);改進(jìn)
隨著近年來大數(shù)據(jù)、云計(jì)算等新型計(jì)算機(jī)數(shù)據(jù)分析、存儲(chǔ)、計(jì)算等技術(shù)的提出與應(yīng)用,數(shù)據(jù)分析技術(shù)在各行各業(yè)中的重要性也越來越顯著。結(jié)合數(shù)據(jù)分析系統(tǒng),決策者可以通過數(shù)據(jù)的走勢(shì)、結(jié)構(gòu)、差異等指標(biāo),觀察分析對(duì)象的現(xiàn)狀,為未來的發(fā)展制定相應(yīng)的策略。
1 數(shù)據(jù)分析系統(tǒng)的基本概念
1.1 數(shù)據(jù)分析的基本概念
數(shù)據(jù)就是在生產(chǎn)活動(dòng)中所記錄下來的,包含生產(chǎn)活動(dòng)各類屬性信息的可以識(shí)別的符號(hào)。常見的數(shù)據(jù)表現(xiàn)形式有數(shù)據(jù)表格、趨勢(shì)圖、結(jié)構(gòu)圖等。為了改進(jìn)生產(chǎn)活動(dòng)的不足,提高工作效率,因此有了數(shù)據(jù)分析工作。在數(shù)據(jù)分析的過程中,首先要根據(jù)實(shí)際問題確定分析目標(biāo);根據(jù)分析需求,采用科學(xué)合理的方法進(jìn)行數(shù)據(jù)采集;采用適宜有效的方法整理并分析數(shù)據(jù);最后出具分析結(jié)果,為決策提供參考。
1.2 數(shù)據(jù)分析的常用方法
在數(shù)據(jù)分析過程中,有一些常用的有效方法,可以提高數(shù)據(jù)分析的可靠性。描述性統(tǒng)計(jì)是一類最常用的統(tǒng)計(jì)方法,其可以較好地揭示數(shù)據(jù)的分布特性,例如數(shù)據(jù)的頻數(shù)分析、集中趨勢(shì)分析、離散程度分析以及分布分析等;回歸分析是基于所觀測(cè)數(shù)據(jù)來建立變量間的數(shù)值模型,并分析其間內(nèi)在規(guī)律的方法,包括一元線性回歸、多元線性回歸和其他回歸方法等;方差分析的樣本來自正態(tài)分布的總體,并相互之間獨(dú)立,包括單因素方差、多因素方差和協(xié)方差等類型;假設(shè)檢驗(yàn)方法適用于順序類型的數(shù)據(jù)資料,其分布形態(tài)未知(非正態(tài)分布),但總體仍然是連續(xù)的,有參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)等。
1.3 數(shù)據(jù)分析系統(tǒng)的典型架構(gòu)
所謂數(shù)據(jù)分析系統(tǒng),就是在數(shù)據(jù)分析流程中,承擔(dān)從外部眾多系統(tǒng)采集相關(guān)業(yè)務(wù)數(shù)據(jù),并儲(chǔ)存到數(shù)據(jù)庫(kù)中進(jìn)行分析的功能單元。數(shù)據(jù)分析系統(tǒng)可以完成對(duì)原始數(shù)據(jù)的一系列處理轉(zhuǎn)換,并存儲(chǔ)到相應(yīng)的數(shù)據(jù)庫(kù)中,再根據(jù)生產(chǎn)活動(dòng)的需要將數(shù)據(jù)轉(zhuǎn)換成可利用的模型,并供其他專門的上層數(shù)據(jù)應(yīng)用組件采集與分析。因此,根據(jù)數(shù)據(jù)被采集、轉(zhuǎn)換、存儲(chǔ)、分析、應(yīng)用等角度,常見的數(shù)據(jù)分析系統(tǒng)可以被劃分為配置層、采集層、處理層和應(yīng)用層等4個(gè)邏輯層級(jí)。
1.4 數(shù)據(jù)分析系統(tǒng)的基本流程
在數(shù)據(jù)分析系統(tǒng)的整個(gè)流程中,要通過建立分析模型對(duì)數(shù)據(jù)進(jìn)行識(shí)別和探索分析。典型的數(shù)據(jù)分析至少包含探索性數(shù)據(jù)分析、模型選定和推斷分析三個(gè)過程。當(dāng)數(shù)據(jù)剛剛采集后,其形式一般雜亂無章,難以發(fā)現(xiàn)其中的數(shù)值與邏輯聯(lián)系,因此要通過作圖、制表、參數(shù)擬合等方法探索數(shù)據(jù)的內(nèi)在規(guī)律,一般可以通過擬合方程并取得典型的特征參數(shù)來揭示數(shù)據(jù)的內(nèi)在規(guī)律;發(fā)現(xiàn)數(shù)據(jù)大致規(guī)律以后,就可以提出可能的數(shù)學(xué)模型,并根據(jù)進(jìn)一步分析選定最適合的模型;最后通過數(shù)理方法對(duì)所選模型的精確度和可靠性進(jìn)行分析。由此可以得出數(shù)據(jù)分析的主要步驟,即首先由需求方提出信息需求,系統(tǒng)通過對(duì)需求的分析,識(shí)別出需要進(jìn)行采集的數(shù)據(jù)類型;根據(jù)需求識(shí)別的結(jié)構(gòu),有的放矢地進(jìn)行數(shù)據(jù)采集,并采取有效的記錄形式,便于后續(xù)的分析;選取合適的數(shù)據(jù)分析方法,將數(shù)據(jù)進(jìn)行加工、整理、轉(zhuǎn)化。
2 數(shù)據(jù)分析系統(tǒng)在技術(shù)方面的改進(jìn)措施
2.1 數(shù)據(jù)分析指標(biāo)選取方法的改進(jìn)
數(shù)據(jù)指標(biāo)是數(shù)據(jù)分析的有力手段。選取好的數(shù)據(jù)指標(biāo),不僅可以節(jié)省數(shù)據(jù)采集與分析的資源,更可以大大提高數(shù)據(jù)分析的可靠性。良好的數(shù)據(jù)指標(biāo)應(yīng)當(dāng)具有以下特征:具有突出的比較性,即可以比較不同時(shí)段、不同用戶之間的表現(xiàn)差異,通過比較差異來判斷分析對(duì)象的走向趨勢(shì);易讀性,即指標(biāo)的定義與展現(xiàn)形式可以便于人們理解討論;全面性,即通過更少的指標(biāo)表現(xiàn)出更多的對(duì)象特征,并便于分析者作出更全面的判斷。要想為數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)更合適的數(shù)據(jù)指標(biāo),首先要對(duì)指標(biāo)進(jìn)行定性與量化,定性數(shù)據(jù)更能體現(xiàn)對(duì)象的主管因素,具有一定的判斷性;而定量數(shù)據(jù)更能衡量客觀特征,適合于回答“是什么”的問題。同時(shí)要濾除不具有代表性的虛假指標(biāo),尤其是一些具有欺騙意義的指標(biāo)。例如在做網(wǎng)站分析時(shí),“注冊(cè)用戶總量”就是一個(gè)意義不大的指標(biāo),其只能代表隨著時(shí)間不但增長(zhǎng)的累計(jì)注冊(cè)用戶數(shù),卻不能表征當(dāng)前網(wǎng)站用戶的實(shí)際狀況,相比較而言,“當(dāng)前活躍用戶量”則更有分析意義。找出探索性與先見性指標(biāo),這類指標(biāo)對(duì)分析對(duì)象的改進(jìn)可未來問題的預(yù)測(cè)更有參考意義。
2.2 建立標(biāo)準(zhǔn)的代碼庫(kù)與數(shù)據(jù)集市
在編寫數(shù)據(jù)分析系統(tǒng)時(shí),為了避免時(shí)間的浪費(fèi),要習(xí)慣于建立標(biāo)準(zhǔn)點(diǎn)分分析代碼庫(kù),并將代碼庫(kù)在不同項(xiàng)目、或同一個(gè)項(xiàng)目的不同部門之間進(jìn)行共享。數(shù)據(jù)分析系統(tǒng)常常用到數(shù)據(jù)集市的概念,即在多個(gè)分析項(xiàng)目中,如果要用到同一批數(shù)據(jù),就可以建立包含這些特定數(shù)據(jù)的數(shù)據(jù)集市。例如,在網(wǎng)站分析項(xiàng)目中,多個(gè)分析報(bào)告均要用到網(wǎng)站的訪問量數(shù)據(jù),雖然可以每次使用時(shí)再去網(wǎng)站進(jìn)行采集,但更好的方法是,先將所有分析網(wǎng)站內(nèi)的訪問數(shù)據(jù)全部提取,建立數(shù)據(jù)集市,每次使用時(shí)直接到數(shù)據(jù)集市進(jìn)行提取,可以大大提高分析效率。
2.3 數(shù)據(jù)分析系統(tǒng)的交互與兼容性改進(jìn)
提高數(shù)據(jù)分析系統(tǒng)的交互與兼容性,也是保障數(shù)據(jù)分析效率的有效手段。數(shù)據(jù)分析系統(tǒng)(軟件)一般是通過工業(yè)的標(biāo)準(zhǔn)格式進(jìn)行數(shù)據(jù)檢索的,例如文本文檔、數(shù)據(jù)庫(kù)、電子表格等文件格式,因此,良好的數(shù)據(jù)分析系統(tǒng),應(yīng)當(dāng)盡可能多地兼容通用的數(shù)據(jù)格式,而非采用非標(biāo)格式進(jìn)行數(shù)據(jù)存儲(chǔ)。當(dāng)然,對(duì)于特殊的數(shù)據(jù)格式,即便不提供直接的識(shí)別方案,也應(yīng)當(dāng)留出為用戶自定義格式的擴(kuò)展接口;數(shù)據(jù)分析系統(tǒng)對(duì)載體的兼容性也十分重要,實(shí)際上,良好的數(shù)據(jù)軟件可以更多地兼容不同的載體(計(jì)算機(jī)系統(tǒng)、硬件設(shè)備等),而花費(fèi)更少的配置時(shí)間。在系統(tǒng)投入使用前,要接受更全面的使用測(cè)試,如創(chuàng)建大量數(shù)據(jù)或空數(shù)據(jù)等特殊格式,或進(jìn)行超大量運(yùn)算、錯(cuò)誤運(yùn)算等操作,以測(cè)試系統(tǒng)的容錯(cuò)性能,要求系統(tǒng)的運(yùn)輸、檢測(cè)、顯示等不出現(xiàn)問題。
3 結(jié)束語(yǔ)
總而言之,數(shù)據(jù)分析不僅是一項(xiàng)理論學(xué)科,在數(shù)據(jù)分析的實(shí)際應(yīng)用過程中,更是要結(jié)合各行各業(yè)的實(shí)際情況,分析數(shù)據(jù)需求、改良系統(tǒng)結(jié)構(gòu)、選取合理指標(biāo),為數(shù)據(jù)分析的準(zhǔn)確性制定更良好的推進(jìn)策略。本文僅根據(jù)典型數(shù)據(jù)分析系統(tǒng)的現(xiàn)狀,結(jié)合數(shù)據(jù)分析科學(xué)的基本提點(diǎn),提出了一些改進(jìn)措施,對(duì)相關(guān)工作的落實(shí)具有一定的參考意義。
參考文獻(xiàn)
[1]周文瓊.大數(shù)據(jù)環(huán)境下的電力客戶服務(wù)數(shù)據(jù)分析系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(4):51-57.
[2]龍少杭.基于Storm的實(shí)時(shí)大數(shù)據(jù)分析系統(tǒng)的研究與實(shí)現(xiàn)[D].上海交通大學(xué),2015.