張 悅
上海大學(xué)
數(shù)據(jù)種類、質(zhì)量及數(shù)據(jù)處理
張 悅
上海大學(xué)
本文介紹了什么事數(shù)據(jù),數(shù)據(jù)的屬性和數(shù)據(jù)值是什么,數(shù)據(jù)的種類包括標(biāo)稱屬性、序數(shù)屬性、區(qū)間屬性和比率屬性,以及數(shù)據(jù)質(zhì)量和數(shù)據(jù)處理必要步驟
數(shù)據(jù);數(shù)據(jù)處理
什么數(shù)據(jù)?《中國大百科全書》給出的定義是:“數(shù)據(jù),或稱資料,可由人工或自動(dòng)化手段加以處理的那些事實(shí)、概念和指示的表示形式,包括字符、符號(hào)、表格和圖形等”,全書認(rèn)為數(shù)據(jù)是關(guān)于事件的一組離散的客觀的事實(shí)描述,是構(gòu)成信息和知識(shí)的原始材料。
人們?cè)谌粘Ia(chǎn)生活中會(huì)產(chǎn)生大量的信息或者說數(shù)據(jù),在瀏覽照片的角度,這是信息,而在網(wǎng)站的維護(hù)人員來看這是一串?dāng)?shù)據(jù),但是數(shù)據(jù)和信息顯然存在某種關(guān)系。有人認(rèn)為數(shù)據(jù)是信息的具體表現(xiàn)形式,信息經(jīng)過加工成數(shù)據(jù)才能傳輸和存儲(chǔ)。那么數(shù)據(jù)是否可以指能夠傳輸和存儲(chǔ)的信息呢,從信息論的觀點(diǎn)看來,數(shù)據(jù)=信息+數(shù)據(jù)冗余,可以簡單的理解為信息是數(shù)據(jù)中包含的有用的內(nèi)容,因此,為了獲取信息我們有必要研究數(shù)據(jù),研究數(shù)據(jù)從認(rèn)識(shí)數(shù)據(jù)開始。
屬性是客觀對(duì)象的特征或特性,一種屬性往往反映事物對(duì)象一方面的特征,例如:一個(gè)人眼睛的顏色、膚色。一系列的屬性就能夠客觀的的描述事物對(duì)象,例如:《血字研究》中,福爾摩斯描述嫌疑人的特征:身高六尺、性別男、臉色赤紅、吸印度雪茄等,這一系列的特征就大致勾勒出嫌疑人。在數(shù)據(jù)研究中屬性也常被稱為變量、特征或特點(diǎn)。
1、屬性值
在福爾摩斯的案例中,我們用“六尺”數(shù)值來描述“身高”這種屬性,用“赤紅”描述“臉色”這種屬性特征,“六尺”、“赤紅”就是我們賦予屬性的數(shù)值和符號(hào),稱為屬性值。
屬性和屬性值之間的關(guān)系:同一個(gè)屬性可以賦予不同的屬性值,例如,當(dāng)形容筆記本“長度”這個(gè)屬性時(shí),我們可以賦予“長度”屬性1英尺的屬性值,也可以賦予12英寸或30.48厘米的屬性值。不同的屬性可以用同一套價(jià)值標(biāo)準(zhǔn)來衡量,例如,人年齡和身份證這兩種屬性的屬性值都是整數(shù),但需要注意的是,兩種屬性所賦予的屬性值的性質(zhì)有所差異,人的年齡有最大值和最小值,即存在一個(gè)整數(shù)區(qū)間,但是身份證號(hào)碼卻沒有這種限制,理論上可以取任意整數(shù)。
2、屬性的類型
屬性有不同類型,每種屬性屬于那種類型取決于屬性值擁有以下幾種特征:可辨別性、順序性、可加減和可乘除。當(dāng)某種屬性的屬性值能夠區(qū)分一個(gè)對(duì)象和另一個(gè)對(duì)象信息之間的區(qū)別,例如:員工代碼能夠明確的區(qū)分兩個(gè)員工、壓縮碼能夠辨別兩個(gè)文件,就把擁有這類屬性值的屬性歸為標(biāo)稱屬性。當(dāng)某種屬性值不僅具有可辨別性,而且屬性值的排序具有一定意義,例如成績順序可表示優(yōu)差、金屬硬度順序可為加工制作選材提供依據(jù),那么就把擁有這類屬性值的屬性歸為序數(shù)屬性。當(dāng)某種屬性的的屬性值不僅具有可辨別性和順序性的特征,值之間的差異還是有意義的,即一個(gè)測量存在單位,這類屬性是區(qū)間屬性。當(dāng)某種屬性的屬性值具有以上四種特征時(shí),我們把他歸為比率屬性,比率屬性值之間的差異和比率本身都是有意義的。
總之,屬性分為四種類型:標(biāo)稱屬性(nominal)、序數(shù)屬性(ordinal)、區(qū)間屬性(interval)和比率屬性(ratio)。每種屬性的屬性值特點(diǎn)不同,每種屬性也有所不同。
3、數(shù)據(jù)的離散屬性和連續(xù)屬性
離散數(shù)據(jù)有一個(gè)有限或可數(shù)無窮數(shù)集,通常表示為整數(shù)變量,具有離散屬性的數(shù)據(jù)只能呈現(xiàn)一定的個(gè)體價(jià)值。
連續(xù)數(shù)據(jù)是擁有實(shí)數(shù)作為數(shù)值集,實(shí)際上一般使用有限數(shù)值來測量和表示真實(shí)的價(jià)值。連續(xù)數(shù)據(jù)在一定范圍內(nèi)具有價(jià)值,比如:溫度、高度、重量、比賽時(shí)間、汽車的最高時(shí)速。
1、數(shù)據(jù)矩陣
如果數(shù)據(jù)對(duì)象擁有同樣固定的屬性,這樣數(shù)據(jù)對(duì)象可以被看做是一個(gè)多維空間中的點(diǎn),每一個(gè)維度代表一個(gè)不同的屬性。這樣數(shù)據(jù)集就可以表示成x、y代表的矩陣。x代表橫向,每一個(gè)單位代表一個(gè)對(duì)象,y是縱向,每一個(gè)單位代表屬性值。
2、文件數(shù)據(jù)
在文件數(shù)據(jù)中,每一個(gè)文件變成一個(gè)向量,每一個(gè)屬性都是這個(gè)向量的組成部分。每一種屬性的價(jià)值就是在一條文件記錄里發(fā)生的次數(shù)。
3、交易數(shù)據(jù)
一種特殊的記錄數(shù)據(jù)。因?yàn)槊恳粭l記錄都會(huì)有不同的術(shù)語,也就是記錄之間的屬性不完全相同。
數(shù)據(jù)存在問題,數(shù)據(jù)噪音和數(shù)據(jù)異常、數(shù)據(jù)和數(shù)據(jù)重復(fù)。數(shù)據(jù)噪音指的是改變了初始值。數(shù)據(jù)異常指的是在數(shù)據(jù)集中,數(shù)據(jù)的屬性特征和和其他大多數(shù)的數(shù)據(jù)有所不同。數(shù)據(jù)丟失的原因有:信息沒有收集到,例如,在調(diào)查中人們會(huì)少說他們的年齡和體重;預(yù)設(shè)的屬性不適合所有的案例,例如,平均收入對(duì)于兒童來說是不適用的。解決的方法有:剔除數(shù)據(jù)對(duì)象、估計(jì)無效值、在分析時(shí)忽略無效值、用所有可能的數(shù)值替換,比如用人們所有有可能的體重都計(jì)算一遍。重復(fù)數(shù)據(jù)是指數(shù)據(jù)集中的數(shù)字對(duì)象重復(fù),或者某些屬性值重復(fù),主要問題是發(fā)生在在從混雜的數(shù)據(jù)資料中合并提取數(shù)據(jù)時(shí),例如,同一個(gè)人擁有多個(gè)郵箱地址,這個(gè)時(shí)候我們就要進(jìn)行數(shù)據(jù)清洗。
我們研究數(shù)據(jù)的本質(zhì)目的是為了能夠更好的處理工作、科研生活中產(chǎn)生的海量數(shù)據(jù),了解數(shù)據(jù)的本質(zhì)能夠?yàn)槲覀內(nèi)绾谓M織、存儲(chǔ)數(shù)據(jù),共享、應(yīng)用數(shù)據(jù),制定可行的保障政策奠定基礎(chǔ)。
張悅 女 漢 河北石家莊 研究生 上海大學(xué) 研究方向:數(shù)據(jù)挖掘