• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      元數(shù)據(jù)評估模型及質(zhì)量提升對策

      2021-11-05 18:58蒲飛涂旭東陳苗趙正輝
      中國新通信 2021年18期
      關(guān)鍵詞:元數(shù)據(jù)數(shù)據(jù)質(zhì)量對策

      蒲飛 涂旭東 陳苗 趙正輝

      【摘要】? ? 跟隨教育信息化的飛速發(fā)展,高校信息化系統(tǒng)迅速擴張,產(chǎn)生了海量教育大數(shù)據(jù)。許多高職院校都建立了校級的數(shù)據(jù)中心,高質(zhì)量的元數(shù)據(jù)是數(shù)據(jù)中心的最基本部分。元數(shù)據(jù)質(zhì)量直接決定著大數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,但由于數(shù)據(jù)來源的多樣化和復(fù)雜化,導(dǎo)致數(shù)據(jù)形式、格式不一,元數(shù)據(jù)的質(zhì)量難以保證;導(dǎo)致難以支撐高校教學(xué)、科研和管理模式改革。本文以數(shù)據(jù)質(zhì)量的判定模型為標(biāo)準(zhǔn),對重慶醫(yī)藥高等??茖W(xué)校元數(shù)據(jù)來源進行分析,并針對性提出提高數(shù)據(jù)質(zhì)量的解決方法策略,為其他高職院校數(shù)據(jù)質(zhì)量分析提供借鑒。

      【關(guān)鍵詞】? ? 元數(shù)據(jù)? ? 數(shù)據(jù)質(zhì)量? ? 判定模型? ? 對策

      一、元數(shù)據(jù)質(zhì)量是智慧校園建設(shè)的基礎(chǔ)

      隨著教育信息化的來的深入發(fā)展,各高校紛紛開始啟動大數(shù)據(jù)戰(zhàn)略,并建立數(shù)據(jù)中心,來深度推進學(xué)校信息化的建設(shè)和發(fā)展。當(dāng)前各高校正在從數(shù)字化校園的建設(shè)逐步邁向智慧校園的建設(shè),這樣就使得數(shù)據(jù)中心的數(shù)據(jù)變得更為海量化、復(fù)雜化、多樣化和快速化。另一方面,數(shù)據(jù)中心元數(shù)據(jù)的質(zhì)量直接決定著大數(shù)據(jù)分析的結(jié)果,數(shù)據(jù)中心元數(shù)據(jù)的質(zhì)量如果得不到一定程度的保證,后續(xù)的大數(shù)據(jù)分析將會建立在這些不可靠的數(shù)據(jù)之上。因此學(xué)校數(shù)據(jù)中心的元數(shù)據(jù)質(zhì)量是決定學(xué)校能否從數(shù)字化數(shù)園順利過渡到智慧校園的關(guān)鍵。但學(xué)校元數(shù)據(jù)的質(zhì)量到底如何,又該如何進行評價,下面通過元數(shù)據(jù)質(zhì)量評估的模型,以重慶醫(yī)藥高等??茖W(xué)校元數(shù)據(jù)為例來進行探討提升數(shù)據(jù)質(zhì)量的方法。

      二、數(shù)據(jù)質(zhì)量的判定模型

      通常對數(shù)據(jù)質(zhì)量的理解就是存儲于計算機及網(wǎng)絡(luò)系統(tǒng)中的數(shù)據(jù)質(zhì)量的好壞和優(yōu)劣[3]。如何來判斷數(shù)據(jù)中心數(shù)據(jù)質(zhì)量的好壞和優(yōu)劣,當(dāng)前并沒有一個很好的標(biāo)準(zhǔn)。我們在對學(xué)校數(shù)據(jù)質(zhì)量的判定中,主要是按照元數(shù)據(jù)四個不同的維度對質(zhì)量進行評估:如下圖1。

      2.1數(shù)據(jù)質(zhì)量模型評估標(biāo)準(zhǔn)四個方面的關(guān)系

      從圖1中可以看出,評估標(biāo)準(zhǔn)的四個方面中,可獲得度是解決能否從系統(tǒng)中獲取數(shù)據(jù)的問題,包括通過一定的數(shù)據(jù)轉(zhuǎn)換模型來獲得的數(shù)據(jù)[3]。數(shù)據(jù)的可獲得度是數(shù)據(jù)可理解度的基礎(chǔ),它與數(shù)據(jù)可理解度一起,構(gòu)成了挖掘數(shù)據(jù)的基本條件。只有獲取了數(shù)據(jù),并且對數(shù)據(jù)的語法、語義理解之后,用戶才能進行數(shù)據(jù)挖掘。但當(dāng)用戶獲取并理解了數(shù)據(jù)之后,隨之而來的一個問題是:數(shù)據(jù)是否可信。假設(shè)數(shù)據(jù)的可信度很高,那么接下來的問題是:數(shù)據(jù)是否有用。因此可以說數(shù)據(jù)質(zhì)量評估的四個方面:可獲得度,可理解度,可信度,可用度,是一種遞進深入的關(guān)系。元數(shù)據(jù)質(zhì)量的是否優(yōu)劣,須依次回答四個問題[5]:一從哪里獲取數(shù)據(jù);二是否明白和理解已獲取的數(shù)據(jù);三數(shù)據(jù)有多少是可信的;四可信的的數(shù)據(jù)中有哪些數(shù)據(jù)對分析和挖掘有用。經(jīng)過上述四個流程篩選之后,元數(shù)據(jù)質(zhì)量就會得到保證,接下來就可放心地對數(shù)據(jù)進行預(yù)處理,然后就可以根據(jù)創(chuàng)立相應(yīng)的算法,使用相應(yīng)的模型進行數(shù)據(jù)分析了。

      2.2數(shù)據(jù)質(zhì)量12個影響因子的相互關(guān)系

      影響數(shù)據(jù)質(zhì)量的因素,既可按照評估標(biāo)準(zhǔn)分成4個大的方面,又可根據(jù)每個具體的評估標(biāo)準(zhǔn)拆分成12個最終影響因子(如圖1)。即數(shù)據(jù)質(zhì)量的優(yōu)劣其實是根據(jù)這12個因子來評判的,當(dāng)然這12個因子在對數(shù)據(jù)質(zhì)量判定上的作用各有側(cè)重,并不是都完全相同的。有些因子,如準(zhǔn)確性、可靠性等之類的,對數(shù)據(jù)質(zhì)量的判定作用幾乎是一票否決,而有些因子如相關(guān)性、可比性等之類的,對數(shù)據(jù)質(zhì)量的判定作用相對而言要弱一些。這些影響因子既在評估標(biāo)準(zhǔn)每個方面的內(nèi)部之間相互關(guān)聯(lián)、相互影響,同時又能影響其他評估標(biāo)準(zhǔn)下的影響因子。

      比如數(shù)據(jù)的準(zhǔn)確性較差,那么數(shù)據(jù)的可靠性、有效性就不會太高;如果數(shù)據(jù)同時能夠做到準(zhǔn)確、一致、有時效,那么數(shù)據(jù)的可靠性就比較高。因此12個影響因子缺一不可、相輔相成構(gòu)成了對數(shù)據(jù)質(zhì)量優(yōu)劣的評判。

      2.3數(shù)據(jù)質(zhì)量研究判斷的難題

      從上述12個數(shù)據(jù)質(zhì)量的影響因子中可以看出,這些影響因子對數(shù)據(jù)質(zhì)量的評判更多的是一種定性的判斷。相對于數(shù)據(jù)分析而言,數(shù)據(jù)質(zhì)量的評判需要給出定量的結(jié)果。假設(shè)抽樣數(shù)據(jù)的準(zhǔn)確性不是100%,而是準(zhǔn)確性為90%,一致性為91%、完整性為92%。按工程上的準(zhǔn)確率計算方法,根據(jù)這三個因子相乘計算得出的數(shù)據(jù)質(zhì)量優(yōu)劣率為90%*91%*92%*100%=75%,如果再有其它的幾項因子相乘,那么數(shù)據(jù)質(zhì)量的優(yōu)劣率將會變得更低。除非保證數(shù)據(jù)質(zhì)量影響因子的參數(shù)值都為100%,否則數(shù)據(jù)質(zhì)量優(yōu)劣率都將會低于100%,也就是說數(shù)據(jù)都將是不完全可信的,但是12個數(shù)據(jù)質(zhì)量影響因子同時定性為100%,這在現(xiàn)實中不太可能。在實際中,總是希望數(shù)據(jù)質(zhì)量越高越好,這只是一種定性的說法,能不能對數(shù)據(jù)質(zhì)量建立一種更為精確的定量分析方式,使得數(shù)據(jù)質(zhì)量根據(jù)各項指標(biāo)的參數(shù)值進行綜合評判,當(dāng)數(shù)據(jù)質(zhì)量的各項影響因子達(dá)到某些閾值的時候,數(shù)據(jù)才是可靠和可性的,才會在數(shù)據(jù)分析中具有研究的價值,但是實際的情況是閾值的確定,這是數(shù)據(jù)質(zhì)量評估要深入研究的一個課題[5]。

      三、重慶醫(yī)藥高等??茖W(xué)校元數(shù)據(jù)質(zhì)量現(xiàn)狀

      在高職院校的各項信息數(shù)據(jù)中,高校普遍存在數(shù)據(jù)質(zhì)量不高的事實,而且當(dāng)前越來越多的高校也已經(jīng)意識到因數(shù)據(jù)質(zhì)量不高而可能產(chǎn)生的各類問題。為了摸清我校數(shù)據(jù)質(zhì)量的狀況,學(xué)校信息圖書中心聯(lián)合其它相關(guān)職能部門,對本校數(shù)字化校園內(nèi)的,一段時間內(nèi)和一定范圍內(nèi)的數(shù)據(jù)作了一次數(shù)據(jù)質(zhì)量抽樣的摸底調(diào)查分析。由于數(shù)字化校園數(shù)據(jù)類型多樣、龐大,因此有必要在作摸底調(diào)查之前,對每種類型的數(shù)據(jù)作一個從數(shù)據(jù)選擇到分析方法的大致規(guī)劃。將結(jié)構(gòu)化類型數(shù)據(jù)采取數(shù)值量化、將非結(jié)構(gòu)化數(shù)據(jù)中不易量化的數(shù)據(jù)劃分為優(yōu)、良、一般、劣四個等級[4-5],確保本次抽樣數(shù)據(jù)質(zhì)量分析接近本校的實際情況。

      3.1個人手工輸入方式數(shù)據(jù)

      在整個系統(tǒng)中涉及數(shù)據(jù)手工輸入的操作者主要有學(xué)生、普通教師、系統(tǒng)平臺管理員類, 它們一方面由于對系統(tǒng)各個子平臺使用不熟悉,對某些填寫內(nèi)容理解不透徹[3];另一個方面是由于計算機技能欠缺, 培訓(xùn)機會不多和責(zé)任心不強,在錄入數(shù)據(jù)時可能會誤填、漏填或誤添某項數(shù)據(jù);又加上系統(tǒng)中的某些數(shù)據(jù)定義不明確、概念混淆,系統(tǒng)在開發(fā)時控制和校驗不嚴(yán),造成數(shù)據(jù)的缺項和漏項,導(dǎo)致系統(tǒng)中數(shù)據(jù)質(zhì)量問題很多,從而影響數(shù)據(jù)的準(zhǔn)確性。

      3.2外部系統(tǒng)來源的結(jié)構(gòu)化數(shù)據(jù)

      從外部系統(tǒng)導(dǎo)入到學(xué)校系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),主要存在不同系統(tǒng)之間數(shù)據(jù)編碼沖突的問題,這是因為大多數(shù)系統(tǒng)之間沒有統(tǒng)一的技術(shù)和數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)不能自動導(dǎo)入,缺乏有效的關(guān)聯(lián)和共享[5]。

      不同數(shù)據(jù)源的相同數(shù)據(jù)編碼不一致,常見的有兩種情形,一種為屬性編碼的不一致。以學(xué)校招生管理系統(tǒng)中學(xué)生的性別為例,外部系統(tǒng)數(shù)據(jù)源編碼為“男=1,女=2”,而在學(xué)校系統(tǒng)數(shù)據(jù)源中編碼為“女=1,男=2”,這樣就造成了數(shù)據(jù)導(dǎo)入的出錯,影響數(shù)據(jù)的準(zhǔn)確性。另一種為字符編碼的不一致,常見的中文字符編碼有GBK編碼和UTF-8編碼,一種字符編碼的數(shù)據(jù)在導(dǎo)入到另一種字符編碼的數(shù)據(jù)時容易出現(xiàn)亂碼,因此在導(dǎo)入外部系統(tǒng)來源的結(jié)構(gòu)化數(shù)據(jù)之前有必要做好屬性編碼和字符編碼的轉(zhuǎn)換。

      另一方面,在高校當(dāng)前的各個應(yīng)用環(huán)境中,不同系統(tǒng)之間存在大量的業(yè)務(wù)數(shù)據(jù)依賴,比如教務(wù)系統(tǒng)中學(xué)生的基本信息數(shù)據(jù),可能是從招生管理系統(tǒng)或者迎新管理系統(tǒng)中導(dǎo)入,來自迎新管理系統(tǒng)的數(shù)據(jù),因為某些學(xué)生未來入學(xué)和各管理員沒有在系統(tǒng)中對學(xué)生的信息進行及時核對,導(dǎo)致學(xué)生的數(shù)據(jù)變得不準(zhǔn)確,因此在從其它系統(tǒng)導(dǎo)入數(shù)據(jù)之前,有必要對相關(guān)數(shù)據(jù)進行核對,以保證數(shù)據(jù)的準(zhǔn)確性和完整性。

      3.3外部來源的非結(jié)構(gòu)化數(shù)據(jù)

      非結(jié)構(gòu)化數(shù)據(jù)一般是指無法用固定結(jié)構(gòu)來邏輯表達(dá)實現(xiàn)的數(shù)據(jù),包括辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音視頻等等,相比結(jié)構(gòu)化數(shù)據(jù)而言,這類數(shù)據(jù)特別是音視頻文件沒有統(tǒng)一的格式,關(guān)鍵詞不統(tǒng)一。這類非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容大多數(shù)不易改動,質(zhì)量的決定主要是清晰度,但是一般而言在存儲時候,都會作一次篩選,因此數(shù)據(jù)質(zhì)量較高。

      3.4應(yīng)用系統(tǒng)自動生成的結(jié)構(gòu)化數(shù)據(jù)

      應(yīng)用系統(tǒng)自動生成的結(jié)構(gòu)化數(shù)據(jù),如門禁系統(tǒng)數(shù)據(jù)和一卡通系統(tǒng)數(shù)據(jù),相比外部導(dǎo)入的結(jié)構(gòu)化數(shù)據(jù)而言,數(shù)據(jù)的準(zhǔn)確性,完整性的都很好,數(shù)據(jù)質(zhì)量相對較高,這主要是因為系統(tǒng)自動生成的數(shù)據(jù)格式固定,不會出現(xiàn)手工輸入數(shù)據(jù)存在的各種問題。因此從這上面可以看出,如果要想數(shù)據(jù)質(zhì)量高,盡量應(yīng)使用系統(tǒng)自動產(chǎn)生的規(guī)范線上數(shù)據(jù)。

      3.5應(yīng)用系統(tǒng)自動生成的非結(jié)構(gòu)化數(shù)據(jù)

      由于是應(yīng)用系統(tǒng)自動生成的非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的準(zhǔn)確率相對也是很高。

      四、提高元數(shù)據(jù)質(zhì)量的措施

      4.1組建專業(yè)的管理人員隊伍

      高校數(shù)字化校園系統(tǒng)對學(xué)校來說是及其重要的部分,不可能讓每一個人都對系統(tǒng)進行增刪改,必須賦予一部分特定的人員較高或最高的權(quán)限,來對系統(tǒng)進行管理和獨立操作。另一方面,高校數(shù)字化校園系統(tǒng)對數(shù)據(jù)的處理要求很高,這主要是因為業(yè)務(wù)中對數(shù)據(jù)的提取,加載,轉(zhuǎn)換和處理比較頻繁[5],這必須要求要有一定計算機水平的管理人員來維護數(shù)據(jù)的一致性與完整性,在數(shù)據(jù)錄入時控制數(shù)據(jù)的來龍去脈,對輸入的數(shù)據(jù),要進行完整性約束。 我校在意識到此問題之后,是在每一個部門設(shè)一個部門數(shù)據(jù)管理員,并且定期組織數(shù)據(jù)管理技能培訓(xùn)。

      4.2建立嚴(yán)格的審核機制

      正確地輸入數(shù)據(jù)是系統(tǒng)進行有效數(shù)據(jù)分析的前提和保證,錯誤的數(shù)據(jù)只會讓系統(tǒng)輸出不正確或無用的結(jié)果,從而導(dǎo)致后續(xù)數(shù)據(jù)的處理和分析失去意義,因此有必要要求各平臺和各系統(tǒng)管理員對手工輸入的數(shù)據(jù)進行嚴(yán)格的審查和核對;另一方面要求信息系統(tǒng)也具有一定的自動審核機制,比如自動清除字符之間的空格,判斷必填項是否為空等等,真正實現(xiàn)從源頭上控制數(shù)據(jù)的質(zhì)量,從而降低數(shù)據(jù)出錯的概率,為后續(xù)數(shù)據(jù)的導(dǎo)出或分析奠定堅實的基礎(chǔ)。

      4.3建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)

      業(yè)務(wù)數(shù)據(jù)的標(biāo)準(zhǔn)化包括統(tǒng)一的數(shù)據(jù)字符編碼標(biāo)準(zhǔn)和統(tǒng)一的屬性編碼標(biāo)準(zhǔn),統(tǒng)一的屬性編碼標(biāo)準(zhǔn)是指屬性的值有多個字段,給每個字段進行統(tǒng)一的編碼,比如“民族”這個屬性,對漢族進行編碼為1,壯族編碼為2等等。目前中華人民共和國教育行業(yè)標(biāo)準(zhǔn)中的《高等學(xué)校管理信息標(biāo)準(zhǔn)》以及數(shù)據(jù)標(biāo)準(zhǔn)化的思想尚未得到全面應(yīng)用[3],但是很有必要在全國進行推廣。我校通過此數(shù)據(jù)治理也建設(shè)了一套適用于本校的數(shù)據(jù)標(biāo)準(zhǔn),主要原則是“有國標(biāo)用國標(biāo),有省標(biāo)用省標(biāo),無標(biāo)就自建校標(biāo)”的方法。

      4.4建立可靠的數(shù)據(jù)質(zhì)量評估和監(jiān)督機制。

      數(shù)據(jù)質(zhì)量的持續(xù)改進和提高,需要相應(yīng)的數(shù)據(jù)管理部門來評估和監(jiān)督,需要相關(guān)部門負(fù)責(zé)對數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)進行定義和控制,包括抽查等,目的是為了當(dāng)有數(shù)據(jù)質(zhì)量問題時,及時告知各業(yè)務(wù)部門,找出導(dǎo)致問題的源頭數(shù)據(jù),并監(jiān)督相關(guān)業(yè)務(wù)部門改進,這些在保證數(shù)據(jù)質(zhì)量繼續(xù)改進的同時,又避免了較大數(shù)據(jù)事件的出現(xiàn)。

      五、結(jié)束語

      隨著各高校的數(shù)字化校園建設(shè)正逐步邁向智慧校園建設(shè),用戶對各個系統(tǒng)的功能要求也越來越高。一方面,要求系統(tǒng)提供更多更強的功能,從原來功能的“單一化“發(fā)展為現(xiàn)在功能的“多樣化”,從原來數(shù)據(jù)的簡單獲取,發(fā)展為現(xiàn)在數(shù)據(jù)的綜合分析,再到數(shù)據(jù)為決策者提供決策支持;另一方面,信息化建設(shè)的重心正在發(fā)生轉(zhuǎn)變,之前主要是以關(guān)注各個應(yīng)用系統(tǒng)的功能要滿足各個業(yè)務(wù)部門工作為主,現(xiàn)在逐漸過度到了以關(guān)注用戶包括各職能部門管理者的決策分析使用需求為主。

      并要求系統(tǒng)能提供定制化和個性化的集成服務(wù)。因此高校的信息化建設(shè)要真正實現(xiàn)精準(zhǔn)化服務(wù),真正滿足用戶對系統(tǒng)和數(shù)據(jù)日益增長的需求,就必須進一步提高各系統(tǒng)數(shù)據(jù)的質(zhì)量,為智慧校園打下堅實的數(shù)據(jù)基礎(chǔ)。

      參? 考? 文? 獻(xiàn)

      [1]賈宏.高校機構(gòu)資源庫元數(shù)據(jù)質(zhì)量控制研究.南陽師范學(xué)院學(xué)報,2017(16):65-67.

      [2] 郭曉明,高校信息化環(huán)境中數(shù)據(jù)質(zhì)量問題探析.中國教育信息化,2016(15):59-62.

      [3] 宓詠.智慧時代數(shù)據(jù)服務(wù)的發(fā)展與思考[J].中國教育網(wǎng)絡(luò),2015(8):23-26.

      [4] 郭曉明,張巍.高校信息化建設(shè)中公共數(shù)據(jù)平臺的探討[J].中國教育信息化,2015(19):69-72.

      [5]楊勤.高校統(tǒng)計數(shù)據(jù)質(zhì)量問題若干問題[J].現(xiàn)代經(jīng)濟信息.2016(1).

      蒲飛(1970.05),男,本科,高級工程師,研究方向:系統(tǒng)規(guī)劃與管理、數(shù)據(jù)管理、治理。

      通訊作者: 陳苗(1990.07),女,研究生,講師,研究方向:計算機系統(tǒng)結(jié)構(gòu)、移動計算。

      猜你喜歡
      元數(shù)據(jù)數(shù)據(jù)質(zhì)量對策
      提高中小學(xué)音樂欣賞教學(xué)質(zhì)量對策探討
      “深度偽造”中個人隱私的保護:風(fēng)險與對策
      走,找對策去!
      我國貨幣錯配的現(xiàn)狀及對策
      基于來源的組織機構(gòu)元數(shù)據(jù)構(gòu)建研究
      元數(shù)據(jù)與社會化標(biāo)簽在微視頻搜索中的應(yīng)用
      高等院校智慧校園建設(shè)規(guī)劃與實現(xiàn)
      淺析統(tǒng)計數(shù)據(jù)質(zhì)量
      金融統(tǒng)計數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實踐
      淺談統(tǒng)計數(shù)據(jù)質(zhì)量控制
      且末县| 新闻| 武威市| 瓮安县| 房山区| 武冈市| 屏边| 安国市| 长泰县| 饶阳县| 漯河市| 四会市| 麻栗坡县| 海宁市| 革吉县| 阳泉市| 汤原县| 遵义市| 通辽市| 青冈县| 台中市| 宁强县| 汾阳市| 建瓯市| 商洛市| 永吉县| 石家庄市| 道孚县| 子洲县| 台中市| 南城县| 舞阳县| 陇南市| 盐津县| 荔波县| 石楼县| 天门市| 乌海市| 威海市| 秀山| 大连市|