• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      探究大數(shù)據(jù)處理過(guò)程中的數(shù)據(jù)質(zhì)量影響

      2020-12-30 16:08:55李康
      關(guān)鍵詞:可用性數(shù)據(jù)源準(zhǔn)確性

      ◆李康

      (成都三零盛安信息系統(tǒng)有限公司 四川 610031)

      目前,大數(shù)據(jù)技術(shù)是廣泛應(yīng)用于各領(lǐng)域中的重要技術(shù)之一,通過(guò)處理與分析總體數(shù)據(jù)、關(guān)注事物之間存在的關(guān)聯(lián)性,分析預(yù)測(cè)出發(fā)展趨勢(shì)。大數(shù)據(jù)是由社交網(wǎng)絡(luò)、監(jiān)控設(shè)備、移動(dòng)計(jì)算、傳感器等信息源產(chǎn)生,數(shù)據(jù)來(lái)源具有復(fù)雜性、多樣性,對(duì)大數(shù)據(jù)技術(shù)運(yùn)行帶來(lái)較大的數(shù)據(jù)提取難度,也影響了大數(shù)據(jù)質(zhì)量。

      1 大數(shù)據(jù)質(zhì)量的界定

      1.1 大數(shù)據(jù)質(zhì)量

      大數(shù)據(jù)是指數(shù)據(jù)巨大,已經(jīng)無(wú)法通過(guò)人工方式合理化截取、管理、處理、整理。大數(shù)據(jù)類(lèi)型多樣化,包括結(jié)構(gòu)、非結(jié)構(gòu)、半結(jié)構(gòu)數(shù)據(jù),還包含系統(tǒng)、傳感器、社交媒體產(chǎn)生的數(shù)據(jù)等。從數(shù)據(jù)格式角度,大數(shù)據(jù)還包括文本、圖片、數(shù)值、音頻、視頻等數(shù)據(jù)。為了實(shí)現(xiàn)大數(shù)據(jù)有效解讀,大數(shù)據(jù)技術(shù)、大數(shù)據(jù)平臺(tái)、大數(shù)據(jù)應(yīng)用被研發(fā)而出。根據(jù)大數(shù)據(jù)定義與特征,大數(shù)據(jù)質(zhì)量是指數(shù)據(jù)分析、處理、預(yù)測(cè)等過(guò)程滿(mǎn)足用戶(hù)需求。在處理大數(shù)據(jù)時(shí),處理流程如下:收集數(shù)據(jù)、預(yù)處理數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、分析與挖掘數(shù)據(jù)、展示數(shù)據(jù)、應(yīng)用大數(shù)據(jù)等。在此流程過(guò)程中,數(shù)據(jù)質(zhì)量貫穿于每個(gè)環(huán)節(jié)中。

      1.2 大數(shù)據(jù)質(zhì)量維度

      1.2.1 數(shù)據(jù)真實(shí)性

      大數(shù)據(jù)真實(shí)記錄了數(shù)據(jù)變化及運(yùn)行模式,顯示其原始質(zhì)量,體現(xiàn)在數(shù)據(jù)可信性、真實(shí)性、來(lái)源與信譽(yù)、有效性、可審計(jì)性等方面。大數(shù)據(jù)存在于虛擬網(wǎng)絡(luò)中,會(huì)受到惡意性攻擊,導(dǎo)致“數(shù)據(jù)產(chǎn)生污染”,影響決策結(jié)果,應(yīng)采取有效措施保證真實(shí)性與客觀性,保障大數(shù)據(jù)價(jià)值挖掘與趨勢(shì)預(yù)測(cè)的效果。

      1.2.2 數(shù)據(jù)完整性

      大數(shù)據(jù)采集具有完整性,體現(xiàn)在采集時(shí)間段完整、數(shù)據(jù)屬性值完備、數(shù)據(jù)值無(wú)缺失等。大數(shù)據(jù)運(yùn)行時(shí)能夠從大量數(shù)據(jù)甚至是海量數(shù)據(jù)中全面、完整地刻畫(huà)事物,分析出事物的本質(zhì)與規(guī)律,為用戶(hù)提供完整性的數(shù)據(jù)分析。

      1.2.3 數(shù)據(jù)一致性

      數(shù)據(jù)一致性是指同構(gòu)/異構(gòu)來(lái)源數(shù)據(jù)、格式、數(shù)據(jù)編碼具有一致性的特點(diǎn),能夠在預(yù)處理時(shí)應(yīng)用檢測(cè)技術(shù)過(guò)濾出不一致的數(shù)據(jù),保證數(shù)據(jù)一致性。實(shí)現(xiàn)數(shù)據(jù)一致性是保證數(shù)據(jù)準(zhǔn)確性的基礎(chǔ),也是保障結(jié)果質(zhì)量的重要元素。

      1.2.4 數(shù)據(jù)準(zhǔn)確性

      數(shù)據(jù)準(zhǔn)確性不只包括采集數(shù)據(jù)準(zhǔn)確性,還含有預(yù)處理數(shù)據(jù)準(zhǔn)確性、分析結(jié)果準(zhǔn)確性??梢?jiàn),數(shù)據(jù)準(zhǔn)確性是從采集數(shù)據(jù)開(kāi)始直至分析整個(gè)過(guò)程實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)確性。數(shù)據(jù)準(zhǔn)確性決定分析結(jié)果的價(jià)值,不同數(shù)據(jù)應(yīng)用的數(shù)據(jù)準(zhǔn)確度要求也不同,應(yīng)用目標(biāo)與決策需求決定的。

      2 影響大數(shù)據(jù)質(zhì)量分析

      2.1 數(shù)據(jù)收集環(huán)節(jié)

      開(kāi)展數(shù)據(jù)分析工作時(shí),第一步要開(kāi)展數(shù)據(jù)收集工作。收集數(shù)據(jù)的來(lái)源不同,并且是由機(jī)器自動(dòng)生成,再利用網(wǎng)絡(luò)傳輸功能傳輸至指定位置。收集的數(shù)據(jù)內(nèi)容是由企業(yè)或者組織決定的,針對(duì)某種來(lái)源收集所需信息,比如用戶(hù)購(gòu)買(mǎi)的產(chǎn)品數(shù)據(jù),分析出某種產(chǎn)品的熱度等。在收集數(shù)據(jù)時(shí),可通過(guò)設(shè)備收集、Web“數(shù)據(jù)爬取”收集方式獲取。在數(shù)據(jù)收集過(guò)程中,對(duì)大數(shù)據(jù)質(zhì)量真實(shí)性、一致性、完整性、準(zhǔn)確性、時(shí)效性、安全性等會(huì)產(chǎn)生較大的影響。

      2.1.1 數(shù)據(jù)源

      數(shù)據(jù)源是影響大數(shù)據(jù)質(zhì)量的重要因素,體現(xiàn)在數(shù)據(jù)源來(lái)源于各種網(wǎng)站、系統(tǒng)、傳感器設(shè)備等,只有在安全運(yùn)行、避免惡意攻擊與篡改的條件下,才能保證大數(shù)據(jù)質(zhì)量。同時(shí),數(shù)據(jù)源運(yùn)行是否具有穩(wěn)定性、無(wú)間斷性,是保證大數(shù)據(jù)完整性的關(guān)鍵環(huán)節(jié)。不同數(shù)據(jù)源之間實(shí)現(xiàn)統(tǒng)一編碼與互相協(xié)調(diào)是實(shí)現(xiàn)同構(gòu)或者是異構(gòu)大數(shù)據(jù)一致性的重要條件,數(shù)據(jù)源之間要同步與協(xié)作??梢?jiàn),數(shù)據(jù)源是影響大數(shù)據(jù)真實(shí)性、完整性、一致性、準(zhǔn)確性和安全性的重要因素。

      2.1.2 數(shù)據(jù)收集方式

      收集方式?jīng)Q定著大數(shù)據(jù)時(shí)效性質(zhì)量,設(shè)備在收集數(shù)據(jù)時(shí)均收取實(shí)時(shí)數(shù)據(jù),采集、處理、分析方式為流式數(shù)據(jù)模式,保證時(shí)效性質(zhì)量。如果是Web數(shù)據(jù),收集方式為網(wǎng)絡(luò)爬蟲(chóng),需對(duì)爬蟲(chóng)軟件設(shè)計(jì)時(shí)間,保證數(shù)據(jù)時(shí)效性質(zhì)量。因此,收集方式是影響時(shí)效性質(zhì)量的重要因素。

      2.2 數(shù)據(jù)預(yù)處理與存儲(chǔ)環(huán)節(jié)

      大數(shù)據(jù)技術(shù)運(yùn)行時(shí),會(huì)存在數(shù)據(jù)預(yù)處理環(huán)節(jié)。由于采集的多個(gè)數(shù)據(jù)源,比如文件系統(tǒng)、服務(wù)接口等會(huì)受到噪聲數(shù)據(jù)、沖突、缺失數(shù)據(jù)值的影響,會(huì)導(dǎo)致數(shù)據(jù)不準(zhǔn)確,通過(guò)預(yù)處理環(huán)節(jié)保障原始數(shù)據(jù)準(zhǔn)確性,進(jìn)而促進(jìn)分析與預(yù)測(cè)結(jié)果的準(zhǔn)確性與價(jià)值性。預(yù)處理的工作內(nèi)容是清理數(shù)據(jù)、集成數(shù)據(jù)、數(shù)據(jù)歸約、轉(zhuǎn)換數(shù)據(jù)等,數(shù)據(jù)清理技術(shù)可以檢測(cè)出不一致的數(shù)據(jù)、識(shí)別噪聲數(shù)據(jù)等,可保證大數(shù)據(jù)一致性、真實(shí)性、準(zhǔn)確性、可用性;數(shù)據(jù)集成的工作內(nèi)容是集成多個(gè)數(shù)據(jù)源數(shù)據(jù),形成集中、統(tǒng)一數(shù)據(jù)庫(kù)等,保障大數(shù)據(jù)完整性、安全性、一致性、可用性;數(shù)據(jù)歸約是降低規(guī)模的重要措施,簡(jiǎn)化數(shù)據(jù)處理過(guò)程,并且不會(huì)對(duì)分析結(jié)果準(zhǔn)確性產(chǎn)生影響;轉(zhuǎn)換數(shù)據(jù)是利用規(guī)則或者元數(shù)據(jù)轉(zhuǎn)換、模型與學(xué)習(xí)轉(zhuǎn)換等技術(shù)轉(zhuǎn)換數(shù)據(jù)并統(tǒng)一化,可提高大數(shù)據(jù)一致性與可用性??梢?jiàn),數(shù)據(jù)預(yù)處理是影響大數(shù)據(jù)質(zhì)量的關(guān)鍵因素。

      2.3 數(shù)據(jù)處理與分析環(huán)節(jié)

      大數(shù)據(jù)處理應(yīng)用的是分布式技術(shù),需根據(jù)存儲(chǔ)形式與業(yè)務(wù)數(shù)據(jù)開(kāi)展。在處理大數(shù)據(jù)時(shí)計(jì)算模型包括MapReduce分布式計(jì)算框架、內(nèi)存計(jì)算系統(tǒng)、流計(jì)算系統(tǒng)等。MapReduce屬于批處理數(shù)據(jù)的過(guò)程,能夠分析與處理海量數(shù)據(jù),適合應(yīng)用于各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理工作中;應(yīng)用內(nèi)存計(jì)算系統(tǒng)能夠縮減數(shù)據(jù)讀寫(xiě)與移動(dòng)開(kāi)銷(xiāo)的次數(shù),提升處理性能;流計(jì)算系統(tǒng)實(shí)時(shí)處理數(shù)據(jù)流,保證大數(shù)據(jù)時(shí)效性與價(jià)值性??梢?jiàn),任意處理技術(shù)對(duì)大數(shù)據(jù)質(zhì)量都會(huì)產(chǎn)生較大的影響力。

      3 保障大數(shù)據(jù)質(zhì)量的建議與措施

      3.1 采集數(shù)據(jù)中實(shí)施數(shù)據(jù)保護(hù)與數(shù)據(jù)源辨別措施

      在采集數(shù)據(jù)時(shí),特別是采集他人數(shù)據(jù)時(shí),企業(yè)應(yīng)避免敏感信息的收集、統(tǒng)計(jì),還要保護(hù)用戶(hù)的隱私。同時(shí),收集到數(shù)據(jù)信息后應(yīng)辨別與驗(yàn)證數(shù)據(jù)來(lái)源,保障數(shù)據(jù)具備真實(shí)性與有效性。

      3.2 存儲(chǔ)保障

      在存儲(chǔ)環(huán)節(jié)可借鑒傳統(tǒng)信息技術(shù)手段,實(shí)現(xiàn)數(shù)據(jù)具備可用性、完整性、私密性要求。比如,采取設(shè)置冗余方式保證數(shù)據(jù)可用性、應(yīng)用校驗(yàn)技術(shù)達(dá)到數(shù)據(jù)完整性、利用訪問(wèn)控制技術(shù)與安全審計(jì)功能提高數(shù)據(jù)安全性等。

      3.3 全局管理處理流程

      在管理采集數(shù)據(jù)、預(yù)處理工作、存儲(chǔ)數(shù)據(jù)、處理與分析環(huán)節(jié)、可視化時(shí),應(yīng)注重全局管理與不同環(huán)節(jié)之間的協(xié)調(diào)與連貫管理,比如在存儲(chǔ)數(shù)據(jù)時(shí)應(yīng)注重存儲(chǔ)形式,選擇的數(shù)據(jù)處理系統(tǒng)是否能夠有效分析處理采取到的數(shù)據(jù)類(lèi)型,還要考慮是否能夠達(dá)到準(zhǔn)確性與可用性的要求,優(yōu)化大數(shù)據(jù)質(zhì)量。

      4 結(jié)束語(yǔ)

      綜上所述,大數(shù)據(jù)技術(shù)是當(dāng)下先進(jìn)的技術(shù)之一,企業(yè)應(yīng)注重大數(shù)據(jù)技術(shù)的應(yīng)用,保障大數(shù)據(jù)質(zhì)量,從而不斷開(kāi)發(fā)與分析大數(shù)據(jù),獲取最有價(jià)值的信息應(yīng)用于發(fā)展決策中,從而得到最大的成功。

      猜你喜歡
      可用性數(shù)據(jù)源準(zhǔn)確性
      基于文獻(xiàn)計(jì)量學(xué)的界面設(shè)計(jì)可用性中外對(duì)比研究
      包裝工程(2023年24期)2023-12-27 09:18:26
      淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
      基于輻射傳輸模型的GOCI晨昏時(shí)段數(shù)據(jù)的可用性分析
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
      美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
      論股票價(jià)格準(zhǔn)確性的社會(huì)效益
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      空客A320模擬機(jī)FD1+2可用性的討論
      河南科技(2015年7期)2015-03-11 16:23:13
      超聲引導(dǎo)在腎組織活檢中的準(zhǔn)確性和安全性分析
      滨海县| 仁怀市| 栾川县| 翁源县| 竹山县| 景洪市| 普兰店市| 库车县| 墨江| 安丘市| 文成县| 屯门区| 武强县| 福泉市| 贺兰县| 鹿泉市| 夏津县| 湖南省| 孟津县| 施秉县| 石狮市| 饶河县| 甘德县| 那曲县| 汽车| 孟州市| 潞西市| 肃北| 嫩江县| 巴南区| 个旧市| 郯城县| 定结县| 河南省| 贞丰县| 高淳县| 马山县| 当涂县| 长治县| 米易县| 保靖县|