• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型的海量數(shù)據(jù)統(tǒng)計(jì)方法研究

      2020-03-24 10:57:44姚娟于喜志
      關(guān)鍵詞:離群海量數(shù)學(xué)模型

      姚娟 于喜志

      [摘? ? ? ? ? ?要]? 針對(duì)傳統(tǒng)海量數(shù)據(jù)統(tǒng)計(jì)方法中存在的統(tǒng)計(jì)過(guò)程消耗時(shí)間長(zhǎng),無(wú)法滿(mǎn)足數(shù)據(jù)傳輸?shù)母咝孕枰獑?wèn)題,開(kāi)展對(duì)海量數(shù)據(jù)統(tǒng)計(jì)方法的研究。通過(guò)建立基于點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型的多維數(shù)據(jù)集及統(tǒng)計(jì)指標(biāo),通過(guò)對(duì)比實(shí)驗(yàn)證明,該數(shù)據(jù)統(tǒng)計(jì)方法與傳統(tǒng)統(tǒng)計(jì)方法相比統(tǒng)計(jì)過(guò)程耗時(shí)更短,保證了統(tǒng)計(jì)數(shù)據(jù)的可用性,更符合實(shí)際需要,并以方差統(tǒng)計(jì)軟件驗(yàn)證了實(shí)驗(yàn)的有效性。

      [關(guān)? ? 鍵? ?詞]? 點(diǎn)云數(shù)據(jù);特征組合;數(shù)學(xué)模型;海量數(shù)據(jù)統(tǒng)計(jì)

      [中圖分類(lèi)號(hào)]? G642 ? ? ? ? ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼]? A? ? ? ? ? ? ? ? ? ? ? [文章編號(hào)]? 2096-0603(2020)23-0060-02

      在互聯(lián)網(wǎng)環(huán)境中,海量數(shù)據(jù)包含各類(lèi)格式,包括文本、音頻、視頻、數(shù)字等,傳統(tǒng)海量數(shù)據(jù)統(tǒng)計(jì)均是針對(duì)單個(gè)類(lèi)型或單個(gè)來(lái)源對(duì)數(shù)據(jù)進(jìn)行分析,并不能有效地解決多數(shù)據(jù)結(jié)構(gòu)、多數(shù)據(jù)來(lái)源的復(fù)雜問(wèn)題,并且統(tǒng)計(jì)得到的分析結(jié)果也十分有限,無(wú)法有效地解決特定的問(wèn)題[1,2]。海量數(shù)據(jù)的統(tǒng)計(jì)是針對(duì)當(dāng)前互聯(lián)網(wǎng)環(huán)境中每天產(chǎn)生的各類(lèi)數(shù)據(jù)進(jìn)行分析,其中包括對(duì)海量數(shù)據(jù)的分類(lèi)、集成、計(jì)算分析、提供決策等。與傳統(tǒng)統(tǒng)計(jì)學(xué)模型相比點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型在建模過(guò)程中可以提高建模準(zhǔn)確性,同時(shí)時(shí)間效率、所占內(nèi)存等方面也遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)模型。因此,本文提出一種基于點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型的海量數(shù)據(jù)統(tǒng)計(jì)方法。

      一、研究方法與統(tǒng)計(jì)指標(biāo)

      筆者對(duì)點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型進(jìn)行過(guò)相關(guān)研究,是將其應(yīng)用于機(jī)載激光雷達(dá)中。此次將點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型應(yīng)用于海量數(shù)據(jù)統(tǒng)計(jì)中,以求提高統(tǒng)計(jì)效率。

      (一)建立多維數(shù)據(jù)集

      首先針對(duì)不同來(lái)源、不同類(lèi)型的海量數(shù)據(jù),針對(duì)其不確定性特點(diǎn),選用點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型中的聯(lián)合分布函數(shù)以及隨機(jī)分布函數(shù)獲取海量數(shù)據(jù)的多維數(shù)據(jù)集[3]。本文假設(shè)點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型為K={k1,k2,k3,…,kn},并且該模型與海量數(shù)據(jù)的多維數(shù)據(jù)集P={1,2,3,…,X}一一對(duì)應(yīng),其中X表示每個(gè)多維數(shù)據(jù)集中的點(diǎn)云數(shù)量。本文針對(duì)整合的海量數(shù)據(jù),將其分為行為日志、用戶(hù)維度、時(shí)間維度、行為類(lèi)型維度、行為結(jié)果維度以及作用對(duì)象維度共六個(gè)部分。通過(guò)點(diǎn)云之間的關(guān)系提高整個(gè)算法的計(jì)算效率,如圖1所示。

      (二)統(tǒng)計(jì)指標(biāo)建立

      選擇互聯(lián)網(wǎng)環(huán)境中海量數(shù)據(jù)作為處理目標(biāo),在數(shù)據(jù)集中包含用戶(hù)的自身信息、用戶(hù)行為日志以及各來(lái)源渠道中的相關(guān)數(shù)據(jù)等[4]。針對(duì)不同的數(shù)據(jù)集,對(duì)其統(tǒng)計(jì)指標(biāo)及計(jì)算公式進(jìn)行設(shè)定。

      數(shù)據(jù)停留時(shí)間P1:將用戶(hù)在互聯(lián)網(wǎng)環(huán)境下向另一方用戶(hù)傳輸數(shù)據(jù)時(shí),兩者傳輸?shù)浇邮軙r(shí)間的間隔,并計(jì)為第一次數(shù)據(jù)傳輸行為的有效停留時(shí)間。這一統(tǒng)計(jì)指標(biāo)可以有效地體現(xiàn)出用戶(hù)對(duì)數(shù)據(jù)的黏著度。

      頁(yè)面行為次數(shù)P2:頁(yè)面行為主要以對(duì)數(shù)據(jù)的檢索、展現(xiàn)以及瀏覽為主,并且實(shí)際范疇遠(yuǎn)大于瀏覽行為范疇。這一統(tǒng)計(jì)指標(biāo)可以通過(guò)對(duì)用戶(hù)的瀏覽行為判斷數(shù)據(jù)的適應(yīng)程度。

      會(huì)話(huà)數(shù)P3:指海量數(shù)據(jù)統(tǒng)計(jì)過(guò)程中的會(huì)話(huà)數(shù)量。

      用戶(hù)訪(fǎng)問(wèn)數(shù)P4:指海量數(shù)據(jù)統(tǒng)計(jì)過(guò)程中不同的用戶(hù)數(shù)量[5]。

      P1、P2、P3、P4四種不同統(tǒng)計(jì)指標(biāo)的計(jì)算公式分別為:

      平均數(shù)據(jù)停留時(shí)間:

      公式(1)中,Ssum表示用戶(hù)可統(tǒng)計(jì)的停留時(shí)間總和;Scount表示用戶(hù)可統(tǒng)計(jì)的停留時(shí)間記錄數(shù)的總和[6]。對(duì)統(tǒng)計(jì)過(guò)程中用戶(hù)無(wú)后續(xù)行為的特殊情況,應(yīng)當(dāng)利用平均頁(yè)面停留時(shí)間代替用戶(hù)有停留時(shí)間總長(zhǎng),其公式為:

      公式(2)中,Ptotal表示用戶(hù)停留時(shí)間總長(zhǎng);tavg表示平均會(huì)話(huà)持續(xù)時(shí)間。平均會(huì)話(huà)持續(xù)時(shí)間是以數(shù)據(jù)停留時(shí)間的總長(zhǎng)與用戶(hù)會(huì)話(huà)數(shù)相除所得,因此平均會(huì)話(huà)持續(xù)時(shí)間可用如下公式表示:

      對(duì)待統(tǒng)計(jì)的海量數(shù)據(jù)的數(shù)據(jù)集,可能存在較大的離群點(diǎn),進(jìn)而導(dǎo)致數(shù)據(jù)中隱私信息被泄漏的風(fēng)險(xiǎn),避免離群點(diǎn)存在泄露數(shù)據(jù)信息或增加誤差的問(wèn)題,因此基于點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型,將散亂分布的點(diǎn)云數(shù)據(jù)根據(jù)其特征進(jìn)行融合,獲取不同數(shù)據(jù)集的中心點(diǎn),完成對(duì)數(shù)據(jù)中心點(diǎn)的采集。首先,假設(shè)數(shù)據(jù)集中的離群點(diǎn)云數(shù)據(jù)分布在X軸、Y軸和Z軸方向上的值為Xl、Xr、Yl、Yr、Zl、Zr,假設(shè)γ表示選中的離群點(diǎn)中的點(diǎn)云數(shù)據(jù)量,則γ主要通過(guò)點(diǎn)云的取值范圍以及數(shù)據(jù)集離群點(diǎn)分布的曲率進(jìn)行選擇。

      (三)統(tǒng)計(jì)學(xué)驗(yàn)證

      基于點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型對(duì)海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)后,借助SPSS軟件運(yùn)用方差統(tǒng)計(jì)方法對(duì)結(jié)果進(jìn)行分析。

      二、海量數(shù)據(jù)統(tǒng)計(jì)與分析

      (一)數(shù)據(jù)來(lái)源

      選取某一網(wǎng)站中的交易數(shù)據(jù)作為海量數(shù)據(jù)統(tǒng)計(jì)對(duì)象,其中包括交易記錄、交易金額等數(shù)據(jù)信息。借助點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型將離群點(diǎn)數(shù)據(jù)與近似分組相互融合,首先對(duì)原分組進(jìn)行劃分,對(duì)海量數(shù)據(jù)而言,通過(guò)快速聚合相似分組,可達(dá)到最優(yōu)的分組融合效果[7]。再對(duì)分組數(shù)據(jù)集進(jìn)行差分隱私保護(hù)處理,從而進(jìn)一步鞏固海量數(shù)據(jù)統(tǒng)計(jì)過(guò)程中的隱私性,保證數(shù)據(jù)統(tǒng)計(jì)后統(tǒng)計(jì)結(jié)果的可用性。

      在對(duì)海量數(shù)據(jù)統(tǒng)計(jì)前,首先要明確應(yīng)用數(shù)據(jù)統(tǒng)計(jì)的周期,再確定數(shù)據(jù)總體構(gòu)成的基本數(shù)據(jù)周期。確定指標(biāo)后,估算應(yīng)用指標(biāo)詳單的數(shù)據(jù)總體容量,明確應(yīng)用指標(biāo)統(tǒng)計(jì)分組的業(yè)務(wù)主體,再對(duì)指標(biāo)分組的環(huán)境因素、數(shù)據(jù)庫(kù)服務(wù)器、網(wǎng)絡(luò)交換機(jī)能力等綜合考慮,給出分組環(huán)境因子。再將得到的數(shù)據(jù)集中離群點(diǎn)進(jìn)行融合,降低數(shù)據(jù)統(tǒng)計(jì)過(guò)程中出現(xiàn)遺漏后數(shù)據(jù)信息隱私泄漏的問(wèn)題發(fā)生。最終將應(yīng)用指標(biāo)分組全量統(tǒng)計(jì)結(jié)果輸入到對(duì)應(yīng)的數(shù)據(jù)庫(kù)中存儲(chǔ)。

      (二)海量數(shù)據(jù)統(tǒng)計(jì)結(jié)果對(duì)比

      依照上述方法,運(yùn)用本文統(tǒng)計(jì)方法與傳統(tǒng)方法的統(tǒng)計(jì)結(jié)果作對(duì)比,選擇由兩臺(tái)計(jì)算機(jī)搭建的數(shù)據(jù)存儲(chǔ)平臺(tái),并在平臺(tái)中構(gòu)建兩種不同類(lèi)型的數(shù)據(jù)庫(kù)。表1為計(jì)算機(jī)與數(shù)據(jù)庫(kù)的配置參數(shù)信息。

      分別利用本文提出的海量數(shù)據(jù)統(tǒng)計(jì)方法與傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)方法,對(duì)兩個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),分別設(shè)為實(shí)驗(yàn)組和對(duì)照組,并記錄兩種方法統(tǒng)計(jì)完畢后所消耗的時(shí)間,如圖2數(shù)據(jù)統(tǒng)計(jì)結(jié)果對(duì)比圖所示。

      由圖2中的統(tǒng)計(jì)結(jié)果可以看出,對(duì)海量數(shù)據(jù)的統(tǒng)計(jì)所消耗的時(shí)間實(shí)驗(yàn)組遠(yuǎn)遠(yuǎn)少于對(duì)照組。因此通過(guò)對(duì)比圖可以看出,本文提出的基于點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型的海量數(shù)據(jù)統(tǒng)計(jì)方法可以較好地解決海量數(shù)據(jù)統(tǒng)計(jì)時(shí)的運(yùn)行效率問(wèn)題,采用本文方法可以對(duì)海量數(shù)據(jù)進(jìn)行有效統(tǒng)計(jì)和分析,同時(shí)保證數(shù)據(jù)的隱私安全以及運(yùn)行效率。

      (三)方差統(tǒng)計(jì)

      為驗(yàn)證對(duì)比實(shí)驗(yàn)的準(zhǔn)確性,借助SPSS軟件運(yùn)用方差統(tǒng)計(jì)方法對(duì)結(jié)果進(jìn)行分析,將上述實(shí)驗(yàn)數(shù)據(jù)輸入SPSS軟件,統(tǒng)計(jì)結(jié)果如表2所示。

      經(jīng)方差統(tǒng)計(jì)驗(yàn)證,證明上述實(shí)驗(yàn)結(jié)果具有統(tǒng)計(jì)學(xué)意義,本文設(shè)計(jì)的海量數(shù)據(jù)統(tǒng)計(jì)方法能夠有效提升運(yùn)行效率。

      三、結(jié)語(yǔ)

      為了進(jìn)一步提高海量數(shù)據(jù)的統(tǒng)計(jì)結(jié)果可用性及效率,本文提出了一種基于點(diǎn)云數(shù)據(jù)特征組合數(shù)學(xué)模型的海量數(shù)據(jù)統(tǒng)計(jì)方法,解決了傳統(tǒng)海量數(shù)據(jù)統(tǒng)計(jì)中存在的計(jì)算效率低、統(tǒng)計(jì)過(guò)程中存在隱私泄漏等問(wèn)題。同時(shí)在對(duì)比實(shí)驗(yàn)中得出,該模型可以更好地滿(mǎn)足數(shù)據(jù)安全性需要,保證數(shù)據(jù)統(tǒng)計(jì)結(jié)果具有良好的可用性,具有更高的應(yīng)用價(jià)值。

      參考文獻(xiàn):

      [1]李俊鋒.大數(shù)據(jù)背景下的統(tǒng)計(jì)學(xué)發(fā)展方向分析[J].中外企業(yè)家,2020(5):110.

      [2]牛永清.大數(shù)據(jù)審計(jì)下統(tǒng)計(jì)分析方法初探[J].納稅,2019,13(1):225.

      [3]唐玉蘭,項(xiàng)瑩雪,馬甜甜,等.基于多元統(tǒng)計(jì)分析方法的渾河流域沈撫段水質(zhì)時(shí)空特征[J].安全與環(huán)境學(xué)報(bào),2018,18(5):2008-2012.

      [4]盧浩宜.基于統(tǒng)計(jì)學(xué)方法對(duì)試驗(yàn)室結(jié)果一致性、有效性分析[J].汽車(chē)實(shí)用技術(shù),2019(4):125-128.

      [5]洪慧,李娟,汪洋,等.基于統(tǒng)計(jì)學(xué)方法的地下水水質(zhì)評(píng)價(jià)與成因分析:以齊齊哈爾市為例[J].環(huán)境工程技術(shù)學(xué)報(bào),2019,9(4):431-439.

      [6]霍嬌,劉運(yùn)杰,游一屏,等.大鼠體內(nèi)Pig-a基因突變?cè)囼?yàn)設(shè)計(jì)及統(tǒng)計(jì)學(xué)分析方法建議[J].衛(wèi)生研究,2018,47(4):525-529,553.

      編輯 馮永霞

      猜你喜歡
      離群海量數(shù)學(xué)模型
      AHP法短跑數(shù)學(xué)模型分析
      活用數(shù)學(xué)模型,理解排列組合
      海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
      對(duì)一個(gè)數(shù)學(xué)模型的思考
      一個(gè)圖形所蘊(yùn)含的“海量”巧題
      離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷(xiāo)售潛在客戶(hù)中的應(yīng)用
      一種海量衛(wèi)星導(dǎo)航軌跡點(diǎn)地圖匹配方法
      離群的小雞
      應(yīng)用相似度測(cè)量的圖離群點(diǎn)檢測(cè)方法
      一種基于核空間局部離群因子的離群點(diǎn)挖掘方法
      临泽县| 松潘县| 杨浦区| 北票市| 萨迦县| 教育| 柳江县| 辽源市| 新龙县| 雅江县| 永胜县| 甘德县| 康定县| 保康县| 白银市| 额尔古纳市| 曲靖市| 杭锦后旗| 南华县| 元谋县| 海城市| 奉新县| 金湖县| 涟水县| 綦江县| 涡阳县| 冀州市| 特克斯县| 平远县| 扶余县| 大连市| 翁牛特旗| 新民市| 扶沟县| 随州市| 大城县| 青阳县| 繁峙县| 皮山县| 额济纳旗| 前郭尔|