• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)研究分析

      2021-12-20 10:46:00劉玉鵬對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)
      現(xiàn)代經(jīng)濟(jì)信息 2021年29期
      關(guān)鍵詞:特征選擇特征統(tǒng)計(jì)學(xué)

      劉玉鵬 對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)

      一、大數(shù)據(jù)和統(tǒng)計(jì)學(xué)概念理論

      (一)大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)分析

      大數(shù)據(jù)技術(shù)縮小了世界范圍,促進(jìn)各領(lǐng)域之前密切關(guān)聯(lián),改變了人們的生活方式和思維模式,物聯(lián)網(wǎng)提高了各領(lǐng)域的感知力,在大數(shù)據(jù)時(shí)代,人們衣食住行方式發(fā)生了日新月異的改變。隨著智能化設(shè)備嵌入了傳感器,數(shù)據(jù)的獲取、儲(chǔ)存、轉(zhuǎn)化提高了效率,改變了人們的工作和生活方式。大數(shù)據(jù)時(shí)代為背景,為了提高存儲(chǔ)空間,衍生出了數(shù)據(jù)存儲(chǔ)系統(tǒng)和計(jì)算模型,傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)不能充分解決的數(shù)據(jù)關(guān)系,而引用了非結(jié)構(gòu)化存儲(chǔ)系統(tǒng),不再局限單一的字段格式和數(shù)據(jù)類型,而采用范式化結(jié)構(gòu)設(shè)計(jì),通過(guò)增加冗余來(lái)促進(jìn)數(shù)據(jù)信息的訪問(wèn)效率。大數(shù)據(jù)背景下的統(tǒng)計(jì)學(xué)理論,主要是隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,使機(jī)器學(xué)習(xí)模型不斷適應(yīng)新技術(shù),在語(yǔ)音識(shí)別、記憶模型、注意力模型等實(shí)現(xiàn)智能處理,除了簡(jiǎn)單的線性回歸模型還有相對(duì)復(fù)雜的隨機(jī)森林、梯度提升樹等集成模型。這些模型可以從繁雜的數(shù)據(jù)中篩選重要的信息,提高統(tǒng)計(jì)學(xué)數(shù)據(jù)提取效率,大數(shù)據(jù)技術(shù)通過(guò)智能檢索,關(guān)聯(lián)數(shù)據(jù)等可以快速鎖定目標(biāo)參數(shù),實(shí)現(xiàn)各領(lǐng)域間數(shù)據(jù)關(guān)聯(lián)。

      (二)統(tǒng)計(jì)學(xué)特征分析和研究意義

      在數(shù)據(jù)預(yù)處理過(guò)程中,應(yīng)對(duì)數(shù)據(jù)多個(gè)維度進(jìn)行描述,并采集到適合大數(shù)據(jù)技術(shù)的多維度數(shù)據(jù)特征,對(duì)于數(shù)據(jù)缺失部分應(yīng)適當(dāng)修復(fù)和彌補(bǔ)。特征選擇上應(yīng)注意對(duì)關(guān)聯(lián)度大的特征重點(diǎn)挑選,而篩選掉冗余特征,以免可以減少模型訓(xùn)練中的存儲(chǔ)和計(jì)算流程,還能去除干擾來(lái)提升模型性能和效果。大數(shù)據(jù)時(shí)代下,同樣維度的特征選擇和提取應(yīng)充分結(jié)合存儲(chǔ)和計(jì)算開(kāi)銷。例如,在提取數(shù)據(jù)的排名特征需要較大排序開(kāi)銷,由于對(duì)全局?jǐn)?shù)據(jù)進(jìn)行排序,才能實(shí)現(xiàn)平法復(fù)雜度O(N2),如果內(nèi)存不能一次加載,還應(yīng)采用分布式處理來(lái)實(shí)現(xiàn)這一特征。因此,大數(shù)據(jù)時(shí)代下,統(tǒng)計(jì)學(xué)特征分析和處理既需要借助業(yè)務(wù)經(jīng)驗(yàn),還應(yīng)依托于技巧。

      二、特征預(yù)處理相關(guān)方法研究

      (一)特征預(yù)處理概述

      特征決定了大數(shù)據(jù)技術(shù)的上限,特征預(yù)處理在大數(shù)據(jù)技術(shù)中顯得尤為重要,從多個(gè)維度記錄和描述了數(shù)據(jù)信息,如果數(shù)據(jù)處理了過(guò)程中記錄數(shù)據(jù)存在冗余或者信息量不夠,會(huì)給后續(xù)模型訓(xùn)練增加處理難度,影響模型的有效性。數(shù)據(jù)采集需要耗費(fèi)一定的時(shí)間和人力成本,增加軟硬件的應(yīng)用,拓寬應(yīng)用場(chǎng)景。隨著硬件成本的下降,數(shù)據(jù)采集特征將會(huì)增加,還應(yīng)增加合理的數(shù)據(jù)結(jié)構(gòu)和設(shè)計(jì)合適的存儲(chǔ)模型。直接獲取的數(shù)據(jù)特征無(wú)法表達(dá)出數(shù)據(jù)的本質(zhì),應(yīng)變換數(shù)據(jù)的特征,對(duì)聚合之后的數(shù)據(jù)提取抽象特征,針對(duì)異常數(shù)據(jù)值在處理之前應(yīng)做特殊處理。針對(duì)數(shù)據(jù)地理、空間等不同特征,不同數(shù)據(jù)場(chǎng)景反映出的數(shù)據(jù)類別有所不同。

      (二)特征的采集、存儲(chǔ)和類型

      各領(lǐng)域間的特征采集方式有所區(qū)別。電信領(lǐng)域的數(shù)據(jù)收集可以通過(guò)用戶的套餐定制、打電話拼讀和用戶聯(lián)系人等途徑收集;醫(yī)療領(lǐng)域的數(shù)據(jù)收集可以通過(guò)電子病歷和X光圖像等顯示的數(shù)據(jù);金融領(lǐng)域數(shù)據(jù)收集可以通過(guò)客戶的消費(fèi)、存款、交易額的情況來(lái)收集;同時(shí)還可以通過(guò)硬件的特殊性能來(lái)收集用戶行為數(shù)據(jù),包括GPS模塊可以收集用戶的精準(zhǔn)為主,為了收集運(yùn)動(dòng)方向,可以運(yùn)用陀螺儀的方式來(lái)收集等。目前運(yùn)用最為廣泛的是爬蟲技術(shù),價(jià)格合理,備受學(xué)術(shù)界關(guān)注和使用,是各領(lǐng)域統(tǒng)計(jì)數(shù)據(jù)的重要信息來(lái)源。例如,運(yùn)用爬蟲技術(shù)對(duì)電影和文本的有關(guān)評(píng)論數(shù)據(jù)進(jìn)行細(xì)化分類,同時(shí)還可以運(yùn)用分布式爬蟲技術(shù)對(duì)互聯(lián)網(wǎng)賣家歷史價(jià)格變化情況進(jìn)行系統(tǒng)研究。由于爬蟲所爬取的互聯(lián)網(wǎng)數(shù)據(jù)是公開(kāi)的,受到國(guó)家法律保護(hù),符合網(wǎng)站的Robot協(xié)議。個(gè)別網(wǎng)站出于商業(yè)目的而限制爬蟲爬取,而采用分布式多線程爬蟲技術(shù)訪問(wèn)網(wǎng)站,可以提高數(shù)據(jù)的抓取效率。特征存儲(chǔ)對(duì)于少量數(shù)據(jù)可以運(yùn)用分隔的csv、tsv存儲(chǔ),而Excel這類文檔類文件需要占用較大存儲(chǔ)空間,應(yīng)增加文件存儲(chǔ)空間。由于NULL數(shù)據(jù)使用空格表示,因此,NULL需要用特殊的字符表示,額外增加了數(shù)據(jù)存儲(chǔ)空間。數(shù)據(jù)庫(kù)解決了各類數(shù)據(jù)信息的存儲(chǔ)、處理和查詢,但結(jié)構(gòu)化數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)類型要求較為嚴(yán)格,導(dǎo)致一些數(shù)據(jù)信息口徑不一很難插入,因此,采用非結(jié)構(gòu)化實(shí)現(xiàn)數(shù)據(jù)之間互融互通,運(yùn)用schema on read模型設(shè)計(jì)提高數(shù)據(jù)存儲(chǔ)效率。

      (三)特征數(shù)據(jù)變換

      首先,連續(xù)特征離散化,為了提高算法的時(shí)間與空間效率,應(yīng)將連續(xù)數(shù)據(jù)變換成離散數(shù)據(jù),可以將浮點(diǎn)數(shù)變化成大于零和小于零的數(shù)據(jù)離散操作。大數(shù)據(jù)時(shí)代下,數(shù)據(jù)離散可以運(yùn)用監(jiān)督分類模型,決策樹和樸素貝葉斯原理等來(lái)生成離散化數(shù)據(jù)特征標(biāo)簽。無(wú)監(jiān)督可以運(yùn)用聚類、等寬和等頻等方式實(shí)現(xiàn)離散化數(shù)據(jù)特征。其次,離散特征藍(lán)旭華,這類模型不能接受離散值接受,隨著離散值的先后順序變換為連續(xù)數(shù)據(jù),突出特征排名(Rank)作為連續(xù)值,應(yīng)擴(kuò)大排序范圍。最后,提取聚合特征。由于大數(shù)據(jù)時(shí)代衍生了大量數(shù)據(jù),人工讀取信息量有限,海量信息應(yīng)對(duì)數(shù)據(jù)聚合提取出有價(jià)值信息實(shí)現(xiàn)人工角度可解釋性。特征聚合分為橫向和縱向兩種聚合形式,是對(duì)每組數(shù)據(jù)或者特征的抽象處理。橫向聚合操作是存儲(chǔ)數(shù)據(jù)庫(kù)上的線性時(shí)間復(fù)雜度??v向聚合特征表示數(shù)據(jù)集中或者離散程度,其中集中特種主要有平均值、中位數(shù)、眾數(shù),而數(shù)據(jù)離散特征有變異系數(shù)、標(biāo)準(zhǔn)差和方差等。

      (四)缺失特征值處理

      大數(shù)據(jù)技術(shù)處理過(guò)程中,缺失特征值是不可避免產(chǎn)生的。例如在問(wèn)卷調(diào)查過(guò)程中,如果表格不完整,或者病歷在錄入過(guò)程中也會(huì)缺失文煥,因此,在設(shè)置某例數(shù)據(jù)非NULL,數(shù)據(jù)存儲(chǔ)過(guò)程中可避免缺失。如果數(shù)據(jù)具有缺失特征只占總體數(shù)據(jù)的少部分,可以對(duì)這些缺失值進(jìn)行補(bǔ)充或者直接刪除。根據(jù)應(yīng)用場(chǎng)景不同,含有缺失值的補(bǔ)充可以有多種備選方案,可以采用均值填充或者就近填充、回歸法填充等。

      (五)空間特征處理

      空間特征包括地理數(shù)據(jù)和圖像數(shù)據(jù)等,其中像素點(diǎn)的相鄰關(guān)系和sift特性可以抽象為一組卷積變換,根據(jù)每個(gè)位置像素乘上每個(gè)位置權(quán)重得到卷積變換后結(jié)果,實(shí)現(xiàn)智能掃描特征,其中sift圖像相鄰像素類似一致的特征取值但對(duì)圖像視覺(jué)感受不會(huì)造成影響。地理數(shù)據(jù)提取特征包括人口密度、氣候環(huán)境等,通過(guò)經(jīng)緯度距離可以觀測(cè)到一個(gè)數(shù)據(jù)點(diǎn)到另一個(gè)數(shù)據(jù)點(diǎn)的關(guān)系,通過(guò)點(diǎn)、線、多邊形的算法,從傳統(tǒng)的經(jīng)緯度坐標(biāo)轉(zhuǎn)換成為墨卡托平面坐標(biāo),進(jìn)一步計(jì)算。

      (六)數(shù)據(jù)不平衡問(wèn)題

      每個(gè)數(shù)據(jù)類別之間存在一定量差,是數(shù)據(jù)不平衡的體現(xiàn),例如,統(tǒng)計(jì)男女人數(shù),男女生比例嚴(yán)重失衡,導(dǎo)致模型失衡,導(dǎo)致驗(yàn)證集性能變差。大部分機(jī)器學(xué)習(xí)模型很難自動(dòng)處理,一般可采取欠采樣、生成數(shù)據(jù)、敏感代價(jià)函數(shù)等角度加以解決數(shù)據(jù)失衡問(wèn)題。

      三、特征選擇前沿方法研究對(duì)比

      (一)特征選擇概述

      從特征存儲(chǔ)和計(jì)算角度來(lái)分析特征選擇,由于當(dāng)前大數(shù)據(jù)技術(shù)衍生的數(shù)據(jù)統(tǒng)計(jì)模型只能用于單一領(lǐng)域,應(yīng)用場(chǎng)景也較為單一,由于這些模型對(duì)特定特征高度依賴,表明計(jì)算能力相同情況下,選擇特征相關(guān)度高的做訓(xùn)練模型效果更加,隨著數(shù)據(jù)量的增加,模型遷移到其他領(lǐng)域提高了難度。除了存儲(chǔ)和計(jì)算資源匱乏外,邊緣計(jì)算場(chǎng)景對(duì)統(tǒng)計(jì)數(shù)據(jù)的采集能力也受限,因此,應(yīng)減少特征數(shù)量,增加模型的計(jì)算效率。統(tǒng)計(jì)學(xué)角度,特征選擇是在模型迭代過(guò)程中實(shí)行數(shù)據(jù)篩選,其中決策樹在生長(zhǎng)過(guò)程中應(yīng)根據(jù)訓(xùn)練規(guī)則選擇相應(yīng)特征,一些分裂沒(méi)被使用的特征已經(jīng)被篩選掉。

      (二)基于相關(guān)度的選擇

      特征維度與響應(yīng)變量之間做相關(guān)度特征,相關(guān)度越大,冗余性特征越小,可以在計(jì)算特征維度和變量之間平衡進(jìn)而篩選特征,例如,在牛奶和蘋果對(duì)比咖啡相關(guān)性中,為了準(zhǔn)確評(píng)估咖啡銷量,應(yīng)以牛奶銷量作參考自變量。每個(gè)維度都能計(jì)算一個(gè)相關(guān)度,通過(guò)篩選排序,對(duì)于大于謀而閾值的相關(guān)度作為有效特征,在后續(xù)模型迭代和數(shù)據(jù)代入相應(yīng)公式中,只需要記錄有效特征值即可。首先,模型具有很好的代表性,可以清晰表明貢獻(xiàn)特征和冗余特征,其次,減少模型計(jì)算開(kāi)銷,避免模型迭代出現(xiàn)冗余特征。最后,簡(jiǎn)化算法,相關(guān)度只通過(guò)一輪掃描就可以得出各維度相應(yīng)變量的相關(guān)度。

      皮爾遜系數(shù)取值為1和-1之間,可以計(jì)算數(shù)據(jù)之間線性和非線性的相關(guān)性。假設(shè)X,Y兩個(gè)數(shù)據(jù)對(duì)稱系數(shù)公式為p(X,Y)=P(Y,X)恒成立。

      互信息是非對(duì)稱的,是一個(gè)一個(gè)數(shù)據(jù)分布到另一個(gè)數(shù)據(jù)分布,其中互信息越大表明特征越有用:

      皮爾遜系數(shù)、互信息系數(shù)等在編程上都可以達(dá)到線性計(jì)算時(shí)間復(fù)雜度。

      (三)基于Lasso罰項(xiàng)的稀疏選擇

      Lasso模型帶有稀疏選擇特性,篩選掉權(quán)重為零的特征,保留權(quán)重大于零的,屬于嵌入式特征選擇。Lasso既可以運(yùn)用線性模型還可以運(yùn)用多種高級(jí)模型,為了提高復(fù)雜度控制模型,可以采用XGBoost模型,由于整體目標(biāo)函數(shù)不是凸的,因此,梯度下降法不能用作優(yōu)化模型。

      (四)利用集成方法做選擇

      根據(jù)強(qiáng)大數(shù)定理,集成多個(gè)簡(jiǎn)單模型,增加了整體抗數(shù)據(jù)干擾性能,避免擬合現(xiàn)象,其中集成模型可以特征選擇,以隨機(jī)森林為例,訓(xùn)練過(guò)程中,每棵樹可以引入特征干擾,通過(guò)采樣方式得出訓(xùn)練數(shù)據(jù),而部分?jǐn)?shù)據(jù)沒(méi)有參與實(shí)際訓(xùn)練,但可預(yù)測(cè)最終效果。采樣的樹訓(xùn)練好后可以加上隨機(jī)白噪聲特征標(biāo)簽,對(duì)預(yù)測(cè)效果有一定影響,這些冗余特征對(duì)模型不構(gòu)成影響。工程領(lǐng)域采用的統(tǒng)計(jì)方法基本以決策樹體現(xiàn)。

      四、結(jié)語(yǔ)

      特征預(yù)處理和特征選擇分別是升維和降維的過(guò)程中,大數(shù)據(jù)為背景,為了抽象特征提取更加有效,應(yīng)基于應(yīng)用場(chǎng)景來(lái)解決實(shí)際問(wèn)題。統(tǒng)計(jì)學(xué)中需要預(yù)測(cè)的領(lǐng)域很多,為了降低誤判率,應(yīng)采用特征做行為預(yù)測(cè),通過(guò)人為行動(dòng)產(chǎn)生特征,二者相輔相成又互為因果關(guān)系,本文針對(duì)大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)研究分析做出相應(yīng)結(jié)論,有利于解決大數(shù)據(jù)時(shí)代下機(jī)器人學(xué)習(xí)。

      猜你喜歡
      特征選擇特征統(tǒng)計(jì)學(xué)
      關(guān)于投稿的統(tǒng)計(jì)學(xué)要求
      統(tǒng)計(jì)學(xué)符號(hào)使用的說(shuō)明
      統(tǒng)計(jì)學(xué)符號(hào)使用的說(shuō)明
      本刊對(duì)來(lái)稿中統(tǒng)計(jì)學(xué)處理的有關(guān)要求
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      抓住特征巧觀察
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      额尔古纳市| 盐山县| 大城县| 潞西市| 靖江市| 乌兰察布市| 柘城县| 百色市| 象州县| 柳州市| 霍邱县| 保定市| 高阳县| 夹江县| 仙居县| 都安| 常熟市| 神木县| 衡阳市| 嘉义县| 墨脱县| 浦东新区| 江孜县| 安义县| 新竹市| 鱼台县| 焉耆| 毕节市| 河间市| 焦作市| 宜兰县| 东台市| 盐边县| 湘阴县| 富民县| 股票| 江源县| 平潭县| 黄冈市| 巫溪县| 石柱|