• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      創(chuàng)新創(chuàng)業(yè)案例數(shù)據(jù)數(shù)據(jù)采集庫的建設(shè)與分析

      2023-04-07 02:25:34李美會
      中國新技術(shù)新產(chǎn)品 2023年1期
      關(guān)鍵詞:項集特征選擇置信度

      李美會

      (湖南環(huán)境生物職業(yè)技術(shù)學院,湖南 衡陽 421005)

      0 引言

      創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)屬于低頻金融數(shù)據(jù),創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)冗雜且多元化,在企業(yè)金融量化管理中需要對創(chuàng)業(yè)金融數(shù)據(jù)進行挖掘和特征分析,并結(jié)合相關(guān)算法對其數(shù)據(jù)采集庫進行建設(shè),有利于區(qū)分其數(shù)據(jù)信息、分門別類、優(yōu)化創(chuàng)新創(chuàng)業(yè)板塊,通過關(guān)鍵詞搜索等能夠快速進行查找,尤其是在提升創(chuàng)業(yè)基金融信息調(diào)度和管理方面具有重要意義。

      1 創(chuàng)新創(chuàng)業(yè)案例數(shù)據(jù)數(shù)據(jù)采集庫分析

      1.1 創(chuàng)新創(chuàng)業(yè)案例大數(shù)據(jù)處理優(yōu)勢

      創(chuàng)新創(chuàng)業(yè)案例數(shù)據(jù)處理主要采用大數(shù)據(jù)技術(shù),并結(jié)合數(shù)據(jù)抓取、采集與分析,從相關(guān)數(shù)據(jù)網(wǎng)(青年創(chuàng)業(yè)網(wǎng)等)獲取相關(guān)數(shù)據(jù)信息,通過該信息可進行相關(guān)判斷,為創(chuàng)業(yè)者提供優(yōu)質(zhì)數(shù)據(jù)和信息。

      傳統(tǒng)創(chuàng)新創(chuàng)業(yè)在數(shù)據(jù)挖掘時往往采用的是隨機采樣法,調(diào)查結(jié)果雖然具有普遍性,但是與真實市場出入較大。采用大數(shù)據(jù)處理時,對其建立起的數(shù)據(jù)庫和采集的全方位的數(shù)據(jù),更加注重數(shù)據(jù)庫之間的相關(guān)性分析,從海量數(shù)據(jù)當中利用關(guān)聯(lián)規(guī)則和特征提取算法等對創(chuàng)業(yè)信息進行分類,有助于提高創(chuàng)業(yè)者對創(chuàng)業(yè)板塊的分析能力。

      1.2 系統(tǒng)的數(shù)據(jù)采集庫的處理框架

      系統(tǒng)的整體框架結(jié)構(gòu)如圖1 所示。系統(tǒng)的數(shù)據(jù)采集庫的處理框架主要分為數(shù)據(jù)采集和存儲,結(jié)合圖1 內(nèi)容,在數(shù)據(jù)采集和儲存當中,需要對平臺采集數(shù)據(jù)、創(chuàng)新創(chuàng)業(yè)數(shù)學數(shù)據(jù)等進行數(shù)據(jù)集合,為創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)平臺提供數(shù)據(jù)源,并對數(shù)據(jù)進行分析,建立有效數(shù)據(jù)庫,即通過數(shù)據(jù)挖掘、數(shù)據(jù)篩選等內(nèi)容達到數(shù)據(jù)可視化。

      圖1 系統(tǒng)的數(shù)據(jù)采集庫的處理框架

      1.3 創(chuàng)新創(chuàng)業(yè)案例數(shù)據(jù)數(shù)據(jù)采集庫相關(guān)算法論述

      1.3.1 Apriori 算法

      關(guān)聯(lián)規(guī)則定義如下:假設(shè)I={i1,i2,i3,…,im},其中I是項的集合,給定一個交易數(shù)據(jù)庫;im為第m 項數(shù)據(jù)。D={t1,t2,t3,…,tm},其中每個事務(wù)t是I的非空子集,即t∈I,每個交易都與一個唯一的標識符TID 對應(yīng)。

      概率P(X∩Y):關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)包括X∩Y的百分比;置信度(confidence)是包括X∩Y的百分比。

      P(Y|X)為條件概率,表示在X條件下Y的概率,置信度即可靠度,可判斷其關(guān)聯(lián)特征。

      關(guān)聯(lián)規(guī)則可對數(shù)據(jù)進行挖掘:1)頻繁項集查詢。2)由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。

      Apriori 為逐層搜索的迭代方法,k項集用于探索(k+1)項集。結(jié)合數(shù)據(jù)處理,通過項集查詢,達到集合,計為L1、L2,可概括為2 項集的集合,L2用于尋找L3,直至達到k項集。

      Apriori 算法可提高頻繁項集的效率,根據(jù)頻繁出現(xiàn)情況進行分析,其所有非空子集必須是頻繁的,判斷閾值min_sup與項集I是否滿足。如果I滿足閾值,則I為頻繁,即P(I)<min_sup。項集(即I'A)不可能比I頻繁。兩者皆不頻繁,即P(I'A)<min_sup。

      1.3.2 決策樹算法

      決策樹(Decision Tree)[1]為分析預(yù)測模型。結(jié)合決策樹需求,能夠根據(jù)算法采用自上而下的遞歸方式,并結(jié)合屬性進行判斷,通過決策了解其特征屬性,進而進行數(shù)據(jù)挖掘,形成數(shù)據(jù)分支,這樣能夠解決分類問題,達成預(yù)測,并實現(xiàn)分類[2]。

      一個簡單的決策樹實例如圖2 所示。該決策樹將整個樣本空間分為2 類,是或否。如果一個樣本的奧特盧克屬性取值為晴朗且濕度屬性為正常,則該樣本為是;如果一個樣本的奧特盧克地區(qū)屬性取值為下雨且有風屬性為強,則該樣本為否。

      圖2 決策樹算法

      1.3.3 特征選擇算法

      特征選擇(Feature Selection)是結(jié)合事物本身共有或相關(guān)特征對應(yīng)用領(lǐng)域的一個描述。特征選擇可從N個原始特征中選擇一個最小子集,包括M(M≤N),使包括M個特征的子集中不同類別的概率分布值接近于N個原始特征。如果FN是原始特征集而FM為選出的特征子集,則可能的類別C條件概率P接近,其中fM和fN為相應(yīng)的特征矢量FM和FN的值矢量。

      總的來說,特征選擇算法可對數(shù)據(jù)描述進行簡化,使數(shù)據(jù)收集任務(wù)化繁為簡,進而可解決問題,提高數(shù)據(jù)集的質(zhì)量。當數(shù)據(jù)集特征數(shù)很大,需要對其進行降溫。CFS(Correlationbased Feature Subset)算法[3],即基于相關(guān)性的特征選擇算法。對連續(xù)變量,CFS 方法用特征子集的得分(Merits)來衡量其關(guān)聯(lián)度,如公式(1)所示。

      式中:k為子集的變量數(shù)[4]為特征子集中所有自變量和目標變量之間相關(guān)性的均值為特征子集中自變量兩兩之間相關(guān)性的均值。

      而對連續(xù)-離散型變量,則需要把連續(xù)變量進行離散化處理。如果離散化以后的變量分別為X和Y,則計算公式如公式(2)、公式(3)所示。

      式中:p(y)為y的概率;p(y|x)為在X條件下Y的概率;H(Y)為Y信息熵;H(Y|X)為在X條件下Y的信息熵。

      再計算信息增益(gain),即先驗信息熵和后驗信息熵的差值,如公式(4)所示。

      然后計算變量之間的均勻不確定度,如公式(5)所示。

      如果不確定度越大,則相關(guān)性越小。評估每個特征子集中各個變量之間的相關(guān)性,能夠根據(jù)特征進行數(shù)據(jù)分類,更有利于數(shù)據(jù)的處理。

      2 創(chuàng)新創(chuàng)業(yè)案例數(shù)據(jù)數(shù)據(jù)采集庫的建設(shè)與分析

      2.1 外部庫調(diào)用

      結(jié)合外部庫調(diào)用,利用pandas itertools 和自帶的time 進行數(shù)據(jù)處理,結(jié)合青年創(chuàng)業(yè)網(wǎng)等數(shù)據(jù),輸入“import pandas as pd”進行數(shù)據(jù)導(dǎo)入,import itertools as it #子集生成,并進行處理,完成數(shù)據(jù)集。

      2.2 數(shù)據(jù)導(dǎo)入

      全函數(shù)編寫,由“if __name__ == '__main__':#”導(dǎo)入數(shù)據(jù),data = data.applymap(lambda x: str(x).strip()) # 刪除導(dǎo)入時可能存在的空格值,例如“教育”成了“ 教育”。最終的數(shù)據(jù)導(dǎo)入在代碼最后,根據(jù)數(shù)據(jù)導(dǎo)入設(shè)定支持度和置信度。

      2.3 數(shù)據(jù)處理

      輸出所有Goodlist,事實上也就是備選頻繁1項集,這個函數(shù)不太重要,后續(xù)調(diào)用也完全可以替代為別的方式,編寫的目的是便利邏輯過程的一種方式而已。

      2.3.1 項集重組

      因為Apriori 是通過滿足支持度閾值的頻繁k項集得到備選頻繁k+1 項集合,所以這一個函數(shù)的目的便是進行項集重組和升階化的過程。這個不是放在最前面的邏輯,而是預(yù)先編寫,是為了后面直接調(diào)用的準備工作??梢园l(fā)現(xiàn)也都是for 循環(huán),連while 等都不帶。由于導(dǎo)入數(shù)據(jù)選擇的是列表格式,因此后續(xù)工作也都利用list 來完成,那么list 就需要一直for 循環(huán)調(diào)用,不像dict中直接for item in dict 等方便清晰。

      #在關(guān)聯(lián)分析中,頻繁k項集得到備選頻繁k+1 項集合,能夠保證數(shù)據(jù)信息分類準確。

      2.3.2 支持度掃描與輸出

      這里就回歸了邏輯線條,該文提供2 種方法,一種是輸出counts,一種是輸出rates,即支持頻數(shù)和支持度的2種衡量辦法,僅供挑選,2 個函數(shù)沒什么區(qū)別。本find_rule 函數(shù)用的是counts 函數(shù),如果要換,記得調(diào)整為rates。

      #輸出每個k-項頻繁集的候選集的比率。#輸出每個k-項頻繁集的候選集的個數(shù),上有比率寫法,兩者無本質(zhì)區(qū)別,都可以使用。

      def sup_counts(df,data):#輸出每個1-項頻繁集的候選集的次數(shù)。

      2.3.3 根據(jù)最小支持度閾值進行減枝葉

      Apriori 算法的核心就是通過剪枝來減少掃描難度的。因為非頻繁項集的超級也一定不頻繁。

      #得到滿足最小支持度閾值的關(guān)聯(lián)規(guī)則(find——rule of min-sup-rate item)。

      if dt[j][-1] >= min_suprate*n: ##減枝過程。

      2.3.4 對每個頻繁項集進行子集拆分計算confi 和rule挖掘

      這個函數(shù)也是一個中間函數(shù)和預(yù)備工作。前提是頻繁項集,如果不是的話,數(shù)量可能會非常多,很難挖掘和通過Good_list 清單來生成所有的1/2/3/.../k項備選頻繁集,即Apriori 算法的核心。

      def Ksubset_get(df): #獲得非空子集。

      2.4 數(shù)據(jù)采集庫建設(shè)結(jié)果分析

      結(jié)合Find_rule,選擇list 進行數(shù)據(jù)處理,結(jié)合事物總數(shù)獲得關(guān)聯(lián)規(guī)則的重組,得到置信度,了解數(shù)據(jù)處理情況。決策樹算法能夠讀取數(shù)據(jù)集合,構(gòu)建類似于如圖3 所示的決策樹。決策樹可厘清數(shù)據(jù)中所蘊含的知識信息,本數(shù)據(jù)采集庫建設(shè)時,該文對其創(chuàng)業(yè)種類進行了劃分,因此決策樹可以對數(shù)據(jù)集合進行劃分和機器學習。例如對食品生產(chǎn)行業(yè)屬性進行劃分時,根據(jù)形態(tài),可劃分為休閑零食屬性和飲料行業(yè),在進行更細的劃分,確定創(chuàng)業(yè)類型。

      圖3 決策樹

      輸出結(jié)果,結(jié)果統(tǒng)計表見表1。根據(jù)表1,結(jié)合決策樹分析,并通過編程可以看到,輸入支持度和置信度0.3,0.3,整個程序confi 值可以輸出,其結(jié)果大于0.7,說明相關(guān)度高,數(shù)量建設(shè)具有可靠性。例如食品生產(chǎn)行業(yè)和飲品飲料相關(guān)度高,說明可以根據(jù)相關(guān)度進行種類分析,進而對創(chuàng)業(yè)種類進行劃分,了解目前創(chuàng)業(yè)情況,為創(chuàng)業(yè)發(fā)展做準備。另外整個程序的運行速度還是比較快的,加入更多的good 和tid 之后,可以保持較快的輸出速度。數(shù)值為0.00099945068359375,能夠有效進行數(shù)據(jù)庫建設(shè)。

      表1 結(jié)果統(tǒng)計表

      3 結(jié)語

      創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)可反映創(chuàng)業(yè)開展的狀況,該文結(jié)合Apriori 算法、決策樹算法以及特征選擇算法,實現(xiàn)了企業(yè)創(chuàng)業(yè)期金融數(shù)據(jù)的采集。并對其支持度和置信度進行設(shè)置,數(shù)值為0.3 和0.3,其置信度數(shù)值均超過0.7,置信度強,說明數(shù)據(jù)庫建設(shè)具有可靠性。創(chuàng)業(yè)者可對創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進行數(shù)據(jù)挖掘和分析,并對這些量化數(shù)據(jù)進行研究,進而提高創(chuàng)業(yè)成功率。

      猜你喜歡
      項集特征選擇置信度
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標特征選擇算法
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      計算機工程(2014年6期)2014-02-28 01:26:36
      一種頻繁核心項集的快速挖掘算法
      計算機工程(2014年6期)2014-02-28 01:26:12
      多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
      辉南县| 祥云县| 灌南县| 柳林县| 庆云县| 达尔| 江津市| 岳普湖县| 亚东县| 车险| 禄丰县| 宣武区| 田阳县| 凤庆县| 宿松县| 南江县| 舞钢市| 勐海县| 隆昌县| 马关县| 甘南县| 乌拉特后旗| 乐陵市| 永寿县| 体育| 金门县| 云霄县| 淮安市| 本溪市| 融水| 太白县| 调兵山市| 漠河县| 西吉县| 汪清县| 青浦区| 阿鲁科尔沁旗| 格尔木市| 新安县| 娄烦县| 韩城市|