薛亞龍,劉梓濘
(1.寧夏警官職業(yè)學(xué)院現(xiàn)代偵查技戰(zhàn)法研究中心,寧夏 銀川 750021) (2.寧夏警官職業(yè)學(xué)院成人教育培訓(xùn)處,寧夏 銀川 750021)
云數(shù)據(jù)情報源呈現(xiàn)出數(shù)據(jù)拓撲分布復(fù)雜性、數(shù)據(jù)結(jié)構(gòu)異構(gòu)性以及數(shù)據(jù)記錄時間戳差異性等特征屬性,造成數(shù)據(jù)挖掘關(guān)聯(lián)聚類密度低、數(shù)據(jù)迭代運算次數(shù)多、數(shù)據(jù)情報價值需求識別匹配率低等情報偵查問題,易使案件發(fā)生情報偵查錯誤或者陷入情報偵查僵局??梢?,選擇科學(xué)高效的數(shù)據(jù)挖掘算法已成為實現(xiàn)云數(shù)據(jù)情報偵查應(yīng)然價值的核心考量。[1]決策樹算法正是根據(jù)不同特征樣本數(shù)據(jù)的出現(xiàn)概率,在構(gòu)建決策樹基礎(chǔ)上進行挖掘分析的一種分類決策算法。一方面,決策樹算法能夠幫助偵查人員快速地進行云數(shù)據(jù)情報偵查平臺設(shè)計和流程模型構(gòu)建;另一方面,能夠?qū)υ茢?shù)據(jù)情報偵查進行精確的循證預(yù)測,進而提升對云數(shù)據(jù)情報源挖掘分析的高效性和準(zhǔn)確性。鑒于此,引入決策樹算法的云數(shù)據(jù)情報偵查研究范式,不僅是將決策樹算法廣泛應(yīng)用于社會各行業(yè)、各領(lǐng)域的必然要求,而且是云數(shù)據(jù)情報偵查方法自身變革和轉(zhuǎn)型的實然需求。
決策樹算法云數(shù)據(jù)情報偵查最為顯著的特征是將決策樹算法與云數(shù)據(jù)情報偵查進行融合,這也是其與傳統(tǒng)云數(shù)據(jù)情報偵查的本質(zhì)區(qū)別。尤其在多源數(shù)據(jù)驅(qū)動創(chuàng)新時代,決策樹算法作為一種典型的分類與回歸機器學(xué)習(xí)方法,通過制定分類與回歸規(guī)則、構(gòu)建決策樹算法模型,對不同數(shù)據(jù)節(jié)點和數(shù)據(jù)連邊的屬性或特征進行挖掘與分析,并采取決策樹剪枝或修剪等決策樹挖掘算法,實現(xiàn)自上而下的遞歸算法挖掘。[2]所以,決策樹算法云數(shù)據(jù)情報偵查的應(yīng)用過程,不僅包含了情報價值預(yù)設(shè)、情報控制傳遞、情報挖掘應(yīng)用等特殊價值需求,還包括了制定分類與回歸規(guī)則、構(gòu)建決策樹算法模型以及決策樹剪枝或修剪算法等運算價值優(yōu)勢。因此,在多源數(shù)據(jù)驅(qū)動創(chuàng)新時代應(yīng)該賦予決策樹算法云數(shù)據(jù)情報偵查新的內(nèi)涵與屬性。
決策樹算法主要依據(jù)對不同類別屬性的數(shù)據(jù)進行挖掘、分析所構(gòu)建的關(guān)聯(lián)推理規(guī)則,采取決策樹構(gòu)造、決策樹剪枝等運算挖掘方法,實現(xiàn)對其進行數(shù)據(jù)解釋的應(yīng)然劃分效果。其與自然界中樹的結(jié)構(gòu)屬性存在相同或相似的現(xiàn)象,即都是從樹的根節(jié)點出發(fā),途經(jīng)各個子節(jié)點而使其被發(fā)散或劃分到不同的葉子節(jié)點,進而使葉子節(jié)點與節(jié)點分類能夠形成互相映射的節(jié)點集合。[3]同時,該節(jié)點集合中的子集又從根節(jié)點出發(fā)經(jīng)過各子節(jié)點對不同結(jié)構(gòu)屬性的數(shù)據(jù)節(jié)點進行裂變挖掘與分析。在決策樹算法的挖掘、分析過程中,往往會受到各種冗余節(jié)點、重復(fù)節(jié)點、離群節(jié)點等異常節(jié)點的制約或影響,造成節(jié)點擬合等偏離決策樹算法預(yù)測效果的現(xiàn)象。[4]一般而言,主要采取后剪枝和預(yù)剪枝等算法降低節(jié)點擬合現(xiàn)象的出現(xiàn)概率。筆者認為,結(jié)合決策樹算法的運算價值優(yōu)勢和云數(shù)據(jù)情報偵查的特殊價值需求,決策樹算法云數(shù)據(jù)情報偵查的內(nèi)涵為:偵查人員依據(jù)不同云數(shù)據(jù)情報源的類別形態(tài)和結(jié)構(gòu)屬性,構(gòu)建與其具有正向同配屬性關(guān)系的樹狀決策模型,利用不同決策樹算法挖掘、分析云數(shù)據(jù)情報源與數(shù)據(jù)犯罪情勢之間隱藏的各種關(guān)聯(lián)性數(shù)理關(guān)系,實現(xiàn)決策樹算法循證引導(dǎo)云數(shù)據(jù)情報偵查預(yù)測或決策的一種新型數(shù)據(jù)情報偵查方法。
二是數(shù)據(jù)壓縮屬性。傳統(tǒng)數(shù)據(jù)情報偵查主要通過數(shù)據(jù)清洗、數(shù)據(jù)歸約、數(shù)據(jù)集成等數(shù)據(jù)處理技術(shù)完成對各種數(shù)據(jù)的壓縮,往往不同數(shù)據(jù)被壓縮在同一內(nèi)存中進行運算,造成數(shù)據(jù)倉庫中數(shù)據(jù)節(jié)點的路徑、連邊等難以被高效地挖掘和利用,嚴重制約和影響數(shù)據(jù)情報偵查的高效性。[6]然而,在決策樹算法云數(shù)據(jù)情報偵查應(yīng)用過程中,每一分區(qū)的云數(shù)據(jù)屬性就表示某一類關(guān)聯(lián)聚類稠密向量數(shù)據(jù)。偵查人員可利用決策樹算法的RLE編碼對各云數(shù)據(jù)進行壓縮,并且采用云數(shù)據(jù)熵屬性方式對其進行排序,促使被壓縮后的云數(shù)據(jù)不需要再進行轉(zhuǎn)換和融合就能夠被使用。決策樹算法云數(shù)據(jù)情報偵查的數(shù)據(jù)壓縮性價值主要體現(xiàn)在兩個方面:一方面,當(dāng)不同類別形態(tài)和結(jié)構(gòu)屬性的云數(shù)據(jù)被反復(fù)運算、挖掘時,由于被壓縮而全面減少了所需數(shù)據(jù)倉庫構(gòu)建的場景空間區(qū)域;另一方面,利用決策樹算法對云數(shù)據(jù)進行壓縮,可以促使每個云數(shù)據(jù)的分類標(biāo)簽和數(shù)據(jù)熵的屬性閾值之間互相映射的關(guān)系較為明確,進而提升了對云數(shù)據(jù)進行關(guān)聯(lián)聚類的精確度。決策樹算法云數(shù)據(jù)情報偵查的數(shù)據(jù)壓縮性不僅能夠增強云數(shù)據(jù)挖掘分析互相映射的正向同配屬性關(guān)系,而且能夠提升云數(shù)據(jù)情報挖掘、分析索引的準(zhǔn)確度和精確度。
三是連續(xù)離散屬性。偵查人員在對云數(shù)據(jù)中不同數(shù)據(jù)節(jié)點和數(shù)據(jù)連邊進行挖掘與分析時,主要依據(jù)數(shù)據(jù)增益值比對其進行數(shù)據(jù)節(jié)點的分數(shù)據(jù)子集劃分,進而有效減少或避免在數(shù)據(jù)節(jié)點分裂過程中選擇偏向于數(shù)據(jù)熵屬性較多的分區(qū)的問題,使決策樹算法云數(shù)據(jù)情報偵查具有突出的連續(xù)離散屬性。偵查人員依據(jù)連續(xù)離散屬性在確定數(shù)據(jù)節(jié)點的邊界點之后,并不是立即根據(jù)不同數(shù)據(jù)節(jié)點的邊界點來運算和挖掘數(shù)據(jù)熵的增益值比,而是先需對各個數(shù)據(jù)節(jié)點邊界點的相鄰區(qū)間展開識別和判斷。當(dāng)邊界點相鄰區(qū)間的判定結(jié)果符合預(yù)設(shè)的情報價值需求時,偵查人員就可以從數(shù)據(jù)節(jié)點之間的邊界點區(qū)間到數(shù)據(jù)節(jié)點集合之間的邊界點區(qū)間進行連續(xù)的識別與判定,直到所有數(shù)據(jù)節(jié)點或數(shù)據(jù)節(jié)點集合的邊界點區(qū)間被挖掘結(jié)束為止,然后才對數(shù)據(jù)熵的增益值比進行離散化的挖掘和獲取。[7]決策樹算法云數(shù)據(jù)情報偵查的連續(xù)離散屬性不僅有利于提升對不同類型數(shù)據(jù)節(jié)點中邊界點挖掘的分類精確度,而且有利于提高對數(shù)據(jù)節(jié)點進行關(guān)聯(lián)聚類頻繁項目集合構(gòu)建的準(zhǔn)確度,從而有效降低或減少云數(shù)據(jù)情報偵查的不確定性和誤判率。
結(jié)合決策樹算法的運算價值優(yōu)勢和云數(shù)據(jù)情報偵查的特殊價值需求,為了全面提高決策樹算法云數(shù)據(jù)情報偵查的高效性和精確性,筆者認為,可將決策樹算法云數(shù)據(jù)情報偵查的流程模型構(gòu)建為云數(shù)據(jù)預(yù)處理、遞歸創(chuàng)建單個決策樹、實例與特征選擇策略、構(gòu)建適應(yīng)函數(shù)、算法合并多個決策樹等5個模塊。
在對云數(shù)據(jù)展開決策樹算法挖掘之前,偵查人員需要對已獲取和匯集的各種云數(shù)據(jù)進行預(yù)處理,主要包括補充缺失數(shù)據(jù)、處理離群數(shù)據(jù)、數(shù)據(jù)清洗集成、數(shù)據(jù)分詞聚類等,目的是提高云數(shù)據(jù)的數(shù)據(jù)倉庫構(gòu)建質(zhì)量和技術(shù)應(yīng)用標(biāo)準(zhǔn)。具體如下:
首先是補充缺失數(shù)據(jù)。偵查人員在搜集云數(shù)據(jù)的過程中有時會遇到部分半結(jié)構(gòu)型數(shù)據(jù)、異構(gòu)型數(shù)據(jù)等數(shù)據(jù)缺失的現(xiàn)象,在分析和確定所缺失云數(shù)據(jù)的類別形態(tài)或結(jié)構(gòu)屬性之后,則需要采取線上線下的定向爬取、搜集技術(shù)將其補全。其次是處理離群數(shù)據(jù)。偵查人員在對數(shù)據(jù)倉庫中的云數(shù)據(jù)進行運算、挖掘時難免會遇到部分冗余數(shù)據(jù)、重復(fù)數(shù)據(jù)、異常數(shù)據(jù)等離群數(shù)據(jù),而這些離群數(shù)據(jù)往往與關(guān)聯(lián)數(shù)理關(guān)系挖掘、數(shù)據(jù)聚類頻繁項目子集構(gòu)建以及數(shù)據(jù)節(jié)點相似度系數(shù)閾值預(yù)設(shè)等存在偏差,不符合涉嫌犯罪情勢生存與態(tài)勢發(fā)展的趨勢變化規(guī)律,往往會造成情報偵查錯誤或陷入情報偵查僵局。因此,偵查人員需采取數(shù)據(jù)定向檢索、數(shù)據(jù)詞云關(guān)聯(lián)挖掘等技術(shù)方法及時發(fā)現(xiàn)和處理相關(guān)的離群數(shù)據(jù),消除或降低離群數(shù)據(jù)的反向異配屬性關(guān)聯(lián)影響。再次是數(shù)據(jù)清洗集成。偵查人員所搜集或獲取的云數(shù)據(jù)不僅有結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)、非結(jié)構(gòu)型數(shù)據(jù)以及異構(gòu)型數(shù)據(jù)等,還有文本型數(shù)據(jù)、數(shù)值型數(shù)據(jù)、符號型數(shù)據(jù)以及圖片型數(shù)據(jù)等,造成云數(shù)據(jù)的類別形態(tài)或結(jié)構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)格式不統(tǒng)一。[8]所以,偵查人員需要及時采取停用數(shù)據(jù)詞等技術(shù)方法對這些標(biāo)準(zhǔn)格式不統(tǒng)一的云數(shù)據(jù)進行數(shù)據(jù)清洗集成,進而提高數(shù)據(jù)倉庫構(gòu)建的效率和質(zhì)量。最后是數(shù)據(jù)分詞聚類。數(shù)據(jù)分詞聚類主要是將所獲取的云數(shù)據(jù)按照數(shù)據(jù)節(jié)點連續(xù)的序列規(guī)則重新進行聚類構(gòu)建合成的過程[9],其目的是幫助偵查人員快速提高構(gòu)建數(shù)據(jù)聚類頻繁項目子集的高效性。
生:(B組1)搶著大聲:但是,危難時刻的羚羊群的紀律性比潰敗中的軍隊的紀律要好得多。簡直是訓(xùn)練有素,在危難中保持著集體性的沉著,而老羚羊在那樣危機時刻能有這樣從容的應(yīng)對太不可思議了,就是讓我覺得假,好像是作者為教育我們故意這樣寫的。(全部同學(xué)議論紛紛,班上一片嘩然)
在構(gòu)建適應(yīng)度函數(shù)流程的條件引領(lǐng)下,偵查人員還需要通過利用交叉變異運算將不同決策樹算法融合為多個決策樹。以C4.5算法、ID3算法為例,ID3算法主要是將云數(shù)據(jù)的訓(xùn)練樣本集經(jīng)過數(shù)據(jù)迭代算法處理之后劃分為多個數(shù)據(jù)樣本子集,且每個數(shù)據(jù)樣本子集代表不同的數(shù)據(jù)頻繁項目聚類集合;而C4.5算法不僅在ID3算法的基礎(chǔ)上對半結(jié)構(gòu)型數(shù)據(jù)、異構(gòu)型數(shù)據(jù)等特殊類別形態(tài)的云數(shù)據(jù)挖掘與分析得更加客觀和準(zhǔn)確,還能夠?qū)σ褎?chuàng)建的單個決策樹及時實現(xiàn)剪枝、分割的技術(shù)處理,促使對決策樹算法云數(shù)據(jù)情報偵查的預(yù)測和決策分類更加精確。因此,偵查人員應(yīng)該及時、快速地融合C4.5算法和ID3算法,并使用交叉變異的決策樹算法將不同的單個決策樹進行融合,確保多個混合、復(fù)雜的決策樹能夠?qū)崿F(xiàn)算法挖掘、分析的互相協(xié)作,最終形成決策樹算法云數(shù)據(jù)情報偵查特有的算法流程模型。偵查人員在利用算法合并多個決策樹流程模塊構(gòu)建過程中,不但要增強多個不同決策樹算法之間的協(xié)作、融合能力,而且要遵循對云數(shù)據(jù)與涉嫌數(shù)據(jù)犯罪情勢之間各種潛在關(guān)聯(lián)數(shù)理關(guān)系的挖掘、分析規(guī)則,從而實現(xiàn)決策樹算法云數(shù)據(jù)情報偵查流程模型構(gòu)建的高效性和協(xié)同性。
在決策樹算法云數(shù)據(jù)情報偵查的應(yīng)用過程中,決策樹算法的選擇、云數(shù)據(jù)情報源的匯集、云數(shù)據(jù)的挖掘、情報偵查的價值需求等都對其質(zhì)量有著直接的制約和影響。同時,決策樹算法云數(shù)據(jù)情報偵查的應(yīng)用效果還具有突出的延遲性,造成其質(zhì)量難以用數(shù)據(jù)指標(biāo)進行量化和衡量等定量分析。只有對決策樹算法云數(shù)據(jù)情報偵查的評價指標(biāo)體系進行定性范式的選擇和構(gòu)建,才能夠全面提高決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的高效性和優(yōu)質(zhì)性。鑒于此,筆者認為,決策樹算法云數(shù)據(jù)情報偵查的評價指標(biāo)體系應(yīng)該包含云數(shù)據(jù)情報源、情報偵查價值需求、云數(shù)據(jù)挖掘與分析、情報偵查成本投入、情報成果實施反饋等五個方面。
云數(shù)據(jù)情報源評價指標(biāo)是決策樹算法云數(shù)據(jù)情報偵查評價指標(biāo)體系的首要構(gòu)成要素之一,主要包括云數(shù)據(jù)情報源的準(zhǔn)確性、科學(xué)性、全面性和數(shù)量性等。第一,云數(shù)據(jù)情報源的準(zhǔn)確性。云數(shù)據(jù)情報源的準(zhǔn)確性是判斷決策樹算法云數(shù)據(jù)情報偵查預(yù)測和決策是否科學(xué)、有效的最主要依據(jù),如果云數(shù)據(jù)情報源的準(zhǔn)確性存在瑕疵或錯誤,那么就會導(dǎo)致出現(xiàn)情報偵查錯誤甚至陷入情報偵查僵局。所以,在獲取和匯集云數(shù)據(jù)情報源的過程中,偵查人員應(yīng)該采取數(shù)據(jù)清洗、數(shù)據(jù)歸約、數(shù)據(jù)集成等預(yù)處理技術(shù)方法,使其能夠去偽存真,從而獲取到各種真實、客觀的云數(shù)據(jù)情報源。第二,云數(shù)據(jù)情報源的科學(xué)性。云數(shù)據(jù)情報源的科學(xué)性是指已獲取、匯集的云數(shù)據(jù)情報源是否客觀準(zhǔn)確和真實有效。偵查人員要對涉案數(shù)據(jù)犯罪情勢中各種云數(shù)據(jù)情報源的產(chǎn)生與發(fā)展、演變與轉(zhuǎn)換、交叉與融合等進行戰(zhàn)略性科學(xué)規(guī)劃,防止過于擴大或縮小以及盲目性等。[12]所以,為了增強云數(shù)據(jù)情報源的科學(xué)性,偵查人員應(yīng)該對涉案云數(shù)據(jù)情報源的搜集和獲取進行科學(xué)、合理的布局與安排,進而提高決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的準(zhǔn)確性和精確性。第三,云數(shù)據(jù)情報源的全面性和數(shù)量性。一方面是云數(shù)據(jù)情報源的全面性。云數(shù)據(jù)情報源的全面性主要指縱向要深和橫向要廣兩個方面。只有對云數(shù)據(jù)情報源進行全面挖掘與分析,才能夠促使決策樹算法云數(shù)據(jù)情報偵查的預(yù)測和決策更加符合情報偵查的價值需求,也更加有利于云數(shù)據(jù)情報偵查情勢的發(fā)展和修正。顯然,云數(shù)據(jù)情報源的全面性越強,決策樹算法云數(shù)據(jù)情報偵查的實然效果就更加接近于應(yīng)然價值。另一方面是云數(shù)據(jù)情報源的數(shù)量性。云數(shù)據(jù)情報源的數(shù)量不但決定了決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的價值層次,而且制約和影響了決策樹算法云數(shù)據(jù)情報偵查的評價指標(biāo)系數(shù)。云數(shù)據(jù)情報源涉及的類別形態(tài)、結(jié)構(gòu)屬性、關(guān)聯(lián)聚類頻繁項目子集等越廣泛、越海量,就越能夠幫助偵查人員挖掘和獲取到與涉案數(shù)據(jù)犯罪情勢具有關(guān)聯(lián)性的更深層次的各種數(shù)理關(guān)系。
情報偵查價值需求評價指標(biāo)主要包括情報偵查價值需求的適用性、可理解性、相關(guān)性以及保密性等。首先是情報偵查價值需求的適用性。情報偵查價值需求的適用性主要指情報偵查價值需求的客觀實際性和切實合理可行性,以滿足決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的實然需求。情報偵查價值需求預(yù)設(shè)越客觀、合理、可行,就越能夠被應(yīng)用于不同的決策樹算法云數(shù)據(jù)情報偵查場景,說明該情報偵查價值需求的適用性就越強。其次是情報偵查價值需求的可理解性。情報偵查價值需求的可理解性主要指情報價值需求的預(yù)設(shè)閾值及其實現(xiàn)的規(guī)范化客觀條件。這不僅是決策樹算法云數(shù)據(jù)情報偵查應(yīng)用質(zhì)量評價指標(biāo)的重要體現(xiàn),還是實現(xiàn)其應(yīng)然價值的必然要求。就有利于云數(shù)據(jù)情報偵查情勢的發(fā)展角度而言,情報偵查價值需求的內(nèi)容越簡潔、數(shù)據(jù)越豐富、形式越多樣,就表明對其理解越充分、越深刻,進而有助于增強決策樹算法云數(shù)據(jù)情報偵查價值需求預(yù)設(shè)的科學(xué)性和精確性。再次是情報偵查價值需求的相關(guān)性。情報偵查價值需求的相關(guān)性是指情報偵查價值需求與實現(xiàn)決策樹算法云數(shù)據(jù)情報偵查應(yīng)然價值之間的相關(guān)程度系數(shù)。情報偵查價值需求的相關(guān)性越高,說明實現(xiàn)決策樹算法云數(shù)據(jù)情報偵查應(yīng)然價值的程度就越高。最后是情報偵查價值需求的保密性。情報偵查價值需求的保密性與決策樹算法云數(shù)據(jù)情報偵查的應(yīng)用價值屬于正向同配屬性關(guān)系。情報偵查價值需求的保密性越強,說明決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的潛在價值就越大;反之,其應(yīng)用的潛在價值就越小。
云數(shù)據(jù)挖掘與分析不僅是實現(xiàn)決策樹算法云數(shù)據(jù)情報偵查應(yīng)然價值的基礎(chǔ)和前提,還是其應(yīng)用準(zhǔn)確性的重要支撐。從預(yù)防和打擊數(shù)據(jù)犯罪情勢生存與態(tài)勢發(fā)展的趨勢變化規(guī)律而言,云數(shù)據(jù)挖掘與分析主要是指偵查人員利用不同決策樹算法對與涉案數(shù)據(jù)犯罪情勢之間存在的潛在隱藏的各種關(guān)聯(lián)數(shù)理關(guān)系所進行的運算挖掘與關(guān)聯(lián)分析。為了提升決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的價值效果,可以將云數(shù)據(jù)挖掘與分析的評價指標(biāo)具體分為以下三個方面:第一是決策樹算法的選擇。決策樹算法是一種基于分類集成的數(shù)據(jù)挖掘算法,主要依據(jù)不同類別屬性的數(shù)據(jù)節(jié)點裂變規(guī)則而采取相應(yīng)的決策樹構(gòu)造、決策樹剪枝等運算挖掘分析方法。所以,偵查人員應(yīng)該依據(jù)數(shù)據(jù)節(jié)點裂變規(guī)則的差異性和不同決策樹算法的運算價值優(yōu)勢而選取、確定與其相適應(yīng)或相符合的決策樹算法,進而提升決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的精確性。第二是數(shù)據(jù)節(jié)點的系數(shù)閾值。數(shù)據(jù)節(jié)點既是多源數(shù)據(jù)構(gòu)成的最基本數(shù)據(jù)元素,也是構(gòu)建云數(shù)據(jù)聚類頻繁項目子集的重要組成部分。就數(shù)據(jù)節(jié)點被挖掘的情報價值而言,數(shù)據(jù)節(jié)點系數(shù)主要包括數(shù)據(jù)節(jié)點的數(shù)據(jù)距離、數(shù)據(jù)路徑以及數(shù)據(jù)連邊等系數(shù)閾值。[13]數(shù)據(jù)節(jié)點系數(shù)閾值的差異性會直接制約或影響數(shù)據(jù)節(jié)點相似度系數(shù)和共同鄰居系數(shù)的規(guī)則構(gòu)建,尤其對構(gòu)建犯罪行為與非犯罪行為的關(guān)聯(lián)聚類規(guī)則具有直接的決定性作用,從而與云數(shù)據(jù)挖掘與分析的精確程度有著重要的正向同配屬性關(guān)系。第三是關(guān)聯(lián)規(guī)則的構(gòu)建。關(guān)聯(lián)規(guī)則不僅是不同云數(shù)據(jù)之間進行轉(zhuǎn)換和融合的銜接連邊,還是運算和挖掘與涉案數(shù)據(jù)犯罪情勢具有潛在關(guān)聯(lián)的數(shù)理關(guān)系的重要依據(jù),更是實現(xiàn)決策樹算法云數(shù)據(jù)情報偵查價值需求的決定性支撐和保障。因此,偵查人員應(yīng)該依據(jù)決策樹算法的價值優(yōu)勢和涉案數(shù)據(jù)犯罪情勢的發(fā)展態(tài)勢,選擇和構(gòu)建有利于實現(xiàn)決策樹算法云數(shù)據(jù)情報偵查價值需求的關(guān)聯(lián)規(guī)則,進而確保其對涉案不同云數(shù)據(jù)進行挖掘與分析的客觀性。
情報偵查成本既包括偵查人員、偵查實物、偵查財力等硬成本,又包括情報偵查思維、云數(shù)據(jù)挖掘途徑、關(guān)聯(lián)聚類規(guī)則構(gòu)建、云數(shù)據(jù)倉庫構(gòu)建、決策樹算法平臺設(shè)計與建模等軟成本。任何云數(shù)據(jù)情報源的獲取、運算、挖掘以及研判、應(yīng)用都離不開情報偵查成本的投入。就決策樹算法云數(shù)據(jù)情報偵查評價指標(biāo)體系的應(yīng)然價值而言,情報偵查的成本投入與決策樹算法云數(shù)據(jù)情報偵查的實然效果屬于反向異配屬性關(guān)系。因此,偵查人員應(yīng)該根據(jù)云數(shù)據(jù)情報源的獲取范圍、云數(shù)據(jù)倉庫構(gòu)建模型、決策樹算法的價值優(yōu)勢以及云數(shù)據(jù)挖掘關(guān)聯(lián)聚類規(guī)則構(gòu)建等關(guān)鍵性因素,確定和投入最少的情報偵查成本,從而實現(xiàn)最大的情報偵查效益。
任何有價值的云數(shù)據(jù)情報源都需要經(jīng)過偵查人員利用決策樹算法進行運算、挖掘之后才能夠成為決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的支撐和依據(jù)。為了檢驗決策樹算法云數(shù)據(jù)情報偵查應(yīng)然價值與實然效果之間的差異性,就必然需要對經(jīng)過挖掘、應(yīng)用的情報成果實施檢驗、修正等反饋評價。依據(jù)決策樹算法云數(shù)據(jù)情報偵查的價值需求實現(xiàn)效果,筆者認為,情報成果實施反饋評價指標(biāo)主要包括以下兩個方面:一個方面是云數(shù)據(jù)情報挖掘與分析價值的收益率。偵查人員獲取的情報偵查價值效益不但與云數(shù)據(jù)情報挖掘、分析具有直接的關(guān)聯(lián)關(guān)系,而且與決策樹算法的選擇、平臺設(shè)計、模型構(gòu)建等具有間接的關(guān)聯(lián)關(guān)系??梢姡谇閳蟪晒麑嵤┓答佋u價過程中,偵查人員應(yīng)該首先識別和確定哪些情報偵查的價值效益是由云數(shù)據(jù)情報挖掘與分析所產(chǎn)生的,進而幫助其計算和形成云數(shù)據(jù)情報挖掘與分析價值的收益率。另一方面是情報應(yīng)用反饋的滿意度。情報應(yīng)用反饋的滿意度是指云數(shù)據(jù)情報能夠為偵查人員執(zhí)行決策樹算法云數(shù)據(jù)情報偵查應(yīng)用提供情報支持的滿意度,偵查人員應(yīng)該及時對情報結(jié)果應(yīng)用進行檢驗、評估和修正。如果情報成果應(yīng)用符合實現(xiàn)決策樹算法云數(shù)據(jù)情報偵查的應(yīng)然價值,那么就說明其滿意度高;反之,說明其應(yīng)用結(jié)果發(fā)生偏差,甚至出現(xiàn)南轅北轍的現(xiàn)象,需要偵查人員對其進行及時修正或重新閾值云數(shù)據(jù)挖掘與分析的關(guān)聯(lián)聚類規(guī)則、犯罪行為與非犯罪行為的規(guī)則模型構(gòu)建等。
在探討決策樹算法云數(shù)據(jù)情報偵查應(yīng)用方法的過程中,不僅需要考慮決策樹算法云數(shù)據(jù)情報偵查的內(nèi)涵與屬性、評價指標(biāo)體系以及流程模型構(gòu)建等,還需要考慮選擇不同決策樹構(gòu)造、決策樹剪枝、決策樹葉子節(jié)點以及決策樹增益值等相關(guān)運算價值優(yōu)勢。因此,在多源數(shù)據(jù)驅(qū)動創(chuàng)新時代,應(yīng)該賦予決策樹算法云數(shù)據(jù)情報偵查新的應(yīng)用方法。一方面,這是實現(xiàn)決策樹算法云數(shù)據(jù)情報偵查應(yīng)然價值的必然要求;另一方面,這是預(yù)防和打擊涉嫌數(shù)據(jù)犯罪情勢生存與態(tài)勢發(fā)展變化的實然應(yīng)對選擇,從而提高決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的準(zhǔn)確性和精確性。
AHP權(quán)重決策樹算法主要是將數(shù)據(jù)挖掘、分析的復(fù)雜問題分解為簡單問題,通過專家對不同數(shù)據(jù)迭代運算之間的關(guān)系進行決策樹的結(jié)構(gòu)性評估和打分,據(jù)此分析和構(gòu)建各種兩兩相關(guān)的數(shù)據(jù)挖掘矩陣,并經(jīng)過系列運算后獲得最佳決策方案的權(quán)向量。[14]依據(jù)情報決策指令和偵查人員群決策理論的價值需求,可以將AHP權(quán)重決策樹算法具體分為以下具體步驟:
AdaBoost密度峰值決策樹算法是一種按順序進行數(shù)據(jù)迭代運算的分類器集合挖掘分析技術(shù),每次運算形成一個數(shù)據(jù)分類器,直到完成預(yù)設(shè)所有的數(shù)據(jù)分類器為止。[15]在使用AdaBoost密度峰值決策樹算法過程中,每次所得的偏差或錯誤數(shù)據(jù)樣本權(quán)重閾值都會在后續(xù)的數(shù)據(jù)分類器中得到不斷的檢驗和修正,促使最終能夠挖掘和獲得具有互補屬性的強數(shù)據(jù)分類器,從而提高對不同云數(shù)據(jù)挖掘與分析應(yīng)用的穩(wěn)定性和客觀性。[16]結(jié)合AdaBoost密度峰值決策樹算法的突出價值優(yōu)勢和云數(shù)據(jù)情報偵查的發(fā)展趨勢,筆者認為,可以將其具體應(yīng)用分為以下步驟:
數(shù)據(jù)節(jié)點相似度決策樹算法是一種以數(shù)據(jù)節(jié)點間的最高數(shù)據(jù)連邊關(guān)聯(lián)匹配作為兩個決策樹間的相似度,然后構(gòu)建不同決策樹之間的相似度矩陣,從而對各種決策樹的數(shù)據(jù)節(jié)點進行隨機運算和挖掘分析的一種決策樹算法。[17]在決策樹算法云數(shù)據(jù)情報偵查應(yīng)用過程中,決策樹的數(shù)量越多就意味著不同決策樹算法的選擇性越豐富。雖然這能夠提高決策樹算法云數(shù)據(jù)情報偵查的分類精確度,但是過多的決策樹數(shù)量必然會增加決策樹算法的數(shù)據(jù)收斂速度和運算耗時,更會降低決策樹算法云數(shù)據(jù)情報偵查的運算挖掘性能。因此,通過利用數(shù)據(jù)節(jié)點相似度的決策樹算法不僅能夠增強不同決策樹之間的正向同配關(guān)聯(lián)屬性,還能夠有效提升決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的高效性。
聚類加權(quán)隨機森林決策樹算法主要是通過對數(shù)據(jù)采取隨機森林的子分類器進行聚類,每個子分類器的分類精度都以Kappa系數(shù)為衡量標(biāo)準(zhǔn),然后尋找和選擇出每一類中最高Kappa系數(shù)的決策樹作為該類進行決策樹算法挖掘與分析的代表,重新構(gòu)建新的數(shù)據(jù)隨機森林,并再次利用Kappa系數(shù)對被選擇代表的決策樹進行加權(quán)處理的一種典型決策樹算法。[19]依據(jù)聚類加權(quán)隨機森林決策樹算法的運算價值優(yōu)勢和基本原理,筆者認為,可以將其具體應(yīng)用分為以下步驟:
首先,重新組合原始訓(xùn)練云數(shù)據(jù)。偵查人員需隨機選取80%的原始訓(xùn)練云數(shù)據(jù)作為決策樹算法挖掘與分析的訓(xùn)練數(shù)據(jù),并構(gòu)建聚類加權(quán)隨機森林決策樹算法的平臺設(shè)計和流程模型,而剩余20%的原始訓(xùn)練云數(shù)據(jù)作為對聚類加權(quán)隨機森林決策樹算法挖掘應(yīng)用的評估和檢驗的備用。其次,構(gòu)建聚類加權(quán)隨機森林決策樹算法模型。預(yù)設(shè)云數(shù)據(jù)采取決策樹算法的決策樹數(shù)量為M,然后將被選取的80%的云數(shù)據(jù)直接生成不同的決策樹數(shù)據(jù)節(jié)點,再進一步挖掘、分析不同決策樹中數(shù)據(jù)節(jié)點的屬性、坐標(biāo)、分裂閾值,并依此構(gòu)建聚類加權(quán)隨機森林決策樹的算法模型。再次,構(gòu)建決策樹間的相似度矩陣。偵查人員以不同決策樹中任何隨機的數(shù)據(jù)節(jié)點相似度為基礎(chǔ),創(chuàng)建不同數(shù)據(jù)節(jié)點之間的代價矩陣Sim_node,并運算和挖掘其數(shù)據(jù)節(jié)點之間匹配系數(shù)最高的聚類組合,然后即可構(gòu)建決策樹間的相似度矩陣Sim_tree。從次,構(gòu)建決策樹特征向量聚類。根據(jù)已構(gòu)建決策樹間的相似度矩陣Sim_tree,偵查人員分別再構(gòu)建決策樹間的度矩陣D、相鄰矩陣W以及拉普拉斯矩陣L,然后計算和獲取拉普拉斯矩陣D-1/2×L×D-1/2的最小特征閾值K。同時,以最小特征閾值K為標(biāo)準(zhǔn)計算決策樹間的特征向量F,構(gòu)建其特征向量區(qū)域空間,再利用K-means聚類算法對其進行聚類構(gòu)建。最后,對決策樹進行加權(quán)處理和修正。一方面,對決策樹進行加權(quán)處理。偵查人員利用原始訓(xùn)練云數(shù)據(jù)重新組合剩余的20%云數(shù)據(jù)對決策樹特征向量的聚類進行檢查和驗證,獲取不同決策樹的Kappa系數(shù),并以系數(shù)最高的決策樹為標(biāo)準(zhǔn)重新構(gòu)建新的聚類加權(quán)隨機森林決策樹算法模型,對新構(gòu)建的每棵決策樹均進行加權(quán)處理。另一方面,對決策樹加權(quán)修正。就聚類加權(quán)隨機森林決策樹算法的主要原理過程而言,其對涉案云數(shù)據(jù)不同決策樹的加權(quán)處理結(jié)果即為決策樹算法云數(shù)據(jù)情報偵查運算、挖掘、分析結(jié)果,只要將該結(jié)果具體應(yīng)用到?jīng)Q策樹算法云數(shù)據(jù)情報偵查的應(yīng)用之中即可。為了進一步提升聚類加權(quán)隨機森林決策樹算法挖掘與分析的準(zhǔn)確性和精確性,偵查人員還需要對其加權(quán)處理結(jié)果及時進行檢驗和修正,主要是將其與情報價值需求預(yù)設(shè)、評價指標(biāo)體系以及流程模型構(gòu)建等互相驗證,促使決策樹算法云數(shù)據(jù)情報偵查的實然效果更加科學(xué)和客觀。聚類加權(quán)隨機森林決策樹算法的運用,不僅能夠及時優(yōu)化對不同決策樹中數(shù)據(jù)節(jié)點的聚類效果,還能夠阻礙隨機決策樹對云數(shù)據(jù)分類精度的挖掘分析,從而提高決策樹算法云數(shù)據(jù)情報偵查的高效性。
CART分類回歸決策樹算法是一種二分遞歸分割決策樹算法,該算法的主要原理在于對數(shù)據(jù)決策樹的分支節(jié)點處進行布爾測試。若判斷條件為真則劃歸左分支,條件為假則劃歸右分支,最終形成一棵二叉決策樹。[20]依據(jù)決策樹算法云數(shù)據(jù)情報偵查的流程模型構(gòu)建,CART分類回歸決策樹算法應(yīng)用的具體步驟為:首先,訓(xùn)練云數(shù)據(jù)的升序處理。偵查人員所匯集的云數(shù)據(jù)既包括結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)、非結(jié)構(gòu)型數(shù)據(jù)以及異構(gòu)型數(shù)據(jù)等,又包括數(shù)值型數(shù)據(jù)、文本型數(shù)據(jù)、符號型數(shù)據(jù)以及圖片型數(shù)據(jù)等。這些不同的云數(shù)據(jù)在類別形態(tài)和結(jié)構(gòu)屬性等方面存在差異,使其被存儲在數(shù)據(jù)倉庫的數(shù)據(jù)子集都處于多維狀態(tài),往往給決策樹算法云數(shù)據(jù)情報偵查的應(yīng)用增加巨大的復(fù)雜性和難度性。所以,在CART分類回歸決策樹算法運用過程中,首先需要偵查人員按照各種云數(shù)據(jù)的維度屬性對其進行升序排序的數(shù)據(jù)處理,促使不同云數(shù)據(jù)均呈現(xiàn)出連續(xù)數(shù)據(jù)的存儲狀態(tài)。其次,對連續(xù)云數(shù)據(jù)進行離散分割。為了獲取對云數(shù)據(jù)運算和挖掘分析結(jié)果的精確性,偵查人員可采取將N個云數(shù)據(jù)樣本進行N-1種離散分割的技術(shù)方法。例如,偵查人員可以將連續(xù)兩個不同云數(shù)據(jù)樣本的平均值作為離散分割的分割點。如果重新選取的云數(shù)據(jù)樣本閾值小于該分割點的閾值,那么其就屬于決策樹的數(shù)據(jù)左節(jié)點;反之,則屬于決策樹的數(shù)據(jù)右節(jié)點。再次,計算最大數(shù)據(jù)增益值。根據(jù)決策樹算法中決策樹的根節(jié)點、父節(jié)點以及子節(jié)點等不同的構(gòu)建結(jié)構(gòu),偵查人員需先按照連續(xù)云數(shù)據(jù)的離散分割標(biāo)準(zhǔn)對數(shù)據(jù)父節(jié)點進行分割劃分。若數(shù)據(jù)父節(jié)點A被離散分割為決策樹的數(shù)據(jù)左節(jié)點,那么其最大的數(shù)據(jù)增益值就為Ginix(A)=PlGinil+PrGinir;反之,則最大的數(shù)據(jù)增益值為△Gini=Gini(A)-Ginix(A)。最后,停止劃分和獲取挖掘結(jié)果。在運算挖掘不同數(shù)據(jù)節(jié)點的最大數(shù)據(jù)增益值過程中,如果被挖掘數(shù)據(jù)節(jié)點A的Gini系數(shù)閾值都為0,那么即可停止對其進行最大數(shù)據(jù)增益值的運算挖掘,而已獲取的最大數(shù)據(jù)增益值即為CART分類回歸決策樹算法的挖掘分析結(jié)果;反之,則需要偵查人員返回到對連續(xù)云數(shù)據(jù)的離散分割階段,直到被挖掘數(shù)據(jù)節(jié)點A的Gini系數(shù)閾值都為0為止。運用CART分類回歸決策樹算法進行挖掘,不僅能夠有效避免出現(xiàn)挖掘過于擬合的決策樹剪枝現(xiàn)象,還能夠快速選擇和制定不同的數(shù)據(jù)節(jié)點剪枝策略,從而提高決策樹算法云數(shù)據(jù)情報偵查挖掘應(yīng)用的遞歸分割性能。
KM1R-HRF決策樹算法是一種基于K-means算法和One-R分層隨機森林算法進行互相融合的決策樹算法,是主要依據(jù)K-means算法和One-R分層隨機森林算法挖掘、分析的不同價值優(yōu)勢,取長補短而能夠進行隨機優(yōu)化的一種具有代表性的決策樹算法。[21]依據(jù)KM1R-HRF決策樹算法的運算原理和價值優(yōu)勢,可以將其在決策樹算法云數(shù)據(jù)情報偵查中的應(yīng)用具體分為以下兩個方面:
一個方面是K-means算法流程階段。首先,偵查人員需要對NSL-KDD訓(xùn)練云數(shù)據(jù)子集的每個類別形態(tài)分別采取K-means算法的數(shù)據(jù)頻繁項目聚類挖掘分析,重新構(gòu)建新的訓(xùn)練云數(shù)據(jù)子集。其次,將新構(gòu)建的訓(xùn)練云數(shù)據(jù)子集劃分為Group1和Group2兩部分。其中,Group1包括DoS和Probe,而Group2包括Normal、R2L、U2R等。再次,在Group1的訓(xùn)練云數(shù)據(jù)子集上構(gòu)建RF2,同時在Group2的訓(xùn)練云數(shù)據(jù)子集上構(gòu)建RF3。最后,將Group2的訓(xùn)練云數(shù)據(jù)子集又分為U2R和Other兩類,并在Other上繼續(xù)構(gòu)建RF4。另一個方面是One-R分層隨機森林算法流程階段。第一步,將經(jīng)過K-means算法流程階段所挖掘和獲取的各種云數(shù)據(jù)樣本子集采取隨機不放回的數(shù)據(jù)取樣,并且將其子集個數(shù)K的閾值設(shè)為K=15。第二步,將K中的每個云數(shù)據(jù)訓(xùn)練子集都采取One-R分層的決策樹特征進行對標(biāo)和判斷,再按照對標(biāo)后的差異性重新進行降序處理,并將降序后云數(shù)據(jù)樣本子集K的特征表示為F={F1,F(xiàn)2,F(xiàn)3,…,F(xiàn)41}。第三步,構(gòu)建決策樹的RF模型。從第二步中選取前20個降序后的云數(shù)據(jù)樣本子集,即F={F1,F(xiàn)2,F(xiàn)3,…,F(xiàn)20},根據(jù)K=log241的特征對標(biāo)結(jié)果可得K=6。因此,偵查人員需要在F20中隨機選取6個數(shù)據(jù)對標(biāo)特征而構(gòu)建單棵決策樹,總共需構(gòu)建15棵決策樹的規(guī)模。第四步,依據(jù)構(gòu)建決策樹RF模型的規(guī)模,偵查人員需要對已構(gòu)建的15棵決策樹分別進行檢驗和修正。如果被檢驗和修正的15棵決策樹均正確無誤,那么其就可作為決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的依據(jù)使用;反之,則需要從One-R分層隨機森林算法流程階段重新開始挖掘、分析,直到所有的訓(xùn)練云數(shù)據(jù)子集被運算、挖掘、分析結(jié)束為止,或所獲結(jié)果均不符合決策樹算法云數(shù)據(jù)情報偵查的情報價值預(yù)設(shè)需求。就KM1R-HRF決策樹算法挖掘、分析過程而言,其不但充分發(fā)揮了K-means算法和One-R分層隨機森林算法互相融合的算法價值優(yōu)勢,而且壓縮了對訓(xùn)練云數(shù)據(jù)子集進行挖掘、分析的時空成本,從而提升了決策樹算法云數(shù)據(jù)情報偵查應(yīng)用的分類性能。
綜上所述,基于決策樹算法的云數(shù)據(jù)情報偵查是多源數(shù)據(jù)驅(qū)動創(chuàng)新時代的一種新型數(shù)據(jù)情報偵查方法,主要包括AHP權(quán)重決策樹算法、AdaBoost密度峰值決策樹算法、數(shù)據(jù)節(jié)點相似度決策樹算法、聚類加權(quán)隨機森林決策樹算法以及CART分類回歸決策樹算法、KM1R-HRF決策樹算法,且不同的決策樹算法云數(shù)據(jù)情報偵查方法都有著不同的運算價值優(yōu)勢?;诖?,應(yīng)引入基于決策樹算法的云數(shù)據(jù)情報偵查研究范式。應(yīng)以決策樹算法云數(shù)據(jù)情報偵查的內(nèi)涵與屬性為研究邏輯起點,構(gòu)建決策樹算法云數(shù)據(jù)情報偵查的流程模型,提出決策樹算法云數(shù)據(jù)情報偵查的評價指標(biāo)體系,探討決策樹算法云數(shù)據(jù)情報偵查的應(yīng)用方法。這不僅能夠有效降低云數(shù)據(jù)情報偵查的不確定性和誤判率,還能夠及時優(yōu)化和拓展云數(shù)據(jù)情報偵查的集群并行情報挖掘路徑,提升云數(shù)據(jù)情報偵查應(yīng)用的準(zhǔn)確性和精確性,從而實現(xiàn)決策樹算法云數(shù)據(jù)情報偵查的應(yīng)然價值效果。