• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      公安情報(bào)信息挖掘技術(shù)研究綜述

      2014-06-23 16:21:55張海濤王斌君張洪濤
      關(guān)鍵詞:情報(bào)公安數(shù)據(jù)挖掘

      張海濤,王斌君,張洪濤

      (1.中國(guó)人民公安大學(xué),北京 100038;2.哈爾濱市公安局,黑龍江哈爾濱 150001)

      公安情報(bào)信息挖掘技術(shù)研究綜述

      張海濤1,2,王斌君1,張洪濤2

      (1.中國(guó)人民公安大學(xué),北京 100038;2.哈爾濱市公安局,黑龍江哈爾濱 150001)

      隨著國(guó)家對(duì)情報(bào)工作的重視程度不斷強(qiáng)化及公共安全部門的現(xiàn)實(shí)需求,使公安情報(bào)工作面臨著更高、更嚴(yán)格的要求,公安情報(bào)工作的重要性與難度正在不斷加大。在此背景下,對(duì)國(guó)內(nèi)外公安情報(bào)挖掘技術(shù)進(jìn)行梳理,對(duì)各技術(shù)方法的基本思想、技術(shù)特點(diǎn)及應(yīng)用領(lǐng)域進(jìn)行系統(tǒng)分析,比較它們的性能差異和各自存在的優(yōu)缺點(diǎn),并對(duì)現(xiàn)狀進(jìn)行總結(jié),提出了存在的問(wèn)題與研究的方向,目標(biāo)是為實(shí)現(xiàn)公安情報(bào)為國(guó)內(nèi)安全及警務(wù)戰(zhàn)略服務(wù)。

      公安情報(bào);數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;知識(shí)發(fā)現(xiàn)

      0 背景

      2013年11月中央國(guó)安委成立,統(tǒng)籌協(xié)調(diào)涉及國(guó)家安全的重大事項(xiàng)和重要工作,委員會(huì)的目的是推進(jìn)組建負(fù)責(zé)情報(bào)、軍隊(duì)、外交、公安等內(nèi)容的國(guó)家安全,其中一項(xiàng)重要工作是整合國(guó)家原先分散的情報(bào)搜集與分析能力,彰顯了情報(bào)信息在國(guó)家安全戰(zhàn)略中的重要位置?,F(xiàn)實(shí)中,國(guó)際與國(guó)內(nèi)錯(cuò)綜復(fù)雜環(huán)境使得情報(bào)愈加成為國(guó)家安全的保障,而公安情報(bào)是其中的重要組成部分。公安情報(bào)在“情報(bào)主導(dǎo)警務(wù)”警務(wù)模式下已經(jīng)取得了一些進(jìn)展,發(fā)揮了情報(bào)先導(dǎo)作用,有力地推動(dòng)了公安工作的發(fā)展。但鑒于我國(guó)正處于經(jīng)濟(jì)轉(zhuǎn)軌和社會(huì)改革轉(zhuǎn)型的特殊時(shí)期,社會(huì)矛盾復(fù)雜尖銳,世情、國(guó)情和網(wǎng)情相互交織和影響,使得公安情報(bào)收集工作面臨嚴(yán)峻復(fù)雜的形勢(shì),也提出了更迫切的要求。

      情報(bào)主導(dǎo)警務(wù)的新型模式給公安情報(bào)工作提出了明確的指導(dǎo)原則,促使公安相關(guān)情報(bào)部門將信息化建設(shè)擺在了重要位置,通過(guò)信息化意識(shí)與技能的提高,加強(qiáng)了情報(bào)部門對(duì)情報(bào)信息的獲取、研判與使用能力;通過(guò)積極發(fā)揮情報(bào)先導(dǎo)的作用,相關(guān)部門以國(guó)家金盾工程建設(shè)為契機(jī),努力創(chuàng)新,投入了大量經(jīng)費(fèi)建設(shè)情報(bào)基礎(chǔ)設(shè)施,研究開(kāi)發(fā)了一批適于面向偵查實(shí)踐所需要的情報(bào)分析系統(tǒng),培養(yǎng)了很多素質(zhì)較高的情報(bào)工作人員,改善了公安部門傳統(tǒng)低效率的情報(bào)工作的落后局面,為國(guó)家安全與政治穩(wěn)定、維護(hù)社會(huì)公共安全以及預(yù)防、制止與懲治犯罪發(fā)揮了重大作用。總之公安情報(bào)是警務(wù)的靈魂,是公安情報(bào)部門體現(xiàn)偵查能力的最高標(biāo)準(zhǔn),是公安機(jī)關(guān)及其他安全部門發(fā)揮職能作用和完善打擊能力的關(guān)鍵手段。

      1 公安情報(bào)范疇

      關(guān)于公安情報(bào)范疇的認(rèn)識(shí),公安情報(bào)學(xué)界看法不一[1],這里借用警察法的規(guī)定圈定公安情報(bào)范疇。警察法規(guī)定,人民警察的任務(wù)是維護(hù)國(guó)家安全,維護(hù)社會(huì)治安秩序,保護(hù)公民的人身安全、人身自由和合法財(cái)產(chǎn),保護(hù)公共財(cái)產(chǎn),預(yù)防、制止和懲治違法犯罪活動(dòng)。針對(duì)性地,公安情報(bào)可理解為:公安情報(bào)是對(duì)公安機(jī)關(guān)職能范圍內(nèi)涉及國(guó)家安全與社會(huì)公共安全相關(guān)的信息進(jìn)行分析研判的結(jié)果,其內(nèi)容主要涉及國(guó)內(nèi)安全、社會(huì)穩(wěn)定、社會(huì)公共安全及其相關(guān)危害因素。區(qū)別于商業(yè)情報(bào)、軍事情報(bào)等其他情報(bào)現(xiàn)象,公安情報(bào)信息強(qiáng)調(diào)的是針對(duì)國(guó)內(nèi)安全、社會(huì)維穩(wěn)和社會(huì)公共安全及社會(huì)秩序的情報(bào)因素挖掘;情報(bào)做為一種必需品,其目標(biāo)是幫助公安及國(guó)內(nèi)其他安全相關(guān)部門維護(hù)國(guó)家安全、社會(huì)穩(wěn)定,維護(hù)社會(huì)公共安全和治安秩序,對(duì)潛在含攻擊性、與安全密切相關(guān)的,可能危害國(guó)家安全與社會(huì)穩(wěn)定的活動(dòng)提供預(yù)警與輔助打擊支持。

      2 公安情報(bào)挖掘技術(shù)

      公安情報(bào)技術(shù)是建立在數(shù)據(jù)源基礎(chǔ)上的,并應(yīng)用于公安情報(bào)工作各環(huán)節(jié)的技術(shù)手段。公安情報(bào)技術(shù)涵蓋范圍廣泛,以下章節(jié)著重闡述情報(bào)體系中最為核心的情報(bào)挖掘技術(shù)。公安情報(bào)源不僅包括各種公安系統(tǒng)內(nèi)部業(yè)務(wù)信息,還包括互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等在內(nèi)的一切社會(huì)信息與分析研判后的調(diào)查結(jié)果等。公安情報(bào)技術(shù)的研究驅(qū)動(dòng)源自情報(bào)主導(dǎo)警務(wù)的客觀需求,研究人員既有公安情報(bào)工作一線實(shí)戰(zhàn)專家,也有公安及其他科研院??蒲腥藛T,技術(shù)路線特點(diǎn)是一線實(shí)戰(zhàn)人員基于具體情報(bào)工作經(jīng)驗(yàn),更注重追求直接的、現(xiàn)實(shí)的、操作性的技術(shù)細(xì)節(jié),大多采用較成熟的理論與技術(shù);而理論研究者傾向于對(duì)情報(bào)理論與情報(bào)挖掘方法的創(chuàng)新。

      2.1 數(shù)據(jù)挖掘方法

      數(shù)據(jù)挖掘是從包含有大量不完全的、有噪聲的應(yīng)用數(shù)據(jù)的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)未知、隱含且有規(guī)律性的、可理解的、有利于決策的信息和知識(shí)的過(guò)程。做為一門綜合性的技術(shù),數(shù)據(jù)挖掘不僅包含各種數(shù)據(jù)挖掘算法,還與統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的理論相互交織。公安實(shí)戰(zhàn)人員可以利用各種分析工具在大量的公安數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間的關(guān)聯(lián)性,使用這些模型和關(guān)系可以幫助決策部門基于數(shù)據(jù)間的潛在關(guān)聯(lián)性做出評(píng)估、預(yù)測(cè)與決策。目前,國(guó)內(nèi)外執(zhí)法部門都在研究和探討面向相關(guān)職能領(lǐng)域中的數(shù)據(jù)挖掘理論方法和技術(shù)。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)如關(guān)聯(lián)分析、分類、聚類、預(yù)測(cè)分析都可以應(yīng)用于具有大數(shù)據(jù)特征的違法犯罪信息領(lǐng)域。其中,關(guān)聯(lián)規(guī)則模式及其改進(jìn)型應(yīng)用最為廣泛,其基本思想是發(fā)現(xiàn)頻繁性至少和預(yù)定義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,選擇那些超過(guò)設(shè)定支持度和可信度的關(guān)聯(lián)規(guī)則為可行性關(guān)聯(lián)規(guī)則。如文獻(xiàn)[2]通過(guò)在傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法(Apriori)基礎(chǔ)上引入敏感參數(shù),生成一種增量關(guān)聯(lián)規(guī)則挖掘算法來(lái)應(yīng)用于犯罪行為分析中,有效地挖掘出犯罪行為信息庫(kù)中的新的增量犯罪行為,為公安機(jī)關(guān)在打擊、預(yù)警新的犯罪行為時(shí)提供決策依據(jù)。文獻(xiàn)[3]針對(duì)傳統(tǒng)Apriori算法低效率問(wèn)題,提出了一種適合關(guān)系數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則挖掘的IMM_Apriori算法,通過(guò)對(duì)基于矩陣的算法進(jìn)行改進(jìn),引入刪除壓縮技術(shù)提高了算法性能,有效地解決了Apriori算法在發(fā)現(xiàn)頻繁2-項(xiàng)集時(shí)的效率瓶頸問(wèn)題。ADVESE是美國(guó)國(guó)土安全部提出的一個(gè)研究實(shí)驗(yàn)方案,做為一個(gè)龐大的數(shù)據(jù)挖掘系統(tǒng),能夠處理海量的數(shù)據(jù)實(shí)體,這些數(shù)據(jù)來(lái)源相當(dāng)廣泛,包括財(cái)政記錄、電話記錄、電子郵件、博客信息、網(wǎng)站索引以及一些電子信息記錄,通過(guò)關(guān)聯(lián)規(guī)則的挖掘,利用這些信息系統(tǒng)可實(shí)現(xiàn)對(duì)任何一個(gè)美國(guó)公民進(jìn)行評(píng)估,以判斷該公民是否為恐怖分子的可能性?!袄忡R”計(jì)劃背后的數(shù)據(jù)支撐系統(tǒng)Accumulo在數(shù)據(jù)庫(kù)中存儲(chǔ)多種來(lái)源的數(shù)據(jù)以進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。

      近年來(lái),文本信息挖掘作為數(shù)據(jù)挖掘領(lǐng)域的新興的分支得到了迅猛發(fā)展,其涵蓋多種技術(shù),包括文本分類,信息抽取、自然語(yǔ)言處理和數(shù)據(jù)挖掘技術(shù)。目的是從來(lái)源于web或者數(shù)據(jù)庫(kù)中的大量的非結(jié)構(gòu)化或者半結(jié)構(gòu)化的文本數(shù)據(jù)中獲得用戶感興趣的模式。目前,文本挖掘在多個(gè)領(lǐng)域中得到了應(yīng)用,包括在信息檢索、互聯(lián)網(wǎng)輿情分析、信息過(guò)濾等領(lǐng)域,做為文本挖掘的一個(gè)重要內(nèi)容,文本分類或聚類算法基本思想是按照一種監(jiān)督或非監(jiān)督的預(yù)定義類別體系,根據(jù)集合中文本的內(nèi)容為每個(gè)文檔進(jìn)行類別的自動(dòng)判別過(guò)程。如文獻(xiàn)[4]應(yīng)用文本分類和聚類技術(shù)于入境人員的犯罪記錄,將入境人員分為高度危險(xiǎn)分子,普通危險(xiǎn)分子和一般人員等,從而有利于公安部門決定重點(diǎn)審查對(duì)象。此外還有文檔自動(dòng)摘要[5]等相關(guān)犯罪文本挖掘技術(shù)的研究和應(yīng)用。國(guó)外文本挖掘技術(shù)也很好地應(yīng)用于犯罪信息領(lǐng)域,如文獻(xiàn)[6]將文本信息挖掘技術(shù)用于從案件敘述性文本中自動(dòng)識(shí)別出人名、地名、作案手段、作案工具等。信息抽取一般作為犯罪數(shù)據(jù)挖掘的基礎(chǔ),信息抽取后可使用其他數(shù)據(jù)挖掘方法進(jìn)行犯罪分析[7],Hsinchun chen,wingyan Chung等人在COPLINK項(xiàng)目[8]中應(yīng)用了文本信息挖掘技術(shù)。2006年,Wang G.,Chen H.等人利用字符串比較方法檢測(cè)以往數(shù)據(jù)庫(kù)案件文本記錄中相同的詐騙信息,從而實(shí)現(xiàn)同一犯罪詐騙的識(shí)別[9]。2007年,S.Appavu alias Balamurugan,Ramasamy Rajaram將基于決策樹(shù)的文本分類方法應(yīng)用于e-mail分類系統(tǒng)中,在截獲的電子郵件中通過(guò)文本自動(dòng)分類發(fā)現(xiàn)含有犯罪行為的郵件,從而挖掘出犯罪嫌疑人或者犯罪組織結(jié)構(gòu)[10]。此外,文本挖掘還有文本自動(dòng)摘要,模式識(shí)別[11],文本聚類等技術(shù)在犯罪領(lǐng)域中的研究和應(yīng)用。

      時(shí)至今日,數(shù)據(jù)挖掘的研究和開(kāi)發(fā)雖已取得了令人矚目的進(jìn)展,但仍有一些亟待解決和完善的課題,如挖掘算法的關(guān)鍵效率和可擴(kuò)放性,數(shù)據(jù)的時(shí)序性挖掘,缺陷數(shù)據(jù)的處理,挖掘結(jié)果的可理解性等,另外面對(duì)處理海量數(shù)據(jù)時(shí),如何提高算法效率是關(guān)聯(lián)規(guī)則挖掘的一個(gè)難點(diǎn),現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘方法研究主要集中在效率提高、相關(guān)性分析、關(guān)聯(lián)規(guī)則的維護(hù)及擴(kuò)展應(yīng)用等方面,但是大規(guī)模應(yīng)用仍受到很多問(wèn)題的困擾,仍面臨著諸多挑戰(zhàn)。文本信息挖掘同樣面臨眾多難點(diǎn),如海量的數(shù)據(jù)處理問(wèn)題、半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)化文本特征提取及特征空間的高維性、類別歸屬的模糊性問(wèn)題,使得自動(dòng)文本分類在許多方面的表現(xiàn)難以令人滿意,一系列原因?qū)е略趯?shí)際使用中,大量隱藏的可用性信息無(wú)法充分地挖掘出來(lái)為實(shí)際辦案所用。

      2.2 知識(shí)發(fā)現(xiàn)方法

      知識(shí)發(fā)現(xiàn)是交叉性研究領(lǐng)域,概念邊界模糊,在某種程度上也可稱之為數(shù)據(jù)挖掘,知識(shí)抽取或信息發(fā)現(xiàn)等。從技術(shù)上講,知識(shí)發(fā)現(xiàn)是指從數(shù)據(jù)集中按照某種方法抽取暗含的新的模式,經(jīng)過(guò)一系列處理之后,得到想要的知識(shí)。可以說(shuō)狹義的數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)步驟,但是,狹義的知識(shí)發(fā)現(xiàn)過(guò)程卻包含在廣義的數(shù)據(jù)挖掘過(guò)程中,兩種概念相互交錯(cuò),很難明確區(qū)分。目前很多知識(shí)發(fā)現(xiàn)算法在功能上已經(jīng)遠(yuǎn)超過(guò)了數(shù)據(jù)挖掘當(dāng)初所界定的范圍,因此,此處只與狹義的數(shù)據(jù)挖掘概念相比較,以引出知識(shí)發(fā)現(xiàn)方法概念,較好地概括知識(shí)發(fā)現(xiàn)領(lǐng)域中所包含的理論、技術(shù)和方法。知識(shí)發(fā)現(xiàn)從任務(wù)類型上可以劃分為分類、聚類、相關(guān)性分組或依賴時(shí)間的預(yù)測(cè)等任務(wù)。知識(shí)發(fā)現(xiàn)任務(wù)在發(fā)現(xiàn)目標(biāo)、層算法及工具體系上各有不同,但通常包含兩個(gè)子任務(wù),即實(shí)體識(shí)別與關(guān)系抽取。關(guān)系抽取任務(wù)是由美國(guó)國(guó)防高級(jí)研究計(jì)劃委員會(huì)(Defense Advanced Research Projects Agency)資助的消息理解會(huì)議(Message Understanding Conference,MUC)提出,目標(biāo)是通過(guò)推動(dòng)兩種子任務(wù)的研究,實(shí)現(xiàn)情報(bào)挖掘技術(shù)的發(fā)展。MUC制定了實(shí)體關(guān)系抽取任務(wù)的各種規(guī)范及相應(yīng)評(píng)價(jià)體系。實(shí)體關(guān)系抽取研究的重點(diǎn)與難點(diǎn)是語(yǔ)義關(guān)系抽取,語(yǔ)義關(guān)系抽取是一種從非結(jié)構(gòu)化數(shù)據(jù)中準(zhǔn)確地提取有用信息和知識(shí)的新興數(shù)據(jù)挖掘技術(shù),抽取的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)集中兩個(gè)不同實(shí)體之間的語(yǔ)義關(guān)系。語(yǔ)義關(guān)系抽取應(yīng)用領(lǐng)域廣泛,包括國(guó)防事業(yè),Web行業(yè)分析,商業(yè)競(jìng)爭(zhēng)分析,安全情報(bào)分析等都富有應(yīng)用前景,國(guó)外基于此技術(shù)的突出代表是英國(guó)執(zhí)法部門的I2系統(tǒng),通過(guò)將偵查部門獲取的信息進(jìn)行數(shù)據(jù)整合,并利用關(guān)聯(lián)、匹配、可視化、語(yǔ)義抽取等技術(shù)實(shí)現(xiàn)情報(bào)信息的自動(dòng)分析與可視化操作,可有效地從大量數(shù)據(jù)中挖掘出有價(jià)值的信息。另外,文獻(xiàn)[12]通過(guò)引入實(shí)體關(guān)系模型,用關(guān)系樹(shù)的方法抽取案情信息中的實(shí)體關(guān)系,然后提出發(fā)現(xiàn)犯罪網(wǎng)絡(luò)重要人物的算法,算法明顯提高了破解具有社會(huì)網(wǎng)絡(luò)特征的犯罪網(wǎng)絡(luò)的辦案水平。文獻(xiàn)[13]將語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)應(yīng)用于國(guó)家安全領(lǐng)域,通過(guò)乘客與危險(xiǎn)分子名單的關(guān)聯(lián)來(lái)計(jì)算乘客的危險(xiǎn)值,指導(dǎo)登機(jī)檢查,以保證國(guó)家安全。

      網(wǎng)絡(luò)數(shù)據(jù)的模糊性、復(fù)雜性特點(diǎn),需要針對(duì)從原始的網(wǎng)絡(luò)數(shù)據(jù)中提取出社會(huì)網(wǎng)絡(luò),從Web數(shù)據(jù)中抽取社會(huì)網(wǎng)絡(luò)涉及到對(duì)復(fù)雜語(yǔ)義的理解以確定節(jié)點(diǎn)關(guān)聯(lián)的語(yǔ)義。基于社會(huì)網(wǎng)絡(luò)的知識(shí)挖掘旨在從網(wǎng)絡(luò)結(jié)構(gòu)中挖掘出有意義的模式和知識(shí)。隨著WEB 2.0的發(fā)展,社會(huì)化網(wǎng)絡(luò)挖掘逐漸成為當(dāng)前數(shù)據(jù)挖掘的新熱點(diǎn)。如基于社會(huì)網(wǎng)絡(luò)方法的犯罪組織關(guān)系挖掘[14],文章利用社會(huì)網(wǎng)絡(luò)分析方法對(duì)犯罪組織關(guān)系進(jìn)行研究,通過(guò)計(jì)算網(wǎng)絡(luò)的中心性指標(biāo),提出犯罪組織中心人物及相互關(guān)系的判定方法。文獻(xiàn)[15]研究了如何通過(guò)中心度測(cè)量來(lái)發(fā)現(xiàn)恐怖組織社會(huì)網(wǎng)絡(luò)中的重要節(jié)點(diǎn),以及如何通過(guò)可視化技術(shù)進(jìn)行網(wǎng)絡(luò)分析,從而發(fā)現(xiàn)網(wǎng)絡(luò)中隱含的信息。文獻(xiàn)[16]利用社會(huì)網(wǎng)絡(luò)分析方法對(duì)多個(gè)具體案例展開(kāi)分析,歸結(jié)出兩種基本構(gòu)型的網(wǎng)絡(luò)單元(“核心型”和“搭伙型”)來(lái)識(shí)別跨境毒品犯罪網(wǎng)絡(luò),提出在案件偵查經(jīng)營(yíng)中要特別注意網(wǎng)絡(luò)聯(lián)結(jié)性權(quán)重大的重要角色。文獻(xiàn)[17]基于復(fù)雜網(wǎng)絡(luò)建模的方法建立了具有無(wú)標(biāo)度特征、小世界特征和層次特征的犯罪組織網(wǎng)絡(luò),采用社會(huì)網(wǎng)絡(luò)分析中的中心度方法來(lái)識(shí)別組織中的關(guān)鍵成員,并基于網(wǎng)絡(luò)密度變化值考察不同犯罪組織結(jié)構(gòu)的運(yùn)行效率及安全性,為打擊犯罪組織的活動(dòng)制訂針對(duì)性的策略提出了構(gòu)建方案。國(guó)外也有學(xué)者通過(guò)對(duì)已有犯罪組織數(shù)據(jù)分析,運(yùn)用社會(huì)網(wǎng)絡(luò)分析法對(duì)各種犯罪組織結(jié)構(gòu)進(jìn)行研究,如Krebs[18]利用社會(huì)網(wǎng)絡(luò)分析方法識(shí)別9·11事件中恐怖組織的核心成員;Jonathan[19]采用動(dòng)力學(xué)分析法研究成員遞減性對(duì)原組織結(jié)構(gòu)的影響;Carlo[20]對(duì)加拿大黑社會(huì)犯罪組織和9·11恐怖組織的安全性和組織效率進(jìn)行了對(duì)比研究。知識(shí)發(fā)現(xiàn)技術(shù)對(duì)于情報(bào)領(lǐng)域的深入研究起到支撐作用,應(yīng)該進(jìn)一步拓展知識(shí)發(fā)現(xiàn)在情報(bào)領(lǐng)域的應(yīng)用,豐富完善情報(bào)體系,針對(duì)知識(shí)發(fā)現(xiàn)用于情報(bào)挖掘體系的研究,文獻(xiàn)[21]提倡將知識(shí)發(fā)現(xiàn)技術(shù)用于情報(bào)收集與處理的各個(gè)階段,將統(tǒng)計(jì)方法、人工智能技術(shù)應(yīng)用于情報(bào)收集、情報(bào)管理與情報(bào)分析等各個(gè)階段,從不同層面促進(jìn)情報(bào)工作的深入與問(wèn)題的解決,通過(guò)使用主動(dòng)式專題搜索引擎,深度挖掘敏感信息內(nèi)容;采用知識(shí)發(fā)現(xiàn)領(lǐng)域中的結(jié)構(gòu)發(fā)現(xiàn)與內(nèi)容發(fā)現(xiàn)技術(shù),提取暗含的組織及其關(guān)聯(lián)關(guān)系;用分類、聚類等技術(shù)實(shí)現(xiàn)對(duì)情報(bào)信息的自動(dòng)類別劃分;通過(guò)統(tǒng)計(jì)分析、可視化及預(yù)測(cè)等技術(shù),對(duì)情報(bào)進(jìn)行自動(dòng)分析與理解。

      目前知識(shí)發(fā)現(xiàn)方法大多基于數(shù)據(jù)挖掘的思想,技術(shù)上與數(shù)據(jù)挖掘有著千絲萬(wàn)縷的聯(lián)系,兩者仍存在著許多理論上的問(wèn)題有待解決,如數(shù)據(jù)的巨量性,動(dòng)態(tài)性,噪聲與稀疏性,發(fā)現(xiàn)模式的可理解性,復(fù)雜數(shù)據(jù)庫(kù)處理,數(shù)據(jù)類型多樣性及復(fù)雜語(yǔ)義處理等問(wèn)題。基于類別劃分的知識(shí)發(fā)現(xiàn),其研究雖已取得了矚目的成就,并在各個(gè)領(lǐng)域得到很好的應(yīng)用,但仍面臨著許多需解決的問(wèn)題,如針對(duì)噪音數(shù)據(jù)的處理;基于如非均衡數(shù)據(jù)等的知識(shí)發(fā)現(xiàn)困難,文本分類、聚類算法效率較低,無(wú)法將半結(jié)構(gòu)化的網(wǎng)頁(yè)或者非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),不能有效處理未登錄詞,在語(yǔ)義相關(guān)度計(jì)算方面沒(méi)有實(shí)質(zhì)突破,導(dǎo)致在處理復(fù)雜相關(guān)語(yǔ)句時(shí)性能欠佳。

      2.3 其他方法

      文獻(xiàn)[22]設(shè)計(jì)一種基于統(tǒng)計(jì)學(xué)習(xí)方法,從多個(gè)層次對(duì)文本的態(tài)度傾向進(jìn)行研判分析,基于此角度了解網(wǎng)民發(fā)帖的態(tài)度,情感傾向等。提出的方法提高了網(wǎng)絡(luò)監(jiān)察工作中文本信息提取的針對(duì)性和可用性;將這項(xiàng)技術(shù)應(yīng)用到公安情報(bào)收集分析工作中,設(shè)計(jì)了一套能夠融合到公安大情報(bào)平臺(tái)中的文本傾向性分類器,通過(guò)細(xì)化分析及對(duì)網(wǎng)絡(luò)中有價(jià)值的文本進(jìn)行態(tài)度標(biāo)注,提高了公安情報(bào)收集工作的效率。然而僅對(duì)情感的分析與識(shí)別不能滿足對(duì)于情報(bào)挖掘的技術(shù)要求,實(shí)際上影響傾向性分析的因素很多,如文本處理中的分詞技術(shù)、詞性標(biāo)注、句法依存分析和語(yǔ)義標(biāo)注等直接影響到傾向性分析結(jié)果,特別是涉及到語(yǔ)義分析技術(shù)這一難關(guān)時(shí),更是需要相關(guān)理論的進(jìn)一步創(chuàng)新。關(guān)于其他情報(bào)挖掘技術(shù),世界各國(guó)對(duì)此都嚴(yán)加保密,美國(guó)“多條件反恐信息交換系統(tǒng)”這一著名情報(bào)分析系統(tǒng),可知的資料顯示其基于知識(shí)庫(kù)并采用貝葉斯分析推斷的一般專家系統(tǒng)模式。

      3 進(jìn)一步研究方向

      世界主要國(guó)家都對(duì)情報(bào)技術(shù)的研究投入巨大,情報(bào)獲取能力已上升為一個(gè)國(guó)家的硬實(shí)力的具體表現(xiàn),公安情報(bào)對(duì)于我國(guó)國(guó)內(nèi)安全與社會(huì)穩(wěn)定至關(guān)重要,隨著情報(bào)主導(dǎo)警務(wù)模式的推進(jìn),公安實(shí)踐已愈加依賴情報(bào)先行。目前的情報(bào)挖掘主要技術(shù)基本上建立在數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)思想基礎(chǔ)之上,具體的技術(shù)發(fā)展可直接體現(xiàn)為這兩個(gè)領(lǐng)域的相關(guān)理論技術(shù)創(chuàng)新,從圖1中可以看出,情報(bào)挖掘相關(guān)理論、技術(shù)分屬領(lǐng)域邊界比較模糊,學(xué)科特點(diǎn)是具有明顯的交叉性與綜合性,未來(lái)的理論與技術(shù)創(chuàng)新極可能出現(xiàn)學(xué)科交錯(cuò)的領(lǐng)域,可能會(huì)產(chǎn)生新的學(xué)科生長(zhǎng)點(diǎn)及獲得原創(chuàng)性科學(xué)成果來(lái)提高情報(bào)挖掘能力。未來(lái)可進(jìn)一步發(fā)展海量多源數(shù)據(jù)融合與可視化分析理論與技術(shù),云情報(bào)理論、網(wǎng)絡(luò)深度搜索技術(shù)、復(fù)雜語(yǔ)義處理技術(shù)等。

      圖1 公安情報(bào)挖掘主要技術(shù)關(guān)系圖

      4 結(jié)論

      目前的公安情報(bào)信息挖掘技術(shù)主要是引入數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)等領(lǐng)域理論方法,各種方法思想交錯(cuò),很難明確區(qū)分異同,但主旨都是從海量的數(shù)據(jù)中挖掘出隱含的,有價(jià)值的信息以利于決策分析。大多數(shù)方法都是基于數(shù)據(jù)挖掘思想與知識(shí)發(fā)現(xiàn)思想,并在實(shí)際工程領(lǐng)域取得了大量應(yīng)用性成果,但歸結(jié)起來(lái),目前情報(bào)挖掘技術(shù)所取得的只是“摘取的最低枝頭上的果實(shí)”,理論上還需要繼續(xù)展開(kāi)深入研究,另外,多源數(shù)據(jù)融合及海量信息的挖掘與情報(bào)智能分析技術(shù)亟待進(jìn)一步創(chuàng)新。從實(shí)踐角度看,情報(bào)挖掘難點(diǎn)之一是在信息不完整和模糊情況下如何進(jìn)行分析、研判的理論與技術(shù),如何克服在人類思維的過(guò)程中存在著思維定勢(shì)和認(rèn)知偏見(jiàn),表面上看似無(wú)關(guān)而實(shí)質(zhì)上卻包含關(guān)聯(lián)性的瑣碎信息片段中如何挖掘出有價(jià)值的重要情報(bào)。公安情報(bào)部門面臨的困境是獲得的情報(bào)質(zhì)量低下,一些情報(bào)停留在表面活動(dòng)現(xiàn)象的記錄上,沒(méi)有深層次、高質(zhì)量的綜合分析,造成表層信息多、預(yù)警性的信息少;缺乏對(duì)數(shù)據(jù)信息的深度抽取和理解,造成顯性信息多,隱性信息少。這里需要指出的是,社會(huì)上對(duì)網(wǎng)絡(luò)輿情分析的研究較多,它是情報(bào)信息挖掘的一個(gè)重要方向,但主要是基于公開(kāi)信息,針對(duì)輿情熱點(diǎn)檢測(cè),民眾態(tài)度傾向分析、輿情傳播機(jī)制及輿情導(dǎo)控方面展開(kāi)研究,此類研究受資源所限,直接針對(duì)公安案情線索與國(guó)安政情類信息情報(bào)挖掘的研究較少。

      [1]謝曉專.公安情報(bào)學(xué)的研究對(duì)象與內(nèi)容論綱[J].情報(bào)科學(xué),2013,31(9):128-131.

      [2]杜威,等.增量關(guān)聯(lián)規(guī)則挖掘算法在犯罪行為中的應(yīng)用研究[J].中國(guó)人民公安大學(xué)學(xué)報(bào),2011,2(2):56-58.

      [3]常朝穩(wěn),代永衛(wèi),等.關(guān)聯(lián)規(guī)則在公安情報(bào)信息系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(5):209-212.

      [4]夏詠梅.基于文本挖掘的分類與聚類技術(shù)[J].情報(bào)探索,2005,3(3).

      [5]XU J,CHEN H.Criminal network analysis and visualization[J].Communications of the ACM,2005,48(6): 107.

      [6]CHAU M,XU J,CHEN H.Extracting meaningful entities from police narrative reports[C]∥Proceedings of the 2002 annual national conference on Digital government research.Digital Gorernment Society of North America,2002:1-5.

      [7]LEE W,STOLFO S I,MOK K W.A data mining framework for building intrusion diction models[C]∥Security and Privacy,1999.Proceedings of the 1999 IEEE Symposium on IEEE,1999:120-132.

      [8]CHEN H,CHUNG W,QIN Y,et al.Crime data mining:an overview and case studies[C]∥Proceedings of the 2003 annual national conference on Digital government research.Digtal Government Society of North America,2003:1-5.

      [9]WANG G A,CHEN H,XU J J,et al.Automatically detecting criminal identity deception:a adaptive detective algorithm[J].System,Man and Cybernetics,Part A: Systems and Humans,IEEE Transactions on,2006,36 (5):988-999.

      [10]RAIARAM R,BACAMURUGAN A.Suspicious E-mail detection via decision tree:A data mining approach[J].CIT.Journal of computing and information technology,2007,15(2):161-169.

      [11]WU T,POTTNGER W M.A semi-supervised algorithm for pattern discovery in information extraction from textual data[M]∥Adrances in Knowledge Discovery and Data Mining.Springer Berlin Heidelberg,2003:117-123.

      [12]周利娟,等.基于實(shí)體關(guān)系的犯罪網(wǎng)絡(luò)識(shí)別機(jī)制[J].計(jì)算機(jī)應(yīng)用研究,2011,28(3):998-1002.

      [13]SHETH A,ALEMAN-MEZA B,ARPINAR I B,et al.Semantic association identification and knowledge discovery for national security applications[J].Journal of Database Management(JDM),2005,16(1):33-53.

      [14]楊莉莉,楊永川.基于社會(huì)網(wǎng)絡(luò)的犯罪組織關(guān)系挖掘[J].計(jì)算機(jī)工程,2009,35(15):91-93.

      [15]YANG C C.Knowledge discovery and information visualization for terrorist social networks[M]∥Intelligence and security informatics.Springer Berlin Heidelberg,2008:45-64.

      [16]黃慧霞.跨境毒品犯罪組織結(jié)構(gòu)的社會(huì)網(wǎng)絡(luò)分析[J].中國(guó)人民公安大學(xué)學(xué)報(bào),2010(1):29-38.

      [17]陳鵬,袁宏永.犯罪組織結(jié)構(gòu)的社會(huì)網(wǎng)絡(luò)分析[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2011,51(8):1097-1101.

      [18]KREBS V E.Mapping networks of terrorist cells[J].Connections,2002,24(3):43-52.

      [19]FARLEY J D.Breaking A1 Qaeda cells:A mathematical analysis of counterterrorism operations(A guide for risk assessment and decision making)[J].Studies in Conflict&Terrorism,2003,26:399-411.

      [20]MORSELLI C,GIGUERE C,PETIT K.The efficiency security trade-off in criminal networks[J].Social Networks,2007,29(1):143-153.

      [21]謝毓湘,欒悉道,等.知識(shí)發(fā)現(xiàn)在互聯(lián)網(wǎng)情報(bào)收集與處理中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2006(25):9 -11.

      [22]武鴻浩,楊永川.文本傾向性分析技術(shù)在公安大情報(bào)系統(tǒng)中的應(yīng)用研究[J].技術(shù)研究,2011(5):89-90.

      (責(zé)任編輯 陳小明)

      D035.31

      中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金和公安理論及軟科學(xué)研究計(jì)劃(2013LLYJGADX003)項(xiàng)目資助。

      張海濤(1982—),男,黑龍江人,2012級(jí)博士研究生,研究方向?yàn)樾畔踩⒂?jì)算機(jī)犯罪偵查。

      猜你喜歡
      情報(bào)公安數(shù)據(jù)挖掘
      情報(bào)
      情報(bào)
      情報(bào)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      “老公安”的斂財(cái)“利器”
      “10歲當(dāng)公安”為何能暢通無(wú)阻
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      公安報(bào)道要有度
      新聞傳播(2016年20期)2016-07-10 09:33:31
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      交接情報(bào)
      泾川县| 射洪县| 乌鲁木齐市| 常德市| 富川| 沁阳市| 阿克陶县| 峨边| 南阳市| 松阳县| 德昌县| 灵石县| 扶风县| 泰兴市| 巴林左旗| 星座| 繁昌县| 辽阳市| 游戏| 扎囊县| 淄博市| 大兴区| 郎溪县| 霍邱县| 旅游| 荥阳市| 农安县| 桐庐县| 溆浦县| 安阳县| 黔西| 隆子县| 临沧市| 巴马| 英德市| 正阳县| 勐海县| 灌阳县| 资中县| 保康县| 聊城市|