趙曉凡
(中國人民公安大學(xué) 信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院,北京 102623)
計(jì)算機(jī)專業(yè)目前仍屬于比較熱門的好就業(yè)專業(yè),公安高等院校均開設(shè)有計(jì)算機(jī)專業(yè),內(nèi)含網(wǎng)絡(luò)安全與執(zhí)法、信息安全、視頻圖像技術(shù)和數(shù)據(jù)挖掘等方向。隨著公安信息化工作的發(fā)展,公安業(yè)務(wù)工作利用計(jì)算機(jī)進(jìn)行輿情分析、預(yù)警決策,進(jìn)而打擊、預(yù)防犯罪成為趨勢,這些都與數(shù)據(jù)挖掘課程所講授的內(nèi)容密切相關(guān),是數(shù)據(jù)挖掘課程在實(shí)踐中的具體應(yīng)用[1-6]。計(jì)算機(jī)專業(yè)課程設(shè)置及教學(xué)內(nèi)容對公安院校學(xué)生知識儲備至關(guān)重要,考慮到公安院校學(xué)生的就業(yè)方向基本為各地市公安機(jī)關(guān),計(jì)算機(jī)專業(yè)選修課應(yīng)以實(shí)用性為主,特別是數(shù)據(jù)挖掘課程,其教學(xué)內(nèi)容更應(yīng)結(jié)合公安業(yè)務(wù)并緊跟時(shí)代的發(fā)展,適時(shí)而變。
目前,針對數(shù)據(jù)挖掘課程與大數(shù)據(jù)技術(shù)相結(jié)合的教改探討有:文獻(xiàn)[7]從培養(yǎng)數(shù)據(jù)意識、加強(qiáng)理論體系、創(chuàng)新教學(xué)方法和深入科學(xué)研究等4個(gè)方面來探索如何設(shè)計(jì)高校數(shù)據(jù)挖掘課程,以解決大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘課程因抽象而帶來的問題;文獻(xiàn)[8]針對大數(shù)據(jù)的特點(diǎn),以構(gòu)建課程核心知識體系為主題,采用案例教學(xué)法,改革傳統(tǒng)的教學(xué)評價(jià)方式,理論結(jié)合實(shí)踐進(jìn)行研究生數(shù)據(jù)挖掘課程教學(xué)創(chuàng)新嘗試,教學(xué)達(dá)到了預(yù)期效果,受到學(xué)生好評;文獻(xiàn)[9]結(jié)合大數(shù)據(jù)的特點(diǎn),對大數(shù)據(jù)時(shí)代數(shù)據(jù)存儲與挖掘算法的教學(xué)改革進(jìn)行分析,對后續(xù)研究提供了參考;文獻(xiàn)[10]以課堂教學(xué)、MOOC 嵌入式課程和項(xiàng)目實(shí)踐相結(jié)合的方式,推進(jìn)數(shù)據(jù)挖掘課程在大數(shù)據(jù)環(huán)境下的教學(xué)和實(shí)踐。對數(shù)據(jù)挖掘課程從其他方面進(jìn)行教改的文章還有:文獻(xiàn)[11]對數(shù)據(jù)挖掘課程的特點(diǎn)和應(yīng)用領(lǐng)域、數(shù)據(jù)預(yù)處理方法和關(guān)鍵的四項(xiàng)技術(shù)、Web 挖掘與個(gè)性化推薦以及算法實(shí)現(xiàn)及應(yīng)用上做了分析,對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程做了嘗試;文獻(xiàn)[12]提出通過建設(shè)開放數(shù)據(jù)挖掘?qū)嵺`教學(xué)資源庫來提升教學(xué)效果。
數(shù)據(jù)挖掘通常稱為從數(shù)據(jù)中發(fā)現(xiàn)知識,是自動、方便提取代表知識的模式,這些模式隱藏在大型數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他大量信息庫或數(shù)據(jù)流中[13]。作為計(jì)算機(jī)專業(yè)研究生的專業(yè)選修課,在公安高等院校開設(shè)數(shù)據(jù)挖掘課程的必要性如下。
互聯(lián)網(wǎng)行業(yè)作為大數(shù)據(jù)的推動者與技術(shù)應(yīng)用創(chuàng)新的領(lǐng)跑者,不僅是傳統(tǒng)行業(yè)實(shí)現(xiàn)產(chǎn)業(yè)升級的重要手段,也是新興行業(yè)開啟新型服務(wù)方式的依賴。當(dāng)前,互聯(lián)網(wǎng)逐漸滲透到電子商務(wù)、移動通信、醫(yī)療衛(wèi)生、政府機(jī)構(gòu)等領(lǐng)域和機(jī)構(gòu),許多計(jì)算機(jī)技術(shù)正在日益改變我們的生活。物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)逐步成為計(jì)算機(jī)專業(yè)的熱門研究方向。在這些口號的背后,蘊(yùn)藏和折射出的是運(yùn)用信息和數(shù)據(jù)的能力,即如何從大量、復(fù)雜的數(shù)據(jù)中提取有用的信息,這就是數(shù)據(jù)挖掘課程涉及的內(nèi)容。此外,近些年大數(shù)據(jù)技術(shù)迅猛發(fā)展,而大數(shù)據(jù)分析所運(yùn)用的算法和工具都是數(shù)據(jù)挖掘課程的內(nèi)容,是數(shù)據(jù)挖掘課程的拓展和進(jìn)一步延續(xù)。
社會需求是高等院校人才培養(yǎng)的驅(qū)動力。計(jì)算機(jī)發(fā)展的最高境界是實(shí)現(xiàn)真正意義上的人工智能,而人工智能屬于數(shù)據(jù)挖掘大類中的一個(gè)領(lǐng)域,是其發(fā)展的方向。隨著科技的進(jìn)步,一方面,一些原來需要人工完成的工作開始被機(jī)器替代,這些崗位隨之逐步消失,退出歷史舞臺,如信審員;另一方面,新的技術(shù)帶來新興產(chǎn)業(yè),創(chuàng)造出新的技術(shù)崗位,如數(shù)據(jù)分析師。公安高校應(yīng)及時(shí)調(diào)整培養(yǎng)方案,開設(shè)相關(guān)專業(yè)課程,跟隨時(shí)代步伐,培養(yǎng)與時(shí)俱進(jìn)的創(chuàng)新性人才。
隨著金盾工程二期的實(shí)施,復(fù)雜而龐大的公安應(yīng)用系統(tǒng)全面投入使用。公安云平臺的搭建,八大資源庫和自主開發(fā)的一些小型公安業(yè)務(wù)庫內(nèi)的數(shù)據(jù)量日益增多,使得公安大數(shù)據(jù)的挖掘、分析和應(yīng)用迫在眉睫。公安網(wǎng)偵、技偵、情報(bào)等多個(gè)業(yè)務(wù)崗位的工作都與數(shù)據(jù)的挖掘與分析密切相關(guān)。
數(shù)據(jù)挖掘是結(jié)合數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識系統(tǒng)、信息檢索、高性能計(jì)算和可視化等多學(xué)科知識的交叉學(xué)科[14],其先修課程有概率論與數(shù)理統(tǒng)計(jì)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫原理、離散數(shù)學(xué)等。
以中國人民公安大學(xué)為例,數(shù)據(jù)挖掘課程一般開設(shè)在研究生一年級下學(xué)期,開課對象是網(wǎng)絡(luò)安全與執(zhí)法專業(yè)的學(xué)生,選課人數(shù)基本在15~20人,實(shí)行小班授課。數(shù)據(jù)挖掘課程不指定教材,以數(shù)據(jù)挖掘和數(shù)據(jù)倉庫為主要內(nèi)容,講述如何實(shí)現(xiàn)數(shù)據(jù)挖掘的各類主要功能、挖掘算法和應(yīng)用,包括如何構(gòu)建數(shù)據(jù)倉庫,如何計(jì)算數(shù)據(jù)立方體,如何進(jìn)行數(shù)據(jù)預(yù)處理、分類與預(yù)測、聚類分析、關(guān)聯(lián)分析,進(jìn)而培養(yǎng)學(xué)生數(shù)據(jù)分析和處理的能力。數(shù)據(jù)挖掘課程學(xué)時(shí)32,教學(xué)時(shí)數(shù)具體分配見表1(無實(shí)驗(yàn)課時(shí))。
表1 數(shù)據(jù)挖掘研究生專選課學(xué)時(shí)分配
數(shù)據(jù)挖掘是一門與時(shí)俱進(jìn)的課程,隨著科技的創(chuàng)新發(fā)展,一些算法在不斷地被改進(jìn),經(jīng)典算法的基本思想需要更新,但主流的改進(jìn)才是最新的思路。數(shù)據(jù)挖掘發(fā)展到現(xiàn)在,數(shù)據(jù)量級達(dá)到了PB甚至ZB,數(shù)據(jù)類型開始多樣化,如數(shù)據(jù)流、序列、圖、時(shí)間序列、符號序列、生物學(xué)序列等,經(jīng)典算法無法對這些新型的數(shù)據(jù)進(jìn)行處理,因而產(chǎn)生新的大數(shù)據(jù)分析技術(shù)。此外,數(shù)據(jù)挖掘課程的經(jīng)典書籍內(nèi)容仍停留在對文本、數(shù)字、圖像、視頻等數(shù)據(jù)的挖掘和處理上。
數(shù)據(jù)挖掘有3個(gè)研究方向:①從數(shù)據(jù)庫的角度出發(fā),因?yàn)閿?shù)據(jù)挖掘的發(fā)展是數(shù)據(jù)庫技術(shù)自然演化的結(jié)果;②從統(tǒng)計(jì)學(xué)角度出發(fā),因?yàn)閷?shù)據(jù)挖掘來講,從一系列數(shù)據(jù)中挖掘出有用的信息,這本身就是一個(gè)統(tǒng)計(jì)的計(jì)算,也就是概率的問題,因此從統(tǒng)計(jì)學(xué)角度出發(fā)也是當(dāng)前數(shù)據(jù)挖掘研究的一個(gè)熱門的方向;③從機(jī)器學(xué)習(xí)的角度出發(fā),機(jī)器學(xué)習(xí)再繼續(xù)研究就是人工智能。作為這些課程的綜合和交叉,數(shù)據(jù)挖掘顯然是個(gè)理論體系,數(shù)據(jù)挖掘的每個(gè)處理過程都包含從統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模式識別、知識庫系統(tǒng)、可視化等學(xué)科領(lǐng)域汲取的知識。此外,這些學(xué)科領(lǐng)域也需要從不同角度關(guān)注數(shù)據(jù)的分析與理解,這種學(xué)科交叉融合帶來的良性互動,使得數(shù)據(jù)挖掘注定是一個(gè)不斷更新和發(fā)展的知識匯聚、切合社會需求的學(xué)科方向。
目前,公安院校數(shù)據(jù)挖掘課程的講解主要采用課堂教學(xué)的方式,沒有設(shè)置實(shí)驗(yàn)操作課時(shí),考核形式仍然采用試卷或者論文形式:試卷考核形式無法體現(xiàn)對算法功能的掌握和對數(shù)據(jù)挖掘幾大步驟的理解和應(yīng)用;論文形式過于片面化,學(xué)生一般都會針對分類或者聚類的某一個(gè)算法的改進(jìn)進(jìn)行綜述,且論文內(nèi)容通常比較空泛,有抄襲現(xiàn)象,達(dá)不到科研的水平。
隨著公安大數(shù)據(jù)技術(shù)的應(yīng)用,業(yè)務(wù)崗位對于公安數(shù)據(jù)的應(yīng)用和分析要求越來越高,對大數(shù)據(jù)分析的人才需求也越來越多。數(shù)據(jù)挖掘課程應(yīng)在原有基本概念和技術(shù)的基礎(chǔ)上,適時(shí)拓展教學(xué)內(nèi)容到大數(shù)據(jù)挖掘技術(shù)上,完成主流技術(shù)在校園內(nèi)的普及和講解。
計(jì)算機(jī)專業(yè)本科生的課程設(shè)置已經(jīng)包含計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)相關(guān)理論體系,到研究生階段應(yīng)該有所提升,專業(yè)課內(nèi)容應(yīng)更能體現(xiàn)研究價(jià)值,以幫助學(xué)生完成與之相關(guān)聯(lián)的科學(xué)研究。數(shù)據(jù)挖掘的方法更適用于實(shí)際應(yīng)用,例如公安院校應(yīng)該加入在公安業(yè)務(wù)中會用到的數(shù)據(jù)分析和可視化的軟件使用,而數(shù)據(jù)挖掘的三個(gè)研究方向是在基本方法掌握的基礎(chǔ)上研究算法改進(jìn)的可能。
大數(shù)據(jù)挖掘已經(jīng)是潮流,我們需要在授課時(shí)添加大數(shù)據(jù)分析技術(shù),學(xué)生能夠熟悉常用的數(shù)據(jù)分析工具,可以根據(jù)業(yè)務(wù)需求完成數(shù)據(jù)分析流程;能掌握常用數(shù)據(jù)分析平臺的配置、管理及維護(hù)工作。在學(xué)生確定方向后,可根據(jù)興趣選擇更深層的點(diǎn)進(jìn)行研究,最終達(dá)到可以針對實(shí)際問題完成建模、設(shè)計(jì)合理算法的目標(biāo)。
針對數(shù)據(jù)挖掘課程知識難度大的問題,本文提出可以降低對實(shí)現(xiàn)經(jīng)典算法的要求,學(xué)生只需理解經(jīng)典算法的基本思路,在理解的基礎(chǔ)上學(xué)以致用,能夠在相關(guān)數(shù)據(jù)分析工具中實(shí)現(xiàn)算法,不要求專門用代碼來實(shí)現(xiàn)。
本來程序代碼的講解就比較枯燥,學(xué)生一開始還有興趣,一旦涉及代碼,就有可能適得其反,況且對經(jīng)典算法的改進(jìn)已經(jīng)很多,如果學(xué)生真的有興趣,可以自己去研究如何改進(jìn)代碼,而不需要在課堂上做講解,只需做好引導(dǎo),告訴學(xué)生如何查文獻(xiàn)、做研究即可。目前比較流行的幾類數(shù)據(jù)分析工具基本上都包含了對經(jīng)典算法的實(shí)現(xiàn),學(xué)生只要進(jìn)行簡單的拖拽、設(shè)置參數(shù)變量就可完成對經(jīng)典算法的套用,非常方便。將講解代碼的時(shí)間轉(zhuǎn)移到如何在數(shù)據(jù)挖掘工具中實(shí)現(xiàn)算法,既形象、可操作性又高,教學(xué)效果會更優(yōu)。
筆者在課堂上發(fā)現(xiàn),公安院校的學(xué)生更注重對口公安業(yè)務(wù)的實(shí)踐,研究生做科研也都在公安技術(shù)方向上。數(shù)據(jù)挖掘課程應(yīng)多與公安業(yè)務(wù)相結(jié)合,以公安實(shí)際案例數(shù)據(jù)來完成數(shù)據(jù)挖掘幾大步驟的講解,教學(xué)效果最好。
例如,以網(wǎng)絡(luò)賭博案件為例,對數(shù)據(jù)挖掘中關(guān)聯(lián)分析的幾大步驟逐一說明:①數(shù)據(jù)準(zhǔn)備階段,即調(diào)取資料,分析銀行交易流水,抽取有用的數(shù)據(jù)字段如付款方賬號、收款方賬號、交易時(shí)間、交易金額等;②數(shù)據(jù)處理階段,即清理入庫階段,包括對交易時(shí)間進(jìn)行處理,統(tǒng)一來自各銀行數(shù)據(jù)的格式,將日期與時(shí)間分離的雙字段合為單字段,統(tǒng)一為14位的標(biāo)準(zhǔn)文本格式,還包括交易方向的處理,統(tǒng)一使用“借、貸”標(biāo)志字段來表示資金的流向,在金額中去掉正負(fù),便于以后的計(jì)算;③數(shù)據(jù)整理階段,為加快可視化展示速度而進(jìn)行的數(shù)據(jù)前期處理階段,可以對發(fā)生交易的實(shí)體先進(jìn)行金額匯總,還可以進(jìn)行數(shù)據(jù)庫層面的數(shù)據(jù)分析,如對時(shí)間進(jìn)行處理,可以按時(shí)間段進(jìn)行數(shù)據(jù)匯總,顯示出交易頻繁的時(shí)間段,對賬戶存留資金進(jìn)行預(yù)估,為今后的資金凍結(jié)時(shí)間提供參考依據(jù);④關(guān)聯(lián)分析階段,包括實(shí)體連接定義、雙向關(guān)聯(lián)拓展、過濾法分析、匯報(bào)圖與分析圖展示;⑤決策支持階段,即對賬戶定性,找出頂層賬戶及其活動規(guī)律,分析資金凍結(jié)的最佳時(shí)機(jī),減少損失。
針對數(shù)據(jù)挖掘課程缺乏實(shí)驗(yàn)平臺的問題,筆者提出在不斷積累中,創(chuàng)建公安院校專屬模擬案例事例庫,用多元化的案例事例數(shù)據(jù)來驗(yàn)證數(shù)據(jù)挖掘算法的效果,展示數(shù)據(jù)分析的結(jié)果,提高數(shù)據(jù)挖掘課程的可操作性,增加學(xué)生的學(xué)習(xí)興趣。
在創(chuàng)建模擬案例事例庫的同時(shí),結(jié)合大數(shù)據(jù)分析技術(shù),建設(shè)數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室,與數(shù)據(jù)挖掘授課內(nèi)容相對應(yīng),基于案例事例庫開設(shè)實(shí)現(xiàn)數(shù)據(jù)挖掘算法的實(shí)驗(yàn)課程,利用數(shù)據(jù)挖掘算法實(shí)現(xiàn)數(shù)據(jù)分析的實(shí)驗(yàn)課程,以及利用可視化工具完成數(shù)據(jù)關(guān)聯(lián)關(guān)系展示的實(shí)驗(yàn)課程等。
數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室的建設(shè),可以幫助學(xué)生加深對數(shù)據(jù)挖掘和大數(shù)據(jù)知識的理解,協(xié)助教師完成數(shù)據(jù)挖掘相關(guān)實(shí)驗(yàn)內(nèi)容,方便學(xué)院建立數(shù)據(jù)挖掘與大數(shù)據(jù)分析人才培養(yǎng)體系。
根據(jù)《教育部關(guān)于公布2015年度普通高等學(xué)校本科專業(yè)備案和審批結(jié)果的通知》(教高函〔2016〕2號),新增“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)。北京大學(xué)、對外經(jīng)貿(mào)大學(xué)、中南大學(xué)首批獲得招生資格。教育部發(fā)布“《普通高等學(xué)校高等職業(yè)教育(??疲I(yè)目錄》2016年增補(bǔ)專業(yè)”,其中包括“大數(shù)據(jù)技術(shù)與應(yīng)用”“商務(wù)數(shù)據(jù)分析與應(yīng)用”。
由此可見,數(shù)據(jù)挖掘與大數(shù)據(jù)分析技術(shù)的結(jié)合成為必然趨勢,公安院校的數(shù)據(jù)挖掘課程改革可以朝著這個(gè)方向進(jìn)一步探討,為人才培養(yǎng)助力,促進(jìn)學(xué)科發(fā)展。
[1]鄭廷, 張?jiān)茲? 基于領(lǐng)域本體的數(shù)據(jù)挖掘技術(shù)在賄賂犯罪偵查中的應(yīng)用[J]. 中國檢察官, 2016(3): 55-57.
[2]楊雁瑩. 關(guān)聯(lián)規(guī)則挖掘在重點(diǎn)人口管控中的應(yīng)用[J]. 福建電腦, 2016(1): 40-41.
[3]蔡霖翔. 網(wǎng)絡(luò)詐騙案件涉案人群智能分析[EB/OL].[2017-05-30]. http://cpfd.cnki.com.cn/Article/CPFDTOTALJSAQ201610001049.htm.
[4]呂雪梅. 美國犯罪情報(bào)預(yù)測分析技術(shù)的特點(diǎn): 基于蘭德報(bào)告《預(yù)測警務(wù)》的視角[J]. 情報(bào)雜志, 2016, 35(7): 7-12.
[5]陳鵬, 瞿珂, 胡嘯峰. 犯罪情報(bào)分析中的數(shù)據(jù)挖掘應(yīng)用[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2017, 26(2): 249-253.
[6]閆密巧, 過仲陽, 任浙豪. 基于聚類關(guān)聯(lián)規(guī)則的公交扒竊犯罪時(shí)空分析[J]. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017(3): 145-152.
[7]李海林. 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J]. 計(jì)算機(jī)時(shí)代, 2014(2): 54-55.
[8]張艷. 大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新思考[J]. 計(jì)算機(jī)時(shí)代, 2014(4): 59-61.
[9]黃艷梅. 大數(shù)據(jù)數(shù)據(jù)存儲與挖掘算法的教學(xué)改革分析[J]. 電腦迷, 2016(11): 69-69.
[10]張?jiān)拼? 薛崗, 何婧, 等. 基于MOOC嵌入式教學(xué)的數(shù)據(jù)挖掘教學(xué)改革初探[J].計(jì)算機(jī)教育, 2015(13): 39-42.
[11]徐金寶. 對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J]. 計(jì)算機(jī)教育; 2007(14): 27-29.
[12]黃嵐. 數(shù)據(jù)挖掘課程實(shí)踐教學(xué)資源庫建設(shè)[J]. 計(jì)算機(jī)教育, 2014(12): 89-92.
[13]Han J W, Kamber M, Pei J. 數(shù)據(jù)挖掘: 概念與技術(shù)[M]. 3rd ed. 范明, 孟小峰, 譯. 北京: 機(jī)械工業(yè)出版社, 2012.
[14]王珊, 王會舉, 覃雄派, 等. 架構(gòu)大數(shù)據(jù): 挑戰(zhàn)、現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2011(10): 1741-1743.