陳 國(guó) 良
深圳大學(xué)大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國(guó)家工程實(shí)驗(yàn)室,廣東深圳 518060
2013年被稱(chēng)為“大數(shù)據(jù)元年”.經(jīng)過(guò)近5年的飛速發(fā)展,大數(shù)據(jù)已經(jīng)成為大眾最為關(guān)注的一門(mén)新技術(shù),大數(shù)據(jù)的應(yīng)用預(yù)示著信息時(shí)代進(jìn)入了一個(gè)新階段.目前,大數(shù)據(jù)應(yīng)用已經(jīng)滲透到人類(lèi)社會(huì)的各個(gè)角落,高效的大數(shù)據(jù)分析和運(yùn)用,將會(huì)對(duì)未來(lái)中國(guó)經(jīng)濟(jì)發(fā)展、社會(huì)治理、國(guó)家管理、人民生活產(chǎn)生積極重大的影響.我以“big data”和“大數(shù)據(jù)”為關(guān)鍵詞,對(duì)2013年至今發(fā)表在Web of Science(WOS)和中國(guó)知網(wǎng)CNKI平臺(tái)(計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用領(lǐng)域內(nèi)的期刊論文)上的文獻(xiàn)進(jìn)行了檢索(超16 000篇文獻(xiàn)),并通過(guò)對(duì)其中WOS的約100篇高被引和熱點(diǎn)論文以及CNKI中下載量超過(guò)10 000次的學(xué)術(shù)論文進(jìn)行分析,總結(jié)歸納發(fā)現(xiàn),大數(shù)據(jù)的研究主要經(jīng)歷了以下3個(gè)關(guān)鍵時(shí)期.
◆概念探索期(2013年):在此時(shí)期,人們?cè)噲D尋找一個(gè)合理的、精確的、能夠被學(xué)術(shù)界和工業(yè)界一致認(rèn)可的大數(shù)據(jù)定義.遺憾的是,到目前為止尚沒(méi)有一個(gè)被普遍認(rèn)可的大數(shù)據(jù)定義出現(xiàn).業(yè)界人員轉(zhuǎn)而從大數(shù)據(jù)的特征來(lái)對(duì)大數(shù)據(jù)進(jìn)行定義,比較有代表性的是大數(shù)據(jù)的“4V”、“4V+1O”、“4V+1C”和“4V+1U”等特征.其中,4V是指數(shù)量巨大volume、類(lèi)型繁多variety、增長(zhǎng)速度快velocity、蘊(yùn)含價(jià)值大value;1O是指online,即大數(shù)據(jù)永遠(yuǎn)在線;1C是指complexity,即大數(shù)據(jù)的處理和分析難度異常大;1U是指usability,即大數(shù)據(jù)的可用性.
◆數(shù)據(jù)管理期(2014—2015年):在這個(gè)時(shí)期,隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展和智能硬件產(chǎn)品的迅速普及,各行業(yè)的數(shù)據(jù)量呈現(xiàn)激增態(tài)勢(shì)(例如,騰訊發(fā)布的《2015年微信用戶數(shù)據(jù)報(bào)告》顯示,2015年9月微信的日均登陸用戶達(dá)5.7億,日活躍用戶同比增長(zhǎng)64%),大數(shù)據(jù)的研究開(kāi)始轉(zhuǎn)移到對(duì)大數(shù)據(jù)本身的存儲(chǔ)和管理上.目前典型的大數(shù)據(jù)存儲(chǔ)技術(shù)路線有3種:采用MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群、基于Hadoop技術(shù)擴(kuò)展和封裝以及大數(shù)據(jù)一體機(jī).前兩種技術(shù)都是分布式存儲(chǔ),第3種是集中式存儲(chǔ).
◆數(shù)據(jù)分析計(jì)算期(2016年—):以AlphaGo和AlphaGo Zero的巨大成功為分界點(diǎn),開(kāi)啟了大數(shù)據(jù)分析的新階段.先前的研究更多地關(guān)注大數(shù)據(jù)表象的處理,而在這個(gè)階段更注重對(duì)大數(shù)據(jù)本身蘊(yùn)含價(jià)值的挖掘.“面向大數(shù)據(jù)分析的在線機(jī)器學(xué)習(xí)”、“大數(shù)據(jù)的新型計(jì)算技術(shù)”、“大數(shù)據(jù)驅(qū)動(dòng)知識(shí)學(xué)習(xí)”、“大數(shù)據(jù)智能”等重點(diǎn)任務(wù)和重大工程的研發(fā)和啟動(dòng),標(biāo)志著在未來(lái)一段時(shí)期內(nèi),新一代大數(shù)據(jù)分析和計(jì)算技術(shù)將得到極大重視和發(fā)展.
在此,本專(zhuān)題重點(diǎn)關(guān)注大數(shù)據(jù)研究的第3個(gè)時(shí)期,即大數(shù)據(jù)分析計(jì)算期.在此期間,經(jīng)過(guò)學(xué)術(shù)界和產(chǎn)業(yè)界科研工作者堅(jiān)持不懈的努力鉆研,人們?cè)诖髷?shù)據(jù)的系統(tǒng)計(jì)算、統(tǒng)計(jì)分析、有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)等方面取得了大量具有開(kāi)拓意義的研究成果.本期“大數(shù)據(jù)聚類(lèi)專(zhuān)題”正是對(duì)大數(shù)據(jù)無(wú)監(jiān)督學(xué)習(xí)最新科研成果的一次集中展示,刊登了5篇各具特色的優(yōu)秀論文,希望對(duì)國(guó)內(nèi)大數(shù)據(jù)聚類(lèi)的研究有所啟示和幫助.
第1篇是題為《大規(guī)模數(shù)據(jù)集聚類(lèi)算法的研究進(jìn)展》的綜述文章.該文以大數(shù)據(jù)的可計(jì)算性為切入點(diǎn),對(duì)目前串行和并行環(huán)境下專(zhuān)門(mén)用于處理大數(shù)據(jù)的聚類(lèi)算法進(jìn)行了綜述和分析,并給出未來(lái)關(guān)于大數(shù)據(jù)聚類(lèi)算法設(shè)計(jì)思路與應(yīng)用前景的思考和討論,拋磚引玉,期待更多的國(guó)內(nèi)優(yōu)秀學(xué)者參與其中的研究.
第2篇論文的題目為《基于二部圖的快速聚類(lèi)算法》.該文提出了一種基于二部圖的快速聚類(lèi)算法(fast clustering based on bipartite graph, FCBG),通過(guò)對(duì)二部圖對(duì)應(yīng)的拉普拉斯矩陣施加秩約束,F(xiàn)CBG算法可在優(yōu)化二部圖的邊的權(quán)重的同時(shí),保持二部圖的類(lèi)簇結(jié)構(gòu),在不依賴(lài)構(gòu)圖時(shí)每條邊初始權(quán)重分配的情況下,最終直接給出聚類(lèi)結(jié)果.實(shí)驗(yàn)結(jié)果表明,F(xiàn)CBG算法可有效學(xué)習(xí)二部圖的權(quán)重,并在較小的時(shí)間消耗下獲得高質(zhì)量的聚類(lèi)結(jié)果.
第3篇論文的題目為《基于分層抽樣的不均衡數(shù)據(jù)集成分類(lèi)》.該文提出了一種基于分層抽樣的不均衡數(shù)據(jù)集成分類(lèi)方法(stratified sampling-based ensemble classification method for imbalanced data,簡(jiǎn)稱(chēng)EC-SS).該方法通過(guò)自調(diào)節(jié)譜聚類(lèi)挖掘多數(shù)類(lèi)樣本結(jié)構(gòu)信息,之后基于分層抽樣方法構(gòu)建集成學(xué)習(xí)數(shù)據(jù)樣本集,確保單個(gè)學(xué)習(xí)器的輸入數(shù)據(jù)均衡且保留原始數(shù)據(jù)的結(jié)構(gòu)信息,從而提升后續(xù)集成分類(lèi)性能.實(shí)驗(yàn)結(jié)果表明,所提出的EC-SS方法全部有效地提升了不平衡分類(lèi)的效果.
第4篇論文的題目為《面向分類(lèi)型矩陣數(shù)據(jù)的無(wú)監(jiān)督孤立點(diǎn)檢測(cè)算法》.該文通過(guò)給出一種矩陣對(duì)象自身的內(nèi)聚度和該矩陣對(duì)象與其他矩陣對(duì)象之間的耦合度來(lái)定義矩陣對(duì)象的孤立因子,進(jìn)而提出了一種面向分類(lèi)型矩陣數(shù)據(jù)的孤立點(diǎn)檢測(cè)算法(outlier detection algorithm for matrix-object data, ODAMD).通過(guò)在真實(shí)數(shù)據(jù)集上與基于共同近鄰孤立因子算法、局部異常因子算法和基于信息熵算法的對(duì)比分析結(jié)果顯示,提出的ODAMD算法能夠更有效地檢測(cè)出分類(lèi)型矩陣數(shù)據(jù)中的孤立點(diǎn).
第5篇論文的題目為《增量學(xué)習(xí)的優(yōu)化算法在app使用預(yù)測(cè)中的應(yīng)用》.該文提出了一個(gè)名為Predictor的app使用預(yù)測(cè)系統(tǒng),該系統(tǒng)利用基于聚類(lèi)有效值(cluster effective value, CEV)策略的增量k-近鄰算法為用戶提供app使用預(yù)測(cè)服務(wù).其中,CEV的計(jì)算依賴(lài)app特征的上下文關(guān)聯(lián)學(xué)習(xí).由于CEV采用了多維度特征方法來(lái)提高分類(lèi)的準(zhǔn)確度,從而能夠改善app使用的預(yù)測(cè)精度.實(shí)驗(yàn)結(jié)果表明,帶有CEV策略的IkNN模型比通常默認(rèn)的IkNN模型擁有更穩(wěn)定的預(yù)測(cè)準(zhǔn)確度,并且在減少建模時(shí)間的同時(shí),顯著提高了預(yù)測(cè)準(zhǔn)確度.
最后,我對(duì)該專(zhuān)題作者們辛苦的工作和無(wú)私的奉獻(xiàn)表示最誠(chéng)摯的感謝,也希望大數(shù)據(jù)相關(guān)領(lǐng)域的讀者能夠更多地交流最新的研究成果,共同促進(jìn)大數(shù)據(jù)研究的蓬勃發(fā)展!