吳俊爽 韓琴琴 劉誠偉
【摘 要】隨著計算機技術和應用飛速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,網(wǎng)民數(shù)量也成倍的增加,再加之全世界其他各行各業(yè)每分每秒都在制造著大量數(shù)據(jù)。“大數(shù)據(jù)”的概念逐步被人們所重視,本文提出了一種大數(shù)據(jù)的多維度特征表示方法(BDDP),并且積極探討了這種表示方法在互聯(lián)網(wǎng)中的應用,比如:招聘信息挖掘、移動APP的廣泛利用。
【中圖分類號】TP393.4【文獻標識碼】A【文章編號】1672-5158(2013)07-0117-02
1、研究背景介紹
大數(shù)據(jù)具有信息體量巨大、數(shù)據(jù)類型繁多、價值密度低,商業(yè)價值高、處理速度快的4個“V”特點。[1]大數(shù)據(jù)的概念一經提出,科學研究者就發(fā)現(xiàn)大數(shù)據(jù)技術的戰(zhàn)略意義并不在于對掌握龐大的數(shù)據(jù)信息而歡欣鼓舞,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理,即提高對數(shù)據(jù)的“加工處理能力”體現(xiàn)數(shù)據(jù)的“價值”。本文認同,在大數(shù)據(jù)時代下,仍將是以數(shù)據(jù)為中心的SOA模型占領主導地位。故本論文側重對大數(shù)據(jù)本身的處理,而并非對其存儲等架構技術[2]做過多的探討。本論文提出了大數(shù)據(jù)的多維度處理方法,將互聯(lián)網(wǎng)上的大數(shù)據(jù)進行整合處理,并對其應用到互聯(lián)網(wǎng)應用中提出了憧憬和建議。
2、 大數(shù)據(jù)的多維表示方法(BDDP)
2.1 互聯(lián)網(wǎng)應用中的大數(shù)據(jù)
2.1.1 互聯(lián)網(wǎng)中的大數(shù)據(jù)定義
互聯(lián)網(wǎng)中的大數(shù)據(jù)目前還沒有很明確的定義,本論文特指其是:由互聯(lián)網(wǎng)產品或者網(wǎng)民產生的大量數(shù)據(jù)。如:商品信息、商品價格、用戶信息(位置、好友信息、生活信息)、 音頻、視頻、圖片、網(wǎng)站管理日志、用戶登錄日志 、社交網(wǎng)站中的聊天記錄、博文等等。[3]
2.1.2 互聯(lián)網(wǎng)用戶產生大數(shù)據(jù)的方式
目前,互聯(lián)網(wǎng)用戶的主要接入媒介分為:PC和手機、智能平板等移動和不可移動終端。[4]加之互聯(lián)網(wǎng)應用包括:企事業(yè)信息門戶網(wǎng)站、百度等搜索引擎、新浪等新聞網(wǎng)站、APP應用商城、阿里巴巴等電子商務網(wǎng)站、社交網(wǎng)站、騰訊微博、騰訊微信、移動互聯(lián)網(wǎng)應用等。因此本論文認為,大數(shù)據(jù)產生方式有以下:
1) 新聞、企事業(yè)單位網(wǎng)站的每日新聞、政策公布
2) 博客用戶針對新聞事件的討論、引用
3) 移動APP用戶信息匯總(移動終端觸摸行為)
4) 電子商城用戶行為(鼠標點擊行為)
5) 社交網(wǎng)站用戶的交流與社交關系
2.2 BDDP數(shù)據(jù)建模
2.2.1 BDDP建模的依據(jù)
互聯(lián)網(wǎng)大數(shù)據(jù)的產生方式是可以根據(jù)2.1.2中進行劃分的,因此能夠準確的了解并掌握不同數(shù)據(jù)的特征與特性。這些數(shù)據(jù)可以是結構化的、半結構化的、非結構化的。
但是這些數(shù)據(jù)的產生都是基于為用戶服務產生,并且由于用戶不同的參與行為導致數(shù)據(jù)急劇增加,因此用戶行為分析,[5]可以幫助我們進行BDDP數(shù)據(jù)建模。另一方面,互聯(lián)網(wǎng)應用供應商性質,也是決定數(shù)據(jù)性質的一個關鍵因素。
2.2.2 BDDP建模算法
1)以新聞事件為中心的大數(shù)據(jù)產生模型
對某一新聞頭條為中心的大數(shù)據(jù)產生進行建模
第二層微博、微信、QQ推送記錄為第二層數(shù)據(jù)
第三層各種互聯(lián)網(wǎng)用戶產生的行為記錄為
我們還可以在每一層數(shù)據(jù)上加入時間維
2)移動互聯(lián)網(wǎng)APP為中心的大數(shù)據(jù)產生模型
對某款新的手機APP為中心的大數(shù)據(jù)進行建模圖2 典型的APP事件流動模式
根據(jù)上圖,本論文將APP產品數(shù)據(jù)記錄建立大數(shù)據(jù)多維特征數(shù)據(jù)
第一層數(shù)據(jù)
第二層數(shù)據(jù)
第三層數(shù)據(jù)
同理我們可以在每一層數(shù)據(jù)上加上時間維
綜上所述,以上僅是兩種典型的模型,不足以代表所有互聯(lián)網(wǎng)大數(shù)據(jù)的產生模式。但是整體看:移動互聯(lián)網(wǎng)大數(shù)據(jù)一致可以分為三層、最多四維的特征數(shù)據(jù),而最后一層數(shù)據(jù)通常又是以一個中心向外輻射的特征數(shù)據(jù)集,由于輻射數(shù)據(jù)集的復雜性才使得互聯(lián)網(wǎng)大數(shù)據(jù)的處理和挖掘變得異常困難。但是上述的大數(shù)據(jù)的多維度特征數(shù)據(jù)維度較少,定義精確,可以那個多層次關聯(lián)規(guī)則數(shù)據(jù)挖掘算法,[6]以較高的效率實現(xiàn)。
3、 BDDP在互聯(lián)網(wǎng)中的應用
移動互聯(lián)網(wǎng)的發(fā)展,離不開用戶的支持?,F(xiàn)在很多互聯(lián)網(wǎng)企業(yè)都是利用高瀏覽量來賺取廣告費用。掌握大量數(shù)據(jù)、分析用戶消費行為、引導用戶消費已然成為目前各大互聯(lián)網(wǎng)企業(yè)的重點研究領域。
前程無憂,應屆生求職網(wǎng)等以發(fā)布招聘信息為主的招聘網(wǎng)站,它并不為用戶提供任何職位,而是求職者和招聘單位的一個溝通橋梁。通過點擊率賺取利潤,這是一種典型的以新聞事件為中心的大數(shù)據(jù)產生模式。
近期,百度發(fā)布了“明星臉”,是一款手機終端的APP[7],目前該APP功能較單一,就是支持用戶上傳照片,然后識別與用戶相似的明星臉。其實這就是第二種大數(shù)據(jù)產生模式的一個應用。其發(fā)布時間是2013年愚人節(jié)那天,經過APP為中心的數(shù)據(jù)產生模式,很快就有了大量用戶關注。
從上述的分析可以知道,很多互聯(lián)網(wǎng)公司是憑借大量用戶、擁有大量數(shù)據(jù),靠著模式創(chuàng)新而不是提供產品來獲得利潤。因此掌握互聯(lián)網(wǎng)大數(shù)據(jù)多維特征數(shù)據(jù),有利于互聯(lián)網(wǎng)企業(yè)準確定位,建立正確的盈利模式。
4、 結束語
參考文獻
[1] 百度百科 大數(shù)據(jù)詞條 http://baike.baidu.com/view/6954399. htm 2013-4-5
[2] 王珊,王會舉,覃雄派,烜周.《架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望》 計算機學報Vol.34 No.10 Oct.2011
[3] 199IT推薦文章,2012年中國移動互聯(lián)網(wǎng)發(fā)展歷程回顧,2013-4- 3
[4] 劉三德.互聯(lián)網(wǎng)大數(shù)據(jù)應用之二:用戶行為分析 速途專欄,2012-6-10
[5] 王璐,唐紅.移動互聯(lián)網(wǎng)用戶行為分析,中國知網(wǎng)Vol.11 2012
[6] 程繼華,施鵬飛.多層次關聯(lián)規(guī)則的有效數(shù)據(jù)挖掘算法 軟件學報Vol.9,No.12,Dec.1998
[7] 百度百科,明星臉詞條,http://baike.baidu.com/view/10370916. htm 2013-4-5