• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于云計算的移動互聯(lián)網(wǎng)大數(shù)據(jù)用戶行為分析引擎設(shè)計

      2018-05-29 09:18:08張靚黃克彬
      移動信息 2018年2期
      關(guān)鍵詞:入庫引擎服務(wù)器

      張靚 黃克彬

      ?

      基于云計算的移動互聯(lián)網(wǎng)大數(shù)據(jù)用戶行為分析引擎設(shè)計

      張靚 黃克彬

      中國移動通信集團(tuán)廣東有限公司,廣東 廣州 510630

      很多裝備制造業(yè)領(lǐng)域的企業(yè)信息化程度已經(jīng)很高,以各式各樣的系統(tǒng)業(yè)務(wù)分析報表為代表的五花八門的數(shù)據(jù)充斥著企業(yè),一些來自機(jī)器傳感器,一些來自商業(yè)系統(tǒng),一些來自報告分析,還有一些來自外部網(wǎng)站和社交媒體。面對這些數(shù)據(jù),企業(yè)沒有正確的工具來管理和分析它們,商業(yè)價值的最終數(shù)據(jù)被忽略。然而,大多數(shù)管理者的日常工作和決策依賴于當(dāng)?shù)氐臄?shù)據(jù)進(jìn)行分析。因此,設(shè)計并實現(xiàn)了一個互聯(lián)網(wǎng)用戶行為分析系統(tǒng),設(shè)計了系統(tǒng)的總體框架,系統(tǒng)由捕獲模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)圖生成模塊框架及系統(tǒng)接口模塊組成,并使用Java語言進(jìn)行編程。此系統(tǒng)生成的網(wǎng)絡(luò)用戶行為分析結(jié)果為網(wǎng)絡(luò)用戶管理提供了科學(xué)依據(jù)。移動互聯(lián)網(wǎng)大數(shù)據(jù)時代的到來給企業(yè)經(jīng)營者帶來了巨大的挑戰(zhàn)。因此,在大數(shù)據(jù)的背景下,提出了用戶行為分析引擎的設(shè)計方案,有利于供應(yīng)商的新業(yè)務(wù)的開發(fā)。

      用戶行為;行為分析;網(wǎng)絡(luò)協(xié)議

      近年來,我國移動互聯(lián)網(wǎng)技術(shù)得到了全面發(fā)展。這使我國的互聯(lián)網(wǎng)運營商面臨著一個新的發(fā)展機(jī)遇,開始走從話務(wù)量經(jīng)營向流量經(jīng)營轉(zhuǎn)變的道路,并深入分析用戶的行為規(guī)律,發(fā)掘市場與廣大用戶的真實需求。為了能夠充分滿足用戶日新月異的需求變化,運營商必須不斷開發(fā)、推出新產(chǎn)品,充分發(fā)揮計算機(jī)技術(shù)的功能。云計算技術(shù)正是這樣一種能夠滿足海量數(shù)據(jù)分析與處理的強(qiáng)大引擎系統(tǒng)。

      1 大數(shù)據(jù)用戶行為引擎系統(tǒng)在云計算技術(shù)下的設(shè)計

      1.1 總體構(gòu)架

      這項研究中主要使用云計算技術(shù)的海量數(shù)據(jù)計算。移動互聯(lián)網(wǎng)數(shù)據(jù)挖掘分析系統(tǒng)應(yīng)建立實現(xiàn)互聯(lián)網(wǎng)用戶行為分析的引擎,并根據(jù)用戶的喜好及上網(wǎng)習(xí)慣和行為,為用戶提供有針對性的個性化服務(wù),使數(shù)據(jù)收集、分析、服務(wù)類型及營銷策略能夠形成一個統(tǒng)一的有機(jī)整體,提升企業(yè)的營銷效率。此外,云計算系統(tǒng)主要通過FTP服務(wù)器實現(xiàn)數(shù)據(jù)采集,然后是分布式計算的系統(tǒng)接口以及數(shù)據(jù)批處理,大數(shù)據(jù)應(yīng)存入Hbase數(shù)據(jù)庫。該系統(tǒng)不僅能夠?qū)崿F(xiàn)海量數(shù)據(jù)存儲,而且也能夠存儲非結(jié)構(gòu)化的數(shù)據(jù)。最后,通過蜂窩集成層和總結(jié)層EIL處理,利用MapReduce數(shù)據(jù)分析模型將處理后的結(jié)果傳遞給數(shù)據(jù)庫,并建立總體系統(tǒng)架構(gòu)。

      表1 戶行為數(shù)據(jù)分析格式 分類數(shù)據(jù)模型優(yōu)點缺點典型應(yīng)用場景 鍵值(Key-Value)存儲數(shù)據(jù)庫Key指向Value的鍵值對,通常用hash表來實現(xiàn)查找速度快數(shù)據(jù)無結(jié)構(gòu)化(通常只被當(dāng)作字符串或者二進(jìn)制數(shù)據(jù))內(nèi)容緩存,主要用于處理大量數(shù)據(jù)的高訪問負(fù)載,也用于一些日志系統(tǒng)等 列存儲數(shù)據(jù)庫以列簇式存儲,將統(tǒng)一列數(shù)據(jù)存在一起查找速度快,可擴(kuò)展性強(qiáng),更容易進(jìn)行分布式擴(kuò)展功能相對局限分布式的文件系統(tǒng) 文檔型數(shù)據(jù)庫Key-Value對應(yīng)的鍵值對,Value為結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格,表結(jié)構(gòu)可變(不需要像關(guān)系型數(shù)據(jù)庫一樣需預(yù)先定義表結(jié)構(gòu))查詢性能不高,而且缺乏統(tǒng)一的查詢語法Web應(yīng)用 圖形(Graph)數(shù)據(jù)庫圖結(jié)構(gòu)利用圖結(jié)構(gòu)相關(guān)算法(如最短路徑尋址,N度關(guān)系查找等)很多時候需要對整個圖做計算才能得出需要的信息,而且這種結(jié)構(gòu)不太好做分布式的集群方案社交網(wǎng)絡(luò),推進(jìn)系統(tǒng)等

      1.2 系統(tǒng)拓?fù)渑c功能分布

      該系統(tǒng)的拓?fù)浣Y(jié)構(gòu)主要是將一個服務(wù)器作為一個單節(jié)點平臺的主節(jié)點服務(wù)器,而另一個服務(wù)器則作為哈普多普平臺的從屬節(jié)點服務(wù)器。一般情況下,節(jié)點服務(wù)器可以根據(jù)實際需要進(jìn)行動態(tài)擴(kuò)展。主節(jié)點服務(wù)器不僅要從節(jié)點服務(wù)器分配任務(wù)和流程,還要監(jiān)控服務(wù)器的工作從節(jié)點執(zhí)行。由許多節(jié)點服務(wù)器執(zhí)行,能夠有效地提高數(shù)據(jù)效率,理解服務(wù)器軟件運行狀態(tài)。借助MapReduce用戶行為分析模型資源,分析所有匯聚到系統(tǒng)的移動互聯(lián)網(wǎng)用戶行為數(shù)據(jù),能夠了解用戶的上網(wǎng)習(xí)慣、偏好,甚至包括用戶的社會關(guān)系,并提供全面的業(yè)務(wù)服務(wù),給用戶推薦具體的內(nèi)容。一般來說,從節(jié)點服務(wù)器與主節(jié)點服務(wù)器在軟件的結(jié)構(gòu)上沒有太大的差異,唯一不同的是從節(jié)點服務(wù)器不具備部署任務(wù)以及管理調(diào)度的功能。以搜狗公司數(shù)據(jù)分析為例,根據(jù)第三方互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)計機(jī)構(gòu)CNZZ公布的2015年9月的中國網(wǎng)民搜索引擎使用情況統(tǒng)計報告,搜狗搜索的市場份額已經(jīng)達(dá)到15.68%,成為中國第三大互聯(lián)網(wǎng)搜索公司,其用戶行為數(shù)據(jù)分析格式如表1所示。

      2 用戶行為分析大數(shù)據(jù)入庫組件設(shè)計

      移動互聯(lián)網(wǎng)用戶的行為分析引擎的數(shù)據(jù)主要是通過應(yīng)用平臺數(shù)據(jù)與DPI數(shù)據(jù)兩個渠道獲取的。這兩個數(shù)據(jù)源有著明顯的不同。首先,應(yīng)用平臺數(shù)據(jù)比較集中,在一個訪問行為表中就能夠完整呈現(xiàn),每天表現(xiàn)為一個文件,且文件的大小以GB分級;DPI數(shù)據(jù)則是眾多分散的小文件,這些文件一般都不超過10?MB,其最重要的一個特點就是文件的來源特別快,平均每2?min就能夠接收到多個新文件,一個省一天可收集到1?TB左右的數(shù)據(jù)量,效率極高。針對這兩個數(shù)據(jù)源的特點,采用了不同的設(shè)計方案。在獲取用戶基本數(shù)據(jù)信息的情況下,這些數(shù)據(jù)的統(tǒng)計分析可以獲得用戶行為的基本特征和規(guī)則。采用Hadoop平臺的用戶行為分析系統(tǒng)對搜狗實驗室提供的搜索引擎日志數(shù)據(jù)集進(jìn)行分析處理,源文件大小共4.4?G,行數(shù)為43?545?444行。用戶查詢關(guān)鍵詞的排名、點擊URL排名以及用戶搜索記錄、時間段等用戶行為特征都能夠有效地呈現(xiàn)出來。

      2.1 應(yīng)用平臺數(shù)據(jù)入庫

      該平臺主要采用的是批量入庫的方式,每天進(jìn)行一次數(shù)據(jù)入庫,文件的大小一般為GB級。大型數(shù)據(jù)文件多采用Hadoop平臺進(jìn)行入庫。然而實踐證明,MapReduce分布式處理Hbase入庫效率普遍不高。因此,可對這一系統(tǒng)進(jìn)行優(yōu)化處理,在MapReduce分布處理的基礎(chǔ)上,實行批量入庫處理。在Hadoop系統(tǒng)應(yīng)用過程中,多使用TextInputFormat。由于TextInputFormat在map中多顯示的是文件的單行記錄,因此可采用NLineInputFormat類使其能夠在MapReduce中實現(xiàn)批量入庫。在這種系統(tǒng)的支持下,每個分片都會留下N行記錄,然后通過適當(dāng)?shù)膮?shù)配置,實現(xiàn)每次可讀取N行記錄,進(jìn)而在Map中進(jìn)行批量入庫的相關(guān)操作,提升數(shù)據(jù)分析的效率。

      2.2 DPI數(shù)據(jù)入庫設(shè)計

      DPI數(shù)據(jù)入庫主要針對的是大量的小型數(shù)據(jù)文件。這些文件盡管所含數(shù)據(jù)量不大,但是數(shù)據(jù)來源的頻率特別高。首先,可采用SequenceFiles軟件壓縮、打包這些小文件。在文件打包的初期要采取措施減少小文件的數(shù)量。需要注意的是,讀取小文件時會受到一定的限制,無論是Hadoop shell軟件還是Map讀取軟件,都很難實現(xiàn)對數(shù)據(jù)的靈活讀取。此外,采用HAR軟件對小文件進(jìn)行歸檔,雖然能夠在一定程度上減少小文件的數(shù)量,但卻仍然達(dá)不到靈活讀取數(shù)據(jù)的需求,這在很大程度上是因為HAP軟件的讀取性能較低。另外,Hadoop append系統(tǒng)雖然能夠?qū)⑦@些小文件追加到同一個文件中,但是這些小文件的大小千差萬別,且數(shù)據(jù)來源頻率廣,有峰值與低谷之分,所以對這些數(shù)據(jù)的控制也較為煩瑣。除此之外,還有Flume、FLumeNG以及Scribbe系統(tǒng)。這些系統(tǒng)能夠處理中間層的數(shù)據(jù),堅守小文件的數(shù)量,然而傳輸與壓縮文件功能不強(qiáng),具有一定的缺陷。由此可見,以上方式都不能實現(xiàn)數(shù)據(jù)文件的有效處理。因此,要科學(xué)分析DPI數(shù)據(jù)的特征,對CombineFile InputFornt進(jìn)行有效繼承,設(shè)置數(shù)據(jù)的分片大小,以便實現(xiàn)CreateRecordReader。這種方式能夠?qū)崿F(xiàn)入庫DPI大數(shù)據(jù)。

      2.3 個性化推薦引擎系統(tǒng)框架

      個性化推薦引擎系統(tǒng)包括用戶行為數(shù)據(jù)收集框架如圖1所示。

      圖1

      用戶行為數(shù)據(jù)收集方式:采取埋點代碼和系統(tǒng)日志分析兩種方式:第一,埋點代碼是類似于Google Analytics和百度分析的方式,在客戶網(wǎng)站嵌入少量的JS埋點代碼,然后收集網(wǎng)站和移動端用戶行為數(shù)據(jù);第二,系統(tǒng)日志分析是收集客戶網(wǎng)站日志數(shù)據(jù),對日志數(shù)據(jù)進(jìn)行分析,提取所需的用戶行為特征數(shù)據(jù)。

      主要利用大數(shù)據(jù)集群的高吞吐量、高可用性(High Availability)和水平擴(kuò)展性,對客戶網(wǎng)站收集的用戶行為數(shù)據(jù)進(jìn)行處理。我們的大數(shù)據(jù)集群采取最新的Spark技術(shù)計算內(nèi)存,大大降低了原有Hadoop的MapReduce計算模型開發(fā)和部署的難度;同時利用Hadoop提供的HDFS分布式文件系統(tǒng),提供數(shù)據(jù)的容錯性和水平擴(kuò)展性。分析引擎優(yōu)化在實踐中,一方面,需要根據(jù)用戶反饋的實際操作來改進(jìn)引擎;另一方面,也需要測試基準(zhǔn)(基準(zhǔn))驗證它們的有效性。這個測試基準(zhǔn)是一個典型的文件用戶案例。建立這樣的用戶案例的主要考慮因素包括:(1)代表性。典型的文件用戶案例主要以“典型”為特征,能夠充分反映不同類型的文件用戶的特點,用戶數(shù)量相對合理。(2)反饋。用戶的典型用戶故事應(yīng)在檔案和檔案之間建立充分和及時的信息反饋機(jī)制,將實際的檔案服務(wù)質(zhì)量、問題及時有效地反饋到真實檔案中。(3)可控性。典型的檔案用戶案例相對于檔案應(yīng)是可控的,這意味著雙方應(yīng)建立良好的相互信任關(guān)系。通過對典型用戶案例的實際測試和改進(jìn),提高了檔案用戶數(shù)據(jù)分析引擎的性能。

      3 結(jié)語

      隨著我國社會主義現(xiàn)代化建設(shè)的不斷發(fā)展,我國計算機(jī)信息技術(shù)已取得了有效的進(jìn)展。然而,隨著信息多元化與多用戶模式的出現(xiàn),傳統(tǒng)的計算機(jī)信息技術(shù)已不能滿足人們的需求,開始轉(zhuǎn)向?qū)υ朴嬎慵夹g(shù)的開發(fā)與應(yīng)用。云計算技術(shù)下的大數(shù)據(jù)用戶行為引擎設(shè)計,能夠跟蹤用戶,且運行成本低廉,在企業(yè)的營銷中有著極大的應(yīng)用價值,值得推廣應(yīng)用。

      [1]李鐘尉,陳丹丹. 軟件開發(fā)實戰(zhàn)1200例[M]. 北京:清華大學(xué)出版社,2011.

      [2]謝希仁. 計算機(jī)網(wǎng)絡(luò)[M]. 6版. 北京:電子工業(yè)出版社,2013.

      [3]施瓦茨,扎伊采夫,特卡琴科. 高性能MySQL[M]. 3版. 北京:電子工業(yè)出版社,2013.

      Cloud Computing Based Mobile Internet Big Data User Behavior Analysis Engine Design

      Zhang Liang Huang Kebin

      China Mobile Communications Group Guangdong Co., Ltd., Guangdong Guangzhou 510630

      Many degree field of enterprise information equipment manufacturing industry has been high, with a wide variety of business systems analysis reports represented a wide variety of data filled with business, some of the sensor from the machine, from a number of commercial systems, a number of reports from the analysis , There are also external websites and social media. In the face of this data, companies do not have the right tools to manage and analyze them, and the final value of business value is ignored. However, most managers’ daily work and decisions depend on local data for analysis. Therefore, the analysis was designed and implemented a system of Internet user behavior, design the overall framework of the system, the system by the capture module, data analysis module, map data generation module framework and system interface modules, and using the Java programming language. The network user behavior analysis result generated by this system provides a scientific basis for network user management. The arrival of the era of mobile internet big data has brought great challenges to corporate operators. Therefore, in the context of big data, a design scheme for a user behavior analysis engine is proposed, which is conducive to the development of new services for suppliers.

      user behavior; behavior analysis; network protocol

      TN929.5;TP391.3

      A

      猜你喜歡
      入庫引擎服務(wù)器
      重磅!廣東省“三舊”改造標(biāo)圖入庫標(biāo)準(zhǔn)正式發(fā)布!
      中國食品品牌庫入庫企業(yè)信息公示①
      中國食品(2021年2期)2021-02-24 03:55:35
      通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計與實現(xiàn)
      藍(lán)谷: “涉藍(lán)”新引擎
      商周刊(2017年22期)2017-11-09 05:08:31
      得形忘意的服務(wù)器標(biāo)準(zhǔn)
      計算機(jī)網(wǎng)絡(luò)安全服務(wù)器入侵與防御
      身臨其境探究竟 主動思考完任務(wù)——《倉儲與配送實務(wù)》入庫作業(yè)之“入庫訂單處理”教學(xué)案例
      人間(2015年8期)2016-01-09 13:12:42
      無形的引擎
      河南電力(2015年5期)2015-06-08 06:01:46
      基于Cocos2d引擎的PuzzleGame開發(fā)
      批量地籍圖入庫程序設(shè)計方法
      万山特区| 桂平市| 高雄市| 平遥县| 昆山市| 定日县| 尼木县| 封开县| 襄城县| 崇阳县| 揭东县| 金寨县| 岳阳市| 福贡县| 岗巴县| 九龙县| 墨脱县| 错那县| 凤翔县| 上饶县| 慈利县| 安庆市| 获嘉县| 昌乐县| 安庆市| 夏河县| 桂平市| 北碚区| 濮阳县| 济源市| 西吉县| 常州市| 班玛县| 阳东县| 黄龙县| 石渠县| 万宁市| 淮南市| 固镇县| 苍山县| 淮安市|