• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電子商務(wù)數(shù)據(jù)采集方法研究

      2017-11-13 00:46:18苗妍
      商情 2017年40期
      關(guān)鍵詞:電子商務(wù)

      苗妍

      【摘要】近年來,我國電子商務(wù)經(jīng)過長時間的探索發(fā)展,已逐漸進(jìn)入中高速發(fā)展階段,市場規(guī)模也不斷擴(kuò)大,網(wǎng)購人群、商品種類、金額、平臺等快速增長,電子商務(wù)數(shù)據(jù)數(shù)量巨大、類型多樣、來源廣泛,如何采集我們需要的數(shù)據(jù),成為我們面臨的又一問題。本文主要通過將這一問題簡化為“按數(shù)據(jù)類型進(jìn)行采集”和“按數(shù)據(jù)需求采集”,并提出對應(yīng)的采集方法,從而實(shí)現(xiàn)對電子商務(wù)數(shù)據(jù)采集方法的系統(tǒng)梳理,為相關(guān)研究者提供豐富的理論基礎(chǔ)。

      【關(guān)鍵詞】電子商務(wù) 數(shù)據(jù)分類 數(shù)據(jù)采集方法

      一、引言

      數(shù)據(jù)采集也叫數(shù)據(jù)獲取,是指在一個系統(tǒng)采集數(shù)據(jù)后將數(shù)據(jù)信息傳輸?shù)搅硪粋€系統(tǒng)中,為后續(xù)系統(tǒng)數(shù)據(jù)分析做準(zhǔn)備。電商大數(shù)據(jù)伴隨消費(fèi)者和企業(yè)的行為實(shí)時產(chǎn)生,廣泛分布于電商平臺、社交媒體、智能終端、企業(yè)內(nèi)部系統(tǒng)和其它第三方服務(wù)平臺上,其類型多種多樣,既包含消費(fèi)者交易信息、消費(fèi)者基本信息、企業(yè)的產(chǎn)品信息與交易信息,也包括消費(fèi)者評論信息、行為信息、社交信息和地理位置信息等。在大數(shù)據(jù)環(huán)境下,電商平臺中的數(shù)據(jù)是公開、共享的,但數(shù)據(jù)間的各種信息傳輸和分析需要有一個采集整理的過程。

      目前文獻(xiàn)的研究主要集中于對“大數(shù)據(jù)采集方法”的研究,主要包括系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法、感知數(shù)據(jù)采集方法、網(wǎng)絡(luò)數(shù)據(jù)爬取、輿情信息采集等方法。而沒有對‘電子商務(wù)數(shù)據(jù)采集方法”的專門研究。本文的研究思路主要體現(xiàn)在三個方面:一是,針對繁雜的電子商務(wù)數(shù)據(jù),提出“按數(shù)據(jù)類型進(jìn)行采集”和“按數(shù)據(jù)需求采集”這一使人比較明晰的分析方式;二是,參考“數(shù)據(jù)采集”的各種方法,并與電子商務(wù)研究相結(jié)合,篩選出可以對電子商務(wù)數(shù)據(jù)進(jìn)行采集的方法;三是,將前兩點(diǎn)所提到的“采集分類”和“采集方法”一一對應(yīng)。

      二、電子商務(wù)數(shù)據(jù)

      (一)基于電商平臺的基礎(chǔ)數(shù)據(jù)

      電商平臺是指為企業(yè)或個人提供網(wǎng)上交易洽談的平臺。企業(yè)、商家可充分利用電子商務(wù)平臺提供的網(wǎng)絡(luò)基礎(chǔ)設(shè)施、支付平臺、安全平臺、管理平臺等共享資源有效地、低成本地開展自己的商業(yè)活動。電商平臺是電子商務(wù)數(shù)據(jù)產(chǎn)生的基本載體,主要包括商品數(shù)據(jù)、客戶基本信息數(shù)據(jù)、交易數(shù)據(jù)、客戶評價數(shù)據(jù)。

      (1)商品數(shù)據(jù)。在進(jìn)行電子商務(wù)活動之前,各企業(yè)、商家將商品的相關(guān)數(shù)據(jù)錄入電商平臺數(shù)據(jù)庫中,進(jìn)而在網(wǎng)頁中呈現(xiàn)出來,一般地,商品數(shù)據(jù)在一定時期內(nèi)是相對穩(wěn)定的。商品數(shù)據(jù)主要包括商品分類、商品品牌、商品價格、商品規(guī)格、商品展示,主要有文字描述、具體數(shù)值、圖片等數(shù)據(jù)格式。對商品數(shù)據(jù)的采集主要是獲取不同類目、顏色、型號等對銷售量和銷售額的影響,以便調(diào)整運(yùn)營策略、實(shí)施銷售計(jì)劃。

      (2)客戶數(shù)據(jù)。目前,各大電子商務(wù)平臺的訪問均需客戶進(jìn)行注冊,其中不乏用戶的隱私信息,如:用戶聯(lián)系電話、電子郵件和通訊地址等。同時通過線上交易、線下物流,可以獲取更完整的客戶數(shù)據(jù),主要包括姓名、性別、年齡等內(nèi)在屬性數(shù)據(jù),城市、教育程度、工作單位等外在屬性數(shù)據(jù),首次注冊時間、VIP等級、消費(fèi)頻率、購物金額等業(yè)務(wù)屬性數(shù)據(jù)。了解客戶的過程,實(shí)際上是一個為用戶打上不同標(biāo)簽并分群的過程,對這些數(shù)據(jù)的采集,有利于分析客戶消費(fèi)行為和消費(fèi)傾向等特征。

      (3)交易數(shù)據(jù)。當(dāng)客戶在電子商務(wù)平臺上產(chǎn)生購買行為之后,其交易數(shù)據(jù)包括購買時間、購買商品、購買數(shù)量、支付金額、支付方式等。對交易數(shù)據(jù)的采集是促進(jìn)通過數(shù)據(jù)分析評估客戶價值,將潛在客戶變?yōu)閮r值客戶的重要環(huán)節(jié)。電子商務(wù)網(wǎng)絡(luò)營銷其最主要的目的是促進(jìn)商品銷售,因此按照客戶對商品的購買情況,可對當(dāng)前和這個商品相關(guān)的營銷策略其實(shí)施效果進(jìn)行評價,以便進(jìn)行相關(guān)的調(diào)整。

      (4)評價數(shù)據(jù)。21世紀(jì)經(jīng)濟(jì)研究院所做《2017年電商消費(fèi)十大趨勢》顯示,80、90、00后的消費(fèi)者更愿意在互聯(lián)網(wǎng)上分享自己的真實(shí)購物體驗(yàn),并且消費(fèi)評價成為其產(chǎn)生購買行為的重要影響因素。這些評價數(shù)據(jù)主要以文本的形式體現(xiàn),包含商品品質(zhì)、客戶服務(wù)、物流服務(wù)等方面的內(nèi)容。對評價數(shù)據(jù)的采集是可以幫平臺商家更好地跟消費(fèi)者溝通,了解需求、完善產(chǎn)品、提高服務(wù)。

      (二)基于電商專業(yè)網(wǎng)站的研究數(shù)據(jù)

      隨著電子商務(wù)的發(fā)展,國內(nèi)電子商務(wù)研究性網(wǎng)站也隨著增多,比較典型的有“中國電子商務(wù)研究中心…阿里研究院…艾瑞咨詢”等。

      中國電子商務(wù)研究中心以“電子商務(wù)”為研究對象,以推動和擴(kuò)展電子商務(wù)研究為核心宗旨,以開放性和專業(yè)性為導(dǎo)向,致力于不斷提升電子商務(wù)研究的質(zhì)量與水準(zhǔn)。其數(shù)據(jù)板塊主要分為產(chǎn)業(yè)數(shù)據(jù)、企業(yè)數(shù)據(jù)、行業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)金融數(shù)據(jù)、地方數(shù)據(jù)五個方面,報告板塊主要包括電子商務(wù)報告、移動電子商務(wù)報告、季度報告、年度報告、B2B報告、B2C報告、網(wǎng)絡(luò)零售報告等多個層面。

      其次,阿里研究院依托阿里巴巴集團(tuán)海量數(shù)據(jù),聚焦電子商務(wù)生態(tài)、產(chǎn)業(yè)升級、宏觀經(jīng)濟(jì)等研究領(lǐng)域,共同推出阿里巴巴網(wǎng)購核心商品價格指數(shù)aSPI core、阿里巴巴全網(wǎng)網(wǎng)購價格指數(shù)aSPI、阿里巴巴電子商務(wù)發(fā)展指數(shù)aEDI、阿里巴巴消費(fèi)者信心指數(shù)aCCI、阿里巴巴小企業(yè)活躍指數(shù)aBAI及面向公眾媒體,結(jié)合開放的國家統(tǒng)計(jì)數(shù)據(jù)、區(qū)域經(jīng)濟(jì)數(shù)據(jù)、電子商務(wù)行業(yè)數(shù)據(jù)以及阿里集團(tuán)數(shù)據(jù)。

      艾瑞咨詢專注于互聯(lián)網(wǎng)相關(guān)領(lǐng)域的數(shù)據(jù)研究、數(shù)據(jù)調(diào)研、數(shù)據(jù)分析、互聯(lián)網(wǎng)咨詢數(shù)據(jù)等互聯(lián)網(wǎng)研究及報告,電子商務(wù)是其研究領(lǐng)域的重要組成部分。其主要通過形象化的表格、圖片,提煉出電子商務(wù)歷年發(fā)展情況、階段性發(fā)展情況及專項(xiàng)內(nèi)容發(fā)展情況,為電子商務(wù)提供了豐富的數(shù)據(jù)信息。

      (三)基于電商媒體的報道、評論數(shù)據(jù)

      電商媒體是指對電子商務(wù)的動態(tài)進(jìn)行實(shí)時報道、評論的介質(zhì)平臺。國內(nèi)典型的電商媒體主要包括新聞和社交兩大部分:新聞網(wǎng)站主要有騰訊網(wǎng)、新浪網(wǎng)、鳳凰網(wǎng)、網(wǎng)易、搜狐網(wǎng)等,及電子商務(wù)專業(yè)新聞網(wǎng)站

      億邦動力網(wǎng);社交網(wǎng)站主要包括微博、博客、百度貼吧等。

      各大新聞網(wǎng)站對于各地區(qū)電子商務(wù)的發(fā)展合作動態(tài)有著準(zhǔn)確、及時的把握,并使用專業(yè)性的語言發(fā)布在網(wǎng)絡(luò)平臺,對于國家電商政策、重大電商會議、論壇等宏觀信息還原度高且及時,同時對于地方電子商務(wù)發(fā)展的微小事件也有相關(guān)提及,地域度和事件范圍較廣。億邦動力網(wǎng)是國內(nèi)權(quán)威電子商務(wù)新聞門戶,圍繞傳統(tǒng)企業(yè)做電商、B2B、B2C、外貿(mào)電商、移動電商、電商服務(wù)、電商政策、電商資本等領(lǐng)域開展信息與研究服務(wù),是獲取電商發(fā)展動態(tài)數(shù)據(jù)必不可少的來源。endprint

      社交網(wǎng)站中的電子商務(wù)數(shù)據(jù)主要體現(xiàn)在微博中的電子商務(wù)話題及用戶評論數(shù)據(jù),博客中電子商務(wù)政策解讀、技術(shù)分析、事件討論等文章性數(shù)據(jù),貼吧中電子商務(wù)問題、話題的討論數(shù)據(jù)等,這些數(shù)據(jù)多以文本形式呈現(xiàn)。

      三、按數(shù)據(jù)類型進(jìn)行數(shù)據(jù)采集的方法

      電子商務(wù)數(shù)據(jù)集通常具有不同類別的屬性,包括字符類屬性和數(shù)值類屬性。字符類屬性通常是對鍵值的外部歸類,如性別、所在地區(qū)名,信用等級等。數(shù)值類屬性又可分為順序?qū)傩?,離散值屬性和連續(xù)值屬性,數(shù)值類屬性是對變量的量化記錄,其中順序?qū)傩允菍︽I值進(jìn)行順序排列,并用數(shù)字表示順序,如喜愛程度、滿意度等;離散值屬性是不具有運(yùn)算意義的離散值鍵值,如身份證號碼、郵編等;而連續(xù)值屬性是最為常見的數(shù)值類屬性,如貨幣收入,或者統(tǒng)計(jì)的人數(shù)等。

      目前互聯(lián)網(wǎng)中的網(wǎng)頁信息多是半結(jié)構(gòu)化或結(jié)構(gòu)化,絕大多數(shù)的互網(wǎng)頁信息的編寫或標(biāo)記語言為超文本標(biāo)記語言HTML,分析其組成結(jié)構(gòu)可知它主要由HTML標(biāo)簽和穿插其中的普通文本信息組成。簡而言之,電子商務(wù)數(shù)據(jù)主要可以歸類為由文字、數(shù)值組成的文本類型數(shù)據(jù),同時還包括圖片、視頻等媒體數(shù)據(jù)。因此,對電子商務(wù)數(shù)據(jù)的采集,可以參考文本數(shù)據(jù)和媒體數(shù)據(jù)的采集方法。如下圖所示為不同類型電子商務(wù)數(shù)據(jù)可使用的采集方法:

      (一)HTML網(wǎng)頁文本、圖片數(shù)據(jù)采集

      獲取網(wǎng)頁是WEB采集最基本的操作?;ヂ?lián)網(wǎng)是一個類似蜘蛛網(wǎng)一樣的數(shù)據(jù)信息網(wǎng)絡(luò),包含有網(wǎng)頁中的一些圖片、視頻、壓縮文件、超鏈接等媒體文件。

      Web采集的核心是網(wǎng)頁爬蟲,用以采集相關(guān)網(wǎng)址所包含的海量信息,并從中提取所需的網(wǎng)頁信息資料。目前國內(nèi)外對網(wǎng)絡(luò)爬蟲的研究主要分為三類:基于網(wǎng)站的信息采集、基于關(guān)鍵詞的網(wǎng)站信息采集、增量式網(wǎng)站信息采集。

      (1)傳統(tǒng)網(wǎng)絡(luò)爬蟲。傳統(tǒng)網(wǎng)絡(luò)爬蟲的原理是:通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁。這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。其一般工作流程如下:

      傳統(tǒng)的網(wǎng)絡(luò)爬蟲主要用于抓取新聞門戶類、論壇類及傳統(tǒng)博客類網(wǎng)站的數(shù)據(jù),更擅長處理靜態(tài)網(wǎng)頁的數(shù)據(jù)。運(yùn)用網(wǎng)絡(luò)爬蟲進(jìn)行電商數(shù)據(jù)采集時,可以使用Python或java等語言實(shí)現(xiàn)。

      (2)主題網(wǎng)絡(luò)爬蟲。Web結(jié)構(gòu)越來越復(fù)雜,網(wǎng)頁數(shù)量越來越多,傳統(tǒng)爬蟲對所有鏈接指向的網(wǎng)頁不加選擇地爬取,其越發(fā)不可能遍歷整個Web上的所有網(wǎng)面。而主題爬蟲有選擇的爬行符合預(yù)定主題的網(wǎng)頁,分析每個頁面的鏈接,并通過相關(guān)性算法的計(jì)算預(yù)測鏈接指向的網(wǎng)頁與主題的相關(guān)度、優(yōu)先度高的鏈接先爬行,舍棄與主題無關(guān)的鏈接。

      主題網(wǎng)絡(luò)爬蟲按照預(yù)先確定的主題,分析超鏈接和抓取的網(wǎng)頁內(nèi)容,獲取下一個要爬行的URL,盡可能保證多爬行與主題相關(guān)的網(wǎng)頁。它從一個初始的URL種子集出發(fā),根據(jù)一定分析算法判定URL指向的頁面及其上的鏈接的主題相關(guān)度,過濾掉相關(guān)度低的頁面與鏈接,保留與主題相關(guān)的頁面和新的鏈接,頁面存入主題頁面庫,鏈接放入待采集URL隊(duì)列中,再從待采集URL隊(duì)列中根據(jù)設(shè)定的采集策略選擇下一次要抓取的URL,重復(fù)以上過程,直到爬蟲根據(jù)自己的策略達(dá)到某一條件停止爬行,這一過程中不斷從當(dāng)前頁面抽取新鏈接放入URL隊(duì)列中,所有抓取的頁面被存貯在主題頁面庫中。其工作流程如下圖所示:

      (二)JSON或XML頁面文本、圖片數(shù)據(jù)采集

      盡管可以通過網(wǎng)絡(luò)爬蟲的一些改進(jìn)技術(shù)實(shí)現(xiàn)各類網(wǎng)絡(luò)數(shù)據(jù)的采集,但網(wǎng)絡(luò)爬蟲獲取的往往是整個頁而數(shù)據(jù),缺乏針對性。利用網(wǎng)站自身提供的API實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)采集即調(diào)用網(wǎng)站API,可以很好地解決數(shù)據(jù)針對性的問題。

      越來越多的社會化媒體網(wǎng)站推出了開放平臺,提供了豐富的API,如Twitter、新浪微博、人人網(wǎng)、博客等。這些平臺中包含了許多關(guān)于“電子商務(wù)”的話題和評論、圖片等,它們允許用戶申請平臺數(shù)據(jù)的采集權(quán)限,并提供相應(yīng)的API接口采集數(shù)據(jù)。

      (1)開放認(rèn)證協(xié)議。開放認(rèn)證(OAuth)協(xié)議不需要提供用戶名和密碼來獲取用戶數(shù)據(jù),它給第三方應(yīng)用提供一個令牌,每一個令牌授權(quán)對應(yīng)的特定網(wǎng)站(如社交網(wǎng)站),并且應(yīng)用只能在令牌規(guī)定的時間范圍內(nèi)訪問特定的資源。為了降低OAuth協(xié)議的復(fù)雜性,OAuth 2.0協(xié)議很快就被提出,OAuth 2.0更加關(guān)注客戶端開發(fā)者的簡易性,它為手機(jī)應(yīng)用,桌面應(yīng)用和Web應(yīng)用提供專門的認(rèn)證流程。目前各大社交網(wǎng)站諸如Faeebook,Twitter、新浪微博等都提供了0Auth 2.0認(rèn)證支持。

      在己獲授權(quán)的情況下,第三方程序可通過這些API直接獲取網(wǎng)絡(luò)數(shù)據(jù)。通過API獲取的網(wǎng)絡(luò)數(shù)據(jù)通常以JSON或XML的格式呈現(xiàn),具有清晰的數(shù)據(jù)結(jié)構(gòu),非常便于通過程序直接進(jìn)行數(shù)據(jù)抽取。其大致過程示意圖如下所示:

      (2)開源API的調(diào)用。開源API的調(diào)用方法步驟為:①創(chuàng)建HttpClient對象;②如果需要發(fā)送get請求,創(chuàng)建httpget對象,同樣,post請求一樣;③發(fā)送參數(shù),可調(diào)用HttpGet、Httppost共同的setParams()方法來添加請求參數(shù);HttpPost對象而言,也可調(diào)用setEntity()方法來設(shè)置請求參數(shù);④調(diào)用Httpclient對象的execute()發(fā)送請求,執(zhí)行該方法會返回一個Httpresponse⑤調(diào)用Httpresponse的getAllHeaders()、getHearders(strigname)等方法可獲取服務(wù)器的響應(yīng)頭。調(diào)用getEntity()方法可獲取HttpEntity對象,該對象包裝了服務(wù)器的響應(yīng)內(nèi)容。

      四、按數(shù)據(jù)需求進(jìn)行數(shù)據(jù)采集的方法

      數(shù)據(jù)需求是指為了達(dá)到或?qū)崿F(xiàn)某種目的而需要進(jìn)行的數(shù)據(jù)采集。本文主要從“用戶購物推薦”,“電商網(wǎng)站流量獲取兩種數(shù)據(jù)需求進(jìn)行采集方法的分析。endprint

      (一)用戶購物推薦

      分析網(wǎng)購用戶的行為,離不開電商數(shù)據(jù)的采集、獲取。電子商務(wù)中應(yīng)用協(xié)同過濾算法的情景就是如何根據(jù)用戶行為數(shù)據(jù)預(yù)測出用戶可能要購買哪些商品的過程。協(xié)同過濾算法根據(jù)用戶已有的信息,推算出用戶可能會含有或即將會含有的信息。協(xié)同過濾算法大致可分為兩類,基于物品的與基于用戶的。

      (1)基于物品的協(xié)同過濾算法?;谖锲返膮f(xié)同過濾算法的實(shí)現(xiàn)過程及主要環(huán)節(jié)說明。

      ①查找這個用戶喜歡過的物品(即偏好的產(chǎn)品,并查出偏好值),以及還沒有喜歡過的商品,前者是推薦運(yùn)算的根據(jù),后者作為一個產(chǎn)生推薦的一個集合。②查找這兩個集合之間的關(guān)系,這是一對多的關(guān)系:一個沒有偏好過的物品與該用戶所有偏好過的物品間的關(guān)系,有一個值來衡量這個關(guān)系叫相似度Similarity。③得到這個一對多的關(guān)系后,就可以計(jì)算這個物品對于這個用戶的推薦值了,圖中similarity_i-x表示Item_i與Item_x之間的相似度,Item_x是該用戶偏好過得,該用戶對其偏好值記為value_x,相乘;Item_i與該用戶偏好過的所有物品以此做以上運(yùn)算后,得到的值取平均值便是Item_i的推薦值了。④對該用戶沒有偏好過的集合中的所有Item都計(jì)算了推薦值,這里就會得到一個list,按推薦值由大到小排序,返回前面的一個子集即可。

      (2)基于用戶的協(xié)同過濾算法?;谟脩舻膮f(xié)同過濾算法的實(shí)現(xiàn)過程及主要環(huán)節(jié)說明:

      ①查詢與該用戶相似的用戶,包括關(guān)系數(shù)據(jù)源,以及相似用戶與該用戶的相似度。②查詢關(guān)系數(shù)據(jù)源,得到相似用戶即鄰居偏好過的物品。③被推薦的Item集合是由該用戶的所有鄰居的偏好過的物品的并集,同時再去掉該用戶自己偏好過的物品。④集合優(yōu)化。⑤依次計(jì)算被推薦集合中Item_i的推薦值,計(jì)算的方式略有不同,Value_1_i·表示鄰居1對Item_i的偏好值,乘以該用戶與鄰居1的相似度Similarityl~若某個鄰居對Item_i偏好過,就重復(fù)上述運(yùn)算,然后取平均值;得到Item_i的推薦值。

      (二)電商網(wǎng)站運(yùn)營狀況

      網(wǎng)站流量統(tǒng)計(jì)常用來衡量網(wǎng)站的整體效果,主要的統(tǒng)計(jì)指標(biāo)如下表所示:

      (1)監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)包。數(shù)據(jù)包是網(wǎng)絡(luò)傳輸中的基本單元,主要由發(fā)送端IP地址、傳輸數(shù)據(jù)和接收端IP地址組成,里而包含了發(fā)送端用戶所有數(shù)據(jù)信息。通過監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)包獲取流量數(shù)據(jù),需要在客戶端和Web服務(wù)器之間加一個基于軟件或者硬件的包嗅探器,才能對經(jīng)過的所有數(shù)據(jù)包進(jìn)行監(jiān)聽,從中提取出有用的信息,比如用戶的IP地址、請求訪問的URL資源以及瀏覽器類型等,接收到數(shù)據(jù)包的時間還可以作為用戶訪問的時間。

      (2)分析服務(wù)器日志。當(dāng)用戶瀏覽網(wǎng)站時,便與遠(yuǎn)程計(jì)算機(jī)(即Web服務(wù)器)產(chǎn)生了Internet連接,服務(wù)器端通過TCP/IP協(xié)議請求向客戶端傳送文件。TCP/IP協(xié)議將文件數(shù)據(jù)打包分成分組,通過Internet網(wǎng)絡(luò)傳到用戶的計(jì)算機(jī)。這些分組將在用戶計(jì)算機(jī)中重組并顯示在瀏覽器中。Web服務(wù)器定位和傳遞用戶請求的文件,每一次請求后,服務(wù)器便在日志文件中記錄信息交換結(jié)果。常用的Web服務(wù)器如IIS、Apache都具有一套完整靈活的日志系統(tǒng),均能在服務(wù)器端自動生成日志文件,里而記錄了里而記錄了用戶訪問網(wǎng)站的各種數(shù)據(jù),包括IP地址、訪問時間、訪問方式、請求內(nèi)容等。

      (3)添加頁面標(biāo)記。頁面標(biāo)記法指的是在需要被監(jiān)測的網(wǎng)頁源文件中插入一小段可執(zhí)行的JavaScript程序代碼,當(dāng)該網(wǎng)頁被下載到客戶端的瀏覽器上時,這段JavaScript代碼就會被執(zhí)行,然后,它就會如實(shí)的將采集到的訪客行為信息不間斷的發(fā)給所對應(yīng)的服務(wù)器。通過JavaScript來進(jìn)行流量統(tǒng)計(jì)得到的用戶IP基本是真實(shí)的用戶訪問IP。

      五、總結(jié)

      隨著數(shù)據(jù)采集技術(shù)的不斷發(fā)展,目前可使用的電商數(shù)據(jù)采集技術(shù)、采集工具及采集軟件層出不窮,為電商數(shù)據(jù)的快速、準(zhǔn)確、大量采集提供了有力支撐。而本文主要以數(shù)據(jù)采集的方法分析為核心,偏向于理論分析。在文章的第四章實(shí)際上還有電商輿情評論、消費(fèi)者滿意度等等數(shù)據(jù)需求需要進(jìn)行數(shù)據(jù)采集,這些都可以使用第三章的網(wǎng)絡(luò)爬蟲方法實(shí)現(xiàn),為避免重復(fù),僅列舉了兩種數(shù)據(jù)需求。endprint

      猜你喜歡
      電子商務(wù)
      2025年我國農(nóng)村電子商務(wù)交易額達(dá)到2.8萬億元
      《電子商務(wù)法》如何助力直銷
      淺析中小企業(yè)電子商務(wù)服務(wù)外包
      電子商務(wù)實(shí)踐能力的提升探析
      電子商務(wù)
      電子商務(wù)模式創(chuàng)新的相關(guān)研究
      關(guān)于加快制定電子商務(wù)法的議案
      跨境電子商務(wù)中的跨文化思考
      基于AS仿真的電子商務(wù)交易系統(tǒng)研究
      電子商務(wù)人的核心能力
      大埔区| 定兴县| 蒙山县| 宁都县| 商洛市| 辽中县| 穆棱市| 长春市| 中阳县| 宁夏| 介休市| 嘉荫县| 炉霍县| 南京市| 丹凤县| 九江市| 温宿县| 定边县| 滨海县| 巢湖市| 井研县| 大方县| 凤翔县| 星子县| 连山| 平安县| 永和县| 武汉市| 婺源县| 贵阳市| 青冈县| 衡水市| 栾川县| 临泉县| 诸城市| 黔南| 阿拉尔市| 子长县| 历史| 乐山市| 宜章县|