• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      聚合信息客戶端數(shù)據(jù)挖掘應(yīng)用研究
      ——以用戶登錄行為和文章推薦數(shù)據(jù)庫為例

      2019-02-15 08:19:58丁慶燊李健偉劉寧寧
      統(tǒng)計(jì)與信息論壇 2019年2期
      關(guān)鍵詞:客戶端變量預(yù)測

      丁慶燊, 李健偉,劉寧寧

      (東北財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,遼寧 大連 116025)

      一、引 言

      新聞資訊作為人們獲取知識、了解信息的主要渠道,對政治、經(jīng)濟(jì)和文化的進(jìn)步具有不可替代的促進(jìn)作用。隨著通訊技術(shù)的不斷發(fā)展和人類求知意識的不斷提高,對新聞資訊的需求也越來越大。截至2017年12月,中國網(wǎng)民規(guī)模達(dá)7.72億,其中手機(jī)網(wǎng)民規(guī)模7.53億,網(wǎng)民中使用手機(jī)上網(wǎng)人群的占比由2016年的95.1%提升至97.5%,互聯(lián)網(wǎng)移動(dòng)終端規(guī)模加速提升,移動(dòng)數(shù)據(jù)量持續(xù)擴(kuò)大[1]。在此背景下,傳統(tǒng)的新聞資訊類媒體和資訊傳播方式已無法滿足現(xiàn)代民眾對于資訊的需求。此外,由于新聞資訊具有地域性和時(shí)效性,只有被用戶及時(shí)獲取才能創(chuàng)造價(jià)值,通過傳統(tǒng)媒介顯然無法迅速、快捷、準(zhǔn)確地將信息傳達(dá)給用戶。2015年,李克強(qiáng)總理提出并制定的“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃指出,將互聯(lián)網(wǎng)與媒體結(jié)合可以有效地解決這些問題。

      雖然互聯(lián)網(wǎng)資訊行業(yè)的發(fā)展勢頭良好,但由于新聞資訊行業(yè)本身的特性,其用戶大多將資訊類平臺作為工具,缺少足夠的用戶粘性和用戶忠誠度,不能滿足互聯(lián)網(wǎng)企業(yè)可持續(xù)發(fā)展的目標(biāo)。同時(shí),自媒體作為新媒體資訊生產(chǎn)的中堅(jiān)力量,資訊企業(yè)對其的管理模式較為落后,缺少有效的優(yōu)秀文章篩選機(jī)制。機(jī)器學(xué)習(xí)作為近年來興起的一門科學(xué),有利于解決互聯(lián)網(wǎng)資訊企業(yè)存在的各種問題,并形成有效的用戶和自媒體分類預(yù)測機(jī)制,提高用戶粘性,促進(jìn)利益在自媒體中合理分配,實(shí)現(xiàn)互聯(lián)網(wǎng)資訊企業(yè)的良性發(fā)展。目前,中國互聯(lián)網(wǎng)資訊行業(yè),特別是聚合信息行業(yè)發(fā)展尚處于初級階段,行業(yè)整體發(fā)展水平較低,問題突出。因此,選擇適合于互聯(lián)網(wǎng)大數(shù)據(jù)的統(tǒng)計(jì)模型,客觀了解中國聚合信息企業(yè)的發(fā)展現(xiàn)狀,深入研究用戶登錄行為、文章評價(jià)機(jī)制的影響因素,有利于準(zhǔn)確判斷聚合信息企業(yè)面臨的困境,并采取針對性的措施,提高企業(yè)運(yùn)行效率,推動(dòng)新聞資訊的信息化發(fā)展進(jìn)程。

      二、文獻(xiàn)回顧

      隨著網(wǎng)絡(luò)技術(shù)和互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,互聯(lián)網(wǎng)新聞資訊行業(yè)的相關(guān)研究,逐漸開始從信息聚合角度探討資訊產(chǎn)生方式并揭示其內(nèi)在發(fā)展規(guī)律。近年來,越來越多的國內(nèi)學(xué)者開始關(guān)注如何科學(xué)地將PC時(shí)代新聞資訊的發(fā)展觀念轉(zhuǎn)變并應(yīng)用到新聞資訊產(chǎn)品移動(dòng)端。隨著移動(dòng)時(shí)代的到來,傳統(tǒng)門戶資訊網(wǎng)站面臨著嚴(yán)酷的考驗(yàn)[2]。同時(shí),智能手機(jī)的普及和手機(jī)網(wǎng)民的增加,用戶獲取新聞資訊的方式正逐步由PC端向移動(dòng)端轉(zhuǎn)移[3]。

      隨著移動(dòng)網(wǎng)絡(luò)的發(fā)展,針對移動(dòng)新聞資訊客戶端的研究越來越多。根據(jù)運(yùn)營背景,移動(dòng)新聞資訊客戶端可以分為兩類:一類是以媒體為運(yùn)營主體的媒體新聞客戶端,包括新浪、搜狐和騰訊新聞客戶端等;另一類是非媒體機(jī)構(gòu)研發(fā)的聚合信息客戶端,包括今日頭條和一點(diǎn)資訊等。其中,關(guān)于媒體新聞客戶端的研究較多,主要集中于四個(gè)方面:第一,從行業(yè)領(lǐng)域角度分析媒體新聞客戶端產(chǎn)生的影響,如趙茜倩和孫紹峰分別從股市、財(cái)經(jīng)兩個(gè)行業(yè)闡述媒體新聞客戶端對其發(fā)展的影響[4-5];第二,從信息技術(shù)角度分析新聞客戶端的發(fā)展變化,如王小倩等通過介紹互聯(lián)網(wǎng)技術(shù)的發(fā)展,研究新聞媒體客戶端的技術(shù)進(jìn)步和產(chǎn)品創(chuàng)新[6];第三,通過研究新媒體的產(chǎn)生和發(fā)展,介紹新聞客戶端的變革[7];第四,基于新聞媒體客戶端的發(fā)展現(xiàn)狀,探討其發(fā)展戰(zhàn)略[8]。

      現(xiàn)階段關(guān)于聚合信息客戶端的研究相對較少。最普遍的研究角度是基于技術(shù)層面探討聚合信息客戶端的發(fā)展,如郝麗婷闡述了聚合信息網(wǎng)站從單純抓取標(biāo)題到內(nèi)容全文展示深層鏈接方式的技術(shù)革新[9]。此外,部分研究以具體企業(yè)為例,探討近年來聚合信息客戶端崛起的原因,如王卉等以今日頭條的崛起為例,闡述大數(shù)據(jù)分析技術(shù)與互聯(lián)網(wǎng)結(jié)合對新聞資訊行業(yè)產(chǎn)生的影響和變革[10];郭全中在研究中探討了大數(shù)據(jù)及其分析技術(shù)在聚合類信息企業(yè)中應(yīng)用的重要性[11]。但上述研究多是在理論層面加以論證,并未基于企業(yè)實(shí)際運(yùn)營中產(chǎn)生的大數(shù)據(jù)和統(tǒng)計(jì)方法展開實(shí)證探索??傮w來看,由于聚合信息客戶端興起時(shí)間不長,已有研究多是從理論角度探討聚合信息客戶端的優(yōu)勢與不足,較少使用資訊平臺的實(shí)際數(shù)據(jù)及機(jī)器學(xué)習(xí)算法展開實(shí)證研究。

      聚合信息客戶端的理論探討具有一定的指導(dǎo)意義,但從實(shí)際業(yè)務(wù)角度展開研究更有利于互聯(lián)網(wǎng)聚合信息企業(yè)將理論成果應(yīng)用于實(shí)際。其中,應(yīng)重點(diǎn)關(guān)注互聯(lián)網(wǎng)大數(shù)據(jù)的清理和分析等基本問題,其更多依賴于對統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)算法的準(zhǔn)確應(yīng)用。因此,科學(xué)使用用戶特征和用戶行為等大數(shù)據(jù)是國內(nèi)外移動(dòng)互聯(lián)網(wǎng)企業(yè)的核心需求,也相應(yīng)完善了多種應(yīng)用于互聯(lián)網(wǎng)大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法,如樸素貝葉斯分類器、人工神經(jīng)網(wǎng)絡(luò)模型、Logistic回歸、支持向量機(jī)以及隨機(jī)森林等。眾多學(xué)者通過比較分析各類算法的優(yōu)缺點(diǎn)發(fā)現(xiàn),基于不同的數(shù)據(jù)類型和分析目的,不同的算法各有優(yōu)劣。Caruana等使用包括ROC曲線、f1-socre和精確度在內(nèi)的9種模型評判標(biāo)準(zhǔn)對7個(gè)機(jī)器學(xué)習(xí)算法進(jìn)行評判,發(fā)現(xiàn)并不存在具有普適性的算法模型,需要根據(jù)業(yè)務(wù)特征,基于合適的評判標(biāo)準(zhǔn)來選擇最優(yōu)模型[12]。

      機(jī)器學(xué)習(xí)算法主要應(yīng)用于商業(yè)和醫(yī)學(xué)等領(lǐng)域,模型選擇標(biāo)準(zhǔn)也較為固定,相對而言,在新聞資訊領(lǐng)域的應(yīng)用較少。此外,由于分析目的和業(yè)務(wù)需求的不同,模型結(jié)果的評判標(biāo)準(zhǔn)也各有差異。目前,采用機(jī)器學(xué)習(xí)算法的實(shí)證研究主要以單一標(biāo)準(zhǔn)或缺乏與業(yè)務(wù)相聯(lián)系的準(zhǔn)則作為模型選擇依據(jù),如董元方從分類器性能度量的角度研究機(jī)器學(xué)習(xí)中的模型選擇問題,提出gROC和gAUC概念,并基于gROC概念設(shè)計(jì)了兩種性能評估度量指標(biāo)λAUC和ρAUC[13]。這種模型選擇標(biāo)準(zhǔn)有利于統(tǒng)一模型選擇口徑并具有較好的泛化性,從實(shí)際業(yè)務(wù)出發(fā)有針對性地選擇模型評價(jià)標(biāo)準(zhǔn),有利于促進(jìn)模型結(jié)果更好地服務(wù)于用戶需求。

      綜合來看,已有的關(guān)于聚合信息客戶端的研究主要集中于聚合信息客戶端的搭建、行業(yè)的發(fā)展以及法律約束等,且多是從理論層面加以探討,很少有研究基于實(shí)際運(yùn)營中產(chǎn)生的大數(shù)據(jù),探討聚合信息客戶端用戶行為和平臺自媒體的發(fā)展?fàn)顩r。因此,本文將基于聚合信息企業(yè)的實(shí)際運(yùn)營數(shù)據(jù),綜合考慮機(jī)器學(xué)習(xí)算法特點(diǎn)和企業(yè)實(shí)際業(yè)務(wù)需求,采用隨機(jī)森林、支持向量機(jī)和樸素貝葉斯等機(jī)器學(xué)習(xí)算法,分析用戶登錄行為,判定文章質(zhì)量。同時(shí),使用ROC曲線和召回率等評價(jià)指標(biāo)選擇最優(yōu)模型,根據(jù)模型結(jié)果提出符合業(yè)務(wù)需求的參考建議。

      三、變量選取與數(shù)據(jù)來源

      結(jié)合互聯(lián)網(wǎng)資訊行業(yè)特征,分別以用戶登錄行為和是否為優(yōu)秀文章作為被解釋變量,選取用戶基本信息、文章基本信息以及自媒體信息三個(gè)方面所包含的指標(biāo)作為解釋變量。

      用戶基本信息是互聯(lián)網(wǎng)企業(yè)最重要的信息資源之一,也是用戶群劃分和用戶行為特征描述的關(guān)鍵因素。參考互聯(lián)網(wǎng)企業(yè)用戶研究的步驟,以用戶的手機(jī)操作系統(tǒng)、年齡、性別、地區(qū)、是否為新用戶、忠誠度、文章點(diǎn)擊次數(shù)、文章瀏覽次數(shù)和閱讀總時(shí)長反映用戶基本信息,作為用戶登錄行為模型的解釋變量。

      文章基本信息是評價(jià)和預(yù)測文章質(zhì)量的重要變量,包括文章等級、發(fā)文類型、文章是否為原創(chuàng)和文章領(lǐng)域等變量。這些變量分別決定文章各維度的屬性,同時(shí)影響其對用戶的吸引程度,表現(xiàn)為文章的點(diǎn)擊率等核心指標(biāo)。因此,以文章基本信息反映文章屬性,作為文章質(zhì)量預(yù)測模型的解釋變量。

      自媒體是互聯(lián)網(wǎng)聚合信息企業(yè)資訊生產(chǎn)的主要渠道之一,不同自媒體生產(chǎn)的文章質(zhì)量各有差異,將自媒體的屬性變量加入文章評分模型,有利于提高模型對文章分類的精度。因此,以自媒體等級、自媒體得分、自媒體質(zhì)量、自媒體聲譽(yù)、自媒體產(chǎn)量、自媒體成長值、自媒體關(guān)注度、自媒體入駐狀態(tài)和自媒體所屬省份作為文章質(zhì)量預(yù)測模型的解釋變量。

      為提高研究的實(shí)用性,數(shù)據(jù)均為某互聯(lián)網(wǎng)聚合信息企業(yè)的實(shí)際運(yùn)營數(shù)據(jù),包括用戶基本信息數(shù)據(jù)庫、文章運(yùn)營指標(biāo)數(shù)據(jù)庫以及自媒體特征數(shù)據(jù)庫,共計(jì)10GB[注]考慮企業(yè)實(shí)際運(yùn)營數(shù)據(jù)的保密性,本文無法提供具體的企業(yè)名稱等信息。。其中包含有大量噪聲數(shù)據(jù),這些數(shù)據(jù)具有不完整性、含噪性和雜亂性等特征。目前較為成熟的算法對數(shù)據(jù)質(zhì)量都有一定的要求,實(shí)際數(shù)據(jù)一般無法直接滿足。因此,在數(shù)據(jù)挖掘和模型構(gòu)建前,必須對數(shù)據(jù)加以清理,提高數(shù)據(jù)質(zhì)量,使之符合挖掘算法的規(guī)范和要求。其中,隨機(jī)森林等基于樹的分類算法僅需對字符類別重新編碼,同時(shí)不需要對數(shù)據(jù)進(jìn)行歸一化處理。支持向量機(jī)等基于距離的分類算法則采用One Hot Encoder編碼方式處理分類數(shù)據(jù)的離散值問題,并對連續(xù)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

      四、用戶登錄行為分析

      隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,企業(yè)愈發(fā)關(guān)注為用戶提供符合其需求的差異化服務(wù)。為此,企業(yè)必須獲得用戶的微觀行為數(shù)據(jù)、宏觀反饋數(shù)據(jù)和個(gè)人屬性數(shù)據(jù),而用戶是否登錄直接影響企業(yè)能否獲得用戶的畫像數(shù)據(jù)。以用戶登錄行為作為切入點(diǎn),研究用戶登錄行為的影響因素,同時(shí)采用隨機(jī)森林、支持向量機(jī)和樸素貝葉斯算法預(yù)測用戶登錄的概率,為企業(yè)提高用戶登錄比提供參考。其中,用戶是否登錄作為被解釋變量,用戶的手機(jī)操作系統(tǒng)、年齡、性別、地區(qū)、是否為新用戶、忠誠度、文章點(diǎn)擊次數(shù)、文章瀏覽次數(shù)和閱讀總時(shí)長作為解釋變量。

      (一)基于隨機(jī)森林預(yù)測用戶登錄行為

      表1 隨機(jī)森林模型在訓(xùn)練集和測試集的預(yù)測效果

      結(jié)果顯示,訓(xùn)練和測試數(shù)據(jù)的預(yù)測效果接近,精確度均值都超過70%。這說明模型整體不存在明顯的過擬合情況,泛化能力較強(qiáng),即該隨機(jī)森林模型能夠較好地對沒有登錄標(biāo)記的用戶進(jìn)行先驗(yàn)預(yù)測,得到不同用戶登錄的概率分布。

      (二)基于支持向量機(jī)預(yù)測用戶登錄行為

      支持向量機(jī)算法(SVM)在文本分類任務(wù)中有卓越的性能,其中核函數(shù)的選擇直接影響SVM的預(yù)測效果。同樣通過多組參數(shù)并行運(yùn)算得到交叉驗(yàn)證效果最好的一組參數(shù)作為SVM的參數(shù)。由于樣本量過大導(dǎo)致結(jié)果無法輸出,采用隨機(jī)抽樣的方式從2 929 665條觀測中抽取1%的樣本作為研究數(shù)據(jù),其中2/3作為訓(xùn)練集,1/3作為驗(yàn)證集。交叉驗(yàn)證結(jié)果表明,高斯核函數(shù)SVM的性能優(yōu)于多項(xiàng)式核函數(shù)和sigmoid核函數(shù)SVM。將懲罰系數(shù)C設(shè)定為1,gamma函數(shù)設(shè)定為1/k(k為特征數(shù))。支持向量機(jī)最優(yōu)參數(shù)模型預(yù)測效果如表2所示。

      表2 支持向量機(jī)模型在訓(xùn)練集和測試集的預(yù)測效果

      結(jié)果顯示,SVM對訓(xùn)練和測試數(shù)據(jù)的預(yù)測效果比較接近,與隨機(jī)森林相比,模型對測試集的預(yù)測效果一般。整體來看,SVM具有較強(qiáng)的泛化性。由于SVM模型是將低維空間數(shù)據(jù)映射到高維空間使其線性可分,需要消耗更多的運(yùn)行資源,即模型訓(xùn)練速度較慢,處理大數(shù)據(jù)效果不佳。此外,SVM在測試集預(yù)測的AUC值為0.68,低于隨機(jī)森林的AUC值0.77,表明隨機(jī)森林在預(yù)測的整體效果上優(yōu)于SVM。

      (三)基于樸素貝葉斯預(yù)測用戶登錄行為

      樸素貝葉斯分類器(簡稱為NB)是在貝葉斯決策論的基礎(chǔ)上引入屬性條件獨(dú)立性假設(shè)。NB的理論基礎(chǔ)易于理解,模型訓(xùn)練速度快,可擴(kuò)展性強(qiáng),在互聯(lián)網(wǎng)大數(shù)據(jù)中應(yīng)用廣泛。根據(jù)交叉驗(yàn)證結(jié)果,BernoulliNB的結(jié)果優(yōu)于GaussianNB和MultinomialNB,設(shè)alpha為1。樸素貝葉斯最優(yōu)參數(shù)模型預(yù)測效果如表3所示。

      表3 樸素貝葉斯模型在訓(xùn)練集和測試集的預(yù)測效果

      結(jié)果顯示,樸素貝葉斯模型對訓(xùn)練和測試數(shù)據(jù)的預(yù)測效果幾乎相同,所有指標(biāo)得分非常接近,且精確度均值都超過70%,表明模型整體不存在過擬合情況,泛化能力極強(qiáng);整體的預(yù)測效果優(yōu)于SVM,與隨機(jī)森林接近,同時(shí)訓(xùn)練速度是三個(gè)模型中最快的,適用于大數(shù)據(jù)背景下的分類預(yù)測。

      (四)模型評估和結(jié)果分析

      由于ROC分析具有錯(cuò)誤代價(jià)不敏感、直觀易懂以及易于理解等特征,自Spackman將ROC曲線引入機(jī)器學(xué)習(xí)來評價(jià)分類算法的性能以來,在沒有特殊業(yè)務(wù)需求的情況下,ROC曲線評估法優(yōu)于準(zhǔn)確度評價(jià)法[15]。用戶登錄行為預(yù)測屬于代價(jià)敏感分類問題,因此,以AUC值和ROC曲線作為模型評估的關(guān)鍵指標(biāo),同時(shí)列出精確度、召回率等指標(biāo)以供參考。隨機(jī)森林、支持向量機(jī)和樸素貝葉斯三個(gè)模型的預(yù)測效果對比情況如表4所示,ROC曲線如圖1所示。

      表4 各模型預(yù)測效果評估指標(biāo)對比

      模型預(yù)測效果評估指標(biāo)對比情況和ROC曲線顯示,隨機(jī)森林模型的AUC值最大,同時(shí)精確度、召回率等指標(biāo)也表現(xiàn)良好,模型的訓(xùn)練速度較快,可解釋性強(qiáng),不存在明顯的過擬合現(xiàn)象,因此選擇隨機(jī)森林模型預(yù)測用戶登錄行為。

      為進(jìn)一步了解哪些用戶特征對用戶登錄行為具有顯著影響,提高企業(yè)對互聯(lián)網(wǎng)資訊用戶行為及畫像的認(rèn)識,運(yùn)用隨機(jī)森林模型對用戶特征的重要性排序,從定量分析的角度得到各特征對用戶登錄行為的影響程度。圖2展示了基于隨機(jī)森林模型預(yù)測結(jié)果得到的特征重要性排序。結(jié)果顯示,用戶登錄時(shí)長、瀏覽文章數(shù)和點(diǎn)擊文章數(shù)三個(gè)連續(xù)變量對用戶登錄行為影響最大,說明用戶登錄行為主要取決于用戶對平臺APP的使用頻率、文章質(zhì)量及瀏覽資訊的數(shù)量。此外,地區(qū)、年齡和用戶在APP中的等級三個(gè)分類變量對用戶登錄行為的影響也較大,說明不同地區(qū)、不同年齡用戶的APP使用行為存在一定差異,企業(yè)在制定運(yùn)營策略時(shí)應(yīng)針對各地區(qū)、各年齡段用戶的不同需求提供差異化服務(wù)。是否為新用戶、性別和使用的手機(jī)系統(tǒng)對用戶登錄行為的影響較低,說明在用戶是否登錄APP這個(gè)維度上,這些特征不具有顯著影響。

      圖2 基于隨機(jī)森林模型的特征重要性排序圖

      五、文章推薦數(shù)據(jù)庫建立

      互聯(lián)網(wǎng)資訊行業(yè)每天都會產(chǎn)生數(shù)以萬計(jì)的文章,目前資訊類企業(yè)會將這些文章全部存儲起來,建立文章數(shù)據(jù)庫,并通過文章推薦系統(tǒng)將合適的文章推送給用戶。隨著時(shí)間的推移,文章數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,存儲和管理成本也逐漸增加,更重要的是由于推薦庫中文章質(zhì)量參差不齊,僅通過推薦系統(tǒng)很難完成優(yōu)質(zhì)文章向用戶的精準(zhǔn)推送。如此往復(fù),用戶對于平臺的粘性和需求將會降低,造成用戶的流失。因此,對于互聯(lián)網(wǎng)資訊企業(yè),有必要建立高質(zhì)量的文章推薦數(shù)據(jù)庫。

      (一)變量選取

      高質(zhì)量文章并沒有統(tǒng)一的界定標(biāo)準(zhǔn),主要是通過個(gè)人的主觀判斷進(jìn)行篩選,不存在可使用的訓(xùn)練數(shù)據(jù)庫,也沒有權(quán)威的判別標(biāo)準(zhǔn)。本文以文章點(diǎn)擊率、文章分享率和文章打賞情況三個(gè)指標(biāo)作為判定優(yōu)秀文章的標(biāo)準(zhǔn),滿足文章點(diǎn)擊率大于10%、文章分享率大于10%和文章是否被打賞中的任意一個(gè)條件,即認(rèn)為該文章為高質(zhì)量文章,以此標(biāo)記自媒體發(fā)布的832 596篇文章。

      首先對文章質(zhì)量進(jìn)行判定并建立文章推薦數(shù)據(jù)庫。結(jié)合互聯(lián)網(wǎng)行業(yè)的特點(diǎn)以及企業(yè)原有的測度指標(biāo),選取文章等級、自媒體等級、自媒體得分、自媒體質(zhì)量、自媒體聲譽(yù)、自媒體產(chǎn)量、自媒體成長值、自媒體關(guān)注度、自媒體入駐狀態(tài)、發(fā)文類型、是否原創(chuàng)、文章領(lǐng)域、自媒體所屬省份作為解釋變量。同時(shí),將分類變量設(shè)置為虛擬變量,各分類變量信息如表5所示。

      表5 分類變量信息

      (二)模型建立和結(jié)果分析

      互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)分析和統(tǒng)計(jì)模型必須能夠適應(yīng)其海量數(shù)據(jù)和快速迭代的要求。借鑒互聯(lián)網(wǎng)數(shù)據(jù)分析從業(yè)人員的實(shí)踐經(jīng)驗(yàn),選用實(shí)際工作中最常用的分類模型Logistic回歸對文章進(jìn)行分類,其中,分類概率的閾值分別設(shè)定為0.5和0.3,模型預(yù)測結(jié)果如表6所示。

      表6 Logistic回歸模型對驗(yàn)證集預(yù)測結(jié)果

      閾值為0.5表示將分類概率在50%及以上的文章判定為高品質(zhì)文章,其余的判定為一般文章。此時(shí),模型對驗(yàn)證數(shù)據(jù)集的預(yù)測結(jié)果較為理想,但優(yōu)秀文章的召回率僅有62%,即38%的優(yōu)質(zhì)文章被模型錯(cuò)判為一般文章,在文章基數(shù)巨大的情況下將導(dǎo)致大量優(yōu)秀文章的丟失。對于資訊類企業(yè)而言,優(yōu)秀文章是基礎(chǔ),即使損失一定的預(yù)測準(zhǔn)確度,也需要提高優(yōu)秀文章的召回率,以保證高品質(zhì)文章的留存率。進(jìn)一步將閾值調(diào)整為0.3,此時(shí)模型預(yù)測結(jié)果顯示,優(yōu)秀文章召回率達(dá)到95%,可保證絕大多數(shù)優(yōu)秀文章被收錄到文章推薦數(shù)據(jù)庫中。

      基于閾值為0.3的Logistic回歸模型,結(jié)合模型各變量參數(shù)[注]由于模型中涉及的變量較多,受限于論文篇幅,詳細(xì)的回歸結(jié)果不做展示。和實(shí)際業(yè)務(wù)情況,分析影響文章分類的因素。在連續(xù)變量中,文章等級、自媒體得分、自媒體等級、自媒體文章產(chǎn)量、自媒體專注程度與優(yōu)秀文章的概率呈顯著的負(fù)相關(guān)關(guān)系,這些看似與文章質(zhì)量呈正相關(guān)關(guān)系的變量卻表現(xiàn)出截然相反的結(jié)果,而且這些論斷的可靠性都在95%以上。原因在于:第一,文章等級越高,說明文章所包含的信息量越大,論點(diǎn)也越深刻,不過,在信息過載的時(shí)代,個(gè)人或系統(tǒng)接受的信息超過了其處理能力,反而導(dǎo)致其決策質(zhì)量下降,這種傳統(tǒng)意義上需要大量時(shí)間“細(xì)細(xì)品味”的“優(yōu)秀文章”反而很難獲得用戶的點(diǎn)擊和閱讀;第二,測度自媒體得分的維度(自媒體等級、質(zhì)量、成長值和專注度等)多與優(yōu)秀文章概率呈負(fù)相關(guān),導(dǎo)致目前自媒體的綜合評分機(jī)制無法有效反映其生產(chǎn)的文章質(zhì)量;第三,等級越高的自媒體所生產(chǎn)的文章是優(yōu)秀文章的概率越低,說明等級越高的自媒體缺乏生產(chǎn)高質(zhì)量文章的動(dòng)力,而低等級自媒體希望能夠提升等級以獲得平臺更多的補(bǔ)助,故其生產(chǎn)的文章質(zhì)量更高;第四,自媒體的產(chǎn)量與其生產(chǎn)文章的質(zhì)量成反比,優(yōu)質(zhì)文章的撰寫需要消耗更多的時(shí)間,對于自媒體而言,產(chǎn)量和質(zhì)量很難兩全,企業(yè)需要設(shè)定一個(gè)合理的標(biāo)準(zhǔn),以權(quán)衡產(chǎn)量和質(zhì)量這兩個(gè)維度,保證企業(yè)效益的最大化;第五,自媒體專注度能夠反映自媒體發(fā)文領(lǐng)域的復(fù)雜程度,專注度越高說明自媒體發(fā)文的領(lǐng)域越單一,這樣的文章無法包含多元化的要素,獲得的用戶關(guān)注度較少。

      連續(xù)變量中的自媒體質(zhì)量、人氣和成長值與優(yōu)秀文章的概率呈顯著的正相關(guān)關(guān)系,應(yīng)將其保留在自媒體評分體系中。自媒體質(zhì)量是各方面情況的綜合表現(xiàn),自媒體本身的水平越高,其撰寫的文章品質(zhì)也越高;人氣越高的自媒體,說明關(guān)注點(diǎn)擊這些自媒體文章的人越多,對應(yīng)的文章也就越可能判定為優(yōu)秀文章;自媒體成長指數(shù)越高,說明自媒體越具有成長潛力。

      分類變量包括發(fā)文類型、是否原創(chuàng)、自媒體領(lǐng)域和自媒體所屬省份。對于發(fā)文類型變量,以手工發(fā)文為基準(zhǔn)類,自動(dòng)同步和RSS發(fā)文系數(shù)顯著為負(fù),表明手工方式發(fā)布的文章品質(zhì)要好于自動(dòng)同步的文章,后者則好于RSS同步的文章,平臺需要鼓勵(lì)自媒體手工發(fā)文,這樣的文章質(zhì)量更優(yōu),用戶的點(diǎn)擊率相對較高。對于文章是否原創(chuàng)變量,以非原創(chuàng)為基準(zhǔn)類,結(jié)果表明獨(dú)家新聞的文章質(zhì)量好于原創(chuàng)新聞,原創(chuàng)新聞好于非原創(chuàng)新聞,說明用戶更愿意閱讀獨(dú)家和原創(chuàng)類新聞,這樣的文章具有獨(dú)特的視角,而非原創(chuàng)新聞可以在其他渠道獲得,其對平臺的貢獻(xiàn)遠(yuǎn)小于獨(dú)家和原創(chuàng)類新聞。對于自媒體所屬領(lǐng)域變量,以休閑為基準(zhǔn)類,其中,只有宗教類自媒體系數(shù)為正,但是未通過顯著性檢驗(yàn),其他領(lǐng)域的系數(shù)均顯著為負(fù);得分較高的領(lǐng)域包括休閑、文化、搞笑、職場、動(dòng)漫以及情感等,這些領(lǐng)域的受眾相對較廣,迎合了比重較大用戶的需求,此外,這些文章的閱讀門檻較低,并不需要花費(fèi)用戶過多的時(shí)間和精力,用戶點(diǎn)擊行為的比例較高;得分相對較低的領(lǐng)域包括時(shí)政、移民、傳媒以及房產(chǎn)等,這些領(lǐng)域更多的是針對有相應(yīng)需求的特定人群,群體規(guī)模較小,同時(shí)這類文章包含更多的專業(yè)性知識,因此入選優(yōu)秀文章的比例低于其他領(lǐng)域。對于自媒體所屬省份變量,除云南、貴州、澳門和香港外均是顯著為正的,不過,并未呈現(xiàn)明顯的規(guī)律性,無法得到有效信息,一方面是因?yàn)樗鶎偈》輸?shù)據(jù)缺少嚴(yán)格審查,另一方面也反映出自媒體所屬省份與其撰寫的文章質(zhì)量并沒有直接關(guān)系。

      六、主要結(jié)論與參考建議

      聚合信息客戶端以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),整合分散的新聞信息,再以個(gè)人信息化定制的方式推送給用戶,滿足不同用戶個(gè)性化的新聞咨詢需求,目前市場上較為成熟的產(chǎn)品包括今日頭條、一點(diǎn)資訊、天天快報(bào)等。對于該類聚合信息客戶端企業(yè),一方面要重點(diǎn)關(guān)注用戶登錄行為,以提高用戶登錄比;另一方面要建立優(yōu)質(zhì)文章推薦數(shù)據(jù)庫,以提高用戶對于平臺的粘性和忠誠度。因此,基于聚合信息企業(yè)的實(shí)際運(yùn)營數(shù)據(jù),綜合考慮機(jī)器學(xué)習(xí)算法特點(diǎn)和企業(yè)實(shí)際業(yè)務(wù)需求,圍繞用戶登錄行為和文章推薦數(shù)據(jù)庫建立,本文探討了數(shù)據(jù)挖掘算法在聚合信息客戶端中的應(yīng)用,歸納提煉常用機(jī)器學(xué)習(xí)算法在聚合信息客戶端數(shù)據(jù)挖掘中的選擇標(biāo)準(zhǔn),總結(jié)影響聚合信息客戶端用戶登錄行為和文章推薦數(shù)據(jù)庫建立的因素,這些具有實(shí)際意義。

      (一)主要結(jié)論

      1.常用機(jī)器學(xué)習(xí)算法在聚合信息客戶端數(shù)據(jù)挖掘中的選擇標(biāo)準(zhǔn)。常用的機(jī)器學(xué)習(xí)算法包括隨機(jī)森林、Logistic回歸、樸素貝葉斯和支持向量機(jī)等,在不同的應(yīng)用中,各類算法的優(yōu)勢和不足均存在差異。聚合信息企業(yè)實(shí)際運(yùn)營數(shù)據(jù)的最顯著特征是數(shù)據(jù)規(guī)模大,普遍在GB甚至TB級別以上,且對于聚合信息企業(yè)而言,考慮成本和時(shí)效性,模型的處理效率甚至比預(yù)測的準(zhǔn)確度更為重要。對比不同模型的運(yùn)行過程和預(yù)測效果,隨機(jī)森林和Logistic回歸的綜合表現(xiàn)最好,在分類預(yù)測準(zhǔn)確度和運(yùn)行速度等方面均優(yōu)于樸素貝葉斯和支持向量機(jī),且支持向量機(jī)等模型對設(shè)備的要求過高,耗時(shí)更長,導(dǎo)致分析成本過高,得到的結(jié)論可能由于時(shí)效性的問題失去實(shí)際價(jià)值。此外,要從業(yè)務(wù)目的出發(fā)選擇具體的算法評判標(biāo)準(zhǔn),對于聚合信息客戶端企業(yè)來說,用戶登錄行為研究的主要目的是綜合衡量模型的預(yù)測效果,需使用ROC曲線來全面反映模型的預(yù)測效果。優(yōu)秀文章數(shù)據(jù)庫建立的主要目的是在保證優(yōu)秀文章不被錯(cuò)判的基礎(chǔ)上縮小文章推薦數(shù)據(jù)庫的規(guī)模,需重點(diǎn)關(guān)注召回率以保證優(yōu)秀文章不被錯(cuò)判。

      2.影響聚合信息客戶端用戶登錄行為和文章推薦數(shù)據(jù)庫建立的因素?;陔S機(jī)森林算法預(yù)測用戶登錄行為,對于聚合信息客戶端來說,用戶對平臺的使用頻率和依賴度是決定其登錄行為的最主要因素,具體來說,登陸時(shí)長、瀏覽文章和點(diǎn)擊文章次數(shù)對用戶登錄概率具有正向影響,且不同地區(qū)和年齡的用戶登錄行為存在明顯差異?;贚ogistic回歸模型判定優(yōu)秀文章,各類文章基本信息和自媒體屬性均對文章分類有顯著影響,其中,文章等級與文章分類呈負(fù)相關(guān)關(guān)系,需要大量時(shí)間“細(xì)細(xì)品味”的“優(yōu)秀文章”無法獲得用戶的青睞。自媒體產(chǎn)量與其生產(chǎn)文章的質(zhì)量成反比,優(yōu)質(zhì)文章撰寫需要消耗更多的時(shí)間,對于聚合信息客戶端而言,產(chǎn)量和質(zhì)量很難兩全。自媒體專注度與文章質(zhì)量呈負(fù)相關(guān)關(guān)系,自媒體專注度越高其發(fā)文的領(lǐng)域越單一,這些文章無法包含多元化要素,獲得的用戶關(guān)注度較少。此外,發(fā)文類型、是否原創(chuàng)、自媒體領(lǐng)域和自媒體省份四個(gè)分類變量各水平之間都存在顯著差異,均會影響用戶對文章的青睞程度。對于聚合信息企業(yè)來說,基于文章質(zhì)量的判定,建立文章推薦數(shù)據(jù)庫,既可以實(shí)現(xiàn)優(yōu)質(zhì)文章向用戶的精準(zhǔn)推送,又能夠有效控制文章存儲和管理成本。

      (二)參考建議

      針對研究結(jié)果,為提高聚合信息企業(yè)運(yùn)行效率,促進(jìn)新聞資訊行業(yè)的信息化發(fā)展,提出如下建議:

      第一,注重前期數(shù)據(jù)清理,從業(yè)務(wù)角度進(jìn)行變量篩選。聚合信息企業(yè)的數(shù)據(jù)普遍在GB甚至TB級別以上,很難對這些數(shù)據(jù)直接進(jìn)行統(tǒng)計(jì)建模。因此,針對大數(shù)據(jù)進(jìn)行業(yè)務(wù)分析,應(yīng)充分重視數(shù)據(jù)的前期清理,分析業(yè)務(wù)問題時(shí)不僅要關(guān)注用統(tǒng)計(jì)方法篩選變量,更要能夠從聚合信息企業(yè)實(shí)際業(yè)務(wù)的角度出發(fā),剔除與業(yè)務(wù)分析目標(biāo)無關(guān)的噪聲變量。具體來講,聚合信息企業(yè)在解決實(shí)際問題時(shí),應(yīng)該將80%左右的精力投入到分析問題和篩選特征上,以保證后期模型預(yù)測的準(zhǔn)確性,提高聚合信息企業(yè)處理問題的效率。

      第二,增加對平臺粘性用戶的登錄提醒,對不同用戶采取差異化策略。聚合類信息客戶端用戶的登錄行為遠(yuǎn)少于社交和游戲類客戶端,提高用戶的登錄比率對聚合信息企業(yè)的長期發(fā)展以及為用戶提供差異化服務(wù)至關(guān)重要。本研究表明,對平臺依賴性較強(qiáng)的用戶更愿意選擇登錄,聚合信息企業(yè)可以根據(jù)其獲得的用戶行為數(shù)據(jù)建立隨機(jī)森林等分類模型預(yù)測用戶登錄行為,并通過彈窗等方式提示潛在的用戶注冊和登錄。此外,不同類型用戶的登錄行為存在顯著的差異,需要對不同類別的用戶提供個(gè)性化服務(wù)和差異化運(yùn)營策略。

      第三,定期更新文章等級評價(jià)標(biāo)準(zhǔn),增加優(yōu)秀自媒體的文章產(chǎn)量。傳統(tǒng)意義上的優(yōu)秀文章不符合信息快速消費(fèi)時(shí)代的用戶需求,聚合信息企業(yè)應(yīng)當(dāng)根據(jù)用戶習(xí)慣的變化,不斷更新文章等級的評判標(biāo)準(zhǔn)。此外,聚合信息企業(yè)應(yīng)根據(jù)業(yè)務(wù)情況,使用合適的統(tǒng)計(jì)模型篩選具有較高潛力的自媒體,并采取相應(yīng)措施鼓勵(lì)其多發(fā)表優(yōu)秀文章。

      猜你喜歡
      客戶端變量預(yù)測
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      抓住不變量解題
      也談分離變量
      縣級臺在突發(fā)事件報(bào)道中如何應(yīng)用手機(jī)客戶端
      傳媒評論(2018年4期)2018-06-27 08:20:24
      孵化垂直頻道:新聞客戶端新策略
      傳媒評論(2018年4期)2018-06-27 08:20:16
      基于Vanconnect的智能家居瘦客戶端的設(shè)計(jì)與實(shí)現(xiàn)
      電子測試(2018年10期)2018-06-26 05:53:34
      不必預(yù)測未來,只需把握現(xiàn)在
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      浦北县| 临夏市| 乐平市| 美姑县| 襄汾县| 翁牛特旗| 永嘉县| 苍山县| 高要市| 咸阳市| 修文县| 德清县| 陈巴尔虎旗| 资溪县| 甘孜| 保定市| 六枝特区| 陵川县| 西贡区| 庐江县| 镇远县| 社会| 固安县| 安新县| 孟州市| 西平县| 砚山县| 都昌县| 聂拉木县| 万荣县| 绥宁县| 湘潭县| 四川省| 博白县| 翁牛特旗| 梨树县| 伊宁县| 滨州市| 秭归县| 遵义县| 广德县|