渠北浚,白 宇,蔡東風(fēng),陳建軍
(1. 沈陽航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽 110136;2. 北軟職業(yè)信息技術(shù)學(xué)院,遼寧 沈陽 110136)
21世紀(jì)是信息爆炸的時代,人們獲取信息的方式也發(fā)生了巨大的變革,門戶網(wǎng)站和社交媒體中的文章已經(jīng)成為了人們獲取信息的重要來源。根據(jù)《中國互聯(lián)網(wǎng)發(fā)展報告》的報道,截止2018年12月,手機(jī)網(wǎng)民規(guī)模達(dá)到8.17億,全年新增手機(jī)網(wǎng)民6 433萬;手機(jī)即時通信用戶達(dá)7.80億,占手機(jī)網(wǎng)民的95.5%。微信作為具有代表性的新興即時通信應(yīng)用之一,成為了移動互聯(lián)網(wǎng)時代信息獲取的主要源頭。微信是騰訊公司2011年1月21日推出的一款即時通訊應(yīng)用程序,允許用戶通過網(wǎng)絡(luò)對文字、語音、圖片、視頻等形式的信息進(jìn)行快速分享。2012年8月23日,隨著微信公眾平臺的正式上線,微信已不僅是一個移動通訊工具,而是成為了人們?nèi)粘I钪蝎@取新聞、資訊、觀點(diǎn)等信息的主要來源。截止2018年12月,月活躍用戶已經(jīng)達(dá)到了10.82億,較2017年增長了19%。在微信開放平臺中,微信公眾號注冊總量已經(jīng)超過了2 000萬個,月活躍賬號為350萬個,同比增長14%;月活躍粉絲數(shù)為7.97億人,同比增長19%[1]。
微信公眾號是由人工整理的有序的文章集合,涵蓋了人們?nèi)粘I钪械母鱾€領(lǐng)域,且具有“小而美”的體態(tài)[2]和精準(zhǔn)轉(zhuǎn)播的特點(diǎn)。然而同一領(lǐng)域涉及的微信公眾號數(shù)量大、質(zhì)量參差不齊等問題給用戶選擇和維護(hù)信息來源帶來困難。如何選擇能夠?yàn)樽约簞?chuàng)造價值,滿足對信息獲取的便捷性和及時性的優(yōu)質(zhì)微信公眾號對用戶來說是非常關(guān)鍵的。針對這一問題,現(xiàn)有的公眾號排序方法主要是對總閱讀數(shù)、總點(diǎn)贊數(shù)等量化指標(biāo)進(jìn)行人工經(jīng)驗(yàn)賦權(quán)得到排序結(jié)果,但是忽略了文章內(nèi)容對公眾號選擇的影響。本文在保留量化指標(biāo)的基礎(chǔ)上,提出了主題垂直性、發(fā)文穩(wěn)定性、主題覆蓋率和主題相關(guān)性等微信篇章排序特征,使用LambdaMART算法針對上述特征集合進(jìn)行排序?qū)W習(xí),并通過主成分分析進(jìn)行特征選擇優(yōu)化。
自2013年開始,針對微信公眾號質(zhì)量評價指標(biāo)的研究已深入到圖書館學(xué)、新聞轉(zhuǎn)播學(xué)等多個學(xué)科領(lǐng)域。冀芳、張夏恒[3]在分析微信學(xué)術(shù)期刊類公眾號評價影響要素基礎(chǔ)上,人工對評價指標(biāo)賦權(quán),然后基于評價指標(biāo)與指標(biāo)權(quán)重系數(shù),構(gòu)建學(xué)術(shù)期刊微信公眾號評價模型。郭順利等[4]結(jié)合高校圖書館微信公眾平臺特點(diǎn),運(yùn)用扎根理論,構(gòu)建圖書館微信公眾平臺傳播影響力評價指標(biāo)體系,并運(yùn)用層次分析法確定指標(biāo)權(quán)重,最終確立影響力評價公式。李明德、高如[5]運(yùn)用層次分析法構(gòu)建媒體微信公眾號傳播力評價體系,通過Delphi法構(gòu)造判斷矩陣,確定指標(biāo)權(quán)重,對媒體微信公眾號進(jìn)行整體評價。張艷萍[6]采用文獻(xiàn)研究法,并結(jié)合定性和定量分析,分析微信公眾號樣本數(shù)據(jù),尋找運(yùn)營微信公眾號規(guī)律,最終從跨學(xué)科視角,提出科技期刊微信公眾號運(yùn)營策略。黃煒等[7]通過對微信公眾號指標(biāo)體系評價的構(gòu)建進(jìn)行了研究,選取關(guān)鍵影響指標(biāo)構(gòu)建指標(biāo)體系,并用德爾菲專家法、層次分析法、模糊綜合評價法計算權(quán)重研究合理的評估方法。吳中堂等[8]通過對微信公眾號關(guān)鍵詞熱度和標(biāo)題語義分析兩個維度進(jìn)行回歸分析,揭示兩個維度下量化指標(biāo)與信息閱讀率正負(fù)相關(guān)性,以及信息閱讀率與轉(zhuǎn)發(fā)收藏率的數(shù)量關(guān)系。顏月明、趙捧未[9]通過對H指數(shù)的借鑒,及擴(kuò)展指標(biāo)R指數(shù),并綜合考慮點(diǎn)贊量和閱讀量構(gòu)建 WeChatIndex 模型,形成一種微信公眾號真實(shí)影響力評估方法,并與現(xiàn)有模型進(jìn)行對比。一些新聞研究者、自媒體也推出微信公眾號排序算法。清博大數(shù)據(jù)[10]通過“整體傳播力”“篇均傳播力”“頭條傳播力”“峰值傳播力”四個維度對微信公眾號進(jìn)行評價,并且根據(jù)歷史數(shù)據(jù)優(yōu)化指標(biāo)權(quán)重。新榜指數(shù)[11]基于海量數(shù)據(jù)、用戶深度反饋及專家建議而推出,根據(jù)整體指標(biāo)、優(yōu)異指標(biāo)、質(zhì)量指標(biāo)、主動預(yù)判指標(biāo)、互動指標(biāo)對微信公眾號進(jìn)行評估排序。
上述研究方法存在的主要問題表現(xiàn)在評價指標(biāo)不全面、不深入,權(quán)值選擇帶有經(jīng)驗(yàn)性傾向,以偏概全。本文的研究方法是在針對微信公眾號基于外部統(tǒng)計數(shù)據(jù),例如,閱讀量、點(diǎn)贊量等量化數(shù)據(jù)的基礎(chǔ)上,對內(nèi)容進(jìn)行分析,進(jìn)一步考察微信公眾號主題垂直性、發(fā)文穩(wěn)定性、主題覆蓋率、主題相關(guān)性。針對這些特征通過主成分分析去除冗余性,保留重要特征,通過排序?qū)W習(xí)算法,自動學(xué)習(xí)獲取最合理的排序公式,并給出最終排序結(jié)果。
排序?qū)W習(xí)(learning to rank)通過機(jī)器學(xué)習(xí)的方法解決排序問題,并且已廣泛應(yīng)用于不同的領(lǐng)域[12-13]。傳統(tǒng)排序模型需要人工對每個特征參數(shù)進(jìn)行調(diào)節(jié),排序?qū)W習(xí)方法可以輕松地融合多個特征,其模型參數(shù)是由迭代得出,并且針對特征值稀疏,過擬合問題都有很好的解決策略。
如圖1所示,在微信公眾號排序任務(wù)中,對給定的查詢,對應(yīng)著許多個公眾號,每個公眾號都與給定的查詢有一個相關(guān)程度的數(shù)值y。每個公眾號都由若干特征構(gòu)成。在確定了特征數(shù)量后,即可將每一個公眾號轉(zhuǎn)換為特征向量X,這樣每個微信公眾號會轉(zhuǎn)換為
圖1 排序?qū)W習(xí)原理
從目前研究方法來說,排序?qū)W習(xí)[13]有三種方法: Pointwise、Pairwise和Listwise。前兩種方法是將排序問題變成分類問題,Listwise方法則是將用戶查詢對應(yīng)的所有文檔整體作為一個訓(xùn)練實(shí)例,每個文檔都有一個相關(guān)性得分,通過訓(xùn)練得到最優(yōu)評分函數(shù),函數(shù)對于新輸入文檔打分,最終按照得分高低進(jìn)行排序即為最終結(jié)果。在排序?qū)W習(xí)模型研究中,LambdaMART是一種Listwise類型的排序?qū)W習(xí)算法,它是由微軟的C Burges[14]提出,并且出現(xiàn)在各種機(jī)器學(xué)習(xí)大賽中。針對微信公眾號打分,大部分是通過對每一維特征指定權(quán)重求和打分,所以本文選擇LambdaMART算法進(jìn)行實(shí)驗(yàn),該方法把量化后文檔特征加入到打分函數(shù),自動學(xué)習(xí)特征權(quán)值,實(shí)現(xiàn)對特征的加權(quán)。
LambdaMART算法是LambdaRank[15]和MART[16]的結(jié)合。MART是一種迭代的決策樹算法,該算法由多個決策樹所組成,所有樹的結(jié)論累加起來做最后的結(jié)果。LambdaRank中的Lambda是在MART算法中間計算的梯度,代表了下一次迭代排序優(yōu)化的方向和強(qiáng)度。下面簡單介紹一下LambdaMART的每一步工作。
① 遍歷所有訓(xùn)練數(shù)據(jù),計算相同查詢下不同標(biāo)簽的文檔對互換位置后ndcg變化δNDCG(i,j)和梯度λij,如式(1)、式(2)所示。
δNDCG(i,j)=|ndcg(orginal sequence)
-ndcg(swap(i,j)sequence)|
(1)
(2)
其中,ndcg(orginal sequence)表示初始狀態(tài)下文檔排序的ndcg值,ndcg(swap(i,j) sequence)表示將i和j位置的文檔互換后新的排序的ndcg值。si,sj表示文檔i和j的預(yù)測得分,初始值都為0。其中ndcg是一個常用的評價指標(biāo),代表一個排序結(jié)果的好壞。
(3)
其中,li代表每一篇文檔的label值,dcg代表當(dāng)前排序下的dcg值,maxdcg代表理想排序下的dcg值。然后計算每篇文檔的λi值,如式(4)所示,再計算每個λi的對于預(yù)測得分si導(dǎo)數(shù)wi。
(4)
② 用最小均方誤差劃分樹節(jié)點(diǎn),生成葉子節(jié)點(diǎn)數(shù)為L的回歸樹,創(chuàng)建回歸樹擬合第一步生成的所有λi。
③ 用牛頓法計算第二步生成的決策樹的每個葉子節(jié)點(diǎn)的預(yù)測值,如式(5)所示。
(5)
其中,γlm代表第m棵樹的第l個葉子的值。
④ 將學(xué)習(xí)到的回歸樹加入模型中更新,并且用學(xué)習(xí)率更新原預(yù)測結(jié)果。
特征是機(jī)器學(xué)習(xí)重要部分,特征即是打分的依據(jù)。特征的選取也關(guān)系著機(jī)器學(xué)習(xí)訓(xùn)練得到的模型的好壞。本文針對微信公眾號特征分為兩大類。第一類,基于外部統(tǒng)計數(shù)據(jù)。主要有閱讀量、點(diǎn)贊量等數(shù)據(jù),這些可以通過查看微信公眾號文章獲取;還有一些不可見數(shù)據(jù),例如,粉絲量、用戶活躍度等,這些只能是公眾號擁有者在微信后臺才能查詢的指標(biāo)體系,所以在這里不予考慮。第二類,基于內(nèi)容分析。基于微信文章內(nèi)容進(jìn)行關(guān)鍵詞抽取,考察單一公眾號的主題覆蓋率;根據(jù)BM25求得公眾號內(nèi)微信文章主題相關(guān)性指標(biāo),考察單一公眾號關(guān)鍵詞發(fā)散程度。
經(jīng)過對微信公眾號的綜合分析,充分考慮各特征值的全面性、代表性,得到了17個特征。前13個特征能夠直接由微信公眾號數(shù)值數(shù)據(jù)計算得來,后4個特征通過對發(fā)文頻率以及微信文章內(nèi)容分析得到,如表1所示。
目前,對于微信公眾號評價指標(biāo)或者影響力的研究,以及當(dāng)前互聯(lián)網(wǎng)上針對微信公眾號推出的排名大多選取的是總閱讀數(shù)、總點(diǎn)贊數(shù)、頭條總閱讀數(shù)、最高閱讀數(shù)、日均閱讀數(shù)等指標(biāo)來對微信公眾號進(jìn)行估算,本文針對微信公眾號文章內(nèi)容,提出了4個新的特征。
(1)主題垂直性一般來說,用戶關(guān)注的公眾號很多,但只會選擇需要的公眾號閱讀。主題垂直性指某個公眾號只聚焦某領(lǐng)域, 并且提供該領(lǐng)域深度的信息以及服務(wù)滿足用戶的需求。本文通過計算公眾號某主題的月平均發(fā)布的文章數(shù)與公眾號月發(fā)文數(shù)的比值衡量主題垂直性ver,如式(6)所示。
表1 特征值及其含義
(6)
例如,根據(jù)“云計算”、“人工智能”查詢到相關(guān)公眾號如表2所示。雖然A1月發(fā)文數(shù)比A2要多,但是與“云計算”相關(guān)的文章數(shù)A2要比A1多,所以A2垂直性要比A1好。同理,在“人工智能”相關(guān)公眾號下,雖然B2主題相關(guān)發(fā)文數(shù)沒有B1多,但是在月發(fā)文數(shù)的基礎(chǔ)上,前者有一半以上與“人工智能”相關(guān),所以B2垂直性要比B1好。
表2 垂直性樣例
(2)發(fā)文穩(wěn)定性一個優(yōu)質(zhì)的微信公眾號體現(xiàn)在能夠按時推送文章給用戶。為了比較每個公眾號的發(fā)文穩(wěn)定性,統(tǒng)計公眾號每個月內(nèi)的發(fā)文數(shù)量pi,計算該微信公眾號的變異系數(shù)cv。變異系數(shù)就是原始數(shù)據(jù)標(biāo)準(zhǔn)差與原始數(shù)據(jù)平均值的比。變異系數(shù)能夠兼顧變量值離散程度的影響還有變量值平均水平的影響,如式(7)所示。
(7)
該特征能夠體現(xiàn)出微信公眾號發(fā)文頻率以及發(fā)文量的好壞程度。本文對所有微信公眾號的變異系數(shù)進(jìn)行排序,選取了前15個與后15個公眾號,根據(jù)每個公眾號每個月發(fā)文數(shù)量的標(biāo)準(zhǔn)差和平均值繪制了散點(diǎn)圖,如圖2所示。變異系數(shù)可以看作是某一點(diǎn)的斜率,數(shù)據(jù)的標(biāo)準(zhǔn)差越小,平均值越大,說明變異系數(shù)越小,則證明文章的穩(wěn)定性越好。從圖2可以看出公眾號a2比公眾號a1穩(wěn)定性要好。
圖2 微信公眾號散點(diǎn)圖
(3)主題覆蓋率基于關(guān)鍵詞得到微信文章,我們可以認(rèn)為該關(guān)鍵詞是該文章的主題。對關(guān)鍵詞進(jìn)行相似度擴(kuò)展,如果擴(kuò)展后的關(guān)鍵詞有一部分存在于微信文章中,那么就可以得到該微信公眾號的主題覆蓋率cov。通過該特征可以體現(xiàn)出該微信公眾號對全局關(guān)鍵詞的覆蓋程度,如式(8)所示。
(8)
中文維基百科覆蓋度廣,并且具有很好的語義信息,因此本文基于中文維基百科語料作為外部語料訓(xùn)練Word2Vec詞向量,然后通過詞向量進(jìn)行關(guān)鍵詞擴(kuò)展。
例如,“區(qū)塊鏈”擴(kuò)展關(guān)鍵詞以及公眾號涉及關(guān)鍵詞,如表3所示,從表中可以看出公眾號b涉及主題范圍更廣,說明該公眾號能給用戶提供更豐富的信息。
表3 主題覆蓋率樣例
(4)主題相關(guān)性計算關(guān)鍵詞與微信文章之間的相關(guān)性也是篩選優(yōu)質(zhì)微信公眾號的條件之一。BM25[17]是一種用來評價查詢與文檔之間的相關(guān)性的算法。本文通過計算關(guān)鍵詞中每個關(guān)鍵詞與微信公眾號每篇文章的相關(guān)性分值,然后將每個關(guān)鍵詞相對于微信文章的相關(guān)性分值進(jìn)行加權(quán)求和從而得到關(guān)鍵詞集合與文章的分值Score_article(Q,d),最后再將公眾號中所有文章的得分取平均最終得到主題與微信公眾號的相關(guān)性得分rel,如式(8)、式(9)所示。
式(8)中Wi代表關(guān)鍵詞集合中每個關(guān)鍵詞的權(quán)重,R(qi,d)表示每一個關(guān)鍵詞與微信文章的相關(guān)性得分。
不同特征之間具有不同的量綱和量綱單位,這種情況會影響到數(shù)據(jù)分析的結(jié)果,如果特征不進(jìn)行歸一化,訓(xùn)練模型就會增加更多的時間來尋找最優(yōu)值。對每個特征進(jìn)行歸一化處理后,可以加速訓(xùn)練,也使得最終權(quán)重控制在一定范圍內(nèi)。
本文將采用min-max標(biāo)準(zhǔn)化,對原始數(shù)據(jù)進(jìn)行線性變換,將數(shù)據(jù)映射到[0,1]區(qū)間,如式(10)所示。
(10)
實(shí)驗(yàn)中,本文采用開源工具包Ranklib[17]。Ranklib是一套排序?qū)W習(xí)領(lǐng)域的開源實(shí)現(xiàn)。
本文數(shù)據(jù)是根據(jù)清博大數(shù)據(jù)網(wǎng)站提供的微信文章采集工具收集而來,以云計算等8個關(guān)鍵詞,采集自2018年3月1日至2018年5月31日共235 622篇文章,涉及53 768個微信公眾號。通過對數(shù)據(jù)的觀察,發(fā)現(xiàn)了一些噪聲數(shù)據(jù)。對數(shù)據(jù)中內(nèi)容為空的文章和只發(fā)過一次的公眾號進(jìn)行過濾。圖3為實(shí)驗(yàn)數(shù)據(jù)分布圖。
圖3 微信公眾號分布
對于一個查詢,包含多個微信公眾號,每個公眾號都會對信息進(jìn)行編輯加工,形成消息推送給用戶。我們需要給每一個公眾號標(biāo)注一個label來反映查詢與公眾號相關(guān)性程度。本文采用人工標(biāo)記法來對公眾號進(jìn)行標(biāo)注。本文標(biāo)注相關(guān)程度分為3檔: label2、label1、label0。標(biāo)注原則如下,熱門性: 觀察文章的閱讀量、點(diǎn)贊量等數(shù)量;關(guān)鍵詞匹配程度: 觀察公眾號發(fā)文與關(guān)鍵詞相關(guān)性;發(fā)文頻率: 觀察公眾號每月發(fā)文情況。對微信公眾號進(jìn)行標(biāo)注,label2為相關(guān)、label1為一般相關(guān)、label0為不相關(guān)。根據(jù)標(biāo)注原則對微信公眾號進(jìn)行人工標(biāo)記,并根據(jù)2.2節(jié)的特征選取對語料進(jìn)行處理,訓(xùn)練數(shù)據(jù)如表4所示。
表4 訓(xùn)練數(shù)據(jù)及l(fā)abel分布
由于特征之間存在相關(guān)性,例如,Rp(篇均閱讀數(shù))是R(總閱讀數(shù))/P(總發(fā)文量)得到的,這會導(dǎo)致信息重疊與低效,即所謂的特征冗余。主成分分析[19]是最常用的一種降維方法,旨在利用降維思想,把多個特征轉(zhuǎn)化為少數(shù)幾個綜合特征,來消除特征之間的冗余性。它把一組相關(guān)特征向量通過線性變換轉(zhuǎn)換為一組不相關(guān)向量,保持總體方差不變,新變量按照方差遞減順序排列,第一變量具有最大方差,成為第一主成分,依次類推。通過主成分分析,計算原始數(shù)據(jù)協(xié)方差矩陣的特征值,特征值越大,方差越大,對應(yīng)的特征向量包含的信息量就越大,最后保留最重要的k個特征值,對應(yīng)的特征向量與原數(shù)據(jù)特征矩陣相乘得到新的特征矩陣。
圖4給出了變換后的17個主成分占總方差百分比。可以看出99%的方差都包含在前11個主成分中,舍棄后面的主成分并不會損失太多的信息。
圖4 主成分占方差百分比
本文用NDCG評價指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評估。
實(shí)驗(yàn)一通過對比pairwise方法RankSVM、RankNet和listwise方法ListNet、ListMLE方法,結(jié)果如圖5所示。結(jié)果顯示LambdaMART算法的表現(xiàn)優(yōu)于其他4種算法。因?yàn)閜airwise算法只考慮了兩個文檔之間的關(guān)系,忽略了每個文檔對整體順序影響。所以微信公眾號排序更適用于listwise類的LambdaMART算法。
圖5 LambdaMART與四種算法對比
實(shí)驗(yàn)二通過對8組訓(xùn)練數(shù)據(jù)的單一特征值對公眾號進(jìn)行排序、根據(jù)清博指數(shù)和新榜指數(shù)算法對公眾號進(jìn)行排序以及LambdaMART算法得到的公眾號排序結(jié)果的平均NDCG值進(jìn)行比較。清博指數(shù)以及新榜指數(shù)算法如表5、表6所示。實(shí)驗(yàn)結(jié)果如表7所示。
表5 清博指數(shù)算法
表6 新榜指數(shù)算法
表7 實(shí)驗(yàn)二 清博、新榜指數(shù)算法
通過對比單一特征對公眾號進(jìn)行排序的評價結(jié)果與基于LambdaMART算法的排序評價結(jié)果可知,單一特征排序的評價結(jié)果普遍較低,原因是只有一維特征不能夠完全代表公眾號特征,必須對多個因素進(jìn)行綜合考慮才能較為合理地度量公眾號的優(yōu)異程度。
與WCI和NRI算法對比可知,這兩種算法只利用了當(dāng)前可獲取的量化數(shù)據(jù)如閱讀數(shù)、點(diǎn)贊數(shù)等對公眾號進(jìn)行綜合考慮,而沒有通過微信文章內(nèi)容對公眾號進(jìn)行分析,忽略了文章主題因素對公眾號的影響。本文通過增加主題垂直性、發(fā)文穩(wěn)定性、主題覆蓋率、主題相關(guān)性等4個指標(biāo)特征,考慮了主題的豐富度對微信公眾號評價的影響,彌補(bǔ)了上述兩種方法的缺陷,尋找出了更深層次的指標(biāo)特征。
實(shí)驗(yàn)三根據(jù)LambdaMART算法分別針對17維特征,WCI算法涉及特征,NRI算法涉及特征以及經(jīng)過主成分分析降維后特征進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 實(shí)驗(yàn)三 LambdaMART不同特征輸入
從圖6中可以發(fā)現(xiàn),以WCI算法涉及的特征與NRI算法涉及特征作為LambdaMART算法的輸入,評價結(jié)果比原WCI和NRI算法結(jié)果提高了很多,但是仍然比17維特征下的LambdaMART算法評價結(jié)果低,因?yàn)榛贚ambdaMART的排序算法不需要對特征值進(jìn)行人工賦予權(quán)值,減少人的主觀臆斷。并且在通過主成分分析后,NDCG值也有所提升,在主成分分析之后消除了個別特征值之間的冗余性,使得每個主成分之間相關(guān)性最小。
圖7 實(shí)驗(yàn)四 4個新特征指標(biāo)對模型的影響
圖7中,feature-1代表4個特征中有任意一個存在于訓(xùn)練數(shù)據(jù)中,feature-2代表4個特征中有任意兩個存在于訓(xùn)練數(shù)據(jù)中,依次類推。在實(shí)驗(yàn)三中,當(dāng)只有原始13維特征時的ndcg@10值為0.543 7,從圖7中可以看出,當(dāng)新提出的特征在選取不同個數(shù)的情況時的平均值都比只有原始13維特征的情況下高,并且當(dāng)4個特征都存在的情況下ndcg@10值達(dá)到0.617 4。從圖8中可以看出,隨著新提出的特征個數(shù)不斷增加,實(shí)驗(yàn)結(jié)果也有不同的提升。最終結(jié)果證明了本文提出的4個特征能夠?qū)娞柕淖罱K排序結(jié)果都有明顯的提升。
圖8 實(shí)驗(yàn)四 特征選取對實(shí)驗(yàn)的影響
本文針對微信文章及微信公眾號的特點(diǎn),選取了指定的特征,通過排序?qū)W習(xí)算法,自動學(xué)習(xí)得到合理的排序公式。
針對特定關(guān)鍵詞相關(guān)公眾號排序問題,本文方法同時考慮到基于微信公眾號的外部因素(如閱讀量、點(diǎn)贊量等)和關(guān)鍵詞與微信公眾號內(nèi)文章的相關(guān)性因素(如主題覆蓋率,主題相關(guān)性等),并與清博指數(shù)與新榜指數(shù)進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,使用排序?qū)W習(xí)算法能夠有效的解決這一問題。
采用主成分分析法,將17維特征降到11維,實(shí)驗(yàn)結(jié)果表明,由于主成分分析法可以消除特征之間的相關(guān)性,使得每個特征之間互不影響,進(jìn)而消除特征之間的冗余影響,使實(shí)驗(yàn)結(jié)果有明顯的提升。這也驗(yàn)證了本文提出的4個指標(biāo)特征的正確性和有效性。