魏玲 權(quán)晨雪
關(guān)鍵詞:虛擬學(xué)術(shù)社區(qū);核心用戶;偏好融合;興趣漂移;群推薦
DOI:10.3969/j.issn.1008 -0821.2023.07.006
[中圖分類號(hào)]TP391.3 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2023)07-0048-16
知識(shí)經(jīng)濟(jì)時(shí)代,學(xué)科間的交流與互動(dòng)越來越頻繁,不同實(shí)體通過知識(shí)媒介在分解、共享、轉(zhuǎn)移、整合的過程中極大地促進(jìn)了知識(shí)間的交叉協(xié)同與融合發(fā)展。虛擬社區(qū)是為用戶提供在線交流與互動(dòng)的平臺(tái),其中知識(shí)的流動(dòng)與共享決定了虛擬社區(qū)的競(jìng)爭(zhēng)力、生命力與創(chuàng)新力,問答社區(qū)、在線健康社區(qū)、虛擬學(xué)術(shù)社區(qū)中社交網(wǎng)絡(luò)與知識(shí)網(wǎng)絡(luò)相互交織,共同推動(dòng)個(gè)人、學(xué)術(shù)機(jī)構(gòu)或商業(yè)組織前進(jìn)。虛擬學(xué)術(shù)社區(qū)作為一種新興學(xué)術(shù)交流平臺(tái),將具有相似興趣的科研人員聚集在一起,拓寬了學(xué)術(shù)交流的渠道,豐富了學(xué)術(shù)交流的形式與內(nèi)容。隨著用戶逐漸成為虛擬社區(qū)的核心,有研究表明在虛擬學(xué)術(shù)社區(qū)中用戶呈現(xiàn)差異化及中心化的特征,表現(xiàn)為社區(qū)中存在不同群體的區(qū)分,并且用戶群體出現(xiàn)逐漸中心化的動(dòng)態(tài)演變,這種動(dòng)態(tài)演變能夠促進(jìn)交互行為的增加,其中核心用戶群體在知識(shí)交流中擔(dān)任信息級(jí)聯(lián)傳播的角色,實(shí)現(xiàn)對(duì)核心用戶的信息推薦服務(wù)有助于推動(dòng)知識(shí)傳播速率。除此之外,虛擬學(xué)術(shù)社區(qū)中存在個(gè)體信息匱乏、用戶網(wǎng)絡(luò)稀疏以及缺乏資源整合等缺陷,在個(gè)性化推薦時(shí)難免會(huì)出現(xiàn)因用戶信息較少以及數(shù)據(jù)稀疏導(dǎo)致推薦工作量大且效率不佳的問題,又由于虛擬學(xué)術(shù)社區(qū)內(nèi)信息分散并且知識(shí)質(zhì)量良莠不齊,極大地影響用戶間的知識(shí)交流,從而激發(fā)了知識(shí)服務(wù)方式的創(chuàng)新和高效知識(shí)發(fā)現(xiàn)策略的需求。提高社區(qū)知識(shí)利用率最直接的方式就是對(duì)用戶信息及生成的內(nèi)容進(jìn)行合理聚合,將其聚合為各個(gè)群組,既可以在推薦時(shí)實(shí)現(xiàn)知識(shí)資源的整合,又能盡可能地滿足群組中用戶對(duì)推薦內(nèi)容專業(yè)性的精準(zhǔn)度要求,同時(shí)科研人員面對(duì)海量的學(xué)術(shù)資源需求亦有一定差異,因此本文結(jié)合用戶信息得到不同興趣群組,研究群組中成員動(dòng)態(tài)興趣變化,及時(shí)跟蹤群組興趣變化過程以提高群組推薦效率,幫助社區(qū)管理者探索不同偏好群組中知識(shí)擴(kuò)散與流動(dòng)的相關(guān)規(guī)律,從而促進(jìn)不同偏好用戶需求的有效匹配。
現(xiàn)有針對(duì)虛擬學(xué)術(shù)社區(qū)的知識(shí)推薦多為個(gè)體服務(wù),且忽略核心用戶群組在社群中對(duì)推動(dòng)知識(shí)流轉(zhuǎn)帶來的影響,因此本文提出了一種融合多維特征與興趣漂移的虛擬學(xué)術(shù)社區(qū)群推薦模型,該模型基于社會(huì)網(wǎng)絡(luò)分析和引入屬性因子的PageRank法,運(yùn)用改進(jìn)的信息熵度量公式融合多維特征數(shù)據(jù)綜合識(shí)別核心用戶并聚類得到用戶群組,同時(shí)引入時(shí)間因素探究群組中用戶興趣漂移規(guī)律,挖掘連續(xù)時(shí)間窗下的群組動(dòng)態(tài)偏好變化,通過考慮興趣漂移的群組協(xié)同過濾算法評(píng)估模型性能,有效提高群組推薦的準(zhǔn)確性。
1相關(guān)研究
目前,國(guó)內(nèi)外學(xué)者圍繞虛擬學(xué)術(shù)社區(qū)的研究主要集中在知識(shí)流轉(zhuǎn)與共享、用戶交互特征、網(wǎng)絡(luò)結(jié)構(gòu)分析方面。知識(shí)流動(dòng)可以發(fā)生在任何交互的環(huán)境中,Zhang J等認(rèn)為,社交媒體使得虛擬社區(qū)成為知識(shí)交流的重要平臺(tái),知識(shí)共享的數(shù)量和質(zhì)量對(duì)社區(qū)滿意度和忠誠(chéng)度有顯著的正向影響。嚴(yán)煒煒等指出,學(xué)術(shù)社交網(wǎng)絡(luò)常被視為復(fù)雜異構(gòu)網(wǎng)絡(luò),其用戶行為依賴于由社交網(wǎng)絡(luò)與知識(shí)網(wǎng)絡(luò)交織而成的多維關(guān)系網(wǎng)絡(luò)。部分學(xué)者對(duì)用戶的識(shí)別與分析展開研究,許睿等依據(jù)用戶間的關(guān)注關(guān)系結(jié)合社會(huì)網(wǎng)絡(luò)分析,選取入度、中心性等指標(biāo)識(shí)別社區(qū)中的意見領(lǐng)袖。陳彩蓉等利用圖結(jié)構(gòu)建模用戶間的信任關(guān)系,通過改進(jìn)的PageRank法計(jì)算各用戶節(jié)點(diǎn)的權(quán)重來體現(xiàn)用戶影響力水平。王晰巍等從社交網(wǎng)絡(luò)中受認(rèn)可度、情感聯(lián)系度和網(wǎng)絡(luò)傳播度3個(gè)方面構(gòu)建意見領(lǐng)袖節(jié)點(diǎn)影響力指數(shù)法。劉玉文等提取用戶多維特征構(gòu)建多特征遺傳的意見領(lǐng)袖識(shí)別方法。吳江等融合個(gè)人屬性、網(wǎng)絡(luò)特征、行為特征和文本特征構(gòu)建意見領(lǐng)袖識(shí)別的綜合指標(biāo)體系。王曉梅從用戶輻射度、權(quán)威性、參與積極性、歷史影響力、話題動(dòng)態(tài)特征5個(gè)維度構(gòu)建基于話題動(dòng)態(tài)特征的微博意見領(lǐng)袖預(yù)測(cè)指標(biāo)。以上關(guān)于意見領(lǐng)袖的挖掘在網(wǎng)絡(luò)社區(qū)的研究中也常被稱為核心用戶識(shí)別,李玉媛等進(jìn)一步利用SNA和Topsis算法將用戶劃分為核心用戶與一般用戶。一般地,網(wǎng)絡(luò)社區(qū)中的核心用戶活躍度高、與其他用戶聯(lián)系緊密,并且表現(xiàn)出專業(yè)度高的特點(diǎn),對(duì)信息傳播速度和廣度有著積極影響并起到重要的中介或過濾作用,對(duì)核心用戶進(jìn)行研究將有助于社區(qū)的建設(shè)和可持續(xù)發(fā)展。
在社會(huì)化推薦系統(tǒng)的研究中較少考慮到由不同用戶組成群組的活動(dòng)形式,隨著研究范圍的擴(kuò)大,需要將大量具有共享性質(zhì)的項(xiàng)目推薦給某一用戶群組,并且當(dāng)為個(gè)體推薦較困難時(shí),還需構(gòu)建虛擬群組進(jìn)行推薦。學(xué)者們關(guān)于用戶群組的構(gòu)建主要通過相似度計(jì)算和聚類算法實(shí)現(xiàn)。席茜等提出了一種基于Hellinger距離的社會(huì)信任關(guān)系提取方法,將計(jì)算出的用戶相似度與分組信息相結(jié)合來識(shí)別群組。董偉等借助ATM模型,通過文本聚類識(shí)別用戶興趣偏好,引入用戶一文檔映射和海林格距離算法得到用戶興趣群組。進(jìn)行群組推薦的首要步驟為偏好融合,通常有兩種實(shí)現(xiàn)方案:一是先對(duì)每個(gè)成員進(jìn)行推薦,再利用融合策略聚合群組成員的推薦結(jié)果,即推薦融合,但在面對(duì)大規(guī)模群組時(shí)推薦效率低下且聚合結(jié)果工作量大;二是根據(jù)群組成員的偏好,通過融合策略直接生成群組的偏好模型,再進(jìn)行推薦,即模型融合,如WangH等采用自注意力機(jī)制,從群組成員和項(xiàng)目之間的交互中自動(dòng)學(xué)習(xí)每個(gè)群組成員的動(dòng)態(tài)權(quán)重,同時(shí)聚合群組成員的偏好生成群組偏好??纶S等利用LDA主題模型表征每個(gè)用戶的興趣偏好,聚合用戶偏好特征得到群組偏好。夏立新等通過獲取用戶情境信息提取單個(gè)用戶行為的偏好,實(shí)現(xiàn)群組聚類后融人情境信息挖掘群組行為特征,構(gòu)建群組行為偏好特征向量。在群組推薦系統(tǒng)中,核心問題為如何更好地融合群組偏好,而偏好融合的本質(zhì)則是用戶興趣偏好建模,對(duì)此的研究逐漸由靜態(tài)向動(dòng)態(tài)發(fā)展。用戶興趣往往根據(jù)環(huán)境、時(shí)間、自身情況等因素的變化而不斷變化,并且這些變化隱藏在用戶行為信息中,這種現(xiàn)象被稱為興趣漂移。當(dāng)前關(guān)于興趣漂移的研究主要從兩個(gè)角度出發(fā),第一種認(rèn)為用戶的興趣處于不斷變化的過程中,需要時(shí)刻更新用戶興趣模型,部分學(xué)者引入時(shí)間因子利用主題模型提取虛擬學(xué)術(shù)社區(qū)中用戶動(dòng)態(tài)興趣演化過程,胡偉健等將時(shí)間懲罰函數(shù)引入到歐氏距離對(duì)用戶興趣的變化進(jìn)行描述,提出一種結(jié)合用戶興趣變化的協(xié)同過濾推薦算法;第二種則需要準(zhǔn)確定位至用戶發(fā)生興趣漂移的節(jié)點(diǎn),由此進(jìn)行用戶興趣建模,更加準(zhǔn)確地捕捉興趣變化,如吳樹芳等在社交網(wǎng)絡(luò)用戶興趣挖掘的基礎(chǔ)上考慮興趣主題穩(wěn)定度,計(jì)算不同時(shí)間窗口下的興趣波動(dòng)幅度實(shí)現(xiàn)對(duì)用戶興趣的挖掘。錢聰?shù)热诤吓d趣遺忘特征、出版物興趣重合度以及文本語義相似度等用戶不同時(shí)間段的偏好,以捕捉用戶在每個(gè)時(shí)間段的多重偏好變化提高知識(shí)推薦的準(zhǔn)確性。蔣武軒等為探究用戶當(dāng)前的興趣關(guān)注與穩(wěn)定偏好,基于社交網(wǎng)絡(luò)結(jié)合遺忘曲線挖掘用戶不同時(shí)間窗口下的長(zhǎng)短期興趣,依據(jù)滑動(dòng)時(shí)間窗提高用戶興趣發(fā)現(xiàn)的準(zhǔn)確性并進(jìn)行推薦。
綜上所述,目前針對(duì)虛擬學(xué)術(shù)社區(qū)中核心用戶群體識(shí)別的研究較少,而現(xiàn)實(shí)中核心用戶的權(quán)威性及活躍性對(duì)知識(shí)信息的傳播會(huì)產(chǎn)生積極的影響作用。此外,在提升知識(shí)推薦服務(wù)水平方面和在信息資源不斷擴(kuò)充與更新的背景下,對(duì)于核心用戶群組相鄰時(shí)間窗下動(dòng)態(tài)興趣的推薦研究較為匱乏,這不利于精準(zhǔn)挖掘其興趣變化,且在一定程度上影響推薦精度。為解決上述問題,本文從識(shí)別虛擬學(xué)術(shù)社區(qū)核心用戶群組的視角出發(fā),由于群組偏好與個(gè)人偏好具有相似性,將群組融合后的偏好視作一個(gè)偽用戶跟蹤其興趣變化,進(jìn)一步研究群組動(dòng)態(tài)興趣漂移為促進(jìn)虛擬學(xué)術(shù)社區(qū)內(nèi)知識(shí)流動(dòng)提供新視角。
2融合多維特征與興趣漂移的群推薦模型
2.1研究框架
本文以虛擬學(xué)術(shù)社區(qū)為研究對(duì)象構(gòu)建融合多維特征與興趣漂移的群推薦模型,總體框架如圖1所示。首先采集用戶信息數(shù)據(jù)集作為后續(xù)研究的基礎(chǔ);其次基于網(wǎng)絡(luò)傳播維度和網(wǎng)絡(luò)結(jié)構(gòu)維度分別得到用戶影響力排名,進(jìn)而綜合識(shí)別核心用戶;第三結(jié)合用戶博文信息提取文本主題實(shí)現(xiàn)用戶一主題映射,并計(jì)算用戶的主題偏好相似度聚類得到群組,實(shí)現(xiàn)用戶偏好的識(shí)別和分類;第四通過模型融合將用戶偏好融合為群組興趣偏好,利用非線性遺忘曲線和連續(xù)滑動(dòng)時(shí)間窗口發(fā)現(xiàn)群組興趣漂移過程:最后利用考慮群組動(dòng)態(tài)興趣漂移的協(xié)同過濾群組推薦算法將感興趣的內(nèi)容推薦給目標(biāo)群組用戶。
2.2融合多維特征的核心用戶識(shí)別
本文提出的核心用戶識(shí)別方法從網(wǎng)絡(luò)傳播和網(wǎng)絡(luò)結(jié)構(gòu)兩個(gè)維度構(gòu)建,網(wǎng)絡(luò)傳播維度主要考慮社交關(guān)系,基于社會(huì)網(wǎng)絡(luò)分析法得到整體網(wǎng)絡(luò)圖譜與用戶節(jié)點(diǎn)的中心性和重要程度,包括點(diǎn)度中心性、中介中心性和接近中心性3個(gè)指標(biāo);網(wǎng)絡(luò)結(jié)構(gòu)維度綜合考慮用戶自身屬性以及成員間的交互行為,構(gòu)建用戶屬性指標(biāo)體系并將屬性因子引入PageRank算法中,得到基于網(wǎng)絡(luò)結(jié)構(gòu)的用戶影響力計(jì)算結(jié)果,并參考前人將信息論應(yīng)用于量化節(jié)點(diǎn)影響力的研究,借鑒OLEI指數(shù)構(gòu)建本文融合多維特征的核心用戶挖掘方法。
2.2.1網(wǎng)絡(luò)傳播維度的社會(huì)網(wǎng)絡(luò)分析法
社會(huì)網(wǎng)絡(luò)分析法(Social Network Analysis,SNA)是一種綜合應(yīng)用數(shù)學(xué)、圖論、計(jì)算機(jī)等多學(xué)科交叉的計(jì)量方法,對(duì)網(wǎng)絡(luò)中的個(gè)體關(guān)系模式進(jìn)行測(cè)量、評(píng)估及可視化。虛擬學(xué)術(shù)社區(qū)中知識(shí)交流和共享行為內(nèi)嵌于社會(huì)關(guān)系網(wǎng)絡(luò)中,網(wǎng)絡(luò)結(jié)構(gòu)可以反映成員間關(guān)系的緊密程度和整體網(wǎng)絡(luò)密度。一般地,將其定義為一個(gè)三元組,G={V,E,W|v∈V,eij∈E},其中V表示節(jié)點(diǎn)集合,E表示節(jié)點(diǎn)間的連邊,W表示節(jié)點(diǎn)間邊的權(quán)重,在社會(huì)網(wǎng)絡(luò)中常用關(guān)系圖和關(guān)系矩陣表示,將用戶看作節(jié)點(diǎn),用戶間的關(guān)注、訪問、點(diǎn)贊等視作節(jié)點(diǎn)的連邊,從網(wǎng)絡(luò)拓?fù)湫畔⒔Y(jié)構(gòu)的角度衡量網(wǎng)絡(luò)中節(jié)點(diǎn)的重要性,整體反映節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置。節(jié)點(diǎn)中心度常被用來描述節(jié)點(diǎn)在無向網(wǎng)絡(luò)中的重要性,即人員在社會(huì)網(wǎng)絡(luò)關(guān)系圖中的地位,社會(huì)網(wǎng)絡(luò)分析中常用的指標(biāo)有點(diǎn)度中心性、中介中心性和接近中心性,如表1所示。
2.2.2網(wǎng)絡(luò)結(jié)構(gòu)維度的改進(jìn)PageRank法
本文使用訪客數(shù)、積分?jǐn)?shù)以及活躍度3個(gè)指標(biāo)構(gòu)建用戶屬性特征指標(biāo)體系,訪客數(shù)即為所有到訪過該博客主頁的用戶數(shù),這可以在一定程度上反映用戶影響力,訪客數(shù)越多,其自身影響力可能越大;用戶積分?jǐn)?shù)為總發(fā)帖數(shù)、精華帖數(shù)以及兌換的金幣數(shù)之和;用戶活躍度則通過用戶登錄頻次、回復(fù)數(shù)、搜索數(shù)和文字評(píng)論數(shù)等行為累計(jì)得到,即用戶在該社區(qū)中產(chǎn)生的行為越多、積分越高,越易吸引其他用戶參與知識(shí)資源的討論與傳播。
本文采用熵權(quán)法計(jì)算上述3個(gè)屬性指標(biāo)的權(quán)重,首先對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使所有數(shù)據(jù)映射在[0,1]范圍內(nèi),通過式(1)進(jìn)行變換。
3實(shí)證研究
3.1數(shù)據(jù)收集與預(yù)處理
本文選取“科學(xué)網(wǎng)”為研究對(duì)象,科學(xué)網(wǎng)面向廣大科研工作者提供快捷權(quán)威的科學(xué)新聞報(bào)道、科學(xué)信息服務(wù),現(xiàn)已成為國(guó)內(nèi)頗具影響力的科研知識(shí)交流網(wǎng)絡(luò)社區(qū)平臺(tái)。為有效獲取數(shù)據(jù),選取“管理綜合”下的“管理科學(xué)與工程”“工商管理”“管理學(xué)”“宏觀管理與政策”“圖書館、情報(bào)與文獻(xiàn)學(xué)”5個(gè)領(lǐng)域的用戶數(shù)據(jù)作為數(shù)據(jù)源,借助OCTO-PUS采集器獲取近5年內(nèi)的所有數(shù)據(jù),包括用戶的基本信息、好友列表、博文數(shù)及博文內(nèi)容等,在剔除隱私用戶和好友信息不可見的數(shù)據(jù)項(xiàng)后,最終得到688條有效信息和14295條博文信息。其中部分用戶基本信息如表2所示。
3.2核心用戶識(shí)別
3.2.1社會(huì)網(wǎng)絡(luò)分析法
為得到整體網(wǎng)絡(luò)圖譜,需要將采集到的數(shù)據(jù)進(jìn)一步處理,構(gòu)建用戶社交信息鄰接矩陣,由于科學(xué)網(wǎng)中的好友僅存在雙向鏈接關(guān)系,因此若二者相互關(guān)注,則在矩陣中填充1,否則為0,得到基于好友關(guān)系的鄰接矩陣,如表3所示。然后將構(gòu)建的鄰接矩陣和用戶對(duì)應(yīng)的好友數(shù)作為屬性值一并導(dǎo)入至UCINET軟件中,得到整體知識(shí)共享網(wǎng)絡(luò)分析結(jié)果,結(jié)果如表4所示。
網(wǎng)絡(luò)密度反映社區(qū)中成員間的聯(lián)系緊密程度和群體的結(jié)構(gòu)形態(tài),網(wǎng)絡(luò)結(jié)構(gòu)使每個(gè)實(shí)體均占據(jù)一定的位置并具有其獨(dú)有特征。由表4可得整體網(wǎng)絡(luò)密度為0. 015,即說明在科學(xué)網(wǎng)學(xué)術(shù)社區(qū)中,整體網(wǎng)絡(luò)較為稀疏,并且由于該社區(qū)具有很強(qiáng)的專業(yè)性,各領(lǐng)域間跨度大,因此成員間的交互程度一般;網(wǎng)絡(luò)平均度數(shù)為10.616,可以看出該網(wǎng)絡(luò)呈現(xiàn)多中心化的特點(diǎn),存在一部分連線較多且充當(dāng)中介作用的節(jié)點(diǎn),即網(wǎng)絡(luò)中出現(xiàn)多個(gè)核心用戶且他們之間的知識(shí)共享較為頻繁,而邊緣用戶多出現(xiàn)分布分散、交互程度較低的特點(diǎn),此結(jié)論與黃微等對(duì)虛擬學(xué)術(shù)社區(qū)研究的結(jié)果表現(xiàn)一致。本文進(jìn)一步借助Netdraw軟件進(jìn)行可視化分析,繪制得到好友關(guān)系網(wǎng)絡(luò)圖譜如圖2所示。
從整體圖譜來說,共計(jì)688個(gè)節(jié)點(diǎn)和7325條邊,其中蘊(yùn)含交錯(cuò)復(fù)雜的關(guān)系。節(jié)點(diǎn)的大小代表用戶在網(wǎng)絡(luò)中的整體中心度,即節(jié)點(diǎn)越大對(duì)應(yīng)的連邊越多;連邊代表了用戶之間的關(guān)系紐帶,可以在一定程度上反映用戶是否處于整個(gè)網(wǎng)絡(luò)中的核心地位。由圖2可以看出,ID為1557、117288、842903、541012等用戶節(jié)點(diǎn)大,是網(wǎng)絡(luò)中的活躍分子,且與其他用戶連邊較為繁雜,在社區(qū)中享有較高的關(guān)注度,即中心度較高。在此基礎(chǔ)上,本文進(jìn)一步從定量的角度度量網(wǎng)絡(luò)中的節(jié)點(diǎn),各中心性指標(biāo)計(jì)算結(jié)果如表5所示。
3.2.2改進(jìn)的PageRank值計(jì)算
本文使用訪客數(shù)、積分?jǐn)?shù)以及活躍度3個(gè)屬性指標(biāo)對(duì)社區(qū)內(nèi)現(xiàn)有用戶做影響力評(píng)估,由于各指標(biāo)具有不同的意義,需要在計(jì)算前利用式(1)進(jìn)行標(biāo)準(zhǔn)化處理,結(jié)果如表6所示。然后利用熵權(quán)法依據(jù)式(4)得到各指標(biāo)權(quán)重,如表7所示。
分析可得在評(píng)價(jià)用戶影響力的屬性指標(biāo)中,用戶訪客數(shù)帶來的影響最大,權(quán)重為0.65,其次為積分?jǐn)?shù),權(quán)重為0.25,這是由于積分?jǐn)?shù)由總發(fā)帖數(shù)、精華帖數(shù)以及兌換的金幣數(shù)綜合計(jì)算得到,結(jié)合訪客數(shù)及積分?jǐn)?shù)可以看到用戶的博文質(zhì)量是決定用戶影響力的關(guān)鍵因素,博文質(zhì)量的提高帶來精華帖及發(fā)帖數(shù)的增加,同時(shí)吸引好友或新用戶拜訪主頁,而活躍度權(quán)重僅為0.1,究其原因?yàn)樵擃惿鐓^(qū)內(nèi)用戶行為多為瀏覽、登錄帶來的活躍度累計(jì),同時(shí),社區(qū)內(nèi)部分成員間信任度較低,這共同導(dǎo)致了成員間的交互程度不高。因此,社區(qū)運(yùn)營(yíng)者可以通過有效的激勵(lì)機(jī)制,如鼓勵(lì)用戶發(fā)布博文、積極參與學(xué)術(shù)相關(guān)交流以增強(qiáng)虛擬學(xué)術(shù)社區(qū)知識(shí)共享的意愿和行為,同時(shí)完善社區(qū)的推薦功能,提升社區(qū)內(nèi)用戶交互的積極性,增強(qiáng)用戶粘性。
在得到各指標(biāo)權(quán)重后依據(jù)式(5)得到用戶影響力值Ii,即用戶屬性權(quán)重wj,同時(shí)依據(jù)式(3)通過Java程序編寫計(jì)算這688名用戶的PageRank特征值,如表8所示。
3.2.3用戶綜合影響力排名
本節(jié)對(duì)3.2.1及3.2.2中得到的指標(biāo)數(shù)據(jù)Min-Max標(biāo)準(zhǔn)化處理后,通過節(jié)點(diǎn)影響力指數(shù)OLEI式(7)得到用戶綜合排名,如表9所示,并根據(jù)結(jié)果選取排名前12%的87名用戶作為虛擬學(xué)術(shù)社區(qū)內(nèi)的核心用戶。
3.3核心用戶興趣群組識(shí)別
對(duì)識(shí)別出的87名核心用戶近5年內(nèi)的5 233條博文進(jìn)行處理,科學(xué)網(wǎng)作為一個(gè)專業(yè)的科研知識(shí)交流社區(qū),其中用戶行為統(tǒng)稱為知識(shí)共享行為,所涉及的內(nèi)容多與其研究領(lǐng)域或當(dāng)前關(guān)注信息相關(guān),該社區(qū)內(nèi)的用戶博文同樣隱含用戶的潛在興趣與未來關(guān)注方向。對(duì)此進(jìn)行分析將有助于發(fā)掘相同興趣愛好的用戶群組,以便更好地提供知識(shí)推薦服務(wù)。部分核心用戶博文數(shù)據(jù)如表10所示。
本研究使用Python中的PANDAS庫,結(jié)合停用詞表與詞典,對(duì)博文進(jìn)行分詞。得到基于用戶博文的分詞結(jié)果,利用SKLEARN庫進(jìn)行LDA主題挖掘訓(xùn)練,由式(8)和式(9)計(jì)算困惑度得到最優(yōu)主題數(shù)。訓(xùn)練過程中發(fā)現(xiàn),當(dāng)主題數(shù)K=5時(shí),困惑度較低,由此得到最終的5個(gè)主題,如表11所示。可以看到在“科學(xué)網(wǎng)一管理科學(xué)”領(lǐng)域中,用戶所關(guān)注的主題大致可以分為5個(gè)方面:學(xué)者交流、科技管理、數(shù)據(jù)挖掘、學(xué)術(shù)論文以及圖書情報(bào),并且主題分類得到的結(jié)果更為專業(yè)且聚焦,科技管理主題一特征詞包含企業(yè)、政策、市場(chǎng)和數(shù)字化等,緊跟當(dāng)前數(shù)字企業(yè)的最新動(dòng)態(tài)方向,數(shù)據(jù)挖掘主題一特征詞包含機(jī)器學(xué)習(xí)、算法、人工智能、算法優(yōu)化等,聚焦于當(dāng)前算法的改進(jìn)與優(yōu)化等方面,均與當(dāng)前該領(lǐng)域的關(guān)注點(diǎn)息息相關(guān)。
進(jìn)一步分析用戶對(duì)不同主題的偏好程度,遍歷所有用戶與相應(yīng)文本,建立用戶一文檔映射表,其中部分映射關(guān)系如表12所示。用戶編號(hào)即用戶ID,文檔編號(hào)則是對(duì)所有用戶博文的排列順序。
基于用戶一文檔編碼以及主題一特征分布,利用式(10)通過Gibbs采樣構(gòu)建用戶—主題概率映射表,如表13所示,可以直觀得到在主題確定的情況下,不同用戶對(duì)各主題的偏好概率值,能夠大致得到用戶所屬的主題。
為準(zhǔn)確識(shí)別核心用戶所屬的興趣群組,本研究采用Hellinger距離算法,通過式(11)和式(12)計(jì)算不同用戶間的文本語義相似度,分析用戶所屬的群組及所屬的偏好程度,得到群組劃分,結(jié)果如表14所示??梢园l(fā)現(xiàn),ID為583、3075、39723的用戶偏好程度分別與科技管理、數(shù)據(jù)挖掘和圖書情報(bào)的主題更為接近,與用戶583興趣相似的有用戶42818、38036、53483等。
3.4群組興趣漂移模型構(gòu)建
基于核心用戶群組識(shí)別的結(jié)果,為探究群組興趣漂移特征,本文結(jié)合滑動(dòng)時(shí)間窗口法進(jìn)行研究,以180天為固定時(shí)間窗口處理數(shù)據(jù)。隨機(jī)選取Croup3作為樣本進(jìn)行分析,將興趣數(shù)定為5個(gè),通過主題提取得到2021年8月-2022年7月這4個(gè)時(shí)間窗口下的群組興趣,表15展示了Group3在不同時(shí)間窗口下各主題—特征詞分布。
經(jīng)過訓(xùn)練得到用戶歸屬各個(gè)偏好主題的概率,通過式(13)對(duì)群組內(nèi)用戶偏好進(jìn)行概率融合,得到群組興趣特征表示。以Tl時(shí)間窗口下Group3用戶偏好融合為群組偏好的過程為例,結(jié)果如表16所示,最終得到Croup3分別在4個(gè)連續(xù)時(shí)間窗口下融合后的興趣偏好特征向量,如表17所示。
根據(jù)前文構(gòu)建的興趣漂移發(fā)現(xiàn)算法,對(duì)選取的Croup3實(shí)證數(shù)據(jù)進(jìn)行分析,通過式(14)計(jì)算得到T1時(shí)間窗下的5個(gè)初始興趣值及它們?cè)谶B續(xù)時(shí)間窗口下的興趣衰減結(jié)果Wt,g,u如表18所示,可以看到隨著時(shí)間窗口的移動(dòng),對(duì)應(yīng)的興趣度在逐漸降低,這一結(jié)果符合人們的遺忘規(guī)律。同時(shí),根據(jù)實(shí)證數(shù)據(jù)的特征,將判斷興趣是否發(fā)生漂移的閾值Rt,g,u設(shè)為0.2,即如果計(jì)算得出的興趣衰減結(jié)果小于0.2,則該興趣值在當(dāng)前時(shí)間窗口下處于較低狀態(tài),將被新的興趣所替代。
依據(jù)表14中T2時(shí)間窗下的興趣特征通過式(15)和式(16)計(jì)算Group3對(duì)5個(gè)初始興趣在T2時(shí)間窗口下的興趣衰減情況,如表19所示。從中可以看出,初始狀態(tài)下的興趣值Rt,g,u均出現(xiàn)衰減,但“智能控制科學(xué)”和“應(yīng)急管理”的興趣值仍處于一定水平,其余3個(gè)的衰減結(jié)果均低于本文設(shè)置的閾值0.2,將被替代。為了補(bǔ)充當(dāng)前時(shí)刻下產(chǎn)生的新興趣,分別計(jì)算T2窗口下的興趣與Tl窗口下5個(gè)興趣的相似度之和的均值,選擇結(jié)果最大的前3個(gè)興趣予以保留,作為T2時(shí)間窗下的興趣漂移結(jié)果,即“智能控制科學(xué)”“應(yīng)急管理”“數(shù)字化服務(wù)系統(tǒng)”“圖像神經(jīng)網(wǎng)絡(luò)”“系統(tǒng)仿真建?!?。在后續(xù)時(shí)間窗口下,對(duì)用戶的興趣漂移發(fā)現(xiàn)示意圖如圖3所示,其最終結(jié)果如表20所示。
3.5融合多維特征與興趣漂移的群組推薦
本文選取2022年8月—10月Group3群組中的用戶博文數(shù)據(jù)作為測(cè)試集,用以判斷群組興趣漂移過程模型的優(yōu)劣。通過興趣漂移模型可以得到在下一個(gè)時(shí)間窗口的漂移結(jié)果為:智能控制科學(xué)、數(shù)字化服務(wù)系統(tǒng)、圖像神經(jīng)網(wǎng)絡(luò)、系統(tǒng)仿真建模和人工智能決策,將其與下一時(shí)間窗中真實(shí)數(shù)據(jù)集的各個(gè)主題作對(duì)比,分別為平行智能與元宇宙、網(wǎng)絡(luò)合作機(jī)制、視頻文本主題分析、深度學(xué)習(xí)模型以及人工智能決策模型,計(jì)算語義相似度作為判斷依據(jù),可以使其預(yù)測(cè)準(zhǔn)確率達(dá)到80%,且大多圍繞人工智能、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域,與實(shí)際情況相符,由此可以得出本文提出的群組興趣漂移模型較為合理,且預(yù)測(cè)準(zhǔn)確率較高。
同時(shí)對(duì)2017—2022年近5年的核心用戶博文數(shù)據(jù)隨機(jī)劃分為80%的訓(xùn)練集與20%的測(cè)試集,采取準(zhǔn)確率(Precision)和均方根誤差(RMSE)用以評(píng)價(jià)群組推薦的效果。準(zhǔn)確率是評(píng)價(jià)模型優(yōu)劣的重要指標(biāo),表示預(yù)測(cè)出的興趣主題與實(shí)際的興趣主題有多少是相符的,準(zhǔn)確率的計(jì)算式(18)如下:
式中,Precision指推薦結(jié)果的準(zhǔn)確率,R(g)是根據(jù)群組在訓(xùn)練集中的行為為群組推薦的列表,而T(g)是群組在測(cè)試集上的行為列表。
均方根誤差(RMSE)是計(jì)算預(yù)測(cè)內(nèi)容與真實(shí)內(nèi)容之間的偏差,該值越低,說明預(yù)測(cè)準(zhǔn)確度越高,反之則說明推薦效果不佳,計(jì)算式(19)如下:
實(shí)驗(yàn)1:群組數(shù)對(duì)推薦效果的影響
群組推薦算法的推薦基本單位是用戶群組,群組偏好源于組內(nèi)每名成員,因此群組規(guī)模數(shù)將對(duì)群組偏好的融合結(jié)果產(chǎn)生關(guān)鍵性的影響,為探究群組數(shù)量對(duì)推薦算法準(zhǔn)確度的影響,實(shí)驗(yàn)對(duì)比了本文提出的融合多維特征與興趣漂移的群組推薦模型在不同的群組數(shù)目下的推薦準(zhǔn)確度,如圖4所示。
從中觀察群組數(shù)量對(duì)推薦效果的影響,可以看到隨著群組數(shù)量的增多,即群組規(guī)模的減少,算法準(zhǔn)確度在不斷提高,當(dāng)組內(nèi)用戶數(shù)量不斷減少時(shí),對(duì)群組的推薦可以視為對(duì)個(gè)體用戶進(jìn)行推薦,組內(nèi)差異較小,融合后的群組偏好更接近組內(nèi)用戶真實(shí)偏好,故推薦效果好。但進(jìn)行群組推薦時(shí),組數(shù)劃分也不宜過小,不僅會(huì)失去劃分群組的意義,還會(huì)影響整體群組推薦效果;另外,選取合適的群組數(shù)目,將有助于推薦算法準(zhǔn)確性的提高。
實(shí)驗(yàn)2:不同推薦算法的對(duì)比實(shí)驗(yàn)
為了進(jìn)一步分析所融合的各因素對(duì)本文模型的影響,在數(shù)據(jù)集上進(jìn)行消融對(duì)比實(shí)驗(yàn),將消融模型分為5組,第一組模型為傳統(tǒng)的協(xié)同過濾群推薦算法模型(CFGRA),第二組模型為僅考慮多維特征對(duì)核心用戶進(jìn)行協(xié)同過濾群組推薦算法(CFGRA-MCU),第三組模型為僅考慮群組興趣偏好的協(xié)同過濾群組推薦算法(CFCRA-UIP),第四組模型為融合多維特征與考慮群組興趣偏好的協(xié)同過濾群推薦算法(CFGRA-MCU-UIP),第五組表示本文所提出的模型(CFGRA-MCU-UID)。實(shí)驗(yàn)選擇群組數(shù)K=20,近鄰群組數(shù)在4-16之間,分別對(duì)這5種消融模型在Precision和RMSE下進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖5與圖6所示。
在逐步融合各因素的推薦算法對(duì)比實(shí)驗(yàn)中可以看出隨著近鄰數(shù)K的增加,二者的值均逐漸降低并趨于穩(wěn)定,并且隨著算法中加入因素的增多,消融模型的整體推薦效能不斷提高且均優(yōu)于不考慮融合任何因素的傳統(tǒng)群組推薦模型(CFGRA)。在只考慮單一因素的模型算法中,推薦性能得到一定的提升但仍有待提高。由此在所有指標(biāo)測(cè)試中,本文提出的模型效果最好,說明該算法模型可以提高推薦性能,很好地預(yù)估群組中用戶的興趣變化,產(chǎn)生更好的推薦結(jié)果。
4結(jié)語
本文首先從網(wǎng)絡(luò)傳播維度和網(wǎng)絡(luò)結(jié)構(gòu)維度出發(fā),基于信息熵相關(guān)理論結(jié)合點(diǎn)度中心性、接近中心性、中介中心性和引入屬性特征的PageRank值4個(gè)指標(biāo),借鑒OLEI指數(shù)融合多維特征數(shù)據(jù)綜合識(shí)別核心用戶;其次利用LDA模型、Gibbs采樣和Hellinger距離對(duì)核心用戶潛在群組聚類,得到群組劃分;最后挖掘連續(xù)時(shí)間窗口下群組動(dòng)態(tài)興趣漂移規(guī)律,將群組興趣變化引入?yún)f(xié)同過濾群組推薦算法中進(jìn)行推薦。通過采集“科學(xué)網(wǎng)”社區(qū)內(nèi)部分用戶信息并使用Python、Java程序進(jìn)行模擬,以Precision和RMSE作為檢驗(yàn)標(biāo)準(zhǔn),發(fā)現(xiàn)該模型可以準(zhǔn)確識(shí)別核心用戶,并且能夠較好地反映群組用戶興趣漂移過程,同時(shí),對(duì)比傳統(tǒng)的群組協(xié)同過濾法及僅考慮單一因素的推薦算法,本文提出的算法準(zhǔn)確率更高,且推薦準(zhǔn)確度與群組數(shù)量呈正相關(guān),為后續(xù)研究確定最優(yōu)群組數(shù)提供依據(jù)。綜上所述,融合多維特征與興趣漂移的虛擬學(xué)術(shù)社區(qū)群推薦模型可以有效解決虛擬學(xué)術(shù)社區(qū)中知識(shí)推薦效率不佳的問題,進(jìn)而帶來服務(wù)方式的創(chuàng)新,還可以促進(jìn)高效的知識(shí)資源整合,進(jìn)一步提升對(duì)核心用戶的知識(shí)服務(wù)質(zhì)量,同時(shí)彌補(bǔ)群組協(xié)同過濾算法中忽略群組興趣漂移帶來的缺陷,促進(jìn)社區(qū)內(nèi)知識(shí)共享與流轉(zhuǎn)效率,實(shí)現(xiàn)社區(qū)的高質(zhì)量發(fā)展。