曹錦丹 鐘玉駿 鄒男男等
關(guān)鍵詞: 在線健康社區(qū); 個性化推薦; 動態(tài)社交網(wǎng)絡(luò); 個人動態(tài)偏好
DOI:10.3969 / j.issn.1008-0821.2023.09.003
〔中圖分類號〕R-058 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821 (2023) 09-0026-10
健全和完善“互聯(lián)網(wǎng)+醫(yī)療健康” 服務(wù)體系及支撐體系是當(dāng)前推進實施“健康中國” 戰(zhàn)略的一項重要工作[1] 。隨著這項工作的推進, 在線健康社區(qū)(Online Health Communities, OHCs)已成為人們獲取健康信息的重要渠道。OHCs 是具有相同健康或疾病治療興趣的人在以互聯(lián)網(wǎng)為媒介形成的健康社區(qū)集合, 是人們獲取健康信息、得到情感支持、分享個人經(jīng)驗和健康信息以及提供情感支持等各種與健康相關(guān)的活動的平臺。然而, 目前OHCs 平臺的用戶在健康信息搜尋和交互方面尚需進一步優(yōu)化。隨著OHCs 用戶數(shù)量和信息資源的不斷增長, 導(dǎo)致大數(shù)據(jù)呈現(xiàn)低價值密度特征, 即信息過載問題。因此, 用戶對個性化推薦的需求越來越高, 以減少信息超載帶來的認(rèn)知負(fù)荷。但是, 用戶的健康信息需求因其自身因素不同而具有個性化特點, 且用戶健康狀況會隨著時間推移而發(fā)生改變, 目前在線健康社區(qū)個性化推薦算法鮮有對用戶興趣的時間動態(tài)遷移特征進行賦權(quán)。如何有效構(gòu)建更為豐富的OHCs用戶推薦算法, 提供更為針對性的服務(wù), 以實現(xiàn)精準(zhǔn)推薦, 已成為目前領(lǐng)域?qū)W者普遍關(guān)注的問題。
1國內(nèi)外相關(guān)研究
個性化推薦是在數(shù)據(jù)挖掘基礎(chǔ)上實現(xiàn)的智能信息服務(wù), 能夠有效滿足人們對各類信息的個性化需求[2] 。早期的推薦算法研究主要集中于傳統(tǒng)推薦算法, 包括基于內(nèi)容的推薦算法、基于協(xié)同過濾的推薦算法和基于混合的推薦算法。近期基于深度學(xué)習(xí)的推薦模型成為一大熱點[3] , 但其與傳統(tǒng)推薦算法相比, 需要大量的數(shù)據(jù)作為支撐, 無法解決數(shù)據(jù)稀疏性問題。而研究表明, 將社交信息等輔助信息加入傳統(tǒng)推薦算法可緩解冷啟動和項目稀疏性[4] , 且考慮用戶興趣的動態(tài)遷移性可提升個性化推薦算法效率[5] 。故為彌補傳統(tǒng)推薦算法的不足, 研究者們嘗試采用多維度信息融合并加入推薦算法, 最典型的是社交關(guān)系信息、時間上下文信息。如琚春華等[6]通過構(gòu)建仿真的微信平臺獲取數(shù)據(jù), 將用戶社交關(guān)系與信任關(guān)系和偏好融合到推薦方法中, 提高了其有效性和準(zhǔn)確度; 董立巖等[7] 意識到研究時間對用戶興趣影響的重要性, 通過在傳統(tǒng)的協(xié)同過濾算法中融入時間特征, 發(fā)現(xiàn)基于時間衰減的協(xié)同過濾算法在準(zhǔn)確性上得到了顯著的提高。上述研究集中于電子商務(wù)、新聞、社交網(wǎng)絡(luò)、音樂、廣告等領(lǐng)域,但在醫(yī)療健康信息服務(wù)領(lǐng)域的應(yīng)用程度還不足。OHCs 的推薦有其顯著的特殊性, 只包括提供內(nèi)容服務(wù)、無評分信息、冷啟動和矩陣稀疏問題更嚴(yán)重等特性, 而且現(xiàn)實中用戶興趣會隨著健康狀況在不同時期階段的變化而發(fā)生改變。所以目前的已有個性化推薦算法在OHCs 中的應(yīng)用還有待深入探索。
在線健康社區(qū)個性化推薦方法的研究尚不多見。現(xiàn)有研究主要是通過分析用戶社交關(guān)系和用戶生成內(nèi)容文本語義構(gòu)建網(wǎng)絡(luò)來實現(xiàn)話題內(nèi)容的推薦, 且基于用戶興趣是一成不變的觀點, 將用戶以往產(chǎn)生的數(shù)據(jù)不分時間先后統(tǒng)一用來代表用戶現(xiàn)在的興趣。如Yang H 等[8] 通過隱含的社會關(guān)系, 采用自適應(yīng)矩陣分解的方法為用戶進行推薦; Yang CC 等[9] 通過構(gòu)建用戶和UGC 之間關(guān)系的異構(gòu)醫(yī)療信息網(wǎng)絡(luò), 向OHCs 中的用戶推薦話題貼; Yang H等[10] 通過構(gòu)建用戶影響關(guān)系(User Influence Rela?tionships, UIRs)網(wǎng)絡(luò)計算用戶相似度, 提高為用戶進行內(nèi)容推薦的準(zhǔn)確度; 李賀等[11] 通過將提取的用戶評論關(guān)鍵詞之間形成語義關(guān)系網(wǎng)絡(luò), 以便構(gòu)建模糊認(rèn)知圖, 實現(xiàn)相關(guān)疾病知識的推薦; 王欣研[12] 通過挖掘熱點問題以及問題主題相關(guān)關(guān)系,構(gòu)建語義關(guān)聯(lián)主題圖譜并搭建了個性化推薦模型。
綜上所述, 個性化推薦算法已有較多研究將社交關(guān)系和時間上下文作為額外信息融入個性化推薦算法, 但是并不完全適用于OHCs 的用戶推薦。而現(xiàn)有的面向在線健康社區(qū)的個性化推薦, 均未考慮時間特征對用戶興趣的影響, 導(dǎo)致用戶興趣的動態(tài)遷移性無法體現(xiàn)。因此, 本研究基于其他領(lǐng)域的個性化推薦算法研究, 構(gòu)建融合時間特征的在線健康社區(qū)個性化推薦算法, 深入探討用戶興趣的動態(tài)遷移性對提升推薦算法的準(zhǔn)確度和有效性, 以獲得更加精準(zhǔn)的推薦結(jié)果。
2基于社交關(guān)系和個人偏好的動態(tài)個性化推薦算法框架
OHCs 與其他類型的在線社區(qū)存在的最大區(qū)別是OHCs 用戶在交互過程中, 因每個用戶的健康狀況會隨著時間的推移而產(chǎn)生變化, 其健康信息需求和信息交互行為具有更顯著的動態(tài)遷移性。另外,OHCs 用戶興趣分為用戶間互動形成的社交關(guān)系和用戶日常發(fā)布信息即用戶個人偏好兩部分[13] ?;谝陨蟽牲c, 本文所構(gòu)建的融合時間特征的個性化推薦算法分為3 部分: ①社交關(guān)系與時間特征融合的動態(tài)社交關(guān)系矩陣構(gòu)建; ②用戶個人偏好與時間融合的用戶話題帖匹配矩陣構(gòu)建; ③基于動態(tài)社交關(guān)系和個人動態(tài)偏好的個性化推薦算法構(gòu)建。
2.1融合時間特征的社交關(guān)系矩陣構(gòu)建
OHCs 與一般在線社區(qū)相比屬于弱社交關(guān)系媒體, 其社區(qū)成員間基于興趣構(gòu)建社交關(guān)系。此外,用戶間的社會影響關(guān)系反映用戶間通過交換健康信息產(chǎn)生社會影響, 從而構(gòu)成社交關(guān)系的互動過程。且OHCs 用戶間社會關(guān)系越強則代表兩者間的社會影響力越大, 并且兩用戶間相似度越大, 兩用戶間的相互影響程度也越大[14] 。且社會關(guān)聯(lián)理論表明,一方面具有相似特征的兩個個體間更容易建立社會關(guān)系; 另一方面具有社會關(guān)系的個體更容易表現(xiàn)出相似特征[15] 。所以, 從融合時間特征的用戶社會關(guān)系強度和融合時間特征的用戶間相似度出發(fā), 構(gòu)建OHCs 融合時間特征的社交關(guān)系網(wǎng)絡(luò)即用戶影響力網(wǎng)絡(luò), 以體現(xiàn)用戶間基于興趣的動態(tài)社交關(guān)系。公式如下:
然而, 一方面, 用戶社會關(guān)系強度依賴于連接兩用戶的連通路徑的權(quán)值和數(shù)量; 另一方面, 用戶行為模式相似度依賴于用戶行為軌跡。要構(gòu)建OHCs 融合時間特征的用戶影響力網(wǎng)絡(luò), 因其不同于存在評分、評級和關(guān)注等顯式行為的其他類型在線社區(qū), 需先依據(jù)OHCs 的隱式互動行為特點, 構(gòu)建基于用戶間共同興趣產(chǎn)生參與話題帖的互動行為來表示社會關(guān)系的隱式行為網(wǎng)絡(luò)。因此, 本部分包括: ①融合時間特征的隱式用戶行為網(wǎng)絡(luò)構(gòu)建; ②融合時間特征的用戶間相似度矩陣構(gòu)建; ③融入時間特征的用戶間社會影響力計算。
2.1.1融合時間特征的隱式用戶行為網(wǎng)絡(luò)構(gòu)建
OHCs 是用戶發(fā)布和回復(fù)話題帖進行交流的平臺, 其互動行為是基于興趣產(chǎn)生的隱式行為, 而不像其他社區(qū)存在顯式行為。因此, 本研究構(gòu)建的行為網(wǎng)絡(luò)基于OHCs 中的隱式互動行為構(gòu)建。其隱式交互行為定義為用戶參與同一話題帖, 認(rèn)為參與同一話題帖的用戶具有相似的興趣, 且相似程度與共同參與話題帖的數(shù)量成正比, 且回復(fù)量比訪問量更能體現(xiàn)話題帖的受關(guān)注程度[16] 。但當(dāng)一個話題帖成為熱門話題帖導(dǎo)致大多數(shù)用戶普遍參與其中時,反而該話題帖不能很好地代表用戶的興趣, 因而此帖對用戶共同興趣的貢獻度應(yīng)相對降低。此外,OHCs 中用戶的健康狀況會隨時間改變而變化, 導(dǎo)致用戶興趣也隨之發(fā)生變化, 致使用戶間基于興趣的影響力隨時間推移而衰減, 表現(xiàn)為對時刻tk 的用戶uk 來說, 同一級聯(lián)中時刻tk 附近的用戶對uk的影響力應(yīng)遠(yuǎn)大于較早時刻的用戶, 有研究[17-18]證明了這一點[19] 。且Muniz C P M T 等[20] 受弱聯(lián)系社會理論的啟發(fā), 認(rèn)為最近的互動比以前的互動具有更大的影響力。
因此, 上述內(nèi)容表現(xiàn)在隱式用戶行為網(wǎng)絡(luò)中,概括為以下3點:
1) 用戶間共同參與的話題帖數(shù)量越多, 即交互次數(shù)越多(當(dāng)兩個用戶在多次參與一個話題帖時, 只能算為1 次), 表明兩者間健康信息興趣越相似, 用戶之間的權(quán)重越大。
2) 參與一個話題帖的人數(shù)越多, 表明該話題帖受歡迎程度越大, 此帖對邊權(quán)重的貢獻越小, 即每個話題帖的參與人數(shù)定義為Nu, 用其倒數(shù)代表該話題帖對本用戶邊權(quán)重的貢獻值。
3) 兩用戶間的交互時間距離現(xiàn)在越近, 表明兩者間的健康狀況相似可能性越大, 用戶間產(chǎn)生的社會影響力越大, 相應(yīng)的邊權(quán)重值也越大, 其互動時間定義為兩者中后參與該話題帖的時間。
基于上述觀點首先構(gòu)建動態(tài)隱式行為網(wǎng)絡(luò), 以便獲取用戶間的連接強度, 公式如下:
然而, 在線健康社區(qū)中每個用戶的活躍程度不同, 越活躍的用戶, 參與的話題帖數(shù)量越多, 這就導(dǎo)致用戶差異問題的出現(xiàn)。為了解決上述問題, 本研究把用戶參與的話題帖數(shù)量用來代表用戶的活躍程度, 參與話題帖數(shù)量多的用戶, 興趣分布更為廣泛, 導(dǎo)致單一話題帖在該用戶參與的所有話題帖中所占的比重較小。因此, 為了區(qū)分每個用戶的活躍程度差異, 需要從每個用戶的角度出發(fā), 構(gòu)建有方向的用戶行為網(wǎng)絡(luò)。步驟包括:
首先, 將每個用戶參與的話題帖數(shù)量作為節(jié)點權(quán)重。
其次, 將用戶的活躍程度加入邊權(quán)重, 即在原有邊權(quán)重的基礎(chǔ)上除以起點用戶的節(jié)點權(quán)重。
最后, 將邊權(quán)重進行最大值歸一化。
2.1.2融合時間特征的用戶間相似度矩陣構(gòu)建
因OHCs 是用戶根據(jù)自己的興趣參與話題帖討論產(chǎn)生互動行為的平臺, 所以其用戶傾向于與具有相似特征或相似健康狀況的用戶產(chǎn)生交流, 其相似度越大, 健康狀況越相似, 彼此間的社會影響力越大。而OHCs 的用戶間相似度通常采用用戶信息的相似度來衡量。且OHCs 中的用戶信息分為靜態(tài)信息和動態(tài)信息, 其中靜態(tài)信息主要是指用戶屬性信息, 動態(tài)信息包括用戶生成內(nèi)容和用戶行為軌跡[22] 。故本研究融合時間特征的用戶相似度, 從用戶的屬性、用戶生成內(nèi)容和用戶行為模式相似度展開, 其中融合時間特征體現(xiàn)在動態(tài)信息上。用戶相似度的計算公式如下:
①按權(quán)重排序選取n 個關(guān)鍵詞, 將其權(quán)值作為中心向量, 目標(biāo)用戶的每一條內(nèi)容變?yōu)椋?維向量,稱作擴展向量, 若兩者出自同一文檔文本, 則表示為(0,0,0,…,wsx), 若存在m 個, 則擴展向量對應(yīng)維度的值為wsx/ m。
②設(shè)置閾值。將上面的兩個向量利用余弦相似度公式計算兩者間的相似度, 如果相似度大于設(shè)定的閾值則加入用戶關(guān)鍵詞序列, 否則舍棄。
③若新加入的關(guān)鍵詞在Ku 中已經(jīng)存在, 則進行關(guān)鍵詞權(quán)值的疊加, 否則, 直接加入新關(guān)鍵詞及其對應(yīng)的權(quán)值, 即原來權(quán)值與時間衰減因子相乘后的值。使用歸一化余弦相似度衡量用戶生成內(nèi)容關(guān)鍵詞序列相似度KSij。
3) 用戶屬性相似度
社會網(wǎng)絡(luò)理論中的個體屬性在社會關(guān)系的形成中起著非常重要的作用[27] , 并且疾病與個體屬性相關(guān), 所以OHCs 中的個體屬性也是計算用戶健康狀況相似度的重要組成部分。而本文在用戶屬性相似度的計算方法上依舊沿用Yang H 等[10] 的研究,面對用戶屬性值的不同類型: 文本型數(shù)據(jù)若相同,賦值為1, 否則為0; 數(shù)值型數(shù)據(jù)采用最大最小值標(biāo)準(zhǔn)化公式進行求值。最后利用用戶所有屬性相似度的平均值代表用戶屬性相似度。
4) 利用XGBoost 確定權(quán)重系數(shù)
使用XGBoost 模型得到用戶相似度中3 個特征的重要性。XGBoost 模型中特征重要性是通過對數(shù)據(jù)集包含的每個特征進行計算并排序得出, 通常而言, 一個特征越多的被用來在模型中構(gòu)建決策樹,它的重要性得分越高。
2.1.3融入時間特征的用戶間社會影響力計算
在OHCs中, 用戶根據(jù)其發(fā)帖和回帖產(chǎn)生的隱式交互活動進行連接, 產(chǎn)生社會影響, 且交互越頻繁越容易產(chǎn)生較大的社會影響。而用戶間的社會關(guān)系強度反映了兩者間的社會影響力, 且依賴于連接他們的連通路徑的權(quán)值和數(shù)量, 且隨著用戶之間距離的增加而降低[28] 。所以為了獲得兩用戶間最強的社會關(guān)系, 需要求兩點間的最短路徑。
Dijkstra最短路徑算法是有向加權(quán)圖中最基本和應(yīng)用最廣泛的最短路徑算法。在有向圖中Dijk?stra 最短路徑算法可以表示為: 在構(gòu)建好的有向帶權(quán)圖G 中, 給定源點A, 求其到圖G 中其他頂點的最短路徑, 具體貪心算法的策略是遍歷距起始點最近且未訪問過的頂點的鄰接節(jié)點, 直到遍歷到結(jié)束點。所以, 本文選用Dijkstra 最短路徑算法并基于上文構(gòu)建的融合時間特征的有向隱式用戶行為網(wǎng)絡(luò)找出兩用戶間的最短路徑, 若存在多條最短路徑,取其中路徑權(quán)值和最大的路徑作為最短路徑。
兩用戶間社會影響力取決于用戶間路徑的邊權(quán)重和經(jīng)過的邊數(shù)量, 故根據(jù)求得兩用戶間的最短路徑, 其包含的所有節(jié)點, 依次將兩節(jié)點的權(quán)值相乘,權(quán)值乘積越大, 代表用戶間基于興趣的社會影響力越強。
2.2融入時間特征的用戶話題帖匹配矩陣構(gòu)建
OHCs 中最主要、最有價值的內(nèi)容是反映用戶健康狀況和健康信息需求的話題帖。且OHCs 內(nèi)的用戶興趣不僅受社交關(guān)系的影響, 還受其自身內(nèi)容偏好的影響[10] 。故在獲得用戶間基于興趣的社交關(guān)系而產(chǎn)生的社會影響后, 還需根據(jù)用戶的自身偏好來判斷推薦給用戶的話題帖是否滿足用戶的健康信息需求, 具體可分為用戶自身內(nèi)容偏好的特征提取、話題帖內(nèi)容特征提取以及兩者之間的匹配程度3 部分。
1) 用戶自身內(nèi)容偏好。其提取方法同上文中對用戶內(nèi)容相似度中內(nèi)容特征的提取方法, 即采用LDA 主題模型和融合時間的關(guān)鍵詞提取技術(shù)分別提取反映用戶健康信息需求的主題偏好和關(guān)鍵詞偏好。在數(shù)據(jù)利用方面, 利用OHCs 中用戶產(chǎn)生最多也是最重要組成部分的文本數(shù)據(jù)來分析用戶自身偏好: 一方面, 各大社交網(wǎng)站一般通過用戶生成的文本信息來挖掘用戶的自身偏好[29] ; 另一方面, OHCs成為公眾獲取健康信息的重要渠道, 其用戶基于發(fā)帖和回帖產(chǎn)生了大量用戶交互數(shù)據(jù), 其中價值最大的是用戶溝通交流時所產(chǎn)生的文本數(shù)據(jù)。
2) 話題帖文本內(nèi)容的特征提取。其具體步驟為: 先利用LDA 主題模型提取此話題帖在健康信息各個主題下的分布概率, 即該話題帖的主題特征向量; 再利用關(guān)鍵詞提取技術(shù)得到該話題帖中與疾病有關(guān)且反映用戶健康需求的關(guān)鍵詞向量, 但此處的關(guān)鍵詞提取技術(shù)不同于前文中的關(guān)鍵詞提取技術(shù), 這里未融合時間, 原因為此處對話題帖的關(guān)鍵詞提取只是對話題帖本身內(nèi)容特征的表示, 并非從用戶層面表示其健康信息興趣演變。
為了檢驗用戶內(nèi)容偏好與話題帖的符合程度,需要將上述得到的表示融合時間的用戶內(nèi)容偏好向量和話題帖向量, 利用余弦相似度計算兩者間相似度大小, 值越大表明兩者越相似, 用戶參與該話題帖的可能性越大, 也就是該話題帖越能滿足用戶的健康需求。根據(jù)匹配度得分形成用戶話題帖匹配矩陣, 公式為:
最后, 將R′與F 對應(yīng)位置相乘, 得到最后的用戶話題帖興趣評分矩陣。針對目標(biāo)用戶, 對其按分值大小排序, 形成TOP-N 推薦列表。
3實證研究
3.1數(shù)據(jù)來源
本研究以糖尿病為例?!盯蛐吞悄虿》乐沃改稀分赋?, 通過生活方式的干預(yù), 可以減少糖尿病各種并發(fā)癥, 有效提高糖尿病患者的生存質(zhì)量[31] 。其生活方式的干預(yù)需要根據(jù)病情和生活習(xí)慣等綜合因素制定個性化方案; 甜蜜家園是一個創(chuàng)辦于2005年的國內(nèi)最知名、規(guī)模較大、管理制度比較完善、用戶的活躍程度較高的糖尿病社區(qū)[32] 。綜上, 本文選擇甜蜜家園中的“Ⅱ型糖尿病” 社區(qū)版塊, 并使用“后裔采集器” 采集2019 年5 月30 日—2022年7 月25 日的發(fā)帖數(shù)據(jù): ①參與話題帖用戶的個人屬性包括性別、回帖數(shù)、主題數(shù)、糖尿病類型、治療方案、生日、簽到等級、用戶組、注冊時間和在線時間; ②用戶發(fā)布的文本內(nèi)容及其發(fā)布時間;③用戶ID。
本研究共采集了3 699條主題帖, 包含2 424個用戶, 48 725條話題帖信息。根據(jù)本研究中構(gòu)建算法的需要將其分為兩個大小不同的數(shù)據(jù)集, 其中小數(shù)據(jù)集包含13 955條數(shù)據(jù), 應(yīng)用于XGBoost 特征重要性算法確定用戶間相似度3 個組成指標(biāo)的權(quán)重系數(shù)以及內(nèi)容相似度中兩個模型向量的權(quán)重系數(shù); 大數(shù)據(jù)集包含34 770條數(shù)據(jù), 用來評價確定權(quán)重系數(shù)的個性化推薦算法和基準(zhǔn)模型中的推薦算法。
3.2數(shù)據(jù)預(yù)處理
為保證數(shù)據(jù)的有效可用, 刪除發(fā)表的表情符號或“謝謝分享” “頂” “贊” 等評論、空評論, 以及參與話題帖小于3 和用戶信息缺失嚴(yán)重的數(shù)據(jù)。數(shù)據(jù)集中序數(shù)值屬性的空值利用其均值填充。
目前研究用戶在線生成內(nèi)容得到認(rèn)可最多且被廣泛使用的停用詞表有中文停用詞表、百度停用詞表、哈工大停用詞表以及四川大學(xué)機器智能實驗室停用詞庫, 本研究為了構(gòu)建相對完整的停用詞表,在這4 個停用詞表的基礎(chǔ)上, 先將其整合, 再去除重復(fù)內(nèi)容。使用Jieba分詞對評論文本進行分詞。
本研究認(rèn)為隨機劃分訓(xùn)練集和測試集會導(dǎo)致數(shù)據(jù)泄露的前瞻偏差問題, 致使存在把用戶最近的評論用于訓(xùn)練, 而把早期的評論用于測試的可能性,喪失公平性, 且隨機劃分?jǐn)?shù)據(jù)集訓(xùn)練出來的模型的性能也無法推廣到現(xiàn)實世界的性能。因此, 本文利用時間戳列, 分別對每個用戶按照時間順序進行排序, 再按照8 ∶2 的比例劃分訓(xùn)練集和測試集, 數(shù)據(jù)集中時間距離現(xiàn)在最近的20% 歸為測試集, 遠(yuǎn)離現(xiàn)在時間的80%為訓(xùn)練集。
3.3評價指標(biāo)
在模型的評價指標(biāo)上, 本研究選用個性化推薦算法領(lǐng)域中最常用的評價指標(biāo), 包括精確率(Preci?sion, P)、召回率(Recall, R)和F1 評分(F1-Score,F1)。F1-Score 評估算法的整體性能, 具體含義Precision 和Recall 的調(diào)和平均值。具體計算方法見式(12) ~(14):
其中, Hits 是目標(biāo)用戶參與推薦的帖子數(shù), r是推薦的話題帖數(shù)量, Miss 表示目標(biāo)用戶參與但未正確推薦的話題帖數(shù)量。
3.4實驗結(jié)果
1) 在利用LDA 主題模型對文本內(nèi)容進行主題分析時, 通過計算不同主題數(shù)K 所對應(yīng)的主題一致性Coherence, 確定LDA 主題模型最優(yōu)的主題數(shù)。主題一致性Coherence 越高表示可解釋性和語義連貫性越好, 則對應(yīng)的K 值可以作為LDA 模型最優(yōu)主題數(shù), 兩個數(shù)據(jù)集分別對應(yīng)K = 3 和K = 2,結(jié)果如圖1 和圖2 所示。
3) 利用XGBoost 確定用戶相似度3 個特征權(quán)重系數(shù), 用戶內(nèi)容相似度權(quán)重為0.31, 用戶行為相似度權(quán)重為0.34, 用戶屬性相似度權(quán)重為0.35。結(jié)果如圖4 所示。
4) 為了驗證本文構(gòu)建的融合動態(tài)社交關(guān)系和個人動態(tài)偏好的個性化推薦算法(TOHCRec), 選取時間上下相關(guān)的項目協(xié)同過濾推薦算法(TItem?CF)、時間上下相關(guān)的用戶協(xié)同過濾推薦算法(TUserCF)、時間上下相關(guān)的內(nèi)容推薦算法(TCB)、基于用戶社交關(guān)系和個人偏好興趣建模的推薦算法(OHCRec)。
推薦列表長度r從50~500, 步長為50。Preci?sion 隨推薦列表的增長而降低, 本文提出的TO?HCRec 方法在Precision 上明顯優(yōu)于所有基準(zhǔn)方法;Recall 隨著推薦列表長度r 的增加而上升, 本文提出的TOHCRec 方法在召回率上明顯優(yōu)于所有基準(zhǔn)方法。TOHCRec 和OHCRec 的F1-Score 隨著推薦列表長度r 的增加先下降后趨于穩(wěn)定, 其他基準(zhǔn)模型趨于穩(wěn)定。
總體來看, 本文構(gòu)建的TOHCRec 優(yōu)于OHCRec,原因為TOHCRec 在計算用戶間社會關(guān)系和個人偏好時基于用戶興趣的動態(tài)遷移性, 考慮了時間特征, 能更加及時地感知到用戶興趣的變化。TO?HCRec 優(yōu)于TCBRec 是因為TCBRec 中只考慮了用戶的個人偏好, 在很大程度上無法準(zhǔn)確地捕捉到用戶的興趣。TUserCF 和TItemCF 是根據(jù)用戶的歷史記錄對用戶興趣建模, 分別根據(jù)用戶和話題帖的相似性生成推薦結(jié)果。其中TItemCF 更加個性化, 是將用戶參與過的話題帖進行相似度計算, 根據(jù)話題帖相似度為用戶推薦可能感興趣的內(nèi)容; TUserCF與TItemCF 相比更加偏向社會化, 其考慮了兩用戶間的相互影響, 具體為先找到與目標(biāo)用戶興趣相似的用戶群, 并按照相似度大小對相似用戶排序, 再將相似用戶感興趣的話題帖推薦給目標(biāo)用戶。但由于OHCs 中用戶的社交關(guān)系屬于基于興趣的弱關(guān)系,導(dǎo)致TItemCF 的效果優(yōu)于TUserCF; 而TOHCRec 優(yōu)于TItemCF、TUserCF, 則是融合社交關(guān)系和個人偏好的個性化推薦算法能更準(zhǔn)確地描繪用戶的興趣。以上所有實驗結(jié)果表明, 融合動態(tài)社交關(guān)系和個人動態(tài)偏好的個性化推薦算法, 可顯著提高推薦算法的性能。
4結(jié)語
本研究構(gòu)建的融合時間特征的在線健康社區(qū)個性化推薦算法在一定程度上解決了用戶興趣存在動態(tài)遷移性的問題, 并提高了在線健康社區(qū)個性化推薦算法的準(zhǔn)確度, 為用戶興趣存在動態(tài)遷移性和緩解冷啟動、矩陣稀疏問題提供了解決思路, 進一步完善了在線健康社區(qū)的個性化推薦算法研究, 為后續(xù)在線健康社區(qū)的個性化推薦研究提供了參考。但本研究還存在一定的局限性: 由于論壇和倫理道德的限制, 導(dǎo)致本研究中用戶的個體屬性不夠充足,數(shù)據(jù)來源有限, 后續(xù)可獲取多個數(shù)據(jù)平臺的數(shù)據(jù),進行跨平臺數(shù)據(jù)的研究。