崔宸 張俊琪 劉彥松等
摘要:在某單位跨系統(tǒng)的應用場景中,用戶的個人信息對于提高服務質量和用戶體驗至關重要。然而,因為各種原因,用戶信息常存在不完整或者不準確的問題。為了解決這個問題,文章提出了一種基于多模態(tài)融合的跨系統(tǒng)用戶信息補全算法。該算法利用用戶在不同信息系統(tǒng)上留下的信息(如用戶公開的郵件信息、操作記錄等).通過多模態(tài)數(shù)據(jù)融合和信息匹配來補全用戶信息。實驗結果表明,該算法在某單位的跨系統(tǒng)用戶信息補全任務上取得了優(yōu)秀的效果。
關鍵詞:多模態(tài);數(shù)據(jù)融合;跨系統(tǒng);補全
中圖法分類號:TP391 文獻標識碼:A
1 引言
在信息化時代,個人信息成為信息系統(tǒng)應用的重要組成部分。然而,現(xiàn)實世界中存在許多問題導致系統(tǒng)中用戶信息不完整或者不準確,如在某單位的實際應用場景中,用戶可能會誤輸入信息或輸入不正確的格式,信息系統(tǒng)可能會出現(xiàn)編碼錯誤或數(shù)據(jù)庫錯誤,管理人員可能會疏忽或者誤操作,網絡原因也可能會導致信息傳輸不暢或者傳輸失敗。
近年來,隨著社交網絡的發(fā)展,為了提高服務質量和用戶體驗,用戶信息的自動補全成了一個重要的研究問題,受到了越來越多的關注。王錚等[1] 提出了一種基于隨機森林的大數(shù)據(jù)補全方法,用于填補運營商大數(shù)據(jù)中用戶的缺失信息,從而提高數(shù)據(jù)分析的準確性和可靠性,但該方法缺乏捕捉非線性特征的能力,無法充分學習用戶特征;裴楊等[2] 提出了一種基于node2vec 的社交網絡用戶屬性補全攻擊方法,首先使用node2vec 算法構建社交網絡的圖模型,將社交網絡中的用戶屬性補全攻擊轉化為在社交網絡圖模型中尋找最佳路徑的問題,通過深度學習的方法捕捉了用戶的非線性特征;張亞楠等[3] 提出了一種考慮全局和局部信息的科研人員科研行為立體精準畫像構建方法,采用深度學習技術,考慮了局部信息與全局信息,同時利用長短時記憶網絡捕捉了用戶的時序信息,但是沒有利用用戶在多個平臺之間的信息;余敦輝等[4] 首先構建了一個跨平臺的知識圖譜,用于捕捉用戶之間的跨平臺關系,然后基于知識圖譜進行用戶間的關系挖掘,從而得到跨平臺的用戶關系圖,通過跨平臺信息補全用戶屬性。
本文提出了一種基于多模態(tài)融合的跨平臺用戶信息補全算法MPC,通過融合用戶在不同平臺上留下的多種信息來實現(xiàn)用戶信息的自動補全。該算法首先構建多模態(tài)用戶信息補全模型,將用戶在不同平臺上的信息(如文本、圖像、視頻等)進行融合,使用深度學習技術捕捉用戶的非線性特征,從而實現(xiàn)用戶信息的自動補全。另外,該算法還利用了生成對抗網絡[5]
以捕捉用戶之間的跨平臺關系,從而實現(xiàn)用戶屬性的補全。
2 技術背景
用戶信息補全是指在用戶注冊或使用某產品或服務時,為了更好地了解用戶,從而收集用戶的基本信息,完善用戶的個人信息。用戶信息補全有助于更好地了解用戶,以及為用戶提供服務,滿足用戶的需求,并進行市場營銷。例如,在電商平臺上,用戶信息補全可以幫助電商公司更好地了解用戶,根據(jù)用戶的年齡、性別、職業(yè)、收入水平等信息,向用戶推薦更符合用戶需求的商品,從而增加用戶的購買意愿,提高電商的銷售額。同時,用戶信息補全也可以幫助企業(yè)更好地管理用戶,如可以根據(jù)用戶的收入水平、職業(yè)等信息,將用戶分類,從而更好地了解用戶的需求,以及進行市場營銷,并為其提供服務,進而提高企業(yè)的效率和收益。另外,用戶信息補全還可以幫助企業(yè)更好地實現(xiàn)數(shù)據(jù)分析,如可以根據(jù)用戶的性別、出生日期、收入水平等信息,對用戶進行分析,了解用戶的消費習慣,從而更好地實現(xiàn)市場營銷??傊?,用戶信息補全是企業(yè)更好地了解用戶,并為其提供服務,最終進行市場營銷的重要手段,是企業(yè)發(fā)展的重要基礎。
現(xiàn)階段,由于社交網絡的發(fā)展,用戶信息補全的相關研究受到越來越多的關注,為了提高數(shù)據(jù)質量,王錚等提出可以利用全國日志留存系統(tǒng),設計完整的數(shù)據(jù)模板樣庫,使用隨機森林算法來補全數(shù)據(jù)并優(yōu)化模板樣庫,構建數(shù)據(jù)補全子系統(tǒng),從而提升數(shù)據(jù)質量,滿足數(shù)據(jù)處理和挖掘的要求,提升運營商數(shù)據(jù)的價值;裴楊等提出了一種針對社交網絡內容安全的攻擊方法,即通過屬性推斷補全獲取用戶私密屬性,文章指出傳統(tǒng)的無監(jiān)督學習和監(jiān)督學習屬性補全方法未能有效結合結構相似性和同質性,并提出了一種基于隱式表達的用戶屬性補全攻擊方法,該方法利用NODE2VEC 算法將社交網絡中的用戶節(jié)點映射為向量,并通過聚類方法計算節(jié)點所在的社區(qū),構建分類模型并預測用戶缺失屬性;張亞楠等提出了一種考慮全局和局部信息的科研人員行為畫像方法,利用長短時記憶網絡自動提取高度抽象特征,提取科研人員局部畫像,結合全局信息構建科研人員的立體精準畫像,考慮了科研人員的信息更新行為;余敦輝等提出了一種基于知識圖譜和重啟隨機游走的跨平臺用戶推薦方法,使用改進的多層循環(huán)神經網絡(RNN)在目標平臺圖譜和輔助平臺圖譜的相似子圖中預測候選用戶實體,并結合拓撲結構特征相似度和用戶畫像相似度篩選出相似用戶,并計算用戶之間的興趣相似度,從而實現(xiàn)用戶推薦。
針對現(xiàn)階段研究沒有考慮文本、圖像、視頻等多重信息互補的問題,本文提出了基于多模態(tài)融合的跨平臺用戶信息補全算法,利用卷積神經網絡捕捉圖像信息,結合自然語言處理方法提煉文本信息,并利用生成對抗網絡實現(xiàn)用戶信息補全。生成對抗網絡(Generative Adversarial Networks,GANs) 是一種無監(jiān)督學習方法, 它包含2 個神經網絡, 即生成器(Generator)和判別器(Discriminator)。生成器的任務是從隨機噪聲中生成新的數(shù)據(jù)樣本,而判別器則試圖區(qū)分真實數(shù)據(jù)和生成器生成的數(shù)據(jù)。2 個網絡通過反復博弈的方式進行訓練,直到生成器能夠生成足夠逼真的數(shù)據(jù),使得判別器無法準確區(qū)分真實數(shù)據(jù)和生成的數(shù)據(jù)。本文算法還利用了Doc2vec[6] 、卷積神經網絡[7] 、Video2vec[8] ,其中Doc2vec 是一種無監(jiān)督算法,可將變長文本(如句子、段落或文檔)轉換成固定長度的特征表示。它也稱為Paragraph Vector 或Sentence Embeddings,可以獲取句子、段落和文檔的向量表達。Doc2vec 不需要固定句子長度,可以接受不同長度的句子作為訓練樣本。卷積神經網絡(Convolutional Neural Network,CNN)是一種經典的深度學習神經網絡,常用于圖像識別和計算機視覺任務。與傳統(tǒng)神經網絡相比,卷積神經網絡在處理具有網格狀結構(如圖像)的數(shù)據(jù)時擁有更好的表現(xiàn)。卷積神經網絡的核心思想是卷積操作,它可以提取輸入圖像的局部特征。卷積神經網絡由多個卷積層、池化層和全連接層組成。在卷積層中,卷積核對輸入的局部區(qū)域進行卷積操作,產生一個特征映射。池化層可以對特征映射進行下采樣,以降低數(shù)據(jù)維度和計算量。全連接層將池化層輸出的特征向量映射到輸出類別上。卷積神經網絡還可以使用多個卷積層和池化層來提取多級抽象特征,從而提高模型性能。同時,還有一些常用的改進方法,如殘差網絡、批歸一化等,進一步提升了卷積神經網絡的性能。Video2vec是一種視頻片段的語義和時空信息嵌入方法。它利用視頻作為語義連續(xù)的時序列幀來表達視頻的高層特征。該方法使用卷積神經網絡特征提取器和2 個門控循環(huán)端元(GRU)編碼器[9] 來學習視頻的文本信息。視頻的彩色圖像序列和光流序列被嵌入相同尺寸的表征向量中,然后使用一個多層感知機將圖像序列的表征向量和語義文本向量嵌入到一起。
4 對比方法
(1)RF:該方法基于隨機森林算法,在預處理、模型構建、預測和結果分析等方面進行了詳細研究和探索,并對隨機森林算法在運營商大數(shù)據(jù)補全中的應用進行了實證分析。
(2)Node2vec:該方法利用了node2vec 能表達節(jié)點同質性和結構相似性的特點。其將社交網絡中的節(jié)點映射到低維空間,以訓練出來的向量作為分類器的輸入,使用k?means 算法進行聚類,然后使用kNN 算法對節(jié)點的缺失信息進行補全。先聚類再分類能夠節(jié)省程序運行時間,同時該方法本質上是一個有監(jiān)督的分類問題,適用于社交網絡中的用戶屬性補全。
(3)TSP:該方法使用主題模型和長短期記憶網絡在科研人員畫像構建中處理全局及局部科研行為數(shù)據(jù),分別提取靜態(tài)和動態(tài)特征。主題模型用于處理全局數(shù)據(jù),長短期記憶網絡則用于提取科研人員的局部動態(tài)變化的科研行為。
(4)RCCP?KG:該方法基于知識圖譜實現(xiàn)輔助平臺用戶信息補全到目標平臺圖譜中,從而更全面地描述用戶行為,發(fā)現(xiàn)不同平臺間的潛在用戶關系,并實
現(xiàn)更準確的相似用戶推薦。
5 實驗
本文以本單位內部用戶多平臺信息作為數(shù)據(jù)集,用于驗證本文模型的效果。本文采用均方根誤差(RMSE)、均方誤差(MSE)以及平均絕對誤差(MAE)來評估實驗結果。均方根誤差是預測值與真實值之間差的平方的平均值的平方根。RMSE 的數(shù)值越小,表示預測誤差越小,模型的預測能力越好;均方誤差是預測值與真實值之間差的平方的平均值。MSE 的數(shù)值越小,表示預測誤差越小,模型的預測能力越好;平均絕對誤差是預測值與真實值之間差的絕對值的平均值。MAE 的數(shù)值越小,表示預測誤差越小,模型的預測能力越好。
4 種對比方法的實驗結果如表1 所列。
表1 列出了RF, Node2vec, TSP, RCCP?KG 和MPC 5 個模型使用RMSE,MSE 和MAE 3 個指標評估的結果。從表1 可以看出,MPC 在所有3 個指標下的表現(xiàn)都優(yōu)于其他4 個模型。它的RMSE 為0.234,MSE為0.055,MAE 為0.140,表明它的預測結果與真實結果之間的差異較小。而在其他4 個模型中,RF 表現(xiàn)最差,它的RMSE 為0.406,MSE 為0.165,MAE 為0.283,這體現(xiàn)出傳統(tǒng)機器學習方法在學習用戶跨平臺信息時難以充分利用現(xiàn)有信息。Node2vec 的RMSE為0.283,MSE 為0.108,MAE 為0.222,以及TSP 的RMSE 為0.281,MSE 為0.079,MAE 為0.181,說明通過深度學習的方式能夠有效提升捕捉用戶跨平臺信息的能力。RCCP?KG 的表現(xiàn)也較為優(yōu)秀,其RMSE為0.406,MSE 為0.165,MAE 為0.283,這表明了考慮用戶跨系統(tǒng)信息的重要性,通過用戶在不同系統(tǒng)中的信息互補,可以有效提升用戶信息補全效果,但與MPC 相比,仍然存在差距,這也體現(xiàn)了本文提出的基于多模態(tài)數(shù)據(jù)融合的跨系統(tǒng)用戶信息補全算法的優(yōu)異性,證明了用戶的多模態(tài)信息之間可以有效互補以提升用戶的信息補全效果。
6 展望
隨著大數(shù)據(jù)和深度學習技術的不斷發(fā)展,基于多模態(tài)數(shù)據(jù)融合的跨系統(tǒng)用戶信息補全算法已經成為一個非常有前景的研究方向。在這個方向上,未來可能會出現(xiàn)以下趨勢。
多模態(tài)數(shù)據(jù)的應用范圍將不斷擴大。隨著傳感器
和計算機視覺等技術的不斷進步,我們可以獲取越來越多的多模態(tài)數(shù)據(jù),如文本、圖片、音頻、視頻等,這類數(shù)據(jù)可以在用戶信息補全問題中得到更廣泛的應用。
深度學習技術將成為主流。深度學習技術在圖像、語音、自然語言處理等領域取得了重大的突破,未來將更多地應用于多模態(tài)數(shù)據(jù)融合的用戶信息補全問題中。
跨系統(tǒng)用戶信息的挖掘與融合??缦到y(tǒng)用戶信息的融合涉及多個系統(tǒng)、多個數(shù)據(jù)源之間的信息集成和交互,因此需要在用戶信息補全算法中引入數(shù)據(jù)挖掘技術和信息融合技術,從而實現(xiàn)跨系統(tǒng)用戶信息的高效補全。
可解釋性和隱私保護。在用戶信息補全算法中,需要考慮數(shù)據(jù)的可解釋性和隱私保護問題,這些問題將成為未來算法設計中的重要考慮因素。為了確保算法的可靠性和用戶的隱私安全,需要開展更多的相關研究。
綜上所述,基于多模態(tài)數(shù)據(jù)融合的跨系統(tǒng)用戶信息補全算法在企業(yè)用戶信息管理中具有重要價值,可以提升企業(yè)的工作效率以及企業(yè)用戶的用戶體驗,并幫助企業(yè)開展智能化管理工作。
7 結束語
本文介紹了一種基于多模態(tài)數(shù)據(jù)融合的跨系統(tǒng)用戶信息補全算法,旨在解決用戶信息不完整的問題,即當用戶在使用不同的系統(tǒng)時,其個人信息可能會有所不同,從而導致信息不完整。該算法結合了多種數(shù)據(jù)源,包括用戶填寫的文本信息、用戶上傳的圖像以及用戶上傳的視頻,通過多模態(tài)融合的方式來補全用戶信息。
實驗證明,本文算法表現(xiàn)優(yōu)秀,相較于傳統(tǒng)的基于機器學習的方法與當前基于深度學習的主流方法,該算法在用戶信息補全的準確性上顯著提升。另外,該算法的應用還有一定的實際意義,如可以用于社交媒體平臺中的用戶信息補全,提升用戶體驗和社交媒體平臺的精準營銷效果。
參考文獻:
[1] 王錚,任華,方燕萍.隨機森林在運營商大數(shù)據(jù)補全中的應用[J].電信科學,2016,32(12):7?12.
[2] 裴楊,瞿學鑫,郭曉博,等.基于node2vec 的社交網絡用戶屬性補全攻擊[J].信息網絡安全,2017 (12): 67?72.
[3] 張亞楠,黃晶麗,王剛.考慮全局和局部信息的科研人員科研行為立體精準畫像構建方法[J].情報學報,2019,38(10):1012?1021.
[4] 余敦輝,張蕗怡,張笑笑,等.基于知識圖譜和重啟隨機游走的跨平臺用戶推薦方法[J].計算機應用,2021,41(7):1871.
[5] GOODFELLOW I, POUGET?ABADIE J, MIRZA M, et al.Generative adversarial networks [J]. Communications of theACM,2020,63(11):139?144.
[6] LE Q,MIKOLOV T.Distributed representations of sentencesand documents [ C] ∥ International conference on machinelearning,PMLR,2014:1188?1196.
[7] 常亮,鄧小明,周明全,等.圖像理解中的卷積神經網絡[J].自動化學報,2016,42(9):1300?1312.
[8] HU S H,LI Y,LI B. Video2vec:Learning semantic spatio?temporal embeddings for video representation[C]∥2016 23rdInternational Conference on Pattern Recognition ( ICPR),IEEE,2016:811?816.
[9] CHO K, VAN MERRI?NBOER B, GULCEHRE C, et al.Learning phrase representations using RNN encoder?decoderfor statistical machine translation[J].arXiv preprint,2014.
作者簡介:崔宸(1996—),碩士,助理工程師,研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘。