• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      國內(nèi)基于大數(shù)據(jù)的信息推薦研究進展:核心內(nèi)容

      2020-08-19 12:59孫雨生朱金宏李亞奇
      現(xiàn)代情報 2020年8期
      關(guān)鍵詞:信息資源管理個性化大數(shù)據(jù)

      孫雨生 朱金宏 李亞奇

      摘 要:[目的/意義]從用戶興趣建模、推薦機制、信息資源管理3方面闡述國內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進展。[方法/過程]文章用內(nèi)容分析法歸納了263篇文獻內(nèi)容,從用戶興趣建模、推薦機制、信息資源管理3方面闡述了國內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進展。[結(jié)果/結(jié)論]基于大數(shù)據(jù)的用戶興趣建模主要結(jié)合大數(shù)據(jù)技術(shù)改進傳統(tǒng)用戶興趣建模,包括模型表示、模型初始化和模型進化;基于大數(shù)據(jù)的推薦機制主要改進、混合傳統(tǒng)推薦機制并優(yōu)化推薦結(jié)果;基于大數(shù)據(jù)的信息資源管理包括數(shù)據(jù)采集、數(shù)據(jù)挖掘、數(shù)據(jù)表示、數(shù)據(jù)存儲和數(shù)據(jù)更新。

      關(guān)鍵詞:大數(shù)據(jù);信息推薦;用戶興趣建模;信息資源管理;個性化

      Abstract:[Purpose/Significance]In order to reveal research development on core content of information recommendation based on big data in China from three aspects of user interest modeling,recommendation mechanism and information resource management.[Method/Process]Using the content analysis method,the authors summarized the content of the 263 articles,and expounded the core content research development of information recommendation based on big data in China from three aspects of user interest modeling,recommendation mechanism and information resource management.[Result/Conclusion]User interest modeling based on big data mainly improved traditional user interest modeling with big data technology.It included model representation,model initialization and model evolution.The recommendation mechanism based on big data mainly reforms,combined the traditional recommendation mechanism and optimized recommendation outcome.The information resources management based on big data included data collection,data mining,data representation,data storage and data update.

      Key words:big data;information recommendation;user interest modeling;information resource management;personalization

      伴隨移動互聯(lián)網(wǎng)[1]、社交網(wǎng)絡(luò)[2]、GPS、智能終端[3-7]、云計算[8-9]、物聯(lián)網(wǎng)[2,6,10-12]等技術(shù)迅猛發(fā)展,人類社會急劇變革并快速邁入大數(shù)據(jù)時代(從數(shù)據(jù)荒漠邁向信息海洋:領(lǐng)域行業(yè)性應(yīng)用亟待智能化[1,4,13-15]改造、數(shù)字化創(chuàng)新,用戶獲取信息來源、工具及維度日益豐富,導(dǎo)致信息處理量、認知負荷猛增),致使信息過載[4-5,9,11,16-23]、知識掩埋[9,12,22](信息不規(guī)范轉(zhuǎn)載、差異化處理(標注社會化[3,12]、標準多樣化[10]分別導(dǎo)致結(jié)果同質(zhì)化、失真)等固有問題愈發(fā)嚴峻,對此,目前多采用信息推薦機制實現(xiàn)由以信息資源管理為核心向以用戶個性化服務(wù)為核心轉(zhuǎn)型并最終達到“信息找人”目的,傳統(tǒng)信息推薦技術(shù)多通過算法定制、規(guī)則提取等[4,10,21,24-32]提升信息服務(wù)效率及質(zhì)量、提高信息資源處理自動化程度及挖掘深度以實現(xiàn)“千人千面”并緩解用戶認知負荷但存在間接加劇用戶圈層化(忽視用戶潛在需求[4,13,16,33]致使推薦模式趨同、結(jié)果重復(fù)[10,13,25,31,33]、處理“數(shù)據(jù)荒漠”問題方法較固定(集中、全局式處理)、難適應(yīng)多源異構(gòu)海量數(shù)據(jù)[1,4,12-13,17,19,27,30-31,33-36]環(huán)境(影響推薦效率[3,33,37]等問題,客觀急需構(gòu)建面向大數(shù)據(jù)的新型信息服務(wù)機制,在這種形勢下,基于大數(shù)據(jù)的信息推薦應(yīng)運而生,其以本體[33]、全局計算(相似填充[1,4,10,16,20-21,25,35]、模型構(gòu)建[15,26,28,36]、神經(jīng)網(wǎng)絡(luò)[3,21,29,33]、數(shù)據(jù)(局部、典型值[3]、聚類[1,3-4,10,19,21,23,29-30,33,36]、分布式[8]、分段[29]挖掘[38]、深度學(xué)習(xí)[1,23]等技術(shù)精準定位“信息海洋”中用戶需求[35],基于并行化思想[1,4,16,19,24,36]并結(jié)合用戶情境[8,13,22]、社會關(guān)系、動態(tài)反饋[7,36]等優(yōu)化[16,18]推薦機制及結(jié)果以智能推薦,結(jié)合大數(shù)據(jù)處理技術(shù)[8,10,24-25,33,35-37]多渠道全面系統(tǒng)動態(tài)采集并分別壓縮、重構(gòu)、整合[27]數(shù)據(jù)(含信息、知識)資源以部分解決傳統(tǒng)信息資源管理中數(shù)據(jù)缺失、來源限制、信息匱乏[32,39]等問題及信息推薦擴展性、稀疏性、冷啟動等問題[1,4-5,10,12,14,16,18-19,21,23,25,28-31,33-36]進而實現(xiàn)大規(guī)模、多樣化、動態(tài)化[1,13,16,18,34]、個性化[8,15,22,26,30,33]智能推薦并促使信息推薦邁入“一人千面”時代。因此,研究基于大數(shù)據(jù)的信息推薦問題有重要意義。

      本文以知網(wǎng)、萬方的學(xué)位論文庫、期刊論文庫及維普的期刊論文庫為信息源,以“大數(shù)據(jù)”和“推薦”為關(guān)鍵詞組合在題名中檢索相關(guān)文獻(截至2020年3月8日,從知網(wǎng)獲期刊論文166篇、碩博論文55篇,從萬方獲期刊論文114篇(新發(fā)現(xiàn)14篇)、碩博論文48篇(新發(fā)現(xiàn)9篇),從維普獲期刊論文176篇(新發(fā)現(xiàn)19篇),合計263篇);詳讀263篇文獻歸納國內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進展并根據(jù)提及頻次、內(nèi)容質(zhì)量詳細標注,本著最大限度反映國內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進展重要文獻、優(yōu)中選優(yōu)(剔除標注次數(shù)少、與其他標注文獻內(nèi)容重復(fù)文獻)原則選出43篇參考文獻(內(nèi)容覆蓋263篇文獻);最后從用戶興趣建模、推薦機制、信息資源管理3方面闡述國內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進展。

      1 基于大數(shù)據(jù)的用戶興趣建模

      作為基于大數(shù)據(jù)的信息推薦前提和基礎(chǔ),用戶興趣建模核心是提取、處理特征、行為等屬性數(shù)據(jù)以構(gòu)建、存儲(緩存)、進化用戶興趣模型,精準表示用戶興趣[34]。

      1.1 建模思路

      鄧玉林[36]基于分片聚類構(gòu)建用戶短期興趣模型,基于潛在語義分析特征向量矩陣并聚類出興趣集構(gòu)建用戶長期興趣模型;屠海龍[23]、嚴克文[28]基于用戶相異度(用同項目評分差絕對值度量)、項目特征[29]向量構(gòu)建用戶相異度矩陣以量化用戶興趣間差異進而構(gòu)建用戶興趣模型;丁繼紅等[9]構(gòu)建用戶(風格、動機、認知、目標、興趣)、項目(類型、格式、交互方式、難易度)、行為軌跡(時間、地點、載體、天氣、心情)子張量并關(guān)聯(lián)融合(張量連接,張量同維合并、張量異維保留、張量內(nèi)元素相乘(原多張量中元素排列組合成新張量元素)),基于學(xué)習(xí)者、學(xué)習(xí)時間、學(xué)習(xí)地點、所用設(shè)備、資源五維融合子張量構(gòu)建用戶興趣模型;此外,段文彬[32]基于傳播貢獻度(用戶點擊數(shù)與訪問量)、用戶影響力(轉(zhuǎn)發(fā)次數(shù)、他人評價、被提及數(shù))、用戶活躍度(系統(tǒng)自動評論數(shù),用戶對數(shù)據(jù)資源評論數(shù),用戶回復(fù)他人評論數(shù)和用戶周訪問數(shù))構(gòu)建用戶興趣模型并基于粗糙集識別潛在用戶、離散化潛在用戶數(shù)據(jù)(分割屬性種類)、約簡潛在用戶關(guān)鍵屬性、基于置信度提取規(guī)則構(gòu)建潛在用戶興趣模型。

      1.2 模型表示

      基于大數(shù)據(jù)的用戶興趣模型表示主要研究表示原則和方法,遵循表示基本原則、結(jié)合多種方法規(guī)則化、層次化、多元化表示用戶興趣:前者包括模型、方法、數(shù)據(jù)分別管理,模型低耦合高內(nèi)聚,用戶、項目、規(guī)則易匹配,模型易遷移復(fù)用;后者多用矩陣法,丁繼紅等[9]提出基于張量法,王俞翔[10]提出基于用戶-項目評價矩陣法,鄧玉林[36]提出基于特征向量矩陣法,謝瑤瑤[25]、嚴克文[28]提出基于相異度用戶矩陣表示法,胡蓉[21]提出基于向量空間模型法、基于顆粒度法、基于神經(jīng)網(wǎng)絡(luò)法,鄒小波[1]提出基于張量分解法、基于網(wǎng)絡(luò)模型法、基于主題模型法,李翠平等[5]提出基于語義網(wǎng)絡(luò)法,董小妹[33]提出基于本體法,屠海龍[23]提出基于譜聚類法(用子圖表示用戶聚類結(jié)果,用節(jié)點表示用戶群的共同興趣項,用節(jié)點間邊權(quán)值表示用戶群興趣相似性)。

      1.3 模型初始化

      區(qū)別于傳統(tǒng)用戶興趣模型多基于用戶顯性信息初始化并結(jié)合隱性信息優(yōu)化,基于大數(shù)據(jù)的用戶興趣模型多用大數(shù)據(jù)技術(shù)全面系統(tǒng)采集、處理用戶屬性、興趣、行為、情境、項目等信息初始化并結(jié)合基于大數(shù)據(jù)技術(shù)的用戶隱性興趣預(yù)測進行優(yōu)化。

      1.3.1 數(shù)據(jù)采集

      此處僅闡述用戶信息采集,其他見3.1節(jié)。

      1)采集來源

      鑒于大數(shù)據(jù)環(huán)境下用戶興趣建模動態(tài)性、精確性需求及用戶興趣數(shù)據(jù)來源廣泛,用戶興趣大數(shù)據(jù)采集需基于平臺計算能力限度、用戶容忍度(結(jié)合QoS評價確定)構(gòu)建用戶興趣大數(shù)據(jù)集群以動態(tài)、全面、準確采集(遷移)用戶顯隱性數(shù)據(jù),包括社交媒體[18,27]、用戶數(shù)據(jù)庫、智能終端[3,13,16,24,28,30,33-34,40-41]、傳感器[13]、物聯(lián)網(wǎng)[32],此外,段文彬[32]以用戶征信平臺為數(shù)據(jù)源。

      2)采集類型

      針對用戶興趣,李翠平等[5]按穩(wěn)定性分長期(反映真實興趣)、短期(反映興趣變化,多與熱點相關(guān))興趣;段文彬[32]按存在形式分顯性(包括用戶主動定制[5](回答問題)、歸一化評分[35](兩級、多級評分)、傳統(tǒng)用戶信息(紙質(zhì)文獻型、縮微聲像型)、數(shù)字用戶信息(單機、聯(lián)機型)[32],直觀易獲取[16]但耗時且主觀性強)、隱性[18](被動記錄、自動生成,真實性強但缺少交互)興趣,按保密性分公開、半公開、非公開型,按存儲介質(zhì)分傳統(tǒng)型(紙質(zhì))、磁介質(zhì)型(軟盤、光盤、硬盤)、網(wǎng)絡(luò)型(網(wǎng)絡(luò)平臺、云存儲)、無介質(zhì)型(交流獲取未記錄載體信息),按用途分業(yè)務(wù)型、管理型、戰(zhàn)略型[32]。

      3)采集內(nèi)容

      主要采集用戶基本信息[6,22,33](涉及ID、姓名、性別、出生年月、民族、地域[13]、婚姻、學(xué)歷、專業(yè)、單位、職業(yè)[22,33]、語言、宗教、社會關(guān)系、住址、社團、收入、聯(lián)系方式[8]、權(quán)限[41]、興趣信息(性格、特長、標簽[2,7,19,24,28-29]、行為信息[18,22-23,28](注冊(年齡、注冊時間)、登錄(ID、地點、時間、操作系統(tǒng)、登錄設(shè)備)、請求[21](輸入、檢索(主題詞、時間、地點、關(guān)聯(lián)度)、咨詢)、瀏覽[39](閱讀(內(nèi)容與模式)[13]、觀看[23],涉及對象[6](類型[36]、名稱、路徑、訪問頻次[18,33,36]、點擊[39](是否點擊、點擊時間地點、滯留時長、點擊順序)[36]、推薦確認(推薦項目ID、用戶反饋、時間、地點)、收藏、下載、購買[32-33,36,39]、評價(評分[5,41]、評論,涉及對象ID、時間[41]、地點、內(nèi)容[36]、分享、社交[13]、線下移動路徑[13]、情境信息[8,22](領(lǐng)域、知識層次[8]、語境、場景(心理情緒[13][13,22]、時空[13,21]、所接觸項目信息[21-22](項目描述[21]、項目內(nèi)容(音頻、視頻、書目、專利、文獻[22]、所屬主題[5,18]、項目操作(轉(zhuǎn)載、排序、熱點及趨勢分析[5,18]、社交網(wǎng)絡(luò)構(gòu)建)、終端參數(shù)[13,22](品牌、機型、操作系統(tǒng)、芯片型號、內(nèi)存容量))。

      4)采集方式

      基于大數(shù)據(jù)的用戶興趣采集強調(diào)時效性、全面性,方式分在線采集(初始化用戶興趣模型)、離線采集及混合采集(進化用戶興趣模型)且多在線采集:尤海浪等[17]、劉海鷗等[22]基于Flume實時采集用戶日志;陳玉兆[16]基于多終端采集用戶數(shù)據(jù)并離線存儲;楊國龍[29]基于企業(yè)大數(shù)據(jù)平臺采集用戶數(shù)據(jù);鄧玉林[36]基于Hadoop采集用戶興趣數(shù)據(jù),調(diào)用用戶數(shù)據(jù)庫接口采集用戶注冊信息,通過系統(tǒng)日志提取、Cookie(分析用戶日志)采集用戶登錄、檢索行為并分析其網(wǎng)站瀏覽信息及習(xí)慣,通過推薦系統(tǒng)數(shù)據(jù)庫采集用戶推薦確認、評分信息,通過瀏覽器(涉及Cookie、JS)歷史記錄(用戶、電商商戶)采集用戶購買信息;韓莉[38]基于Web采集非結(jié)構(gòu)化數(shù)據(jù)填充用戶數(shù)據(jù);李佳[40]基于MySQL、Oracle、HBase等數(shù)據(jù)庫采集用戶數(shù)據(jù)。此外,孟祥武等[18]提出重點研究大數(shù)據(jù)環(huán)境下用戶隱性數(shù)據(jù)采集方式。

      1.3.2 數(shù)據(jù)處理

      1)數(shù)據(jù)預(yù)處理

      多結(jié)合在線計算(用神經(jīng)網(wǎng)絡(luò)[3]、云計算虛擬化技術(shù)[24]處理結(jié)構(gòu)化數(shù)據(jù)(文本[33]、標簽[2,7,19,24,28-29]、用戶基本信息[6])、離線處理(標準化、結(jié)構(gòu)化(集成NLP、概率統(tǒng)計、AI與機器學(xué)習(xí)方法[29]半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))實現(xiàn)數(shù)據(jù)清洗、歸一化[33]、規(guī)范化、合并/拆分(均衡大數(shù)據(jù)分析粒度)[29]、集成存儲:婁建樓[12]基于TF-IDF、分布式計算預(yù)處理行為文本、項目信息[29]得出用戶興趣標簽;胡蓉[21]通過更新停用詞、擴展縮寫詞、提取詞干預(yù)處理用戶日志;段文彬[32]基于列表刪除、成對刪除法剔除完全隨機缺失數(shù)據(jù),基于加權(quán)法、單值插法、極大似然估計、最大期望算法預(yù)測填充隨機缺失數(shù)據(jù)以預(yù)處理用戶興趣;鄧玉林[36]基于TF-IDF法、單一數(shù)據(jù)標準化法、混合數(shù)據(jù)標準化法預(yù)處理用戶興趣。此外,段文彬[32]構(gòu)建HDFS物理存儲層、虛擬資源池層(虛擬化并動態(tài)替換數(shù)據(jù)節(jié)點)、數(shù)據(jù)轉(zhuǎn)化層(通過縮放特征、構(gòu)造特征、逆規(guī)范化重構(gòu)數(shù)據(jù)并統(tǒng)一格式)、資源組合層(構(gòu)建用戶興趣數(shù)據(jù)集)預(yù)處理用戶、項目數(shù)據(jù)。

      2)興趣度量化及優(yōu)化

      基于大數(shù)據(jù)的用戶興趣度量化涉及用戶興趣特征量化(結(jié)合大數(shù)據(jù)分析統(tǒng)計頻率、設(shè)定權(quán)值)、基于用戶區(qū)分度的興趣特征權(quán)值調(diào)整以精確表示用戶興趣項及興趣度:胡蓉[21]提出基于文檔頻率法(按文檔頻率閾值選擇特征詞)、信息增益法(基于評估特征詞出現(xiàn)前后信息量差異的熵值選擇特征詞)、互信息法(基于在特定類別中出現(xiàn)頻率選擇特征詞)、x2統(tǒng)計量法(檢驗列聯(lián)表按與文檔類別關(guān)聯(lián)度選擇特征詞)、文本證據(jù)權(quán)法(計算類別出現(xiàn)頻率與特征詞出現(xiàn)時類別出現(xiàn)條件概率之差以按與類別相關(guān)度選擇特征詞)、TF-IDF法量化特征權(quán)值并選擇特征詞集構(gòu)建用戶興趣模型。

      1.4 模型進化

      集中于基于大數(shù)據(jù)更新動態(tài)學(xué)習(xí)、更新用戶興趣模型:針對前者,王俞翔[10]歸一化評分以計算均值,重設(shè)評分區(qū)間(端值分別為所有最小值、最大值均值,降低稀疏性),計算新用戶-項目評分矩陣并構(gòu)建評分預(yù)測算法促進用戶興趣學(xué)習(xí)。針對后者,胡蓉[21]混合時間窗口法、遺忘函數(shù)法以引入時間因素、兼顧長短期興趣進行模型更新;嚴克文[28]基于用戶選擇、評價進行模型增量更新;胡一[34]分別基于用戶反饋(評價、評分)、Web日志挖掘(針對用戶行為)進行模型直接、間接更新。此外,鄒小波[1]基于數(shù)據(jù)倉庫離線數(shù)據(jù)計算用戶評分矩陣偏置量、相似度(方便系數(shù)參數(shù)調(diào)優(yōu)),訓(xùn)練迭代次數(shù)、正則化系數(shù)、數(shù)據(jù)集類型參數(shù)并融入偏置量、相似度進行模型進化。

      2 基于大數(shù)據(jù)的信息推薦機制

      信息推薦機制是推薦系統(tǒng)核心,直接決定推薦性能,基于大數(shù)據(jù)的信息推薦機制針對大數(shù)據(jù)環(huán)境下信息推薦面臨問題,對傳統(tǒng)推薦機制進行并行化改進(提升推薦規(guī)模、動態(tài)性,解決冷啟動問題)、組合(提升推薦針對性、多樣性)、推薦結(jié)果優(yōu)化。

      2.1 基于大數(shù)據(jù)的推薦機制并行化改進

      2.1.1 基于內(nèi)容推薦

      基于內(nèi)容推薦分析提取項目特征并向量化[4],匹配用戶興趣模型并推薦(常基于用戶興趣主題向量、Web日志特征向量加權(quán)、計算后推薦[33],大數(shù)據(jù)環(huán)境下基于內(nèi)容推薦機制改進集中于內(nèi)容提取算法優(yōu)化以提升提取規(guī)范性(精度、效率)并降低提取規(guī)模:嚴克文[28]通過提前遴選項目特征[42]并形成用戶需求配置文件,依托信息檢索、過濾[25]獲取并推薦項目[28]以改進內(nèi)容提取過程;謝瑤瑤[25]基于關(guān)鍵詞賦權(quán)(TF-IDF[4,25,36,40]、概率模型[25,29]、特征分析[4,35]、NLP、模糊聯(lián)想記憶神經(jīng)網(wǎng)絡(luò)、AI[29]、統(tǒng)計分析、機器學(xué)習(xí)[25,29]等改進內(nèi)容提取技術(shù);葉志強[41]提出結(jié)合用戶興趣、評分均值賦權(quán)用戶興趣項,計算詞頻差異特征并向量化文檔以提升內(nèi)容提取精度;董小妹[33]提出基于反饋信息的自適應(yīng)學(xué)習(xí)算法改進內(nèi)容提取效率。

      2.1.2 協(xié)同過濾推薦

      協(xié)同過濾推薦定義與內(nèi)涵見文獻[26],推薦思路契合大數(shù)據(jù)處理特點,基于大數(shù)據(jù)的協(xié)同過濾推薦機制依托大數(shù)據(jù)聚類、壓縮緩解傳統(tǒng)協(xié)同推薦的數(shù)據(jù)稀疏、海量異構(gòu)問題,通過用戶及項目特征預(yù)測、補全及提取規(guī)范化提升相似度計算精度、推薦效率。

      1)基于內(nèi)存協(xié)同過濾推薦

      大數(shù)據(jù)環(huán)境下基于內(nèi)存協(xié)同過濾推薦基于評分矩陣發(fā)現(xiàn)與目標用戶(項目)相似用戶(項目)并結(jié)合其對候選項目評分推薦[4,40],多針對大數(shù)據(jù)特點通過算法改進提高推薦質(zhì)量,流程為評分采集、相似度計算、近鄰發(fā)現(xiàn)、評分選擇、項目推薦[4,19,25,30,40,43](TOP-N推薦[4,11,40],按對象分基于用戶協(xié)同推薦和基于項目協(xié)同推薦。

      針對大數(shù)據(jù)環(huán)境下基于用戶協(xié)同推薦中相似度計算問題,鄒小波[1]結(jié)合RecTree(推薦樹)并行化構(gòu)建葉子節(jié)點以聚類用戶向量進而改進用戶相似度算法;曹萍[4]基于Spearman秩相關(guān)、條件概率法量化相似度;沈杰[30]基于AC(余弦調(diào)整)、MSD(均方差)、SRC(Spearman秩相關(guān))法量化相似度;鄧玉林[36]基于歐幾里德距離量化相似度;李佳[40]基于Jaccrad相似度、余弦相似(空間向量相似度[4,10,16,19,28-29,33,36,40]、Pearson相似度[4,10,16,19,28,30,33,36,40]、修正余弦相似度[4,10,19,28,40](剔除用戶平均評分[4,10,28,40]以降低計算量、提升計算精度)量化相似度。此外,謝瑤瑤[25]正交化處理近鄰數(shù)據(jù)以標準化并加權(quán)近鄰評分進而預(yù)測用戶評分。

      針對大數(shù)據(jù)環(huán)境下基于項目協(xié)同推薦中相似度計算問題,曲朝陽等[15]基于用戶興趣形成初步推薦結(jié)果,基于Apriori算法挖掘項目關(guān)聯(lián)規(guī)則以基于項目協(xié)同推薦并調(diào)整結(jié)果序列;張健[42]結(jié)合項目特征、評分數(shù)據(jù)處理改進項目建模,基于項目間相似度確定近鄰,進而結(jié)合用戶興趣模型、Pearson算法推薦[4,10,19,29,33,35,40]。

      2)基于模型協(xié)同過濾推薦

      主要研究大數(shù)據(jù)環(huán)境下基于模型協(xié)同推薦用戶-項目模型構(gòu)建及模型相似度計算問題[19],鄒小波[1]提出整合臨近算法、協(xié)同過濾算法的KNN-ALS算法,基于回歸法填充評分矩陣缺失值以改進用戶-項目模型構(gòu)建,進而結(jié)合矩陣分解(結(jié)合交替最小二乘法、考慮用戶或項目相似度)改進模型相似度計算;曹萍[4]提出基于原始評分矩陣初步生成用戶平均評分并挖掘用戶及其項目行為后優(yōu)化以構(gòu)建用戶-項目模型,基于評分均值(剔除異常評分)相似度、依托概率計算/設(shè)定的閾值(壓縮計算范圍)優(yōu)化用戶-項目模型相似度并行化計算;陳玉[14]提出構(gòu)建用戶-項目評分矩陣并基于改進FCM算法聚類成簇進而基于簇中矩陣相似度協(xié)同推薦;屠海龍[23]融合項目-類別矩陣、用戶-項目評分矩陣構(gòu)建用戶-項目偏好矩陣[19],基于CSPA(節(jié)點間相似度)思路集成圖聚類算法、BC-Slope One(混合聚類、評分排序)算法生成矩陣相似性譜聚類進而并行化推薦;丁繼紅等[9]基于用戶-項目-行為軌跡融合張量構(gòu)建全局用戶-項目張量,抽取學(xué)號、時間、地點、設(shè)備、項目號五維特征融合成子張量,進而關(guān)聯(lián)兩者分析(高階奇異值分解后融合子張量并選擇)出核心張量、因子矩陣并連續(xù)模乘以通過相似填充進行重構(gòu),進而得出近似張量進行推薦。此外,董小妹[33]構(gòu)建領(lǐng)域本體庫描述用戶、項目,基于層次、屬性信息分別計算用戶本體、項目本體相似度進而分別構(gòu)建用戶、項目本體樹以輔助并行化協(xié)同過濾推薦;李佳[40]提出混合時間因子(降低舊興趣權(quán)值)、共同評分項目數(shù)優(yōu)化用戶相似度,基于K-Means聚類相似用戶,基于偏差矩陣分解預(yù)測近鄰用戶項目評分并計算其真實、預(yù)測值均差,優(yōu)化用戶對項目評分預(yù)測進而推薦;胡蓉[21]按評分相似度閾值聚類用戶-項目評分并計算相似用戶平均評分,加權(quán)后預(yù)測目標用戶評分,提升協(xié)同推薦速度、精度。

      2.1.3 情境化推薦

      基于大數(shù)據(jù)的情境化推薦整合、挖掘線上線下情境數(shù)據(jù)以補全數(shù)據(jù)、提升情境化推薦精準性、動態(tài)性,實現(xiàn)情境推薦模態(tài)化、應(yīng)用生態(tài)化,主要研究推薦情境分類、推薦機制改進:前者按獲取途徑分線上用戶行為情境感知(基于用戶檢索、時空行為分析大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境,支持按行為特點推薦)、線下物理情境感知(依托實名制及云計算、數(shù)據(jù)挖掘技術(shù),基于物聯(lián)網(wǎng)、傳感器感知),按應(yīng)用場景分情境預(yù)測(基于用戶信息、興趣及檢索記錄)、情境主體互換(通過用戶間情境信息交互豐富當前情境以滿足所有用戶情境化推薦需求)、情境進化(融合用戶行為歷史、知識需求動態(tài)構(gòu)建大數(shù)據(jù)情境)[8]。針對后者,鄒小波[1]融合上下文情境、時間衰減因子進行基于時間上下文情境推薦;周蘇亭[8]基于云計算、大數(shù)據(jù)技術(shù)挖掘用戶檢索記錄、興趣并結(jié)合用戶情境進行個性化推薦、基于反饋優(yōu)化相似度計算以提升推薦效果;馬曉亭[13]構(gòu)建用戶情境數(shù)據(jù)庫,基于推薦質(zhì)量反饋、移動設(shè)備實時情境感知預(yù)測用戶需求變化進而推薦;此外,胡蓉[21]提出上下文情境感知推薦范式分上下文預(yù)過濾(推薦前按上下文預(yù)過濾推薦相關(guān)數(shù)據(jù)集)、上下文后過濾(推薦后基于上下文過濾/排序推薦結(jié)果)、上下文建模(結(jié)合推薦情境進行用戶興趣、資源建模及推薦機制設(shè)計)。

      2.1.4 社會化推薦

      基于大數(shù)據(jù)的社會化推薦基于社交網(wǎng)絡(luò)、社交媒體挖掘用戶社群、信任網(wǎng)絡(luò)補全用戶數(shù)據(jù)以提升數(shù)據(jù)稠密度,尋找相似(信任)用戶集,挖掘潛在(新異)關(guān)系進行推薦:吳淑凡[2]基于Mark-ov鏈圖隨機游走算法構(gòu)建隨機游走模型C-LRWR(基于網(wǎng)絡(luò)結(jié)構(gòu)推薦算法預(yù)測鏈路):先通過標簽傳播算法提?。ㄓ脩簦┕?jié)點特征以標簽化用戶并劃分社區(qū)、計算社區(qū)用戶相似度,為用戶推薦好友集及其感興趣社區(qū);劉海鷗[11]提出移動SNS信任模型以從信任網(wǎng)絡(luò)聚集、共引維度挖掘移動SNS潛在社會信任關(guān)系,并行化推薦相似用戶集;沈杰[30]提出按項目類別分類用戶,基于標簽傳播算法挖掘候選信任用戶集,用皮爾遜算法計算目標用戶與信任用戶評分相似度并用Logistic函數(shù)映射成信任值進而確定信任用戶集,計算信任用戶項目類評論占全項目類總評論比例以確定并并行化推薦高信任度項目類;金偉晟[19]提出可信社團發(fā)現(xiàn)方法分基于圈定法(涉及基于譜平分法、W-H法(電阻網(wǎng)絡(luò)電壓譜))、基于距離法(涉及Kernighan-Lin法、可信標簽傳播法)、基于聚類法(涉及分裂層次聚類法、凝聚聚類法、分裂聚類法)3類,常用于劃分評估用戶信任網(wǎng)絡(luò)、計算網(wǎng)絡(luò)內(nèi)用戶間相似度以協(xié)同推薦。此外,婁建樓等[12]提出基于用戶RT-G貪婪算法實時推薦網(wǎng)站:基于信任網(wǎng)絡(luò)發(fā)現(xiàn)合適數(shù)量用戶并基于其評價網(wǎng)站標準發(fā)現(xiàn)目標用戶可能感興趣網(wǎng)站集,融合通過迭代發(fā)現(xiàn)的最信任用戶集及其網(wǎng)站訪問頻度形成最終網(wǎng)站推薦列表。

      2.2 基于大數(shù)據(jù)的推薦機制組合

      基于大數(shù)據(jù)的混合推薦應(yīng)用廣泛性僅次協(xié)同過濾推薦,其基于結(jié)構(gòu)調(diào)整、流程改造、算法優(yōu)化動態(tài)適應(yīng)大數(shù)據(jù)海量、異構(gòu)、稀疏、快速生成特性并提升推薦性能,主要研究算法混合方式并按混合機制、階段分類:按混合機制分特征組合[4]、特征擴充(主要算法集成次要算法特征信息[4,40]、分層混合(前算法結(jié)果輸入后算法推薦[4,16]、元級混合(將前面算法所得模型迭代輸入后序推薦算法進行推薦[4,40]以整合各模型優(yōu)勢[4]、分區(qū)混合(按場景選擇算法[16][4,16,36,40]、切換[24](推薦過程中動態(tài)調(diào)整算法[4,16]、推薦結(jié)果(加權(quán)[4,16,28]混合[4];按混合階段分前融合(直接融合推薦算法再推薦)、中融合(推薦過程中按預(yù)期效果將一推薦算法融入另一算法框架[28]、后融合(直接融合推薦結(jié)果)[4,16,40]。此外,姚靜天[31]按推薦流程分并行式、串行式、整體式(并行、串行式混合);李翠平等[5]基于Duine框架動態(tài)配置大數(shù)據(jù)環(huán)境下內(nèi)容推薦和協(xié)同過濾推薦(預(yù)測填充)算法混合參數(shù)。

      2.3 基于大數(shù)據(jù)的推薦結(jié)果優(yōu)化

      主要是基于QoS(以服務(wù)屬性揭示服務(wù)質(zhì)量及其用戶滿意度[19,21]最優(yōu)化大數(shù)據(jù)環(huán)境下推薦結(jié)果排序組合(按功能需求組合非功能屬性以提升用戶滿意度[3,19],?;诘湫椭稻垲愃惴?、全局計算效用均值法實現(xiàn):江澄[3]基于典型值(分片代表值)法、均值法簡化QoS數(shù)據(jù)處理:前者用基于CLARA聚類法的CBSC推薦服務(wù)組合:聚類候選服務(wù)的歷史記錄集(規(guī)模較大時用CLARA算法,較小時用PAM算法)并用其聚類中心點分別表示,按QoS指標生成服務(wù)集及其組合方案效用值進而推薦最佳方案;后者用DCAH法推薦服務(wù)組合:依托全局約束分解(按比值分解為局部約束并據(jù)此選擇記錄)、服務(wù)歷史記錄均值(代表整體記錄集)分別計算候選服務(wù)組合歷史記錄均值及效用值并推薦。

      3 基于大數(shù)據(jù)的信息資源管理

      鑒于大數(shù)據(jù)6V(容量大、種類多、生成快速、可變性高、真實性強、價值分散)1C(復(fù)雜度高)特點,全面采集、高效挖掘、規(guī)范表示、分布式混合存儲并增量更新海量分布異構(gòu)數(shù)據(jù)成為大數(shù)據(jù)環(huán)境下用戶、項目、推薦過程信息資源管理基本需求以支持用戶興趣建模、推薦機制改進、信息資源配置進而優(yōu)化推薦效果。

      3.1 數(shù)據(jù)采集

      大數(shù)據(jù)環(huán)境下數(shù)據(jù)采集旨在全面采集推薦所需用戶、項目及推薦過程類信息,此處闡述后兩類信息,用戶信息見1.3.1。

      3.1.1 采集來源

      大數(shù)據(jù)環(huán)境下數(shù)據(jù)來源多樣、較固定并線上線下混合,涉及社交媒體[18,27](Facebook[20]、Twitter、微博、微信[7,13,42]、QQ、BBS、博客[27]等)、(Web、代理)服務(wù)器(基于Cookie采集日志[15,33]、數(shù)據(jù)庫系統(tǒng)、智能終端[3,13,16,24,28,30,33-34,40-41](手機、PDA[13,34]、iPad[36]、有線電視、遙控器、機頂盒[41]、RFID標簽)、傳感器[13](視頻監(jiān)控器、服務(wù)器監(jiān)控器、RFID讀取器、NFC設(shè)備、GPS設(shè)備、遙感設(shè)備、閱讀終端監(jiān)控器)。此外,馬曉亭[13]提出共享第三方服務(wù)商數(shù)據(jù)。

      3.1.2 采集類型

      主要分用戶、項目、推薦過程3類,不同于用戶數(shù)據(jù),大數(shù)據(jù)環(huán)境下項目數(shù)據(jù)采集類型較成型且多按傳統(tǒng)項目類型采集(少數(shù)新項目先采集再分類以提升動態(tài)性);大數(shù)據(jù)環(huán)境下推薦過程數(shù)據(jù)采集分用戶間、項目間、用戶與項目間交互3類(類似1.3.1中采集類型),旨在提升基于大數(shù)據(jù)推薦精度。此外,王俞翔[10]提出分用戶原創(chuàng)(主動)、系統(tǒng)運營(自動)、設(shè)備感知(被動)3類;段文彬[32]按數(shù)據(jù)來源分人工輸入、社交媒體(含網(wǎng)頁)、交易生成、移動通信、設(shè)備傳感5類。

      3.1.3 采集內(nèi)容

      涉及用戶、項目、推薦過程數(shù)據(jù),后兩者采集完善傳統(tǒng)推薦過程所需數(shù)據(jù)并側(cè)重基于數(shù)據(jù)集群隱性采集推薦全程數(shù)據(jù)以補全、豐富、深度采集用戶相關(guān)數(shù)據(jù)。針對項目數(shù)據(jù),葉志強[41]基于數(shù)字機頂盒采集媒體資源描述信息(分常規(guī)、自定義兩類,前者涉及類型、名稱、國家地區(qū)、年份、導(dǎo)演、主演等,后者涉及清晰度、上傳時間、評價)、使用信息(點播時間、點播量、單價),基于遙控器采集媒體資源操作信息(播放、暫停、切換、錄制);馬曉亭[13]采集閱讀終端設(shè)備參數(shù)、閱讀行為歷史數(shù)據(jù)、閱讀社交數(shù)據(jù)。針對推薦過程數(shù)據(jù),姚凱等[39]基于變量表采集推薦過程中用戶點擊流數(shù)據(jù)(涉及用戶類型、是否點擊、點擊對象、點擊速度、點擊量)、外部用戶訪問數(shù)據(jù)(涉及用戶名稱及類型、用戶影響力、與內(nèi)部用戶關(guān)聯(lián)度、訪問頻率、訪問時長、最近訪問時間)。

      3.1.4 采集方式

      多用特定工具,混合在線、離線采集方式從分布式接口全面、動態(tài)、高效采集大數(shù)據(jù)環(huán)境下推薦所需數(shù)據(jù):鄒小波[1]用Kafka的Consumer模塊實時采集Producer模塊動態(tài)生成的項目評分并存入Broker模塊以實現(xiàn)分布式實時數(shù)據(jù)發(fā)布與訂閱;尤海浪等[17]基于Flume分布式實時采集項目數(shù)據(jù);鄧玉林[36]用Nutch采集項目數(shù)據(jù);姚凱等[39]基于Cookie采集內(nèi)外部網(wǎng)站數(shù)據(jù)并匯總項目信息;段文彬[32]通過搜索引擎采集檢索數(shù)據(jù),通過平臺采集自有數(shù)據(jù),通過調(diào)研、共享、購買采集項目數(shù)據(jù);胡一[34]、韓莉[38]提出用用戶選擇、行為追蹤[38]、推薦情境自適應(yīng)3種模式動態(tài)采集用戶Web使用日志。

      3.2 數(shù)據(jù)挖掘

      作為大數(shù)據(jù)環(huán)境下主流的信息載體,Web數(shù)據(jù)海量、分布、異構(gòu)特性凸顯,常基于分布式數(shù)據(jù)庫、云計算環(huán)境[8]、語義技術(shù)(如基于潛在主題、分類的隱語義模型[20],本體[33],根據(jù)大數(shù)據(jù)推薦場景、性能等需求智能選擇Web數(shù)據(jù)挖掘技術(shù),尤其是聚類技術(shù)(降維處理以高效挖掘并提升結(jié)果可靠性、價值)挖掘Web內(nèi)容(多為文本、多媒體特征)[33-34,38]、Web結(jié)構(gòu)(多為網(wǎng)頁內(nèi)部結(jié)構(gòu)、鏈接結(jié)構(gòu))、Web使用(多為Web日志及其隱藏訪問信息)信息以提升推薦效率、性能。

      3.2.1 聚類算法分類優(yōu)化

      胡蓉[21]按實現(xiàn)原理分劃分聚類(K-Means算法[24]、層次聚類(CURE算法[24]、模糊聚類、概率聚類(DBSCAN算法)[24]、密度聚類、網(wǎng)格聚類、模型聚類[3,21],按聚類對象分基于用戶興趣相似度用戶聚類法(采集并預(yù)處理用戶日志以提取其興趣集并向量化,基于余弦距離公式計算用戶興趣相似度并用K-Means算法并行化聚類)、基于項目特征相似度項目聚類法(用波特詞干器提取項目特征以標簽化項目,基于Jaccard相似系數(shù)計算項目標簽相似度并加權(quán)整合成項目特征相似度進而用凝聚型層次聚類法聚類);金偉晟[19]提出層次聚類法分凝聚法(圈定無連接網(wǎng)絡(luò)節(jié)點邊界以聚類)、分裂法(打破有連接網(wǎng)絡(luò)節(jié)點間邊界以聚類)。

      3.2.2 聚類算法效果改進

      針對用戶聚類效果改進,鄒小波[1]基于MLlib中機器學(xué)習(xí)算法進行二叉樹聚類以降低用戶聚類難度;屠海龍[23]用集成聚類代替單用戶聚類以更好適應(yīng)大數(shù)據(jù)特點、提升推薦效率;楊國龍[29]提出基于K-Means改進標簽分段算法RR-SEG:混合標簽粗細粒度聚類標簽成簇并計算各簇均值以量化用戶數(shù)據(jù)邊界、高效分配計算資源進而提升數(shù)據(jù)挖掘效率。針對項目聚類效果改進,江澄[3]改進適用小規(guī)模項目聚類的PAM算法形成CLARA算法以自適應(yīng)項目聚類規(guī)模;曹萍[4]用大數(shù)據(jù)平臺實現(xiàn)基于K-Means、Canopy算法的項目并行化聚類;鄧玉林[36]提取檢索詞主題、時空等行為屬性以分片并行化聚類項目;王俞翔[10]基于項目差異度聚類項目;金偉晟[19]、沈杰[30]基于社團發(fā)現(xiàn)聚類項目。此外,針對用戶、項目聚類,吳淑凡[2]基于分類器分類用戶項目評價以提升聚類效果;董小妹[33]融合SOM(自組織映射神經(jīng)網(wǎng)絡(luò))與K-Means算法提升聚類智能性。

      3.3 數(shù)據(jù)表示

      數(shù)據(jù)表示通過特定方法形式化數(shù)據(jù)以便計算機高效識別、處理。

      3.3.1 表示類型

      江澄[3]將QoS服務(wù)數(shù)據(jù)分為數(shù)值型、非數(shù)值型(涉及布爾型、文本型);楊國龍[29]按引流數(shù)據(jù)類型分為用戶/項目特征數(shù)據(jù)、項目關(guān)聯(lián)數(shù)據(jù)、推薦過程數(shù)據(jù)(基于用戶/項目及項目關(guān)聯(lián)數(shù)據(jù)分析潛在相關(guān)數(shù)據(jù));段文彬[32]按分析類型分實時分析數(shù)據(jù)、批量分析數(shù)據(jù),按處理方法分預(yù)測分析數(shù)據(jù)、特征識別數(shù)據(jù)、文本分析數(shù)據(jù)、位置分析數(shù)據(jù)、社會網(wǎng)絡(luò)分析數(shù)據(jù),按結(jié)構(gòu)化程度分結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。此外,鄧玉林[36]提出分標稱型數(shù)據(jù)(候選值為兩個且固定)和二元型數(shù)據(jù)(候選值為兩個但多元化)。

      3.3.2 表示方法

      主要涉及數(shù)據(jù)格式轉(zhuǎn)化、分解重構(gòu)、聚集融合處理并常用(特征賦權(quán))矩陣法[33,43]規(guī)范表示大數(shù)據(jù)環(huán)境下用戶、項目及推薦過程數(shù)據(jù):段文彬[32]分析數(shù)據(jù)屬性、取值等特征以發(fā)現(xiàn)屬性映射、驗證規(guī)則及其工作流以便規(guī)范化原始數(shù)據(jù),進而通過單變量處理(涉及開方、取對數(shù)、歸一化、徑向基核、協(xié)變量添加等方法)、雙變量融合(涉及變量間和差及乘除、閾值選取、笛卡爾積、白化處理等方法)、多變量結(jié)合(涉及主成分分析、聚類分析、稀疏編碼、隨機森林等方法)提取項目特征并向量化表示;王俞翔[10]歸一化用戶評分并基于用戶-評分矩陣法表示;劉海鷗等[22]融合情境后基于用戶-項目評分矩陣法多維表示數(shù)據(jù);此外,曲朝陽等[15]多粒度分解項目知識、構(gòu)建知識樹以關(guān)聯(lián)并推理知識進而樹形表示知識,支持語義層知識組織、推理及可視化;鄧玉林[36]混合時間窗、圖聚類表示熱點標簽,用TF-IDF法向量化表示用戶檢索詞及評分文本(向量按詞表排序,缺值用零補齊),用最小-最大值或Z-score(標準分數(shù))標準化表示用戶評分,用日期格式表示數(shù)字型信息,用自身格式表示URL類、無意義String類數(shù)據(jù)。

      3.4 數(shù)據(jù)存儲

      主要基于關(guān)系型(MySQL)、非關(guān)系型數(shù)據(jù)庫[7,30,35,37](Redis、HBase[1]、MongoDB、Neo4j)分別存儲元數(shù)據(jù)及相應(yīng)大數(shù)據(jù)資源[3]并基于文件管理系統(tǒng)(HDFS)分布式管理:針對關(guān)系數(shù)據(jù)庫,楊清智[7]、沈杰[30]、陳澤[35]、房璐璐[37]基于MySQL(或Derby[37]緩存[35]在線Web服務(wù)(APP[7]信息、Hive元數(shù)據(jù)(表名、屬性、數(shù)據(jù)路徑)、用戶相關(guān)數(shù)據(jù)(用戶興趣模型、推薦結(jié)果、項目評分)[37]。針對非關(guān)系型數(shù)據(jù)庫,楊清智[7]基于機型、操作系統(tǒng)版本、芯片型號、內(nèi)存容量、興趣標簽維度設(shè)計存儲用戶靜態(tài)基本信息的HBase標簽表,基于用戶自身、APP類別、性別、興趣、地域維度劃分標簽表存儲用戶動態(tài)興趣信息。針對文件管理系統(tǒng),鄒小波[1]用HDFS按Parquet格式封裝存儲數(shù)據(jù)集以構(gòu)建離線數(shù)據(jù)倉庫;李翠平等[5]基于中心節(jié)點管理分布式文件系統(tǒng)以關(guān)聯(lián)集群節(jié)點并精準定位文件;姚凱等[39]基于HDFS存儲數(shù)據(jù)并結(jié)合Hive提取數(shù)據(jù);此外,王俞翔[10]基于MySQL的數(shù)據(jù)表、集群分別直接存儲數(shù)據(jù)、臨時存儲文件,累積后批量存入HDFS;段文彬[32]基于SAN技術(shù)分布式存儲(用專用網(wǎng)絡(luò)連接數(shù)據(jù)存儲器及服務(wù)器構(gòu)建存儲區(qū)域網(wǎng)并實現(xiàn)分布式數(shù)據(jù)網(wǎng)絡(luò))、基于遠程數(shù)據(jù)鏡像異地備份、基于Push技術(shù)協(xié)調(diào)服務(wù)器工作(通過平臺主動向服務(wù)器推送協(xié)作指令)。

      3.5 數(shù)據(jù)更新

      3.5.1 更新方法

      涉及空值數(shù)據(jù)添加(新用戶注冊信息、推薦結(jié)果[10]、用戶發(fā)布內(nèi)容、新項目信息[6]、時效數(shù)據(jù)查新(評分[3]、用戶日志[7]、用戶行為、歷史數(shù)據(jù)[16]、用戶位置、活動信息[18]、項目信息、供需信息[33]、狀態(tài)數(shù)據(jù)[36]、學(xué)習(xí)進度)、動態(tài)數(shù)據(jù)調(diào)整(算法數(shù)據(jù)[5,35]、交互數(shù)據(jù)[13,36]、信任評估[19]、相異度矩陣[28]、分類目錄、社區(qū)標簽、用戶及項目特征向量[30]、本體定義[33]、規(guī)則及配置信息[37]、學(xué)習(xí)步長)、錯誤數(shù)據(jù)替換(預(yù)測及推薦結(jié)果[10]。

      3.5.2 更新方式

      鄒小波[1]提出基于Kafka分布式發(fā)布訂閱實時數(shù)據(jù)交由Spark Streaming的Dstream流計算并實時更新;孟祥武等[18]提出計算新增對象及其關(guān)聯(lián)邊以增量[28]微調(diào)社會化推薦結(jié)果并基于自適應(yīng)法定期消除局部計算誤差;嚴克文[28]提出基于Hadoop分布式處理既定規(guī)則、新標記變量分別確定更新策略、增量更新模型并更新數(shù)據(jù)。

      4 結(jié)束語

      綜上,本文從用戶興趣建模、推薦機制、信息資源管理3方面闡述了國內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進展:基于大數(shù)據(jù)的用戶興趣建模主要研究用戶興趣模型表示(多研究表示方法,常遵循表示原則結(jié)合大數(shù)據(jù)特點確定)、模型初始化(多研究數(shù)據(jù)采集(多按用戶數(shù)據(jù)類型全面系統(tǒng)隱式采集)、數(shù)據(jù)處理(先在線離線混合式動態(tài)預(yù)處理,再量化興趣度并結(jié)合基于大數(shù)據(jù)的隱性興趣預(yù)測進行優(yōu)化))和模型進化(基于用戶反饋、算法改進動態(tài)學(xué)習(xí)、更新用戶興趣模型)以提升用戶興趣模型精準性;基于大數(shù)據(jù)的信息推薦機制主要研究推薦算法改進及并行化改造、推薦機制組合、推薦結(jié)果優(yōu)化以緩解傳統(tǒng)信息推薦的針對性、冷啟動、動態(tài)性、多樣性等問題:算法改進及并行化改造涉及基于內(nèi)容推薦(針對大數(shù)據(jù)環(huán)境改進內(nèi)容提取算法以提升推薦效率)、協(xié)同過濾推薦(依托大數(shù)據(jù)聚類、壓縮提升數(shù)據(jù)稠密度,通過特征預(yù)測、補全及規(guī)則抽取提升相似度計算精準度、推薦性能)、情境化推薦(通過線上線下情境大數(shù)據(jù)整合及挖掘、推薦算法改進提升情境推薦精準性、動態(tài)性)、社會化推薦(多基于社交網(wǎng)絡(luò)、社會化媒體挖掘用戶社群、信任網(wǎng)絡(luò)以提升基于群體特征、面向用戶的信息推薦效率和基于信任網(wǎng)絡(luò)協(xié)同過濾推薦效率),機制組合主要研究混合推薦以基于推薦機制及階段動態(tài)整合各推薦機制優(yōu)勢,結(jié)果優(yōu)化主要基于QoS指標并用典型值法、(效用)均值法推薦項目組合以優(yōu)化推薦結(jié)果;信息資源管理包括數(shù)據(jù)采集(基于Kafka、Flume等工具采集線上(社交媒體、日志服務(wù)器、數(shù)據(jù)庫等)、線下(終端、傳感器等)大數(shù)據(jù)并共享第三方服務(wù)商數(shù)據(jù))、數(shù)據(jù)挖掘(整合云計算及語義等技術(shù)、改進聚類算法以高效發(fā)現(xiàn)數(shù)據(jù)間潛在關(guān)系)、數(shù)據(jù)表示(常用矩陣法)、數(shù)據(jù)存儲(基于關(guān)系、非關(guān)系數(shù)據(jù)庫分別存儲元數(shù)據(jù)及相應(yīng)大數(shù)據(jù)資源并基于文件管理系統(tǒng)分布式管理)、數(shù)據(jù)更新(基于分布式數(shù)據(jù)采集、處理、分發(fā),用空值添加、即時查新、動態(tài)調(diào)整、錯誤替換等方法周期性增量更新大數(shù)據(jù)),最終實現(xiàn)數(shù)據(jù)全面采集、高效挖掘、規(guī)范表示、混合分布式存儲及增量更新。

      下一步,筆者將設(shè)計基于大數(shù)據(jù)的信息推薦方案,供相關(guān)研究與實踐參考。

      參考文獻

      [1]鄒小波.大數(shù)據(jù)平臺下推薦系統(tǒng)的研究與實現(xiàn)[D].泉州:華僑大學(xué),2018.

      [2]吳淑凡.大數(shù)據(jù)環(huán)境下的移動社交網(wǎng)絡(luò)推薦算法[J].安陽師范學(xué)院學(xué)報,2017,(2):61-64.

      [3]江澄.大數(shù)據(jù)環(huán)境下基于QoS歷史記錄的服務(wù)組合推薦方法研究[D].南京:南京大學(xué),2014.

      [4]曹萍.基于大數(shù)據(jù)的協(xié)同過濾推薦算法研究[D].南京:南京農(nóng)業(yè)大學(xué),2014.

      [5]李翠平,藍夢微,鄒本友,等.大數(shù)據(jù)與推薦系統(tǒng)[J].大數(shù)據(jù),2015,1(3):23-35.

      [6]侯崇岳.大數(shù)據(jù)在高校圖書館文獻推薦中的應(yīng)用[J].寧波教育學(xué)院學(xué)報,2017,19(6):80-83.

      [7]楊清智.基于大數(shù)據(jù)技術(shù)的手機應(yīng)用推薦系統(tǒng)的設(shè)計與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2017.

      [8]周蘇亭.面向云計算的大數(shù)據(jù)知識服務(wù)情景化推薦解析[J].滁州職業(yè)技術(shù)學(xué)院學(xué)報,2016,15(3):54-56.

      [9]丁繼紅,劉華中.大數(shù)據(jù)環(huán)境下基于多維關(guān)聯(lián)分析的學(xué)習(xí)資源精準推薦[J].電化教育研究,2018,39(2):53-59,66.

      [10]王俞翔.面向大數(shù)據(jù)集的推薦系統(tǒng)研究[D].秦皇島:燕山大學(xué),2014.

      [11]劉海鷗.面向大數(shù)據(jù)知識服務(wù)推薦的移動SNS信任模型[J].圖書館論壇,2014,34(10):68-75.

      [12]婁建樓,鄒偉,王玲,等.社交網(wǎng)絡(luò)大數(shù)據(jù)下貪婪式實時網(wǎng)站推薦算法[J].計算機應(yīng)用研究,2015,32(5):1361-1364.

      [13]馬曉亭.基于情景大數(shù)據(jù)的圖書館個性化服務(wù)推薦系統(tǒng)研究[J].現(xiàn)代情報,2016,36(4):90-94.

      [14]陳玉.大數(shù)據(jù)背景下電商用戶需求挖掘的個性化推薦方法研究[J].信息與電腦:理論版,2016(17):88-89.

      [15]曲朝陽,周寧,曲楠,等.基于知識關(guān)聯(lián)度的電力大數(shù)據(jù)協(xié)同過濾推薦算法[J].東北師大學(xué)報:自然科學(xué)版,2018,50(1):74-78.

      [16]陳玉兆.大數(shù)據(jù)下的個性化推薦研究與實現(xiàn)[D].西安:西安電子科技大學(xué),2014.

      [17]尤海浪,錢鋒,黃祥為,等.基于大數(shù)據(jù)挖掘構(gòu)建游戲平臺個性化推薦系統(tǒng)的研究與實踐[J].電信科學(xué),2014,30(10):27-32.

      [18]孟祥武,紀威宇,張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J].北京郵電大學(xué)學(xué)報,2015,38(2):1-15.

      [19]金偉晟.面向大數(shù)據(jù)的可信服務(wù)推薦方法研究[D].南京:南京郵電大學(xué),2016.

      [20]劉云.基于大數(shù)據(jù)的廣告推薦方法研究及應(yīng)用[D].北京:華北電力大學(xué),2017.

      [21]胡蓉.大數(shù)據(jù)環(huán)境下服務(wù)推薦系統(tǒng)及其關(guān)鍵方法研究[D].南京:南京大學(xué),2014.

      [22]劉海鷗,陳晶,孫晶晶,等.圖書館大數(shù)據(jù)知識服務(wù)情境化推薦系統(tǒng)研究[J].圖書館理論與實踐,2018,(8):98-103.

      [23]屠海龍.基于大數(shù)據(jù)的協(xié)同過濾推薦算法研究[D].杭州:浙江工業(yè)大學(xué),2018.

      [24]李星.個性化推薦系統(tǒng)優(yōu)化及其大數(shù)據(jù)處理研究[D].哈爾濱:哈爾濱工程大學(xué),2014.

      [25]謝瑤瑤.大數(shù)據(jù)模擬環(huán)境下的分布式協(xié)同過濾推薦系統(tǒng)的研究[D].武漢:武漢理工大學(xué),2014.

      [26]孫雨生,張晨,任潔,等.國內(nèi)電子商務(wù)個性化推薦研究進展:核心技術(shù)[J].現(xiàn)代情報,2017,37(4):151-157.

      [27]黃義文.大數(shù)據(jù)環(huán)境下圖書館學(xué)術(shù)資源個性化推薦服務(wù)研究[J].圖書館學(xué)刊,2016,38(7):78-80.

      [28]嚴克文.大數(shù)據(jù)環(huán)境下電子商務(wù)個性化推薦算法應(yīng)用研究[D].合肥:合肥工業(yè)大學(xué),2016.

      [29]楊國龍.企業(yè)間大數(shù)據(jù)推薦引流系統(tǒng)研究與設(shè)計[D].長沙:湖南大學(xué),2016.

      [30]沈杰.大數(shù)據(jù)環(huán)境下基于協(xié)同過濾的推薦系統(tǒng)研究與實現(xiàn)[D].杭州:浙江工業(yè)大學(xué),2016.

      [31]姚靜天.基于項目搭配度的大數(shù)據(jù)推薦算法研究[D].南京:南京理工大學(xué),2017.

      [32]段文彬.大數(shù)據(jù)聯(lián)盟數(shù)據(jù)資源推薦系統(tǒng)研究[D].哈爾濱:哈爾濱理工大學(xué),2018.

      [33]董小妹.大數(shù)據(jù)環(huán)境下基于本體的協(xié)同過濾推薦算法改進研究[D].南京:南京工業(yè)大學(xué),2013.

      [34]胡一.基于大數(shù)據(jù)的電子商務(wù)個性化信息推薦服務(wù)模式研究[D].長春:吉林大學(xué),2015.

      [35]陳澤.個性化推薦算法研究及“大數(shù)據(jù)”下的系統(tǒng)開發(fā)[D].重慶:重慶郵電大學(xué),2013.

      [36]鄧玉林.基于Hadoop大數(shù)據(jù)框架的個性化推薦系統(tǒng)研究與實現(xiàn)[D].成都:電子科技大學(xué),2016.

      [37]房璐璐.基于大數(shù)據(jù)分析的推薦系統(tǒng)研究[D].北京:北京郵電大學(xué),2015.

      [38]韓莉.大數(shù)據(jù)時代的個性化推薦技術(shù)分析[J].晉中學(xué)院學(xué)報,2016,33(3):74-77.

      [39]姚凱,涂平,陳宇新,等.基于多源大數(shù)據(jù)的個性化推薦系統(tǒng)效果研究[J].管理科學(xué),2018,31(5):3-15.

      [40]李佳.面向大數(shù)據(jù)的協(xié)同過濾推薦算法研究[D].南充:西華師范大學(xué),2016.

      [41]葉志強.基于有線電視互動點播業(yè)務(wù)的大數(shù)據(jù)分析推薦系統(tǒng)探析[J].廣播電視信息,2016,(2):56-59.

      [42]張健.基于大數(shù)據(jù)技術(shù)的有線電視推薦系統(tǒng)研究[J].中國有線電視,2016,(S1):362-365.

      [43]陳永康,章美仁.基于大數(shù)據(jù)的在線就業(yè)課程推薦系統(tǒng)[J].電子商務(wù),2017,(4):72-73.

      (責任編輯:郭沫含)

      猜你喜歡
      信息資源管理個性化大數(shù)據(jù)
      美軍信息資源管理戰(zhàn)略概況研究與啟示
      新聞的個性化寫作
      大數(shù)據(jù)在部隊信息資源管理中的運用
      淺談西藏農(nóng)牧業(yè)信息資源管理
      上汽大通:C2B個性化定制未來
      《信息資源管理學(xué)報》2016年總目錄
      滿足群眾的個性化需求
      神农架林区| 巴林右旗| 祁门县| 兴和县| 德昌县| 新绛县| 沈阳市| 潢川县| 信阳市| 桦川县| 科技| 梁平县| 淮阳县| 东兴市| 塔城市| 临潭县| 利津县| 鹤庆县| 越西县| 舞钢市| 孟村| 南涧| 布拖县| 仁化县| 长葛市| 镇安县| 东至县| 宁武县| 全椒县| 永丰县| 乡宁县| 土默特左旗| 化德县| 清河县| 建瓯市| 云霄县| 樟树市| 城固县| 仲巴县| 喜德县| 盐城市|