盧志翔 汪小威
摘要:大數(shù)據(jù)給用戶提供了信息檢索便利的同時,信息過載現(xiàn)象極大影響用戶獲取有用信息的效率。在分析電子農(nóng)務(wù)用戶群體特性和移動智能終端的發(fā)展與使用現(xiàn)狀的基礎(chǔ)上,提出一種基于權(quán)重混合推薦策略。主要從移動應(yīng)用推薦系統(tǒng)的云平臺搭建、推薦算法選擇和算法自適應(yīng)設(shè)計等方面進(jìn)行研究,設(shè)計了面向電子農(nóng)務(wù)的移動應(yīng)用推薦系統(tǒng)的基本框架和推薦流程,為大數(shù)據(jù)環(huán)境下快速獲取信息提供全新的解決思路。
關(guān)鍵詞:電子農(nóng)務(wù);移動應(yīng)用;推薦系統(tǒng)
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)14-0223-02
隨著網(wǎng)絡(luò)技術(shù)和移動技術(shù)的發(fā)展,農(nóng)業(yè)信息化的不斷深人和智能手機(jī)的普及,智能手機(jī)應(yīng)用已經(jīng)成為農(nóng)民獲取或發(fā)布農(nóng)業(yè)信息的新手段。網(wǎng)絡(luò)信息獲取便利同時,大量三農(nóng)信息充斥在各類電子農(nóng)務(wù)平臺,農(nóng)民用戶的信息技術(shù)能力有限,使得用戶難以在電子農(nóng)務(wù)平臺的大數(shù)據(jù)環(huán)境中及時找到適合自己需求或可能感興趣的信息。傳統(tǒng)的搜索引擎基于關(guān)鍵詞的信息檢索服務(wù)給用戶帶來的極大便利的同時,往往置頂?shù)男畔⒊霈F(xiàn)大量廣告或者是用戶不需要的信息,用戶真正需要的信息則淹沒在搜索返回的信息海洋中。這種“信息過載”或“信息迷失”現(xiàn)象降低了農(nóng)民獲取信息效率。搜索和推薦是目前移動用戶最主要的資源獲取方式,前者是用戶主動提出需求,后者是發(fā)現(xiàn)用戶隱形需求。移動應(yīng)用推薦系統(tǒng)已成為移動智能設(shè)備解決信息超載問題最重要的過濾工具,可以根據(jù)用戶興趣特點(diǎn)和行為模式,智能和主動地幫助用戶在海量的數(shù)據(jù)中快速找到可用信息。系統(tǒng)設(shè)計主要目標(biāo)是實時洞察用戶需求,降低獲取資源成本,提高獲取資源效率。
現(xiàn)有推薦系統(tǒng)采用的推薦方法主要有三種:協(xié)同過濾推薦算法、內(nèi)容過濾推薦算法和混合過濾推薦方法。當(dāng)前最成熟的是協(xié)同過濾推薦算法,然而移動設(shè)備在顯示、計算、存儲、輸入等能力比較受限,移動推薦面臨巨大挑戰(zhàn)。本文針對智能終端設(shè)備,把推薦系統(tǒng)搭建在云平臺上,通過混合多種推薦算法快速推薦信息給用戶,解決傳統(tǒng)推薦算法在大數(shù)據(jù)環(huán)境下的移動平臺中遇到的實時性、擴(kuò)展性的問題。
1移動應(yīng)用推薦系統(tǒng)模型設(shè)計
為了實現(xiàn)對電子農(nóng)務(wù)的移動實時推薦,考慮到信息過載問題以及移動設(shè)備的數(shù)據(jù)處理能力,本文采用基于Hadoopt31開源分布式計算平臺搭建推薦引擎。Hadoop平臺具有應(yīng)對數(shù)據(jù)量快速增長的能力和支持推薦算法擴(kuò)充,平臺架構(gòu)模型如圖1所示。為了能及時響應(yīng)用戶的需求,采用在線計算推薦模式,數(shù)據(jù)存儲介質(zhì)采用關(guān)系型數(shù)據(jù)庫系統(tǒng)。為了較全面的抓取網(wǎng)絡(luò)資源,采用Hadoop系統(tǒng)爬行網(wǎng)絡(luò),離線計算推薦模式,數(shù)據(jù)存儲介質(zhì)采用HDFS文件系統(tǒng)。
在線計算推薦和離線計算推薦組合主要是為了快速響應(yīng)和提供更全面的信息,推薦框架如圖2所示。在線推薦模塊主要負(fù)責(zé)及時與用戶交互,通過收集用戶的反饋信息或主動識別用戶需求進(jìn)行在線推薦計算,結(jié)合關(guān)系型數(shù)據(jù)庫的推薦數(shù)據(jù)進(jìn)行混合推薦,將最終TOP-N結(jié)果呈現(xiàn)給用戶。系統(tǒng)實時跟蹤用戶的使用應(yīng)用的過程中產(chǎn)生的操作日志記錄,分析并提取用戶行為信息存人關(guān)系型數(shù)據(jù)庫中,為用戶下次使用應(yīng)用提供更準(zhǔn)確的數(shù)據(jù)。離線推薦模塊負(fù)責(zé)網(wǎng)絡(luò)爬行、TEL數(shù)據(jù)清洗流程、Mahout挖掘原始數(shù)據(jù)、Map/reduce分布式計算等操作,最終訓(xùn)練學(xué)習(xí)后的數(shù)據(jù)轉(zhuǎn)換為關(guān)系數(shù)據(jù)庫能識別的原始推薦數(shù)據(jù)。
2基于權(quán)重混合推薦策略設(shè)計
使用電子農(nóng)務(wù)的用戶相對較不固定,用戶的使用意圖較難跟蹤統(tǒng)計。這些不穩(wěn)定因素會造成單一的推薦算法難以滿足各類用戶需求。為了提高推薦的準(zhǔn)確性,組合多種推薦算法的方式對用戶進(jìn)行推薦。最后,推薦引擎可以使用相似性信息根據(jù)請求參數(shù)進(jìn)行推薦提高推薦準(zhǔn)確性,進(jìn)而提高用戶滿意度。
混合推薦系統(tǒng)是把多個推薦引擎形成的推薦結(jié)果進(jìn)行整合的推薦系統(tǒng)。然而多推薦引擎的使用缺乏對個性用戶的自適應(yīng)設(shè)計要求。為解決這一問題通常在并行的推薦引擎中采用加權(quán)重再求和得到混合推薦結(jié)果,即多個推薦引擎推薦結(jié)果進(jìn)行加權(quán)混合。較為常見的權(quán)重混合是線性加權(quán)混合,如圖3所示?;跈?quán)重混合推薦關(guān)鍵在于權(quán)重的確定,權(quán)重的確定往往需要在特定的測試數(shù)據(jù)集上反復(fù)實驗,才能達(dá)到較好的推薦效果。然而,在實際應(yīng)用中,要推薦的數(shù)據(jù)量遠(yuǎn)大于用戶數(shù)量,反復(fù)實驗工作量太大,效果不理想。本文提出的混合模型混合多個單一推薦引擎,將每個推薦引擎視為獨(dú)立黑盒,暫不關(guān)心其具體內(nèi)部運(yùn)行機(jī)制,推薦引擎各自獨(dú)立運(yùn)行得出推薦數(shù)據(jù),再通過學(xué)習(xí)模塊對各預(yù)測結(jié)果進(jìn)行權(quán)重計算并混合重排推薦數(shù)據(jù),過濾后形成最終的推薦結(jié)果。
各獨(dú)立的推薦引擎運(yùn)行后得出各自的推薦數(shù)據(jù),通過式(1)所示加權(quán)公式加權(quán)混合:
3結(jié)束語
移動應(yīng)用推薦系統(tǒng)是解決信息過載的有效過濾手段,可以幫助用戶快速定位到適合自己需求的信息,對提高電子農(nóng)務(wù)的效率具有重要意義和商業(yè)價值。隨著近年來大數(shù)據(jù)技術(shù)與智能終端技術(shù)的快速發(fā)展,推薦系統(tǒng)的設(shè)計架構(gòu)也會隨之改變。本文設(shè)計了一種用戶自適應(yīng)調(diào)整混合權(quán)重的推薦解決方案,并利用Hadoop分布式計算平臺提升系統(tǒng)的擴(kuò)展性。在未來的研究中將在設(shè)計的系統(tǒng)中融入更多的推薦技術(shù)與測試數(shù)據(jù)集,更深入分析大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的部署與個性化推薦研究。