• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于地理位置的跨領(lǐng)域漁業(yè)科學(xué)數(shù)據(jù)推薦算法研究

      2018-07-12 00:44:38蔣慶朝陳孟婕王立華
      漁業(yè)現(xiàn)代化 2018年3期
      關(guān)鍵詞:漁業(yè)物品矩陣

      蔣慶朝,徐 碩,陳孟婕,王立華

      (中國水產(chǎn)科學(xué)研究院漁業(yè)工程研究所,北京 100141)

      隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,信息量逐漸從匱乏轉(zhuǎn)為過載。如何從海量信息中找到用戶需要的信息成為了一個(gè)重要的研究課題。傳統(tǒng)的解決方法是利用搜索引擎,但由于信息的多樣化和復(fù)雜化,難以準(zhǔn)確找到合適的關(guān)鍵詞描述需求。學(xué)術(shù)界和工業(yè)界開始采用推薦系統(tǒng)解決這一難題。推薦系統(tǒng)作為個(gè)性化信息服務(wù)系統(tǒng),可借助用戶建模技術(shù)對(duì)用戶的長期信息需求進(jìn)行描述,并根據(jù)用戶模型通過一定的智能推薦策略實(shí)現(xiàn)有針對(duì)性的個(gè)性化信息定制[1]。相對(duì)于搜索引擎,推薦系統(tǒng)不但不需要用戶提出明確要求,而且還能發(fā)現(xiàn)用戶潛在興趣。因此,推薦系統(tǒng)快速成為研究領(lǐng)域的熱點(diǎn)問題[2]。

      當(dāng)前,各大電子商務(wù)網(wǎng)站都擁有獨(dú)立的推薦系統(tǒng)[3-4],但是對(duì)于科學(xué)數(shù)據(jù)類網(wǎng)站,例如漁業(yè)領(lǐng)域的科學(xué)數(shù)據(jù)平臺(tái),并沒有成形的推薦系統(tǒng)。在數(shù)據(jù)總量達(dá)到50 GB,資源總數(shù)幾十萬條的情況下,僅僅依靠數(shù)據(jù)檢索已經(jīng)難以滿足用戶對(duì)數(shù)據(jù)服務(wù)的需求。漁業(yè)科學(xué)數(shù)據(jù)服務(wù)的主動(dòng)性較差,無法給用戶提供良好的體驗(yàn)。需要通過構(gòu)建專業(yè)的推薦系統(tǒng),為用戶推薦可能感興趣的數(shù)據(jù)和挖掘潛在的興趣點(diǎn),以提高數(shù)據(jù)服務(wù)性。目前,應(yīng)用最廣的推薦方法是基于協(xié)同過濾的推薦[5-7]和基于內(nèi)容的推薦算法[8]。隨著機(jī)器學(xué)習(xí)的發(fā)展,以深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的基于模型的推薦算法也成為了研究熱點(diǎn)[9]。由于漁業(yè)科學(xué)數(shù)據(jù)的特殊性以及平臺(tái)用戶偏好信息不足,用戶與數(shù)據(jù)之間的關(guān)聯(lián)程度較低,傳統(tǒng)的推薦方法在漁業(yè)科學(xué)數(shù)據(jù)領(lǐng)域中難以取得較好效果。通過對(duì)平臺(tái)中的漁業(yè)科學(xué)數(shù)據(jù)進(jìn)行分析,可以看出不論是遙感、環(huán)境數(shù)據(jù),還是魚類、湖泊數(shù)據(jù),都具有非常明顯的地理位置特征,即具體的位置或者分布[10]。漁業(yè)用戶對(duì)于科學(xué)數(shù)據(jù)的需求可以轉(zhuǎn)化為與地理位置之間的關(guān)系。

      針對(duì)目前研究現(xiàn)狀,考慮如何在用戶—物品領(lǐng)域之外[11-12],引入地理位置信息,利用數(shù)據(jù)中的位置屬性,提高漁業(yè)科學(xué)數(shù)據(jù)推薦準(zhǔn)確率,并為農(nóng)業(yè)科學(xué)數(shù)據(jù)資源推薦方法研究提供參考。

      1 基于地理位置推薦

      1.1 研究方法

      提出了一種結(jié)合用戶所在地理位置進(jìn)行推薦的方法。數(shù)據(jù)來自國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心漁業(yè)數(shù)據(jù)分中心平臺(tái)2017年的日志記錄。通過平臺(tái)數(shù)據(jù)庫獲得用戶數(shù)據(jù),選擇100位用戶作為試驗(yàn)數(shù)據(jù)。該數(shù)據(jù)庫不僅包含了平臺(tái)中所有的漁業(yè)科學(xué)數(shù)據(jù),還記錄了用戶的訪問信息數(shù)據(jù)。

      主要采集漁業(yè)科學(xué)數(shù)據(jù)平臺(tái)數(shù)據(jù)庫的用戶訪問和IP訪問數(shù)據(jù),以及Web日志數(shù)據(jù)。其中,用戶訪問表包含用戶的ID、訪問時(shí)間、訪問記錄等信息,IP訪問表結(jié)構(gòu)包含訪問IP、訪問時(shí)間、訪問記錄等信息。這兩個(gè)表格分別是系統(tǒng)注冊(cè)用戶的歷史記錄和以訪問IP為基礎(chǔ)的歷史記錄。Web日志數(shù)據(jù)主要包含訪問時(shí)間、客戶端IP、客戶端執(zhí)行的操作以及Cookie等信息。通過對(duì)日志進(jìn)行清洗,提取用戶ID和鏈接,作為對(duì)比方法的數(shù)據(jù)集。采集2017年1—10月的數(shù)據(jù),進(jìn)行數(shù)據(jù)抽取轉(zhuǎn)為訓(xùn)練數(shù)據(jù)。采集11—12月的數(shù)據(jù),作為測試數(shù)據(jù)。

      根據(jù)采集的數(shù)據(jù),可以構(gòu)建用戶的物品評(píng)分矩陣,其中用戶的訪問次數(shù)作為具體評(píng)分來判斷用戶對(duì)這項(xiàng)數(shù)據(jù)的偏好程度。地理位置則是根據(jù)用戶的IP,通過API接口,轉(zhuǎn)為物理地址。從地址解析API獲得的返回結(jié)果是Json格式的數(shù)據(jù),包含訪問者的國家、區(qū)域、省、市等信息。提取其中的國家和省市信息拼接成新的字符串,作為矩陣的地理緯度信息。然后以同一城市對(duì)某物品的訪問次數(shù)作為評(píng)分,構(gòu)建地理位置—物品的數(shù)據(jù)評(píng)分矩陣。通過矩陣分解得到反映用戶興趣分布的評(píng)分矩陣,然后為用戶推薦評(píng)分較高的項(xiàng)[13]。

      1.2 矩陣分解

      跨領(lǐng)域的推薦方法有基于協(xié)同過濾、基于張量分解和基于遷移學(xué)習(xí)等算法。本研究使用的是聯(lián)合矩陣分解的方法,這是一種基于模型的矩陣分解算法。矩陣分解就是預(yù)測評(píng)分矩陣中的缺失值,然后根據(jù)預(yù)測結(jié)果為用戶推薦[14]。在分解過程中,將一個(gè)矩陣分解成兩個(gè)或者多個(gè)矩陣的乘積。通過不斷迭代訓(xùn)練使矩陣乘積越來越接近初始矩陣[15-16]。

      對(duì)于用戶,首先從其近期的瀏覽記錄中抽取具體項(xiàng)作為物品集合V,集合V中包含n個(gè)不同的物品項(xiàng)。每個(gè)用戶和物品集合V之間的關(guān)系可以表示成一個(gè)n維向量。在向量中,每個(gè)維度表示的是用戶訪問此項(xiàng)的次數(shù)。訪問次數(shù)可以看成是用戶對(duì)物品的評(píng)分或喜愛程度。對(duì)于用戶集合U和物品集合V,可以表示成一個(gè)用戶—物品矩陣Rm,n。

      (1)

      式中:rij(i=1,2,…,m;j=1,2,…,n)—第i個(gè)用戶訪問第j個(gè)物品的次數(shù)。Rm,n矩陣可以表示成用戶因子矩陣Umk和物品因子矩陣Vkn的乘積形式,Rm,n=Umk·Vkn。實(shí)際分解矩陣時(shí),要使Umk和Vkn的乘積能夠盡可能接近初始矩陣Rm,n。

      (2)

      (3)

      式中:eij—初始評(píng)分矩陣和預(yù)測評(píng)分矩陣之間的誤差。

      當(dāng)所有損失之和最小時(shí),Rm,n矩陣就成功分解為Umk和Vkn。損失函數(shù)的最小值,可以通過梯度下降法求解。首先需要獲得損失函數(shù)的負(fù)梯度,然后按照負(fù)梯度的方向更新矩陣,更新公式分別為:

      (4)

      (5)

      1.3 聯(lián)合矩陣分解

      上述算法是對(duì)用戶-物品領(lǐng)域的單矩陣分解,當(dāng)引入地理位置信息時(shí),可以采用聯(lián)合矩陣分解進(jìn)行分析。通過分解相關(guān)聯(lián)的矩陣,計(jì)算損失函數(shù)的最小值。不同于單矩陣分解,損失函數(shù)是各領(lǐng)域損失函數(shù)的加權(quán)和,且所有權(quán)值之和為1。

      聯(lián)合矩陣分解過程中,用戶—物品領(lǐng)域,評(píng)分矩陣可以分解成用戶特征矩陣U和物品特征矩陣V。位置—物品領(lǐng)域,評(píng)分矩陣可以分解成位置特征矩陣I和物品特征矩陣V。兩個(gè)領(lǐng)域的V特征矩陣是等價(jià)的。則聯(lián)合矩陣損失函數(shù)為:

      e2=α‖RUV-UV‖2+(1-α)‖RIV-IV‖2

      (6)

      式中:e—損失函數(shù);α—(用戶—物品)矩陣損失函數(shù)的權(quán)重;RUV—(用戶—物品)矩陣評(píng)分;RIV—(位置—物品)評(píng)分矩陣;‖RUV-UV‖2、‖RIV-IV‖2—分別是兩個(gè)矩陣的損失函數(shù)。

      按照梯度方向,更新矩陣。當(dāng)損失函數(shù)小于閾值時(shí),迭代結(jié)束,此時(shí)獲得的就是關(guān)于用戶、物品和位置的特征矩陣。相對(duì)于單矩陣分解出的用戶和物品特征矩陣,使用聯(lián)合矩陣分解獲得的矩陣反映了地理位置因素的影響。因此,可以使用用戶—物品矩陣還原評(píng)分矩陣,然后根據(jù)預(yù)測值的大小向用戶推薦。

      2 結(jié)果與分析

      2.1 試驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

      以公式(6)構(gòu)建的兩個(gè)矩陣作為輸入,使用聯(lián)合矩陣分解算法,得到用戶矩陣、物品矩陣和地理位置矩陣。重新以用戶和物品矩陣組成評(píng)分矩陣,降序排列,分?jǐn)?shù)較高的優(yōu)先推薦給用戶。計(jì)算中,采用的是預(yù)測準(zhǔn)確率P和擊中率R來評(píng)價(jià)推薦算法的性能,計(jì)算方法為:

      (7)

      (8)

      式中:N—用戶推薦物品的數(shù)量;M—用戶一段時(shí)間內(nèi)瀏覽物品的數(shù)量;Nr—成功推薦給用戶的物品數(shù)量;P—預(yù)測準(zhǔn)確率,即為推薦準(zhǔn)確的數(shù)據(jù)與推薦的總數(shù)據(jù)比值,%;R—擊中率,即推薦準(zhǔn)確的數(shù)據(jù)在用戶瀏覽數(shù)據(jù)中所占比值,%。在試驗(yàn)中,為每個(gè)用戶推薦10條數(shù)據(jù),N=10。

      2.2 試驗(yàn)結(jié)果

      在對(duì)比試驗(yàn)中,選擇4種算法與本文方法的性能進(jìn)行比較。算法如下:1)基于用戶的協(xié)同過濾方法,使用的試驗(yàn)數(shù)據(jù)是上文中構(gòu)建的用戶—物品評(píng)分矩陣;2)基于熱點(diǎn)信息的推薦算法,以當(dāng)前系統(tǒng)平臺(tái)中訪問量最多的漁業(yè)科學(xué)數(shù)據(jù)作為熱點(diǎn)信息,推薦給用戶;3)基于人口統(tǒng)計(jì)學(xué)的推薦,根據(jù)用戶的注冊(cè)信息發(fā)現(xiàn)相關(guān)用戶,然后把相似用戶瀏覽的數(shù)據(jù)推薦給目標(biāo)用戶;4)基于關(guān)聯(lián)規(guī)則的推薦,通過web日志數(shù)據(jù),挖掘出數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,然后為用戶推薦與瀏覽記錄關(guān)聯(lián)程度較高的科學(xué)數(shù)據(jù)。

      計(jì)算結(jié)果如表1所示,可以看出,當(dāng)推薦數(shù)量N=10時(shí),本研究提出的基于地理位置的跨領(lǐng)域推薦相較于其他方法能夠有效提升在漁業(yè)科學(xué)類數(shù)據(jù)推薦效果。

      表1 跨領(lǐng)域推薦與傳統(tǒng)推薦效果比較

      通過變化推薦列表長度,從8增長到11,各個(gè)算法的預(yù)測準(zhǔn)確率和擊中率變化如圖1、圖2所示。

      圖1 預(yù)測準(zhǔn)確率隨推薦數(shù)量變化

      圖2 擊中率隨推薦數(shù)量變化

      可以看出,隨著推薦長度的增加,推薦系統(tǒng)的預(yù)測準(zhǔn)確性也在不斷的降低,這是由于評(píng)分較高項(xiàng)在推薦列表中占的比重逐漸降低,且計(jì)算中采集的是1—10月的用戶數(shù)據(jù),預(yù)測的是11—12月的行為,沒有實(shí)時(shí)更新訓(xùn)練數(shù)據(jù)。這些舊數(shù)據(jù)無法反映用戶新的興趣變化,降低了準(zhǔn)確性。而擊中率提高則是由于推薦命中數(shù)據(jù)量的增加。

      2.3 結(jié)果與分析

      從表1可以看出,基于熱點(diǎn)信息的推薦效果最差,因?yàn)闆]有考慮用戶的個(gè)性化需求,只統(tǒng)計(jì)系統(tǒng)訪問量最多的漁業(yè)科學(xué)數(shù)據(jù)作為熱點(diǎn)信息推薦給用戶。而漁業(yè)科學(xué)數(shù)據(jù)與用戶之間的關(guān)系散亂,難以實(shí)現(xiàn)較好的推薦結(jié)果,且對(duì)于部分用戶會(huì)產(chǎn)生過量推薦的效果。基于人口統(tǒng)計(jì)學(xué)的推薦預(yù)測準(zhǔn)確率和擊中率不高的原因是推薦以用戶的注冊(cè)信息作為特征,不能保證興趣點(diǎn)有較大范圍的重合。基于關(guān)聯(lián)規(guī)則的推薦效果較好,使用的對(duì)比方法參考肖慧等[19]。算法從散亂的科學(xué)數(shù)據(jù)中挖掘了一定的關(guān)聯(lián)規(guī)則,反應(yīng)了數(shù)據(jù)蘊(yùn)含的潛在關(guān)系。隨著推薦數(shù)量的增加,關(guān)聯(lián)程度較低甚至沒有關(guān)聯(lián)的數(shù)據(jù)也被推薦給用戶,使得算法的性能極速下降。當(dāng)N=10時(shí),算法的預(yù)測準(zhǔn)確性和擊中率都低于基于人口統(tǒng)計(jì)學(xué)的方法。基于用戶的協(xié)同過濾算法計(jì)算了近期用戶瀏覽記錄的相似度,保證了興趣相似度較高的用戶之間的推薦,效果相對(duì)于其他方法較好。并且在吳顏等人的研究中[20],通過聚類和矩陣的降維,進(jìn)一步緩解了矩陣稀疏性的影響,提高了推薦系統(tǒng)的預(yù)測準(zhǔn)確率。本文算法則在傳統(tǒng)單矩陣分解的基礎(chǔ)上,考慮了漁業(yè)數(shù)據(jù)潛在的位置因素,即用戶感興趣的漁業(yè)數(shù)據(jù)會(huì)因?yàn)槲恢玫淖兓兓O噍^于單純的基于矩陣分解的協(xié)同過濾算法[21-23],充分發(fā)掘了數(shù)據(jù)內(nèi)涵的地理位置信息。

      本文方法在預(yù)測準(zhǔn)確率和擊中率上都高于其他4種算法,充分利用了數(shù)據(jù)中蘊(yùn)含的地域特征,增加了可用推薦信息,在一定程度上減少了冷啟動(dòng)問題的影響,對(duì)信息較少、難以提取興趣特征的用戶也能有較好的推薦結(jié)果。相較于其他推薦算法,基于地理位置的跨領(lǐng)域推薦在漁業(yè)科學(xué)數(shù)據(jù)領(lǐng)域中具有明顯優(yōu)勢。

      3 結(jié)論

      通過對(duì)跨領(lǐng)域推薦方法的設(shè)計(jì)和實(shí)現(xiàn),提出了結(jié)合用戶地理位置的推薦方法,綜合利用了用戶之間的興趣相似性及漁業(yè)數(shù)據(jù)本身蘊(yùn)含的地理位置信息。并對(duì)比了傳統(tǒng)的推薦算法,分析了其優(yōu)劣。計(jì)算結(jié)果表明,本文方法提高了在漁業(yè)科學(xué)數(shù)據(jù)領(lǐng)域里推薦結(jié)果的準(zhǔn)確性,具有一定的研究意義。下一階段會(huì)繼續(xù)研究在移動(dòng)端GPS定位下,以更加精細(xì)的地理信息為用戶推薦漁業(yè)科學(xué)數(shù)據(jù)的方法。

      猜你喜歡
      漁業(yè)物品矩陣
      稱物品
      “雙十一”,你搶到了想要的物品嗎?
      歡迎訂閱2020年度《河北漁業(yè)》
      誰動(dòng)了凡·高的物品
      中菲漁業(yè)合作重啟 菲漁業(yè)代表團(tuán)來華培訓(xùn)交流
      初等行變換與初等列變換并用求逆矩陣
      湖南省漁業(yè)協(xié)會(huì)成立
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年1期)2015-09-10 07:22:44
      阿拉善右旗| 稻城县| 金门县| 潍坊市| 布尔津县| 濮阳县| 贡嘎县| 池州市| 五大连池市| 华坪县| 万荣县| 湘潭市| 榕江县| 桓仁| 开鲁县| 常山县| 胶南市| 万州区| 夏河县| 泰顺县| 龙井市| 葫芦岛市| 盐城市| 容城县| 得荣县| 泗洪县| 左权县| 齐齐哈尔市| 高台县| 宣威市| 内乡县| 牡丹江市| 高平市| 府谷县| 三台县| 南城县| 乌拉特后旗| 大厂| 罗江县| 达拉特旗| 高雄市|