• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于用戶日志分析的搜索引擎相關(guān)排序算法優(yōu)化

      2020-10-09 10:23:04汪瀅
      電腦知識(shí)與技術(shù) 2020年18期
      關(guān)鍵詞:搜索引擎優(yōu)化

      摘要:為提高搜索引擎相關(guān)排序算法的搜索結(jié)果相關(guān)度低下問(wèn)題,因此提出基于用戶日志分析的搜索引擎相關(guān)排序算法優(yōu)化研究。通過(guò)構(gòu)建搜索引擎排序算法的向量空間檢索模型來(lái)預(yù)估排序算法迭代向量,按照用戶關(guān)注點(diǎn)的不同進(jìn)行迭代向量分類集合計(jì)算,以便求出用戶興趣向量,進(jìn)行用戶興趣搜索分類,最后由于受分類影響降低了排序結(jié)果相關(guān)度較低的網(wǎng)頁(yè)點(diǎn)擊率,因此引入時(shí)間反饋因子優(yōu)化迭代排序計(jì)算。經(jīng)實(shí)驗(yàn)證明,基于用戶日志分析的搜索引擎相關(guān)排序算法有效提高了搜索結(jié)果的相關(guān)性,因此具有更強(qiáng)的排序能力。

      關(guān)鍵詞:用戶日志分析;搜索引擎;排序算法;優(yōu)化

      中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2020)18-0099-03

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      由于用戶日志詳細(xì)記錄了每個(gè)用戶的搜索行為,因此對(duì)用戶日志的挖掘能夠最直接地發(fā)現(xiàn)用戶搜索規(guī)律和搜索意圖[1]。通過(guò)預(yù)估排序算法迭代向量和優(yōu)化迭代排序計(jì)算提高相關(guān)排序算法適用性,并在用戶日志分析的基礎(chǔ)上,對(duì)用戶搜索行為特征進(jìn)行深入研究,從而進(jìn)行用戶興趣搜索分類。相關(guān)度作為一個(gè)布爾值,用以衡量關(guān)鍵詞與行業(yè)領(lǐng)域的緊密程度,基于用戶日志分析的搜索引擎排序算法的設(shè)計(jì)思路是:若關(guān)鍵詞在文檔中出現(xiàn)的頻度越高,且在文中的位置越重要,則認(rèn)定為此網(wǎng)頁(yè)與查詢關(guān)鍵詞的相關(guān)度就越高,在返回結(jié)果中的位置就越靠前。但經(jīng)過(guò)興趣搜索分類后,網(wǎng)頁(yè)點(diǎn)擊率隨著排序結(jié)果相關(guān)度的減小而降低,該網(wǎng)頁(yè)往往會(huì)排序位置靠后,致使人為造成其相似性下降,造成不能及時(shí)被用戶搜索到。針對(duì)這一問(wèn)題,需要從提高搜索引擎的質(zhì)量人手,優(yōu)化搜索引擎相關(guān)排序算法。

      1 基于用戶日志分析的搜索引擎相關(guān)排序算法設(shè)計(jì)

      1.1超前預(yù)測(cè)搜索引擎排序算法迭代向量

      要想設(shè)計(jì)搜索引擎的相關(guān)排序算法,需要進(jìn)行排序算法的迭代向量預(yù)估,該預(yù)估過(guò)程主要通過(guò)構(gòu)建搜索引擎排序算法的向量空間檢索模型來(lái)實(shí)現(xiàn)[2]。

      首先,根據(jù)關(guān)鍵詞和關(guān)鍵字詞對(duì)用戶查詢請(qǐng)求和文檔進(jìn)行矢量化處理。接下來(lái),通過(guò)計(jì)算兩個(gè)向量的夾角余弦來(lái)計(jì)算文檔和查詢請(qǐng)求向量之間的相似度,采用數(shù)學(xué)上的向量夾角余弦值來(lái)計(jì)算向量之間的相似度[3]。向量間的夾角余弦計(jì)算公式如公式(1)所示:

      其中m,n表示向量,.表示向量的點(diǎn)乘,|m|表示向量的模,或者說(shuō)是向量的長(zhǎng)度。余弦值越小,兩個(gè)向量之間的距離越近,兩個(gè)文檔之間的相似度越高。檢索到的相關(guān)網(wǎng)頁(yè)內(nèi)容返回結(jié)果依照與查詢請(qǐng)求間相似度的緊密程度以降序排列,構(gòu)建向量空間檢索模型?;谙蛄靠臻g檢索模型計(jì)算方法,預(yù)估搜索引擎相關(guān)排序算法初始向量。統(tǒng)計(jì)每列中值為1的人站鏈接總數(shù)并計(jì)算總和,然后計(jì)算每個(gè)網(wǎng)頁(yè)的人站鏈接總數(shù)與所有頁(yè)面人站鏈接總數(shù)的比值,將該比值作為每個(gè)網(wǎng)頁(yè)的迭代向量A的初始值。預(yù)估的搜索引擎相關(guān)排序算法迭代向量,可以在一個(gè)向量空間坐標(biāo)系中表示出來(lái),如下圖1所示。值,該值決定了搜索結(jié)果顯示的排序規(guī)則。另一方面,U(AIong)所代表的用戶長(zhǎng)期興趣向量則為搜索排序動(dòng)作提供了擴(kuò)展預(yù)測(cè)的方向。綜合該用戶歷史搜索結(jié)果,可以對(duì)該用戶的興趣方向、興趣類別和興趣偏好,進(jìn)而可以推測(cè)出該用戶的工作性質(zhì)、專業(yè)領(lǐng)域等延伸信息,這些延伸信息與該用戶當(dāng)前搜索的關(guān)鍵詞的合集共同決定了搜索引擎的驅(qū)動(dòng)字段,結(jié)合擴(kuò)展后的興趣領(lǐng)域與興趣方向,在搜索行為中對(duì)數(shù)據(jù)庫(kù)做出了嚴(yán)格的限定,大幅減少了搜索運(yùn)算量,縮短了搜索時(shí)間,在滿足用戶當(dāng)前搜索需求的基礎(chǔ)上加以擴(kuò)展,超前預(yù)測(cè)出用戶可能感興趣的周邊信息,實(shí)現(xiàn)“智能化”搜索,建立用戶興趣向量集。

      1.2結(jié)合迭代向量集完成對(duì)用戶興趣搜索結(jié)果分類

      在用戶日志中記錄著用戶使用搜索引擎的全部歷史記錄,對(duì)這些歷史記錄進(jìn)行分析,尋找其中隱含的規(guī)律,隨后將用戶興趣向量轉(zhuǎn)化為具體數(shù)據(jù)進(jìn)行分析。

      用戶在其特定興趣愛好的背景下,在統(tǒng)計(jì)學(xué)角度觀察,其使用搜索引擎的行為具備一致性與穩(wěn)定性,通過(guò)分析用戶使用日志,發(fā)現(xiàn)用戶基于特定興趣背景進(jìn)行查詢操作時(shí),其搜索目標(biāo)與興趣有相關(guān)性。因此,基于用戶日志分析方法有助于分析用戶實(shí)際需求,作為爬行程序獲得網(wǎng)頁(yè)的條件,按照用戶的興趣類別將其分類。用戶興趣搜索分類過(guò)程如下圖2所示。

      用戶對(duì)某個(gè)搜索結(jié)果是否感興趣,可作為用戶短期興趣向量,適應(yīng)了用戶當(dāng)前的興趣特征,是通過(guò)用戶短期內(nèi)的興趣特征來(lái)決定的。而這一系列短期興趣向量的分類集合,則構(gòu)成了用戶的長(zhǎng)期興趣權(quán)重,是用戶長(zhǎng)期使用搜索引擎的比較穩(wěn)定的興趣特征。這一轉(zhuǎn)變的關(guān)鍵舉措是通過(guò)對(duì)搜索引擎訪問(wèn)歷史加以分析歸類,按照類別相似度劃分為不同的興趣類目,實(shí)現(xiàn)將用戶的短期興趣轉(zhuǎn)化為用戶的長(zhǎng)期興趣。具體做法為:在用戶長(zhǎng)期興趣分析結(jié)果的基礎(chǔ)上,通過(guò)分類器確定搜索結(jié)果網(wǎng)頁(yè)的類別,將頁(yè)面分成不同的類別,類別越細(xì)致,則搜索引擎工作時(shí)限定條件越多,搜索速度越快。在分類時(shí),采用余弦相似度算法對(duì)搜索結(jié)果進(jìn)行劃分,實(shí)現(xiàn)用戶興趣搜索分類。

      1.3優(yōu)化迭代排序計(jì)算

      經(jīng)過(guò)用戶興趣搜索分類后,發(fā)現(xiàn)隨著分類的進(jìn)行,搜索內(nèi)容進(jìn)行分流,導(dǎo)致搜索結(jié)果相關(guān)度較低的網(wǎng)頁(yè)用戶點(diǎn)擊率下降,因此引入時(shí)間反饋因子提高點(diǎn)擊時(shí)間權(quán)重,以此進(jìn)行迭代排序計(jì)算的優(yōu)化。引入網(wǎng)頁(yè)時(shí)間反饋因子Yt,定義一個(gè)網(wǎng)頁(yè)被搜索引擎訪問(wèn)的周期次數(shù)為T,則時(shí)間反饋因子可表示為:

      Yt= a/T

      (4)

      式4中,a為經(jīng)驗(yàn)常數(shù),其取值受到迭代排序算法關(guān)鍵字長(zhǎng)度的影響。隨后在引入時(shí)間反饋因子的迭代過(guò)程中,通過(guò)比較前后迭代向量的2 -范數(shù)差大小來(lái)判斷停止迭代時(shí)機(jī),當(dāng)Residential=( )時(shí),停止迭代。當(dāng)?shù)鷿M

      公式(6)中Pi(j)表示在第i次迭代中,網(wǎng)頁(yè)排名Pi當(dāng)中排名第i名的網(wǎng)頁(yè),共有n個(gè)網(wǎng)頁(yè),至此完成迭代排序計(jì)算的優(yōu)化。經(jīng)過(guò)優(yōu)化后的迭代排序計(jì)算使得搜索結(jié)果相關(guān)度不同的網(wǎng)頁(yè)具有同等的檢索機(jī)會(huì)。

      2 實(shí)驗(yàn)驗(yàn)證

      為證明設(shè)計(jì)的基于用戶日志分析的搜索引擎相關(guān)排序算法的有效性和實(shí)用性,采用設(shè)計(jì)實(shí)驗(yàn)的方式,測(cè)試搜索結(jié)果排序的正確性。設(shè)置設(shè)計(jì)的基于用戶日志分析的搜索引擎相關(guān)排序算法為實(shí)驗(yàn)組,傳統(tǒng)的搜索引擎相關(guān)排序算法為對(duì)照組進(jìn)行對(duì)比試驗(yàn),實(shí)驗(yàn)次數(shù)設(shè)置為10次。

      2.1 實(shí)驗(yàn)設(shè)計(jì)

      本次實(shí)驗(yàn)的環(huán)境設(shè)置為L(zhǎng)ucene開源搜索引擎框架,Java開發(fā)語(yǔ)言,Eclipse 3.4集成開發(fā)環(huán)境,服務(wù)器為開源的Tomcat6.0,數(shù)據(jù)庫(kù)為SQL Server 2005。用實(shí)驗(yàn)組排序算法和傳統(tǒng)排序算法分別部署到2臺(tái)相同配置的計(jì)算機(jī)上。

      實(shí)驗(yàn)方法:首先,利用Lucene提供的網(wǎng)絡(luò)蜘蛛功能模塊在互聯(lián)網(wǎng)上進(jìn)行網(wǎng)頁(yè)抓取分析,獲取到有效網(wǎng)頁(yè)327169張,建立用戶搜索點(diǎn)擊日志,記錄用戶相關(guān)搜索點(diǎn)擊信息。在此次抓取索引數(shù)據(jù)量的基礎(chǔ)上,用兩種算法分組進(jìn)行比對(duì)測(cè)試。其次,隨機(jī)針對(duì)10個(gè)關(guān)鍵詞通過(guò)兩組算法進(jìn)行搜索,在搜索結(jié)果中自主選擇認(rèn)為和關(guān)鍵詞相關(guān)的網(wǎng)頁(yè)進(jìn)行瀏覽。最后,進(jìn)行搜索結(jié)果相關(guān)度統(tǒng)計(jì)分析。

      2.2 實(shí)驗(yàn)結(jié)果分析論證

      通過(guò)上述對(duì)比實(shí)驗(yàn),將搜索10個(gè)關(guān)鍵詞得到的實(shí)驗(yàn)結(jié)果,通過(guò)折線圖直觀顯示出來(lái),結(jié)果如圖3所示。

      通過(guò)圖3對(duì)比,可以明顯看出,設(shè)計(jì)的基于用戶日志分析的搜索引擎相關(guān)排序算法的搜索結(jié)果與用戶真實(shí)搜索意圖的相關(guān)性更高,更能滿足用戶的需求,排序算法的搜索結(jié)果相關(guān)度更高,證明實(shí)驗(yàn)組排序算法優(yōu)于對(duì)照組排序算法,具有更加良好的排序能力。

      3 結(jié)束語(yǔ)

      搜索引擎的出現(xiàn)有效解決了如何在眾多雜亂的信息中迅速檢索到有效信息,以及搜索結(jié)果是否滿足用戶需要等問(wèn)題,對(duì)互聯(lián)網(wǎng)的進(jìn)一步普及產(chǎn)生了巨大的影響。由于搜索引擎數(shù)據(jù)量巨大,而排序算法的接受能力有限,致使網(wǎng)頁(yè)排序不均勻,排序靠后的網(wǎng)頁(yè)往往不能及時(shí)被用戶瀏覽到,因此進(jìn)行基于用戶日志分析的搜索引擎相關(guān)排序算法優(yōu)化。用戶日志方面的分析和研究是提升搜索引擎檢索質(zhì)量的一個(gè)新的方向。影響排序算法排序能力的因素有很多,通過(guò)預(yù)估排序算法初始向量、進(jìn)行用戶興趣搜索分類和優(yōu)化迭代排序計(jì)算,實(shí)現(xiàn)搜索引擎相關(guān)排序算法的優(yōu)化。但是排序結(jié)果的準(zhǔn)確性仍有待提高,希望通過(guò)對(duì)基于用戶日志分析的搜索引擎相關(guān)排序算法優(yōu)化的研究,能夠給未來(lái)搜索引擎相關(guān)排序算法的發(fā)展帶來(lái)一定的啟發(fā)和幫助。

      參考文獻(xiàn):

      [1]嚴(yán)承希,王軍,王珂,中國(guó)大學(xué)生的網(wǎng)絡(luò)使用:基于大規(guī)模日志分析的模式識(shí)別新方法[Jl.圖書情報(bào)工作,2019.63(14):83-93.

      [2]周翔,張鵬翼,王軍.移動(dòng)購(gòu)物用戶信息瀏覽特征及對(duì)購(gòu)買的影響研究——基于移動(dòng)電商APP點(diǎn)擊流日志的分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(4):1-9.

      [3]王新才,謝宇君.知識(shí)發(fā)現(xiàn)系統(tǒng)與通用學(xué)術(shù)搜索引擎文獻(xiàn)資源比較研究——以超星發(fā)現(xiàn)和百度學(xué)術(shù)為例[J].福建論壇(人文社會(huì)科學(xué)版),2018(4):164-172.

      【通聯(lián)編輯:張薇】

      基金項(xiàng)目:江西省高等學(xué)校教學(xué)改革研究省級(jí)課題(JXJG-18-30-5)

      作者簡(jiǎn)介:汪瀅(1984-),女,江西井岡山人,碩士,副教授,研究方向?yàn)樗惴ǚ治觥?/p>

      猜你喜歡
      搜索引擎優(yōu)化
      超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
      民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
      關(guān)于優(yōu)化消防安全告知承諾的一些思考
      一道優(yōu)化題的幾何解法
      由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于低碳物流的公路運(yùn)輸優(yōu)化
      Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      陇川县| 昔阳县| 泽库县| 堆龙德庆县| 进贤县| 镇赉县| 江山市| 盱眙县| 芮城县| 宣武区| 乌拉特后旗| 宜丰县| 富顺县| 格尔木市| 旬阳县| 竹北市| 东城区| 贵溪市| 文昌市| 潮州市| 额尔古纳市| 龙井市| 兴宁市| 元氏县| 宁安市| 原平市| 大同市| 克东县| 晋江市| 板桥市| 南岸区| 肇源县| 定南县| 阜康市| 西宁市| 溆浦县| 呼玛县| 灵璧县| 南投县| 苏州市| 二手房|