• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      電子檔案實時推薦系統(tǒng)模型優(yōu)化應(yīng)用研究

      2023-12-08 14:03:43陳靜胡祥科彭煦彭登輝
      北京檔案 2023年11期
      關(guān)鍵詞:檢索標簽用戶

      陳靜 胡祥科 彭煦 彭登輝

      摘要:論文結(jié)合實時推薦技術(shù)的特性,針對現(xiàn)有電子檔案管理系統(tǒng)中的檢索推薦方法,進一步提出實時推薦的優(yōu)化方式,即通過應(yīng)用基于內(nèi)容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略進行電子檔案的實時推薦。此種方式將打破傳統(tǒng)依賴關(guān)鍵詞的正向檢索局限,提升電子檔案的利用效率,為電子檔案管理提供一定的參考與借鑒。

      關(guān)鍵詞:電子檔案 實時推薦 計算機應(yīng)用

      隨著電子檔案呈海量增長的趨勢加強,如何高效、精準地滿足電子檔案利用者的需求,提升檢索效能,充分發(fā)揮電子檔案的價值,成為亟待解決的問題。本文提出了應(yīng)用基于內(nèi)容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略,打破了傳統(tǒng)依賴關(guān)鍵詞檢索推薦的局限,有效縮短了檔案查詢時間,提升了電子檔案的檢索效率。

      一、電子檔案推薦系統(tǒng)現(xiàn)狀及存在的問題

      電子檔案具有類型復(fù)雜多樣、數(shù)量大等特點?,F(xiàn)有推薦系統(tǒng)大多是通過獲取所檢索的關(guān)鍵詞,與后臺數(shù)據(jù)庫存儲的電子檔案進行匹配,篩選符合條件的電子檔案,最終反饋匹配成功的檢索結(jié)果。由于此種方式要將關(guān)鍵詞與存儲的電子檔案逐一匹配,若存儲的電子檔案數(shù)量不大,需要比對的數(shù)據(jù)量相對較少,尚可滿足利用需求。但針對海量電子文檔的檢索,由于數(shù)據(jù)量過大,此種查詢方式會帶來查詢延時,在一定程度上無法滿足實時反饋檢索結(jié)果的需求。

      另外,在查詢用戶無法提供關(guān)鍵詞或者提供的關(guān)鍵詞相關(guān)性不大的應(yīng)用場景下,系統(tǒng)無法精準獲取用戶需求,進而無法提供給用戶真正所需的電子檔案,從而減弱電子檔案的利用效率,影響用戶體驗。而且當前大部分推薦系統(tǒng)缺乏用戶喜好的相關(guān)數(shù)據(jù),無法建立用戶和用戶之間的關(guān)聯(lián)度分析,進而尚未實現(xiàn)相似用戶感興趣的電子檔案的互相推薦。

      二、電子檔案實時推薦系統(tǒng)優(yōu)化策略

      針對上述問題,本文提出電子檔案實時推薦系統(tǒng)的優(yōu)化模型,以解決推薦效率低下等問題。該優(yōu)化模型是在不同階段分別應(yīng)用基于內(nèi)容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略,通過用戶畫像生成和倒排索引構(gòu)建、混合推薦和推薦結(jié)果的實時反饋等步驟,最終達到電子檔案實時推薦的目標。具體實施步驟如下所述。

      (一)基礎(chǔ)數(shù)據(jù)生成與構(gòu)建

      1.用戶畫像生成。不同于傳統(tǒng)基于關(guān)鍵詞的檢索方式,該推薦系統(tǒng)主要基于用戶的喜好和意圖進行自動化的推薦。為了獲取用戶的喜好,推薦系統(tǒng)需要獲取用戶對不同電子檔案的行為數(shù)據(jù),包括點擊、閱讀等操作,然后基于此生成用戶畫像。同時,該系統(tǒng)逐一對電子檔案生成電子檔案畫像,主要涉及文章分類、主題詞提取等。

      2.電子檔案標簽編碼。為了高效完成自動推薦,該系統(tǒng)還需要逐一對電子檔案和用戶進行標簽編碼。為便于理解,這里假設(shè)每一份電子檔案使用64位整數(shù)作為標簽進行編碼,將64位整數(shù)分為兩部分,高12位用來表示電子檔案的相關(guān)類型參數(shù),低52位用來表示該類型參數(shù)對應(yīng)的編碼標識。例如,某電子檔案的標簽是{“所屬領(lǐng)域:新能源”,“發(fā)布單位:集團某科研院所”,“文檔類型:制度”,“主題詞:海上風(fēng)電”},這里的標簽和對應(yīng)的值可根據(jù)業(yè)務(wù)需要動態(tài)進行調(diào)整。

      3.用戶標簽編碼。與上述電子檔案的標簽編碼類似,這里也采用64位整數(shù)來標識用戶,將64位整數(shù)分為兩部分,高12位用來表示用戶的相關(guān)類型參數(shù),低52位用來表示該類型參數(shù)對應(yīng)的編碼標識。例如,某用戶的標簽是“{關(guān)注領(lǐng)域:新能源”,“所在單位:集團某科研院所”,“喜好文檔類型:制度”,“喜好主題:海上風(fēng)電”},這里的標簽和對應(yīng)的值可根據(jù)業(yè)務(wù)需要動態(tài)調(diào)整。

      4.倒排索引構(gòu)建。傳統(tǒng)正向索引技術(shù)主要是建立電子檔案與關(guān)鍵詞的映射關(guān)系,將檔案ID或者標題作為文檔唯一標識。例如“檔案A”“檔案B”“檔案C”中包含“新能源”這個關(guān)鍵詞,其對應(yīng)的正向索引為:{“檔案A”:“新能源”、“檔案B”:“新能源”、“檔案C”:“新能源”},通過此種方式建立的映射關(guān)系,在對“新能源”這個關(guān)鍵詞進行檢索查詢時,需逐一從每份檔案中進行全文檢索,在一定程度上影響了檢索效率。而倒排索引是記錄每個關(guān)鍵詞和對應(yīng)的電子檔案信息的列表,采用倒排索引建立的映射關(guān)系為:{“新能源”:“檔案A”,“檔案B”,“檔案C”}。后期通過“新能源”關(guān)鍵詞檢索時,只需要查詢一次就可以得到所有包含該關(guān)鍵詞的檔案信息,可有效提升檢索效率。

      這里將電子檔案和用戶的標簽作為關(guān)鍵詞來構(gòu)建倒排索引,在倒排索引列表中記錄對應(yīng)的電子檔案的存放列表。以上述電子檔案和用戶標簽編碼為例,構(gòu)建的電子檔案倒排索引列表為:{“所屬領(lǐng)域”:“海上風(fēng)電,新能源,水電”},{“文檔類型”:“制度,通知,紀要”};用戶倒排索引列表為:{“關(guān)注領(lǐng)域-新能源”:“用戶A,用戶B,用戶C”},{“感興趣類型-制度”:“用戶B,用戶C,用戶D”}。

      (二)基于內(nèi)容的召回推薦策略

      基于內(nèi)容的召回是指根據(jù)電子檔案的內(nèi)容,來判斷該檔案是否符合用戶喜好。其主要應(yīng)用在推薦系統(tǒng)的冷啟動環(huán)節(jié)(即系統(tǒng)上線運行的初期),處于這個時期的推薦系統(tǒng)由于缺乏用戶的瀏覽、點擊等行為數(shù)據(jù),無法通過用戶的喜好進行推薦。基于內(nèi)容的召回推薦策略可以通過分析電子檔案的內(nèi)容,從而提煉出電子檔案標簽,推薦給能匹配該標簽的用戶。

      具體來說,如果用戶畫像和電子檔案畫像中的標簽或關(guān)鍵詞相同,說明該電子檔案的內(nèi)容符合用戶喜好,可推送該電子檔案。從計算的角度來說,即將用戶標簽和電子檔案標簽進行邏輯“與”運算(標簽里存放的都是0或者1這樣的64位正整數(shù)),若運算結(jié)果完全一致,可將電子檔案倒排索引列表中的電子檔案依次取出并推送給該用戶,也可通過設(shè)定結(jié)果相似度的閾值來判斷是否需要推送。

      (三)基于用戶的協(xié)同過濾推薦策略

      在系統(tǒng)運行上述基于內(nèi)容的召回推薦算法一段時間后,此時后臺系統(tǒng)已存儲大量的用戶行為數(shù)據(jù)。在此背景下可使用基于用戶的協(xié)同過濾推薦策略,該策略與基于內(nèi)容的召回推薦策略的不同之處在于,其不依賴電子檔案的內(nèi)容進行推薦,而基于用戶與電子檔案的互動關(guān)系來進行推薦。從本質(zhì)上說,就是將和某用戶相似的用戶找出來,然后將相似用戶所瀏覽過的電子檔案推薦給該用戶。

      具體操作分為兩步:第一步,找到與該用戶最相似的一批用戶;第二步,將相似用戶瀏覽過但該用戶沒有瀏覽的電子檔案進行推薦。例如,用戶1瀏覽過檔案1和檔案2,而用戶3和用戶4也瀏覽過檔案1和檔案2,那么用戶1和用戶3、用戶4就是相似用戶。如果用戶3和用戶4還分別瀏覽過檔案3和檔案4,就可以將檔案3和檔案4都推薦給用戶1。具體如圖1所示。

      這里以一個實際例子來進一步說明,假定有四個用戶、四篇電子檔案,用戶對四篇電子檔案的興趣程度(可通過用戶的點擊次數(shù)、收藏和轉(zhuǎn)發(fā)等行為計算)如表1所示。

      為了便于理解,表格里的每個電子檔案列下的數(shù)字表示每個用戶對該電子檔案的喜好度(可通過用戶的點擊次數(shù)、收藏和轉(zhuǎn)發(fā)等行為計算),表中“-”表示用戶和檔案尚未建立相關(guān)的喜好度。

      基于表1,若要找出和用戶1相似的用戶,可以將用戶對電子檔案的喜好度看作一個n維空間,每個用戶都可以表示為n維空間中的一個向量,同時將n維空間中各個向量維度中的值設(shè)置為用戶對電子檔案的喜好度。據(jù)此,找到與用戶1最相似的用戶的問題,就變成在n維向量空間中,找到和用戶1這個點最接近的點的問題。而在n維向量空間中找到與某點最接近的點可以通過計算余弦距離來對比獲得。這里采用余弦距離所得的結(jié)果如表2所示。

      根據(jù)表2,用戶2、用戶3、用戶4和用戶1的相似度排序為用戶3>用戶4>用戶2,根據(jù)相似度的排序可取出若干相似用戶,然后將相似用戶感興趣的電子檔案取出進行推薦。從排序得出,用戶3和用戶4為用戶1的相似用戶,然后將用戶4和用戶3感興趣的電子檔案3和電子檔案4進行排序推薦。針對優(yōu)先推薦檔案3還是檔案4的問題,可對電子檔案的喜好進行加權(quán)打分(用戶喜好度×與待推薦用戶的相似度)累加,優(yōu)先推薦分數(shù)最高的電子檔案。

      基于上述數(shù)據(jù),分別計算電子檔案3和電子檔案4的推薦得分,檔案3的推薦得分是:1×0.73=0.73(用戶3的喜好度×用戶3和用戶1的相似度),檔案4的推薦得分是:2×0.54 = 1.08(用戶4的喜好度×用戶4和用戶1的相似度)。因此,根據(jù)計算得到的結(jié)果,系統(tǒng)會優(yōu)先推薦檔案4,再推薦檔案3。

      (四)推薦結(jié)果的實時反饋

      最后根據(jù)上述算法選取符合條件的且排序最靠前的若干個電子檔案返回,得到最終推薦結(jié)果,也就是說從全部符合條件的電子檔案中選擇排名前K個結(jié)果即可。為提高排序選擇效率,可采用常規(guī)排序的Top-K排序(又叫堆排序)算法來獲取。該算法是在特定的數(shù)據(jù)區(qū)域中找出排名前K個符合條件的數(shù)據(jù)的檢索方法。采用該方法將大幅減少排序的時間,有效提升檢索性能,同時避免不必要的系統(tǒng)資源消耗,減少計算資源,提升系統(tǒng)運行效率。

      三、結(jié)語

      本文圍繞電子檔案實時推薦的應(yīng)用方式,通過引入基于內(nèi)容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略,將兩種類型的推薦模式進行互補融合。在用戶行為數(shù)據(jù)較少、相似用戶不具規(guī)模的情況下,采用基于內(nèi)容的召回推薦策略進行電子檔案推薦,解決系統(tǒng)冷啟動問題。當系統(tǒng)運行一段時間,用戶和電子檔案積累到一定數(shù)量時,采用基于用戶的協(xié)同過濾推薦策略,可以進一步提高電子檔案推薦的科學(xué)性和準確率。下一階段,對電子檔案檢索的研究還可關(guān)注基于AI的實時推薦模型,即通過AI自動化與推薦搜索算法進一步融合,以達到更好的實時推薦效果。

      *本文系2020年國家檔案局科技項目“基于重大工程項目施工現(xiàn)場的電子文件‘單套制歸檔和電子檔案管理研究”(項目批準號:2020-X-22)的階段性研究成果。

      參考文獻:

      [1]劉青文.基于協(xié)同過濾的推薦算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2013.

      [2]王哲.新時期建設(shè)工程電子檔案的移交與接收工作探析[J].北京檔案,2023(1):30-32.

      [3]楊茜雅.中國聯(lián)通電子檔案數(shù)據(jù)挖掘與智能利用的研究[J].檔案學(xué)研究,2018(6):105-109.

      [4]楊俊杰.數(shù)字化轉(zhuǎn)型背景下的檔案信息安全問題研究[D].鄭州:鄭州航空工業(yè)管理學(xué)院,2022.

      [5]柯賢斌.基于用戶的協(xié)同過濾算法在圖書推薦系統(tǒng)中的應(yīng)用研究[D].荊州:長江大學(xué),2019.

      [6]張新,王瑋.探索電子文件歸檔和電子檔案管理新模式[J].中國檔案,2018(5):70-71.

      [7]秦楊.我國智慧檔案館建設(shè)的現(xiàn)狀分析與對策研究[D].保定:河北大學(xué),2020.

      作者單位:1.中國長江三峽集團有限公司科學(xué)技術(shù)研究院

      2.中國長江三峽集團有限公司檔案中心

      猜你喜歡
      檢索標簽用戶
      2019年第4-6期便捷檢索目錄
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      關(guān)注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      關(guān)注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      標簽化傷害了誰
      關(guān)注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      如何獲取一億海外用戶
      张家港市| 定西市| 宜君县| 固原市| 嘉黎县| 合水县| 泉州市| 报价| 陇西县| 郁南县| 万山特区| 凉山| 弋阳县| 黄骅市| 临汾市| 右玉县| 禹城市| 太和县| 桐梓县| 应城市| 渭源县| 新兴县| 门头沟区| 云林县| 兴城市| 达州市| 宁陵县| 宜城市| 七台河市| 安溪县| 瑞丽市| 绍兴市| 石楼县| 白银市| 安西县| 铜山县| 冷水江市| 荥阳市| 屯门区| 盐池县| 临泽县|