• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向Portal的數(shù)字圖書館個(gè)性化服務(wù)模型設(shè)計(jì)

      2013-02-01 06:21:08
      圖書館研究 2013年2期
      關(guān)鍵詞:閾值個(gè)性化圖書館

      寧 琳

      (重慶交通大學(xué)圖書館,重慶 400074)

      隨著信息技術(shù)的迅猛發(fā)展,數(shù)字圖書館已經(jīng)成為圖書館業(yè)發(fā)展的一個(gè)重要方向。 如何讓讀者從數(shù)字圖書館海量信息中快速準(zhǔn)確地查找所需信息,更好地利用館藏資源進(jìn)行自主學(xué)習(xí),這對(duì)圖書館服務(wù)模式提出了新的要求。 采用Portal 技術(shù)實(shí)現(xiàn)圖書館用戶個(gè)性化服務(wù),通過(guò)研究讀者的行為、興趣和習(xí)慣,可以克服信息過(guò)載和信息迷向的缺陷,以“信息找人”替代“人找信息”,使圖書館從被動(dòng)為讀者提供資料到主動(dòng)為讀者尋找知識(shí)方向發(fā)展,滿足讀者個(gè)性化服務(wù)的需求。

      1 Portal 技術(shù)及其特征

      Portal 是基于應(yīng)用層和表示層的集成方案,其核心組件是用戶構(gòu)件Portlet,一種基于Java 技術(shù)的Web組件,對(duì)用戶而言,它將展現(xiàn)給用戶的內(nèi)容分為多個(gè)Portlet 區(qū)域,區(qū)域間相互獨(dú)立,用戶可以按照需求定制內(nèi)容。 它的主要出發(fā)點(diǎn)是把各種應(yīng)用程序和資源集成,建立統(tǒng)一的訪問點(diǎn),以“應(yīng)用整合”和消除“信息孤島”為最終目的,提供單點(diǎn)登錄、內(nèi)容聚合、個(gè)性化定制等功能,使用戶不需要訪問多個(gè)站點(diǎn)就可以高效獲得資源。

      Portal 主要有以下特性:①用戶界面友好:易于設(shè)定和個(gè)性化;②內(nèi)容聚集:能夠聚集各種Portlet 生成的內(nèi)容;③自主服務(wù):用戶可以自己管理和發(fā)布內(nèi)容;④兼容性好:用戶能訪問不同來(lái)源的、結(jié)構(gòu)及非結(jié)構(gòu)的各種數(shù)據(jù);⑤融合性強(qiáng):能用標(biāo)準(zhǔn)的界面和協(xié)議來(lái)融合各種應(yīng)用程序。

      2 面向Portal 的數(shù)字圖書館個(gè)性化服務(wù)模型的分析與設(shè)計(jì)

      面向Portal 的個(gè)性化服務(wù),是一個(gè)集用戶個(gè)性化數(shù)據(jù)采集、用戶訪問模式的挖掘、推薦信息的產(chǎn)生等于一體的綜合性信息服務(wù)。 其設(shè)計(jì)思想是:利用Portal 的個(gè)性化定制和內(nèi)容聚集功能,將每個(gè)Portlet 代表一個(gè)讀者個(gè)性化服務(wù),通過(guò)分析讀者瀏覽記錄以及和相似讀者的學(xué)習(xí),獲得關(guān)于讀者興趣信息的知識(shí),利用這些知識(shí),從海量的主題中過(guò)濾出讀者感興趣的主題,并通過(guò)一定方式將這些主題“推薦”給讀者,形成讀者的“個(gè)人圖書庫(kù)”,從而實(shí)現(xiàn)讀者個(gè)性化服務(wù)需求。 其個(gè)性化服務(wù)模型如圖1 所示。

      根據(jù)信息的處理過(guò)程和流向,可以將該模型分為資源表示、讀者興趣表示、讀者興趣聚類以及讀者推薦集生成等模塊。

      圖1 個(gè)性化服務(wù)系統(tǒng)模型圖

      2.1 資源表示模塊

      資源表示模塊通過(guò)搜索數(shù)字圖書館中的所有資源,經(jīng)過(guò)一定的分析處理,將這些資源表示成一種可方便計(jì)算機(jī)處理的形式。 本文采取的基于資源信息內(nèi)容的概率分布模型來(lái)表示資源,其設(shè)計(jì)思想是:將資源信息內(nèi)容所涉及的領(lǐng)域進(jìn)行分類,假定領(lǐng)域集合為C={c1,c2,……,cn},其中n 為領(lǐng)域集合的大小,cj 表示第j 個(gè)領(lǐng)域,則資源z 表示一個(gè)概率的矢量:z={P(c1),P(c2),……,P(cn)},對(duì)于任意O<k<n+l,P(cn)表示在資源z 的特征量中屬于領(lǐng)域ck 的特征量占總特征量的比率。 由此可得資源屬性描述過(guò)程:首先,對(duì)各個(gè)詞條進(jìn)行了領(lǐng)域?qū)傩栽O(shè)置,然后對(duì)資源內(nèi)容中涉及到各個(gè)領(lǐng)域中的詞條進(jìn)行統(tǒng)計(jì),最后求出各個(gè)領(lǐng)域中詞條的概率,用這些概率來(lái)表示資源。

      2.2 讀者興趣模塊

      讀者興趣模塊是個(gè)性化分析的重要部分,主要通過(guò)分析讀者的瀏覽記錄,來(lái)發(fā)現(xiàn)讀者的興趣信息,同時(shí)將對(duì)這些信息進(jìn)行可計(jì)算化描述。

      2.2.1 數(shù)據(jù)收集

      在進(jìn)行讀者興趣建模之前,需要進(jìn)行數(shù)據(jù)收集,從中挖掘出讀者興趣信息。 一是使用Cookies,Cookies將讀者訪問信息以純文本形式保存,可提供大量的數(shù)據(jù)供挖掘讀者興趣信息;二是使用服務(wù)器日志,日志中存有讀者訪問的頁(yè)面、時(shí)間、讀者ID 等信息記錄。

      2.2.2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理是對(duì)原始日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,它是整個(gè)日志挖掘的基礎(chǔ)和實(shí)施挖掘算法的前提。

      (1)數(shù)據(jù)清洗:主要是刪除服務(wù)器日志中與挖掘算法無(wú)關(guān)的項(xiàng),合并某些記錄,對(duì)發(fā)生錯(cuò)誤的記錄進(jìn)行處理等。

      (2)用戶識(shí)別:從日志中識(shí)別出訪問網(wǎng)站的用戶。

      (3)會(huì)話識(shí)別:將讀者的多次訪問記錄分為單個(gè)的會(huì)話。

      (4)事務(wù)模式識(shí)別:將用戶會(huì)話分割為更小的事務(wù),建立事務(wù)數(shù)據(jù)庫(kù),在此基礎(chǔ)上進(jìn)行相關(guān)挖掘。

      2.2.3 讀者訪問模式挖掘

      對(duì)讀者訪問日志進(jìn)行預(yù)處理后,就可以識(shí)別出讀者訪問模式,通過(guò)分類整理,得到讀者的訪問情況表,它包括URL 地址、Portlet 的訪問日期和訪問時(shí)間長(zhǎng)度等。 訪問序列表的內(nèi)容可以用以下三元組來(lái)描述:

      其中Ui 表示第i 個(gè)用戶,ip 表示讀者IP 地址,uid 表示讀者ID,對(duì)于任意的0<k<m+l,urlk 表示訪問的第k 個(gè)Portlet 的URL 地址,time 和length 表示訪問時(shí)間和瀏覽時(shí)間長(zhǎng)度。 通過(guò) 挖掘訪問情況的數(shù)據(jù),我們可以發(fā)現(xiàn)讀者的瀏覽頻繁集和瀏覽這些Portlet 的時(shí)間長(zhǎng)度, 對(duì)這些Portlet 上的信息進(jìn)行分析就可以發(fā)現(xiàn)讀者的興趣信息。

      2.2.4 讀者興趣模塊的實(shí)現(xiàn)

      得到讀者訪問序列表后,可挖掘出讀者的興趣度,在這里用Portlet 權(quán)重表示,最后根據(jù)各個(gè)Portlet的形式化描述結(jié)合其權(quán)重,采用加權(quán)疊加平均的方法計(jì)算出讀者的興趣表示。 Portlet 權(quán)重考慮的屬性很多,在此主要以讀者訪問時(shí)間進(jìn)行分析。

      首先,通過(guò)設(shè)定閾值,將連續(xù)性的訪問時(shí)間進(jìn)行離散化處理,詳情見表1。

      表1 頁(yè)面訪問時(shí)間離散化處理

      隨后,通過(guò)采取帶權(quán)代數(shù)疊加求平均的方式來(lái)計(jì)算讀者興趣模型的各個(gè)矢量值。定義向量<T,C>,其中T 為訪問時(shí)間離散值的和,C 為訪問次數(shù)。

      假設(shè)分析出讀者查找資料形成的瀏覽集有A、B、C、D 四個(gè)Portlet。 在進(jìn)行個(gè)性化推薦的時(shí)候,首先從資源表示模塊得到這四個(gè)Portlet 的描述,如表2-表5 所示。

      表2 PortletA 形式化表示

      表3 PortletB 形式化表示

      表4 PortletC 形式化表示

      表5 PortletD 形式化表示

      其權(quán)重分別為:<8,5>、<6,3>、<5,2>、<2,1>, 則系統(tǒng)在進(jìn)行讀者興趣運(yùn)算的時(shí)候, 可采用如下公式來(lái)進(jìn)行,得出讀者的興趣模型:

      對(duì)于本例,有

      這樣就可以得到讀者的興趣信息,這樣的表示方式與資源的表示方式相近,便于進(jìn)行相似性計(jì)算,而且用該概率模型來(lái)表達(dá)文檔和讀者興趣可以很好地體現(xiàn)讀者興趣的多樣性。

      2.3 讀者興趣聚類模塊

      讀者興趣聚類模塊通過(guò)對(duì)所有用戶進(jìn)行聚類,將興趣相近的用戶歸為一簇,同簇內(nèi)的用戶相互學(xué)習(xí),進(jìn)而發(fā)現(xiàn)讀者的潛在興趣信息。 聚類是根據(jù)數(shù)據(jù)集相似性對(duì)數(shù)據(jù)集分類的過(guò)程,考慮到動(dòng)態(tài)性、實(shí)時(shí)性,本文采用凝聚算法來(lái)實(shí)現(xiàn)對(duì)用戶的聚類,其設(shè)計(jì)思想是:在初始時(shí),每一個(gè)成員都組成一個(gè)單獨(dú)的簇,在以后的迭代過(guò)程中,再把那些相互鄰近的簇合并成一個(gè)簇,直到所有的成員合并為一個(gè)簇或者所有簇之間的距離大于一個(gè)閾值為止。

      2.4 相似性計(jì)算模塊

      讀者興趣與資源表示進(jìn)行相似性運(yùn)算,如果相似性大于某個(gè)閾值,則將該資源歸到該用戶的興趣集中,在表示好文檔和讀者興趣以后,可以利用文檔和用戶的相似性來(lái)過(guò)濾文檔,進(jìn)而生成針對(duì)該讀者的推薦集。

      除此之外,還包括推薦集生成模塊,限于篇幅,本文不進(jìn)行詳解。

      3 數(shù)字圖書館個(gè)性化服務(wù)模型驗(yàn)證結(jié)果分析

      本模型在某高校圖書館進(jìn)行了驗(yàn)證,對(duì)其覆蓋率和準(zhǔn)確率兩個(gè)指標(biāo)進(jìn)行了測(cè)試。 覆蓋率是在推薦的內(nèi)容中用戶喜歡的項(xiàng)占所有喜歡項(xiàng)的百分比。準(zhǔn)確率是在推薦的內(nèi)容中用戶喜歡的項(xiàng)占推薦的所有項(xiàng)的百分比。 精確率和覆蓋率越高說(shuō)明該推薦算法越有效。 本實(shí)驗(yàn)研究了推薦準(zhǔn)確率和覆蓋率隨最小推薦系數(shù)閾值的變化情況。當(dāng)一個(gè)項(xiàng)的推薦系數(shù)大于或等于最小推薦系數(shù)閾值時(shí)才能加入推薦集。顯然,最小推薦系數(shù)閾值越高產(chǎn)生越少推薦,而最小推薦系數(shù)閾值越低將產(chǎn)生越多的推薦,覆蓋率將越高。

      圖2 準(zhǔn)確率—推薦系數(shù)關(guān)系

      圖3 覆蓋率—推薦系數(shù)關(guān)系

      實(shí)驗(yàn)表明,隨著推薦系數(shù)閾值的提高,準(zhǔn)確率逐漸加大而覆蓋率逐漸減小,這是因?yàn)殡S著推薦系數(shù)閾值的加大,用戶興趣的描述趨于精確,所以推薦精度提高,而推薦系數(shù)閾值的增大,用戶的潛在興趣描述減少,所以用戶興趣覆蓋率降低。 實(shí)驗(yàn)結(jié)果與理論分析結(jié)果一致,證實(shí)了模型的有效性。

      4 結(jié)束語(yǔ)

      Portal 是基于Web 的下一代桌面,它主要是把各種應(yīng)用程序和資源集成,建立統(tǒng)一的訪問點(diǎn)。 本文針對(duì)數(shù)字圖書館未來(lái)發(fā)展的需求,設(shè)計(jì)并初步實(shí)現(xiàn)了面向Portal 的圖書館個(gè)性化服務(wù)模型,該模型通過(guò)對(duì)資源和讀者興趣進(jìn)行挖掘,并以個(gè)性化推薦方式呈現(xiàn)給讀者,克服了現(xiàn)有查詢系統(tǒng)中信息過(guò)載和信息迷向的缺陷,為數(shù)字圖書館向個(gè)性化服務(wù)發(fā)展提供了一個(gè)較好的方向和依據(jù)。

      [1] 寧琳.基于智能Agent 的數(shù)字圖書館個(gè)性化服務(wù)模型研究[J].江西圖書館學(xué)刊,2012(3):77-81.

      [2] 李靜.基于Portal 的大學(xué)圖書館個(gè)性化服務(wù)研究與實(shí)現(xiàn)[J].情報(bào)雜志,2009(7):170-173.

      [3] 杜輝鋒.面Portal 的個(gè)性化信息服務(wù)的研究與實(shí)現(xiàn)[C]//解放軍理工大學(xué)論文集,南京:解放軍理工大學(xué)出版社,2007.

      [4] 劉瑞,潘瑜春,陸洲,等.基于Portal 和WebGIS 的縣級(jí)農(nóng)業(yè)資源管理決策系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2007(12):253-254.

      猜你喜歡
      閾值個(gè)性化圖書館
      堅(jiān)持個(gè)性化的寫作
      文苑(2020年4期)2020-05-30 12:35:12
      小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      新聞的個(gè)性化寫作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      圖書館
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      上汽大通:C2B個(gè)性化定制未來(lái)
      飛躍圖書館
      室內(nèi)表面平均氡析出率閾值探討
      滿足群眾的個(gè)性化需求
      简阳市| 尚志市| 万安县| 安龙县| 蒲江县| 齐齐哈尔市| 随州市| 五原县| 即墨市| 河西区| 曲沃县| 弋阳县| 依兰县| 新河县| 鄱阳县| 秦皇岛市| 盖州市| 公主岭市| 彭州市| 通道| 湖北省| 西藏| 洪江市| 霍州市| 宁乡县| 冷水江市| 明溪县| 香港 | 玉树县| 辛集市| 二手房| 潞西市| 社旗县| 绥芬河市| 囊谦县| 奉节县| 桦甸市| 达州市| 苏州市| 罗平县| 黄陵县|