• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于概念格的數(shù)字圖書(shū)館用戶知識(shí)序列模式挖掘研究

      2019-04-25 06:22:50鄭州工業(yè)應(yīng)用技術(shù)學(xué)院圖書(shū)館
      圖書(shū)館理論與實(shí)踐 2019年3期
      關(guān)鍵詞:項(xiàng)集檢索閾值

      宇 婷(鄭州工業(yè)應(yīng)用技術(shù)學(xué)院圖書(shū)館)

      1 引言

      隨著網(wǎng)絡(luò)技術(shù)和計(jì)算機(jī)的發(fā)展,圖書(shū)館的發(fā)展也是日漸提高,目前,用戶對(duì)于圖書(shū)館的檢索要求更高,迫切的需要一個(gè)智能化的檢索系統(tǒng),滿足用戶快速檢索到自己需要的圖書(shū)內(nèi)容,而數(shù)字化的圖書(shū)館檢索系統(tǒng),就可以滿足用戶對(duì)于智能檢索的要求,這種控制系統(tǒng)也是目前圖書(shū)館智能化發(fā)展的中心。[1]在現(xiàn)代圖書(shū)情報(bào)學(xué),研究數(shù)字圖書(shū)館日漸變的重要,基于多學(xué)科技術(shù)和理論的支撐,數(shù)字圖書(shū)館的研究獲得一定的發(fā)展空間。[2]在數(shù)字圖書(shū)館用戶服務(wù)建設(shè)中,關(guān)于序列模式挖掘的研究則比較少,原因是因?yàn)橥诰蚬ぷ饕騻鹘y(tǒng)序列模式挖掘活動(dòng)時(shí)間因素變的非常復(fù)雜。[3-5]在現(xiàn)實(shí)生活中,序列模式對(duì)用戶能夠快速的查找到自己所需的圖書(shū)具有指導(dǎo)意義。[6]本文基于概念格的數(shù)字圖書(shū)館,對(duì)用戶知識(shí)序列模式挖掘進(jìn)行了研究,目的是基于數(shù)字圖書(shū)館用戶檢索行為中的挖掘序列模式,對(duì)數(shù)字圖書(shū)館用戶服務(wù)進(jìn)行完善和改進(jìn)。

      2 關(guān)聯(lián)規(guī)則挖掘技術(shù)路線

      圖1 用戶知識(shí)關(guān)聯(lián)規(guī)則挖掘系統(tǒng)流程圖

      圖1 為以概念格為基礎(chǔ)的用戶知識(shí)關(guān)聯(lián)規(guī)則挖掘的流程圖,這幅圖的工作原理就在于,智能數(shù)字化的圖書(shū)檢索系統(tǒng)能夠?qū)τ脩舻倪x擇進(jìn)行預(yù)判,以及對(duì)用戶曾經(jīng)輸入的信息進(jìn)行記憶,當(dāng)用戶再次需要進(jìn)入系統(tǒng)進(jìn)行圖書(shū)查閱時(shí),其立刻快速的滿足用戶需要。系統(tǒng)核心部分為可變階段,在進(jìn)行挖掘時(shí),若獲得的規(guī)則無(wú)實(shí)際意義,則對(duì)置信度閾值和支持度進(jìn)行調(diào)整,重新在原格結(jié)構(gòu)基礎(chǔ)上提取。若得到的規(guī)則具有實(shí)際意義,則這個(gè)規(guī)則能夠?qū)τ脩舻男枨筮M(jìn)行準(zhǔn)確判斷,幫助用戶獲得其需求成果,如果這個(gè)規(guī)則無(wú)法滿足用戶的需要,則對(duì)閾值再次進(jìn)行調(diào)整。

      3 基于挖掘結(jié)果的用戶知識(shí)提取

      在進(jìn)行圖書(shū)館用戶系統(tǒng)工作時(shí),主要是將數(shù)字圖書(shū)館用戶個(gè)性化服務(wù)水平提高。[7]圖2為置信度閾值為49.21%,支持度閾值為30.50%時(shí)的關(guān)聯(lián)規(guī)則,規(guī)則“j(停留久)=>p(非黑夜模式)”的置信度為65.54%,支持度為49.21%。這表明在數(shù)字圖書(shū)館“長(zhǎng)時(shí)間駐留并在白天訪問(wèn)”中,該節(jié)點(diǎn)為全部用戶的49.21%代表,而占據(jù)大部分比重的,則是白天訪問(wèn)的用戶以及能夠長(zhǎng)時(shí)間在圖書(shū)館逗留的用戶。而在另一個(gè)部分中,規(guī)則“j=>fs(高速接入+PDF文檔+經(jīng)常使用)”具有49.21%的置信度,36.48%的支持度。這表明在使用數(shù)字圖書(shū)館時(shí),該節(jié)點(diǎn)代表36.48%的用戶采用“長(zhǎng)時(shí)間駐留+PDF文檔+訪問(wèn)學(xué)術(shù)信息+經(jīng)常使用+高速接入”用法。在“長(zhǎng)時(shí)間駐留”的用戶中,能夠?qū)D書(shū)管理系統(tǒng)綜合利用的用戶特征的用戶比重為49.21%,具體見(jiàn)表1。

      表1 置信度閾值為49.21%,支持度閾值為30.50%時(shí)的關(guān)聯(lián)規(guī)則

      對(duì)更多零散用戶個(gè)性化知識(shí)需求,若認(rèn)為36.48%的用戶份額對(duì)其關(guān)注仍不能充分體現(xiàn),對(duì)于規(guī)則“gj(財(cái)經(jīng)類+長(zhǎng)時(shí)間閱讀)=>dmqx(農(nóng)村IP/速度不佳+晚上進(jìn)入系統(tǒng)+網(wǎng)頁(yè)文件+不太常用)”而言,其置信度為100%,支持度為11.49%。這表明在訪問(wèn)數(shù)字圖書(shū)館過(guò)程中,該節(jié)點(diǎn)代表在所有用戶中有11.49%的用戶使用以上所有部分的節(jié)點(diǎn)的可信度是100%。根據(jù)選用實(shí)驗(yàn)數(shù)據(jù)源,處于同一節(jié)點(diǎn)規(guī)則包括eg=>cikmopt、cg=>eikmopt、gk=>ceimopt,置信度均為 100%,支持度為11.49%。例如規(guī)則gk=>ceimopt,該節(jié)點(diǎn)代表在所有用戶中,使用“短時(shí)間停留+查詢財(cái)經(jīng)類圖書(shū)+正常利用+地址轉(zhuǎn)換+城市地址+網(wǎng)頁(yè)文件+高端品瀏覽+白天訪問(wèn)+XLS文檔+中速接入”的用戶比重為11.49%。在城市,這部分用戶大多數(shù)情況下都是處于一種快節(jié)奏得生活方式,首先來(lái)說(shuō),大部分人白天都處于上班時(shí)間,沒(méi)有時(shí)間對(duì)圖書(shū)進(jìn)行瀏覽,另外,由于城市地區(qū)的人口眾多,互聯(lián)網(wǎng)比較擁擠,所以實(shí)際的互聯(lián)網(wǎng)傳輸速度較慢,其次,生活在城市地區(qū)的居民,他們都會(huì)注重時(shí)尚的信息,所以綜上所述,得出結(jié)論,具體的情況見(jiàn)表2。

      表2 置信度閾值為100.00%,支持度閾值為10.05%時(shí)的關(guān)聯(lián)規(guī)則

      分析以概念格為基礎(chǔ)的數(shù)字圖書(shū)館用戶知識(shí)關(guān)聯(lián)規(guī)則挖掘,對(duì)找出用戶使用方法間的潛在聯(lián)系有益,能夠有效的從用戶的角度去考慮圖書(shū)的檢索方式,進(jìn)而會(huì)給用戶一種便捷的體驗(yàn)。[8]在研究中,通過(guò)調(diào)整閾值,獲得更多規(guī)則,在規(guī)則通過(guò)穩(wěn)定的格結(jié)構(gòu)進(jìn)行提取復(fù)用,對(duì)用戶的圖書(shū)利用習(xí)慣進(jìn)行挖掘。[9]

      4 基于概念格的數(shù)字圖書(shū)館用戶知識(shí)序列模式挖掘

      4.1 序列模式挖掘形式化描述

      序列模式挖掘是在目前已經(jīng)有的數(shù)據(jù)當(dāng)中,進(jìn)行歸納整理,并找出規(guī)律進(jìn)行排序的過(guò)程,通常情況下,是按照優(yōu)先級(jí)進(jìn)行排序。對(duì)于數(shù)字圖書(shū)館用戶知識(shí)序列模式挖掘而言,實(shí)質(zhì)上是由用戶檢索系統(tǒng)當(dāng)中的數(shù)據(jù)庫(kù)來(lái)確定,數(shù)據(jù)庫(kù)能夠?qū)τ脩舻氖褂们闆r進(jìn)行記錄,當(dāng)用戶對(duì)于某一種圖書(shū)的瀏覽次數(shù)較多時(shí),數(shù)據(jù)庫(kù)就會(huì)把其確定為最大值,同時(shí)將所有頻率大于或等于給定支持度閾值的序列即頻繁序列挖掘出。

      項(xiàng)集為非空集合,是用戶信息數(shù)據(jù)庫(kù)DB中由若干個(gè)項(xiàng)組成,記作I=(i1,i2,…,im),其中一個(gè)項(xiàng)用ik(1≤k≤m)表示,表示用戶尋找的一種圖書(shū),k-項(xiàng)集是長(zhǎng)度為k的項(xiàng)集。

      在圖書(shū)檢索開(kāi)始時(shí),用戶向智能系統(tǒng)中,輸入圖書(shū)信息,從而達(dá)到檢索的目的,在這期間,圖書(shū)檢索系統(tǒng)包括時(shí)間信息,圖書(shū)名信息等必要因素。并同時(shí)規(guī)定,當(dāng)一個(gè)用戶在不同時(shí)段搜索同一本圖書(shū)或者不同的圖書(shū)時(shí),其檢索系統(tǒng)需要判斷為每次檢索都為重新檢索。表3為用戶信息數(shù)據(jù)庫(kù)示例。

      表3 用戶信息數(shù)據(jù)庫(kù)示例

      項(xiàng)集組成的有序表即為序列(Sequence),項(xiàng)集有序排列不同,記為 I= 〈s1,s2,…,sn〉,其中 Sk(1≤k≤n)稱為序列的一個(gè)元素(Element),表示一個(gè)非空項(xiàng)集。在一個(gè)序列中,序列長(zhǎng)度是所包含項(xiàng)目的個(gè)數(shù)。L-序列表示長(zhǎng)度為L(zhǎng)的序列,表4為用戶檢索行為序列。

      表4 用戶檢索行為序列

      給定兩個(gè)序列 A= 〈a1,a2,…,am〉、B= 〈b1,b2,…,bn〉,其中m≤n,假定有一組整數(shù)i1,i2,…,im,可使a1bi1,a2bi2,…,ambim,于是可以表示,在A中包含B的內(nèi)容。如果在S序列中,只有S,并沒(méi)有其他的序列,則我們可以認(rèn)為,S序列是整個(gè)序列中最大的。

      如果在一個(gè)圖書(shū)檢索系統(tǒng)當(dāng)中,包含了S序列,那么我們就可以認(rèn)定,該用戶檢索的圖書(shū)可以用序列S來(lái)表示。在指數(shù)據(jù)庫(kù)DB中,支持序列S的用戶數(shù)和用戶總數(shù)之比為序列S支持度。頻繁序列是指支持度比最小支持度大的序列。例如給定最小支持度為36.48%,在表3的數(shù)據(jù)庫(kù)DB中,則可獲得序列模式的5位用戶中,有2位用戶檢索行為序列至少被支持,表5為支持度大于36.48%的序列模式。

      表5 支持度大于36.48%的序列模式

      由表5知,用戶1和用戶3支持序列模式<(e)(m)>。在項(xiàng)e和m間,用戶3對(duì)k進(jìn)行了搜索,在進(jìn)行m項(xiàng)進(jìn)行搜索的同時(shí),不僅僅是只搜索m,該用戶還對(duì)其他兩種項(xiàng)同時(shí)進(jìn)行了搜索,但是這種情況下,仍然支持m項(xiàng),原因是其模式屬于獨(dú)立的狀態(tài)。序列<(e)(k)>、<(e)>、<(e)(k)(s)>、<(k)(ps)> 等可滿足最小支持度,即頻繁。

      4.2 序列模式挖掘主要思想

      在本文中,對(duì)于序列模式的挖掘主要的順序是一種自上而下的過(guò)程,通過(guò)數(shù)據(jù)庫(kù)投影技術(shù)從而可獲得投影數(shù)據(jù)庫(kù),自上而下進(jìn)行檢索的優(yōu)點(diǎn)就是,當(dāng)用戶進(jìn)行搜索時(shí),其能夠進(jìn)行順序判斷,當(dāng)上層信息無(wú)法滿足用戶需求時(shí),自動(dòng)進(jìn)入下層繼續(xù)檢索,這種檢索模式也叫序列檢索模式。上層與下層之間相對(duì)獨(dú)立,但又保持著聯(lián)系。圖2為挖掘思想的拓?fù)浣Y(jié)構(gòu)。

      圖2 挖掘思想的拓?fù)浣Y(jié)構(gòu)

      基于用戶概念的圖書(shū)檢索系統(tǒng)檢索步驟可以分為8個(gè)步驟來(lái)完成。第一步是用戶輸入相關(guān)的個(gè)人信息,當(dāng)成功登錄系統(tǒng)后,系統(tǒng)會(huì)自動(dòng)生成用戶的數(shù)據(jù)庫(kù),從而使投影數(shù)據(jù)庫(kù)生成。Session時(shí)間和用戶ID是原數(shù)字圖書(shū)館用戶知識(shí)行為數(shù)據(jù)庫(kù)的主鍵,在進(jìn)行歸集后,可獲得以用戶ID為主鍵的投影數(shù)據(jù)庫(kù)。第二步是上層概念格通過(guò)形式概念分析(FCA)進(jìn)行構(gòu)建,將投影數(shù)據(jù)庫(kù)作為形式背景。第三步是在上層概念格中,通過(guò)設(shè)定的支持度閾值對(duì)上層頻繁項(xiàng)集進(jìn)行提取。第四步是在用戶已經(jīng)有的數(shù)據(jù)庫(kù)當(dāng)中,進(jìn)行新的數(shù)據(jù)加入,也就是增加新的圖書(shū)內(nèi)容,通過(guò)形式概念分析(FCA)進(jìn)行下層概念格的構(gòu)建。第五步是在下層概念格中,對(duì)滿足最小支持度閾值要求的下層頻繁項(xiàng)集進(jìn)行提取。第六步是在提取的下層概念格中,通過(guò)下層頻繁項(xiàng)集將下層概念格最大頻繁序列求出。第七步是重復(fù)第四、五、六步,直至第三步是對(duì)各上層頻繁項(xiàng)集數(shù)字圖書(shū)館用戶的檢索行為,逐一進(jìn)行下層概念格的建立,并對(duì)每個(gè)下層概念格最大頻繁序列進(jìn)行提取。最后一步就是對(duì)所有的數(shù)據(jù)進(jìn)行重新的歸納和梳理,分析用戶最常閱讀的圖書(shū),將其作為序列的最大值進(jìn)行排放,下次檢索時(shí),直接在最上層。

      4.3 用戶知識(shí)序列模式挖掘

      數(shù)字化的圖書(shū)檢索系統(tǒng),其運(yùn)用的是用戶的數(shù)據(jù)庫(kù)相關(guān)理論,DB為一個(gè)三元組K=(U,D,R),所有檢索對(duì)象集合用D表示,所有檢索行為集合用U表示,D和U之間也是具有相關(guān)性的,這種相關(guān)性利用R表示。通過(guò)這種方法,使數(shù)據(jù)的排序變得更加有序,有序這種方法屬于挖掘數(shù)據(jù)的模式,所以,只采用單純的1-排序方法并無(wú)實(shí)際意義。在BD數(shù)據(jù)庫(kù)里,它可以根據(jù)用戶的ID判斷用戶的需求,這樣可大幅壓縮得到的投影數(shù)據(jù)庫(kù)規(guī)模。表6為用戶信息數(shù)據(jù)庫(kù)投影庫(kù)的形式背景。

      表6 用戶信息數(shù)據(jù)庫(kù)投影庫(kù)的形式背景

      通過(guò)表6,可誘導(dǎo)出上層概念格Hasse圖,具體見(jiàn)圖3。

      圖3 上層概念格Hasse圖

      由圖3知,在設(shè)定支持度閾值為36.48%時(shí),可獲得長(zhǎng)度大于或等于 2的上層集,分別為 (eh)、(ekmps)、(em)、(kps),依照詞庫(kù)的相關(guān)規(guī)定進(jìn)行排序工作。1-項(xiàng)集(e)可滿足最小支持度閾值,在進(jìn)行排序工作時(shí),可以發(fā)現(xiàn),1-型序列在實(shí)際當(dāng)中并沒(méi)有準(zhǔn)確的進(jìn)行應(yīng)用,所以我們可以把這部分進(jìn)行排除。當(dāng)排除上述因素之后,下一步就可以對(duì)下層的概念進(jìn)行建模。上層頻繁項(xiàng)集(ekmps)外延集合包含用戶3、5的檢索行為,表7為其形式背景。

      通過(guò)表7,可誘導(dǎo)出下層概念格Hasse圖,具體見(jiàn)圖4。

      表7 用戶3、5檢索行的形式背景

      圖4 下層概念格Hasse圖

      在支持度閾值為36.48%時(shí),可獲得下層頻繁項(xiàng)集(m)、(ps)、(k)、(e)。由圖 4知,在下層概念格中,根據(jù)各下層頻繁項(xiàng)集用戶的檢索狀況進(jìn)行排序,排序的依據(jù)就是以時(shí)間作為標(biāo)準(zhǔn),從前往后的進(jìn)行排序,排序拋除掉1的部分,對(duì)于長(zhǎng)度大于2的部分,按順序進(jìn)行列舉。因此處外延集所包含的用戶檢索行為只針對(duì)上層頻繁項(xiàng)集(ekmps),對(duì)于原始用戶信息數(shù)據(jù)庫(kù)無(wú)須遍歷。針對(duì)上層頻繁項(xiàng)集(kps)、(eh)、(em)的用戶檢索順序,進(jìn)行下層概念的建模工作,建模結(jié)束后,就對(duì)相關(guān)的順序進(jìn)行排序工作。利用上層對(duì)應(yīng)下層的方法,可以得出用戶1和用戶3的序列<(e)(m)>。在對(duì)用戶系統(tǒng)進(jìn)行全面檢索中,<(e)(k)(ps)> 的子序列包括序列 <(k)(s)>、<(k)(p)> 是序列,所以需要拋除掉,進(jìn)而就可以得出正確的圖書(shū)檢索序列為 <(e)(m)>、<(e)(k)(ps)>。

      5 序列模式挖掘的討論

      對(duì)于挖掘效果而言,在提取頻繁項(xiàng)集方面,概念格具有其他的挖掘方式所不具有的優(yōu)點(diǎn),他屬于一種新型挖掘模式,與傳統(tǒng)的挖掘方法存在著顯著的不同,這種方法提取的頻繁項(xiàng)集數(shù)據(jù)源能更精準(zhǔn)的滿足閾值要求,從而使挖掘工作感知有用性得到提高。[10]通過(guò)概念格迭代,對(duì)概念格提取頻繁項(xiàng)集進(jìn)行多次反復(fù)使用,以概念格為工具,最大限度使用概念格復(fù)用性,這種挖掘方法充分的考慮到了用戶的因素,使用戶在進(jìn)行圖書(shū)檢索工作時(shí),大大節(jié)省了圖書(shū)檢索時(shí)間。其優(yōu)秀的圖書(shū)檢索系統(tǒng),能夠從系統(tǒng)方面去考慮優(yōu)化用戶的檢索體驗(yàn),進(jìn)而能夠?yàn)榻ㄔO(shè)數(shù)字化、智能化的圖書(shū)館提供強(qiáng)大的技術(shù)動(dòng)力。

      6 結(jié)論

      本文基于概念格的數(shù)字圖書(shū)館,對(duì)用戶知識(shí)序列模式挖掘進(jìn)行了研究,目的是基于數(shù)字圖書(shū)館用戶檢索行為中的挖掘序列模式,對(duì)數(shù)字圖書(shū)館用戶服務(wù)進(jìn)行完善和改進(jìn),得出以下結(jié)論:

      (1)通過(guò)挖掘基于概念格的數(shù)字圖書(shū)館用戶知識(shí)關(guān)聯(lián)規(guī)則,從用戶角度分析了數(shù)字圖書(shū)館知識(shí)組織,本文從概念格方面對(duì)基于挖掘數(shù)據(jù)的方法對(duì)圖書(shū)進(jìn)行檢索系統(tǒng),一定程度上,優(yōu)化了用戶的檢索體驗(yàn)。

      (2)通過(guò)自頂向下概念格迭代在對(duì)用戶檢索模式進(jìn)行挖掘工作時(shí),只需要采用一次挖掘的方法,就能夠?qū)崿F(xiàn)準(zhǔn)確的用戶定位,無(wú)需進(jìn)行多次挖掘,從而使挖掘時(shí)間大幅壓縮,獲得的挖掘效果良好。

      猜你喜歡
      項(xiàng)集檢索閾值
      小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
      2019年第4-6期便捷檢索目錄
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      室內(nèi)表面平均氡析出率閾值探討
      專利檢索中“語(yǔ)義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項(xiàng)集的快速挖掘算法
      一種新的改進(jìn)Apriori算法*
      國(guó)際標(biāo)準(zhǔn)檢索
      青浦区| 江山市| 濉溪县| 镇赉县| 墨竹工卡县| 栖霞市| 依安县| 肇庆市| 松滋市| 曲靖市| 肇庆市| 柳林县| 清原| 肇庆市| 安远县| 阜城县| 黔西| 若羌县| 利川市| 灵川县| 南安市| 辰溪县| 定远县| 九台市| 平阴县| 龙川县| 铜川市| 宝应县| 贵定县| 武鸣县| 江油市| 邳州市| 晋州市| 洛隆县| 祁门县| 滦南县| 甘洛县| 含山县| 偏关县| 扬中市| 宜君县|