• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于活動的數(shù)據(jù)空間數(shù)據(jù)關(guān)系發(fā)現(xiàn)

      2011-02-28 05:10:46吳揚揚
      關(guān)鍵詞:文檔空間用戶

      崔 晨,吳揚揚

      (華僑大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,福建 廈門 361021)

      隨著數(shù)字技術(shù)及互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)呈現(xiàn)出多樣、異質(zhì)化的特點。傳統(tǒng)數(shù)據(jù)庫已不適合對多樣異質(zhì)數(shù)據(jù)進行有效統(tǒng)一管理,因此,F(xiàn)ranklin、Halevy和 Maier等人提出了數(shù)據(jù)空間[1]的概念。數(shù)據(jù)空間是數(shù)據(jù)和其關(guān)系的集合,系統(tǒng)需要從數(shù)據(jù)源中發(fā)現(xiàn)并抽取出有用的數(shù)據(jù)關(guān)系,以豐富其自身。而且,數(shù)據(jù)空間演化的目的是為了更好的滿足主體需求,數(shù)據(jù)空間必須能夠理解不同類型及來源的數(shù)據(jù)之間的聯(lián)系,更好地對相關(guān)聯(lián)數(shù)據(jù)做出處理,為主體提供更好的服務(wù)[2]。

      但現(xiàn)階段,數(shù)據(jù)空間數(shù)據(jù)關(guān)系的定義、范疇、如何發(fā)現(xiàn)關(guān)系還未定義。因此,幫助系統(tǒng)自動發(fā)現(xiàn)數(shù)據(jù)關(guān)系成為重要研究方向。用戶日常活動中隱含了本地數(shù)據(jù)的獨特分類見解。從用戶日常活動中發(fā)現(xiàn)關(guān)系成為數(shù)據(jù)空間數(shù)據(jù)關(guān)系發(fā)現(xiàn)的途徑之一。本文參考活動理論[3]系統(tǒng)對用戶日?;顒拥姆治龇椒?,設(shè)計了自動記錄、分析、提取出數(shù)據(jù)關(guān)系的系統(tǒng)。該系統(tǒng)利用日志收集用戶活動信息,利用語義、時間、切換相關(guān)度等計算活動間的關(guān)系。將用戶活動信息間的關(guān)系轉(zhuǎn)換為用戶意識中對數(shù)據(jù)關(guān)系的理解。而且,由于用戶的需求和對數(shù)據(jù)關(guān)系的理解會隨時間變化,系統(tǒng)會根據(jù)用戶的使用情況更新數(shù)據(jù)關(guān)系,以更好滿足用戶需求。

      1 相關(guān)工作

      數(shù)據(jù)空間成為數(shù)據(jù)管理領(lǐng)域的一個研究熱點。參考文獻[4]設(shè)計了Roomba系統(tǒng),利用多用戶的反饋尋找數(shù)據(jù)關(guān)聯(lián)。系統(tǒng)需要多用戶評判生成候選匹配并生產(chǎn)有益的關(guān)系模式。系統(tǒng)依此關(guān)系模式進行數(shù)據(jù)關(guān)系的演化。但這種模式是廣譜適用的,并不適用某個主體的偏好和習(xí)慣,有其局限性。

      [5]認為用戶文件的分布和排列中,隱含了用戶對數(shù)據(jù)之間關(guān)系的理解。利用對文件的類型、命名規(guī)則、結(jié)構(gòu)分析后所得到的關(guān)系,自動將相關(guān)數(shù)據(jù)分類并加入數(shù)據(jù)空間。但其成立初期需要用戶手工標注常用的數(shù)據(jù),且缺乏后期對數(shù)據(jù)關(guān)系的調(diào)整與優(yōu)化。

      參考文獻[6]將用戶查詢時對數(shù)據(jù)空間的交互作為數(shù)據(jù)空間演化的來源。該系統(tǒng)自動為數(shù)據(jù)資源建立資源摘要,并在初始簡單查詢時,利用關(guān)鍵字與摘要的匹配,逐漸豐富關(guān)鍵字與資源間的關(guān)聯(lián)。但該系統(tǒng)對用戶除了搜索外的其他交互活動利用有限。

      參考文獻[7]首次提出了在數(shù)據(jù)空間中進行用戶任務(wù)挖掘的概念,作者定義其任務(wù)為一定數(shù)量文件的集合。與本文類似,該方法收集分析用戶活動,但該系統(tǒng)僅利用窗口的時序關(guān)聯(lián),而沒有利用語義、切換等發(fā)現(xiàn)數(shù)據(jù)關(guān)系。

      2 基于活動理論的活動模型

      維果斯基提出的“文化-歷史心理學(xué)”思想是活動理論的源泉。目標導(dǎo)向原則是活動理論的核心。它認為人類活動受到廣泛的客體群體影響,既包括自然領(lǐng)域,也包括社會文化領(lǐng)域,因此以維果斯基的三元關(guān)系模型為基礎(chǔ),為活動建模:

      計算機上,個體代表計算機用戶,目標代表所操作的對象,工具代表所使用的軟件。此模型代表用戶通過計算機達到某種目的而進行活動。本文擴充了此模型,增加了活動發(fā)生時間和用戶操作,因此表示為:

      其中user為用戶,time代表活動發(fā)生的時間,tool代表處理軟件,operation代表用戶操作(如粘貼、復(fù)制、切換等),goal代表用戶的操作目標。

      3 活動信息的保存與處理

      3.1 活動信息的保存

      本文將用戶日常活動的窗口標題信息作為活動信息的代表。下面為活動信息記錄樣例:

      2010/7 /11 11 :29:33 具有自適應(yīng)鄰域探測機制的簡化PSO算法修改稿20100711(用戶上次保存的)[兼容模式]-Microsoft Word

      2010/7 /11 11 :29:39 中國圖像圖形學(xué)報 A.Journal of Image and Graphics(2010年5期)-萬方數(shù)據(jù)知識服務(wù)平臺-世界之窗3.3

      3.2 活動信息的處理

      活動信息處理是數(shù)據(jù)關(guān)系發(fā)現(xiàn)的前提。借鑒了相關(guān)工作,本文以活動語義、交互、切換、時間度量活動是否相關(guān)。

      3.2.1 語義相關(guān)度

      活動窗口的相關(guān)性表現(xiàn)為活動標題內(nèi)容的相似性。本文采用改進了的向量空間模型 (VSM)為對象模型。VSM中,第i個對象的矢量模型如下:

      其中,Wik在傳統(tǒng)方法中為關(guān)鍵詞頻度,但本文將Wik改為關(guān)鍵詞語義相似度之和。計算方法如下:

      設(shè) Wik為關(guān)鍵詞 Tk中對象 Activityi中的權(quán)重,D(Ti1,Ti2,……TiN)為 Activityi的特征詞組。 Seman(Ti1,Tk)表示關(guān)鍵詞Tk與特征詞Ti1的語義相似度。則:

      語義相似度利用的中英文WordNet的詞語相似度計算軟件[8]。Tk表示活動窗口標題中的關(guān)鍵字;Vi表示第i個活動窗口標題的向量空間。通過向量內(nèi)積計算活動窗口標題相似度,方式如下:

      由此定義規(guī)則1:

      規(guī)則1表示:若相似度大于某閾值,則語義相關(guān),相關(guān)度為 RelationV(Activityi,Activityj)。

      3.2.2 內(nèi)容交互相關(guān)

      傳統(tǒng)活動分析系統(tǒng)把內(nèi)容交互作為活動相關(guān)的重要特征。隨著博客、即時聊天的興起,用戶的活動大多變?yōu)樾畔@取與交流,粘貼復(fù)制的代表性作用降低。

      因此定義規(guī)則2:

      規(guī)則2表示:如果檢測兩活動窗口有內(nèi)容交互,則內(nèi)容交互相關(guān),相關(guān)度為0.05.

      3.2.3 切換相關(guān)

      多任務(wù)操作更符合用戶的使用習(xí)慣,窗口切換關(guān)系也是活動相似度的重要度量。設(shè)切換關(guān)聯(lián)度為SR,Activityi與 Activityj的總頻度分別為 F1和 F2,且:

      規(guī)則3表示:兩個活動互相切換的次數(shù)超過某閾值則切換相關(guān),相關(guān)度為SR。

      3.2.4 時間相關(guān)

      相關(guān)活動有其時效性,若發(fā)生時間接近,則推斷兩個活動是相關(guān)的。較長的間隔看作活動斷點。假設(shè)系統(tǒng)共有 N斷點,時間相關(guān)度為 TR,Activityi與 Activityj的總頻度分別為T1和T2。若 Together(k)=1(1

      因此定義規(guī)則4:

      規(guī)則4表示兩個活動在同斷點內(nèi)出現(xiàn)次數(shù)超過某閾值,則時間相關(guān),相關(guān)度為TR。

      3.2.5 活動相關(guān)性總公式

      設(shè)活動相關(guān)值為AS,綜上給出AS表達式:

      其中:q、w、e、r表示各規(guī)則系數(shù),系數(shù)根據(jù)經(jīng)驗調(diào)節(jié)。AS大于閾值的保存在活動相關(guān)文檔中。

      4 數(shù)據(jù)關(guān)系的提取

      4.1 關(guān)系提取

      提取數(shù)據(jù)關(guān)系,首先要處理活動相關(guān)文檔。其中數(shù)據(jù)文件窗口和網(wǎng)頁窗口信息存在一定結(jié)構(gòu)。依據(jù)結(jié)構(gòu),本文設(shè)計了基于規(guī)則的提取算法,將活動關(guān)系文檔中可識別信息提取為數(shù)據(jù)關(guān)系(本地文件或網(wǎng)頁)。下面以活動文檔為例:

      具有自適應(yīng)鄰域探測機制的簡化PSO算法修改稿20100711[兼容模式]-Microsoft Word

      從數(shù)據(jù)庫到數(shù)據(jù)空間,從服務(wù)于企業(yè)到服務(wù)于大眾-Adobe Reader

      以上軟件信息常出現(xiàn)在 “- ”后,例如“Microsoft Word”,系統(tǒng)依據(jù)軟件信息生成文件類型。示例中文件類型為“.doc”和“.pdf”。系統(tǒng)依據(jù)文件類型作相應(yīng)的處理,去除無關(guān)信息,生成完整文件名如下:

      具有自適應(yīng)鄰域探測機制的簡化PSO算法修改稿20100711.doc

      從數(shù)據(jù)庫到數(shù)據(jù)空間,從服務(wù)于企業(yè)到服務(wù)于大眾.pdf

      提取是有損過程,有損原因如下:(1)活動相關(guān)文檔所保存的活動關(guān)系對中,有一項以上為雜項或不明信息,提取算法無法識別。(2)若軟件信息不常見,提取算法將忽略此關(guān)系對。

      4.2 關(guān)系確認與更新

      數(shù)據(jù)在計算機上有其生命周期。上述提取的數(shù)據(jù)關(guān)系需要確定,并刪除無效關(guān)系。處理步驟如下:(1)系統(tǒng)維護本地文件列表,比對數(shù)據(jù)是否被刪除。若不存在則刪除。(2)將有效的數(shù)據(jù)關(guān)系保存為數(shù)據(jù)相關(guān)文檔。

      數(shù)據(jù)空間中數(shù)據(jù)關(guān)系不斷變化,因此,下一次計算出的數(shù)據(jù)相關(guān)文檔與舊文檔合并,并依據(jù)新關(guān)系權(quán)重大、舊關(guān)系權(quán)重小的原則,對數(shù)據(jù)相關(guān)文檔進行更新,突出用戶數(shù)據(jù)關(guān)系的新變化。

      5 實驗與結(jié)論

      實驗1 用戶評判數(shù)據(jù)相關(guān)文檔的準確率。實驗2將數(shù)據(jù)關(guān)系發(fā)現(xiàn)子系統(tǒng)整合數(shù)據(jù)空間,邀請用戶進行相關(guān)搜索,并依照關(guān)系的有用程度及相關(guān)搜索體驗為子系統(tǒng)打分。

      5.1 數(shù)據(jù)間關(guān)系評測

      實驗挑選了5位實驗室研究人員,他們習(xí)慣于在電腦上完成日常工作。經(jīng)過一段時間的收集、分析后,完成數(shù)據(jù)間關(guān)系的評測。表1為分析后各用戶相關(guān)信息統(tǒng)計情況。

      表1 用戶信息統(tǒng)計

      用戶2數(shù)據(jù)相關(guān)文檔提取率較高的原因是其活動記錄大多是網(wǎng)頁瀏覽活動,減少了因本地文件刪除等造成的數(shù)據(jù)關(guān)系流失。用戶3活動相關(guān)文檔數(shù)量較少,且包含大量即時通信窗口,提取率偏低。

      評測顯示用戶對數(shù)據(jù)關(guān)系基本滿意。用戶2與用戶3的準確率和召回率偏低的原因與其數(shù)據(jù)相關(guān)提取率有關(guān),而且其活動中訪問本地數(shù)據(jù)較少,影響了系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)關(guān)系的能力。

      5.2 數(shù)據(jù)關(guān)系發(fā)現(xiàn)與相關(guān)搜索評估

      將數(shù)據(jù)關(guān)系發(fā)現(xiàn)子系統(tǒng)嵌入到課題組的初步數(shù)據(jù)空間模型中,利用已發(fā)現(xiàn)的數(shù)據(jù)關(guān)系進行用戶體驗評估。圖1是數(shù)據(jù)空間系統(tǒng)的界面圖。

      圖1 數(shù)據(jù)空間界面

      其中,A區(qū)為已導(dǎo)入數(shù)據(jù)列表,B區(qū)顯示已索引的搜索結(jié)果,C區(qū)顯示與B區(qū)結(jié)果相關(guān)的數(shù)據(jù)信息。當鍵入查詢關(guān)鍵字后,B區(qū)顯示已索引數(shù)據(jù)信息。且傳遞已索引數(shù)據(jù)信息到后臺系統(tǒng)準備C區(qū)與D區(qū)的數(shù)據(jù)相關(guān)信息。當用戶認為某項數(shù)據(jù)關(guān)系對自己有用時,可使用“加入數(shù)據(jù)空間”將關(guān)系和數(shù)據(jù)導(dǎo)入數(shù)據(jù)空間,數(shù)據(jù)空間系統(tǒng)將相應(yīng)數(shù)據(jù)關(guān)系對進行集成與分析。

      試驗階段,請用戶在數(shù)據(jù)空間中進行多次搜索,每次搜索用戶評判C區(qū)以及D區(qū)的活動數(shù)據(jù)關(guān)系的幫助。按照多次搜索的滿意度0-5打分。如表2所示。

      用戶1由于本地數(shù)據(jù)多,抽取率適中,相關(guān)搜索時,返回較多的有用信息;用戶2數(shù)據(jù)相關(guān)文檔抽取率高原因是:其活動相關(guān)文檔主要由網(wǎng)頁瀏覽活動關(guān)系組成,在關(guān)系確認中損失極小,同時本地信息少,搜索時較少獲得本地數(shù)據(jù)關(guān)系幫助;用戶3其活動記錄數(shù)較少,且較多即時聊天、設(shè)置等信息,提取了較有限的數(shù)據(jù)相關(guān)信息。由于關(guān)系過少,對用戶相關(guān)搜索時的支持也偏少;用戶4和用戶5的數(shù)據(jù)相關(guān)提取率適中,且本地數(shù)據(jù)較多,因此可以提供較多的幫助供用戶使用,取得了較好的效果。

      參考文獻:

      [1] Franklin M, HalevyA, MaierD.From databasesto dataspaces:a new abstraction for information management[J].ACM Sigmod Record, 2005,34(4):27-33.

      [2]李玉坤,孟小峰,張相於.數(shù)據(jù)空間技術(shù)研究[J].軟件學(xué)報,2008,19(8):2018-2031.

      [3]Nardi B.Context and consciousness:activity theory and human-computer interaction[M].The MIT Press,1996.

      [4]Jeffery S.Franklin M,Halevy A.Pay-as-you-go user feedback for dataspace systems[C].SIGMOD’08.Vancouver, BC,Canada:ACM,2008.

      [5]Li Y.Meng X,Kou Y.An efficient method for constructing personal dataspace[C].WISA 2009.Xuzhou, Jiangsu,China: IEEE,2009.

      [6]Ning W.De X.Resource summary for pay-as-you-go dataspace systems[C].ICSP 2008.Beijing, China: IEEE,2008.

      [7]寇玉波,李玉坤,孟小峰,等.個人數(shù)據(jù)空間管理中的任務(wù)挖掘策略[J].計算機研究與發(fā)展,2009,46(2).

      [8]吳思穎,吳揚揚.基于中文 WordNet的中英文詞語相似度計算[J].鄭州大學(xué)學(xué)報:理學(xué)版,2010,42(2):66-69.

      猜你喜歡
      文檔空間用戶
      有人一聲不吭向你扔了個文檔
      空間是什么?
      創(chuàng)享空間
      關(guān)注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      基于RI碼計算的Word復(fù)制文檔鑒別
      關(guān)注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      關(guān)注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      如何獲取一億海外用戶
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      麟游县| 内江市| 天全县| 绍兴市| 巴马| 临澧县| 太白县| 乳山市| 栾川县| 恭城| 日照市| 本溪市| 雷州市| 丰原市| 壶关县| 环江| 简阳市| 阳山县| 潞西市| 洮南市| 华安县| 胶州市| 华蓥市| 乡城县| 葫芦岛市| 武汉市| 原平市| 岑溪市| 镇远县| 枝江市| 广河县| 永定县| 安龙县| 社会| 讷河市| 神农架林区| 永清县| 惠州市| 临漳县| 黔江区| 玉田县|