• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      個性化搜索中隱私保護技術(shù)的探討與研究

      2011-08-15 00:48:39張帆申艷光王敏
      關(guān)鍵詞:搜索引擎個人信息個性化

      張帆,申艷光,王敏

      (1.河北鋼鐵集團邯寶公司,河北邯鄲056015;2.河北工程大學(xué)信息與電氣工程學(xué)院,河北邯鄲056038)

      隨著互聯(lián)網(wǎng)上信息數(shù)據(jù)爆炸式地增長,互聯(lián)網(wǎng)用戶不再滿足于人工分揀分類目錄搜索的第一代搜索引擎和依靠超鏈接分析機器抓取技術(shù)的第二代搜索引擎提供的單一的搜索結(jié)果,而希望得到和個人興趣偏好更為相關(guān)的個性化搜索服務(wù),為了滿足用戶的這一需求,應(yīng)運而生了個性化搜索技術(shù)。

      搜索引擎生存的關(guān)鍵是利用用戶信息針對性地改善搜索服務(wù)質(zhì)量,提高用戶搜索體驗。為了向不同用戶提供更為個性化、滿意度更高的搜索結(jié)果,個性化搜索時需要搜集、存儲、挖掘和分析用戶信息,這不可避免地觸及了個人隱私這一公眾敏感神經(jīng)。更為重要的是,在搜索引擎所掌握的海量信息中,除了個人隱私之外,還有可能涉及到國家經(jīng)濟和政府機密信息,威脅國家安全。隨著個性化搜索技術(shù)的飛速發(fā)展,隱私保護和搜索結(jié)果滿意度之間急劇深化的矛盾已經(jīng)成為了目前互聯(lián)網(wǎng)技術(shù)研究亟待解決的問題。

      1 個性化搜索技術(shù)

      個性化搜索是以用戶為中心的信息搜索技術(shù),它獲取以多種形式表達的用戶信息,并綜合利用這些用戶信息,提高搜索引擎的性能,以滿足不同用戶的個性化需求。目前絕大多數(shù)的研究主要集中在用戶個人信息的搜集、用戶描述文件建立、搜索結(jié)果排序和系統(tǒng)評價四個方面。

      1.1 用戶個人信息的搜集技術(shù)

      用戶個人信息的搜集技術(shù)主要包括顯式、隱式和復(fù)合式三類方式。用戶個人信息的顯式搜集方式主要是請求用戶的主動參與,用戶向搜索系統(tǒng)主動提供并描述其個性化需求的相關(guān)信息。用戶個人信息的隱式搜集方式主要是搜集用戶在操作過程中的行為。而復(fù)合式方式則結(jié)合了顯式搜集和隱式搜集兩種方式。

      采用顯式的用戶個人信息搜集方式的系統(tǒng)有SiteSeer等[1]。用戶個人信息顯式搜集方式能使搜索系統(tǒng)獲取準(zhǔn)確的用戶個人信息,但需要用戶花費多余的精力參與反饋,降低了用戶搜索體驗。而WebWatcher等系統(tǒng)[2]以及建立用戶層級樹的方法[3]采用了隱式的用戶個人信息搜集方式。用戶個人信息隱式搜集方式避免用戶在使用過程中被頻繁要求做額外的操作,但是存在搜集信息不準(zhǔn)確,不能準(zhǔn)確反映用戶意圖的缺陷。考慮到顯式和隱式這兩種方法的優(yōu)缺點,不少系統(tǒng)采用對這兩類用戶信息搜集方式折中后的復(fù)合式信息搜集方法,例如論文搜索系統(tǒng)CiteSeer等[4]。該復(fù)合式方法只要求用戶在關(guān)鍵點上的主動參與,為了保證最佳的用戶體驗,在大多數(shù)時間上則采用隱式搜集的方式。

      1.2 用戶描述文件的結(jié)構(gòu)

      獲取和組織用戶個人信息形成用戶描述文件,該文件表達了用戶的興趣偏好,在搜索過程中將準(zhǔn)確的用戶信息提供給搜索引擎,返回給用戶較好的搜索結(jié)果,用戶描述文件的結(jié)構(gòu)分為樹型和非樹型兩種。樹型結(jié)構(gòu)的用戶描述文件都是基于目前網(wǎng)上最大的人工編制的分類檢索系統(tǒng)—開放式分類目錄搜索系統(tǒng) ODP(Open Directory Project)產(chǎn)生的,它繼承了ODP高度覆蓋性和準(zhǔn)確性以及消除二義性的優(yōu)點,例如:基于ODP本體論概念的用戶描述文件等[5],但是ODP本身具有缺乏自由度和擴展性的缺陷。在非樹型結(jié)構(gòu)的用戶描述文件方面,有胖模式非結(jié)構(gòu)化的用戶描述文件等[6]。非樹型結(jié)構(gòu)的用戶描述文件缺乏層次結(jié)構(gòu),用戶不能自治信息開放程度。

      1.3 搜索結(jié)果排序方法

      排序方法直接影響著個性化搜索結(jié)果。最初的研究根據(jù)網(wǎng)頁本身的屬性,提出PageRank的概念[7],對互聯(lián)網(wǎng)上的頁面進行評分,在搜索時將得分較高的網(wǎng)頁排在搜索結(jié)果列表的前面返回給用戶。該方法沒有利用任何用戶信息,因此無法提供更貼切用戶自身、滿意度更高的搜索結(jié)果。

      隨后展開的研究建立在通用的搜索結(jié)果基礎(chǔ)上,結(jié)合用戶描述文件,在客戶端或服務(wù)器端進行搜索結(jié)果的重排序[2,6,8],將貼切用戶的個性化搜索結(jié)果排列在搜索結(jié)果列表中比較靠前的位置,讓用戶更方便的找到自己滿意的信息。在客戶端重排序的方法受限于傳輸帶寬,致使排序準(zhǔn)確度受限;在服務(wù)器端重排序的方法可以得到較準(zhǔn)確的搜索結(jié)果,但加大了服務(wù)器的負載,并且存在泄露用戶隱私信息的威脅。

      1.4 系統(tǒng)評價方法

      目前對個性化搜索系統(tǒng)的評價一般都需要人工參與,用戶人工標(biāo)注各個查詢結(jié)果的正確性,綜合這些人工標(biāo)注結(jié)果來評測個性化搜索系統(tǒng)的性能。主要常用三種方法:準(zhǔn)確率評價方法[9]、用戶打分評測機制[10]和DCG評測算法[11]。

      準(zhǔn)確率評價方法:參與評測的用戶標(biāo)注每次查詢返回的前N個結(jié)果的正確性,系統(tǒng)利用每次查詢前N個結(jié)果中標(biāo)注為正確的結(jié)果所占比例作為評價指標(biāo)來評價系統(tǒng)的性能,評價指標(biāo)的值越高則說明系統(tǒng)的性能越好。該方法的計算公式簡單,減少了參與評測用戶的工作量,容易實現(xiàn),但是在無指導(dǎo)的情況下用戶標(biāo)注時的隨意性較大。

      用戶打分評測機制:每個用戶根據(jù)搜索結(jié)果與自己所需信息的符合程度對每次查詢返回的前N個結(jié)果打分,將所有用戶對搜索結(jié)果打分的平均值作為系統(tǒng)性能的評價指標(biāo)。該方法將用戶對結(jié)果的評價劃分為很多不同的等級,給出將查詢結(jié)果標(biāo)注為某一等級的詳細依據(jù),在一定程度上指導(dǎo)用戶的評價行為,更加規(guī)范用戶的標(biāo)準(zhǔn)行為。

      DCG評測算法:把DCG(Discounted Cumulative Gain)公式融入到對查詢結(jié)果人工打分的方式中,結(jié)合用戶對搜索結(jié)果的打分和結(jié)果的排序位置,將得出的計算值作為系統(tǒng)性能的評測指標(biāo)。該方法結(jié)合用戶的使用習(xí)慣,對系統(tǒng)做出更加符合實際情況的整體評價。

      綜上,目前個性化搜索的研究重點在于如何提供更智能的搜索方式、個性化的搜索結(jié)果和高效的搜索能力,較少研究用戶的隱私保護技術(shù)問題。

      2 隱私保護技術(shù)

      根據(jù)隱私泄露方式,目前針對隱私保護的研究主要集中在兩個方面:用訪問控制和加密手段防止未經(jīng)許可的數(shù)據(jù)訪問和用泛化數(shù)據(jù)的手段保護發(fā)布數(shù)據(jù)的安全。

      2.1 防止未經(jīng)許可的數(shù)據(jù)訪問技術(shù)

      主要有預(yù)防和檢測兩類手段。預(yù)防手段主要包括定義、執(zhí)行和限制用戶訪問敏感信息和數(shù)據(jù)的訪問控制技術(shù)和加密技術(shù)兩種安全手段。檢測手段主要包括審計和入侵檢測兩種數(shù)據(jù)安全技術(shù)。審計用于對數(shù)據(jù)訪問、修改的事后審查。入侵檢測對內(nèi)、外攻擊和誤操作提供一種積極主動的實時保護,在系統(tǒng)受到危害之前攔截相應(yīng)入侵,主要有基于基因算法的方法[12]等。

      2.2 數(shù)據(jù)發(fā)布中隱私保護技術(shù)

      目前最常用的隱私保護數(shù)據(jù)發(fā)布技術(shù)主要有k-匿名[13]、l-多樣。k-匿名使得每個元組的質(zhì)量指標(biāo)值都與其他k-1個元組的質(zhì)量指標(biāo)值相同,從而保護了數(shù)據(jù)所有者的隱私。對l-多樣性進行擴展,提出t-近似的概念[14],即每個匿名組中的敏感屬性分布具有與整體的敏感屬性近似的分布。

      綜上,雖然傳統(tǒng)的數(shù)據(jù)安全技術(shù)和新興的隱私保護數(shù)據(jù)發(fā)布技術(shù)能夠?qū)?shù)據(jù)中的敏感信息和隱私信息起到較好的保護作用,但是,絕大部分傳統(tǒng)的隱私保護技術(shù)無法直接應(yīng)用于個性化搜索引擎中的隱私保護。

      3 個性化搜索中隱私保護技術(shù)

      目前針對個性化搜索中隱私保護技術(shù)研究的很少,主要提出建立用戶信息層級樹的方法,允許用戶控制個人隱私的開放程度,但該層級樹的建立缺乏一個統(tǒng)一的標(biāo)準(zhǔn),不利于挖掘群體性的信息,同時也增加了用戶的負擔(dān),其次分析了個性化搜索的隱私保護中可能遇到的種種問題,在此基礎(chǔ)上提出了隱私保護的四個等級[8],但其等級的劃分缺乏大量的理論依據(jù),還需要進一步考證其準(zhǔn)確性和實用性。

      4 結(jié)束語

      個性化搜索系統(tǒng)已被廣為開發(fā),但其研究的重點還處于如何提高搜索結(jié)果質(zhì)量和用戶體驗的環(huán)節(jié)。雖然傳統(tǒng)的數(shù)據(jù)安全技術(shù)與新興的隱私保護數(shù)據(jù)挖掘和發(fā)布技術(shù)能夠?qū)γ舾袛?shù)據(jù)起到較好的保護作用,但目前絕大部分的隱私保護技術(shù)無法直接應(yīng)用于個性化搜索中的隱私保護。針對個人信息搜集、傳輸、使用、存儲和挖掘的保護方法研究方面還處于起步階段和缺乏對個性化搜索中隱私保護整體框架研究的情況,將來有必要對此開展研究來解決個性化搜索中的隱私保護問題,推動個性化搜索引擎的健康發(fā)展。

      [1]JAMES RUCKER,MARCOS J,POLANCO.Personalized navigation for the Web[J].Communications of the ACM, 1997,40(3):73-76.

      [2] DUNJA MLADENIC.Machine learning for better Web browsing[A].Proc.of AAAI 2000 Spring Symposium Technical Reports on Adaptive User Interfaces[C].American:Association for Artificial Inteuigence,2000.82-84.

      [3]YABO XU,BENYU ZHANG,ZHENG CHEN,et al.Privacy-enhancing personalized Web search[J].In:Proc.Of WWW2007,May 8-12,2007:591-600.

      [4]BOLLACKER KURT D,LAWRENCE STEVE,GILES C LEE.Discovering relevant scientific literature on the Web [J].Intelligent Systems and Their Applications,2000,15 (2):42-47.

      [5]AHU SIEG,BAMSHAD MOBASHER,ROBIN BUR KE. Web search personalization with ontological user profiles [A].Proc.of CIKM'07,November 6-8[C].Lisboa,Portugal:Acm,2007.525-534.

      [6]JAIME TEEVAN,SUSAN T.DUMAIS,ERIC HORVITZ. Personalizing search via automated analysis of interests and activities[A].Proc.of 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'05),August 15-19[C].Salvador,Brazil:Acm,2005.449-456.

      [7]LARRY PAGE,SERGEY BRIN,MOTWANI R,et al.The Pagerank citation ranking:bringing order to the Web[R]. Technical Report,Stanford University,1998.

      [8]XUEHUA SHEN,BIN TAN,CHENGXIANG ZHAi.Privacy protection in personalized search[R].SIGIR Forum,June 2007:4-17.

      [9]FERRAGINA P,GULLI A.A personalized search engine based on Web snippet hierarchical clustering[A].International World Wide Web Conference[C].Chiba,Japan:Acm, 2005.801-810.

      [10]PA CHIRITA,W NEJDL,R PAIU,C KOHLSCHǜTTER. Using ODP metadata to personalize search[A].Proceedings of the 28th annual international ACM SIGIR[C].Salvador, Brazil:Acm,2005.178-185.

      [11]J TEEVAN,ST DUMAIS,E HORVITZ.Personalizing search via automated analysis of interests and activities [A].Proceedings of the 28th Annual International ACM SIGIR[C].Salvador,Brazil:Acm,2005.449-456.

      [12]蘇璞睿,李德全,馮登國.基于基因規(guī)劃的主機異常入侵檢測模型[J].軟件學(xué)報,2003,14(6):1120-1126.

      [13]TOCHUKWU IWUCHUKWU,JEFFREY F,NAUGHTON.K -Anonymization as spatial indexing:Toward scalable and incremental anonymization[A].Proc.of VLDB 2007[C]. Vienna,Austria:Acm,2007.746-757.

      [14]NINGHUI LI,TIANCHENG LI,Suresh venkatasubramanian t-closeness:Privacy beyondK-anonymity and l-diversity[A].Data Engineering[C].Istanbul,2007.106-115.

      猜你喜歡
      搜索引擎個人信息個性化
      如何保護勞動者的個人信息?
      工會博覽(2022年16期)2022-07-16 05:53:54
      個人信息保護進入“法時代”
      堅持個性化的寫作
      文苑(2020年4期)2020-05-30 12:35:12
      警惕個人信息泄露
      綠色中國(2019年14期)2019-11-26 07:11:44
      新聞的個性化寫作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      上汽大通:C2B個性化定制未來
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      滿足群眾的個性化需求
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      临清市| 广水市| 磴口县| 三江| 尼勒克县| 突泉县| 乌拉特后旗| 垫江县| 尉氏县| 二手房| 八宿县| 大埔区| 闽清县| 永仁县| 黔江区| 文山县| 嘉兴市| 玛曲县| 禄劝| 富平县| 新宁县| 景泰县| 蓝田县| 禄丰县| 冕宁县| 罗山县| 郑州市| 彰化市| 丘北县| 邵武市| 长寿区| 陇西县| 蒙城县| 深州市| 黑龙江省| 望城县| 贵德县| 鹤山市| 淮滨县| 昌邑市| 兴安盟|