• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于科研在線(xiàn)文檔庫(kù)平臺(tái)的標(biāo)簽推薦系統(tǒng)

      2014-08-05 04:28:45芳,沈一,南
      計(jì)算機(jī)工程 2014年5期
      關(guān)鍵詞:頁(yè)面文檔標(biāo)簽

      蔡 芳,沈 一,南 凱

      (1. 中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049)

      基于科研在線(xiàn)文檔庫(kù)平臺(tái)的標(biāo)簽推薦系統(tǒng)

      蔡 芳1,2,沈 一1,2,南 凱1

      (1. 中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049)

      科研在線(xiàn)文檔庫(kù)是一個(gè)面向團(tuán)隊(duì)的文檔協(xié)同與管理工具,為虛擬團(tuán)隊(duì)提供合作平臺(tái)。它采用標(biāo)簽系統(tǒng)的方式組織其中的所有文檔。在文檔庫(kù)的使用過(guò)程中,出現(xiàn)了無(wú)標(biāo)簽文檔數(shù)量的累積以及用戶(hù)為文檔添加的標(biāo)簽質(zhì)量偏低問(wèn)題,影響文檔的分類(lèi)和共享。針對(duì)該問(wèn)題,采用適用于科研在線(xiàn)文檔庫(kù)平臺(tái)的標(biāo)簽推薦方法,包括協(xié)同過(guò)濾以及關(guān)鍵詞抽取2個(gè)部分,促使用戶(hù)為文檔添加合格的標(biāo)簽,提高文檔系統(tǒng)的使用效率。協(xié)同過(guò)濾推薦部分的實(shí)驗(yàn)采用準(zhǔn)確率和召回率衡量標(biāo)準(zhǔn),關(guān)鍵詞抽取部分采用用戶(hù)調(diào)查的實(shí)驗(yàn)方式,實(shí)驗(yàn)證明為每個(gè)文檔提供3個(gè)候選標(biāo)簽?zāi)軌虻玫嚼硐胄Ч?。在?shí)際使用環(huán)境中,該系統(tǒng)具有較高的精確度和可靠性,簡(jiǎn)單易于實(shí)現(xiàn)。

      標(biāo)簽推薦;標(biāo)簽系統(tǒng);協(xié)同過(guò)濾;關(guān)鍵詞抽??;冷啟動(dòng);文檔協(xié)同

      1 概述

      Web2.0下,用戶(hù)行為由Web1.0中獲取信息轉(zhuǎn)變?yōu)橐越换橹鞯姆绞?,信息發(fā)布的來(lái)源轉(zhuǎn)向Web用戶(hù)。相對(duì)于傳統(tǒng)的基于網(wǎng)站預(yù)先設(shè)定的分類(lèi)體系的信息分類(lèi)方法,標(biāo)簽系統(tǒng)的開(kāi)放性、簡(jiǎn)單性、標(biāo)簽由資源共享者提供等特點(diǎn)[1],使得它成為Web2.0網(wǎng)站的重要信息分類(lèi)和索引方式。用戶(hù)生成內(nèi)容(User Generated Content, UG C)標(biāo)簽系統(tǒng),通過(guò)讓用戶(hù)對(duì)信息打標(biāo)簽,將具有相同標(biāo)簽的信息進(jìn)行分類(lèi)歸納整理,形成以標(biāo)簽為中心的信息分類(lèi)系統(tǒng)[2]。2004年,標(biāo)簽系統(tǒng)領(lǐng)域的信息架構(gòu)專(zhuān)家,提出分眾分類(lèi)法的概念,指群眾自發(fā)性定義的平面非等級(jí)標(biāo)簽分類(lèi),用于信息的分類(lèi)和共享。目前比較流行的UGC標(biāo)簽系統(tǒng)有書(shū)簽類(lèi)站點(diǎn)Delicious、論文書(shū)簽網(wǎng)站CiteULike、相片分享網(wǎng)站Flickr等。

      科研在線(xiàn)文檔庫(kù)(Duckling D ocument L ibrary, DDL)是一個(gè)面向虛擬組織的協(xié)作式、文檔共享和管理工具[3]。系統(tǒng)利用用戶(hù)添加的標(biāo)簽對(duì)團(tuán)隊(duì)中所有的文檔進(jìn)行分類(lèi)。其中未打標(biāo)簽的文檔被放置于無(wú)標(biāo)簽文檔類(lèi)。一方面,隨著團(tuán)隊(duì)成員和文檔數(shù)量的增加,無(wú)標(biāo)簽文檔的數(shù)量開(kāi)始累積,這些文檔處于一種平行無(wú)清晰組織結(jié)構(gòu)的狀態(tài),當(dāng)用戶(hù)需要在其中尋找某一特定類(lèi)別的信息時(shí),比較耗時(shí),這種情況不利于DDL文檔的高效利用和管理,所以為無(wú)標(biāo)簽文檔推薦標(biāo)簽成為一種需求。另一方面,由于用戶(hù)可以任意地為文檔添加標(biāo)簽,而用戶(hù)自身對(duì)信息和詞匯的理解存在不準(zhǔn)確性,使系統(tǒng)中的標(biāo)簽存在一定程度的冗余性、不一致性和不完備性[4]。這些問(wèn)題都會(huì)影響到標(biāo)簽系統(tǒng)在進(jìn)行文檔組織、分類(lèi)時(shí)的性能,所以提升標(biāo)簽的質(zhì)量成為標(biāo)簽系統(tǒng)中核心的問(wèn)題。當(dāng)用戶(hù)想為文檔添加標(biāo)簽時(shí),為用戶(hù)提供高質(zhì)量的標(biāo)簽備選,可以有效地緩解上述問(wèn)題。

      本文基于協(xié)同推薦的方式,為無(wú)標(biāo)簽頁(yè)面提供高質(zhì)量候選標(biāo)簽。如傳統(tǒng)的協(xié)同推薦一樣,對(duì)于一個(gè)新的團(tuán)隊(duì)文檔集合,存在數(shù)據(jù)稀疏的冷啟動(dòng)問(wèn)題。針對(duì)這種現(xiàn)象,系統(tǒng)采用關(guān)鍵詞抽取的方式,利用文檔自身的內(nèi)容信息提取候選標(biāo)簽集合。當(dāng)系統(tǒng)中的標(biāo)簽積累到一定質(zhì)量和數(shù)量之后,再采取協(xié)同過(guò)濾的方式進(jìn)行標(biāo)簽推薦。

      本文利用文檔內(nèi)容信息和文檔與標(biāo)簽之間的關(guān)系進(jìn)行標(biāo)簽的推薦,而傳統(tǒng)的標(biāo)簽推薦系統(tǒng),基本都是基于用戶(hù)、標(biāo)簽、資源3個(gè)對(duì)象之間的關(guān)系[5-6],較少考慮資源自身的內(nèi)容特征。當(dāng)用戶(hù)在DDL中對(duì)某一文檔進(jìn)行添加標(biāo)簽的操作時(shí),系統(tǒng)會(huì)提供相關(guān)的推薦標(biāo)簽集合,此時(shí),用戶(hù)可以直接選擇相關(guān)的標(biāo)簽進(jìn)行添加,也可以在候選標(biāo)簽的提示下,添加自己的語(yǔ)義層面標(biāo)簽,這樣可以有效地提升用戶(hù)打標(biāo)簽的質(zhì)量,降低打標(biāo)簽的難度。

      2 標(biāo)簽推薦系統(tǒng)相關(guān)工作

      標(biāo)簽推薦可以有效地提高系統(tǒng)標(biāo)簽質(zhì)量,減少用戶(hù)打標(biāo)簽的難度,近年來(lái)成為學(xué)術(shù)界和工業(yè)界關(guān)注研究的重點(diǎn)。在傳統(tǒng)的標(biāo)簽推薦系統(tǒng)中,比較簡(jiǎn)單的標(biāo)簽推薦方法包括4種(統(tǒng)稱(chēng)為基于最流行的推薦法):為用戶(hù)推薦整個(gè)系統(tǒng)最熱門(mén)的標(biāo)簽,為用戶(hù)推薦他自己經(jīng)常使用的標(biāo)簽,為用戶(hù)推薦資源上最熱門(mén)的標(biāo)簽。通過(guò)系數(shù)將前面2種方式的推薦結(jié)果進(jìn)行線(xiàn)性加權(quán)的簡(jiǎn)單混合推薦[2]。

      這4種方式不用進(jìn)行復(fù)雜的模型訓(xùn)練和計(jì)算,實(shí)現(xiàn)成本低,在商業(yè)系統(tǒng)中較常使用。例如豆瓣,用戶(hù)可以為一本書(shū)或者是一部電影添加標(biāo)簽,此時(shí),標(biāo)簽系統(tǒng)會(huì)為用戶(hù)提供2類(lèi)標(biāo)簽,一類(lèi)是用戶(hù)自己的標(biāo)簽,另一類(lèi)是此書(shū)籍或者電影上經(jīng)常被標(biāo)記的標(biāo)簽。對(duì)于商業(yè)產(chǎn)品,此類(lèi)方法效果較好而且實(shí)現(xiàn)簡(jiǎn)單快速。但是這些算法對(duì)于新用戶(hù)或者是不太熱門(mén)的物品,存在冷啟動(dòng)問(wèn)題,很難有較理想的推薦效果。

      圖模型也可以用于標(biāo)簽推薦系統(tǒng)。先根據(jù)用戶(hù)對(duì)資源打標(biāo)簽這種行為,生成用戶(hù)-資源-標(biāo)簽無(wú)向圖?;诖藞D的相關(guān)算法有FolkRank算法[7],此算法認(rèn)為一個(gè)標(biāo)簽如果標(biāo)記重要資源,而且是重要的用戶(hù)進(jìn)行的標(biāo)注,那么這個(gè)標(biāo)簽就更重要。經(jīng)過(guò)迭代計(jì)算,得到標(biāo)簽的得分排名,然后為資源提供topN標(biāo)簽推薦。另外一類(lèi)是采用基于隨機(jī)游走的PersonalRank算法[8],此算法基本思路是:從用戶(hù)U對(duì)應(yīng)的節(jié)點(diǎn)VU出發(fā)進(jìn)行隨機(jī)游走,游走到任何一個(gè)節(jié)點(diǎn)時(shí),按照概率選擇繼續(xù)游走或者是返回節(jié)點(diǎn)VU開(kāi)始重新游走,經(jīng)過(guò)迭代計(jì)算,使各個(gè)節(jié)點(diǎn)被訪(fǎng)問(wèn)的概率收斂到一個(gè)值,該概率就是推薦列表中標(biāo)簽的權(quán)重。這些算法都存在要進(jìn)行模型訓(xùn)練、計(jì)算復(fù)雜、時(shí)間復(fù)雜度高等問(wèn)題,在實(shí)際系統(tǒng)中應(yīng)用起來(lái)還有很多實(shí)際的困難需要解決。

      本文提出了一種綜合協(xié)同過(guò)濾推薦以及關(guān)鍵詞抽取的標(biāo)簽推薦方式。在DDL平臺(tái)上,由于文檔上被標(biāo)記的標(biāo)簽都是共享的,即只存在文檔、標(biāo)簽二維空間,而不是圖模型中的三維空間,這樣前文所說(shuō)的一些推薦方式并不適合DDL實(shí)際環(huán)境,在此情況下本文提出一種不考慮用戶(hù)的協(xié)同推薦方式,簡(jiǎn)單高效,易于實(shí)現(xiàn)。現(xiàn)在主流的標(biāo)簽推薦研究都是在Delicious、Bibsonomy等公開(kāi)的數(shù)據(jù)之上進(jìn)行的[9],標(biāo)簽數(shù)據(jù)量有一定的基礎(chǔ),不用考慮冷啟動(dòng)的問(wèn)題。在DDL中,若成立一個(gè)新的科研團(tuán)隊(duì),其中基本沒(méi)有標(biāo)簽,此時(shí),采用第2種推薦方法:基于內(nèi)容的關(guān)鍵詞抽取標(biāo)簽推薦方法。

      3 綜合協(xié)同過(guò)濾和關(guān)鍵詞抽取的標(biāo)簽推薦系統(tǒng)

      Delicious、豆瓣等系統(tǒng)中,用戶(hù)和資源之間是多對(duì)多的關(guān)系,用戶(hù)U1和U2都可以對(duì)資源I添加標(biāo)簽,并且他們添加的標(biāo)簽集合S1、S2是獨(dú)立的。而在DDL中,由于DDL的宗旨是團(tuán)隊(duì)協(xié)作和共享,團(tuán)隊(duì)成員之間的關(guān)系是十分親密的,因此所有用戶(hù)對(duì)于一個(gè)文檔添加的標(biāo)簽都屬于一個(gè)集合S。由于不存在完整的用戶(hù)-資源-標(biāo)簽三維空間,本文第2節(jié)中提到的主流標(biāo)簽推薦方式并不適合DDL,從可用性、實(shí)用性、易于實(shí)現(xiàn)等方面考慮,提出一種綜合協(xié)同過(guò)濾和關(guān)鍵詞抽取的標(biāo)簽推薦方法。

      當(dāng)團(tuán)隊(duì)中已打標(biāo)簽的文檔數(shù)目占所有文檔的比例超過(guò)一個(gè)閾值時(shí),采用協(xié)同過(guò)濾標(biāo)簽推薦方式,當(dāng)小于這個(gè)閾值時(shí),采用關(guān)鍵詞抽取方式。

      3.1 基于內(nèi)容的協(xié)同過(guò)濾標(biāo)簽推薦

      傳統(tǒng)的協(xié)同過(guò)濾中,通過(guò)用戶(hù)對(duì)資源的評(píng)分矩陣計(jì)算資源相似度或者是用戶(hù)相似度。例如電子商務(wù)網(wǎng)站中當(dāng)2個(gè)物品被同一個(gè)用戶(hù)喜歡,那么它們的相似度加一。在DDL中,文檔的協(xié)作分享面向科研團(tuán)隊(duì),在一個(gè)團(tuán)隊(duì)中,用戶(hù)和文檔之間關(guān)系的黏度是比較強(qiáng)的,即一個(gè)用戶(hù)訪(fǎng)問(wèn)某2個(gè)頁(yè)面的可能性很大,并不能代表這2個(gè)頁(yè)面的相似度關(guān)系,因此,使用傳統(tǒng)的相似度判斷方法并不適合DDL?;诖?,本文采用基于內(nèi)容判斷文檔相似度的方法。

      3.1.1 文檔特征向量

      對(duì)于DDL團(tuán)隊(duì)中的文檔,在對(duì)其文檔內(nèi)容分詞之后,利用TF-IDF模型計(jì)算文檔中每個(gè)關(guān)鍵詞的權(quán)重,然后構(gòu)建文檔特征向量:

      其中,Di表示文檔i的特征向量;termij(j=1,2,…,n)表示將文檔i的特征詞按照權(quán)重由大到小排序之后的第j個(gè)特征詞;wij是其對(duì)應(yīng)的tf-idf權(quán)重。

      3.1.2 相似文檔集合

      目標(biāo)是計(jì)算目標(biāo)文檔的相似文檔集合。在構(gòu)建了團(tuán)隊(duì)文檔向量空間模型之后,利用余弦定理計(jì)算2個(gè)文檔特征向量之間的距離:

      其中,分子代表特征向量Di和Dj中相同的特征詞對(duì)應(yīng)的權(quán)重乘積求和。

      在DDL團(tuán)隊(duì)中,對(duì)于目標(biāo)頁(yè)面d,計(jì)算它與團(tuán)隊(duì)中其他文檔的相似度,選取前30個(gè)頁(yè)面形成d的相似頁(yè)面集合Nd:

      其中,Ntop30表示與目標(biāo)文檔d相似度最大的前30個(gè)文檔集合;Di表示第i個(gè)文檔向量;simid表示文檔i與目標(biāo)文檔d的相似度權(quán)重。

      3.1.3 推薦標(biāo)簽集合

      在DDL中,對(duì)于目標(biāo)文檔d,其相似文檔集合為Nd,對(duì)于其中的每個(gè)文檔i,其上有一些已經(jīng)被標(biāo)記上的標(biāo)簽t,將對(duì)應(yīng)于i的已有標(biāo)簽集合記為T(mén)i。對(duì)頁(yè)面d的推薦標(biāo)簽集合如下:Trec- d={(td1,wtd1),(td2,wtd2),…,(tdk,wtdk)}。其中,tdi∈T1∪T2∪…∪T30(i=1,2,…,k)是為目標(biāo)文檔d推薦的第i個(gè)標(biāo)簽;wtdi是標(biāo)簽tdi對(duì)應(yīng)的排名權(quán)重,由如下公式計(jì)算:

      其中,Tk代表文檔k上已有的標(biāo)簽集合;Ntdi代表在目標(biāo)文檔d的相似文檔集合Nd中包含標(biāo)簽tdi的所有文檔的集合;Trec-d按照標(biāo)簽權(quán)重wtdi進(jìn)行排序。

      3.2 關(guān)鍵詞抽取

      用TF-IDF度量關(guān)鍵詞的權(quán)重。采用公式tf-idft, d= tft, d×idft,tft,d表示詞項(xiàng)頻率,idft表示逆文檔頻率。在詞袋模型[10]的文檔視圖下,TF-IDF模型能夠表示文檔中詞項(xiàng)的區(qū)分度和重要度[11]。TF-IDF被公認(rèn)為信息檢索中最重要的發(fā)明,常用于搜索引擎排名中確定網(wǎng)頁(yè)和查詢(xún)的相關(guān)性、自底向上文檔分類(lèi)等問(wèn)題中[12]。

      對(duì)于一個(gè)全新的團(tuán)隊(duì),系統(tǒng)中基本沒(méi)有標(biāo)簽,在協(xié)同過(guò)濾方式中會(huì)出現(xiàn)冷啟動(dòng)的問(wèn)題,本文采用關(guān)鍵詞抽取的方式來(lái)解決。具體做法如下:采用IKAnalyzer中文分詞器的智能切分方式對(duì)文檔分詞,將DDL中已經(jīng)存在的標(biāo)簽作為自定義的擴(kuò)展詞典,過(guò)濾單個(gè)漢字詞項(xiàng)和數(shù)字,然后統(tǒng)計(jì)文檔中詞項(xiàng)的TF-IDF值,選取topK作為推薦集合:

      其中,關(guān)鍵詞按照權(quán)重由大到小排名,推薦文檔的前K個(gè)最大TF-IDF權(quán)重的關(guān)鍵詞集合。

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 基于內(nèi)容的協(xié)同過(guò)濾標(biāo)簽推薦

      4.1.1 實(shí)驗(yàn)數(shù)據(jù)及度量方法

      為驗(yàn)證算法的性能,本系統(tǒng)采用DDL中某一團(tuán)隊(duì)的部分?jǐn)?shù)據(jù)集合。這個(gè)數(shù)據(jù)集合包含3 000個(gè)頁(yè)面。隨機(jī)選取所有頁(yè)面的20%作為測(cè)試集合,即訓(xùn)練集合頁(yè)面數(shù)目為600。

      由于系統(tǒng)屬于TopN推薦,即為用戶(hù)提供一個(gè)推薦列表。TopN推薦的預(yù)測(cè)精度一般通過(guò)準(zhǔn)確率和召回率來(lái)度量。這里,采用這2種傳統(tǒng)的度量方式:

      其中,p表示測(cè)試頁(yè)面集合;R(p)表示給頁(yè)面推薦的標(biāo)簽集合;T(p)表示測(cè)試集中的頁(yè)面實(shí)際被標(biāo)記上的標(biāo)簽。

      通過(guò)選取不同的列表長(zhǎng)度N,計(jì)算出一組準(zhǔn)確率和召回率,以此判斷最佳的推薦長(zhǎng)度。為了保證測(cè)試實(shí)驗(yàn)的準(zhǔn)確性,重復(fù)實(shí)驗(yàn)5次,每次用于測(cè)試的600個(gè)頁(yè)面都是隨機(jī)選擇的不同頁(yè)面。

      4.1.2 結(jié)果分析

      選取N={3,4,5,6}進(jìn)行實(shí)驗(yàn),每次進(jìn)行5次重復(fù)實(shí)驗(yàn)。圖1代表取不同的N值時(shí)的準(zhǔn)確率,圖2是對(duì)應(yīng)的召回率。

      圖1 N取不同值時(shí)的準(zhǔn)確率

      圖2 N取不同值時(shí)的召回率

      從圖1中可以看出,準(zhǔn)確率相對(duì)于召回率處于一個(gè)較小的取值空間,因?yàn)闇?zhǔn)確率代表的是頁(yè)面推薦集合和原有標(biāo)簽集合的交集C與推薦標(biāo)簽集合的總數(shù)目R的比例。當(dāng)N變大時(shí),R增長(zhǎng)較快,例如N為3時(shí),推薦總數(shù)為3×600= 1 800,N為4時(shí)推薦總數(shù)為4×600=2 400,而選用的團(tuán)隊(duì)頁(yè)面集合基本上每個(gè)頁(yè)面的標(biāo)簽數(shù)目在1個(gè)~2個(gè)之間,而集合C受到原有標(biāo)簽集合的數(shù)目限制,C與R的數(shù)量差距較大,這也就解釋了精確率都在較小數(shù)據(jù)區(qū)間內(nèi)的現(xiàn)象。

      而準(zhǔn)確率隨著N的增長(zhǎng)呈現(xiàn)下降的趨勢(shì),主要是由于N的增長(zhǎng)導(dǎo)致R顯著增大,但是對(duì)于C的提升沒(méi)有很明顯的效果,出于實(shí)際DDL中頁(yè)面的標(biāo)簽基本上是在3個(gè)以?xún)?nèi),此處認(rèn)為選擇N為3時(shí),比較理想。

      召回率代表了集合C與頁(yè)面原有標(biāo)簽集合T的比例。對(duì)于隨機(jī)選擇的600個(gè)測(cè)試頁(yè)面集合,T的數(shù)量基本穩(wěn)定,但是當(dāng)增大推薦數(shù)目N時(shí),如同在分析精確度時(shí)所描述的,N對(duì)于推薦效果的提升雖然沒(méi)有很顯著的影響,但是當(dāng)推薦的候選集合增大,交集C還是會(huì)有小幅度的增加,因此,也就表現(xiàn)為召回率的小幅度增大變化,但是這個(gè)增長(zhǎng)幅度太小,故認(rèn)為N為3時(shí)的召回率已經(jīng)是比較理想了。

      綜合上述原因,采用推薦標(biāo)簽集合長(zhǎng)度N為3較理想。

      4.2 關(guān)鍵詞抽取推薦

      本文是基于TF-IDF進(jìn)行關(guān)鍵詞提取,所得到的關(guān)鍵詞推薦集合是基于分詞結(jié)果。例如頁(yè)面“試用期/實(shí)習(xí)期管理”,得到的推薦集合是{實(shí)習(xí)期,試用期,轉(zhuǎn)正};頁(yè)面“考勤公示說(shuō)明”,推薦集合{缺勤,考勤,公示};頁(yè)面“2010級(jí)碩士生開(kāi)題答辯”,推薦集合{開(kāi)題,碩士生,2010級(jí)}??梢钥闯觯瑑?nèi)容抽取的方式能夠得到一些比較好的代表文檔內(nèi)容的關(guān)鍵詞,這樣能夠方便用戶(hù)對(duì)文檔添加標(biāo)簽。內(nèi)容抽取方式得到的是詞粒度的標(biāo)簽。而當(dāng)DDL團(tuán)隊(duì)被使用一段時(shí)間之后,部分頁(yè)面會(huì)被添加上一些語(yǔ)義層面的標(biāo)簽,例如“科研與教育”、“全室共享”,這樣在基于內(nèi)容的協(xié)同推薦方式下,就會(huì)為頁(yè)面提供一些語(yǔ)義層面的標(biāo)簽推薦,例如上面提到的頁(yè)面“2010級(jí)碩士生開(kāi)題答辯”,得到推薦集合{科研與教育,分享與研究,默認(rèn)集合 }。

      對(duì)于該推薦方式采用用戶(hù)調(diào)查的方式進(jìn)行實(shí)驗(yàn)。由于對(duì)于已有標(biāo)簽的頁(yè)面,其上的標(biāo)簽可能會(huì)影響用戶(hù)對(duì)推薦結(jié)果的主觀(guān)判斷。因此,隨機(jī)選擇團(tuán)隊(duì)中個(gè)300個(gè)未打標(biāo)簽頁(yè)面,選擇5個(gè)用戶(hù)參加調(diào)查,評(píng)價(jià)分為3個(gè)等級(jí)。重復(fù)實(shí)驗(yàn)5次結(jié)果如表1所示。其中數(shù)據(jù)分別代表300個(gè)頁(yè)面中用戶(hù)滿(mǎn)意、感覺(jué)一般和不滿(mǎn)意頁(yè)面的數(shù)目所占的比例。

      表1 用戶(hù)調(diào)查滿(mǎn)意度

      隨著使用時(shí)間的增長(zhǎng),標(biāo)簽數(shù)量和質(zhì)量會(huì)逐步的積累和改善,從而標(biāo)簽推薦系統(tǒng)的效果也會(huì)穩(wěn)步上升。

      5 結(jié)束語(yǔ)

      本文綜合協(xié)同過(guò)濾方法和關(guān)鍵詞抽取方法對(duì)DDL團(tuán)隊(duì)文檔推薦標(biāo)簽。在解決標(biāo)簽推薦冷啟動(dòng)問(wèn)題的同時(shí)能夠?yàn)橛脩?hù)提供高質(zhì)量的候選標(biāo)簽集合,方便用戶(hù)對(duì)頁(yè)面添加具有代表性的標(biāo)簽。提升了DDL的標(biāo)簽系統(tǒng),使得文檔的組織、管理和分享更加高效有序。實(shí)驗(yàn)結(jié)果證明,該系統(tǒng)能夠?yàn)槲臋n提供較高精度的標(biāo)簽推薦,有利于DDL標(biāo)簽系統(tǒng)的有效構(gòu)建和發(fā)展。下一步工作著重于提高標(biāo)簽推薦的精度,同時(shí)在關(guān)鍵詞抽取方面,利用主題模型進(jìn)行實(shí)驗(yàn),和TF-IDF方法進(jìn)行對(duì)比。

      [1] Golder S A, Huberman B A. The Structure of Collaborative Tagging System[J]. Journal of Information Science, 2006, 32(2): 198-208.

      [2] 項(xiàng) 亮. 推薦系統(tǒng)實(shí)踐[M]. 北京: 人民郵電出版社, 2012.

      [3] 南 凱, 董科軍, 謝建軍, 等. 面向云服務(wù)的科研協(xié)同平臺(tái)研究[J]. 華中科技大學(xué)學(xué)報(bào): 自然科學(xué)版, 2010, 38(1): 14-19.

      [4] Guy M, Tonkin E. Folksonomies: Tidying up Tags?[J]. D-Lib Magazine, 2006, 12(1): 1-15.

      [5] 許棣華, 王志堅(jiān), 林巧民, 等. 一種基于偏好的個(gè)性化標(biāo)簽推薦系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2011, 28(7): 2573-2575.

      [6] G emmell J, Schimoler T, Mobasher B, et al. Hybrid Tag Recommendation for Social A nnotation Systems[C]//Proc. of the 19th ACM International Conf erence on Information and Knowledge Management. New York, USA: ACM Press, 2010: 829-838.

      [7] Hotho A, J?schke R, Schmitz C, et al. Information Retrieval in Folksonomies: Search and Ranking[C]//Proc. of the 3rd European Sema ntic W eb Conference. Berlin, Germany: Springer-Verlag, 2006: 411-426.

      [8] Haveliwala T H. T opic-sensitive PageRa nk[C]//Proc. of the 11th International Conference on World Wide Web. New York, USA: ACM Press, 2002: 517-526.

      [9] 勒延安, 李玉華, 劉行軍. 不同粒度標(biāo)簽推薦算法的比較研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 19(2): 504-509.

      [10] Lewis D D. Naive(Bayes) at Forty: The Independenc e Assumption in Information Retrieval[C]//Proc. of the 10th European Confer ence o n Mac hine Le arning. Lo ndon, UK: Springer-Verlag, 1998: 4-15.

      [11] Manning C D, Rag havan P, Schütze H. 信息檢索導(dǎo)論[M]. 王 斌, 譯. 北京: 人民郵電出版社, 2010.

      [12] 吳 軍. 數(shù)學(xué)之美[M]. 北京: 人民郵電出版社, 2012.

      編輯 顧逸斐

      Tag Recommendation System Based on Duckling Document Library Platform

      CAI Fang1,2, SHEN Yi1,2, NAN Kai1

      (1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China)

      Duckling Document Library(DDL) is a tool for document collaboration and management among research teams. It provides a cooperation platform for virtual teams. T ag system is used to manage all the documents on it. During the use of the lib rary, the number of documents without any tags is gradually accumulating and the quality of tags labeled by users to some documents is not so good. All these troubles impede the effective control of the documents. In order to solve these problems, this paper proposes a tag recommendation method suitable for the document library of research onl ine platform, which includes collaboration filterin g recommendation and keywor ds extraction recommendation, in this way users are prompted to ad d qualified tags and improve the efficiency of the document libr ary. Precision and recall rate metrics are used in the collaboration filtering recommendation and user survey in the keyw ords extraction recommendation. Experimental results show that a recommended list of three tags can get desired effect. In production environment, this tag recommendation system has qualified accuracy, reliability and is easy to be implemented.

      tag recommendation; tag system; collaborative filtering; keywords extraction; cold-start; document collaboration

      10.3969/j.issn.1000-3428.2014.05.061

      中國(guó)科學(xué)院十二五信息化基金資助項(xiàng)目“科研信息化應(yīng)用推進(jìn)工程(XXH12503)。

      蔡 芳(1990-),女,碩士研究生,主研方向:網(wǎng)絡(luò)協(xié)同,推薦系統(tǒng);沈 一,博士研究生;南 凱,研究員。

      2013-03-05

      2013-05-03E-mail:caifangzky@sina.cn

      1000-3428(2014)05-0295-04

      A

      TP39

      猜你喜歡
      頁(yè)面文檔標(biāo)簽
      刷新生活的頁(yè)面
      有人一聲不吭向你扔了個(gè)文檔
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車(chē)迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      標(biāo)簽化傷害了誰(shuí)
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于多進(jìn)制查詢(xún)樹(shù)的多標(biāo)簽識(shí)別方法
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      同一Word文檔 縱橫頁(yè)面并存
      女性| 安化县| 大同市| 朔州市| 肥东县| 凤山市| 福贡县| 河津市| 晴隆县| 新和县| 光泽县| 远安县| 济源市| 夹江县| 山东省| 开化县| 宁安市| 齐河县| 句容市| 荔波县| 灵台县| 揭东县| 郎溪县| 吴旗县| 左云县| 哈尔滨市| 阿瓦提县| 册亨县| 柞水县| 宣恩县| 盐池县| 泰顺县| 宁化县| 武强县| 肇东市| 永新县| 平山县| 克东县| 铅山县| 新蔡县| 黎平县|