• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向?qū)W術(shù)社區(qū)的專家推薦模型

      2012-09-24 13:45:24李春英湯庸陳國華湯志康
      智能系統(tǒng)學(xué)報(bào) 2012年4期
      關(guān)鍵詞:詞項(xiàng)文檔向量

      李春英,湯庸,陳國華,湯志康

      (1.肇慶學(xué)院計(jì)算機(jī)學(xué)院,廣東 肇慶 526061;2.華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510631;3.廣東技術(shù)師范學(xué)院計(jì)算機(jī)學(xué)院,廣東廣州 510665)

      學(xué)術(shù)合作研究越來越受到人們的重視[1].在學(xué)術(shù)研究領(lǐng)域有相同研究興趣或者工作在不同學(xué)科、領(lǐng)域的科研人員常常組成一個(gè)團(tuán)隊(duì)進(jìn)行合作,顯然這使得更多的問題得到了解決.比如一篇電子商務(wù)方面的論文,可能是從事計(jì)算機(jī)研究、經(jīng)濟(jì)學(xué)研究和管理學(xué)研究的學(xué)者共同的智慧結(jié)晶.實(shí)際上,學(xué)者間高水平的合作具備更強(qiáng)的生產(chǎn)力.因此,找到潛在的成功合作者對于研究者特別是青年研究者來說是倍受歡迎的.然而,團(tuán)隊(duì)合作常常局限于同一學(xué)科、同一科研院所的內(nèi)部.對于我國大多數(shù)二三類院校的研究者而言,因缺乏學(xué)術(shù)帶頭人導(dǎo)致眾多研究者特別是青年研究者無法超越現(xiàn)實(shí)的距離而徘徊不前.而國內(nèi)外大多數(shù)學(xué)術(shù)搜索引擎,如中國知網(wǎng)、萬方數(shù)據(jù)知識服務(wù)平臺、維普資迅、Scirus、Google Scholar、CiteSeer、CiteULike、DBLP、C-DBLP等都具備了文獻(xiàn)檢索的功能,但他們都沒有對有著相似研究興趣和潛在合作關(guān)系的學(xué)者進(jìn)行有效地挖掘和推薦.

      為了有效地挖掘潛在的合作者并進(jìn)行推薦,本文提出了一個(gè)面向?qū)W術(shù)社區(qū)的專家推薦系統(tǒng)模型.在這個(gè)學(xué)術(shù)社區(qū)內(nèi),用戶可以按照關(guān)鍵字搜索相關(guān)論文;系統(tǒng)可以根據(jù)用戶的研究興趣,為用戶自動(dòng)推薦最新的相關(guān)論文;另外還可以自動(dòng)管理用戶的學(xué)術(shù)資料,如果用戶有新論文發(fā)表出來,當(dāng)用戶登錄時(shí),系統(tǒng)將會(huì)提醒用戶將該論文收藏到自己的主頁中,這樣就極大地方便了用戶對自己資料的管理,同時(shí)可以讓其他用戶及時(shí)地了解到自己的最新工作進(jìn)展[2].除常規(guī)功能外,本文著重論述學(xué)術(shù)專家推薦模型的設(shè)計(jì)及實(shí)驗(yàn)測評.該模型包括3個(gè)部分:1)通過分析學(xué)者公開發(fā)表的論文被引用的次數(shù)、錄用期刊的影響因子以及發(fā)表論文的數(shù)量3個(gè)方面對學(xué)者的學(xué)術(shù)價(jià)值進(jìn)行量化;2)利用主題模型提取學(xué)者的研究方向;3)對搜索關(guān)鍵詞進(jìn)行查詢擴(kuò)展,并計(jì)算其與作者主題詞之間的相關(guān)度,按相關(guān)度排序在推薦系統(tǒng)中給出用戶需要的學(xué)者專家列表,其中用戶可按影響力進(jìn)行排序.

      1 專家推薦模型的相關(guān)工作

      專家推薦模型是一種面向?qū)W術(shù)領(lǐng)域的學(xué)術(shù)推薦搜索引擎.對于學(xué)術(shù)推薦,近年來人們開展了大量的研究工作并取得了豐碩的研究成果.文獻(xiàn)[3]在CiteULike社區(qū)結(jié)合了傳統(tǒng)的協(xié)同過濾的優(yōu)點(diǎn)和概率主題模型進(jìn)行建模,為用戶推薦論文.文獻(xiàn)[4]提出一個(gè)基于合作發(fā)現(xiàn)的搜索引擎,為學(xué)者推薦潛在的學(xué)術(shù)研究合作伙伴.對于學(xué)術(shù)搜索引擎,文獻(xiàn)[2]已經(jīng)做了非常詳盡的闡述,在此不再贅述.

      總之,在目前提供學(xué)術(shù)信息服務(wù)的所有中文搜索引擎中,都沒有提供推薦用戶感興趣的領(lǐng)域?qū)<曳?wù).如果結(jié)合學(xué)術(shù)社區(qū)提供一個(gè)易于使用的專家推薦服務(wù),一定能使科研工作者特別是青年科研工作者感興趣,并可能給他們未來的研究工作帶來極大方便.下面將分別闡述面向?qū)W術(shù)社區(qū)的專家推薦模型的詳細(xì)設(shè)計(jì)和實(shí)驗(yàn)評估,系統(tǒng)的整體架構(gòu)如圖1所示.

      圖1 系統(tǒng)的整體架構(gòu)Fig.1 The system architecture

      2 模型的詳細(xì)設(shè)計(jì)

      2.1 成果量化

      對于獲得諾貝爾獎(jiǎng)的科學(xué)家而言,他們研究工作的影響和主題相關(guān)性是毋庸置疑的.但對于大多數(shù)的研究人員而言,該如何量化個(gè)人科研成果累積的影響和相關(guān)性?科研人員公開發(fā)表的論文記錄顯然是對量化有用的信息.各個(gè)科研機(jī)構(gòu)往往是利用科研人員有限的成果資源,進(jìn)行比較和評價(jià).雖然這種量化可能使人反感,但在高校、科研院所,它是科研人員職務(wù)招聘、晉升職稱和補(bǔ)助獎(jiǎng)勵(lì)的有效依據(jù).J.E.Hirsch在文獻(xiàn)[5]中提出利用個(gè)人在過去 n年時(shí)間內(nèi)發(fā)表的論文數(shù)量p、論文被引用的次數(shù)c和錄用期刊的影響因子去評估個(gè)人的科研成果,即所謂的 H 參數(shù).J.E.Hirsch的 H 參數(shù)在物理學(xué)科[6-7]和在科學(xué)計(jì)量學(xué)[8]方面得到了驗(yàn)證并獲得了廣泛的認(rèn)同,表明該參數(shù)對于量化個(gè)人的科研成果是有效的.J.E.Hirsch提出 H 參數(shù)的具體量化公式[5]如式(1)所示.

      式(1)中未直接考慮期刊的影響因子對H參數(shù)的影響.因此對其加以改進(jìn),使其能夠更加準(zhǔn)確地量化個(gè)人的科研成果.

      2.2 概率主題模型

      概率主題模型越來越多地應(yīng)用于圖像處理和自然語言處理領(lǐng)域.在自然語言處理領(lǐng)域中,主題可以看成是詞項(xiàng)的概率分布.主題模型通過詞項(xiàng)在文檔級的共現(xiàn)信息抽取出語義相關(guān)的主題集合,并能夠?qū)⒃~項(xiàng)空間中的文檔變換到主題空間,得到文檔在低維空間中的表達(dá).這為語料庫挖掘、文檔分類和信息檢索工作提供了極大的便利.本文將使用主題模型抽取作者全部文章的主題信息,進(jìn)而形成作者研究方向的主題集合.

      使用主題模型對文檔的生成過程進(jìn)行模擬,再通過參數(shù)估計(jì)得到各個(gè)主題.最簡單的主題模型是LDA(latent Dirichlet allocation)[9].假定 φt表示主題t中的詞項(xiàng)概率分布;θj表示第j篇文檔的主題概率分布;φt、θj又作為多項(xiàng)式分布的參數(shù)分別用于生成單詞和主題,服從Dirichlet分布;T代表主題數(shù)目;M代表文檔數(shù)目;Nj表示第j篇文檔的長度;ωjn和Zjn分別表示第j篇文檔中第n個(gè)單詞及其主題;α和β是Dirichlet分布的參數(shù),通常是固定值且是對稱分布的[10].

      則對于語料庫中的每一篇文檔ωj,LDA的生成過程如下:

      1)對主題采樣 φt~Dir(β),t∈[1,T];

      2)采樣主題概率分布θj~Dir(α);

      3)采樣文檔的單詞數(shù)目N~Poiss(ξ);

      4)對文檔j中的每個(gè)單詞n:

      ①選擇隱含主題Zjn~Multinomial(θj);

      ②生成一個(gè)單詞ωjn~Multinomial(φZjn).

      這個(gè)過程表明了從每一篇文檔中提取主題詞的過程.對于給定的語料庫,根據(jù)給定的最優(yōu)化目標(biāo)函數(shù),使用Gibbs參數(shù)估計(jì)方法得到對參數(shù)的估計(jì)值.利用訓(xùn)練好的模型對新文檔進(jìn)行推斷,發(fā)現(xiàn)T個(gè)主題,進(jìn)而將指定的詞項(xiàng)空間表達(dá)的文檔分解降維,得到所需要的主題集合.

      2.3 查詢擴(kuò)展

      查詢擴(kuò)展是查詢優(yōu)化的一個(gè)分支研究方向,也是目前改善信息檢索中查全率和查準(zhǔn)率的關(guān)鍵技術(shù)之一.查詢擴(kuò)展是指為了保證用戶搜索時(shí)使用的關(guān)鍵詞和作者主題詞相關(guān),需將用戶搜索時(shí)使用的關(guān)鍵詞進(jìn)行語義擴(kuò)展,把與原關(guān)鍵詞語義相關(guān)的詞或詞組添加到原查詢中,得到比原查詢更長的新查詢,以便更完整、更準(zhǔn)確地描述原查詢所隱含的語義,幫助其提供更多有利于判斷文檔相關(guān)性的信息,提高檢索的查全率和查準(zhǔn)率.

      隱性語義索引(latent semantic indexing,LSI)[11]用于發(fā)現(xiàn)文本中詞項(xiàng)-文檔之間的語義關(guān)系.在LSI模型中,詞項(xiàng)-文檔矩陣C用于表示詞項(xiàng)和文檔之間的關(guān)系,C=(Cij),其中Cij表示第i個(gè)詞項(xiàng)在第j篇文檔中的權(quán)重值,即第i個(gè)詞項(xiàng)在第j篇文檔中出現(xiàn)的次數(shù).

      LSI通過奇異值分解對高維稀疏的詞項(xiàng)-文檔矩陣構(gòu)造低階最佳近似,以減輕計(jì)算的復(fù)雜度.適用奇異值分解降維的基本思想為:假設(shè)Cm×n是詞項(xiàng)-文檔矩陣;m是詞項(xiàng)空間的維度,n是文檔個(gè)數(shù),則CCT是m階對稱方陣,其元素(i,j)代表了詞項(xiàng)i和詞項(xiàng)j的共現(xiàn)次數(shù),反映了任意2個(gè)詞項(xiàng)(i,j)之間的相似度.則

      2)存在正交矩陣 Um×r、Vm×r和廣義對角陣 Σr×r(其 中 Σii= σi)使 得 C=UΣVT,則 CCT=UΣVTVΣUT=UΣ2UT.

      2.4 相關(guān)度計(jì)算

      當(dāng)用戶進(jìn)行查詢請求時(shí),首先將關(guān)鍵詞經(jīng)過中文分詞處理,然后對其分詞結(jié)果進(jìn)行查詢擴(kuò)展,并將所有結(jié)果作為查詢關(guān)鍵詞向量U的分量,個(gè)數(shù)作為關(guān)鍵詞向量空間的維數(shù).最后使用Salton的TF-IDF公式計(jì)算向量U中每個(gè)關(guān)鍵詞分量的權(quán)值,詳見式(3).

      式中:tik表示關(guān)鍵詞分量Uk在主題向量Tid中出現(xiàn)的次數(shù),N表示主題詞庫中主題向量的總數(shù),nk表示主題詞庫中含有關(guān)鍵詞Uk的主題向量數(shù).因此,查詢關(guān)鍵詞被擴(kuò)展為一個(gè)查詢關(guān)鍵詞向量:向量的維數(shù)就是分詞后的中文詞語個(gè)數(shù),向量每一維分量的大小就是每個(gè)分量的權(quán)值.對每一個(gè)主題向量Tid,每個(gè)主題分量的權(quán)值取文檔主題的概率分布值.因此主題向量分量的權(quán)值可用其對應(yīng)的概率分布值表示即Pid=[Pid1Pid2…Pidn].此時(shí),要計(jì)算關(guān)鍵詞和主題向量的相關(guān)度,可以認(rèn)為是向量U和向量Tid之間的相關(guān)度,而計(jì)算向量之間的相關(guān)度,可以使用向量夾角余弦系數(shù)進(jìn)行衡量,如式(4)所示,最后按相關(guān)度大小進(jìn)行排序并將結(jié)果頁面推薦給用戶.

      3 實(shí)驗(yàn)評估

      3.1 成果量化實(shí)驗(yàn)

      量化計(jì)算關(guān)鍵在于數(shù)據(jù)庫的設(shè)計(jì)和查詢算法.論文和作者是多對多的關(guān)系,為了分擔(dān)部分計(jì)算壓力、提高查詢性能,需提前計(jì)算好部分?jǐn)?shù)據(jù)結(jié)果.因此,需將SCHOLAT數(shù)據(jù)集中的數(shù)據(jù)分成3個(gè)部分.

      1)論文信息表:論文ID(主鍵)、論文名稱、作者、作者單位、發(fā)表刊物、影響因子、出版年份、參考文獻(xiàn)、引用次數(shù).

      2)論文作者關(guān)系表:論文ID(外鍵)、作者.

      將論文信息表中的作者(合作者)、作者單位進(jìn)行分詞處理并將結(jié)果存入論文作者關(guān)系表、作者信息表.當(dāng)有信息更新時(shí),系統(tǒng)將論文信息處理后分別存入論文信息表、論文作者關(guān)系表和作者信息表,并更新C值和IF值字段,進(jìn)而更新作者信息表的H值.

      從學(xué)者網(wǎng)(SCHOLAT)數(shù)據(jù)集中選取湯庸等100位學(xué)者在2006年1月1日—2010年12月31日5年共2 513篇論文進(jìn)行量化,從中剔除了引用次數(shù)為0的論文373篇,實(shí)際參加測試的論文數(shù)目為2 140篇,實(shí)驗(yàn)所需期刊影響因子數(shù)據(jù)來源于中國科技期刊引證報(bào)告(核心版)和維普資訊網(wǎng).實(shí)驗(yàn)結(jié)果顯示量化模型有效.因SCHOLAT數(shù)據(jù)集目前不包括英文文獻(xiàn),導(dǎo)致總體量化值偏低,但與期望值相似.按職務(wù)量化求均值后的結(jié)果如表1所示.

      表1 學(xué)者成果量化值Table 1 Quantify the achievements of a scholar

      3.2 概率主題模型實(shí)驗(yàn)

      實(shí)驗(yàn)中,設(shè)定 Gibbs算法的迭代次數(shù)是1 000次,經(jīng)多次實(shí)驗(yàn),Dirichlet的先驗(yàn)參數(shù)α和β取值為α=20/K,β=0.01,起到了平滑數(shù)據(jù)的作用.采用Perplexity評估方法(如式(5)所示)確定最佳主題個(gè)數(shù)T=200,如圖2所示.在SCHOLAT數(shù)據(jù)集上將作者全部文章的標(biāo)題和摘要合并后分詞,將分詞后的詞項(xiàng)集合和最佳T值作為LDA算法的輸入項(xiàng),得到每個(gè)作者論文的潛在主題集合,將每個(gè)潛在主題下概率最大的詞項(xiàng)提取出來構(gòu)成每個(gè)作者研究方向向量Tid,并將每個(gè)主題的概率分布值作為其在向量Pid中的權(quán)值.

      式中:Nd為文本d的長度,p(dd)是待測試模型產(chǎn)生文檔dd的概率.

      圖2 主題個(gè)數(shù)與困惑度的變化關(guān)系Fig.2 Relation of number of topics and perplexity

      3.3 查詢擴(kuò)展及相關(guān)度計(jì)算實(shí)驗(yàn)

      從論文庫中抽取成果量化值大于5的計(jì)算機(jī)相關(guān)研究方向的100個(gè)作者的2 513篇論文,將每一個(gè)作者名下的文章標(biāo)題和摘要合并成一篇文檔,則參與測試的文檔數(shù)目為100,然后對100篇文檔進(jìn)行分詞,去掉停用詞等沒有實(shí)際意義的信息后,共175 910個(gè)詞項(xiàng)參與實(shí)驗(yàn),編寫實(shí)驗(yàn)源程序建立詞項(xiàng)-文檔共生矩陣C,使用Lanczos算法計(jì)算SVD,對所建立的高維稀疏的詞項(xiàng)-文檔矩陣分解降維.實(shí)驗(yàn)取得最佳K值,K=53 853,計(jì)算并輸出Ck,進(jìn)而輸出A=CkCTk,則矩陣A為詞項(xiàng)-詞項(xiàng)的相關(guān)度矩陣,Auv表示詞項(xiàng)u和詞項(xiàng)v的相關(guān)度權(quán)值.查詢時(shí)將與用戶關(guān)鍵詞相關(guān)度最大的前200個(gè)詞項(xiàng)作為擴(kuò)展詞項(xiàng)加入到用戶的查詢中,其中用戶的原始查詢詞項(xiàng)最能直接反映用戶查詢意圖,其權(quán)值置為最大.在相關(guān)度計(jì)算方面,以單個(gè)詞項(xiàng)查詢作為測試條件,選擇查詢擴(kuò)展向量與作者主題向量進(jìn)行向量夾角余弦系數(shù)計(jì)算時(shí),系統(tǒng)的響應(yīng)時(shí)間為132 ms.這顯然比設(shè)計(jì)成與矩陣Ck中的每一列列向量進(jìn)行向量夾角余弦系數(shù)計(jì)算的方案的系統(tǒng)響應(yīng)時(shí)間要少很多.因此,在查全率和查準(zhǔn)率近似的情況下,前者大大降低了計(jì)算的復(fù)雜度,提高了系統(tǒng)的響應(yīng)時(shí)間.

      4 結(jié)束語

      提出了一個(gè)面向?qū)W術(shù)社區(qū)的專家推薦系統(tǒng)模型,給出了系統(tǒng)的總體架構(gòu)及各個(gè)部分的詳細(xì)設(shè)計(jì)方案,在SCHOLAT數(shù)據(jù)集上做實(shí)驗(yàn)驗(yàn)證了模型的有效性.其中,成果量化模型和概率主題模型部分均為離線運(yùn)算,降低了系統(tǒng)的壓力.不足之處是成果量化模型中選擇參與計(jì)算的成果時(shí)間跨度較小且沒有考慮合作者的權(quán)重問題,主要原因是目前SCHOLAT數(shù)據(jù)集有些數(shù)據(jù)不夠充分,以及無法批量獲得論文的通信作者信息,下一步應(yīng)用時(shí)將主要解決這些問題.

      [1]HUANG J,ZHUANG Z,LI J,et al.Collaboration over time:characterizing and modeling network evolution[C]//Proceedings of the International Conference on Web Search and Web Data Mining.Palo Alto,USA,2008:107-116.

      [2]陳國華,湯庸,彭澤武,等.基于學(xué)術(shù)社區(qū)的學(xué)術(shù)搜索引擎設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2011,38(8):171-175.CHEN Guohua,TANG Yong,PENG Zewu,et al.Design of an academic search engine based on the scholar community[J].Computer Science,2011,38(8):171-175.

      [3]WANG Chong,BLEI D M.Collaborative topic modeling for recommending scientific articles[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA,2011:448-456.

      [4]CHEN H H,GOU Liang,ZHANG Xiaolong,et al.Collabseer:a search engine for collaboration discovery[C]//Proceedings of JCDL.Ottawa,Canada,2011:231-240.

      [5]HIRSCH J E.An index to quantify an individual’s scientific research output[J].The National Academy of Sciences of the USA,2005,102(46):16569-16572.

      [6]POPOV S B.A parameter to quantify dynamics of a researcher’s scientific activity[EB/OL].[2011-11-03].http://arxiv.org/abs/physics/0508113.

      [7]BATISTA P D,CAMPITELI M G,KINOUCHI O,et al.A complementary index to quantify an individual’s scientific research output[J].Scientometrics,2006,68(1):179-189.

      [8]BORNMANN L,DANIEL H D.Does the h-index for ranking of scientists really work?[J].Scientometrics,2005,65(3):391-392.

      [9]BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

      [10]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.

      XU Ge,WANG Houfeng.The development of topic models in natural language processing[J].Chinese Journal of Computers,2011,34(8):1423-1436.

      [11]DEERWESTER S,DUMAIS S T,LANDAUER T K,et al.Indexing by latent semantic analysis[J].Journal of The American Society for Information Science,1990,41(6):391-407.

      猜你喜歡
      詞項(xiàng)文檔向量
      向量的分解
      有人一聲不吭向你扔了個(gè)文檔
      聚焦“向量與三角”創(chuàng)新題
      自然種類詞項(xiàng)二難、卡茨解決與二維框架
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      英語詞項(xiàng)搭配范圍及可預(yù)見度
      普兰县| 台东县| 三门县| 定陶县| 雅安市| 黎川县| 兴业县| 邹城市| 林口县| 察雅县| 晋江市| 太白县| 岐山县| 古蔺县| 德江县| 弋阳县| 浪卡子县| 马尔康县| 延川县| 石河子市| 苍溪县| 子长县| 苏州市| 岳阳市| 新丰县| 利津县| 苍南县| 通辽市| 云安县| 桐城市| 友谊县| 温泉县| 始兴县| 县级市| 左权县| 隆子县| 白山市| 阿瓦提县| 丰宁| 汤阴县| 曲靖市|