• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于ID3決策樹改進(jìn)算法的稿刊推薦研究

      2017-11-02 11:34賈笛笛陳智勇
      軟件導(dǎo)刊 2017年10期
      關(guān)鍵詞:數(shù)據(jù)挖掘

      賈笛笛++陳智勇

      摘要:在科研工作者的科研活動(dòng)中,發(fā)表論文是其中非常重要的部分。論文承載著科研工作者的研究成果,只有發(fā)表在出版物上,才能得到世人的認(rèn)可?,F(xiàn)有稿刊推薦研究的推薦結(jié)果少,而且推薦結(jié)果的準(zhǔn)確度不高,投稿人很難從推薦結(jié)果中發(fā)現(xiàn)適合投稿的期刊。鑒于此,提出利用改進(jìn)的ID3決策樹算法對(duì)期刊與稿件相關(guān)度進(jìn)行分類建模,利用得到的分類規(guī)則為投稿人推薦合適期刊的方法。實(shí)驗(yàn)結(jié)果表明,基于ID3決策樹改進(jìn)算法的稿刊推薦方法推薦準(zhǔn)確率較高。

      關(guān)鍵詞:稿刊推薦;數(shù)據(jù)挖掘;ID3算法;多值邏輯;KMeans聚類

      DOIDOI:10.11907/rjdk.171695

      中圖分類號(hào):TP312文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):16727800(2017)010004205

      0引言

      稿刊推薦是向有投稿需求的科研工作者推薦適合其投稿的期刊。國(guó)外關(guān)于出版物與稿件的研究主要有兩個(gè)方面:推薦與科研工作者研究領(lǐng)域相符的文獻(xiàn)[12];推薦與科研工作者稿件研究領(lǐng)域相符的出版物[38]。Luong Hiep、Klamma R、Luong H等[34]通過(guò)社交網(wǎng)絡(luò)的方法,探索網(wǎng)絡(luò)中與稿件作者在同一個(gè)研究領(lǐng)域內(nèi)的其他稿件作者所出版過(guò)的刊物;2015年,Medvet Eric、Bartoli Alberto[5]建立期刊查詢系統(tǒng),通過(guò)稿件標(biāo)題和摘要進(jìn)行期刊推薦;2015年,Anas Alzoghbi[6]提出將研究者簡(jiǎn)介作為多元線性回歸問(wèn)題的模型,利用元數(shù)據(jù)實(shí)現(xiàn)有效的出版物推薦;2016年,Tran Hung Nghiep、Huynh Tin[7]使用研究人員引用的出版物構(gòu)建數(shù)據(jù)樣本,進(jìn)行出版物推薦。國(guó)內(nèi)關(guān)于稿刊推薦的研究方法,主要是建立稿件與期刊研究方向的關(guān)系。2014年,徐鎮(zhèn)[9]提出基于垂直搜索引擎的論文投稿推薦系統(tǒng)研究;2014年,秦臻等[10]提出基于合著作者網(wǎng)絡(luò)的期刊推薦方法;2015年,王亮等[11]提出基于主題模型文本挖掘的期刊推薦方法,大大提升了期刊推薦的準(zhǔn)確度。

      上述出版物推薦方法為有投稿需求的用戶提供了方便,但也存在不足之處,總結(jié)如下:

      (1)現(xiàn)有出版物推薦方法數(shù)據(jù)樣本有限。已有的推薦方法是建立與稿件作者具有合著關(guān)系的稿件作者關(guān)系網(wǎng),這樣導(dǎo)致推薦結(jié)果的數(shù)量少,有可能科研工作者真正需要的出版物并不包含在其中。

      (2)現(xiàn)有出版物推薦方法沒(méi)有考慮出版物與稿件的關(guān)聯(lián)度?,F(xiàn)有推薦方法沒(méi)有量化推薦的出版物與稿件的研究方向是否一致,沒(méi)有考慮出版物與稿件的質(zhì)量是否相符。如果推薦的出版物質(zhì)量與稿件質(zhì)量不符合,稿件很難成功出版。

      (3)現(xiàn)有出版物推薦方法不適合沒(méi)有投稿經(jīng)驗(yàn)的科研工作者?;谏缃痪W(wǎng)絡(luò)的出版物推薦方法是建立與稿件作者具有合著關(guān)系的作者關(guān)系網(wǎng)。沒(méi)有投稿經(jīng)歷的科研工作者無(wú)法得到合著關(guān)系網(wǎng),也就無(wú)法得到推薦結(jié)果。

      1材料與方法

      分析整理JCR(Journal Citation Reports)中所有的SCI(Science Citation Index)期刊數(shù)據(jù),建立期刊數(shù)據(jù)庫(kù)。利用多值邏輯理論改進(jìn)傳統(tǒng)ID3算法,并利用改進(jìn)后的ID3決策樹算法,對(duì)期刊數(shù)據(jù)樣本分類,提取分類規(guī)則,然后按照提取的分類規(guī)則進(jìn)行稿刊推薦。

      1.1ID3算法分析

      1966年,Hunt E B在概念學(xué)習(xí)系統(tǒng)CLS(Care Life of Science)[12]中首次應(yīng)用了決策樹方法,是決策樹發(fā)展的基礎(chǔ);1975年,J.Ross Quinlan提出了一個(gè)決策樹算法,稱作ID3算法[13],后來(lái)的決策樹算法都是在ID3算法基礎(chǔ)上得到的。ID3算法利用信息增益[14]的度量標(biāo)準(zhǔn)選擇結(jié)點(diǎn)屬性,算法學(xué)習(xí)能力較強(qiáng),適合處理大規(guī)模數(shù)據(jù)。ID3算法原理簡(jiǎn)單易懂,可以生成易于理解的分類規(guī)則,而且算法的分類速度快[15]。但I(xiàn)D3算法也有自身缺陷:對(duì)連續(xù)型數(shù)據(jù)無(wú)法處理,對(duì)屬性值缺失的數(shù)據(jù)也難以解決;在選擇信息增益時(shí),一般選擇取值較多的屬性。

      針對(duì)ID3算法的不足及本研究需要,現(xiàn)從以下兩個(gè)方面加以改進(jìn):

      (1)連續(xù)屬性離散化。因?yàn)镮D3算法無(wú)法處理連續(xù)型變量,但期刊與論文相關(guān)度的數(shù)據(jù)樣本中,數(shù)據(jù)屬性是連續(xù)型數(shù)據(jù),如期刊刊登范圍與論文研究方向相關(guān)度、5年影響因子和載文量。

      (2)確定屬性取值。一般決策樹算法處理數(shù)據(jù)集的類別屬性是布爾類型的數(shù)據(jù),只有是與否的對(duì)立情況,但在現(xiàn)實(shí)生活中兩個(gè)對(duì)立的取值并不能解決問(wèn)題。由于原有的ID3算法中決策屬性的取值個(gè)數(shù)不一,造成分類后的決策樹分類不均,會(huì)產(chǎn)生異常點(diǎn)或孤立點(diǎn)。

      1.2多值邏輯對(duì)ID3算法的改進(jìn)

      多值邏輯是一種非經(jīng)典的邏輯系統(tǒng)。在經(jīng)典邏輯中,每個(gè)命題取值為真或假。在客觀世界中,有些事物無(wú)法由二值邏輯描述,于是產(chǎn)生了多值邏輯[16]。多值邏輯指一切邏輯值的取值數(shù)大于2的邏輯,它由二值邏輯擴(kuò)展而來(lái)。

      ID3算法依據(jù)多組決策屬性的值判斷一個(gè)實(shí)例屬于某個(gè)類別,若此時(shí)屬性的取值用集合表示,記成V={v1,v2,v3,…,vm}。假設(shè)m=2,屬性取值為2,屬于二值邏輯,只有一個(gè)為真,另一個(gè)為假。在稿刊推薦中,若用“1或0”兩個(gè)值表征屬性的取值,分類結(jié)果將生成只有兩個(gè)分枝的決策樹,造成樹的深度過(guò)大、分枝過(guò)少。若m=N,N為一個(gè)足夠大的值,導(dǎo)致生成的決策樹分枝過(guò)多。由生成的決策樹得到大量的分類規(guī)則使得ID3算法的使用變得復(fù)雜。

      屬性取值個(gè)數(shù)決定著ID3決策樹算法生成的決策樹模型分枝,因此要控制屬性取值的個(gè)數(shù)。本文利用多值邏輯理論改進(jìn)ID3算法,以限定屬性取值的個(gè)數(shù)。

      以期刊與稿件關(guān)聯(lián)度分類問(wèn)題為例,利用多值邏輯改進(jìn)ID3算法的步驟如下:

      (1)計(jì)算類別屬性的信息熵。若期刊信息樣本集合S中有n個(gè)樣本。利用多值邏輯理論將期刊與稿件的相關(guān)度信息的類別屬性分為0,1之間的m個(gè)取值:v1,v2,v3,…,vm。此時(shí)類別屬性C有m個(gè)不同的取值即Ci(i=1,2,…,m)。設(shè)si為Ci中的樣本數(shù),可得樣本集S對(duì)應(yīng)類別屬性C的信息熵為:endprint

      I(s1,s2,…,sm)=-∑mi=1pilog2(pi)(1)

      其中,Pi表示任意樣本屬于分類Ci的概率。

      (2)計(jì)算決策屬性的信息熵。選擇樣本集S中一個(gè)決策屬性A,若A有k個(gè)不同的取值,決策屬性A將樣本集合S劃分為k類別。由此,屬性A劃分樣本集S的信息熵為:

      E(A)=-∑kj=1A1j+A2j+…+AmjnI(sj)(2)

      其中,Aij(i=1,2,…,m;j=1,2,…,k)表示子集Sj中類Ci的樣本數(shù)量。因?yàn)闆Q策屬性的取值是連續(xù)變量,本文利用多值邏輯理論離散化決策屬性的值。首先利用KMeans聚類算法將決策屬性的值分組,按照多值邏輯的m個(gè)值:v1,v2,v3,…,vm,對(duì)每個(gè)分組分別賦值。

      (3)計(jì)算信息增益。這樣可以根據(jù)以上信息計(jì)算屬性A的信息增益,公式如下:

      Gain(A)=I(S)-E(A)(3)

      最后選擇信息增益最大的決策屬性作為樹的根結(jié)點(diǎn),由此結(jié)點(diǎn)產(chǎn)生多個(gè)分枝,形成子樹。每個(gè)子樹根結(jié)點(diǎn)的選擇也如此,以遞歸的方式最終生成一棵完整的樹。

      1.3稿刊推薦數(shù)據(jù)準(zhǔn)備

      本文數(shù)據(jù)來(lái)源于ISI(Institute for Scientific Information)2015年出版的JCR。JCR對(duì)收錄的全部SCI期刊數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、運(yùn)算,并對(duì)每種期刊定義了影響因子、5年影響因子、即引指數(shù)、載文量、引半衰期等指數(shù)。為了方便科研工作者的投稿需要,利用網(wǎng)絡(luò)獲取期刊網(wǎng)址和審稿周期。本文花費(fèi)大量的時(shí)間對(duì)期刊引證報(bào)告中期刊的研究方向進(jìn)行劃分,由于時(shí)間和個(gè)人能力有限只完成了計(jì)算機(jī)方向相關(guān)工作。計(jì)算機(jī)領(lǐng)域的期刊劃分是依據(jù)中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF,China Computer Federation)中研究方向分類要求進(jìn)行分類。分類后建立期刊研究領(lǐng)域與論文研究方向之間的關(guān)系,作為數(shù)據(jù)樣本的一個(gè)數(shù)據(jù)屬性(期刊與論文研究方向關(guān)聯(lián)度屬性,J_Category)。

      期刊引證報(bào)告是世界權(quán)威性的綜合數(shù)據(jù)庫(kù),涵蓋了世界上大部分影響力較大的科技期刊,集合了各學(xué)科的重要研究成果。因此,利用JCR建立期刊庫(kù),滿足用戶需求。5年影響因子和載文量是期刊影響力和發(fā)展程度的重要指標(biāo)[17]。為了建立期刊與稿件之間的關(guān)系,選取期刊引證報(bào)告中期刊的5年影響因子和載文量作為樣本數(shù)據(jù)的屬性。在數(shù)據(jù)樣本中,5年影響因子的屬性名為J_IF,載文量的屬性名為J_Articles。整理好的期刊數(shù)據(jù)如表1所示。

      2實(shí)驗(yàn)與結(jié)果

      本文利用改進(jìn)后的ID3算法進(jìn)行稿刊推薦實(shí)驗(yàn)。以《計(jì)算機(jī)學(xué)報(bào)》上刊載的論文《樸素貝葉斯分類中的隱私保護(hù)方法研究》為例,影響因子范圍定為0.6~2.6,論文關(guān)鍵詞:數(shù)據(jù)挖掘、隱私保護(hù)、樸素貝葉斯分類、隨機(jī)處理、特征重構(gòu)。

      2.1數(shù)據(jù)預(yù)處理

      通過(guò)計(jì)算期刊的刊登范圍標(biāo)簽與稿件關(guān)鍵詞標(biāo)簽的相似度,近似計(jì)算期刊與稿件之間的研究方向相關(guān)度J_Category的值。{A1,A2,A3,…,Am}表示期刊A的標(biāo)簽集合,{B1,B2,B3,…,Bn}表示稿件B的關(guān)鍵詞標(biāo)簽集合,{a1,a2,a3,…,am}表示期刊A向量,{b1,b2,b3,…,bn}表示稿件B向量,k=min(m,n)。由于期刊的標(biāo)簽數(shù)量大,期刊標(biāo)簽與稿件關(guān)鍵字匹配完成后,按照大小降序排列,截取前n個(gè)值定為向量B,然后計(jì)算它們之間的標(biāo)簽相似度。假如稿件B的關(guān)鍵詞標(biāo)簽為{數(shù)據(jù)挖掘,隱私保護(hù),樸素貝葉斯分類,隨機(jī)處理,特征重構(gòu)},期刊A的標(biāo)簽為{數(shù)據(jù)挖掘,分類,估計(jì),熵,樸素貝葉斯分類,相關(guān)性分組,關(guān)聯(lián)規(guī)則,聚類,特征重構(gòu),決策樹}。A與B匹配之后用向量形式表示為:A(1,1,1,1,1),B(1,0,0,0,1,0,0,0,1,0)。將B向量倒序排列,截取和A一樣的長(zhǎng)度,得B(1,1,1,0,0)。利用式(4)計(jì)算A與B的相似度結(jié)果為0.77,然后按照此方式獲得J_Category的其它值。

      Sim(A,B)=∑nk=0ak×bk∑nk=0a2k∑nk=0b2k(4)

      利用KMeans算法對(duì)研究方向相關(guān)度(J_Category)、5年影響因子(J_IF)、載文量(J_Articles)進(jìn)行聚類,聚類結(jié)果如圖1、圖2、圖3所示。其中J_Category聚為5類,每個(gè)類別按照多值邏輯的5個(gè)值即1、0.75、0.5、0.25、0

      圖1研究方向聚類結(jié)果(J_Category)

      圖2載文量聚類結(jié)果(J_Articles)

      圖3影響因子聚類結(jié)果(J_IF)

      依次賦值。J_Articles屬性一部分取值聚為4類,每個(gè)類別按照多值邏輯的4個(gè)值0.75,0.5,0.25,0依次賦值,J_Articles屬性剩余的數(shù)據(jù)賦值為1。選取J_IF在0.6~2.6范圍內(nèi)的所有值聚為4類,范圍外的所有值賦值為0,聚類后的每個(gè)類別按照多值邏輯的值即1、0.75、0.5、0.25進(jìn)行賦值。利用多值邏輯處理后的數(shù)據(jù)樣本如表2所示。

      2.2數(shù)據(jù)建模

      利用Java語(yǔ)言在Eclipse平臺(tái)實(shí)現(xiàn)改進(jìn)后的ID3算法,并生成決策樹模型,如圖4所示。本文分類結(jié)果的準(zhǔn)確度由Weka[18]工具分析,如圖5所示。由圖4可得決策模型分類規(guī)則,按照分類規(guī)則獲取數(shù)據(jù)集中類別屬性值大于0.25的所有期刊數(shù)據(jù),輸出結(jié)果如圖6所示。投稿人可以將圖6的輸出結(jié)果作為參考選擇適合自己的期刊進(jìn)行投稿。

      3結(jié)果分析

      本文運(yùn)用多值邏輯理論改進(jìn)了ID3算法,使原本雜亂無(wú)序的屬性值變得有規(guī)律可循,使得生成的決策樹模型層數(shù)減少,而且分類更加均勻合理。本文從3個(gè)方面對(duì)改進(jìn)ID3算法的分類結(jié)果進(jìn)行分析:

      (1)改進(jìn)前后ID3算法對(duì)比。改進(jìn)前的ID3算法對(duì)連續(xù)型數(shù)據(jù)的數(shù)據(jù)樣本無(wú)法處理。從圖4可以看出,利用多值邏輯改進(jìn)ID3算法生成的決策樹,分布均勻,樹的分枝減少,從眾多的分枝減少到有限的幾個(gè)分枝,屬性取值也從無(wú)序變?yōu)橛行?。endprint

      (2)期刊與稿件相關(guān)度。改進(jìn)ID3算法生成的決策樹以研究方向相關(guān)度(J_Category)作為樹的根節(jié)點(diǎn),將該屬性作為更重要的屬性,符合稿刊推薦首先要求期刊與稿件研究方向一致的條件。

      (3)準(zhǔn)確度。如圖5所示,由Weka平臺(tái)輸出結(jié)果可知,對(duì)333個(gè)實(shí)例進(jìn)行分析,有321個(gè)正確的分類結(jié)果,5個(gè)錯(cuò)誤結(jié)果,分類準(zhǔn)確率為96.39%。分類準(zhǔn)確率較高,因此改進(jìn)后的ID3算法適合稿刊推薦的分類工作。

      4結(jié)語(yǔ)

      針對(duì)現(xiàn)有期刊推薦方法推薦結(jié)果準(zhǔn)確率不高的問(wèn)題,將多值邏輯理論改進(jìn)的ID3決策樹算法應(yīng)用到稿刊推薦研究中,節(jié)約了投稿人大量的科研時(shí)間。本文利用改進(jìn)的ID3決策樹算法處理海量數(shù)據(jù),符合投稿人的推薦結(jié)果更多,推薦結(jié)果準(zhǔn)確率也高。但由于時(shí)間有限,本文僅開展了計(jì)算機(jī)領(lǐng)域相關(guān)工作。在后續(xù)工作中,將在期刊數(shù)據(jù)庫(kù)中增加更多核心期刊,擴(kuò)大數(shù)據(jù)樣本,為投稿人提供更多選擇;同時(shí)增加每個(gè)期刊對(duì)應(yīng)的標(biāo)簽庫(kù),提高推薦的準(zhǔn)確率。

      參考文獻(xiàn)參考文獻(xiàn):

      [1]PERA MARIA SOLEDAD,NG YIU KAI.A personalized recommendation system on scholarly publications[C].Proceedings of the 2011 ACM International Conference on Information and Knowledge Management, CIKM'11,Glasgow,2011:21332136.

      [2]LE ANH VU,HOANG HAI VO,TRAN HUNG NGHIEP,et al.SciRecSys: a recommendation system for scientific publication by discovering keyword relationships[J].Lecture Notes in Computer Science,2014, 8733:7282.

      [3]KLAMMA R,CUONG P M,CAO Y.You never walk alone: recommending academic events based on social network analysis [M].Complex Sciences. Springer Berlin Heidelberg,2009:657670.

      [4]LUONG HIEP,HUYNH TIN,GAUCH SUSAN,et al.Exploiting social networks for publication venue recommendations[C].Proceedings of the International Conference on Knowledge Discovery and Information Retrieval,KDIR, Barcelona,2012:239245.

      [5]MEDVET ERIC,BARTOLI ALBERTO,PICCININ GIULIO.Publication venue recommendation based on paper abstract[C].Proceedings of International Conference on Tools with Artificial Intelligence,ICTAI,Limassol Cyprus,2014:10041010.

      [6]ANAS ALZOGHBI,VICTOR ANTHONY ARRASCUE AYALA,PETER MFISCHER,et al.PubRec:recommending publications based on publicly available metadata[C].Proceedings of the LWA 2015 Workshops: KDML, FGWM, IR, and FGDB,Trier,Germany,2015:1118.

      [7]TRAN HUNG NGHIEP,HUYNH TIN,HOANG KIEM.A potential approach to overcome in scientific publication recommendation[C].Proceedings of 2015 IEEE International Conference on Knowledge and Systems Engineering, Ho Chi Minh City,2015:310313.

      [8]HUYNH TIN,NGUYENTRACTHUC,TRAN HUNGNGHIEP.Exploiting social relations to recommend scientific publications[J].Lecture Notes in Computer Science,2016,9795:182192.

      [9]徐鎮(zhèn).基于垂直搜索引擎的論文投稿推薦系統(tǒng)研究[D].蘭州:蘭州大學(xué),2010.

      [10]秦臻.學(xué)術(shù)社會(huì)網(wǎng)絡(luò)建模和學(xué)術(shù)資源推薦方法研究[D].北京:北京郵電大學(xué),2015.

      [11]王亮,張紹武.基于主題模型的文本挖掘的研究[D].大連:大連理工大學(xué),2015.

      [12]PORTER BW,BARESS E R,HOLTE R.Concept learning and heuristic classification in weak theory domains[J].Artificial Intelligence,1989,45:229263.

      [13]QUINLAN J R.Induction of decision trees[J].Machine learning,1986(1):81106.

      [14]王小巍,蔣玉明.決策樹ID3算法的分析與改進(jìn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(9):30693076.

      [15]黃愛(ài)輝,陳湘濤.決策樹ID3算法的改進(jìn)[J].計(jì)算機(jī)工程與科學(xué),2009,31(6):109111.

      [16]劉任任,歐陽(yáng)建權(quán).多值邏輯函數(shù)結(jié)構(gòu)理論研究[M].北京:科學(xué)出版社,2010:220.

      [17]陶維麗.科技期刊的綜合評(píng)價(jià)比較研究[D].武漢:華中師范大學(xué).2012:130.

      [18]孟曉明,陳慧萍,張濤.基于WEKA平臺(tái)的Web事務(wù)聚類算法的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(6):13321334.

      責(zé)任編輯(責(zé)任編輯:孫娟)endprint

      猜你喜歡
      數(shù)據(jù)挖掘
      數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
      高級(jí)數(shù)據(jù)挖掘與應(yīng)用國(guó)際學(xué)術(shù)會(huì)議
      高級(jí)數(shù)據(jù)挖掘與應(yīng)用國(guó)際學(xué)術(shù)會(huì)議
      五大连池市| 金门县| 收藏| 驻马店市| 赣州市| 九龙坡区| 延津县| 久治县| 南部县| 通道| 深泽县| 三门县| 大庆市| 西城区| 普兰店市| 绥化市| 深水埗区| 航空| 叶城县| 区。| 镇坪县| 囊谦县| 辽阳市| 桦甸市| 安平县| 板桥市| 札达县| 黑水县| 泰安市| 常宁市| 永康市| 南陵县| 雷波县| 永安市| 岗巴县| 曲沃县| 阿拉尔市| 凤山县| 新干县| 清新县| 车致|