• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于引文網(wǎng)絡入度分布的投稿推薦研究

      2019-08-15 02:10:56譚智敏劉萬國2沈洪杰郭淑艷
      中華醫(yī)學圖書情報雜志 2019年4期
      關鍵詞:冪律概率分布概率

      譚智敏,劉萬國2,沈洪杰,郭淑艷

      助力重點學科教學及科研活動是高校圖書館開展學科服務工作的重點。投稿推薦是學科服務中關鍵的服務項目,影響到科研成果被接受的速度和科研影響力。目前投稿推薦算法相關研究比較少,主要是對引文網(wǎng)絡數(shù)據(jù)進行分析[1-3]。引文網(wǎng)絡中論文也被稱為“引文網(wǎng)絡的入度”。引文網(wǎng)絡入度在不同期刊上的分布包含引文網(wǎng)絡入度的基本特征,對引文網(wǎng)絡入度的研究有利于從根本上簡化投稿推薦算法的計算量、增加投稿推薦的精度。

      目前已有的引文網(wǎng)絡入度分布研究表明[4-6],文獻分布已經(jīng)從滿足冪律分布[7-9]逐漸出現(xiàn)偏離冪律分布的現(xiàn)象[10]。對于偏離冪律分布的研究主要是對冪律分布形式上的修正。對于偏離冪律分布的現(xiàn)象給予一個微觀模型解釋,有利于深入了解引文網(wǎng)絡入度分布的變化機制以及設計更精確的投稿推薦算法。

      1 研究方法及模型的建立

      本文基于國內(nèi)9所農(nóng)業(yè)類大學發(fā)表論文的統(tǒng)計數(shù)據(jù),研究建立一個引文網(wǎng)絡入度分布模型,是為了方便研究引文網(wǎng)絡中偏離冪律分布的機制,有利于建立或修改文獻推薦模型,提供更好的文獻推薦或者投稿推薦。

      1.1 數(shù)據(jù)采集及研究方法

      本文以Web of Science核心合集作為數(shù)據(jù)檢索平臺,對中國農(nóng)業(yè)大學等9所農(nóng)業(yè)類大學發(fā)表的論文進行檢索,共得到94 836條記錄并下載。將各高校發(fā)文按期刊分類分別保存,以備后續(xù)數(shù)據(jù)統(tǒng)計分析和擬合。數(shù)據(jù)采集時間為2018年7月9日。

      1.2 發(fā)表期刊分布統(tǒng)計模型的建立

      圖1顯示了期刊發(fā)表概率的統(tǒng)計分布,其中(a)部分是正常坐標的統(tǒng)計分布,(b)部分是雙對數(shù)坐標的統(tǒng)計分布。圖1中的藍圈是數(shù)據(jù)統(tǒng)計結(jié)果,紅線是擬合結(jié)果。

      對Web of Science核心合集下載的論文數(shù)據(jù)按發(fā)文期刊做統(tǒng)計分布,并按照期刊發(fā)文的數(shù)量做降序排列并做歸一化處理,得到發(fā)表期刊的概率分布,可以得到如圖1(a)中藍色圓圈描述的數(shù)據(jù),數(shù)據(jù)結(jié)果顯示概率密度隨著期刊序號的增加快速衰減,呈冪律分布。對于這類結(jié)果,早有學者開始研究,而近期的研究結(jié)果又出現(xiàn)一些偏離冪律分布的情況。如果數(shù)據(jù)分布滿足冪律分布,那么對概率分布和期刊序號分別做對數(shù),結(jié)果應該是一條直線。對圖1(a)中的數(shù)據(jù)取對數(shù),結(jié)果如圖1(b)中藍色圓圈,紅線是根據(jù)冪律分布擬合的結(jié)果,數(shù)據(jù)結(jié)果表明排名靠后的部分是偏離直線的。在正常坐標下統(tǒng)計數(shù)據(jù)和擬合結(jié)果差別較小,但在取完對數(shù)后可以明顯看出其偏離冪律分布。已有研究者開始關注偏離冪律分布的現(xiàn)象,然而到目前為止還沒找到一個合適的模型能精確擬合和解釋偏離冪律分布的現(xiàn)象。為了更好地解釋數(shù)據(jù),本文通過抽象論文發(fā)表狀態(tài)和狀態(tài)轉(zhuǎn)移速率,建立了一個類似動力學過程的模型,并得到了擴展指數(shù)模型和指數(shù)模型求和的擬合方程,可以有很好的擬合效果。

      圖1期刊發(fā)表概率的統(tǒng)計分布

      本文根據(jù)論文發(fā)表的狀態(tài)和狀態(tài)之間的轉(zhuǎn)移概率來推導論文發(fā)表的概率分布公式。因為論文投稿、最終發(fā)表到哪一種期刊是受很多隨機因素影響的,如實驗數(shù)據(jù)的質(zhì)量、文章的切入點、寫作質(zhì)量、選擇的投稿期刊、審稿人對研究方向是否感興趣等。因此這里先假定論文寫完后,最終一定會發(fā)表,也就是說本文的研究對象是所有指定高校發(fā)表的論文總體。由于每所高校發(fā)文的期刊會有一個統(tǒng)計分布,把這個統(tǒng)計分布結(jié)果按期刊發(fā)文數(shù)量做降序排列就得到了一個固定的期刊序列,所以假定任何一個高校都有一個期刊序列,一般情況不同高校對應的序列是不同的,并且也有可能是隨時間變化的。在論文完成后,按照上面假定的期刊序列嘗試投稿,如果論文在當前期刊會有一定的概率發(fā)表,如果沒有發(fā)表,那就按概率隨機轉(zhuǎn)移到下一期刊,直到論文被發(fā)表,這樣就使期刊序列和時間演化相對應。論文在當前期刊上發(fā)表的概率用PA表示,未發(fā)表用PB表示,這樣就存在A和B兩個狀態(tài),分別代表在當前期刊上“發(fā)表”和“未發(fā)表”,從狀態(tài)A到狀態(tài)B存在一個概率轉(zhuǎn)移速率k1。

      因為不能確定高校最終發(fā)表期刊的序列,為了不失一般性,還需要定義一個逆向的遷移速率k-1,這樣論文發(fā)表的期刊統(tǒng)計分布就可以類似于動力學過程,建立模型如下:

      式中,A代表發(fā)表的狀態(tài),B代表未發(fā)表的狀態(tài)。通過以上模型可以寫出A和B的概率分布演化滿足的方程(1):

      (1)

      方程的初始條件如方程(2)所示:

      (2)

      即初始的時候論文處于未發(fā)表的狀態(tài)。然后根據(jù)方程(1)和(2),求解論文發(fā)表狀態(tài)的概率演化過程,其結(jié)果就等價于發(fā)表期刊的統(tǒng)計分布。根據(jù)方程(1)和(2)所描述的微分方程和初始條件可以得到解析解,B狀態(tài)的概率演化為:

      結(jié)果是指數(shù)形式。模型里面概率轉(zhuǎn)移速率是一個常數(shù)。而在真實情況下,高校中的每個個體可以近似看成一個常數(shù)。對于整個高校來說,k1和k-1有很多個可能的取值,這些取值滿足的概率分布用p(k1)來描述。為了簡化模型,假定k-1是不變的,所有需要變化的統(tǒng)計分布都等價地放在p(k1)中描述。這樣B狀態(tài)的概率演化就需要對所有可能的k1值進行積分:

      這個積分形式看起來比較復雜,并且一般不知道p(k1)的具體形式,所以沒有辦法直接計算或者擬合數(shù)據(jù),因此需要對其繼續(xù)簡化。當k1遠遠小于k-1時,被積分項中(k1+k-1)都可以直接簡化成k-1,k1的積分上限也可以用k-1代替,因此可以簡化成如下形式:

      上述積分形式可以進一步簡化成為e指數(shù)形式:

      PB(n)=A1e-k-1n

      式中A1是為了擬合數(shù)據(jù)需要變化的振幅,如果擬合的是概率,那么A1就對應著歸一化常數(shù)。

      當k1遠遠大于k-1時,B的概率演化就變成了一系列e指數(shù)的加權(quán)求和的形式,也可以用積分的形式表示:

      對于這個積分項,已經(jīng)有過相關研究,可以簡化成下面這樣一個擴展指數(shù)形式[11]:

      PB(n)=A2e-(k1n)β

      因此擬合方程可以近似寫成上面兩個公式的和:

      PB(n)=A1e-k-1n+A2e-(k1n)β

      (3)

      式中A1、A2、β是擬合參數(shù),其中β是處于0到1之間的數(shù)。可以用上述擴展指數(shù)模型對各科研機構(gòu)發(fā)表期刊的統(tǒng)計結(jié)果進行擬合。

      2 數(shù)據(jù)統(tǒng)計及擬合

      本文采用上述國內(nèi)9所高校的94 836條記錄驗證模型,將這些記錄按學校分類,再按發(fā)表期刊進行統(tǒng)計。

      2.1 發(fā)表期刊概率分布及擴展指數(shù)模型擬合

      對每所高校的發(fā)文期刊做出統(tǒng)計分布,并用公式(3)擬合。其中,中國農(nóng)業(yè)大學的數(shù)據(jù)擬合結(jié)果如圖2所示,可以看出數(shù)據(jù)在正常坐標下擬合很好。為了查看更精細的擬合效果,我們在圖2(b)給出了雙對數(shù)坐標的擬合結(jié)果,在雙對數(shù)坐標下擬合效果也很好。為了驗證方程的普適性,用這個方程分別對9所高校的發(fā)文數(shù)據(jù)進行擬合,擬合結(jié)果如圖3所示。圖3中藍色點是統(tǒng)計結(jié)果,紅線是擬合曲線;學校的排序不分先后,按英文名稱的字母排序。為了方便直觀地查看擬合結(jié)果質(zhì)量,我們直接采用雙對數(shù)坐標給出擬合結(jié)果。從圖3中可以看出,各個學校的數(shù)據(jù)擬合效果都很好,沒有出現(xiàn)擬合結(jié)果和統(tǒng)計數(shù)據(jù)偏離的情況。

      圖2中國農(nóng)業(yè)大學發(fā)文期刊數(shù)據(jù)擴展指數(shù)模型的擬合效果

      圖3 9所高校發(fā)表期刊的統(tǒng)計結(jié)果及其擬合曲線

      2.2 擴展指數(shù)模型的擬合誤差

      為了更精確量化描述模型的擬合效果,我們采用了幾個常用的誤差值來分析,并與冪律分布對比。采用的幾個誤差項分別是誤差的平方和(SSE)、Pearson相關系數(shù)(R)和均方根誤差(RMSE)。

      誤差平方和(SSE)又稱“殘差平方和”,根據(jù)觀察值擬合適當?shù)哪P秃?,余下未能擬合部分稱為“殘差”,對所有“殘差”平方之后求和就得到了擬合的SSE值,其大小可能表明函數(shù)擬合得好壞。其計算公式如下:

      式中,yi是統(tǒng)計出來的數(shù)據(jù),zi是用模型擬合后的數(shù)據(jù),N是數(shù)據(jù)的個數(shù)。從公式中可以很容易看出,SSE數(shù)值越小擬合越好。

      Pearson相關系數(shù)用來衡量兩個數(shù)據(jù)集合是否在一條線上面,即衡量定距變量間的線性關系。其計算公式如下:

      均方根誤差是觀測值與擬合值偏差的平方與觀測次數(shù)N的比值的平方根。計算公式如下:

      均方根誤差在測量過程中對特大或特小誤差反映較敏感,所以實際擬合的過程中經(jīng)常用來描述擬合結(jié)果的好壞。從公式中可以看出,參數(shù)值越小越好。

      為了反映擬合效果,我們把擴展指數(shù)模型和當前廣泛使用的冪律模型擬合對比。

      表1給出了用兩個模型擬合的結(jié)果以及各個學校對應的擬合參數(shù),分別用SSE、R、RMSE描述擬合效果。從表1中的數(shù)據(jù)可以看出擴展指數(shù)模型明顯優(yōu)于冪律分布,其中SSE和RMSE反映的是精度,說明本文中的模型比冪律分布高一個數(shù)量級。

      表1 擴展指數(shù)模型和冪律分布模型的擬合效果對比

      3 模型解釋及參數(shù)的意義

      擴展指數(shù)模型對各高校發(fā)文的統(tǒng)計分布擬合效果(表2)較好,但為了使模型能更廣泛地使用,需要對模型的意義及參數(shù)進行詳細了解。從表2可看出,各個參數(shù)大概都在一個比較小的范圍內(nèi)浮動,這有可能都是涉農(nóng)學科的原因。本文建立模型時使用了一個比較抽象的模型,其中的狀態(tài)轉(zhuǎn)換速率(k1,k-1)、歸一化常數(shù)(A1,A2)以及擴展指數(shù)(β)都很難對應現(xiàn)實中期刊發(fā)表過程的常用量。因此本文通過公式模擬給出各個參數(shù)變化時論文發(fā)表概率分布的變化。

      表2 各高校數(shù)據(jù)通過擴展指數(shù)模型的擬合參數(shù)列表

      圖4中給出了振幅量的變化對整個概率分布的影響。為了更清晰地表達圖4結(jié)果的變化,我們選取了雙對數(shù)坐標。

      圖4(a)顯示了指數(shù)公式的振幅變化對概率分布的影響。參數(shù)值選取的范圍是表2中A1擬合結(jié)果的上下限,其他參數(shù)用各高校的參數(shù)的平均值。從圖4(a)可以看出,排名靠前的期刊受A1的影響,并且隨著A1的增加,曲線是向上偏移的,而排名靠后的期刊幾乎沒有受到影響。從圖4(b)可以看出當振幅A2增加時曲線的變化,隨著A2的增加曲線也是向上移動的,排名比較靠后的期刊移動得比較大。

      圖4 擴展指數(shù)模型中兩個振幅量對概率分布的影響

      圖5中給出了模型中轉(zhuǎn)化速率對概率分布的影響。從圖5(a)可以看出,隨著指數(shù)分布的逆向速率k-1增加,排名靠前的期刊受到的影響比較大,并且隨著速率常數(shù)的增加概率分布逐漸減少。從圖5(b)可以看出,隨著擴展指數(shù)模型中的速率k1增加,排名靠后的期刊概率分布減少得比較多。

      圖5 擴展指數(shù)模型中兩個速率變化對概率分布的影響

      圖6給出了擴展指數(shù)β的變化趨勢。排名靠后的期刊的概率分布隨著β的增加減少,排名靠前的期刊基本上未受影響。

      圖6 擴展指數(shù)模型中擴展指數(shù)對概率分布的影響

      當β趨近于0時,排名靠后的期刊的概率分布接近單指數(shù)分布,即越接近冪律分布。

      通過了解各個參數(shù)對整體分布的影響,就可以把該模型應用到某個具體科研機構(gòu)。對科研機構(gòu)在不同時間段內(nèi)發(fā)表論文的概率分布進行擬合,可以得到參數(shù)隨時間的變化趨勢,參數(shù)的變化趨勢可反映科研機構(gòu)中科研政策的變化。

      4 模型的潛在應用

      本文建立的模型可以應用于圖書館學科服務之投稿推薦。本模型中包括k1,k-1這兩個擬合得到的概率轉(zhuǎn)移速率,這兩個速率在實際應用中對應著在投稿序列中正向和逆向遷移速率。筆者通過設置不同的初始投稿期刊及擬合出來的速率,利用計算機模擬給出不同初始投稿期刊下投稿次數(shù)的統(tǒng)計分布。模擬過程如下:給定一個初始投稿期刊,通過最終發(fā)表概率,用隨機數(shù)判斷當前期刊是否發(fā)表。如果發(fā)表就記錄投稿的次數(shù),如果沒有被發(fā)表,就按概率轉(zhuǎn)移速率轉(zhuǎn)移到下一期刊,并且投稿次數(shù)加1,直到論文被接收,記錄投稿次數(shù)。為了得到穩(wěn)定的概率統(tǒng)計分布,筆者進行了100 000次投稿模擬,得到的概率分布如圖7所示。由于采用的概率是一個機構(gòu)的整體概率,因此投稿次數(shù)會比正常的投稿次數(shù)高,需要找到一個參考值。這里的參考值選取是通過完全隨機的選取期刊投稿,并計算是否被接收,記錄過程與前面模擬過程一樣,只是選取期刊的方式不同,是一個完全隨機的過程。模擬結(jié)果如圖7所示,圖中的數(shù)字代表初始位置,比如10%就是指初始位置在整個期刊序列中前10%,隨機就是完全隨機的模擬。隨著選取的初始位置增加,投稿次數(shù)會明顯增加,但都比隨機模型低很多,說明本模型可以很方便地應用到投稿推薦,并可明顯提高投稿接收速度。但由于本文討論的數(shù)據(jù)是整個機構(gòu)的統(tǒng)計數(shù)據(jù),得到的投稿次數(shù)很大。如果要應用到個人的投稿推薦,需要對個人發(fā)表期刊進行統(tǒng)計分布,或者建模分析。由于本模型可以得到較好的次數(shù),因此有潛力應用到個人投稿推薦。通過概率轉(zhuǎn)移速率也有可能模擬這個機構(gòu)未來發(fā)表論文的分布。

      圖7 概率隨機模型用于投稿推薦與完全隨機模型對比

      5 結(jié)論

      研究科研機構(gòu)發(fā)文對應的期刊分布,對于理解引文網(wǎng)絡結(jié)構(gòu)特征、科學定義文獻計量指標以及對于學者更好地了解學科發(fā)展狀況、促進科研發(fā)展等都起著非常重要的作用。以前只是采用布拉德福定律和冪律分布解釋文獻分布規(guī)律,但隨著論文發(fā)表和下載獲取方式的變化,其分布也偏離了原來的分布。本文通過建立動力學過程求解出一個概率分布,即e指數(shù)和擴展指數(shù)求和的形式,并用它擬合了國內(nèi)9所涉農(nóng)學科高校發(fā)文期刊的分布,通過與以往擬合模型對比,效果優(yōu)于廣泛使用的冪律分布模型。通過模擬給出各個參數(shù)的意義以及各個參數(shù)變化時分布的變化,方便對科研機構(gòu)實時數(shù)據(jù)做分段擬合,給出參數(shù)隨時間的變化,分析科研機構(gòu)中科研政策的影響等。該模型可以應用到投稿推薦上。

      本文建立的擴展指數(shù)模型相比于冪律分布,解析式相對較復雜,但可以得到更接近實際發(fā)表論文的期刊分布。從實際情況來看這種改進是合理的,可為今后有效合理地利用期刊計量指標提供科學依據(jù)。

      猜你喜歡
      冪律概率分布概率
      第6講 “統(tǒng)計與概率”復習精講
      第6講 “統(tǒng)計與概率”復習精講
      概率與統(tǒng)計(一)
      概率與統(tǒng)計(二)
      離散型概率分布的ORB圖像特征點誤匹配剔除算法
      關于概率分布函數(shù)定義的辨析
      科技視界(2016年19期)2017-05-18 10:18:46
      基于概率分布的PPP項目風險承擔支出測算
      四川地區(qū)降水冪律指數(shù)研究
      冪律流底泥的質(zhì)量輸移和流場
      對抗冪律
      舞钢市| 马边| 赣榆县| 扎赉特旗| 巴彦淖尔市| 太保市| 临沂市| 广州市| 黔南| 泰兴市| 定安县| 临洮县| 朝阳县| 桑日县| 北宁市| 中江县| 合水县| 安国市| 东辽县| 绩溪县| 烟台市| 祁阳县| 什邡市| 南部县| 林周县| 得荣县| 马龙县| 蓬溪县| 田阳县| 翁源县| 东乡县| 温州市| 忻州市| 长治市| 卢龙县| 乐都县| 丹寨县| 荆州市| 镶黄旗| 商洛市| 石门县|