楊忠明,梁本來(lái),秦 勇,盧慶武
(1.廣東科學(xué)技術(shù)職業(yè)學(xué)院 計(jì)算機(jī)工程技術(shù)學(xué)院,廣東 珠海 519090; 2.中山職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,廣東 中山 528404; 3.東莞理工大學(xué) 計(jì)算機(jī)學(xué)院,廣東 東莞 523808; 4.惠州學(xué)院 教育技術(shù)中心,廣東 惠州 516007)
合作網(wǎng)絡(luò)高階聚集特性研究
楊忠明1,梁本來(lái)2,秦 勇3,盧慶武4
(1.廣東科學(xué)技術(shù)職業(yè)學(xué)院 計(jì)算機(jī)工程技術(shù)學(xué)院,廣東 珠海 519090; 2.中山職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,廣東 中山 528404; 3.東莞理工大學(xué) 計(jì)算機(jī)學(xué)院,廣東 東莞 523808; 4.惠州學(xué)院 教育技術(shù)中心,廣東 惠州 516007)
情報(bào)學(xué)領(lǐng)域的研究表明,研究工作者形成的科研合作關(guān)系網(wǎng)絡(luò)是一個(gè)非連通網(wǎng)絡(luò),但是網(wǎng)絡(luò)統(tǒng)計(jì)參數(shù)呈現(xiàn)出無(wú)尺度網(wǎng)絡(luò)特性和小世界網(wǎng)絡(luò)特性,合作網(wǎng)絡(luò)是一種描述科研合作的典型網(wǎng)絡(luò)。提出高階聚集系數(shù)的概念,以期刊作者的合作網(wǎng)絡(luò)數(shù)據(jù)為計(jì)算案例,計(jì)算期刊合作者的高階聚集系數(shù)C(h),形成圖表并分析其高階聚集系數(shù)C(h)在圖中所表示的意義。通過(guò)采集國(guó)內(nèi)計(jì)算機(jī)類(lèi)一級(jí)學(xué)報(bào)的大量合作者樣本數(shù)據(jù)并通過(guò)計(jì)算分析表明,合作者為20人左右時(shí),合作團(tuán)隊(duì)擁有廣泛的知識(shí)面和較高的合作水平,較易做出高水平的創(chuàng)新性成果,也意味著高水平的論文作者通常和學(xué)者20人左右直接或者間接保持合作關(guān)系。高階聚集系數(shù)同樣可用于語(yǔ)言網(wǎng)絡(luò)等其他呈現(xiàn)出小世界效應(yīng)的網(wǎng)絡(luò)分析。
合作網(wǎng)絡(luò);小世界網(wǎng)絡(luò);高階聚集系數(shù);平均距離
網(wǎng)絡(luò)可以用來(lái)描述人與人之間的社會(huì)關(guān)系、計(jì)算機(jī)之間的網(wǎng)絡(luò)聯(lián)接、網(wǎng)頁(yè)之間的超鏈接、科研文章之間的引用關(guān)系等,而統(tǒng)計(jì)物理學(xué)是從微觀到宏觀的橋梁。研究網(wǎng)絡(luò)中頂點(diǎn)與邊的度值與權(quán)值等微觀性質(zhì)與網(wǎng)絡(luò)的幾何性質(zhì)、效率與穩(wěn)定性等宏觀性質(zhì)之間的關(guān)系正是復(fù)雜網(wǎng)絡(luò)研究的核心內(nèi)容。因而,與圖論的研究有所不同,復(fù)雜網(wǎng)絡(luò)的研究更側(cè)重于從各種實(shí)際網(wǎng)絡(luò)的現(xiàn)象之上抽象出一般的網(wǎng)絡(luò)幾何量,并用這些一般性質(zhì)指導(dǎo)更多實(shí)際網(wǎng)絡(luò)的研究,進(jìn)而通過(guò)討論實(shí)際網(wǎng)絡(luò)上的具體現(xiàn)象發(fā)展網(wǎng)絡(luò)上模型的一般方法,最后討論網(wǎng)絡(luò)本身的形成機(jī)制。在模型研究、演化機(jī)制與結(jié)構(gòu)穩(wěn)定性方面的豐富研究經(jīng)驗(yàn)是在復(fù)雜網(wǎng)絡(luò)研究領(lǐng)域得到廣泛應(yīng)用的原因;而圖論與社會(huì)網(wǎng)絡(luò)提供的網(wǎng)絡(luò)靜態(tài)幾何量及其分析方法是復(fù)雜網(wǎng)絡(luò)研究的基礎(chǔ),并得到了充分發(fā)展。合作網(wǎng)絡(luò)屬于復(fù)雜網(wǎng)絡(luò)中社會(huì)網(wǎng)絡(luò)的一種,它的提出是復(fù)雜網(wǎng)絡(luò)系統(tǒng)研究的一個(gè)新的方向[1]。小世界網(wǎng)絡(luò)中利用聚集度的計(jì)算來(lái)評(píng)價(jià)網(wǎng)絡(luò)指標(biāo)、反映網(wǎng)絡(luò)性質(zhì)的合作網(wǎng)絡(luò)已成為評(píng)價(jià)網(wǎng)絡(luò)指標(biāo)的一種重要評(píng)價(jià)方法。根據(jù)權(quán)威文獻(xiàn)表明,合作網(wǎng)絡(luò)是一種優(yōu)化評(píng)價(jià)網(wǎng)絡(luò)指標(biāo)的評(píng)價(jià)系統(tǒng),自1993年到2010年,持續(xù)多年的研究更表明了合作網(wǎng)絡(luò)的評(píng)價(jià)優(yōu)化??茖W(xué)合作的范圍隨著科學(xué)的進(jìn)步而逐漸增長(zhǎng)。論文合著是科學(xué)合作的表現(xiàn)之一,隨著不同領(lǐng)域的合作者的介入,科學(xué)合作成果的質(zhì)量也越來(lái)越好,合作網(wǎng)絡(luò)成為更復(fù)雜的網(wǎng)絡(luò)。
一個(gè)典型網(wǎng)絡(luò)是由許多節(jié)點(diǎn)與連接兩個(gè)節(jié)點(diǎn)間的一些邊組成的,而復(fù)雜網(wǎng)絡(luò)簡(jiǎn)單來(lái)說(shuō)是呈現(xiàn)高度復(fù)雜性的網(wǎng)絡(luò),具有結(jié)構(gòu)復(fù)雜、網(wǎng)絡(luò)進(jìn)化、連接多樣性、動(dòng)力學(xué)復(fù)雜性、節(jié)點(diǎn)多樣性和多種復(fù)雜性融合的特點(diǎn)。復(fù)雜網(wǎng)絡(luò)是具有自組織、自相似、吸引子、小世界、無(wú)標(biāo)度網(wǎng)絡(luò)中部分或全部性質(zhì)的網(wǎng)絡(luò)。合作網(wǎng)絡(luò)是描述合作關(guān)系的網(wǎng)絡(luò),它屬于復(fù)雜網(wǎng)絡(luò)中社會(huì)網(wǎng)絡(luò)的一種。
兩個(gè)現(xiàn)實(shí)的復(fù)雜網(wǎng)絡(luò)模型被廣泛應(yīng)用:小世界模型和無(wú)尺度模型。文中重點(diǎn)討論小世界網(wǎng)絡(luò),其特征是局部集群連接的長(zhǎng)的線,平均距離之間的頂點(diǎn)的對(duì)數(shù)的增長(zhǎng)與網(wǎng)絡(luò)中N的大小有關(guān)。以日常語(yǔ)言看,它反映的是相互關(guān)系的數(shù)目可以很小但卻能夠連接世界的事實(shí),且小世界模型社會(huì)網(wǎng)絡(luò)就是小世界的一種??蒲腥藛T合作網(wǎng)絡(luò)是描述科研人員合作關(guān)系的網(wǎng)絡(luò),通常把每個(gè)科研人員作為網(wǎng)絡(luò)中的一個(gè)頂點(diǎn)(或稱(chēng)節(jié)點(diǎn)),如果兩個(gè)科研人員之間共同發(fā)表過(guò)一篇論文,這兩個(gè)頂點(diǎn)之間就連接一條邊??蒲腥藛T之間形成了一個(gè)復(fù)雜網(wǎng)絡(luò),該網(wǎng)絡(luò)的節(jié)點(diǎn)的復(fù)雜性、網(wǎng)絡(luò)演化特性以及網(wǎng)絡(luò)的合作行為等問(wèn)題,所呈現(xiàn)出的密集度可以作為評(píng)價(jià)期刊的一個(gè)指標(biāo)。研究基于合作網(wǎng)絡(luò)的期刊高階聚集特性分析,通過(guò)其看聚集度的計(jì)算發(fā)現(xiàn)目前研究熱點(diǎn),同時(shí)聚集度越大,合作越緊密,可作為評(píng)價(jià)期刊的一個(gè)重要指標(biāo)。
Watts和Strogatz[2]構(gòu)造出一種介于規(guī)則網(wǎng)絡(luò)和隨機(jī)網(wǎng)絡(luò)之間的網(wǎng)絡(luò)(WS網(wǎng)絡(luò))。隨后Newman和Watts[3]給出一種新的網(wǎng)絡(luò)構(gòu)造方法。在NW網(wǎng)絡(luò)中,原有的連邊并不會(huì)被破壞,而是以一個(gè)很小的概率在原來(lái)的規(guī)則網(wǎng)絡(luò)上添加新的連邊,這樣構(gòu)造出的網(wǎng)絡(luò)也同時(shí)具有大的簇系數(shù)和小的平均距離。BarabasiA[4]對(duì)科學(xué)合作社會(huì)網(wǎng)絡(luò)的演化進(jìn)行研究,認(rèn)為作者合作社會(huì)網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)的代表。
Watts和Strogatz的研究方法是通過(guò)其中一個(gè)規(guī)則網(wǎng)絡(luò)轉(zhuǎn)化為小世界網(wǎng)絡(luò),這種方法很少或基本沒(méi)有改變頂點(diǎn)度的分布和量化參數(shù)。小世界網(wǎng)絡(luò)中一個(gè)重要特征就是與隨機(jī)網(wǎng)絡(luò)相比有相當(dāng)高的聚集系數(shù),甚至比任意網(wǎng)絡(luò)的都要高。聚集系數(shù)的定義如下。頂點(diǎn)v在圖G中有相鄰節(jié)點(diǎn)度k(v),k(v)的相鄰節(jié)點(diǎn)可能被連接成k(v)(l(v)-1)/2條邊。實(shí)際存在的最大可能的邊的分?jǐn)?shù)數(shù)量就是圖G的聚集系數(shù)Cv,所有節(jié)點(diǎn)v的平均聚集系數(shù)就是網(wǎng)絡(luò)G的聚集度C。C的值接近于1意味著網(wǎng)絡(luò)是高連通的。
國(guó)內(nèi)外學(xué)者在合作網(wǎng)絡(luò)的構(gòu)造、靜態(tài)統(tǒng)計(jì)性質(zhì)分析和演化模型等方面進(jìn)行了研究。2006年Cardillo等分析了LosAlamos的2000-2005年間cond-mat數(shù)據(jù)庫(kù),發(fā)現(xiàn)該庫(kù)的成長(zhǎng)是通過(guò)合作網(wǎng)絡(luò)圖的連接增長(zhǎng)體現(xiàn)的,主要特征體現(xiàn)在度-度相關(guān)性以及節(jié)點(diǎn)的聚集相關(guān)性[7]。周濤等提出了基于二分圖資源的推薦算法[8]。李曉佳等[9]在自建的合作網(wǎng)絡(luò)上,實(shí)現(xiàn)了層次聚集法和介數(shù)聚集法,在Newman的Q函數(shù)基礎(chǔ)上討論了聚集過(guò)程中的最佳集團(tuán)數(shù)。還有學(xué)者從不同角度對(duì)社團(tuán)網(wǎng)絡(luò)及其應(yīng)用做了研究,如范超等[10]利用合作網(wǎng)絡(luò)及社會(huì)網(wǎng)絡(luò)的結(jié)構(gòu)知識(shí)對(duì)CNM算法作了改進(jìn),提高了社團(tuán)發(fā)現(xiàn)的精度。
黃開(kāi)木等[11]以近30年國(guó)內(nèi)“競(jìng)爭(zhēng)情報(bào)”領(lǐng)域作者合著發(fā)表期刊論文為研究對(duì)象,分析表明該領(lǐng)域科學(xué)家的產(chǎn)量、最大合著群體的產(chǎn)量和所有合著群體的規(guī)模都滿(mǎn)足冪律分布。通過(guò)對(duì)該合著網(wǎng)絡(luò)最大連通子圖的統(tǒng)計(jì)分析,發(fā)現(xiàn)該合著群體具有高聚類(lèi)和小世界性。
文中采集國(guó)內(nèi)計(jì)算機(jī)領(lǐng)域一級(jí)學(xué)報(bào)的大量合作者樣本數(shù)據(jù),分析期刊作者的合作網(wǎng)絡(luò)數(shù)據(jù),計(jì)算其高階聚集特性,分析期刊的作者合作情況,把高階聚集系數(shù)的實(shí)驗(yàn)結(jié)果作為評(píng)價(jià)和衡量期刊作者合作的重要指標(biāo)。通過(guò)采集樣本期刊的合作者數(shù)據(jù),計(jì)算合作者的高階聚集系數(shù),分析期刊合作者情況,考慮以高階聚集系數(shù)作為評(píng)價(jià)期刊優(yōu)劣的指標(biāo)之一。
文中提出的合作網(wǎng)絡(luò)高階聚集特征還可用于其他呈現(xiàn)出小世界效應(yīng)的網(wǎng)絡(luò)分析。在復(fù)雜網(wǎng)絡(luò)的研究中,語(yǔ)言網(wǎng)絡(luò)作為一個(gè)新的研究方向[12],大都符合WS小世界模型,大多數(shù)節(jié)點(diǎn)只需經(jīng)過(guò)少量的邊便可到達(dá)。在聚集系數(shù)上,與隨機(jī)語(yǔ)言網(wǎng)絡(luò)相比,真實(shí)語(yǔ)言網(wǎng)絡(luò)的聚集系數(shù)較高。Minett等基于詞典資源,根據(jù)漢語(yǔ)詞匯中的共字關(guān)系構(gòu)建了漢字網(wǎng)絡(luò)[13],由漢字構(gòu)建的網(wǎng)絡(luò)表現(xiàn)出明顯的高聚集系數(shù)和無(wú)尺度特征。劉海濤對(duì)中文、英文等15種語(yǔ)言的依存句法網(wǎng)絡(luò)進(jìn)行聚類(lèi)研究[14],得出這15種語(yǔ)言網(wǎng)絡(luò)均是小世界網(wǎng)絡(luò),但聚集系數(shù)存在顯著差異,通過(guò)選擇網(wǎng)絡(luò)7組特征,對(duì)15種語(yǔ)言進(jìn)行聚類(lèi),發(fā)現(xiàn)英語(yǔ)和漢語(yǔ)網(wǎng)絡(luò)整體上較接近。
2.1 聚集系數(shù)及其含義
定義一個(gè)網(wǎng)絡(luò)或圖表G=(V,E),設(shè)V有N個(gè)頂點(diǎn)或節(jié)點(diǎn),E有M個(gè)邊或線段,每條邊定義為一對(duì)頂點(diǎn)(有序配對(duì)的有向圖)。讓一個(gè)頂點(diǎn)v有相鄰節(jié)點(diǎn)k(v),k(v)的相鄰節(jié)點(diǎn)可能被連接成k(v)(l(v)-1)/2條邊。分?jǐn)?shù)最大的邊事實(shí)上存在于相鄰的v和聚集系數(shù)Cv之間,平均聚集系數(shù)對(duì)所有v∈V是那個(gè)聚集系數(shù)C的網(wǎng)絡(luò)G。一個(gè)網(wǎng)絡(luò)C接近1可能包括聚集和有高度的連接,或稀疏的連接在本地群集中。
2.2 高階聚集系數(shù)的定義
文中延伸Watts和Strogatz的聚集系數(shù),定義h是相鄰頂點(diǎn)v與頂點(diǎn)G的距離。假設(shè)v有鄰節(jié)點(diǎn)h和kh(v),k1(v)與k(v)的定義見(jiàn)2.1。然后最多可以有kh(v)(kh(v)-1)/2條邊連接h的鄰節(jié)點(diǎn)v。這個(gè)分?jǐn)?shù)Cv(h)允許的邊真實(shí)存在于h鄰節(jié)點(diǎn)v與聚集系數(shù)h之間。假設(shè)當(dāng)kh(v)=1時(shí)Cv(h)=1,這也涵蓋了h=0時(shí)的特例。平均Cv(h)對(duì)所有v∈G,考慮高階聚集系數(shù)的概念,聚集系數(shù)為h時(shí)為C(h)。聚集系數(shù)為1時(shí)C(1)是聚集系數(shù)定義在2.1的C。
頂點(diǎn)為N的網(wǎng)絡(luò)有M條邊,可得公式P(0)=1/N,P(1)=2M/N2>1/N。在h=1以外,不能精確地表達(dá)該值為P(h),除了以幾個(gè)固定網(wǎng)絡(luò)為例。很多網(wǎng)絡(luò)(小世界或反之),P(h)的值與h一起上升直到最大值,然后下降至距離h與網(wǎng)絡(luò)直徑D越來(lái)越接近。
對(duì)于高階聚集系數(shù),這一趨勢(shì)開(kāi)始于聚集度減少,從C(0)=1到C(1)=C,然后是進(jìn)一步減少。由于事實(shí)上h在增加,qh的節(jié)點(diǎn)數(shù)目按一定距離h的節(jié)點(diǎn)在增加,這些節(jié)點(diǎn)屬于幾個(gè)派系;因此,它們之間存在很多邊是不可能的。在h向D靠攏的過(guò)程中,會(huì)出現(xiàn)不同的效果。一個(gè)極端的例子是其中每個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中到距離D的唯一節(jié)點(diǎn)(這有一個(gè)截然相反的單節(jié)點(diǎn)),導(dǎo)致C(D)=1。同樣的情況,C(D-1)可能廣泛應(yīng)用于鑒別存在多個(gè)直徑和相同的相對(duì)的頂點(diǎn)。應(yīng)注意前面的意思是在h向D靠攏的過(guò)程中C(h)會(huì)變大,并非C(h)一定要大。
因?yàn)镻(h)(上升然后下降)和C(h)(下降然后上升)的趨勢(shì)是相反的,所以P(h)C(h)應(yīng)有一個(gè)上限值。因?yàn)橐粋€(gè)常數(shù)c經(jīng)常接近1但很少超過(guò)1,得出:
P(h)C(h)≤clogN/N
(1)
在這特例中h=1,方程(1)意味著P(1)C(1)≈logN/N。從小世界網(wǎng)絡(luò)中知道P(1)=2M/N2≈logN/N。對(duì)于該類(lèi)網(wǎng)絡(luò)符合C(1)=C。
目前最有效的補(bǔ)充證據(jù)在方程(1),利用這個(gè)確定性的小世界網(wǎng)絡(luò)提出這個(gè)模型。事實(shí)上,通過(guò)這個(gè)模型,可以發(fā)現(xiàn)這種趨勢(shì)表現(xiàn)在方程(1)。反觀確定性模型,這是基于Cayley的圖,提供了模型所需的支撐信息,從而可得該模型的聚集系數(shù):
(2)
模型中,t=log2N和a=(2l-1)/t是自由調(diào)整參數(shù),關(guān)系到互連密度,從而影響了C的價(jià)值。注意那個(gè)非常廣泛的網(wǎng)絡(luò)(N,t∞),當(dāng)a是常數(shù)時(shí)C趨向a2/(a+1)2。適當(dāng)選擇a,能獲得不同的聚集系數(shù),同時(shí)保持一個(gè)小的頂點(diǎn)使at+t-1=(a+1)log2N-1。
不像現(xiàn)實(shí)網(wǎng)絡(luò)中計(jì)算C(h)非常困難,文中提出的確定性模型服從數(shù)學(xué)分析,能用封閉形式表達(dá)一個(gè)高階聚集系數(shù)。在這個(gè)確定性模型中,對(duì)于數(shù)字m相鄰的頂點(diǎn)之間,在相鄰頂點(diǎn)h的任何頂點(diǎn)給出表達(dá)式:
(3)
數(shù)字kh(v)的相鄰頂點(diǎn)h的頂點(diǎn)v是有界的:
(4)
鑒于高階聚集系數(shù)C(h)與m/(kh(v))2成正比,很容易得到高階聚集系數(shù)為:
(5)
因此,定義聚集系數(shù)是基于相鄰的節(jié)點(diǎn),高階聚集系數(shù)定義了涉及到一個(gè)更廣泛的相鄰距離參數(shù)h。利用實(shí)際上更廣泛的復(fù)雜網(wǎng)絡(luò)的實(shí)驗(yàn)數(shù)據(jù),依據(jù)文中提出的確定性小世界網(wǎng)絡(luò)模型,將網(wǎng)絡(luò)中有關(guān)C(h)和P(h)的距離分布,定義為有一定概率的隨機(jī)選擇的距離為h的一對(duì)頂點(diǎn)。
高階聚集系數(shù)是聚集系數(shù)的高度概括,并受聚集系統(tǒng)相關(guān)公式所控制。通過(guò)利用期刊作者所構(gòu)成的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)和分析證明,不等式P(h)C(h)≤clogN/N在小世界網(wǎng)絡(luò)中成立。這一結(jié)果明顯表明該乘積P(h)C(h)有一個(gè)上限值,該上限值小于P(h)和C(h)的最大值。
高階聚集系數(shù)的計(jì)算可以應(yīng)用在期刊合作者上。把期刊合作者的數(shù)據(jù)進(jìn)行高階聚集系數(shù)C(h)的計(jì)算,可以得出一組關(guān)于頂點(diǎn)距離、階數(shù)、高階聚集系數(shù)C(h)和Cd*Pd等的數(shù)據(jù)。通過(guò)實(shí)驗(yàn)把數(shù)據(jù)制作成圖表進(jìn)行分析。期刊合作者的高階聚集系數(shù)能得出一組曲線圖,而這組曲線圖的高峰能表明這時(shí)合作者人數(shù)在期刊中的普遍性,以及此時(shí)的合作者人數(shù)能做出較好的科研成果。也可以根據(jù)曲線圖的高峰段來(lái)判斷合作者的作品情況,可作為期刊的評(píng)價(jià)方法之一。
文中主要延伸Watts和Strogatz的聚集系數(shù),計(jì)算期刊合作者的高階聚集系數(shù)C(h),形成圖表并分析高階聚集系數(shù)C(h)所表示的意義。
通過(guò)中國(guó)期刊網(wǎng)采集了《計(jì)算機(jī)研究與發(fā)展》(2000-2010)2 610篇論文共2 764位作者數(shù)據(jù)、《計(jì)算機(jī)學(xué)報(bào)》(2000-2010)2 109篇論文共1 647位作者數(shù)據(jù)和《軟件學(xué)報(bào)》(2000-2010)2 602篇論文共2 462位作者數(shù)據(jù)。通過(guò)分類(lèi)整理,分別把《計(jì)算機(jī)研究與發(fā)展》、《計(jì)算機(jī)學(xué)報(bào)》和《軟件學(xué)報(bào)》三大期刊的作者分別輸出,排列整理成文本數(shù)據(jù),利用這些數(shù)據(jù)并通過(guò)延伸Watts和Strogatz的聚集系數(shù),形成高階聚集系數(shù)C(h)以計(jì)算期刊合作者的高階聚集系數(shù)。高階聚集系數(shù)能反映出期刊作者在不同階段的聚集度。通過(guò)高階聚集系數(shù)的計(jì)算與分析,能從結(jié)果中判斷出期刊作者的密集性。通過(guò)輸出的結(jié)果把三大期刊三組數(shù)據(jù)分別進(jìn)行計(jì)算并作圖,再進(jìn)行比較。
3.1 高階聚集系數(shù)的計(jì)算方法與環(huán)境
2.3節(jié)推導(dǎo)了高階聚集系數(shù)的過(guò)程,利用此方法設(shè)計(jì)程序進(jìn)行高階聚集系數(shù)的計(jì)算。對(duì)實(shí)驗(yàn)數(shù)據(jù)首先計(jì)算最大連通子圖,計(jì)算出頂點(diǎn)數(shù)與平均距離,繼而計(jì)算各距離的點(diǎn)對(duì)數(shù)。根據(jù)平均距離數(shù)計(jì)算聚集度。
文中從中國(guó)期刊網(wǎng)將《計(jì)算機(jī)研究與發(fā)展》、《計(jì)算機(jī)學(xué)報(bào)》和《軟件學(xué)報(bào)》(2000-2010)的作者信息進(jìn)行數(shù)據(jù)采集,分別整理成3個(gè)單獨(dú)存放作者信息的文檔,再把論文是兩位以上的作者進(jìn)行分離和融合,形成每行為兩位作者名稱(chēng)的格式。然后利用高階聚集系數(shù)計(jì)算程序?qū)?大期刊的作者數(shù)據(jù)進(jìn)行計(jì)算。最后把數(shù)據(jù)信息分別整理成圖表。
3.2 實(shí)驗(yàn)結(jié)果
計(jì)算結(jié)果如圖1所示。
圖1 高階聚集系數(shù)計(jì)算結(jié)果
計(jì)算得出的圖呈現(xiàn)駝峰分布型,即會(huì)出現(xiàn)2次高峰,在3-5的作者點(diǎn)集中均出現(xiàn)1次高峰,在后期點(diǎn)集中會(huì)出現(xiàn)2次高峰。此2次高峰將會(huì)說(shuō)明作者合作群的合作關(guān)系是比較容易做出高水平創(chuàng)新研究成果的。三大期刊的合作者數(shù)據(jù)構(gòu)成了合作網(wǎng)絡(luò),圖2顯示了三大期刊高階聚集系數(shù)的分布情況:點(diǎn)集表示期刊合作者的高階聚集系數(shù)。
圖2 三大期刊高階聚集系數(shù)分布情況
3.3 實(shí)驗(yàn)分析與討論
從圖2中可以看出,圖中出現(xiàn)了兩個(gè)高峰。在合作者為2~3人的平均距離實(shí)驗(yàn)結(jié)果中出現(xiàn)第一高峰,即2~3人的合作情況比較普遍。隨著合作者數(shù)量增加高階聚集系數(shù)減小,但是合作者20人左右時(shí)出現(xiàn)第二聚集系數(shù)高峰。此高峰表明合作者20人左右時(shí),合作團(tuán)隊(duì)擁有廣泛的知識(shí)面和較高的合作水平,較易做出高水平的創(chuàng)新性成果,也意味著高水平的論文作者通常和學(xué)者20人左右直接或者間接保持合作關(guān)系。可以看出,這三組數(shù)據(jù)的第二高峰都處于相似的階段,證明了高水平的論文作者和學(xué)者20人左右直接或間接保持合作關(guān)系。
文者提出的高階聚集系數(shù)是聚集系數(shù)的高度概括,并受聚集系數(shù)相關(guān)公式所控制。通過(guò)利用期刊作者所構(gòu)成的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)分析,表明高階聚集系數(shù)提供了對(duì)小世界網(wǎng)絡(luò)結(jié)構(gòu)的新見(jiàn)解,為小世界網(wǎng)絡(luò)的探索提供了一個(gè)新的渠道。
通過(guò)實(shí)驗(yàn)數(shù)據(jù)結(jié)果可以看出,高階聚集系數(shù)越高,期刊合作者合作關(guān)系越緊密,越能做出有水平的研究成果。2~3人的合作網(wǎng)絡(luò)比較普遍,但并不意味著2~3人的合作者模式容易做出高水平成果。通過(guò)第二聚集系數(shù)高峰進(jìn)行分析更具說(shuō)服力,在合作者規(guī)模為20左右的合作關(guān)系比較容易做出高水平創(chuàng)新研究成果。文中所提出的高階聚集系數(shù)還可應(yīng)用于語(yǔ)言網(wǎng)絡(luò)等其他呈現(xiàn)小世界效應(yīng)的網(wǎng)絡(luò)分析。
[1] 高 霞,陳凱華.合作創(chuàng)新網(wǎng)絡(luò)結(jié)構(gòu)演化特征的復(fù)雜網(wǎng)絡(luò)分析[J].科研管理,2015,36(6):28-36.
[2] Watts D J,Strogatz S H.Collective dynamics of small word networks[J].Nature,1998,393(6684):440-442.
[3] Newman M E J,Watts D J.Scaling and percolation in the small-world network model[J].Physical Review E,1999,60:7332-7342.
[4] Barabasi A,Jeong H,Neda Z,et al.Evolution of the social network of scientific collaborations[J].Physical A,2002,311(3-4):590-614.
[5] Xiao Wenjun,Parhami B.Cayley graphs as models of deterministic small-world networks[J].Information Processing Letters,2006,97(3):115-117.
[6] 吳金閃,狄增如.從統(tǒng)計(jì)物理學(xué)看復(fù)雜網(wǎng)絡(luò)研究[J].物理學(xué)進(jìn)展,2004,24(1):18-46.
[7] Cardillo A,Scellato S,Latora V.A topological analysis of scientific coauthorship networks[J].Physica A Statistical Mechanics & Its Applications,2006,372(2):333-339.
[8] Zhou Tao,Red J,Medo M,et al.Bipartite network projection and personal recommendation[J].Physical Review E Statistical Nonlinear & Soft Matter Physics,2007,76(2):70-80.
[9] 李曉佳,張 鵬,狄增如,等.復(fù)雜網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2008,5(3):19-42.
[10] 范 超,王厚峰.社交網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)挖掘[J].中文信息學(xué)報(bào),2014,28(1):56-63.
[11] 黃開(kāi)木,樊振佳,盧勝軍,等.我國(guó)競(jìng)爭(zhēng)情報(bào)領(lǐng)域期刊論文合著網(wǎng)絡(luò)研究[J].情報(bào)雜志,2015,34(2):142-147.
[12] 韓 普,王東波,路高飛,等.語(yǔ)言網(wǎng)絡(luò)研究進(jìn)展[J].中文信息學(xué)報(bào),2014,28(1):9-18.
[13] Minett J W,Peng G,Wang W S.The networks of syllables and characters in Chinese[J].Journal of Quantitative Linguistics,2008,15(3):243-255.
[14] 劉海濤.語(yǔ)言復(fù)雜網(wǎng)絡(luò)的聚類(lèi)研究[J].科學(xué)通報(bào),2010,55(27-28):2667-2674.
Study on Characteristics of High Order Clustering for Collaboration Network
YANG Zhong-ming1,LIANG Ben-lai2,QIN Yong3,LU Qing-wu4
(1.College of Computer Engineering and Technique,Guangdong Polytechnic of Science and Technology, Zhuhai 519090,China; 2.College of Information Engineering,Zhongshan Polytechnic,Zhongshan 528404,China; 3.College of Computer Science,Dongguan University of Technology,Dongguan 523808,China; 4.Information Technology Center,Huizhou University,Huizhou 516007,China)
The research made in the field of information science shows that scientific collaboration relationship network formed by the researchers is unconnected.While the characteristics of scale-free network and small-world network presented from the network statistical parameter shows that collaboration network is a typical network describing the scientific collaboration research.The concept of high order clustering coefficient is presented.With the use of network data of journal authors,it will calculate journal collaborators’ high order clustering coefficientC(h),andformachartandanalyzethesignificanceofC(h)inthechart.Theanalysisofalargeamountofcollaborator’sampledatacollectedfromthefirst-classdomesticjournalofcomputershowsthatwhenthenumberofcollaboratorsisaround20,thecooperationteamhasextensiveknowledgeandahighlevelofcooperationanditiseasierfortheteamtomakeahighlevelofinnovativeachievement.Thatmeansahigh-levelauthorwillusuallykeepacooperativerelationshipwithabout20scholarsdirectlyorindirectly.
cooperation networks;small world network;high order clustering coefficient;average distance
2016-03-06
2016-06-15
時(shí)間:2016-11-22
國(guó)家自然科學(xué)基金資助項(xiàng)目(61170193);廣東省工業(yè)高新技術(shù)領(lǐng)域科技計(jì)劃項(xiàng)目(2013B010401036);廣東省高等學(xué)校優(yōu)秀青年教師培養(yǎng)計(jì)劃項(xiàng)目(YQ2014187);廣東省自然科學(xué)基金項(xiàng)目(S2013010015940);廣東省教育廳科技創(chuàng)新項(xiàng)目(2013KJCX0178)
楊忠明(1980-),男,碩士,副教授,CCF會(huì)員,研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)、智能算法。
http://www.cnki.net/kcms/detail/61.1450.TP.20161122.1227.018.html
TP
A
1673-629X(2017)02-0200-05
10.3969/j.issn.1673-629X.2017.02.046