陳玉亮,張代華
(江蘇科技大學(xué)檔案館,江蘇 鎮(zhèn)江 212003;江蘇科技大學(xué)信息中心,江蘇 鎮(zhèn)江 212003)
數(shù)據(jù)挖掘技術(shù)應(yīng)用于科研檔案的實證研究
陳玉亮,張代華
(江蘇科技大學(xué)檔案館,江蘇 鎮(zhèn)江212003;江蘇科技大學(xué)信息中心,江蘇 鎮(zhèn)江212003)
隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,其在社會各領(lǐng)域得到了廣泛的應(yīng)用,并顯現(xiàn)出巨大的價值。本文以江蘇科技大學(xué)獲得資助的國家級科研項目為例,分別采用聚類分析法和關(guān)聯(lián)規(guī)則分析法對近五年來獲批的國家級科研項目組數(shù)據(jù)集進(jìn)行了數(shù)據(jù)挖掘,為學(xué)校找出科研重點領(lǐng)域,凝練出學(xué)科發(fā)展特色提供決策依據(jù)。
數(shù)據(jù)挖掘;聚類分析;關(guān)聯(lián)規(guī)則分析
本文著錄格式:陳玉亮,張代華. 數(shù)據(jù)挖掘技術(shù)應(yīng)用于科研檔案的實證研究[J]. 軟件,2016,37(9):52-54
科研檔案是高等學(xué)??蒲邪l(fā)展的縮影和真實寫照,是反映高校科學(xué)研究和科研管理水平的重要標(biāo)志,是高校實力的見證。科學(xué)研究水平是各高校核心競爭力的關(guān)鍵所在,支撐和引領(lǐng)學(xué)科建設(shè)與發(fā)展。隨著高??萍紕?chuàng)新競爭的日趨激烈,在科技資源配置方面,高端人才和重點重大項目資助的集中度不斷升級。與各“985”高校、國子頭的科研院所相比,地方普通高校與它們的創(chuàng)新競爭力差距不斷擴(kuò)大,只有可能在少數(shù)優(yōu)勢學(xué)科具有一定競爭力,在面上科研任務(wù)競爭中占有一定份額。多年來,高校在科研管理中積累了很多數(shù)據(jù),但這些數(shù)據(jù)只是簡單的以案卷目錄的形式存儲在檔案管理系統(tǒng)中,在高校的科研決策中并沒有得到充分利用,還停留在傳統(tǒng)的管理水平上。如何利用已有的科研檔案信息明確自己的科研優(yōu)勢,找出科研重點領(lǐng)域,凝練出品牌特色,以應(yīng)對普通省屬高校發(fā)展的嚴(yán)峻挑戰(zhàn),提升自己的核心競爭力,是目前普通省屬高校亟須解決的重大課題。
數(shù)據(jù)挖掘是一種深層次的數(shù)據(jù)分析方法, 是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又具有潛在價值的數(shù)據(jù)信息和知識的過程[1]。數(shù)據(jù)挖掘是一種全新的信息處理技術(shù),其主要特點是對大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù),把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持[2]。目前數(shù)據(jù)挖掘已廣泛應(yīng)用于商業(yè)零售、電信、金融、電力、保險、生物信息學(xué)和醫(yī)療等行業(yè)。
聚類分析是根據(jù)數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組[3],并使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度,不同組中的數(shù)據(jù)對象具有較低的相似度[4]。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的重要工具之一[5],關(guān)聯(lián)規(guī)則分析是用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系的過程。關(guān)聯(lián)規(guī)則的強度可以用它的支持度和置信度來度量。支持度是一種重要度量,因為支持度很低的規(guī)則可能只是偶然出現(xiàn);另一方面,對于給定的規(guī)則X→Y,置信度越高,Y在包含X的事務(wù)中出現(xiàn)的可能性就越大。
2.1應(yīng)用背景介紹
國家級科研項目[6]是高校及科研院所科研實力及學(xué)術(shù)水平的一項重要指標(biāo),是高校高水平縱向研究課題經(jīng)費的主要來源。江蘇科技大學(xué)作為江蘇省省屬高校,一直以來都非常重視國家級科研項目的申報和管理工作,在獲得批準(zhǔn)項目數(shù)量與資助金額不斷提升的同時,學(xué)校的科研實力和學(xué)術(shù)水平也躍上了一個新臺階。多年來,我校在科學(xué)研究過程中積累了很多數(shù)據(jù),但這些數(shù)據(jù)只是簡單的以案卷目錄的形式存儲在檔案管理系統(tǒng)中,在學(xué)校的科研決策中并沒有得到充分利用,本文以江蘇科技大學(xué)2011—2015年獲得資助的國家級科研項目為例, 應(yīng)用數(shù)據(jù)挖掘技術(shù)對參與國家級科研項目的課題組進(jìn)行了科研績效評估,為學(xué)校找出科研重點領(lǐng)域和優(yōu)勢學(xué)科、凝練出品牌特色提供決策依據(jù),同時進(jìn)一步探討科研績效與科研人員最高學(xué)位、職稱、年齡之間的關(guān)系,從而實現(xiàn)科研團(tuán)隊的優(yōu)化配置。
2.2數(shù)據(jù)選擇及預(yù)處理
2.2.12011至2015年江蘇科技大學(xué)國家級科研項目基本情況分析
近五年來,江蘇科技大學(xué)所獲自然科學(xué)與社會科學(xué)國家級項目實現(xiàn)了質(zhì)與量的飛躍,獲資助項目數(shù)逐年遞增,資助經(jīng)費也實現(xiàn)了穩(wěn)步增長,獲資助項目數(shù)從2011的24項增加到2015年的45項,資助經(jīng)費從2011年的659萬元增加到2015年的1478萬元(其中2013年葛世倫教授申請的“基于云的管理信息系統(tǒng)再造研究”項目作為重點項目,資助經(jīng)費為220萬元)。
2.2.2課題組數(shù)據(jù)集
國家級科研項目相關(guān)信息包括項目名稱、申請領(lǐng)域、資助經(jīng)費、負(fù)責(zé)人年齡、項目組成員最高學(xué)位、專業(yè)、職稱、批準(zhǔn)年度?;诖?,本文構(gòu)造了課題組數(shù)據(jù)集,并利用聚類方法對其進(jìn)行了分析。課題組數(shù)據(jù)集由項目資助經(jīng)費、負(fù)責(zé)人年齡、項目組中博士人數(shù)、碩士人數(shù)、學(xué)士人數(shù)、其他人數(shù)、教授(正高)人數(shù)、副教授(副高)人數(shù)、講師(中級)人數(shù)、助教(初級)人數(shù)、項目中各專業(yè)的人數(shù)組成。2011—2015年江蘇科技大學(xué)共獲批了185個國家級項目,有156個專業(yè)共 815名科研人員參與。因此,本文為課題組數(shù)據(jù)集添加了對應(yīng)于這156個專業(yè)的人數(shù)屬性, 以便發(fā)現(xiàn)項目組人員專業(yè)差別對國家級項目的影響。項目負(fù)責(zé)人年齡劃分成<=30、31-35、36-40、41-45、46-50、51-55、56-60、61-65、>=66共9個年齡段。
2.3基于數(shù)據(jù)挖掘的課題組科研績效評估
2.3.1課題組數(shù)據(jù)集的聚類分析
表1 課題組數(shù)據(jù)集聚類結(jié)果
課題組數(shù)據(jù)集的聚類結(jié)果顯示,簇1中的項目數(shù)為45,大部分是面上項目或者重點項目,資助經(jīng)費額較高、課題組科研能力較強,僅占總項目的24.3%;簇2中的項目數(shù)為140,占總項目的75.7%。結(jié)合聚類結(jié)果的簇中心情況如表1所示,簇1的各項指標(biāo)都優(yōu)于簇2,尤其是教授人數(shù)和資助經(jīng)費額。本文還利用決策樹分析聚類結(jié)果,發(fā)現(xiàn)教授人數(shù)、講師人數(shù)和資助經(jīng)費是導(dǎo)致這種項目聚類結(jié)果的重要因素。簇1共包含材料學(xué)11項、海洋工程10項、機械工程7項、管理科學(xué)與工程7項、養(yǎng)蠶學(xué)5 項、自動化2項、物理學(xué)2項、生物學(xué)1項目。這說明了材料學(xué)、海洋工程、機械工程、管理科學(xué)與工程、養(yǎng)蠶學(xué)是江蘇科技大學(xué)自然科學(xué)的優(yōu)勢研究學(xué)科,自動化、物理學(xué)、生物學(xué)等學(xué)科在快速發(fā)展,計算機科學(xué)、電子學(xué)等其他學(xué)科還需要提高。簇2的負(fù)責(zé)人年齡段指標(biāo)顯示這些項目申請人比較年輕,絕大多數(shù)都小于40歲,正是出科研成果的黃金時期,他們是學(xué)??蒲嘘犖榈纳?;簇1的負(fù)責(zé)人年齡段指標(biāo)顯示項目申請人具有豐富的科研經(jīng)驗,但超過一半以上的人在50歲以上,人才成長有些脫節(jié),年輕教師沒有能夠及時頂上來,不利于學(xué)校的長遠(yuǎn)發(fā)展。
2.3.2課題組數(shù)據(jù)集的關(guān)聯(lián)規(guī)則分析
本文在聚類分析的基礎(chǔ)上,采用關(guān)聯(lián)規(guī)則分析法來探討科研績效評估結(jié)果與科研人員的最高學(xué)位、職稱、年齡之間的關(guān)系。數(shù)據(jù)表見表2,其中,表1中簇1欄中項目組人員的評估結(jié)果為優(yōu),簇2欄中項目組人員的評估結(jié)果為良。對科研人員的年齡進(jìn)行了分段,A1表示科研人員年齡<=30歲,A2表示31-35歲,A3表示36-40歲,A4表示41-45歲,A5表示46-50歲,A6表示51-55歲,A7表示56-60歲,A8表示61-65歲,A9表示>=66歲。
表2 項目組科研人員數(shù)據(jù)表
通過關(guān)聯(lián)規(guī)則Apriori算法挖掘出項目組科研人員數(shù)據(jù)表中各個屬性之間的關(guān)聯(lián)規(guī)則,并設(shè)定Smin=0.05,Cmin=0.20,得出如下的關(guān)聯(lián)規(guī)則,如表3所示。表3中X表示最高學(xué)位和職稱,Y表示評估結(jié)果。
表3 關(guān)聯(lián)規(guī)則
從表3中的關(guān)聯(lián)規(guī)則可知:擁有博士或碩士學(xué)位的人員科研經(jīng)驗豐富,評定結(jié)果為優(yōu)的可信度和支持度較高;具有教授或副教授職稱的人員具有豐富的科研經(jīng)驗,評定結(jié)果為優(yōu)的可信度和支持度較高。從加強學(xué)??蒲袌F(tuán)隊建設(shè)目標(biāo)出發(fā),應(yīng)該吸收學(xué)位低的人員參與科研活動[7],同時要培養(yǎng)職稱低的人員,豐富他們的科研經(jīng)驗,提高他們的科研能力。
本文對江蘇科技大學(xué)2011—2015年間獲批的國家級項目數(shù)據(jù)集進(jìn)行了數(shù)據(jù)挖掘,結(jié)果表明材料學(xué)、海洋工程、機械工程、管理科學(xué)與工程、養(yǎng)蠶學(xué)是江蘇科技大學(xué)自然科學(xué)的優(yōu)勢研究學(xué)科,自動化、物理學(xué)、生物學(xué)等學(xué)科在快速發(fā)展,計算機科學(xué)、電子學(xué)等其他學(xué)科還需要提高。同時對項目組科研人員數(shù)據(jù)信息進(jìn)行了關(guān)聯(lián)規(guī)則分析,發(fā)現(xiàn)了受教育程度和職稱是影響科研人員科研績效的主要因素,從而可以實現(xiàn)科研團(tuán)隊的優(yōu)化配置,提高科研能力。通過以上分析,為凝練江蘇科技大學(xué)優(yōu)勢科研領(lǐng)域,確定科研創(chuàng)新團(tuán)隊、重點項目、標(biāo)志性成果等的培育對象提供了參考決策依據(jù);為有的放矢地支持重點科研領(lǐng)域建設(shè)、提升學(xué)校核心競爭力奠定了一定的基礎(chǔ)。
[1] 馮文霞, 王廣安. 數(shù)據(jù)挖掘在服務(wù)成本預(yù)測方面的應(yīng)用研究(SDCF-DM)[J]. 軟件, 2013, 34(4): 46-48
[2] 曾洪周. 數(shù)據(jù)挖掘在國土資源檔案館中的應(yīng)用[J]. 蘭臺世界, 2007, (12), 11-12.
[3] Pang-Ning Tan, Michael Steinbach. 數(shù)據(jù)挖掘?qū)д揫M]. 北京: 人民郵電出版社, 2010.
[4] 楊雪霞. 數(shù)據(jù)挖掘技術(shù)在高校圖書館管理系統(tǒng)中的應(yīng)用研究[J]. 軟件, 2011, 32(4): 16-18.
[5] 刁雅靜, 盧健. 基于權(quán)重的關(guān)聯(lián)模式分析改進(jìn)在網(wǎng)站優(yōu)化中的應(yīng)用[J].江蘇科技大學(xué)學(xué)報(自然科學(xué)版), 2012, 26(3), 305-308.
[6] 徐立波. 高??蒲袠I(yè)績積分管理系統(tǒng)研究[J]. 軟件, 2014, 35(2): 10-12.
[7] 秦勤, 段秋紅, 何永強. 科研績效評估中的數(shù)據(jù)挖掘研究[J]. 河南工程學(xué)院學(xué)報(自然科學(xué)版), 2010, 22(4), 60-62.
Empirical Study of Applying of Data Mining Technology in Scientific Research Archives
CHEN Yu-liang1, ZHANG Dai-hua2
(1. Archives of Jiangsu University of Science and Technology, Jiangsu Zhenjiang, 212003; 2. Information Center of Jiangsu University of Science and Technology, Jiangsu Zhenjiang, 212003)
With the development of data mining technology, it has been widely used in various fields of society and showed great value. This paper take nearly five years State-level scientific research projects of Jiangsu University of Science and Technology as an example and use clustering analysis and association rules analysis to mine the projects data set to provide decision-making basis on finding focus research areas and condensed out of the development characteristics of disciplines.
Data mining; Clustering analysis; Association rules analysis
TP399
A
10.3969/j.issn.1003-6970.2016.09.012
江蘇省現(xiàn)代教育技術(shù)研究2014年度立項課題(2014-R-32532)
陳玉亮(1979-),男,江蘇鹽城人,碩士,館員,主要研究方向為檔案信息化;張代華(1973-),男,湖北荊門人,高級實驗師,主要研究方向為高校信息化。