何勝 李萍 史航 習海旭 吳智勤
摘要:“破四唯”是黨中央和國務(wù)院針對“人才評價”問題的重要決策。在“破四唯”精神的指引下,基于高校圖書館大數(shù)據(jù)和社交網(wǎng)絡(luò)大數(shù)據(jù),科學構(gòu)建了科研人才畫像標簽?zāi)P?,并以論文評價為例討論了標簽?zāi)P偷膽?yīng)用方案。該研究可為“破四唯”要求下新的科研人才評價體系的建立提供有益參考。
關(guān)鍵詞:用戶畫像;人才評價;高校館大數(shù)據(jù);破四唯
中圖分類號:G250.73文獻標識碼:A文章編號:2095-7394(2021)06-0115-06
2018年7月3日,中共中央辦公廳、國務(wù)院辦公廳印發(fā)了《關(guān)于深化項目評審、人才評價、機構(gòu)評估改革的意見》[1]的文件(以下簡稱《文件》),指出要“科學設(shè)立人才評價指標”,即“突出品德、能力、業(yè)績導向,克服唯論文、唯職稱、唯學歷、唯獎項傾向,推行代表作評價制度,注重標志性成果的質(zhì)量、貢獻、影響”,提出“把學科領(lǐng)域活躍度和影響力、重要學術(shù)組織或期刊任職、研發(fā)成果原創(chuàng)性、成果轉(zhuǎn)化效益、科技服務(wù)滿意度等作為重要評價指標”。學界將《文件》中的“克服唯論文、唯職稱、唯學歷、唯獎項傾向”概述為“破四唯”[2]。以教師、研究生、其他類型的科研人員為主體的高??蒲腥瞬攀歉咝D書館的主要用戶,可以基于圖書館所積累的海量用戶屬性數(shù)據(jù)和個性化行為數(shù)據(jù),析出標簽并構(gòu)建人才畫像模型,為“破四唯”要求下高校人才評價提供科學依據(jù)和有力支撐。
1用戶畫像標簽?zāi)P脱芯楷F(xiàn)狀
1.1一般用戶畫像標簽?zāi)P偷难芯?/p>
面向一般用戶畫像標簽?zāi)P蜆?gòu)建的研究開展的較多[3-4]。在標簽?zāi)P蜆?gòu)建過程中,融合各類大數(shù)據(jù)進行標簽抽取是通用方法。AL-SHAMRI[5]綜述了基于用戶畫像標簽構(gòu)建個性化推薦系統(tǒng)的方法和過程,包括數(shù)據(jù)收集、用戶畫像、相似度計算、社交網(wǎng)絡(luò)近鄰選擇及預測等;BULUT[6]將社交網(wǎng)絡(luò)分析引入用戶畫像標簽?zāi)P蜆?gòu)建過程,以具體社交網(wǎng)絡(luò)為對象,調(diào)查用戶動機并據(jù)此劃分用戶群;JOSEPH[7]對用戶社交網(wǎng)絡(luò)(Twitter)信息加以分析和抽取,預測用戶屬性以完善用戶畫像標簽,并給出應(yīng)用案例;牛溫佳等人[8]以知識工程理論為指導,提出基于知識抽取和用戶社交網(wǎng)絡(luò)行為分析的用戶畫像標簽構(gòu)建方案。
高校館具有豐富的科研文獻資源和用戶行為數(shù)據(jù),包括論文庫和圖書借閱庫等,為標簽抽取和數(shù)據(jù)融合提供了優(yōu)質(zhì)的數(shù)據(jù)源。廖運平等人[9]闡述了智慧圖書館用戶畫像的內(nèi)涵、特征、創(chuàng)建方法和創(chuàng)建步驟并給出了案例;于興尚等人[10]以精準個性化服務(wù)為目標,討論了畫像建模過程中的圖書館數(shù)據(jù)源融合方法和標簽?zāi)P蜆?gòu)建技術(shù)等問題。
1.2科研人才畫像標簽?zāi)P偷难芯?/p>
科研人才畫像又被稱為學者畫像或?qū)<耶嬒瘛8邠P等人[11]以智能制造領(lǐng)域為例,基于社交網(wǎng)絡(luò)平臺數(shù)據(jù),從科研人才的基本屬性、研究興趣、學術(shù)影響力三個維度構(gòu)建了杰出人才畫像模型;鄭昂等人[12]基于數(shù)字圖書館資源,來分析學者的特征屬性,構(gòu)建用戶畫像和學者庫,以服務(wù)人才識別、科研團隊和專題資源建設(shè)等;彭程程等人[13]提出可顯示“學術(shù)譜系”和“研究脈絡(luò)”的智慧校園學者畫像系統(tǒng)。
從上述分析可以看出:已有大多數(shù)文獻將社交網(wǎng)絡(luò)大數(shù)據(jù)或圖書館大數(shù)據(jù)引入到用戶畫像的標簽建模中,但是將兩者結(jié)合起來共同作為數(shù)據(jù)源進行標簽建模的研究則較少;對一般用戶畫像研究的較多,對科研人才畫像研究的較少,特別是面向人才評價并結(jié)合“破四唯”要求的人才畫像研究更為鮮見。鑒于此,本文密切結(jié)合新形勢下《文件》精神,融合圖書館大數(shù)據(jù)與社交網(wǎng)絡(luò)大數(shù)據(jù),構(gòu)建科研人才畫像標簽?zāi)P汀?/p>
2適應(yīng)“破四唯”要求的科研人才畫像標簽?zāi)P蜆?gòu)建思想
2.1需將“論文、職稱、學歷、獎項”作為參考要素
《文件》的第三條“改進科技人才評價方式”中之第(二)款“科學設(shè)立評價指標”指出:“將SCI和核心期刊論文發(fā)表數(shù)量、論文引用榜單和影響因子排名等僅作為評價參考”[1],這意味著在人才評價中,既要突出不唯論文、職稱、學歷、獎項,又要“作為評價參考”,體現(xiàn)了《文件》的辯證性思維和實事求是的精神。其中:“論文”一定程度上反映了科研人員對階段性工作的總結(jié)和提煉,是高度濃縮后的研究成果;“職稱”是所在單位對科研人員多年工作成績的一種認定,高級別職稱意味著在相關(guān)領(lǐng)域深厚的學術(shù)積累;“學歷”一定程度上反映科研人員的學術(shù)歷程,更高學歷需要相對更多的時間和研究積累,能部分反映科研人員的知識結(jié)構(gòu)和能力形成的軌跡以及學術(shù)潛力;“獎項”是頒獎機構(gòu)對科研成果的認可程度,權(quán)威部門頒發(fā)的獎項一般能較好地體現(xiàn)科研人才的社會需求度和認可度,這四個方面對于科學評價人才,都具有一定參考意義。近年來,由于社會導向異化以及部分科研人員追逐功利,導致論文數(shù)量、職稱和學歷高低、獲獎數(shù)量并不能精確反映科研人員的學術(shù)潛力以及對社會的貢獻度,但是如果全盤否定這四個方面則會走向另一個極端,同樣有悖于《文件》的精神實質(zhì)。因此,本文在科研人才畫像標簽?zāi)P蜆?gòu)建過程中,仍然將“論文、職稱、學歷、獎項”作為人才評價的參考屬性。
2.2需要融合高校圖書館與社交網(wǎng)絡(luò)大數(shù)據(jù)
正如《文件》指出,人才評價要“克服唯論文、唯職稱、唯學歷、唯獎項傾向”,應(yīng)對措施是“注重標志性成果的質(zhì)量、貢獻、影響”。那么,人才畫像應(yīng)如何表征標志性成果的質(zhì)量、貢獻和影響?高校圖書館擁有圖書借閱系統(tǒng)、論文數(shù)據(jù)庫等資源,一方面保有科研人員的基本特征數(shù)據(jù)和大量的借閱日志數(shù)據(jù),方便抽取用戶的個性特征和行為特征;另一方面以論文為代表的成果數(shù)據(jù)庫存儲了海量的下載、被引和評價記錄,對這些記錄進行分析和提取,結(jié)合已經(jīng)構(gòu)建的人才畫像標簽?zāi)P?,可有效發(fā)現(xiàn)標志性成果,并能恰當評價其質(zhì)量、貢獻、影響。由此可見,融合高校館大數(shù)據(jù)進行畫像能夠為科研人才評價提供有力支撐。
《文件》還指出,人才評價要“把學科領(lǐng)域活躍度和影響力、重要學術(shù)組織或期刊任職、研發(fā)成果原創(chuàng)性、成果轉(zhuǎn)化效益、科技服務(wù)滿意度等作為重要評價指標”,對這些指標進行評價一般要依賴科學界、工業(yè)界等領(lǐng)域的參與和認同??蒲腥藛T聚集的社交平臺和評論網(wǎng)站(如微博、知乎網(wǎng)站、科研團隊微信公眾號)等社交網(wǎng)絡(luò)大數(shù)據(jù)是人才畫像的主要數(shù)據(jù)來源,運用語義計算領(lǐng)域的機器學習算法對其分析,可以實現(xiàn)科學而精準的畫像標簽抽取。
基于上述分析,本文在將“論文、職稱、學歷、獎項”作為人才評價指標的基礎(chǔ)上,引入高校館大數(shù)據(jù)和社交網(wǎng)絡(luò)大數(shù)據(jù),構(gòu)建新的人才畫像模型。
3“破四唯”背景下人才畫像標簽?zāi)P偷臉?gòu)建
科研人才畫像標簽?zāi)P鸵话憧蓮挠脩羧丝跇撕灪涂蒲袑傩詷撕瀮蓚€方面加以研究。高校館科研用戶指利用圖書館各種資源從事科學研究的個體(如高校教師、研究生)或群體(如科研團隊)[14],對比以教學、休閑為目標的圖書館用戶,是一類以科學探索和創(chuàng)新為己任的特殊圖書館用戶。一方面,科研創(chuàng)新工作建立在個體付出艱辛努力以及群體通力協(xié)作的基礎(chǔ)上,人才畫像需要深度描述個體和群體的人口信息特征,從而形成科研用戶人口標簽?zāi)P?另一方面,用戶的科研成果可較好地反映其科研素質(zhì),用戶的學科服務(wù)能反映其服務(wù)社會的能力,二者共同構(gòu)成人才的科研屬性標簽。因此,可嘗試構(gòu)建高??蒲腥瞬女嬒駱撕?zāi)P?,如圖1所示。
3.1用戶人口屬性標簽建模
為提高科研用戶服務(wù)的精細化和精準度,可將用戶人口屬性標簽細分為群體人口信息和個體人口信息兩部分。群體人口信息標簽包括“群體名稱”“群體管理機構(gòu)”和“群體成員社交圈”,即“群體微信、QQ群”等屬性。這部分標簽數(shù)據(jù)源于高校館信息系統(tǒng)的用戶行為日志、網(wǎng)頁數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù),并需要綜合運用社交網(wǎng)絡(luò)分析的相關(guān)挖掘算法進行提取。個體人口信息標簽直接源于高校館信息系統(tǒng)中科研用戶注冊時的格式化數(shù)據(jù),包括“用戶姓名”“所屬機構(gòu)”“用戶職稱”“用戶學歷”等,其中“職稱”和“學歷”既標示了個人的重要特征,又兼顧了《文件》中的人才屬性。用戶人口屬性標簽屬于人才畫像的基礎(chǔ)標簽,可用于對科研個體和群體行為的分析和預測,為人才評價提供基礎(chǔ)數(shù)據(jù)支撐。
3.2用戶科研屬性標簽建模
依據(jù)科研創(chuàng)新活動分類方法,可以將用戶的科研屬性分為“用戶科研成果”和“用戶學科服務(wù)”兩部分。結(jié)合“破四唯”要求,“用戶科研成果標簽”主要包括“科研論文”“科研獲獎”“代表作”“專利成果”和“項目成果”等;“用戶學科服務(wù)標簽”主要包括“學術(shù)組織任職”“學術(shù)期刊任職”和“科技服務(wù)”,增加了“學科領(lǐng)域名稱”屬性,目的在于對不同學科領(lǐng)域加以區(qū)分。
用戶科研屬性標簽是人才評價的核心標簽,采用語義挖掘計算,經(jīng)過分析“代表作”“專利成果”和“項目成果”標簽對應(yīng)的大數(shù)據(jù),可以有效分析成果的質(zhì)量、貢獻和影響力,以及成果原創(chuàng)性;分析“學術(shù)組織任職”“學術(shù)期刊任職”和“科技服務(wù)”標簽的大數(shù)據(jù),能評估科研人員在學科領(lǐng)域內(nèi)的影響力、活躍度,及其科技服務(wù)滿意度。
值得指出的是,“論文、職稱、學歷、獎項”不再根據(jù)其論文數(shù)量、職稱高低、學歷高低以及獎項多寡來評價人才,而是通過語義挖掘計算方法評估論文的影響力,以及職稱、學歷和成果的相關(guān)度,高相關(guān)度意味著人才更高的成果凝練度和學科聚焦度。
4“破四唯”背景下高校圖書館科研人才畫像應(yīng)用案例
“破四唯”要求中,論文是被重點關(guān)注的對象。2020年2月18日,教育部、科技部聯(lián)合印發(fā)《關(guān)于規(guī)范高等學校SCI論文相關(guān)指標使用,樹立正確評價導向的若干意見》[15],就“唯論文”問題提出需要健全分類評價體系:對于基礎(chǔ)研究,“評價重點是論文的創(chuàng)新水平和科學價值,不把SCI論文相關(guān)指標作為直接判斷依據(jù)”;對于應(yīng)用研究和技術(shù)創(chuàng)新,“評價重點是對解決生產(chǎn)實踐中關(guān)鍵技術(shù)問題的實際貢獻,以及帶來的新技術(shù)、新產(chǎn)品、新工藝,實現(xiàn)產(chǎn)業(yè)化應(yīng)用的實際效果,不以論文作為單一評價依據(jù)”。
根據(jù)上述文件精神,評價論文的關(guān)鍵在于評估論文發(fā)表后對科學領(lǐng)域或生產(chǎn)實踐領(lǐng)域產(chǎn)生的影響,即“論文影響力”,其計算方式是核心問題。結(jié)合圖1人才評價標簽?zāi)P?,以“論文影響力計算”為例,探討論文評價過程中人才標簽的應(yīng)用方法,具體過程如圖2所示。
4.1論文評價的數(shù)據(jù)來源
以論文評價為目的,數(shù)據(jù)來源包括高校圖書館大數(shù)據(jù)和社交網(wǎng)絡(luò)大數(shù)據(jù)。高校圖書館大數(shù)據(jù)包括中國知網(wǎng)、萬方數(shù)據(jù)庫,Science Direct、Springer Link等知名數(shù)據(jù)庫,收集了所有歷史及最新科研論文,其格式規(guī)范、內(nèi)容嚴謹,方便抽取標簽。社交網(wǎng)絡(luò)大數(shù)據(jù)包括對科研人員較高黏度的各類社交平臺,如科研人員在Research Gate、face- book、Twitter、新浪微博、微信公眾號和知乎網(wǎng)站等社交平臺上產(chǎn)生的網(wǎng)絡(luò)大數(shù)據(jù)。這些社交平臺的“分享”“關(guān)注”及“好友”功能可以非常精準地反映用戶的科研偏好或領(lǐng)域團體的共同科研話題。Research Gate是服務(wù)科研人才的著名社交網(wǎng)絡(luò)平臺,提供包括論文分享、轉(zhuǎn)載和話題討論等功能,擁有1 000多萬用戶;新浪微博、facebook、Twitter 的博主、微信公眾號或朋友圈、知乎網(wǎng)站上的“知乎專欄”中,常以某個專題推送專業(yè)領(lǐng)域的論文,并開放收藏、點贊與轉(zhuǎn)載功能,為論文評價提供了豐富和高價值的數(shù)據(jù)資源。
將上述兩類數(shù)據(jù)進行元數(shù)據(jù)統(tǒng)一建模,借助大數(shù)據(jù)計算平臺(如Hadoop+Spark+GraphX),經(jīng)過數(shù)據(jù)清洗、融合等語義計算和分析過程,形成格式一致、結(jié)構(gòu)清晰的數(shù)據(jù)并存儲,作為科研人才畫像的基礎(chǔ)大數(shù)據(jù)。
4.2論文評價的標簽抽取
結(jié)合“破四唯”的要求,抽取高校圖書館館藏數(shù)據(jù)庫中的論文信息,包括論文ID、作者、題名、關(guān)鍵詞、期刊名等論文題錄數(shù)據(jù),以及期刊類別、下載次數(shù)和被引次數(shù)等部分重要衍生數(shù)據(jù);抽取社交網(wǎng)絡(luò)中論文ID、作者、題名、社交平臺類別等信息,以及收藏次數(shù)、點贊次數(shù)、轉(zhuǎn)載次數(shù)等部分重要的衍生數(shù)據(jù)。然后,建立各自對應(yīng)的元數(shù)據(jù)模型,提取實體、關(guān)系和屬性,以便在分布式數(shù)據(jù)庫系統(tǒng)(如MonogoDB數(shù)據(jù)庫系統(tǒng))中進行存儲。
4.3論文影響力的計算方法
為了方便計算,需要引入論文ID,以唯一匹配高校館藏論文和社交網(wǎng)絡(luò)論文。其中,館藏論文相關(guān)數(shù)據(jù)包括:期刊類別,如SCI、EI、核心期刊、CSSCI、CSCD;下載次數(shù),用戶從專業(yè)數(shù)據(jù)庫中下載論文次數(shù);被引次數(shù),論文被引用次數(shù)。社交網(wǎng)絡(luò)數(shù)據(jù)包括:收藏次數(shù),被其他用戶收藏次數(shù);點贊次數(shù),被其他用戶點贊次數(shù);轉(zhuǎn)載次數(shù),被其他用戶轉(zhuǎn)載次數(shù)。論文影響力計算公式為:論文影響力=∑參數(shù)i*權(quán)重j,其中參數(shù)i1可以根據(jù)期刊的質(zhì)量和社會影響自行賦值,i2到i6直接來源于數(shù)據(jù)庫,權(quán)重j由研究者根據(jù)人才評價的具體目標或要求進行賦值。容易看出,參數(shù)i由期刊的檔次和用戶評價(下載、引用、轉(zhuǎn)載、收藏、點贊)的數(shù)據(jù)組成,再乘以權(quán)重j,最終結(jié)果體現(xiàn)了論文發(fā)表以后在高校館專業(yè)數(shù)據(jù)庫和社交網(wǎng)絡(luò)平臺上所產(chǎn)生的綜合影響力。
5結(jié)語
高校圖書館擁有海量的用戶屬性數(shù)據(jù)和個性化行為數(shù)據(jù)等資源,本文將其與社交網(wǎng)絡(luò)大數(shù)據(jù)資源深度融合,借助大數(shù)據(jù)平臺和語義分析工具,構(gòu)建的用戶人口屬性標簽和用戶科研屬性標簽個性化模型,可全面完整地刻畫科研人才的特征,以助力人才評價;表明高校圖書館大數(shù)據(jù)資源具有重要應(yīng)用價值,在新時代科研人才評價領(lǐng)域?qū)l(fā)揮不可替代的作用。
參考文獻:
[1]中共中央辦公廳、國務(wù)院辦公廳.關(guān)于深化項目評審、人才評價、機構(gòu)評估改革的意見[EB/OL].(2018-07-03)[2021-01-05].http://www.gov.cn/zhengce/2018-07/03/content_5303251.htm.
[2]劉云.“破四唯”能解決中國科技評價的問題癥結(jié)嗎?[J].科學學與科學技術(shù)管理,2020,41(08):3-6.
[3]吳智勤,李萍.大數(shù)據(jù)情境下高校圖書館科研用戶畫像構(gòu)建策略研究[J].江蘇理工學院學報,2019,25(6):117- 121.
[4]高廣尚.用戶畫像構(gòu)建方法研究綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(3):25-35.
[5] AL-SHAMRI M Y H. User profiling approaches for demographic recommender systems[J]. Knowledge- Based Systems,2016,100:175-187.
[6] BULUT Z A,DOG AN O. The ABCD typology:profile and motivations of Turkish social network sites users[J]. Computers in Human Behavior,2017,67:73-83.
[7] JOSEPH K,WEI W,CARLEY K M. Exploring patterns of identity usage in tweets:a new problem,solution and case study[C]//WWW '16:Proceedings of the 25th International Conference on World Wide Web. 2016:401-412.
[8]牛溫佳.用戶網(wǎng)絡(luò)行為畫像[M].北京:電子工業(yè)出版社,2016:9-15.
[9]廖運平,盧明芳,楊思洛.大數(shù)據(jù)視域下智慧圖書館用戶畫像研究[J].國家圖書館學刊,2020,29(3):73-82.
[10]于興尚,王迎勝.面向精準化服務(wù)的圖書館用戶畫像模型構(gòu)建[J].圖書情報工作,2019,63(22):41-48.
[11]高揚,池雪花,章成志,等.杰出人才精準畫像構(gòu)建研究:以智能制造領(lǐng)域為例[J].圖書館論壇,2019,39(6):90-97.
[12]鄭昂,曾建勛.數(shù)字圖書館學者庫構(gòu)建方式研究[J].圖書情報工作,2020,64(5):133-140.
[13]彭程程,吳斌.“智慧校園”學者畫像系統(tǒng)研究[J].數(shù)字圖書館論壇,2019(2):2-11.
[14]宋美琦,陳燁,張瑞.用戶畫像研究述評[J].情報科學,2019,37(4):171-177.
[15]教育部、科技部.《關(guān)于規(guī)范高等學校SCI論文相關(guān)指標使用樹立正確評價導向的若干意見》的通知[EB/OL].(2020-02-18)[2021-01-05].http://www.gov.cn/zhengce/zhengceku/2020-03/03/content_5486229.htm.
Construction of Research Talent Portrait Label Model Under the Background of “Breaking Four-only”
HE Sheng1,LI Ping2,SHI Hang1,XI Haixu1,WU Zhiqin3
(1.School of Computer Engineering,Jiangsu University of Technology,Changzhou 213001,China;2.Institute of Foreign Languages,Jiangsu University of Technology,Changzhou 213001,China;3.Jiangsu University of Technology Library,Changzhou 213001,China)
Abstract:“Breaking the Four-only”is an important decision made by the Party Central Committee and the State Council on the issue of “talent evaluation ”.Under the guidance of the spirit of “breaking the four-only ”,based on the big data of university libraries and social networks,the label model of scientific research talent portraits is scientifically constructed,and taking paper evaluation as an example,the application scheme of the label model is discussed. This study can provide useful reference on the establishment of new evaluation system for scientific research talents under the requirement of “breaking the four-only”.
Key words:user portrait;talent evaluation;university libraries big data;breaking the four-only