• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      科研人員畫(huà)像構(gòu)建方法研究

      2022-08-31 15:35:08張志剛王卓昊
      情報(bào)學(xué)報(bào) 2022年8期
      關(guān)鍵詞:畫(huà)像科研人員標(biāo)簽

      王 東,李 青,張志剛,王卓昊

      (中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)

      根據(jù)國(guó)家統(tǒng)計(jì)局2019 年發(fā)布的新中國(guó)成立70周年經(jīng)濟(jì)社會(huì)發(fā)展成就系列報(bào)告,2018 年我國(guó)按折合全時(shí)工作量計(jì)算的科研人員總量已達(dá)到419 萬(wàn)人年,連續(xù)6 年位居世界第一[1]。隨著科研人員規(guī)模的不斷擴(kuò)大,科技管理工作面臨著嚴(yán)峻的挑戰(zhàn)。一方面,科研人員相關(guān)數(shù)據(jù)分散在不同地方、不同層級(jí)、不同機(jī)構(gòu)中,難以快速靈活地對(duì)其進(jìn)行整合和分析;另一方面,現(xiàn)階段的科研人員評(píng)價(jià)機(jī)制不同程度地存在唯論文、唯職稱、唯學(xué)歷、唯獎(jiǎng)項(xiàng)傾向,忽略了科研人員的品德、能力、業(yè)績(jī)等重要信息,因此難以全面地刻畫(huà)科研人員。為解決以上問(wèn)題,本文根據(jù)新形勢(shì)下黨中央和國(guó)務(wù)院關(guān)于深化科技人才評(píng)價(jià)改革的決策部署[2],提出了一套科研人員畫(huà)像構(gòu)建方法,旨在對(duì)科研人員的多個(gè)維度的數(shù)據(jù)進(jìn)行整合和分析,進(jìn)而直觀地展示科研人員的各方面特征,有利于科技管理部門全面了解科研人員現(xiàn)狀。

      在大數(shù)據(jù)時(shí)代,用戶的各種行為都會(huì)在互聯(lián)網(wǎng)上留下記錄,為了通過(guò)這些記錄挖掘出用戶的行為特征和興趣愛(ài)好,進(jìn)而實(shí)現(xiàn)個(gè)性化推薦、精準(zhǔn)營(yíng)銷等場(chǎng)景,用戶畫(huà)像應(yīng)運(yùn)而生。用戶畫(huà)像(user pro‐file)本質(zhì)上是一套描述用戶的興趣、特征、行為、偏好等信息的框架,最早由交互設(shè)計(jì)之父Alan Coo‐per 提出[3],它是根據(jù)用戶的真實(shí)數(shù)據(jù)建立的抽象化、標(biāo)簽化的用戶模型,目前在電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域中有著廣泛的應(yīng)用。本文基于用戶畫(huà)像相關(guān)理論和技術(shù),根據(jù)科研人員的行為特征和工作特點(diǎn),圍繞其人員屬性和科研屬性2 個(gè)維度,抽象出科研人員畫(huà)像。

      1 研究現(xiàn)狀

      在早些年,用戶畫(huà)像主要應(yīng)用于精準(zhǔn)營(yíng)銷、個(gè)性化推薦等領(lǐng)域[4-7];近年來(lái),借助用戶畫(huà)像技術(shù)來(lái)描述和評(píng)價(jià)科研人員已經(jīng)成為國(guó)內(nèi)外情報(bào)學(xué)研究的熱點(diǎn)之一。在國(guó)外,Sateli 等[8]提出了一套名為ScholarLens 的科研人員畫(huà)像構(gòu)建方法,該方法借助NLP(natural language processing)等技術(shù),可以自動(dòng)地從各類出版物中提取作者的研究方向、研究能力等信息,進(jìn)而基于資源描述框架(resource de‐scription framework,RDF)生成科研人員畫(huà)像,并介紹了其在關(guān)鍵詞搜索排名、審稿人推薦等方面的應(yīng)用。Bravo 等[9]從個(gè)人標(biāo)識(shí)(identification)、研究興趣(interests)、研究目標(biāo)(objectives)、可達(dá)性(accessibility)、 文 憑(transcription)、 專 業(yè) 技 能(skills)、隸屬關(guān)系(affiliation)7 個(gè)方面構(gòu)建了科研人員畫(huà)像。Boussaadi 等[10]基于科研人員的論文數(shù)據(jù),借助LDA(latent Dirichlet allocation)主題模型構(gòu)建出科研人員畫(huà)像,并討論了使用Gensim 和Mallet 兩種LDA 實(shí)現(xiàn)方式對(duì)描述科研人員研究興趣與能力的影響。

      在國(guó)內(nèi),袁偉等[11]從引領(lǐng)前沿、學(xué)術(shù)影響、頂尖成果和國(guó)際視野4 個(gè)方面闡述了頂尖科技專家的主要特征,在此基礎(chǔ)上遴選出811 個(gè)頂尖華人科技專家,然后借助畫(huà)像系統(tǒng)研究了其在機(jī)構(gòu)類型分布、地區(qū)分布、學(xué)科分布等方面的結(jié)構(gòu)和特點(diǎn)。高揚(yáng)等[12]以智能制造領(lǐng)域?yàn)槔瑥幕緦傩?、研究興趣、學(xué)術(shù)影響力3 個(gè)維度構(gòu)建了該領(lǐng)域杰出人才的畫(huà)像模型,進(jìn)而借助統(tǒng)計(jì)分析揭示了其群體特征。彭程程等[13]根據(jù)個(gè)人信息、合作關(guān)系和學(xué)術(shù)譜系3 個(gè)維度提出了一套智慧校園學(xué)者畫(huà)像系統(tǒng),并在此基礎(chǔ)上研究了團(tuán)隊(duì)核心人物演化等問(wèn)題。焦特等[14]結(jié)合新生代科研人才的特點(diǎn),從知識(shí)、技能、業(yè)績(jī)、創(chuàng)新、心理健康及身體健康6 個(gè)維度對(duì)其進(jìn)行畫(huà)像構(gòu)建,以便對(duì)新生代人才進(jìn)行精準(zhǔn)培養(yǎng)和行為預(yù)警。

      總體而言,國(guó)內(nèi)外對(duì)于科研人員畫(huà)像已經(jīng)取得了一定的成果,但仍然存在較多問(wèn)題。一方面是大部分的畫(huà)像標(biāo)簽仍局限在學(xué)術(shù)成果和科研項(xiàng)目上,沒(méi)有囊括科研人員的關(guān)系網(wǎng)絡(luò)、科研信用等方面的信息,因此不夠全面細(xì)致;另一方面是大部分畫(huà)像系統(tǒng)只是對(duì)科研人員信息進(jìn)行羅列或簡(jiǎn)單的統(tǒng)計(jì),信息的利用率不高,導(dǎo)致畫(huà)像系統(tǒng)所能提供的信息不夠深入透徹。

      針對(duì)以上問(wèn)題,本文提出了一種多維度覆蓋、多技術(shù)融合的科研人員畫(huà)像構(gòu)建方法。一方面,在畫(huà)像標(biāo)簽體系中設(shè)立了人員屬性和科研屬性2 個(gè)維度,其中科研屬性維度涵蓋了科研能力、關(guān)系網(wǎng)絡(luò)和科研信用3 個(gè)子維度的標(biāo)簽,因此相較于現(xiàn)有畫(huà)像系統(tǒng)更加全面細(xì)致;另一方面,本文引入了機(jī)器學(xué)習(xí)等技術(shù),提出了實(shí)體/關(guān)系抽取以及科研能力計(jì)算、關(guān)系網(wǎng)絡(luò)構(gòu)建、科研信用分析等模型,可以基于科研人員的原始數(shù)據(jù)分析預(yù)測(cè)出更深層次的信息,切實(shí)提高畫(huà)像系統(tǒng)的應(yīng)用價(jià)值。

      2 科研人員畫(huà)像模型構(gòu)建

      本文圍繞科研人員的兩個(gè)屬性維度,提出科研人員畫(huà)像標(biāo)簽體系,如圖1 所示。同時(shí),本文提出一套完整的科研人員畫(huà)像構(gòu)建模型,其整體架構(gòu)如2.1 節(jié)所述。此外,為了深入挖掘科研人員的潛在標(biāo)簽,本模型集成了多種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),形成多個(gè)功能子模型,本節(jié)重點(diǎn)介紹實(shí)體抽取子模型和潛力預(yù)測(cè)子模型。

      圖1 科研人員畫(huà)像的標(biāo)簽體系

      2.1 整體架構(gòu)

      科研人員畫(huà)像模型主要分為三層,分別是數(shù)據(jù)支撐層、數(shù)據(jù)挖掘?qū)雍彤?huà)像展示層,如圖2 所示。首先,數(shù)據(jù)支撐層主要用于采集和存儲(chǔ)構(gòu)建畫(huà)像所需的各種原始數(shù)據(jù)。然后,數(shù)據(jù)挖掘?qū)咏柚鞣N模型從原始數(shù)據(jù)中挖掘出更深層次的信息,這里的模型主要包括兩類,一類是以實(shí)體抽取為核心的自然語(yǔ)言處理模型,它是后續(xù)進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ);一類是為提取科研人員畫(huà)像標(biāo)簽而打造的模型,主要包括人員屬性標(biāo)簽提取模型、科研能力計(jì)算模型、關(guān)系網(wǎng)絡(luò)構(gòu)建模型和科研信用分析模型。最后,畫(huà)像展示層將各類原始信息和處理后的信息進(jìn)行整合,形成科研人員畫(huà)像的人員屬性標(biāo)簽和科研屬性標(biāo)簽,在畫(huà)像構(gòu)建完成后,還可使用數(shù)據(jù)可視化工具將科研人員畫(huà)像直觀形象地呈現(xiàn)出來(lái)。

      圖2 科研人員畫(huà)像模型整體架構(gòu)

      2.2 實(shí)體抽取模型

      實(shí)體抽取作為自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)任務(wù)之一,也是本文進(jìn)行科研人員標(biāo)簽提取的關(guān)鍵技術(shù)之一。在采集到科研人員的原始數(shù)據(jù)后,一般都需要從文本中進(jìn)行實(shí)體抽取,抽取出的實(shí)體既可以作為部分標(biāo)簽的直接結(jié)果,又可作為深入挖掘標(biāo)簽的文本特征,因此對(duì)整個(gè)畫(huà)像模型具有重要意義。

      實(shí)體抽取技術(shù)主要用于識(shí)別出文本中的人名、地名、組織名等實(shí)體,在本文中,需要抽取的實(shí)體主要包括科研人員姓名、科研機(jī)構(gòu)名稱以及各類專業(yè)術(shù)語(yǔ)等。自20 世紀(jì)90 年代以來(lái),基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法逐漸成為實(shí)體抽取的主流,并且取得了不錯(cuò)的效果,其中具有代表性的模型包括隱馬爾可夫模型(hidden Markov model,HMM)、最大熵模型(maximum entropy model)以及條件隨機(jī)場(chǎng)(condi‐tional random field,CRF)等。

      進(jìn)入21 世紀(jì),隨著深度學(xué)習(xí)的流行,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等神經(jīng)網(wǎng)絡(luò)模型被逐漸應(yīng)用到實(shí)體抽取領(lǐng)域,特別是以Bi-LSTM-CRF (bi-directional long short-term memory CRF)模型為代表的實(shí)體抽取模型在許多領(lǐng)域都表現(xiàn)出了較強(qiáng)的性能,但是該模型的一個(gè)問(wèn)題在于,在輸入層往往需要將句子轉(zhuǎn)換成詞向量的形式,而由于分詞結(jié)果難免出現(xiàn)錯(cuò)誤,所以輸入層的誤差會(huì)逐層傳播,影響到最終的實(shí)體抽取效果。因此,本文對(duì)Bi-LSTM-CRF 模型的輸入層進(jìn)行了改進(jìn),提出了一種基于詞匯增強(qiáng)的實(shí)體抽取模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

      圖3 基于詞匯增強(qiáng)的Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)

      本文提出的模型與傳統(tǒng)的Bi-LSTM-CRF 模型最主要的區(qū)別在于,其輸入層同時(shí)采用了字嵌入和詞嵌入兩種表示形式。在字嵌入層面,使用預(yù)訓(xùn)練的BERT(bidirectional encoder representation from trans‐formers)模型獲得每個(gè)字符對(duì)應(yīng)的字向量,從而引入了字符級(jí)別的信息。在詞嵌入層面,為了避免分詞錯(cuò)誤造成的誤差傳播,本文通過(guò)查找詞匯表獲得所有可能的分詞結(jié)果,然后根據(jù)詞頻將對(duì)應(yīng)的詞向量進(jìn)行歸一化,從而獲得最終的詞向量。通過(guò)這種方式可以有效降低錯(cuò)誤分詞結(jié)果的權(quán)重。

      對(duì)于由n個(gè)字符構(gòu)成的句子S={c1,c2,…,cn},使用BERT 模型獲得每個(gè)字符對(duì)應(yīng)的字向量,即其中,ci表示第i個(gè)字符;表示第i個(gè)字符對(duì)應(yīng)的字向量。

      對(duì)于上述的句子S,如果要獲得對(duì)應(yīng)的詞向量形式,首先需要掃描整個(gè)句子,獲得其在詞匯表中出現(xiàn)的所有單詞,然后借助訓(xùn)練好的word2vec 模型獲得單詞對(duì)應(yīng)的詞向量,最后根據(jù)詞頻計(jì)算出每個(gè)字符所匹配到單詞詞向量的歸一化形式,作為該字符對(duì)應(yīng)的詞向量結(jié)果,即

      其中,V w i表示第i個(gè)字符對(duì)應(yīng)的詞向量結(jié)果;w表示該字符所匹配到的某個(gè)單詞;S表示該字符匹配到的所有單詞的集合;f(w)表示單詞w的詞頻;ew表示單詞w對(duì)應(yīng)的詞向量;edefault表示第i個(gè)字符未匹配到任何單詞時(shí)所賦予其的詞向量結(jié)果,既可以為零向量,也可以為所有單詞詞向量的平均值。

      舉例來(lái)說(shuō),對(duì)于“武漢市長(zhǎng)江大橋?qū)⒂谀陜?nèi)竣工”這句話,通過(guò)在詞匯表中掃描,發(fā)現(xiàn)“武”對(duì)應(yīng)的單詞包括{“武漢”:108次,“武漢市”:92次,“武漢市長(zhǎng)”:29次},則“武”對(duì)應(yīng)的詞向量為“武漢”“武漢市”“武漢市長(zhǎng)”3 個(gè)單詞對(duì)應(yīng)詞向量乘以詞頻然后歸一化的結(jié)果。

      在獲得第i個(gè)字符對(duì)應(yīng)的字向量和詞向量后,進(jìn)行拼接即可獲得該字符在嵌入層對(duì)應(yīng)的向量Vi,即

      在獲得嵌入層的結(jié)果后,將其輸入Bi-LSTMCRF 模型,即可獲得實(shí)體抽取的結(jié)果。

      2.3 科研屬性標(biāo)簽抽取模型

      2.3.1 科研能力計(jì)算模型

      1)綜合實(shí)力計(jì)算

      綜合實(shí)力是了解科研人員最直觀的指標(biāo),它從論文、專利、項(xiàng)目等方面對(duì)科研人員的能力進(jìn)行全方位的衡量。在本文中,綜合實(shí)力通過(guò)一個(gè)在[0,100]范圍內(nèi)的值CS(comprehensive strength) 表征,該值由論文得分P1、專利得分P2和項(xiàng)目P3得分加權(quán)求和得出。

      在論文方面,本文的數(shù)據(jù)一部分來(lái)自中國(guó)知網(wǎng)、SpringerLink 等數(shù)據(jù)庫(kù),另一部分來(lái)自Research‐Gate、知乎、微信公眾號(hào)等互聯(lián)網(wǎng)平臺(tái)數(shù)據(jù),由于這些平臺(tái)提供了論文分享、討論等功能,所以可以在一定程度上反映出論文的影響力和學(xué)術(shù)價(jià)值。

      論文得分P1由上述兩類數(shù)據(jù)的部分指標(biāo)加權(quán)求和得出,各指標(biāo)取值及其權(quán)重如表1 所示。

      表1 論文得分相關(guān)的指標(biāo)取值和權(quán)重

      其中,期刊/會(huì)議級(jí)別的取值v1可根據(jù)實(shí)際情況自行賦值,其余指標(biāo)的取值v2~v8可直接采用指標(biāo)的統(tǒng)計(jì)結(jié)果賦值。根據(jù)表1,可計(jì)算出論文得分

      在專利方面,本文僅考慮國(guó)家發(fā)明專利,專利得分P2的取值即為科研人員所獲授權(quán)國(guó)家發(fā)明專利的數(shù)量。

      在項(xiàng)目方面,由于科研項(xiàng)目的等級(jí)以及在其中扮演的角色都在一定程度上反映了科研人員的綜合實(shí)力,因此項(xiàng)目得分P3的計(jì)算方式為其中l(wèi)i和ri分別表示科研人員所參與項(xiàng)目的等級(jí)和在其中扮演的角色,具體標(biāo)準(zhǔn)如表2 和表3 所示。

      表2 科研項(xiàng)目等級(jí)計(jì)分標(biāo)準(zhǔn)

      表3 人員角色權(quán)重分配標(biāo)準(zhǔn)

      在計(jì)算出論文得分P1、專利得分P2和項(xiàng)目P3得分后,即可計(jì)算出科研人員的綜合實(shí)力得分:

      其中,α、β、γ分 別表 示P1、P2、P3的 權(quán)重,α+β+γ= 1。在計(jì)算出綜合實(shí)力得分CS 后,將所有科研人員的該項(xiàng)得分除以最高得分,即可獲得歸一化后的綜合實(shí)力得分。

      2)科研潛力計(jì)算

      根據(jù)《中國(guó)科技人才發(fā)展報(bào)告(2020)》的相關(guān)數(shù)據(jù),2019 年我國(guó)國(guó)家自然科學(xué)獎(jiǎng)獲獎(jiǎng)成果完成人的平均年齡為44.6 歲,超過(guò)60%的完成人是年齡不足45 歲的青年才俊。再如,從國(guó)家重點(diǎn)研發(fā)計(jì)劃實(shí)施情況來(lái)看,45 歲以下的科研人員占全體參研人員的比重達(dá)到了80%以上。由此可以看出,青年人才已經(jīng)逐漸成為我國(guó)科研人員的主力軍。因此,如何合理評(píng)估青年科研人員的潛力,從而對(duì)其進(jìn)行定向培養(yǎng)已經(jīng)成為情報(bào)學(xué)界的重要研究問(wèn)題。針對(duì)這個(gè)問(wèn)題,本文提出了一種基于LVQ(learning vec‐tor quantization) 神經(jīng)網(wǎng)絡(luò)的科研人員潛力預(yù)測(cè)模型。

      LVQ 即學(xué)習(xí)向量量化模型,屬于前向神經(jīng)網(wǎng)絡(luò)模型,它基于統(tǒng)計(jì)分布的自適應(yīng)數(shù)據(jù)分類思想,可以通過(guò)競(jìng)爭(zhēng)性的隱含層實(shí)現(xiàn)函數(shù)傳遞,因此其隱含層也常被稱為競(jìng)爭(zhēng)層。LVQ 神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成。其中,輸入層和隱含層之間為全連接,而隱含層和輸出層之間為部分連接,也即每個(gè)輸出層神經(jīng)元與隱含層神經(jīng)元的不同組相連接。

      隱含層神經(jīng)元個(gè)數(shù)總是大于輸出層神經(jīng)元個(gè)數(shù),隱含層神經(jīng)元和輸出層神經(jīng)元的值只能為1 或0,而兩層神經(jīng)元之間的連接權(quán)值固定為1。在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,輸入層和隱含層神經(jīng)元間的權(quán)值將被修改,即當(dāng)某個(gè)輸入模式被送至網(wǎng)絡(luò)時(shí),與輸入模式距離最近的隱含層神經(jīng)元被激活而贏得競(jìng)爭(zhēng),其狀態(tài)變?yōu)椤?”,但其它隱含層神經(jīng)元的狀態(tài)均為“0”。因此,與被激活神經(jīng)元相連接的輸出神經(jīng)元也發(fā)出“1”,而其他輸出層神經(jīng)元狀態(tài)均為“0”[15],如圖4 所示。

      圖4 LVQ模型的計(jì)算方式[15]

      在本文中,科研人員潛力預(yù)測(cè)被當(dāng)作一個(gè)分類任務(wù),即將科研人員潛力從高到低分為5 個(gè)等級(jí),分別是Ⅰ級(jí)、Ⅱ級(jí)、Ⅲ級(jí)、Ⅳ級(jí)、Ⅴ級(jí)。使用LVQ 神經(jīng)網(wǎng)絡(luò)進(jìn)行潛力預(yù)測(cè)的具體步驟如下。

      (1)采集數(shù)據(jù)。通過(guò)查閱大量文獻(xiàn),本文共確定并采集了10 類與科研潛力有關(guān)的指標(biāo),如表4 所示。完成數(shù)據(jù)采集后,按照8∶2 劃分訓(xùn)練集和測(cè)試集。

      表4 科研人員潛力預(yù)測(cè)模型所需指標(biāo)

      (2)初始化神經(jīng)網(wǎng)絡(luò)。LVQ 神經(jīng)網(wǎng)絡(luò)具有不需要對(duì)輸入向量歸一化以及正交化的特點(diǎn),利用MATLAB 中神經(jīng)網(wǎng)絡(luò)工具箱函數(shù)可創(chuàng)建LVQ 神經(jīng)網(wǎng)絡(luò)。

      (3)模型訓(xùn)練。將訓(xùn)練集作為L(zhǎng)VQ 神經(jīng)網(wǎng)絡(luò)的輸入向量,利用LVQ2 算法對(duì)網(wǎng)絡(luò)的權(quán)值進(jìn)行調(diào)整,直到滿足訓(xùn)練要求迭代終止。

      (4)模型驗(yàn)證。網(wǎng)絡(luò)通過(guò)訓(xùn)練后,可對(duì)測(cè)試集中的樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),獲得對(duì)應(yīng)的輸出結(jié)果,將該結(jié)果與人為識(shí)別的結(jié)果進(jìn)行對(duì)比,以此來(lái)評(píng)判模型的質(zhì)量。

      3)社會(huì)影響力計(jì)算

      社會(huì)影響力主要依據(jù)科研人員的頭銜、獎(jiǎng)勵(lì)和學(xué)術(shù)機(jī)構(gòu)任職等情況而確定,并由一個(gè)取值在[0,100]范圍內(nèi)的Y表示,該值由頭銜得分Y1、獎(jiǎng)勵(lì)得分Y2、職稱得分Y3和任職得分Y4計(jì)算得到,如表5 所示。表5 中的得分屬性可根據(jù)不同要求和情況進(jìn)一步優(yōu)化、調(diào)整與配置。

      表5 社會(huì)影響力評(píng)分標(biāo)準(zhǔn)

      社會(huì)影響力得分Y的計(jì)算方法為:先從Y1、Y2、Y3這3 個(gè)子指標(biāo)中選取值最大的一項(xiàng),然后加上Y4的得分,最后進(jìn)行歸一化,即

      2.3.2 關(guān)系網(wǎng)絡(luò)構(gòu)建模型

      科研人員的關(guān)系網(wǎng)絡(luò)是了解科研人員行為特征的重要參考之一,因此本文將關(guān)系網(wǎng)絡(luò)納入科研人員畫(huà)像中,主要包括三類關(guān)系,分別是科研團(tuán)隊(duì)關(guān)系、合作學(xué)者關(guān)系和師生傳承關(guān)系。其中,學(xué)界對(duì)前兩類關(guān)系的研究較為成熟,對(duì)應(yīng)的提取方法也較為簡(jiǎn)單,例如,科研團(tuán)隊(duì)關(guān)系可以從項(xiàng)目承擔(dān)團(tuán)隊(duì)名單中直接提取,合作學(xué)者關(guān)系可以從論文合著作者或?qū)@餐l(fā)明人中直接提取。但是,目前對(duì)第三類關(guān)系即師生傳承關(guān)系的研究較少,師生傳承關(guān)系在眾多科研領(lǐng)域中廣泛存在,在很大程度上影響到科研人員個(gè)人和群體的發(fā)展走向,因此研究如何提取這類關(guān)系具有重要意義。

      本文試圖沿著兩個(gè)途徑提取科研人員的師生傳承關(guān)系。一個(gè)途徑是直接提取學(xué)位論文庫(kù)的結(jié)構(gòu)化數(shù)據(jù),從作者和指導(dǎo)教師字段構(gòu)建師生關(guān)系;另一個(gè)途徑是借助基于CNN、RNN、GCN(graph con‐volutional network)分類的關(guān)系提取方法,從科研人員的論文致謝、個(gè)人博客、學(xué)術(shù)論壇、新聞報(bào)道等文本中,自動(dòng)地提取出 老師,指導(dǎo),學(xué)生 三元組,進(jìn)而形成師生關(guān)系網(wǎng)絡(luò)。在構(gòu)建出師生關(guān)系網(wǎng)絡(luò)后,還可通過(guò)簡(jiǎn)單的規(guī)則推導(dǎo)出同門關(guān)系,從而完善整個(gè)關(guān)系網(wǎng)絡(luò)。如圖5 所示。

      圖5 師承關(guān)系提取流程圖

      2.3.3 科研信用分析模型

      近年來(lái),部分科研人員涉嫌學(xué)術(shù)不端的事件時(shí)有發(fā)生,給所在機(jī)構(gòu)乃至整個(gè)學(xué)術(shù)界造成了較大的影響。因此,本文將科研信用作為科研人員畫(huà)像的標(biāo)簽之一,希望能從新聞報(bào)道或管理部門公告等數(shù)據(jù)中自動(dòng)提取出科研人員所涉及的學(xué)術(shù)不端事件,作為科研人員的信用標(biāo)簽。

      科研信用分析模型的具體步驟為:首先通過(guò)網(wǎng)絡(luò)爬蟲(chóng)采集大量的新聞報(bào)道和科技管理部門公告等文本數(shù)據(jù),然后利用實(shí)體抽取模型識(shí)別出其中的科研人員姓名實(shí)體,同時(shí)將學(xué)術(shù)不端關(guān)鍵詞庫(kù)與文本數(shù)據(jù)進(jìn)行匹配,若文本數(shù)據(jù)中存在學(xué)術(shù)不端相關(guān)關(guān)鍵詞,則初步認(rèn)定該科研人員涉嫌學(xué)術(shù)不端,并生成對(duì)應(yīng)的信用標(biāo)簽。由于學(xué)術(shù)不端行為發(fā)生的概率較低,并且其真?zhèn)涡孕枰獙<医槿胝{(diào)查,因此,在產(chǎn)生負(fù)面的信用標(biāo)簽后,還需要人工審核以決定該標(biāo)簽是否納入最終的畫(huà)像系統(tǒng)中。如圖6 所示。

      圖6 科研信用標(biāo)簽提取步驟

      3 科研人員畫(huà)像構(gòu)建實(shí)例

      為了證實(shí)方法的可行性,本文以部分科研人員為例,給出了其畫(huà)像的具體構(gòu)建過(guò)程,并借助數(shù)據(jù)可視化的方式將構(gòu)建結(jié)果直觀地展示出來(lái)。

      3.1 數(shù)據(jù)收集

      構(gòu)建科研人員畫(huà)像相關(guān)的數(shù)據(jù)類型、包含信息和來(lái)源如表6 所示。

      表6 科研人員畫(huà)像涉及的數(shù)據(jù)類型、包含信息和來(lái)源

      3.2 數(shù)據(jù)預(yù)處理

      在本文中,數(shù)據(jù)預(yù)處理階段除了常見(jiàn)的數(shù)據(jù)統(tǒng)一、數(shù)據(jù)去重等操作外,還需要進(jìn)行姓名消歧操作。

      在各類學(xué)術(shù)出版物中,姓名歧義問(wèn)題經(jīng)常出現(xiàn),它主要有兩方面的含義[16]:一是同名異人問(wèn)題,即不同的人可能擁有相同的姓名,這種問(wèn)題在中文著作中較為常見(jiàn);二是同人異名問(wèn)題,即同一個(gè)人具有不同的姓名,例如,“施一公”對(duì)應(yīng)的外文名包括“Shi Yigong”“Shi YG”“Shi Y.G.”等,這種問(wèn)題在外文著作中較為常見(jiàn)。由于姓名歧義問(wèn)題的存在,在數(shù)據(jù)收集階段獲得的原始數(shù)據(jù)可能存在錯(cuò)誤,因此必須使用姓名消歧技術(shù)對(duì)其進(jìn)行預(yù)處理。目前姓名消歧的主要思路是利用圖模型和網(wǎng)絡(luò)關(guān)系等方法計(jì)算得到出版物之間的相似度,然后通過(guò)聚類的方式進(jìn)行姓名統(tǒng)一。本文使用經(jīng)典的Kmeans 算法對(duì)收集到的論文進(jìn)行聚類,聚類的簇?cái)?shù)使用肘方法(elbow method)[17]確定,然后將聚為一類的論文所對(duì)應(yīng)的作者姓名統(tǒng)一,達(dá)到消歧的目的。

      在姓名消歧完成后,即可將數(shù)據(jù)存入數(shù)據(jù)庫(kù)中,本文采用Neo4j 數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ)。Neo4j 是一種NoSQL 圖形數(shù)據(jù)庫(kù),相對(duì)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),它支持更多的數(shù)據(jù)類型,并且具有高性能、輕量級(jí)、可擴(kuò)展等優(yōu)勢(shì)。在存入數(shù)據(jù)庫(kù)后,一方面,需要對(duì)時(shí)間、日期、單位等字段的格式進(jìn)行統(tǒng)一;另一方面,由于不同數(shù)據(jù)庫(kù)所收錄的數(shù)據(jù)可能存在重復(fù)現(xiàn)象,因此還需要對(duì)數(shù)據(jù)記錄進(jìn)行去重操作。

      3.3 標(biāo)簽生成與畫(huà)像可視化

      借助上文所述的實(shí)體抽取模型以及科研能力計(jì)算模型、關(guān)系網(wǎng)絡(luò)構(gòu)建模型和科研信用分析模型,可生成科研人員畫(huà)像所需的各種標(biāo)簽數(shù)據(jù)。為了更加形象、直觀地展示各類標(biāo)簽,本文采用數(shù)據(jù)可視化的方式對(duì)標(biāo)簽進(jìn)行加工處理,部分結(jié)果如圖7~圖9 所示。

      圖7 科研人員基本信息、工作方向、科研成果及獲獎(jiǎng)情況

      圖9 科研人員綜合實(shí)力、科研潛力、社會(huì)影響力得分

      4 科研人員畫(huà)像構(gòu)建所面臨的問(wèn)題

      (1)科研人員畫(huà)像的時(shí)效性有待提升。

      在個(gè)性化推薦、精準(zhǔn)營(yíng)銷等場(chǎng)景中,用戶畫(huà)像所使用的數(shù)據(jù)大多來(lái)源于日志等互聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù),因此構(gòu)建出的用戶畫(huà)像與實(shí)際的目標(biāo)用戶特征差異相對(duì)較小,時(shí)效性也相對(duì)較好。然而,科研人員畫(huà)像的數(shù)據(jù)來(lái)源有相當(dāng)一部分是其產(chǎn)出的各類文獻(xiàn),這些文獻(xiàn)從開(kāi)題到發(fā)表之間的時(shí)間較長(zhǎng),因此構(gòu)建出的畫(huà)像時(shí)效性會(huì)受到較大影響[18]。例如,在2018年公布的國(guó)家重點(diǎn)研發(fā)計(jì)劃申報(bào)指南“基于立體精準(zhǔn)畫(huà)像的學(xué)術(shù)同行分類與推薦系統(tǒng)”中,就要求“個(gè)體科研行為畫(huà)像與真實(shí)行為的時(shí)間間隔在72 小時(shí)以內(nèi)”,這無(wú)疑是一個(gè)很大的挑戰(zhàn)。為了達(dá)到這一要求,未來(lái)可以考慮多引入一些互聯(lián)網(wǎng)上科研人員之間的相互評(píng)價(jià)、互動(dòng)等實(shí)時(shí)數(shù)據(jù)。

      (2)科研人員畫(huà)像的質(zhì)量難以評(píng)價(jià)。

      圖8 科研人員經(jīng)歷

      目前,對(duì)科研人員畫(huà)像的研究大多集中于數(shù)據(jù)集成或標(biāo)簽構(gòu)建方面,尚未提出一種行之有效的畫(huà)像質(zhì)量評(píng)價(jià)方法,因此無(wú)法確定構(gòu)建出的科研人員畫(huà)像的質(zhì)量好壞。為了解決該問(wèn)題,一方面可以將科研人員畫(huà)像應(yīng)用于人才評(píng)價(jià)、專家推薦、項(xiàng)目申報(bào)等下游任務(wù)中,根據(jù)下游任務(wù)的反饋來(lái)評(píng)判畫(huà)像質(zhì)量的好壞;另一方面,針對(duì)高層次的科研人員,可以直接采集本人或者權(quán)威同行對(duì)其畫(huà)像的意見(jiàn),從而獲得一手的評(píng)價(jià)結(jié)果和改進(jìn)方向。

      5 小 結(jié)

      為了有效利用散亂在各個(gè)數(shù)據(jù)源的科研人員信息,并對(duì)其整合以便全面、直觀地了解科研人員,本文基于機(jī)器學(xué)習(xí)的實(shí)體抽取模型以及科研屬性標(biāo)簽抽取模型,提出了科研人員畫(huà)像的構(gòu)建方法。該方法從人員屬性、科研屬性兩個(gè)維度刻畫(huà)了科研人員信息,并借助可視化方法對(duì)科研人員的標(biāo)簽進(jìn)行處理。通過(guò)數(shù)據(jù)收集、預(yù)處理及可視化呈現(xiàn),對(duì)本文提出的畫(huà)像模型構(gòu)建方法進(jìn)行了驗(yàn)證,使科研人員的畫(huà)像情況得到了展現(xiàn),對(duì)科技管理、人才評(píng)價(jià)等場(chǎng)景起到了積極的作用。

      猜你喜歡
      畫(huà)像科研人員標(biāo)簽
      科技部等五部門聯(lián)合發(fā)文開(kāi)展減輕青年科研人員負(fù)擔(dān)專項(xiàng)行動(dòng)
      威猛的畫(huà)像
      科研人員破譯黑豬肉特征風(fēng)味物質(zhì)
      “00后”畫(huà)像
      畫(huà)像
      治療艾滋病,中國(guó)科研人員有了新發(fā)現(xiàn)
      廣東公安科研人員風(fēng)采
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      標(biāo)簽化傷害了誰(shuí)
      肥西县| 长岭县| 谢通门县| 威远县| 天水市| 改则县| 怀集县| 正蓝旗| 登封市| 琼结县| 博兴县| 融水| 鄂托克前旗| 五大连池市| 广安市| 临城县| 宁国市| 南溪县| 海淀区| 米脂县| 靖边县| 缙云县| 西和县| 荣成市| 鹤壁市| 兴业县| 林州市| 会同县| 绩溪县| 乐陵市| 县级市| 宁武县| 茌平县| 扎鲁特旗| 依安县| 信阳市| 阳江市| 印江| 延边| 凉山| 横山县|