• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機(jī)構(gòu)規(guī)范文檔構(gòu)建中機(jī)構(gòu)篩選方法研究

      2018-03-22 03:37:30,,
      關(guān)鍵詞:發(fā)文文檔規(guī)范

      , ,

      機(jī)構(gòu)在現(xiàn)代漢語(yǔ)字典中被定義為“泛指機(jī)關(guān)、團(tuán)體或其他工作單位”,全國(guó)組織機(jī)構(gòu)代碼管理中心把組織機(jī)構(gòu)定義為“依法成立的機(jī)關(guān)、事業(yè)、企業(yè)、社團(tuán)及其他依法成立的單位”。本文涉及的“機(jī)構(gòu)”指文獻(xiàn)中的機(jī)構(gòu),包括實(shí)體機(jī)構(gòu)和虛擬機(jī)構(gòu)。虛擬機(jī)構(gòu)主要是指分散于不同時(shí)間、空間和組織邊界的一起工作完成共同任務(wù)的團(tuán)體的結(jié)合[1],如網(wǎng)絡(luò)社區(qū)、專(zhuān)家委員會(huì)等,因此機(jī)構(gòu)數(shù)據(jù)的數(shù)量之大、類(lèi)型之復(fù)雜可見(jiàn)一斑。

      機(jī)構(gòu)數(shù)據(jù)具有以下兩大突出特點(diǎn):一是機(jī)構(gòu)數(shù)據(jù)來(lái)源廣泛,類(lèi)型豐富;二是機(jī)構(gòu)數(shù)據(jù)量大、更新速度快,這也是機(jī)構(gòu)規(guī)范文檔構(gòu)建難度大的主要原因。機(jī)構(gòu)的來(lái)源具有多種途徑,包括文獻(xiàn)、網(wǎng)絡(luò)等。文獻(xiàn)中作者標(biāo)注的作者單位準(zhǔn)確率高,文獻(xiàn)數(shù)據(jù)相對(duì)容易獲取,但是信息不夠豐富,僅包含機(jī)構(gòu)名稱(chēng)、地址、郵編等。網(wǎng)絡(luò)的迅速發(fā)展和高共享性,意味著其中包含的機(jī)構(gòu)信息比較豐富,來(lái)源廣泛,但是信息質(zhì)量良莠不齊。機(jī)構(gòu)合并、拆分、撤建等,新機(jī)構(gòu)的不斷產(chǎn)生,傳統(tǒng)機(jī)構(gòu)的淘汰,從數(shù)量的角度講機(jī)構(gòu)具有基數(shù)大且增長(zhǎng)速度快的特點(diǎn)。以上因素增加了機(jī)構(gòu)規(guī)范文檔構(gòu)建的難度。

      機(jī)構(gòu)數(shù)據(jù)的特征造成了機(jī)構(gòu)名稱(chēng)的多樣性、機(jī)構(gòu)間關(guān)系的復(fù)雜性和模糊性,由此導(dǎo)致了用戶在開(kāi)展信息檢索、學(xué)術(shù)統(tǒng)計(jì)等科研活動(dòng)的不準(zhǔn)確性。因此,有必要通過(guò)構(gòu)建機(jī)構(gòu)規(guī)范文檔對(duì)機(jī)構(gòu)數(shù)據(jù)進(jìn)行規(guī)范。全國(guó)科學(xué)技術(shù)名詞評(píng)定委員會(huì)出版的《圖書(shū)館·情報(bào)與文獻(xiàn)學(xué)名詞》第一版中,把規(guī)范文檔定義為“由規(guī)范記錄組成的計(jì)算機(jī)文檔。其作用是實(shí)行規(guī)范控制,即保證機(jī)讀目錄中文檔標(biāo)目的一致性,以便有效地實(shí)現(xiàn)對(duì)機(jī)讀目錄的統(tǒng)一管理,包括主題規(guī)范檔、名稱(chēng)規(guī)范檔和叢編規(guī)范檔”[2]。機(jī)構(gòu)規(guī)范文檔主要是通過(guò)實(shí)行規(guī)范控制保證機(jī)構(gòu)的唯一性和穩(wěn)定性,把機(jī)構(gòu)的不同名稱(chēng)添加到規(guī)范文檔中,對(duì)其實(shí)體進(jìn)行有效識(shí)別,并對(duì)機(jī)構(gòu)間的關(guān)聯(lián)關(guān)系進(jìn)行有效揭示。由于機(jī)構(gòu)數(shù)量級(jí)大,無(wú)法在短時(shí)間內(nèi)完成所有機(jī)構(gòu)的規(guī)范,因此需要從大量的機(jī)構(gòu)數(shù)據(jù)中進(jìn)行篩選。在機(jī)構(gòu)規(guī)范文檔構(gòu)建策略的基礎(chǔ)上對(duì)機(jī)構(gòu)的篩選方法進(jìn)行研究,以用于機(jī)構(gòu)規(guī)范文檔的初步構(gòu)建。

      1 機(jī)構(gòu)規(guī)范文檔構(gòu)建的研究現(xiàn)狀

      關(guān)于機(jī)構(gòu)規(guī)范文檔的構(gòu)建,國(guó)內(nèi)外均開(kāi)展了相關(guān)實(shí)踐工作。由聯(lián)機(jī)計(jì)算機(jī)圖書(shū)館中心(Online Computer Library Center,OCLC)主導(dǎo),主要針對(duì)名稱(chēng)規(guī)范問(wèn)題開(kāi)展了虛擬國(guó)際規(guī)范文檔項(xiàng)目,鏈接國(guó)家圖書(shū)館及權(quán)威數(shù)據(jù)庫(kù)的規(guī)范名稱(chēng),形成包括個(gè)人、機(jī)構(gòu)、會(huì)議和地名的全球共享、可復(fù)用的規(guī)范文檔,其中僅關(guān)于團(tuán)體的規(guī)范記錄已達(dá)到500萬(wàn)條以上[3]。由歐洲IST計(jì)劃資助的規(guī)范文檔鏈接與探索項(xiàng)目,致力于開(kāi)發(fā)一種分布式搜索系統(tǒng)的模型架構(gòu),收集已經(jīng)存在的名稱(chēng)權(quán)限文件,然后將這些數(shù)據(jù)匯聚在一起,旨在建立基于用戶需求的通用名稱(chēng)授權(quán)文件[4]。

      中國(guó)國(guó)家圖書(shū)館、中國(guó)高等教育文獻(xiàn)保障系統(tǒng)管理中心、臺(tái)灣漢學(xué)研究中心、香港特別行政區(qū)大學(xué)圖書(shū)館長(zhǎng)聯(lián)席會(huì)共同參與構(gòu)建了中文名稱(chēng)聯(lián)合數(shù)據(jù)庫(kù)檢索系統(tǒng),主要包括名稱(chēng)規(guī)范庫(kù)的構(gòu)建、對(duì)規(guī)范規(guī)則和規(guī)范系統(tǒng)的研究等,涉及個(gè)人名稱(chēng)、團(tuán)體名稱(chēng)、會(huì)議名稱(chēng)、題名等相關(guān)記錄的規(guī)范[5]。國(guó)家工程技術(shù)圖書(shū)館針對(duì)論文中的機(jī)構(gòu)要素,建立的機(jī)構(gòu)規(guī)范文檔主要包括5類(lèi)數(shù)據(jù):機(jī)構(gòu)規(guī)范名稱(chēng)和非規(guī)范名稱(chēng)的對(duì)照,機(jī)構(gòu)基本屬性(所在地域、機(jī)構(gòu)類(lèi)型、所屬學(xué)科等),機(jī)構(gòu)上下級(jí)隸屬關(guān)系,機(jī)構(gòu)中英文名稱(chēng)對(duì)照,機(jī)構(gòu)名稱(chēng)變遷[6]。

      國(guó)內(nèi)外開(kāi)展了一系列關(guān)于機(jī)構(gòu)名稱(chēng)規(guī)范的實(shí)踐活動(dòng),并形成了一定數(shù)量的規(guī)范記錄。由于機(jī)構(gòu)數(shù)據(jù)的海量特征,如何選取具有代表性的機(jī)構(gòu)開(kāi)展機(jī)構(gòu)規(guī)范是機(jī)構(gòu)規(guī)范文檔構(gòu)建的重要環(huán)節(jié)。

      Ringgold標(biāo)識(shí)數(shù)據(jù)庫(kù)對(duì)機(jī)構(gòu)數(shù)據(jù)進(jìn)行了規(guī)范,通過(guò)唯一ID來(lái)實(shí)現(xiàn)機(jī)構(gòu)的唯一識(shí)別[7]。其中的機(jī)構(gòu)類(lèi)型包括學(xué)術(shù)機(jī)構(gòu)、公司企業(yè)、政府部門(mén)、醫(yī)療機(jī)構(gòu)、衛(wèi)生組織、公益機(jī)構(gòu)、公共機(jī)構(gòu)等7個(gè)大類(lèi),涵蓋的范圍廣泛且不斷進(jìn)行更新和補(bǔ)充。微軟學(xué)術(shù)[8]從出版物及其元數(shù)據(jù)中獲取作者機(jī)構(gòu)的相關(guān)信息,并對(duì)其進(jìn)行規(guī)范,按照學(xué)科對(duì)機(jī)構(gòu)進(jìn)行篩選。以各學(xué)科領(lǐng)域的被引頻次、h指數(shù)為標(biāo)準(zhǔn),截至2018年5月,已完成規(guī)范的機(jī)構(gòu)總數(shù)為18 717,但相對(duì)于龐大的機(jī)構(gòu)數(shù)量,這只是其中的極小部分。萬(wàn)方數(shù)據(jù)構(gòu)建機(jī)構(gòu)數(shù)據(jù)庫(kù),按照機(jī)構(gòu)類(lèi)型、領(lǐng)域以及當(dāng)前機(jī)構(gòu)類(lèi)型的重要指標(biāo)等進(jìn)行機(jī)構(gòu)的規(guī)范,機(jī)構(gòu)數(shù)據(jù)已達(dá)到近20萬(wàn)條[9]。機(jī)構(gòu)規(guī)范文檔的建設(shè)是一個(gè)循序漸進(jìn)的過(guò)程,如何從大量的機(jī)構(gòu)數(shù)據(jù)中選出具有代表性、覆蓋性強(qiáng)的數(shù)據(jù)是構(gòu)建機(jī)構(gòu)規(guī)范文檔的首要問(wèn)題。

      ESI(InCites Essential Science Indicators)是以Web of ScienceTM核心合集數(shù)據(jù)庫(kù)為基礎(chǔ)的計(jì)量分析數(shù)據(jù)庫(kù),它提供了全球超過(guò)5 000多個(gè)規(guī)范化的機(jī)構(gòu)名稱(chēng),有利于開(kāi)展以機(jī)構(gòu)為檢索點(diǎn)的信息檢索和相關(guān)的計(jì)量分析工作。ESI主要是通過(guò)論文數(shù)、論文被引頻次、論文篇均被引頻次、高被引論文、熱點(diǎn)論文和前沿論文、學(xué)科領(lǐng)域等指標(biāo)對(duì)機(jī)構(gòu)進(jìn)行衡量和篩選。以上指標(biāo)具有很高的準(zhǔn)確性,能充分地從文獻(xiàn)的角度實(shí)現(xiàn)對(duì)機(jī)構(gòu)的評(píng)價(jià)[10]。

      中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所在構(gòu)建基于中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)(CBM)的機(jī)構(gòu)規(guī)范文檔時(shí),采用的原則為邊建設(shè)邊服務(wù),進(jìn)行階梯式可循環(huán)式建設(shè)。首先對(duì)核心類(lèi)型的機(jī)構(gòu)進(jìn)行形式規(guī)范的基礎(chǔ)上進(jìn)行一般描述規(guī)范,并引入非核心類(lèi)型的機(jī)構(gòu)規(guī)范;然后進(jìn)行CBM中作者機(jī)構(gòu)內(nèi)部關(guān)系的規(guī)范,優(yōu)先構(gòu)建核心機(jī)構(gòu);最后構(gòu)建CBM作者機(jī)構(gòu)名稱(chēng)與外部機(jī)構(gòu)規(guī)范文檔映射關(guān)系[11]。在整個(gè)構(gòu)建過(guò)程中是按照文獻(xiàn)年代、文獻(xiàn)頻次、語(yǔ)種、機(jī)構(gòu)類(lèi)別、機(jī)構(gòu)等級(jí)、期刊等級(jí)、所在地區(qū)等因素對(duì)初步的機(jī)構(gòu)數(shù)據(jù)進(jìn)行篩選。采用的方法是初級(jí)階段進(jìn)行部分?jǐn)?shù)據(jù)的部分規(guī)范,然后加入新的非規(guī)范數(shù)據(jù),進(jìn)行更深層次的規(guī)范。中國(guó)科學(xué)院在構(gòu)建機(jī)構(gòu)名稱(chēng)規(guī)范庫(kù)時(shí)的建設(shè)思路是以中科院為突破口,由中科院逐步覆蓋到高等院校、省級(jí)研究所、政府、企業(yè)研究院等其他的科研機(jī)構(gòu)[12]。

      上述為機(jī)構(gòu)規(guī)范文檔初步建設(shè)提供數(shù)據(jù)源的篩選方法不夠全面,是由點(diǎn)到面的構(gòu)建策略。本文提出由線到面的構(gòu)建策略,涉及到多種不同領(lǐng)域、不同類(lèi)型的機(jī)構(gòu),使初步篩選出的機(jī)構(gòu)更具全面性和代表性。另外,大多構(gòu)建過(guò)程主要從自身的數(shù)據(jù)和學(xué)科需求出發(fā)。如中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所主要涉及的機(jī)構(gòu)是與醫(yī)學(xué)相關(guān)的,由此導(dǎo)致篩選機(jī)構(gòu)的覆蓋面不夠廣,故本文在對(duì)篩選方法進(jìn)行研究時(shí),不涉及學(xué)科、地域、研究?jī)?nèi)容的限制,篩選結(jié)果更具全面性。

      2 機(jī)構(gòu)篩選方法的研究思路

      研究機(jī)構(gòu)規(guī)范文檔的構(gòu)建策略,為機(jī)構(gòu)規(guī)范文檔的構(gòu)建提供基礎(chǔ)數(shù)據(jù),即研究如何從大量機(jī)構(gòu)中獲取具有代表性的機(jī)構(gòu)數(shù)據(jù)的方法。利用歸一化方法把大量的機(jī)構(gòu)數(shù)據(jù)通過(guò)模糊算法限制在一定的范圍,主要以機(jī)構(gòu)發(fā)文的穩(wěn)定性、活躍度和機(jī)構(gòu)的學(xué)科影響力為指標(biāo),獲得具有全面性和代表性的機(jī)構(gòu)。

      2.1 機(jī)構(gòu)規(guī)范文檔的構(gòu)建策略

      構(gòu)建機(jī)構(gòu)規(guī)范文檔是一個(gè)長(zhǎng)久而艱巨的任務(wù),需要循序漸進(jìn)地開(kāi)展,首先對(duì)活躍度高、具有代表性的機(jī)構(gòu)進(jìn)行規(guī)范,然后不斷更新和補(bǔ)充,涉及數(shù)據(jù)采集、數(shù)據(jù)篩選、名稱(chēng)規(guī)范、關(guān)系構(gòu)建以及數(shù)據(jù)的存儲(chǔ)等主要環(huán)節(jié)(圖1)。

      圖1 機(jī)構(gòu)規(guī)范文檔構(gòu)建流程

      機(jī)構(gòu)規(guī)范文檔的構(gòu)建是一個(gè)循序漸進(jìn)、循環(huán)往復(fù)的過(guò)程。通過(guò)圖1所示流程把無(wú)序的機(jī)構(gòu)數(shù)據(jù)轉(zhuǎn)化為有序的機(jī)構(gòu)數(shù)據(jù),形成機(jī)構(gòu)規(guī)范文檔,并且要把新的來(lái)源數(shù)據(jù)與已有的機(jī)構(gòu)規(guī)范文檔進(jìn)行匹配,對(duì)其進(jìn)行更新和補(bǔ)充。鑒于文獻(xiàn)數(shù)據(jù)庫(kù)中的機(jī)構(gòu)數(shù)據(jù)具有準(zhǔn)確性高、易獲取等特點(diǎn),從文獻(xiàn)數(shù)據(jù)庫(kù)中獲取機(jī)構(gòu)相關(guān)數(shù)據(jù),對(duì)海量的機(jī)構(gòu)數(shù)據(jù)進(jìn)行篩選,并對(duì)篩選結(jié)果進(jìn)行名稱(chēng)規(guī)范和關(guān)系構(gòu)建,最后進(jìn)行數(shù)據(jù)存儲(chǔ)并應(yīng)用于新一輪的規(guī)范文檔的構(gòu)建,以實(shí)現(xiàn)對(duì)機(jī)構(gòu)規(guī)范文檔的補(bǔ)充和更新。

      基于機(jī)構(gòu)海量的數(shù)據(jù)特征,機(jī)構(gòu)篩選作為其中一個(gè)關(guān)鍵環(huán)節(jié),有必要對(duì)其篩選方法進(jìn)行研究,且有利于機(jī)構(gòu)規(guī)范文檔構(gòu)建工作的循序開(kāi)展。

      2.2 機(jī)構(gòu)篩選的模型與方法

      數(shù)據(jù)歸一化,即把需要處理的數(shù)據(jù)經(jīng)過(guò)處理后限制在需要的范圍內(nèi),其具體作用是歸納統(tǒng)一樣本的統(tǒng)計(jì)分布性[13]。模糊算法是指用隸屬關(guān)系將數(shù)據(jù)元素構(gòu)建成模糊集合,確定隸屬函數(shù)。機(jī)構(gòu)數(shù)據(jù)篩選的過(guò)程即為數(shù)據(jù)歸一化的過(guò)程,根據(jù)其分布性特征對(duì)其進(jìn)行篩選,構(gòu)建模糊集合并確定其隸屬函數(shù),主要包括機(jī)構(gòu)提取、機(jī)構(gòu)分析、文獻(xiàn)計(jì)量、機(jī)構(gòu)篩選4部分(圖2)。

      圖2 機(jī)構(gòu)篩選方法

      2.2.1 機(jī)構(gòu)提取

      基于機(jī)構(gòu)來(lái)源的特征,選取文獻(xiàn)數(shù)據(jù)庫(kù)中的機(jī)構(gòu)數(shù)據(jù)作為原始數(shù)據(jù),它具有準(zhǔn)確性高、易獲取、機(jī)構(gòu)類(lèi)型豐富等優(yōu)點(diǎn)。獲取中文發(fā)文的中國(guó)機(jī)構(gòu)和外文發(fā)文的中國(guó)機(jī)構(gòu)數(shù)據(jù),主要包括機(jī)構(gòu)名稱(chēng)、中文文獻(xiàn)ID、中文文獻(xiàn)的中圖分類(lèi)號(hào)、外文文獻(xiàn)ID。

      對(duì)獲取的數(shù)據(jù)進(jìn)行清洗、規(guī)范、歸并和分類(lèi)。根據(jù)文本相似度計(jì)算去除機(jī)構(gòu)名稱(chēng)的重復(fù)值和明顯錯(cuò)誤的數(shù)值,并對(duì)機(jī)構(gòu)名稱(chēng)對(duì)應(yīng)的計(jì)量指標(biāo)進(jìn)行歸并。對(duì)英文機(jī)構(gòu)名稱(chēng)進(jìn)行規(guī)范,轉(zhuǎn)換為規(guī)范的中文機(jī)構(gòu)名稱(chēng),根據(jù)文本相似度與已有的中文機(jī)構(gòu)名稱(chēng)進(jìn)行匹配,并對(duì)其對(duì)應(yīng)的計(jì)量指標(biāo)進(jìn)行歸并。

      由于不同機(jī)構(gòu)類(lèi)型在發(fā)文數(shù)量等方面的差異性,需要對(duì)機(jī)構(gòu)數(shù)據(jù)進(jìn)行分類(lèi),通過(guò)對(duì)大量數(shù)據(jù)的分析構(gòu)建機(jī)構(gòu)類(lèi)型的特征詞表(表1),對(duì)機(jī)構(gòu)類(lèi)型進(jìn)行分類(lèi),使篩選結(jié)果更具全面性和均衡性。

      本文主要是在對(duì)機(jī)構(gòu)類(lèi)型分類(lèi)的國(guó)家標(biāo)準(zhǔn)的基礎(chǔ)上進(jìn)行延展得到新的機(jī)構(gòu)類(lèi)型分類(lèi)?!督M織機(jī)構(gòu)類(lèi)型(GB/T 20091-2006)》主要將機(jī)構(gòu)類(lèi)型分為企業(yè)、機(jī)關(guān)、事業(yè)單位、社會(huì)團(tuán)體、其他機(jī)構(gòu)和組織(主要包括基金會(huì)、宗教活動(dòng)場(chǎng)所、農(nóng)村村民委員會(huì)等)[14]。以國(guó)家標(biāo)準(zhǔn)為基礎(chǔ),結(jié)合科研機(jī)構(gòu)、高校、醫(yī)療機(jī)構(gòu)等具有較突出的發(fā)文水平,對(duì)機(jī)構(gòu)類(lèi)型重新分類(lèi),包括學(xué)前與初中等教育機(jī)構(gòu)、高等教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)、事業(yè)單位、科研機(jī)構(gòu)、行政機(jī)構(gòu)、公司企業(yè)、社會(huì)團(tuán)體、其他組織和機(jī)構(gòu)9類(lèi)機(jī)構(gòu)類(lèi)型。根據(jù)不同機(jī)構(gòu)類(lèi)型中機(jī)構(gòu)名稱(chēng)的特性,建立機(jī)構(gòu)名稱(chēng)的特征詞表;基于特征詞表對(duì)機(jī)構(gòu)進(jìn)行類(lèi)型分類(lèi),并在分類(lèi)過(guò)程中不斷對(duì)特征詞庫(kù)進(jìn)行補(bǔ)充,保證分類(lèi)結(jié)果的準(zhǔn)確性和全面性。

      表1 機(jī)構(gòu)類(lèi)型特征詞

      2.2.2 機(jī)構(gòu)分析

      從機(jī)構(gòu)發(fā)文的活躍度、機(jī)構(gòu)學(xué)科影響力、機(jī)構(gòu)發(fā)文穩(wěn)定性3方面對(duì)機(jī)構(gòu)進(jìn)行分析和篩選。以機(jī)構(gòu)的發(fā)文量表征機(jī)構(gòu)的活躍度,以機(jī)構(gòu)的連續(xù)發(fā)文表征機(jī)構(gòu)的穩(wěn)定性,以機(jī)構(gòu)學(xué)科的發(fā)文和被引頻次表征機(jī)構(gòu)的學(xué)科影響力,并以此構(gòu)建機(jī)構(gòu)篩選指標(biāo)體系,如圖3所示。

      圖3機(jī)構(gòu)篩選指標(biāo)體系

      2.2.3 文獻(xiàn)計(jì)量

      根據(jù)機(jī)構(gòu)篩選的指標(biāo)體系和文獻(xiàn)數(shù)據(jù)庫(kù)中的“機(jī)構(gòu)—文獻(xiàn)—學(xué)科”的對(duì)應(yīng)關(guān)系,運(yùn)用文獻(xiàn)計(jì)量方法對(duì)文獻(xiàn)的被引頻次、文獻(xiàn)對(duì)應(yīng)的學(xué)科的發(fā)文和被引情況、機(jī)構(gòu)的發(fā)文情況進(jìn)行統(tǒng)計(jì)分析,得到近10年內(nèi)的每年發(fā)文量、SCI發(fā)文量、機(jī)構(gòu)對(duì)應(yīng)學(xué)科的發(fā)文量和被引頻次。根據(jù)以上指標(biāo)設(shè)計(jì)篩選方法,構(gòu)建機(jī)構(gòu)的模糊集合,確定隸屬函數(shù)。

      2.2.4 機(jī)構(gòu)篩選

      本文主要采用機(jī)構(gòu)的中文發(fā)文量、機(jī)構(gòu)的SCI發(fā)文量、機(jī)構(gòu)的年均發(fā)文量、機(jī)構(gòu)學(xué)科發(fā)文量和被引頻次等指標(biāo)。機(jī)構(gòu)的SCI發(fā)文主要是均衡某些機(jī)構(gòu)傾向國(guó)外發(fā)文,這在很大程度上也能反映出其活躍度,從而增強(qiáng)了篩選結(jié)果的全面性。用機(jī)構(gòu)的學(xué)科發(fā)文作為衡量機(jī)構(gòu)學(xué)科活躍度的指標(biāo)之一,可以篩選出某一學(xué)科較為突出而綜合能力相對(duì)較弱的機(jī)構(gòu),使篩選結(jié)果更具全面性。

      基于模糊算法將大量的機(jī)構(gòu)數(shù)據(jù),轉(zhuǎn)化為篩選后的機(jī)構(gòu)集合并確定隸屬函數(shù)。其中模糊集合的篩選是以得到的機(jī)構(gòu)數(shù)據(jù)的集合能夠覆蓋SCI的發(fā)文機(jī)構(gòu)和學(xué)科表現(xiàn)突出的機(jī)構(gòu)為依據(jù),隸屬函數(shù)以獲得的數(shù)據(jù)集合對(duì)應(yīng)中文年均發(fā)文為依據(jù)(圖4)。

      圖4 機(jī)構(gòu)篩選方法流程

      其中,若M為SCI發(fā)文機(jī)構(gòu)組成的集合,那么A為集合M中的中文年均發(fā)文的最小值;若N為學(xué)科水平較為突出的機(jī)構(gòu)組成的集合,那么B為集合N中對(duì)應(yīng)的中文年均發(fā)文的最小值。機(jī)構(gòu)信息篩選列表主要包括機(jī)構(gòu)名稱(chēng)、機(jī)構(gòu)每年的發(fā)文量、機(jī)構(gòu)年均發(fā)文、機(jī)構(gòu)SCI發(fā)文、是否屬于學(xué)科水平較高的機(jī)構(gòu)等信息。年發(fā)文量不連續(xù)為零的機(jī)構(gòu),作為衡量其穩(wěn)定性的指標(biāo),對(duì)機(jī)構(gòu)進(jìn)行初步篩選,選擇年均發(fā)文≥1的機(jī)構(gòu),作為衡量其活躍度的指標(biāo)。按照機(jī)構(gòu)的年均發(fā)文值對(duì)機(jī)構(gòu)信息列表進(jìn)行排序。如果此時(shí)

      SCI發(fā)文機(jī)構(gòu)中的對(duì)應(yīng)的中文年均發(fā)文的最小值A(chǔ)小于等于學(xué)科水平較高的機(jī)構(gòu)中對(duì)應(yīng)的中文年均發(fā)文的最小值B,即A≤B,就以A為機(jī)構(gòu)篩選的閾值;如果A>B,則以B作為機(jī)構(gòu)篩選的閾值。按照不同的機(jī)構(gòu)類(lèi)型重復(fù)以上步驟,分別獲取機(jī)構(gòu)的篩選閾值。該篩選方法能在很大程度上涵蓋外文發(fā)文的機(jī)構(gòu)和學(xué)科表現(xiàn)較為突出的機(jī)構(gòu),對(duì)于獲取活躍度較高的機(jī)構(gòu)具有很好的代表性。

      3 機(jī)構(gòu)篩選的實(shí)證研究

      以中國(guó)科學(xué)技術(shù)信息研究所建設(shè)的中國(guó)知識(shí)鏈接數(shù)據(jù)庫(kù)的機(jī)構(gòu)數(shù)據(jù)為例,按照以上篩選方法進(jìn)行實(shí)證研究,確定各機(jī)構(gòu)類(lèi)型的篩選閾值(圖5)。

      圖5 機(jī)構(gòu)篩選步驟

      3.1 數(shù)據(jù)采集

      本文數(shù)據(jù)主要來(lái)源于中國(guó)知識(shí)鏈接數(shù)據(jù)庫(kù)和Web of Science,獲取2007-2016年的中文文獻(xiàn)中的機(jī)構(gòu)、文獻(xiàn)、學(xué)科以及中文機(jī)構(gòu)的SCI發(fā)文等數(shù)據(jù)。

      3.2 數(shù)據(jù)處理

      對(duì)數(shù)據(jù)進(jìn)行初步處理,包括去除明顯錯(cuò)誤的數(shù)據(jù)、去重、中英文對(duì)照以及對(duì)應(yīng)數(shù)據(jù)的歸并,經(jīng)過(guò)處理后獲得1 159 247條機(jī)構(gòu)數(shù)據(jù)。按照機(jī)構(gòu)類(lèi)型的特征詞表對(duì)其進(jìn)行分類(lèi),在分類(lèi)的過(guò)程中不斷提取新的特征詞,也可組合特征詞,實(shí)現(xiàn)對(duì)機(jī)構(gòu)數(shù)據(jù)機(jī)構(gòu)類(lèi)型的劃分。對(duì)劃分?jǐn)?shù)據(jù)類(lèi)型后的機(jī)構(gòu)進(jìn)行統(tǒng)計(jì),各機(jī)構(gòu)類(lèi)型的數(shù)目占比與其對(duì)應(yīng)的發(fā)文量的所占比例具有很大的差異性,詳見(jiàn)表2。

      從表2發(fā)現(xiàn),在機(jī)構(gòu)數(shù)目占比排名靠前的初中等教育機(jī)構(gòu)和事業(yè)單位,在類(lèi)型機(jī)構(gòu)的發(fā)文總量的占比中并不占優(yōu)勢(shì),反而機(jī)構(gòu)數(shù)量較少的高等教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)的發(fā)文總量占比較多,不同的機(jī)構(gòu)類(lèi)型之間的差異也比較明顯。由此可認(rèn)為機(jī)構(gòu)類(lèi)型的劃分是合理且必要的,有利于機(jī)構(gòu)篩選的均衡性。

      表2 各機(jī)構(gòu)類(lèi)型數(shù)量、發(fā)文占比

      3.3 數(shù)據(jù)篩選

      按照機(jī)構(gòu)篩選的指標(biāo)體系,運(yùn)用文獻(xiàn)計(jì)量獲得指標(biāo)數(shù)據(jù):機(jī)構(gòu)年發(fā)文量、機(jī)構(gòu)年均發(fā)文量、機(jī)構(gòu)的學(xué)科發(fā)文量和被引頻次、機(jī)構(gòu)SCI發(fā)文量。以機(jī)構(gòu)學(xué)科的發(fā)文量和被引頻次作為衡量機(jī)構(gòu)學(xué)科影響力的指標(biāo),選取排名前100的機(jī)構(gòu)作為學(xué)科水平較為突出的機(jī)構(gòu)。構(gòu)建機(jī)構(gòu)信息列表,包括機(jī)構(gòu)名稱(chēng)、機(jī)構(gòu)年發(fā)文量、機(jī)構(gòu)年均發(fā)文量、機(jī)構(gòu)SCI發(fā)文量、是否屬于學(xué)科水平較突出的機(jī)構(gòu)。

      按照?qǐng)D4中的機(jī)構(gòu)篩選方法,構(gòu)建機(jī)構(gòu)的篩序集合,并確定其篩選閾值(表3)。根據(jù)閾值對(duì)機(jī)構(gòu)數(shù)據(jù)進(jìn)行篩選,最后獲得不同機(jī)構(gòu)類(lèi)型中的代表性數(shù)據(jù)共20 433條。

      表3 機(jī)構(gòu)篩選閾值及結(jié)果

      3.4 結(jié)果分析

      對(duì)篩選后的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,各機(jī)構(gòu)類(lèi)型數(shù)量在機(jī)構(gòu)總數(shù)的比例相對(duì)均衡,占比在10%左右。對(duì)比篩選前后的各機(jī)構(gòu)類(lèi)型中機(jī)構(gòu)數(shù)量占比發(fā)現(xiàn),高校、科研機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)的占比明顯增加,其發(fā)文數(shù)量是比較突出的,證明篩選的結(jié)果把各機(jī)構(gòu)類(lèi)型的發(fā)文水平涵蓋其中,而且篩選后的各機(jī)構(gòu)類(lèi)型相對(duì)均衡,使獲得的數(shù)據(jù)具有全面性和代表性。篩選后的機(jī)構(gòu)數(shù)目是篩選前機(jī)構(gòu)數(shù)目的7%左右,篩選后機(jī)構(gòu)的總發(fā)文量占篩選前的73%左右。從統(tǒng)計(jì)角度看,篩選后的機(jī)構(gòu)能夠代表篩選前的機(jī)構(gòu),屬于需要首先重點(diǎn)規(guī)范的機(jī)構(gòu)。

      4 結(jié)語(yǔ)

      基于機(jī)構(gòu)規(guī)范文檔的構(gòu)建策略,對(duì)機(jī)構(gòu)規(guī)范文檔構(gòu)建中的機(jī)構(gòu)篩選方法進(jìn)行研究。從機(jī)構(gòu)的穩(wěn)定性、活躍度、學(xué)科影響力出發(fā),構(gòu)建機(jī)構(gòu)篩選的指標(biāo)體系、隸屬函數(shù),使篩選結(jié)果具有代表性和全面性,便于快速有效地對(duì)大量數(shù)據(jù)進(jìn)行篩選,進(jìn)而有效開(kāi)展機(jī)構(gòu)規(guī)范工作。另外,可以根據(jù)此篩選方法構(gòu)建自動(dòng)化的數(shù)據(jù)篩選流程,有利于機(jī)構(gòu)規(guī)范文檔管理系統(tǒng)的構(gòu)建,實(shí)現(xiàn)其自動(dòng)化管理。

      猜你喜歡
      發(fā)文文檔規(guī)范
      來(lái)稿規(guī)范
      來(lái)稿規(guī)范
      PDCA法在除顫儀規(guī)范操作中的應(yīng)用
      有人一聲不吭向你扔了個(gè)文檔
      來(lái)稿規(guī)范
      10條具體舉措! 山東發(fā)文做好返鄉(xiāng)留鄉(xiāng)農(nóng)民工就地就近就業(yè)
      校園拾趣
      爺孫趣事
      以牙還牙
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      龙口市| 武胜县| 军事| 乌兰浩特市| 普兰县| 修水县| 务川| 清涧县| 克东县| 双桥区| 隆尧县| 无棣县| 湖州市| 陆河县| 景泰县| 含山县| 本溪市| 古蔺县| 宁蒗| 大宁县| 龙海市| 兴文县| 尼玛县| 安福县| 修武县| 商丘市| 卢龙县| 贵港市| 呼图壁县| 成都市| 平阴县| 林西县| 西畴县| 淮阳县| 永年县| 东港市| 齐河县| 甘德县| 吴川市| 彩票| 宁武县|