• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      《科學數(shù)據(jù)管理辦法》語詞分析

      2020-07-14 18:32溫亮明李洋張麗麗
      新世紀圖書館 2020年5期
      關(guān)鍵詞:關(guān)聯(lián)分析自然語言處理

      溫亮明 李洋 張麗麗

      摘 要 文章分析了《科學數(shù)據(jù)管理辦法》的文本語詞,有助于把握國家對科學數(shù)據(jù)管理的政策導向。文章對《科學數(shù)據(jù)管理辦法》的文本內(nèi)容進行分詞、詞頻合并、詞性篩選、虛詞剔除等預處理操作,基于文本預處理結(jié)果篩選得出頻繁詞和熱詞,構(gòu)建“語詞—條款”共現(xiàn)矩陣并可視化展示。研究發(fā)現(xiàn):《科學數(shù)據(jù)管理辦法》共有11個核心頻繁詞、9個重點頻繁詞、8個主要頻繁詞和若干個一般頻繁詞,各主題語詞在文本中均有對應的核心條款,但主題語詞和核心條款分布不均。

      關(guān)鍵詞 《科學數(shù)據(jù)管理辦法》? 自然語言處理 詞頻統(tǒng)計 關(guān)聯(lián)分析

      分類號 G322.0

      DOI 10.16810/j.cnki.1672-514X.2020.05.015

      Abstract Analysis of the text words of Measures for Managing Scientific Data can help to grasp the policy orientation of national scientific data management. Firstly, this paper performs some pre-processing operations such as word segmentation, word frequency merging, part of speech screening and vocabulary culling for the text content of Measures for Managing Scientific Data. Then, it screens out the frequent words of text and the hot words of each chapter based on pre-processing results. Finally, it constructs a “word-term” co-occurrence matrix and visualize it. Results show that Measures for Managing Scientific Data has 11 core frequent words, 9 key frequent words, 8 major frequent words and several general frequent words, but topic words and core terms are unevenly distribute in the text.

      Keywords Measures for Managing Scientific Data. Natural language processing. Word frequency statistics. Correlation analysis.

      0 引言

      目前,科學數(shù)據(jù)已經(jīng)成為支撐國家科技創(chuàng)新和經(jīng)濟社會發(fā)展的基礎(chǔ)性和戰(zhàn)略性資源[1],國際上一些組織和政府已經(jīng)制定了明確的政策以推動科學數(shù)據(jù)的管理與開放共享[2]。我國也非常重視科學數(shù)據(jù)管理與共享工作,從2004年起先后在八個領(lǐng)域建成了國家科技資源共享服務平臺[3],并相繼出臺了一系列領(lǐng)域科學數(shù)據(jù)管理政策。但與發(fā)達國家政策體系相比,我們在數(shù)據(jù)權(quán)益、共享規(guī)則等方面的管理政策仍有待健全和完善[4],主要表現(xiàn)為:現(xiàn)有政策側(cè)重于個別行業(yè)領(lǐng)域數(shù)據(jù)的管理,而對其他學科領(lǐng)域數(shù)據(jù)涉及較少[5];現(xiàn)有政策制定主體幾乎全為相關(guān)部委或領(lǐng)域數(shù)據(jù)中心,而無國家層面出臺的法規(guī)政策,缺乏法律效力[6];缺乏國家宏觀統(tǒng)一、明確的政策法規(guī)[7-8]。針對這些薄弱環(huán)節(jié),我國于2016年12月將“加強和規(guī)范科學數(shù)據(jù)管理的辦法”列入中央全面深化改革領(lǐng)導小組2017年工作重點[9];2017年3月,科學技術(shù)部會同有關(guān)部門啟動了《科學數(shù)據(jù)管理辦法》 (以下簡稱《辦法》)編制工作;2018年1月,《辦法》經(jīng)中央全面深化改革領(lǐng)導小組審議通過;2018年3月17日,國務院辦公廳正式印發(fā)《辦法》[10]?!掇k法》出臺后,引起了全社會強烈反響,多家主流媒體做了專題報道,科學技術(shù)部、中國科學院等部委召開專門會議宣傳貫徹落實,部分省份出臺了相應的實施細則,部分專家學者專門撰文論述、建言獻策。鑒于此,有必要繼續(xù)研究《辦法》,從更多角度理解《辦法》的精神內(nèi)涵。

      1 《辦法》研究現(xiàn)狀

      1.1 意義闡述

      《辦法》是我國首次面向全領(lǐng)域科學數(shù)據(jù)出臺的國家層面的科學數(shù)據(jù)管理辦法,其實踐指導意義重大。齊法制[11]、王卷樂[12]等認為,《辦法》首次站在國家高度、面向多領(lǐng)域科學數(shù)據(jù),具有劃時代意義;郭華東[13]認為,伴隨著《辦法》的出臺,我國迎來了發(fā)展科學大數(shù)據(jù)的重要歷史機遇;柏永青[14]等認為,《辦法》把我國科學數(shù)據(jù)管理和共享工作推向了新高度;張麗麗[5]、周玉琴[15]、趙小蘭[16]等認為,《辦法》為我國科學數(shù)據(jù)工作確定了行動綱領(lǐng),突出了國家對科學數(shù)據(jù)管理和科技創(chuàng)新能力建設(shè)的重視。張保鋼[17]、邵玉昆[18]認為,《辦法》對提升我國科學數(shù)據(jù)管理水平、發(fā)揮國家財政投入在科技創(chuàng)新、經(jīng)濟社會發(fā)展、國家安全等方面的產(chǎn)出效益具有重要意義。莊媛[19]認為,《辦法》 提出的舉措補齊了我國科學數(shù)據(jù)管理存在的短板。王知凡[20]認為,《辦法》出臺打通了科技創(chuàng)新和經(jīng)濟社會發(fā)展之間的通道,有助于促進創(chuàng)新鏈和產(chǎn)業(yè)鏈的深度融合。劉敬儀[21]等認為,《辦法》為政府決策、公共安全、國防建設(shè)和科學研究提供了有力支撐。鄒自明[22]等認為,應該抓住《辦法》出臺的大好時機,著力提升科學數(shù)據(jù)開放共享理念,研究科學數(shù)據(jù)標準與共享規(guī)范。

      1.2 內(nèi)容解讀

      對政策文本具體內(nèi)容的解讀,為管理人員、研究人員、相關(guān)從業(yè)者深入領(lǐng)會《辦法》精神提供了借鑒。賽迪智庫[23]指出,《辦法》的亮點是規(guī)定了科學數(shù)據(jù)強制匯交制度、明確了提高科學數(shù)據(jù)利用率的具體措施、規(guī)定了數(shù)據(jù)容災備份制度。邢文明[24]等解讀了《辦法》中有關(guān)科學數(shù)據(jù)共享與利用的相關(guān)條款,認為《辦法》明確了科學數(shù)據(jù)開放、共享與利用的三條原則。秦順[25]等從管理體制、共享機制、安全措施三個方面對《辦法》內(nèi)容進行了解讀。高瑜蔚[26]等比較分析了各地方政府、機構(gòu)發(fā)布的11份《辦法》實施細則,發(fā)現(xiàn)這些細則具有注重政策協(xié)同、突出平臺應用、強調(diào)保密安全、重視考核評價等特點。白銳[27]等基于多源流模型,從問題源流、政策源流、政治源流三個角度分析了《辦法》的政策議程。張洋[28]等從生命周期視角入手解讀了《辦法》匯交、處理、保存、共享四個方面的內(nèi)容,并總結(jié)了《辦法》的指導意義。王繼娜[29]認為《辦法》未能明確科學數(shù)據(jù)的所有權(quán)及非政府資金資助形成的科學數(shù)據(jù)的管理問題。儲文靜[30]等依據(jù)《辦法》內(nèi)容構(gòu)建了基于科學數(shù)據(jù)全生命周期的高??茖W數(shù)據(jù)管理規(guī)范流程。

      但是,以上解讀多是從性質(zhì)角度探討《辦法》的意義和內(nèi)容,尚未從量化角度分析細節(jié)問題。本文試圖綜合《辦法》文本的語詞之“量”和主題之“性”,從宏觀微觀相結(jié)合的角度進行解讀和分析。

      2 研究設(shè)計

      2.1 研究框架

      《辦法》全文共分為六章、三十三條。由于第三十三條為具體施行時間,其學術(shù)意義較淺,因此本文的研究范圍僅選擇前三十二條文本內(nèi)容進行分析,具體研究分為三個步驟。

      文本預處理。利用自然語言處理技術(shù)對《辦法》的語詞進行領(lǐng)域詞典構(gòu)建、文本分詞、相鄰詞合并、同義詞詞典構(gòu)建、同義詞合并、詞性篩選、虛詞詞典構(gòu)建、虛詞剔除等操作,得到有實際意義的語詞。

      文本分析?;谖谋绢A處理結(jié)果,選取了語詞章節(jié)率、詞頻數(shù)、局部章節(jié)平均詞頻數(shù)和全部章節(jié)平均詞頻數(shù)作為基本指標,并構(gòu)建頻繁詞來判別公式篩選《辦法》 的頻繁詞,拓展詞頻逆文本頻率法來抽取《辦法》的熱詞,根據(jù)頻繁詞和熱詞的特定含義去探索《辦法》所關(guān)注的共性問題和熱點問題。

      主題關(guān)聯(lián)分析。基于文本預處理結(jié)果,將《辦法》語詞劃分為若干主題,對《辦法》文本結(jié)構(gòu)進行了編碼處理,基于主題分類結(jié)果和編碼系列構(gòu)建“語詞-條款”共現(xiàn)矩陣,并進行可視化展示。

      按照上述思路,設(shè)計了本文的研究框架,如圖1所示。

      圖1中,虛詞剔除及其之前的所有操作屬于文本預處理階段,頻繁詞判別、熱詞判別及其后續(xù)操作屬于文本分析階段,主題劃分、條款編碼及其后續(xù)操作屬于主題關(guān)聯(lián)分析階段,文本分析和主題關(guān)聯(lián)分析屬于并列關(guān)系。

      2.2 文本預處理

      文本預處理包括文本分詞、語詞合并、詞性篩選三個流程。

      文本分詞。首先,刪除與研究無關(guān)的內(nèi)容;然后,將有效內(nèi)容依次導入語義分析系統(tǒng)ICTCLAS,得到初始分詞結(jié)果。

      語詞合并。由于ICTCLAS系統(tǒng)以短詞語作為分詞標準,因此還需要在系統(tǒng)分類的基礎(chǔ)上對初始分詞結(jié)果進行人工干預合并,研讀科學數(shù)據(jù)管理相關(guān)主題文獻,結(jié)合學科領(lǐng)域?qū)I(yè)術(shù)語,構(gòu)建專業(yè)領(lǐng)域詞典。借鑒關(guān)聯(lián)規(guī)則分析思想,規(guī)定只有當兩個語詞連續(xù)出現(xiàn)的頻次滿足一定概率時才能進行語詞合并,具體判定公式為:

      其中,表示語詞在文本中出現(xiàn)的頻次,表示語詞和在文本中連續(xù)出現(xiàn)的頻次。

      詞性篩選。由于《辦法》是政策文本材料,名詞和動詞更能代表原文本的重要語義信息,因此本研究選取了名詞和動詞作為主要研究對象,選取部分副詞作為輔助性研究對象。

      經(jīng)上述操作,整個文本內(nèi)容相當于由章節(jié)構(gòu)成,章節(jié)相當于由有序的語詞集構(gòu)成。

      2.3 文本分析

      2.3.1 頻繁詞篩選

      傳統(tǒng)的頻繁詞篩選指標以語詞的出現(xiàn)頻次為準,但這種篩選方法的科學性值得考究[31]。參考相關(guān)研究成果[32],本文綜合使用四個指標來抽取頻繁詞,即:包含某一語詞的文本章節(jié)數(shù)A、某一語詞在文本中出現(xiàn)的總詞頻數(shù)B、某一語詞在所在章節(jié)的平均詞頻數(shù)C、某一語詞在所有章節(jié)的平均詞頻數(shù)D。四個指標的計算方法如下:

      上式中,表示文本總章節(jié)數(shù),表示所有語詞個數(shù),表示語詞在第章節(jié)對應的文本中出現(xiàn)的詞頻數(shù)。由于B值代表總詞頻數(shù),一般數(shù)值較大,因此B可以看作規(guī)模因子;而A、C、D值則代表詞頻覆蓋度,因此A、C、D可以看作影響力因子[33]。參考相關(guān)研究成果,本文對各指標賦予相應權(quán)值,構(gòu)建了頻繁詞判別公式:

      根據(jù)公式(6),F(xiàn)值高的語詞即可判定為全文的高頻繁詞。

      2.3.2 熱詞篩選

      某些文獻根據(jù)自我研究興趣和社會背景來選取熱詞[34],但這種方法缺乏一定的數(shù)值依據(jù)。參考相關(guān)研究成果,本文使用并拓展了詞頻逆文本頻率法[35](即詞頻數(shù)乘以逆向文本頻率)來篩選各章節(jié)熱詞,具體計算公式為:

      上式中,表示語詞在第章節(jié)對應的文本中出現(xiàn)的詞頻數(shù),表示語詞所在章節(jié)的總詞頻數(shù),表示文本總條款數(shù),表示包含某一語詞的文本條款數(shù)。

      2.4 主題關(guān)聯(lián)分析

      2.4.1 主題“語詞-條款”共現(xiàn)矩陣構(gòu)建

      借鑒共詞分析法思想[36],本文認為當某一主題的語詞在某章節(jié)經(jīng)常出現(xiàn)時,該語詞即與該章節(jié)存在關(guān)聯(lián)關(guān)系[37]。基于上述思路并借鑒有關(guān)學者的研究方法[38],本文提出了一種凸顯文檔主題的表示方法——“語詞-條款”共現(xiàn)矩陣(Words Terms Co-occurrence Matrix, WTCOM),共現(xiàn)條件為某語詞在某條款中出現(xiàn)。

      先將《辦法》處理后的文本內(nèi)容劃分為若干主題,整個文本內(nèi)容就相當于由主題構(gòu)成。主題用“語詞-條款”共現(xiàn)矩陣可以表示為:,其中表示文本中歸為主題的語詞相對于文本條款的共現(xiàn)程度,分別表示和的在文本中的相對次序。的具體計算方法為:

      (8)

      其中,表示主題相關(guān)語詞和條款在文本中共現(xiàn)的頻次,表示主題相關(guān)語詞數(shù)量,表示文本總條款數(shù)。

      2.4.2 主題“語詞-條款”共現(xiàn)矩陣可視化

      為了更加直觀地了解不同語詞與條款之間的關(guān)系強弱程度,借助社會網(wǎng)絡分析工具Net Draw對各主題的“語詞-條款”共現(xiàn)矩陣進行可視化處理,該軟件的主要原理是根據(jù)小世界理論和中心度理論來挖掘不同節(jié)點之間的深層次關(guān)系,并以關(guān)聯(lián)網(wǎng)絡圖形展示[39]。

      3 結(jié)果分析

      3.1 文本預處理結(jié)果

      通過ICTCLAS系統(tǒng)分詞,得到原始分詞結(jié)果1533個。語詞合并時,借鑒有關(guān)學者的經(jīng)驗[40],本文將的閾值設(shè)定為50%,即兩個相鄰的短語詞共同出現(xiàn)的頻次與它們分別出現(xiàn)的頻次的最小值的比值大于或等于0.5時,兩個短語詞就可合并為新的長語詞。初次合并后頻次≥4次的13個組合詞如表1所示。

      將初次合并詞添加到原文本中再次執(zhí)行分詞操作,直到不再出現(xiàn)新的組合詞為止,共得到1340個語詞。繼續(xù)合并同義詞,共得到1020個語詞。合并結(jié)束后,按照現(xiàn)代漢語詞性分類規(guī)則進行詞性篩選,剔除掉介詞、連詞、助詞等對本研究無實際意義的虛詞,最終得到有實際意義的語詞740個。

      3.2 文本分析結(jié)果

      3.2.1 頻繁詞篩選結(jié)果

      根據(jù)頻繁詞篩選指標,分別計算并統(tǒng)計出各指標值和F值,各值排名前十的語詞如表2所示。

      根據(jù)各值包含的語詞可以發(fā)現(xiàn)《辦法》所重點關(guān)注的共性問題并確定各語詞的核心程度。經(jīng)過計算分析,將F值高于5且在四個指標中均出現(xiàn)的詞看作《辦法》的核心頻繁詞,核心詞共有11個,包括科學數(shù)據(jù)、科學數(shù)據(jù)中心、開放共享等;將F值高于3且至少在三個指標中出現(xiàn)的詞看作《辦法》的重點頻繁詞,重點詞共有9個,包括匯交、采集生產(chǎn)、國家秘密等;將F值高于2且至少在兩個指標中出現(xiàn)的詞看作《辦法》的主要頻繁詞,主要詞共有8個,包括使用、主要職責、法律法規(guī)等;將F值高于2且至少在一個指標中出現(xiàn)的詞看作《辦法》的一般頻繁詞,一般詞共有2個,分別是政府預算資金和國家安全。

      3.2.2 熱詞篩選結(jié)果

      根據(jù)熱詞權(quán)重計算方法,得到各章節(jié)的熱點語詞,排名前十的熱詞結(jié)果如表3所示。

      從熱詞分布情況可以看出各章節(jié)討論的熱點問題:第一章的討論熱點集中于《辦法》的制定目的、科學數(shù)據(jù)的范疇;第二章的討論熱點集中于各級行政部門和法人單位的職責;第三章的討論熱點集中于科學數(shù)據(jù)的匯交與保存;第四章的討論熱點集中于科學數(shù)據(jù)的社會開放于共享利用;第五章討論熱點集中于科學數(shù)據(jù)安全管理;第六章討論熱點集中于對違規(guī)者的責任追究。

      3.3 主題關(guān)聯(lián)分析結(jié)果

      3.3.1 主題劃分結(jié)果

      根據(jù)各章節(jié)名稱,將六個章節(jié)的主題歸納為宗旨與原則、體制與職責、匯交與保存、共享與利用、保密與安全、考核與懲處六個方面。對有實際意義的740個語詞逐一進行主題劃歸,其中568個有明確主題屬性的語詞被分別劃歸入六個主題中,其余172個主題屬性模糊的語詞則被剔除。568個語詞在各主題中的分布情況為:宗旨與原則主題58個、體制與職責主題42個、匯交與保存主題30個、共享與利用主題52個、保密與安全主題50個、考核與懲處主題42個。各主題中排名前十的語詞如表4所示。

      3.3.2 主題“語詞-條款”共現(xiàn)矩陣

      主題劃分結(jié)束后,統(tǒng)計各主題中語詞在各條款的分布情況,其中宗旨與原則主題共有58個主題詞,體制與職責主題共有42個主題詞,匯交與保存主題共有30個主題詞,共享與利用主題共有52個主題詞,保密與安全主題共有50個主題詞,考核與懲處主題共有42個主題詞。根據(jù)公式(7),計算各主題的“語詞-條款”共現(xiàn)系數(shù)并構(gòu)建共現(xiàn)矩陣。為了表示方便,本研究參考相關(guān)成果的做法[38]對文本結(jié)構(gòu)進行了編碼處理,第一章的五個條款分別編號為Ⅰ1—Ⅰ5,第二章的五個條款分別編號為Ⅱ6—Ⅱ10,第三章的五個條款分別編號為Ⅲ11—Ⅲ18,第四章的六個條款分別編號為Ⅳ19—Ⅳ24,第五章的五個條款分別編號為Ⅴ25—Ⅴ29,第六章的三個條款分別編號為Ⅵ30—Ⅵ32。由于篇幅所限,僅選取“宗旨與原則”主題“語詞-條款”共現(xiàn)矩陣的部分內(nèi)容進行展示,如表5所示。

      3.3.3 各主題“語詞-條款”關(guān)聯(lián)結(jié)果

      將各主題的“語詞-條款”共現(xiàn)矩陣導入Net Draw軟件繪制的共現(xiàn)網(wǎng)絡圖譜如圖2所示。其中,各個圓點代表主題語詞,方形代表相關(guān)條款,圓點與方形之間有連線則表示它們存在關(guān)聯(lián)關(guān)系,線條數(shù)量越多,表明該語詞與條款之間的關(guān)聯(lián)關(guān)系越強[40]。

      (1) 宗旨與原則主題中共有162條關(guān)聯(lián)關(guān)系,所有條款均包含于關(guān)聯(lián)網(wǎng)絡中,說明該主題貫穿整個《辦法》,核心條款有Ⅰ1、Ⅰ2、Ⅱ7、Ⅱ8、Ⅱ9、Ⅱ10、Ⅳ19、Ⅳ24、Ⅴ26、Ⅴ27等,核心主題語詞有科學數(shù)據(jù)、應當、國家、管理等。該主題中既包含帶有引導語氣的語詞,如應當、加強、明確、做好、鼓勵、支持等,又包含帶有命令語氣的語詞,如不得、必須、確保等,這體現(xiàn)出《辦法》的剛?cè)岵c靈活變通。對于重點領(lǐng)域的重要數(shù)據(jù),必須采取強制措施,如條款Ⅳ25規(guī)定“涉及國家秘密、國家安全、社會公共利益等、商業(yè)秘密和個人隱私的科學數(shù)據(jù),不得對外開放共享”。而其他類型的科學數(shù)據(jù)則采取“支持”或“鼓勵”態(tài)度,如條款Ⅳ21“鼓勵社會組織和企業(yè)開展市場化增值服務”,條款Ⅳ22“支持科研人員發(fā)表知識產(chǎn)權(quán)清晰、準確完整、共享價值高的科學數(shù)據(jù)”。

      (2) 體制與職責主題中共有84條關(guān)聯(lián)關(guān)系,條款Ⅰ1、Ⅰ2、Ⅲ15、Ⅴ25、Ⅴ29未包含在關(guān)聯(lián)網(wǎng)絡中,核心條款有Ⅱ7、Ⅱ8、Ⅱ9、Ⅱ10等,核心主題語詞有法人單位、主管部門、負責、主要職責等?!掇k法》明確了我國科學數(shù)據(jù)實行國家統(tǒng)籌、各部門與各地區(qū)分工負責、法人單位及數(shù)據(jù)生產(chǎn)者組織貫徹落實的管理體制[41]。具體而言,由科學技術(shù)行政部門牽頭負責全國科學數(shù)據(jù)的宏觀管理與綜合協(xié)調(diào)(條款Ⅱ7),國務院和各省級人民政府相關(guān)部門負責宣傳貫徹落實國家科學數(shù)據(jù)管理政策(條款Ⅱ8),有關(guān)科研院所、高等院校和企業(yè)等具體負責貫徹落實各級科學數(shù)據(jù)管理政策,并建立健全本單位科學數(shù)據(jù)相關(guān)管理制度(條款Ⅱ9),科學數(shù)據(jù)中心承擔國家、部門(地區(qū))、領(lǐng)域等科學數(shù)據(jù)的整合匯交、開放共享、交流合作等重任(條款Ⅱ10)。此外,條款Ⅳ23還對使用者的義務做出了規(guī)定,“在論文發(fā)表、專利申請、專著出版等工作中注明所使用和參考引用的科學數(shù)據(jù)”。

      (3)匯交與保存主題中共有50條關(guān)聯(lián)關(guān)系,條款Ⅰ1、Ⅰ2、Ⅱ6、Ⅲ17、Ⅳ21、Ⅳ23、Ⅳ24、Ⅴ25、Ⅴ27、Ⅵ30、Ⅵ32未包含在關(guān)聯(lián)網(wǎng)絡中,核心條款有Ⅱ9、Ⅱ10、Ⅲ11、Ⅲ13等,核心主題語詞有科學數(shù)據(jù)中心、匯交、采集生產(chǎn)等。條款Ⅱ9中要求各法人單位按照有關(guān)標準規(guī)范建立科學數(shù)據(jù)管理系統(tǒng)進行科學數(shù)據(jù)采集生產(chǎn)、加工整理和長期保存,條款Ⅲ11要求法人單位和科學數(shù)據(jù)生產(chǎn)者建立科學數(shù)據(jù)質(zhì)量控制體系,條款Ⅲ13要求“各級科技計劃管理部門應建立先匯交科學數(shù)據(jù)、再驗收科技計劃項目的機制”,這意味著用政府資金獲得的科學數(shù)據(jù)必須上交[42]。為了防止國外科研成果發(fā)表平臺對我國科學數(shù)據(jù)的“虹吸”而造成數(shù)據(jù)主權(quán)丟失[8],條款Ⅲ14要求論文作者在向國外期刊發(fā)表論文前必須將科學數(shù)據(jù)上交至單位統(tǒng)一管理。科學數(shù)據(jù)中心建設(shè)薄弱是我國科學數(shù)據(jù)管理的短板之一[7],因此“科學數(shù)據(jù)中心”在條款Ⅱ7、Ⅱ8、Ⅱ10、Ⅲ13、Ⅲ15、Ⅲ18、Ⅴ28、Ⅴ29等均有分布。未來,我國將形成國家科學數(shù)據(jù)中心—部門(地區(qū))科學數(shù)據(jù)中心—領(lǐng)域科學數(shù)據(jù)中心三級體系。

      (4) 共享與利用主題中共有73條關(guān)聯(lián)關(guān)系,條款Ⅰ2、Ⅱ6、Ⅲ13、Ⅲ15、Ⅲ17、Ⅲ18、Ⅴ29、Ⅵ31、Ⅵ32未包含在關(guān)聯(lián)網(wǎng)絡中,核心條款有Ⅲ14、Ⅳ19、Ⅳ20、Ⅳ24、Ⅴ26等,核心主題語詞有開放共享、服務、利用、開放目錄、公布等。針對利用率過低問題,條款Ⅳ19指出科學數(shù)據(jù)開放共享應該遵循“開放為常態(tài)、不開放為例外”的原則,要求主管部門組織編制科學數(shù)據(jù)資源目錄并接入國家數(shù)據(jù)共享交換平臺。條款Ⅳ20列舉了科學數(shù)據(jù)開放共享的形式,既可以在線下載,又可以離線共享,還可以提供定制服務。條款Ⅳ22表示,要“支持科研人員整理發(fā)表準確完整、共享價值高的科學數(shù)據(jù)”。條款Ⅳ24指出某些重要領(lǐng)域需要使用科學數(shù)據(jù)時,法人單位要“無償提供”,確需收費時應按照“非營利”原則對外提供??茖W數(shù)據(jù)資源價值的大小終需市場檢驗,數(shù)據(jù)資產(chǎn)化運作或許是提升數(shù)據(jù)價值的有效途徑[43],條款Ⅳ21提出了開發(fā)利用的“市場化”原則,即法人單位可“對科學數(shù)據(jù)進行分析挖掘,形成有價值的科學數(shù)據(jù)產(chǎn)品”“鼓勵社會組織和企業(yè)開展市場化增值服務”。

      (5) 保密與安全主題中共有59條關(guān)聯(lián)關(guān)系,條款Ⅰ2、Ⅱ6、Ⅱ7、Ⅲ11、Ⅲ12、Ⅲ13、Ⅲ17、Ⅲ18、Ⅳ19、Ⅳ21、Ⅳ22、Ⅳ23、Ⅵ30、Ⅵ31未包含在關(guān)聯(lián)網(wǎng)絡中,核心條款有Ⅳ20、Ⅴ25、Ⅴ26、Ⅴ27、Ⅴ28,核心主題語詞有國家秘密、國家安全、安全等。條款Ⅳ20要求各法人單位明確科學數(shù)據(jù)的秘密級別、保密期限、開放條件、開放對象和審核程序等。條款Ⅳ25要求涉及國家秘密、國家安全、社會公共利益、商業(yè)秘密和個人隱私的科學數(shù)據(jù)不得對外開放共享。條款Ⅳ26要求主管部門和法人單位建立健全涉密科學數(shù)據(jù)管理與使用制度,嚴格管控數(shù)據(jù)的制作、審核、登記、傳輸、銷毀等環(huán)節(jié)。條款Ⅳ27指出主管部門和法人單位應對對外公布的科學數(shù)據(jù)或開放目錄進行安全保密審查。條款Ⅳ28提出建立健全防篡改、防泄露、防攻擊、防病毒等網(wǎng)絡安全保障體系。條款Ⅳ29要求科學數(shù)據(jù)中心建立應急管理和容災備份機制,要對重要的科學數(shù)據(jù)進行異地備份。該主題解決了如何平衡數(shù)據(jù)開放性和安全性這一難題,也為后續(xù)開放數(shù)據(jù)政策制定提供了新思路——切勿一味強調(diào)開放共享,應該遵從“邊開放邊保護”原則[44]。

      (6) 考核與懲處主題中共有47條關(guān)聯(lián)關(guān)系,條款Ⅰ1、Ⅰ2、Ⅱ6、Ⅱ9、Ⅲ12、Ⅲ14、Ⅲ15、Ⅲ16、Ⅲ18、Ⅳ19、Ⅳ21、Ⅴ25、Ⅴ27未包含在關(guān)聯(lián)網(wǎng)絡中,核心條款有Ⅲ17、Ⅳ24、Ⅵ31等,核心主題語詞有評價考核、激勵機制、遵守、執(zhí)行等。條款Ⅲ17指出要加強科學數(shù)據(jù)人才隊伍建設(shè),在崗位設(shè)置、績效收入、職稱評定等方面建立激勵機制;條款Ⅳ24指出“對于因經(jīng)營性活動需要使用科學數(shù)據(jù)的,當事人雙方應當簽訂有償服務合同,明確雙方的權(quán)利和義務”。厘清數(shù)據(jù)的所有權(quán)、使用權(quán)、受益權(quán)等,有利于解決數(shù)字資產(chǎn)的確權(quán)問題[45],《辦法》尊重知識產(chǎn)權(quán),條款Ⅳ23要求“科學數(shù)據(jù)使用者應遵守知識產(chǎn)權(quán)相關(guān)規(guī)定”。條款Ⅵ31對偽造數(shù)據(jù)、侵犯知識產(chǎn)權(quán)、不按規(guī)定匯交數(shù)據(jù)等違規(guī)違法行為做出處理意見,要求主管部門可采取責令整改、通報批評、處分或行政處罰等處理形式對相關(guān)單位和責任人給予懲處??茖W數(shù)據(jù)管理實行“權(quán)責相一致”原則[46]:一方面,鼓勵數(shù)據(jù)生產(chǎn)者和擁有者開放共享科學數(shù)據(jù)并獲得合法收益(條款Ⅳ21);另一方面,規(guī)定數(shù)據(jù)生產(chǎn)者和擁有者也要對數(shù)據(jù)的安全和質(zhì)量負責,“對違反國家有關(guān)法律法規(guī)的單位和個人,依法追究相應責任”(條款Ⅵ31)。

      4 結(jié)語

      本文采用自然語言處理技術(shù)對《辦法》進行了分詞處理,以實詞為研究對象,綜合使用四種指標并構(gòu)建判別公式,確定了文本的頻繁詞;拓展使用了詞頻逆文本頻率法,篩選并得出了各章節(jié)熱詞;構(gòu)建了“語詞-條款”共現(xiàn)矩陣,可視化展現(xiàn)了具有相同性質(zhì)和主題的語詞與不同條款之間的關(guān)聯(lián)關(guān)系。分析發(fā)現(xiàn),《辦法》的頻繁詞有科學數(shù)據(jù)、科學數(shù)據(jù)中心、開放共享、匯交、采集生產(chǎn)、國家秘密、使用、主要職責、法律法規(guī)、政府預算資金、國家安全等,這些頻繁詞較好地展示了《辦法》的精神內(nèi)涵:《辦法》所指的“科學數(shù)據(jù)”主要針對“使用”“政府預算資金”“采集產(chǎn)生”的數(shù)據(jù),《辦法》的主要目的是促進科學數(shù)據(jù)“開放共享”與開發(fā)“利用”,擬建設(shè)各層級/領(lǐng)域“科學數(shù)據(jù)中心”,其“主要職責”是進行科學數(shù)據(jù)“匯交”與保存,《辦法》強調(diào)保密與安全,對于泄露“國家秘密”和危害“國家安全”的行為,要嚴格按照國家相關(guān)“法律法規(guī)”進行懲處。此外,各主題相關(guān)語詞在文本均有對應的核心條款和核心語詞,但某些條款集中分布于某個主題而在其他主題分布較少,如條款Ⅰ2僅分布在宗旨與原則主題、條款Ⅱ7主要分布在體制與職責主題、條款Ⅲ17主要分布在考核與懲處主題和、條款Ⅳ19主要分布在共享與利用主題、條款Ⅴ25主要分布在保密與安全主題、條款Ⅵ31主要分布在考核與懲處主題。這種分布不均也能從各主題的相關(guān)語詞數(shù)量與主題詞關(guān)聯(lián)關(guān)系數(shù)量的比例中體現(xiàn)出來,如宗旨與原則主題的58個相關(guān)語詞之間共有162條關(guān)聯(lián)關(guān)系(比例為1:2.79),而考核與懲處主題的42個相關(guān)語詞之間僅共有47條關(guān)聯(lián)關(guān)系(比例為1:1.12)。

      文章的不足之處有:詞頻統(tǒng)計文本分析通常適用于大規(guī)模的語料文本,本文僅以《辦法》文本語詞為分析樣本,研究對象具有一定的局限性;語詞合并、詞性篩選、主題劃分等環(huán)節(jié)在盡量保持客觀的基礎(chǔ)上仍然存在少許主觀因素,可能造成語義損失。未來研究可結(jié)合國內(nèi)外其他相關(guān)政策性文本進行協(xié)同或?qū)Ρ确治?,可借鑒相關(guān)研究成果構(gòu)建更加合理的領(lǐng)域詞典和主題詞典等。此外,借助人工智能和機器學習相關(guān)技術(shù)對《辦法》類語料庫進行更深層次挖掘(如情感分析、政策導向預測等)也是值得嘗試的方向之一。

      參考文獻:

      何國金,王桂周,龍騰飛,等.對地觀測大數(shù)據(jù)開放共享:挑戰(zhàn)與思考[J].中國科學院院刊,2018,33(8):783-790.

      張曉青,盛小平.國外科學數(shù)據(jù)開放共享政策述評[J].圖書館論壇,2018,38(8):147-154.

      開掘好大數(shù)據(jù)資源“富礦”:聚焦我國首個國家層面的科學數(shù)據(jù)管理辦法[EB/OL].[2019-07-10].http://www.gov.cn/zhengce/2018-04/08/content_5280638.htm.

      科技部副部長出席科學數(shù)據(jù)管理座談會[EB/OL].[2019-07-10].http://www.gov.cn/xinwen/2017-05/25/content_5196728.htm.

      張麗麗,溫亮明,石蕾,等.國內(nèi)外科學數(shù)據(jù)管理與開放共享的最新進展[J].中國科學院院刊,2018,33(8):774-782.

      司莉,邢文明.國外科學數(shù)據(jù)管理與共享政策調(diào)查及對我國的啟示[J].情報資料工作,2013(1):61-66.

      國家科技基礎(chǔ)條件平臺中心.國家科學數(shù)據(jù)資源發(fā)展報告(2016)[R].北京:科學數(shù)據(jù)文獻出版社,2016.

      國家科技基礎(chǔ)條件平臺中心.國家科學數(shù)據(jù)資源發(fā)展報告(2017)[R].北京:科學數(shù)據(jù)文獻出版社,2018.

      科技部舉行《科學數(shù)據(jù)管理辦法》新聞通氣會[EB/OL].[2019-07-10].http://www.scio.gov.cn/xwfbh/gbwxwfbh/xwfbh/kjb/Document/1627104/1627104.htm.

      國務院辦公廳關(guān)于印發(fā)科學數(shù)據(jù)管理辦法的通知[EB/OL].[2019-07-23].http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.

      齊法制,陳剛,程耀東.建立權(quán)責明晰且能力健全的科學數(shù)據(jù)開放共享機制:以高能物理領(lǐng)域為例[J].中國科學基金,2019,33(3):229-236.

      王卷樂,王明明,石蕾,等.科學數(shù)據(jù)管理態(tài)勢及其對我國地球科學領(lǐng)域的啟示[J].地球科學進展,2019,34(3):306-315.

      郭華東.科學大數(shù)據(jù):國家大數(shù)據(jù)戰(zhàn)略的基石[J].中國科學院院刊,2018,33(8):768-773.

      柏永青,楊雅萍,孫九林.國內(nèi)外科學數(shù)據(jù)管理辦法研究進展[J].農(nóng)業(yè)大數(shù)據(jù)學報,2019,1(3):5-20,4.

      周玉琴,邢文明.我國科研數(shù)據(jù)管理與共享政策體系研究[J].中華醫(yī)學圖書情報雜志,2018,27(8):1-7.

      趙小蘭,劉桂鋒.香港高??蒲袛?shù)據(jù)管理服務調(diào)查分析[J].數(shù)字圖書館論壇,2018(6):37-44.

      張保鋼.國務院辦公廳印發(fā)《科學數(shù)據(jù)管理辦法》[J].北京測繪,2018,32(5):577.

      邵玉昆.科技數(shù)據(jù)資源的開放共享機制研究[J].科技管理研究,2019,39(13):177-181.

      莊媛.科學數(shù)據(jù)共享促科技騰飛[N].深圳特區(qū)報,2018-04-09(A02).

      王知凡.數(shù)據(jù)價值的挖掘離不開市場[J].小康,2018(13):78.

      劉敬儀,江洪.開放科學環(huán)境下國外高校圖書館科研數(shù)據(jù)管理服務啟示[J].圖書館工作與研究,2018(10):18-24.

      鄒自明,胡曉彥,熊森林.空間科學大數(shù)據(jù)的機遇與挑戰(zhàn)[J].中國科學院院刊,2018,33(8):877-883.

      賽迪智庫.《科學數(shù)據(jù)管理辦法》的亮點與思考[J].中國工業(yè)和信息化,2018(9):12-14.

      邢文明,洪程.開放為常態(tài),不開放為例外:解讀《科學數(shù)據(jù)管理辦法》中的科學數(shù)據(jù)共享與利用[J].圖書館論壇,2019,39(1):117-124.

      秦順,邢文明.開放·共享·安全:我國科學數(shù)據(jù)共享進入新時代:對《科學數(shù)據(jù)管理辦法》的解讀[J].圖書館,2019(6):36-42.

      高瑜蔚,石蕾,朱艷華,等.《科學數(shù)據(jù)管理辦法》實施細則比較研究:以正式發(fā)布的11份細則為例[J].中國科技資源導刊,2019,51(3):1-10,17.

      白銳,呂躍.基于修正多源流模型視角的政策議程分析:以《科學數(shù)據(jù)管理辦法》為例[J].圖書館理論與實踐,2019(10):50-55.

      張洋,肖燕珠.生命周期視角下《科學數(shù)據(jù)管理辦法》解讀及其啟示[J].圖書館學研究,2019(15):37-43,13.

      王繼娜.國外高校圖書館科學數(shù)據(jù)管理服務的調(diào)研與思考[J].情報理論與實踐,2019,42(8)159-167.

      儲文靜,李書寧.高??茖W數(shù)據(jù)管理規(guī)范流程探究[J].情報理論與實踐,2019,42(2):62-67.

      GAMBHIR M, GUPTA V.Recentautomatic text summarization techniques:a survey[J].Artificial Intelligence Review,2017,47(1):1-66.

      魏偉,郭崇慧,陳靜鋒.國務院政府工作報告(1954—2017)文本挖掘及社會變遷研究[J].情報學報,2018,37(4):406-421.

      溫亮明,王軍,余波.基于論文產(chǎn)出視角的高校圖書館科研實力研究:以“985工程”高校為例[J].情報工程,2015,1(5):107-118.

      李渝勤,孫麗華.面向互聯(lián)網(wǎng)輿情的熱詞分析技術(shù)[J].中文信息學報,2011,25(1):48-53,59.

      劉洪君.微博網(wǎng)絡熱點話題發(fā)現(xiàn)技術(shù)研究[D].北京:北京交通大學,2013.

      CALLON M, LAW J, RIP A. Mapping the dynamics of science and technology: sociology of science in the real world[M].London:Palgrave Macmillan,1986:103-123.

      余波,溫亮明,李洋,等.基于關(guān)鍵詞共現(xiàn)的圖書情報領(lǐng)域MOOC研究熱點解析[J].圖書館工作與研究,2017(4):69-77.

      王麗培.《中華人民共和國公共圖書館法》詞頻統(tǒng)計與分析[J].圖書館工作與研究,2018(9):5-14.

      朱慶華,李亮.社會網(wǎng)絡分析法及其在情報學中的應用[J]. 情報理論與實踐,2008(2):179-183,174.

      王春華,李維,文庭孝.我國圖書情報領(lǐng)域大數(shù)據(jù)研究熱點分析[J].圖書情報知識,2015(4):82-89.

      吳妍.《科學數(shù)據(jù)管理辦法》發(fā)布[J].福建輕紡,2018(5):2.

      用國家資金獲得的科學數(shù)據(jù)必須上交[J].計量與測試技術(shù),2018,45(4):112.

      吳超.從原材料到資產(chǎn):數(shù)據(jù)資產(chǎn)化的挑戰(zhàn)和思考[J].中國科學院院刊,2018,33(8):791-795.

      馬海群,蒲攀.國內(nèi)外開放數(shù)據(jù)政策研究現(xiàn)狀分析及我國研究動向研判[J].中國圖書館學報,2015,41(5):76-86.

      趙國棟:深度解讀《科學數(shù)據(jù)管理辦法》[EB/OL].[2019-07-30].http://www.sohu.com/a/227351001_296848.

      袁于飛.讓科學數(shù)據(jù)開放共享成為常態(tài)[N].光明日報,2018-04-05(002).

      猜你喜歡
      關(guān)聯(lián)分析自然語言處理
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      基于隨機函數(shù)Petri網(wǎng)的系統(tǒng)動力學關(guān)聯(lián)分析模型
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      關(guān)聯(lián)分析技術(shù)在學生成績分析中的應用
      基于關(guān)聯(lián)分析的學生活動參與度與高校社團管理實證研究
      面向機器人導航的漢語路徑自然語言組塊分析方法研究
      詞向量的語義學規(guī)范化
      漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      不同的數(shù)據(jù)挖掘方法分類對比研究
      永宁县| 工布江达县| 图木舒克市| 和平区| 新竹县| 广水市| 乳源| 吴江市| 米林县| 普兰店市| 敦煌市| 静乐县| 秭归县| 金塔县| 通海县| 赞皇县| 汪清县| 惠安县| 南丰县| 广东省| 高要市| 习水县| 都兰县| 富锦市| 丹寨县| 政和县| 绥阳县| 诸城市| 永康市| 北流市| 南丰县| 资阳市| 北海市| 炎陵县| 泰和县| 清徐县| 崇信县| 阳西县| 吴江市| 英德市| 南平市|