• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      科技計劃與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性研究與實現(xiàn)

      2015-06-27 05:08:45李光文
      天津科技 2015年12期
      關(guān)鍵詞:戰(zhàn)略性新興產(chǎn)業(yè)文檔

      李光文

      (天津市科技統(tǒng)計與發(fā)展研究中心 天津300051)

      科技計劃與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性研究與實現(xiàn)

      李光文

      (天津市科技統(tǒng)計與發(fā)展研究中心 天津300051)

      科技計劃以支撐引領(lǐng)經(jīng)濟社會發(fā)展為目標(biāo),戰(zhàn)略性新興產(chǎn)業(yè)是未來經(jīng)濟持續(xù)增長的先導(dǎo)產(chǎn)業(yè)。為研究科技計劃項目與戰(zhàn)略性新興產(chǎn)業(yè)之間的相關(guān)性,將戰(zhàn)略性新興產(chǎn)業(yè)行業(yè)分類進行關(guān)鍵詞拆分,使用關(guān)鍵詞在科技計劃項目研究內(nèi)容中進行搜索,對搜索結(jié)果利用空間向量模型建立一套分析模型,計算出科技計劃與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性系數(shù),并對相關(guān)性系數(shù)進行分析。此外,利用天津市科技支撐計劃項目數(shù)據(jù)對分析模型、分析方法進行了試算,試算結(jié)果顯示兩者相關(guān)性程度較高。

      空間向量模型 科技計劃 相關(guān)性

      0 引 言

      戰(zhàn)略性新興產(chǎn)業(yè)是一個國家或地區(qū)實現(xiàn)未來經(jīng)濟持續(xù)增長的先導(dǎo)產(chǎn)業(yè),對國民經(jīng)濟發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)換具有決定性的促進、導(dǎo)向作用,具有廣闊的市場前景和引導(dǎo)科技進步的能力,關(guān)系到國家的經(jīng)濟命脈和產(chǎn)業(yè)安全。[1]戰(zhàn)略性新興產(chǎn)業(yè)具有技術(shù)新、市場前景好、資源消耗低、綜合效益強等特點。我國的戰(zhàn)略性新興產(chǎn)業(yè)是在2009年召開的新興戰(zhàn)略性產(chǎn)業(yè)發(fā)展座談會上提出來的,包括新能源、節(jié)能環(huán)保、電動汽車、新材料、新醫(yī)藥、生物育種和信息產(chǎn)業(yè)。

      天津市以科學(xué)發(fā)展觀為指導(dǎo),不斷提升自主創(chuàng)新能力,為更好地發(fā)揮科學(xué)技術(shù)對經(jīng)濟社會的支撐和引領(lǐng)作用,制定了天津市科技發(fā)展“十二五”規(guī)劃,其主要目標(biāo)是“加快提高優(yōu)勢產(chǎn)業(yè)和戰(zhàn)略性新興產(chǎn)業(yè)的技術(shù)自給能力和核心競爭力,提升科技對發(fā)展方式轉(zhuǎn)變的支撐能力,率先建成水平更高、帶動作用更強的創(chuàng)新型城市,成為我國自主創(chuàng)新高地、高水平研發(fā)轉(zhuǎn)化基地、北方產(chǎn)業(yè)創(chuàng)新中心”。從規(guī)劃可以看出,天津市把戰(zhàn)略性新興產(chǎn)業(yè)作為科技發(fā)展的重要任務(wù)??萍家?guī)劃的落實主要體現(xiàn)在科技計劃項目的實施上,“十二五”期間天津市科技計劃項目與戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展的相關(guān)性如何,是本文的研究重點。本文通過數(shù)據(jù)挖掘技術(shù)和搜索引擎技術(shù),將戰(zhàn)略性新興產(chǎn)業(yè)包括的行業(yè)分類進行關(guān)鍵詞拆分,利用關(guān)鍵詞在科技計劃項目主要研究內(nèi)容中進行搜索,進行相關(guān)性分析,嘗試建立兩者的相關(guān)性。

      1 分析技術(shù)與工具

      1.1 向量空間模型(見圖1)

      向量空間模型(Vector Space Model)是由Salton等人在20 世紀70年代提出,用向量空間模型進行特征表達,用TFIDF (Term-Frequency Inverse-Document-Frequency)進行特征項賦權(quán),TF-IDF認為如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),就認為該詞或短語具有很好的區(qū)分能力,適合用來分類。向量空間模型用倒排文檔進行索引,用余弦夾角進行距離度量,用查全率和查準率評價檢索系統(tǒng)性能。向量空間模型已成為信息檢索領(lǐng)域的研究基礎(chǔ)。向量空間模型是在文本中提取其特征項構(gòu)成特征向量,并以某種方式為特征項賦權(quán),可以理解為在忽略特征項之間的相關(guān)信息后,一個文本用一個特征向量來表示,一個文本集表示成一個矩陣,也就是特征項空間中的一些點的集合。

      1.2 向量空間模型使用關(guān)鍵

      向量空間模型在使用過程中,需要重點解決特征項的選擇和特征項賦權(quán)。中文文檔是由漢字和標(biāo)點符號等基本的語言符號組成的字符串,由字構(gòu)成詞,由詞構(gòu)成短語,進而形成句、段、節(jié)、章、篇等語言結(jié)構(gòu)。中文文檔的特征項可以是字、詞、短語,甚至是句子或句群等。特征項的選擇需要考慮處理速度、精度、存儲空間等,遵循包含語義信息較多、文檔在特征項上的分布具有統(tǒng)計規(guī)律性、容易實現(xiàn)等要求。特征項賦權(quán)一般由頻率因子、文檔集因子和規(guī)格化因子3部分組成。頻率因子指特征項在文檔中出現(xiàn)的頻率,頻繁出現(xiàn)的特征項具有較高權(quán)重。文檔集因子是與文檔集合有關(guān)的因子,加大文檔之間的區(qū)分度。規(guī)格化因子是為了解決文檔長度對匹配結(jié)果的影響。

      圖1 向量空間模型Fig.1 The vector space model

      1.3 向量空間模型應(yīng)用

      向量空間模型的重要應(yīng)用是兩個文檔D1和D2之間相似度Sim(D1,D2)研究,當(dāng)文檔D1、D2被表示為空間向量時,就可以計算向量之間的距離來表示文檔間的相似度,常用的距離計算有余弦距離公式:

      1.4 中文分詞技術(shù)

      英文以詞為單位,詞和詞之間使用空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子“I am a student”,用中文表達為“我是一個學(xué)生”。計算機程序可以很容易通過空格知道student是一個單詞,但是不能很容易明白兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。中文分詞技術(shù)主要用于搜索引擎,用于對用戶提交的查詢關(guān)鍵詞進行處理再搜索。中文分詞技術(shù)主要有字符串匹配分詞法、詞義分詞法、統(tǒng)計分詞法。

      1.5 Lucene搜索引擎

      Lucene是Apache軟件基金會的一個子項目,它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎以及部分文本分析引擎。Lucene為軟件開發(fā)人員提供了一個簡單易用的工具包,以便于在目標(biāo)系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。

      2 分析方法

      本文對空間向量模型進行了微調(diào),引入分詞技術(shù)、搜索引擎技術(shù)定義了分析模型(見圖2),實現(xiàn)科技計劃與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性研究。

      ①按照國家統(tǒng)計局制定的《戰(zhàn)略性新興產(chǎn)業(yè)分類》(試行),將《國務(wù)院關(guān)于加快培育和發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)的決定》中包括的節(jié)能環(huán)保產(chǎn)業(yè)、新一代信息技術(shù)產(chǎn)業(yè)、生物產(chǎn)業(yè)、高端裝備制造產(chǎn)業(yè)、新能源產(chǎn)業(yè)、新材料產(chǎn)業(yè)、新能源汽車產(chǎn)業(yè)等7個戰(zhàn)略性新興產(chǎn)業(yè),與《國民經(jīng)濟行業(yè)分類》中的行業(yè)類別建立對應(yīng)關(guān)系,實現(xiàn)了戰(zhàn)略性新興產(chǎn)業(yè)與行業(yè)分類相結(jié)合。共包括《國民經(jīng)濟行業(yè)分類》中的行業(yè)類別359個,戰(zhàn)略性新興產(chǎn)業(yè)產(chǎn)品及服務(wù)2410項,作為戰(zhàn)略性新興產(chǎn)業(yè)的特征項。

      圖2 分析模型Fig.2 Analysis model

      ②使用庖丁解牛分詞技術(shù)編寫程序,分別對七大戰(zhàn)略性新興產(chǎn)業(yè)對應(yīng)的國民經(jīng)濟行業(yè)分類進行關(guān)鍵詞拆分。再對關(guān)鍵詞進行整理,包括:去掉每個產(chǎn)業(yè)中重復(fù)關(guān)鍵詞;去掉一個字的關(guān)鍵詞,如“大”、“新”等;通過主觀判斷去掉異常關(guān)鍵詞,如“和氣”、“水的”、“其他”等;去掉部分常用動詞,如“發(fā)展”、“設(shè)計”、“利用”等。形成7個戰(zhàn)略性新興產(chǎn)業(yè)關(guān)鍵詞項集Zn,n=7。7大戰(zhàn)略性新興產(chǎn)業(yè)規(guī)格化因子如表1所示。

      表1 七大戰(zhàn)略性新興產(chǎn)業(yè)規(guī)格化因子Tab.1 Normalizing factor of seven strategic industries

      ③將科技計劃項目主要研究內(nèi)容作為科技計劃特征項。使用Java語言,引入Lucene架構(gòu)編寫搜索引擎程序,利用每個戰(zhàn)略性新興產(chǎn)業(yè)的關(guān)鍵詞項集,到每個科技計劃項目中進行搜索,搜索出每個科技計劃項目中出現(xiàn)的關(guān)鍵詞,以及每個的關(guān)鍵詞出現(xiàn)的次數(shù),表示成X(t1,t2,…,tN)。計算出戰(zhàn)略性新興產(chǎn)業(yè)關(guān)鍵詞項集與科技計劃特征項之間向量余弦距離,作為其相關(guān)性系數(shù)。本文主要是研究向量相關(guān)性的相對大小,為了簡化計算難度,忽略未在某個科技計劃特征項中出現(xiàn)的戰(zhàn)略性新興產(chǎn)業(yè)關(guān)鍵詞。將余弦距離計算公式變換為:

      為消除每個產(chǎn)業(yè)關(guān)鍵詞數(shù)量的差異導(dǎo)致的比較誤差,設(shè)立規(guī)格化因子,w表示某個產(chǎn)業(yè)關(guān)鍵詞項集的數(shù)量。每個項目內(nèi)容與每個產(chǎn)業(yè)的相關(guān)性系數(shù)結(jié)果除以規(guī)格化因子作為最后相關(guān)性結(jié)果,對相關(guān)性系統(tǒng)進行分析。

      3 研究結(jié)果

      3.1 試算數(shù)據(jù)

      天津市科技計劃根據(jù)所支持項目研發(fā)處階段設(shè)立了不同的科技計劃類別,在天津市科技計劃體系中,科技支撐計劃定義為“為天津市產(chǎn)業(yè)升級和結(jié)構(gòu)調(diào)整、社會可持續(xù)發(fā)展和提高人民生活質(zhì)量提供技術(shù)支撐”,與產(chǎn)業(yè)發(fā)展最為緊密。本文選用“十二五”期間天津市科委支持的科技支撐計劃項目作為試算數(shù)據(jù)。

      3.2 試算結(jié)果

      利用分析模型進行試算,試算結(jié)果顯示,天津市科技支撐計劃項目與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性程度較高,不包含戰(zhàn)略性信息產(chǎn)業(yè)關(guān)鍵詞的項目僅占2.5%,含1個關(guān)鍵詞的項目占9.8%,含2個關(guān)鍵詞的項目占13.9%,含3個及以上關(guān)鍵詞的項目占73.8%(見圖3)。

      圖3 項目含關(guān)鍵詞數(shù)量比例Fig.3 Project keyword ratios

      如果設(shè)定含有3個及以上關(guān)鍵詞的項目與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān),說明天津市科技支撐計劃項目與戰(zhàn)略性新興產(chǎn)業(yè)的相關(guān)性程度高。

      圖4 項目含關(guān)鍵詞數(shù)量統(tǒng)計(單位:項)Fig.4 Statistics of project keyword numbers(Unit:per unit)

      取含有3個及以上關(guān)鍵詞的項目相關(guān)性系數(shù)作為有效觀測數(shù),共9544項(見圖4),對有效觀測數(shù)進行描述性匯總統(tǒng)計,相關(guān)性系數(shù)的最大值為4.111,最小值為1.007,中位數(shù)為1.671,眾數(shù)為1.633。

      根據(jù)項目立項年度對相關(guān)性結(jié)果進行分析,分析結(jié)果顯示,天津市科技支撐計劃項目與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性逐年增大,呈上升趨勢,如圖5。

      圖5 相關(guān)性按年度統(tǒng)計Fig.5 Correlation between annual statistics

      根據(jù)對七大戰(zhàn)略性新興產(chǎn)業(yè)分類,對相關(guān)性結(jié)果進行分析,結(jié)果顯示天津市科技支撐計劃項目與新一代信息技術(shù)相關(guān)性最高,與新能源汽車相關(guān)性最低,相關(guān)性程度依次為:新一代信息技術(shù)、高端裝備制造、生物產(chǎn)業(yè)、節(jié)能環(huán)保、新能源、新材料、新能源汽車。說明天津市科技支撐計劃對信息技術(shù)、裝備制造、生物產(chǎn)業(yè)項目支持相對較多,而對新能源汽車項目支持相對較少。

      4 存在不足

      分析模型中為消除由于關(guān)鍵詞數(shù)量不同導(dǎo)致的搜索結(jié)果偏差,設(shè)定了規(guī)格化因子,規(guī)格化因子的計算方式引自論文,其合理性需要進一步研究。本文在研究過程中,為了簡化搜索過程,使用了約2000字的科技計劃項目簡要說明作為搜索內(nèi)容,搜索內(nèi)容偏少,下一步將研究實現(xiàn)對科技計劃項目申請書進行全文搜索,增強相關(guān)性結(jié)果的科學(xué)性。分析模型完善后,可以應(yīng)用到科技計劃項目研究內(nèi)容查重,項目評審回避專家等工作中,提高科技計劃項目管理的科學(xué)性與公正性。

      [1] 朱瑞博. 中國戰(zhàn)略性新興產(chǎn)業(yè)培育及其政策取向[J].改革,2010(3):19-28.

      [2] 陳治綱,何丕廉,孫越恒,等. 基于向量空間模型的文本分類方法的研究與實現(xiàn)[J]. 計算機應(yīng)用,2004(6):277-279.

      [3] 楊小平,丁浩,黃都培. 基于向量空間模型的中文信息檢索技術(shù)研究[J]. 計算機工程與應(yīng)用,2003(15):109-111.

      [4] Lucene 4. 0原理與代碼分析–相似度評分算法之向量空間模型(VSM)[OB/EL]. http://so.searchtech. pro/articles/2013/05/22/1369204044879. html.

      [5] 殷偉. 財務(wù)文檔分詞及文檔相關(guān)性分析[J]. 電腦知識與技術(shù),2013,9(7):1718-1719,1722.

      [6] 龐劍鋒,卜東波,白碩. 基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J]. 計算機應(yīng)用研究,2001(9):23-26.

      A Correlation Study of Science and Technology Plans and New Strategic Industries

      LI Guangwen
      (Tianjin Science and Technology Statistic Center,Tianjin 300051,China)

      As science and technology plans take the goal of supporting and leading economic and social development and new strategic industries will become the leading industry in the future economic growth this paper studies the relationship between the S&T plan projects and new strategic industries. By dividing categories of new strategic industries into key words it carries out key words searching in the study content of the S&T Plan projects. The search results were modeled with the help of space vector model to calculate the correlation coefficients of the projects and the industries and then analyze them. In addition the data of Tianjin Science and Technology Support Program were used to analyze the model and the method. Test results show that the two have strong relevance.

      vector space model;science and technology plan;implementation

      G312

      :A

      :1006-8945(2015)12-0052-03

      2015-11-08

      猜你喜歡
      戰(zhàn)略性新興產(chǎn)業(yè)文檔
      有人一聲不吭向你扔了個文檔
      我國將24種礦產(chǎn)確定為戰(zhàn)略性礦產(chǎn)
      再造戰(zhàn)略性大單品
      生活用紙(2016年5期)2017-01-19 07:36:10
      基于RI碼計算的Word復(fù)制文檔鑒別
      戰(zhàn)略性新興產(chǎn)業(yè)與大國崛起
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      新興產(chǎn)業(yè)市場績效提升的現(xiàn)狀及建議
      在新興產(chǎn)業(yè)看小元件如何發(fā)揮大作用
      新興產(chǎn)業(yè)
      江蘇年鑒(2014年0期)2014-03-11 17:09:30
      黨內(nèi)民主:戰(zhàn)略性的正能量
      连州市| 呼玛县| 恭城| 芮城县| 新余市| 玉环县| 阜阳市| 长治县| 武夷山市| 津市市| 湘西| 长海县| 绥宁县| 阳西县| 河间市| 当涂县| 黑山县| 漾濞| 始兴县| 望城县| 霍山县| 天峻县| 崇明县| 会泽县| 正蓝旗| 昌都县| 巴彦县| 西平县| 收藏| 儋州市| 潞西市| 长汀县| 长岛县| 盐津县| 正安县| 金溪县| 济宁市| 剑阁县| 榆中县| 汾西县| 建湖县|