田創(chuàng)+趙亞娟
摘要:[目的/意義]提出一種基于余弦相似度的專利文獻與產(chǎn)業(yè)類目映射模型,模型擁有準確、高效和易拓展的優(yōu)點,可為后續(xù)研究提供借鑒和參考。[方法/過程]整理現(xiàn)有專利與產(chǎn)業(yè)類目映射方法,以2015年度中國科學(xué)院院所發(fā)明專利與《戰(zhàn)略性新興產(chǎn)業(yè)分類》為例,設(shè)計專利文獻與產(chǎn)業(yè)類目映射模型并做映射實驗,并根據(jù)映射成果評價模型。[結(jié)果/結(jié)論]專利文獻與產(chǎn)業(yè)類目映射模型通過自然語言處理技術(shù)自動化得到專利文獻與產(chǎn)業(yè)類目的映射組合,可實現(xiàn)專利到產(chǎn)業(yè)及產(chǎn)業(yè)到專利的映射,且可節(jié)省大量人力成本并方便地進行映射類目細粒度的調(diào)整,適用于大部分專利與產(chǎn)業(yè)類目的映射。最后,指出該模型有待完善之處,并對下一步可拓展的應(yīng)用領(lǐng)域進行探討。
關(guān)鍵詞:專利文獻 產(chǎn)業(yè)分類 類目映射 映射方法
分類號:G254.11
引用格式:田創(chuàng), 趙亞娟. 專利文獻與產(chǎn)業(yè)類目的映射研究——以2015年度中科院專利與《戰(zhàn)略性新興產(chǎn)業(yè)分類》為例[J/OL]. 知識管理論壇, 2017, 2(1): 22-31[引用日期]. http://www.kmf.ac.cn/p/1/62/.
專利作為技術(shù)創(chuàng)新的成果,與產(chǎn)業(yè)創(chuàng)新水平息息相關(guān),同時,作為參與市場競爭的重要工具,也與產(chǎn)業(yè)經(jīng)濟活動緊密聯(lián)系。將專利與產(chǎn)業(yè)分類體系進行有效映射是技術(shù)轉(zhuǎn)移和專利情報研究工作中不可或缺的步驟。
筆者在整理介紹現(xiàn)有專利與產(chǎn)業(yè)類目映射方法的基礎(chǔ)上,制定準確、高效和易拓展的模型指導(dǎo)原則,以2015年度中國科學(xué)院(以下簡稱“中科院”)院所發(fā)明專利與《戰(zhàn)略性新興產(chǎn)業(yè)分類》為例,提出了一種基于余弦相似度計算的專利文獻與產(chǎn)業(yè)類目映射模型并進行了映射實驗,并根據(jù)映射成果綜合評價本模型。模型通過自然語言處理技術(shù)自動化得到專利文獻與產(chǎn)業(yè)類目的映射組合,實現(xiàn)專利到產(chǎn)業(yè)及產(chǎn)業(yè)到專利的映射,模型可節(jié)省大量人力成本并方便地進行映射類目細粒度的調(diào)整,適用于大部分專利與產(chǎn)業(yè)類目的映射。最后,指出本模型有待完善之處以及完善后可拓展的應(yīng)用領(lǐng)域,為后續(xù)研究提供借鑒和參考。
1 現(xiàn)有專利與產(chǎn)業(yè)類目映射方法
目前,專利與產(chǎn)業(yè)的映射方法主要有3種:基于專家判定的映射方法、基于交叉檢索的方法和基于概率計算的方法[1]。
基于專家判定的映射方法主要根據(jù)專家的主觀判斷來確立類目間的對應(yīng)關(guān)系,雖然準確率較高,但費時費力,過多依賴于人工判定,不適用于大規(guī)模數(shù)據(jù)。
基于交叉檢索的方法主要是用一種分類法在使用另一種分類法進行知識組織的語料庫中檢索,通過對檢索結(jié)果所標識的類目進行分析和統(tǒng)計,建立兩種分類法之間的映射[2-3]。該方法的局限性在于:一方面對數(shù)據(jù)量有一定的要求,如果數(shù)據(jù)量太小會造成覆蓋率過低的現(xiàn)象;另一方面通過交叉檢索得到的是一對多的映射,需要依賴統(tǒng)計或人工的方法進一步確定映射關(guān)系。
基于概率計算的方法將分類法類目的整體概念分解成若干足夠小的單位概念,整體概念的相似度可以建立在各單位概念相似度的基礎(chǔ)上,通過計算各小類之間的相似度從而得到整體類目之間的概率,其中小類概率之和應(yīng)等于整體概率。單位概念通常由關(guān)鍵詞表示,這樣類目整體概念的相似度就轉(zhuǎn)化為能夠表達單位概念詞的相似度之和[4-5]。該方法依據(jù)一定的規(guī)則用計算機代替人工進行語義匹配,省時省力,但映射結(jié)果還需進行一定的人工調(diào)整。
2 映射模型的指導(dǎo)原則
國內(nèi)已有專利與產(chǎn)業(yè)的映射過多地依賴人工判定[6-7],不具有普適性,且映射方法與結(jié)果均有待完善。理想的映射方法應(yīng)當既滿足映射的準確性,又能保證效率和可拓展性。基于此方向,設(shè)定以下指導(dǎo)原則:
2.1 準確性
使用專利文獻中的標題與摘要信息作為專利文獻的特征,使用產(chǎn)業(yè)類目的官方注釋作為產(chǎn)業(yè)類目的特征,在初步分詞后,提取更能精準體現(xiàn)專利與產(chǎn)業(yè)特征的動詞與名詞,去除不具有明顯特征的停用詞,以保證映射的準確性。
2.2 高效率
2012版《戰(zhàn)略性新興產(chǎn)業(yè)分類》第三層級共有100個類目[8],人工逐一對專利文獻進行產(chǎn)業(yè)類目的映射需要大量時間,應(yīng)盡可能地依托計算機技術(shù)自動化實現(xiàn)映射過程,減少人工的參與。本模型通過計算機編程實現(xiàn)快速從專利文獻及產(chǎn)業(yè)類目中提取特征,并計算兩者之間的相似度,可隨著新專利、新產(chǎn)業(yè)分類的出現(xiàn)持續(xù)更新,并可以根據(jù)映射結(jié)果,高效靈活調(diào)整抽取的類目特征詞詞性及數(shù)量,依賴于客觀的算法而不是人為的主觀判斷。
2.3 易拓展
本映射模型除了探討專利文獻與產(chǎn)業(yè)類目的映射,還將側(cè)重于構(gòu)建完善縝密的映射流程,便于下一步將映射方法拓展至其他產(chǎn)業(yè)分類體系及類目細粒度的調(diào)整。
2.3.1 擴展至其他產(chǎn)業(yè)分類
國內(nèi)正在使用的產(chǎn)業(yè)分類除了《戰(zhàn)略性新興產(chǎn)業(yè)分類》外,還有《國民經(jīng)濟行業(yè)分類》《高技術(shù)產(chǎn)業(yè)分類》《十大重點產(chǎn)業(yè)分類》《統(tǒng)計用產(chǎn)品分類目錄》和《產(chǎn)業(yè)結(jié)構(gòu)調(diào)整目錄》等,而現(xiàn)有的映射成果均基于專家判定且僅對部分產(chǎn)業(yè)分類進行了映射[9-10]。當新版本的產(chǎn)業(yè)分類發(fā)布時,重新映射往往需要大量人力物力,為避免重復(fù)工作,本模型側(cè)重于設(shè)計完善的映射流程,通過計算機技術(shù)自動從產(chǎn)業(yè)類目中的官方注釋抽取特征詞,在保證準確性的前提下,提升可擴展性,便于映射至其他產(chǎn)業(yè)分類。
2.3.2 便于類目細粒度的調(diào)整
《戰(zhàn)略性新興產(chǎn)業(yè)分類》共有3層類目層級,第一層級7個類目,第二層級30個,第三層級100個,若有效利用各個類目的注釋信息,可以方便地調(diào)整類目映射的層級。
3 基于余弦相似度的映射模型
基于映射模型制定的準確、高效和易拓展的指導(dǎo)原則,本節(jié)設(shè)計了專利文獻與產(chǎn)業(yè)類目的映射流程,依據(jù)此流程初步實現(xiàn)2015年度中科院院所8 309條發(fā)明專利與《戰(zhàn)略性新興產(chǎn)業(yè)分類》第三層級100個類目的映射,并在第4節(jié)中根據(jù)映射成果綜合評價本模型,映射流程如圖1所示:
3.1 獲取數(shù)據(jù)
考慮到專利數(shù)據(jù)量與映射結(jié)果評價的可操作性,實驗選取2015年度中科院各院所8 309條發(fā)明專利進行實驗,產(chǎn)業(yè)類目以第三層級100個類目進行映射,實驗共需兩大類數(shù)據(jù):
3.1.1 專利文獻數(shù)據(jù)
中國科學(xué)院文獻情報中心研發(fā)和維護的“中國科學(xué)院專利在線分析系統(tǒng)”收集了來源于國家知識產(chǎn)權(quán)局自1985年以來公布的全部中國專利信息,專利數(shù)據(jù)標準且全面,符合本文實驗數(shù)據(jù)的需求。實驗設(shè)定以下檢索條件:①受理國家為中國;②申請日為2015年1月1日至2015年12月31日;③申請人包含中科院;④專利類型為發(fā)明與發(fā)明授權(quán)。即專利數(shù)據(jù)庫中2015年申請人為中科院相關(guān)單位所有的中國發(fā)明專利,共檢索8 309條,下載全部專利數(shù)據(jù)的主分類號、申請人、標題和摘要信息。
3.1.2 產(chǎn)業(yè)類目官方注釋
《戰(zhàn)略性新興產(chǎn)業(yè)分類》包括節(jié)能環(huán)保、新一代信息技術(shù)、生物、高端裝備制造、新能源、新材料、新能源汽車七大國家戰(zhàn)略性新興產(chǎn)業(yè),用于實驗的版本為“2012版”,該版本分類表第三層級共有類目100個,整理其全部分類注釋信息。
3.2 抽取關(guān)鍵詞
實驗基于Python語言,通過自然語言處理技術(shù)從原始數(shù)據(jù)中抽取關(guān)鍵詞,共分為以下3個步驟:
3.2.1 分詞實驗
使用中文分詞開源組件“結(jié)巴中文分詞”[11]進行分詞。該分詞工具基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況,將其組成有向無環(huán)圖,采用動態(tài)規(guī)劃查找最大概率路徑的方法,找出基于詞頻的最大切分組合。對于沒有被收錄在分詞詞表中的詞,采用基于漢字成詞能力的HMM模型,使用了Viterbi算法,具有較好的分詞能力。
3.2.2 詞性判斷
“結(jié)巴中文分詞”工具采用的是中國科學(xué)院計算技術(shù)研究所漢語詞性標記集的詞性標記法,共有22大類詞性,如名詞、時間詞、方位詞和動詞等。在實際操作中,發(fā)現(xiàn)名詞和動詞更能精準體現(xiàn)專利與產(chǎn)業(yè)的特征,因此在分詞后進行條件判斷,僅提取分詞結(jié)果中的名詞與動詞。
3.2.3 去除停用詞
停用詞指在注釋中類別色彩不強的中性詞,例如類似、用于、提供、能夠等常用高頻詞語,不具有明顯特征,通常認為一個詞在語料庫中大量出現(xiàn)時為噪聲詞[12]。為保證提取關(guān)鍵詞的準確性,對噪聲詞進行刪除處理,基于語料庫中的詞頻統(tǒng)計與百度停用詞列表確定了本實驗所用停用詞表[13]。
經(jīng)過以上處理后,已可批量提取較為準確的關(guān)鍵詞,為便于觀察效果,列舉《戰(zhàn)略性新興產(chǎn)業(yè)分類》中第一個與最后一個類目的關(guān)鍵詞抽取結(jié)果,如表1所示:
3.3 TF-IDF處理
為了更準確地計算類目之間的相似度,需將提取的關(guān)鍵詞進行TF-IDF處理。TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),TF(term frequency)即詞頻,IDF(inverse document frequency)即逆向文檔頻率,TF-IDF為兩者的乘積[14]。該方法用以評估某一字詞對于一個語料庫中的其中一份文件的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降[15]。
某一特定文件中的高字詞頻率以及該字詞在全語料庫中的低頻率,可以產(chǎn)生出較高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾常見的字詞,保留具有類別區(qū)分能力的字詞。
3.4 計算余弦相似度
在上一步中,已給每一個關(guān)鍵詞都賦予了TF-IDF值,本小節(jié)將使用余弦相似度(cosine similarity)計算專利文獻與產(chǎn)業(yè)類目之間的相似性。要計算兩個文本之間的余弦相似度,步驟如下:
3.4.1 向量化處理
可以將每一個專利文獻的關(guān)鍵詞與產(chǎn)業(yè)類目的查詢詞用向量來表示:
Patenti=(w1,i, w2,i, w3,i,…, wt,i) (1)
Industryq=(w1,q, w2,q, w3,q,…, wt,q) (2)
每一維都表示某一專利文獻或產(chǎn)業(yè)類目中出現(xiàn)字詞所對應(yīng)的TF-IDF值w,向量的維數(shù)為出現(xiàn)在某一專利文獻或產(chǎn)業(yè)類目中不同字詞的個數(shù)。
3.4.2 計算余弦相似度
每一個專利文獻或產(chǎn)業(yè)類目都由對應(yīng)高維度的向量表示,每個字詞被賦予不同的維度,各個維度上的值為其對應(yīng)的TF-IDF值,即每一個專利文獻或產(chǎn)業(yè)類目已轉(zhuǎn)換成一個包含字詞重要程度的向量。余弦相似度通過測量兩個向量夾角的余弦值來度量它們之間的相似性,余弦值越接近1,表明夾角越接近0度,即兩個向量越相似。因此余弦相似度可以給出專利文獻與產(chǎn)業(yè)類目的相似度,該方法通常用于文本挖掘中的相似性比較[16]。專利文獻與產(chǎn)業(yè)類目的余弦相似度的計算公式如下所示:
3.5 類目相似度矩陣
經(jīng)過上述步驟,最終可以得到100×8 309的專利文獻與《戰(zhàn)略性新興產(chǎn)業(yè)分類》相似度矩陣,行為《戰(zhàn)略性新興產(chǎn)業(yè)分類》第三層級100個類目,列為2015年度中科院各院所全8 309個發(fā)明專利。
每一個專利文獻與產(chǎn)業(yè)類目都對應(yīng)相應(yīng)的相似度值,正值表明正相關(guān),正值越大表明越相關(guān),可以根據(jù)此矩陣判定專利文獻與產(chǎn)業(yè)類目的映射情況。同時,也可將此矩陣轉(zhuǎn)置處理,用以查看每一個產(chǎn)業(yè)類目對應(yīng)的專利文獻,從而統(tǒng)計發(fā)現(xiàn)各產(chǎn)業(yè)類目下中科院各研究所的專利布局等信息。
4 映射結(jié)果的評價
4.1 專利文獻至產(chǎn)業(yè)類目
4.1.1 宏觀分析
在最終的相似度矩陣中,每一個專利文獻與產(chǎn)業(yè)類目都對應(yīng)相應(yīng)的相似度值,實驗設(shè)定相似度值大于0為正相關(guān),因此對該專利文獻推薦所有相似度為正的產(chǎn)業(yè)類目,并以相似度值大小正序排列。為便于觀察整體推薦類目數(shù)量分布,作如下數(shù)據(jù)統(tǒng)計,8 309條專利文獻平均推薦的產(chǎn)業(yè)類目數(shù)信息見表2。
專利文獻與產(chǎn)業(yè)類目的映射頻數(shù)分布直方圖見圖2。
從圖2可知頻數(shù)分布直方圖為右偏分布,推薦的映射數(shù)量集中在“10至60”,可滿足一定的映射數(shù)量;進一步分析發(fā)現(xiàn),映射結(jié)果可以保證對99%的專利文獻推薦5個以上的產(chǎn)業(yè)類目,對96%的專利文獻推薦10個以上的產(chǎn)業(yè)類目,可用于專家進一步判斷選擇。推薦滿足率情況見表3。
4.1.2 微觀分析
在4.1.1小節(jié)中對映射的整體情況作了評價,本小節(jié)將深入分析具體專利文獻的推薦映射成果。為保證客觀合理,將選擇符合映射推薦數(shù)量中下四分位數(shù)、中位數(shù)和上四分位數(shù)的第一個專利,例如專利文獻與《戰(zhàn)略性新興產(chǎn)業(yè)分類》的推薦映射結(jié)果中下四分位數(shù)為24,出現(xiàn)同時滿足24個映射結(jié)果的專利有143個,選擇8 309條專利中第一條滿足此數(shù)目的專利,共計分析3個專利,對每個專利推薦相似度值排名前5的產(chǎn)業(yè)類目,詳細結(jié)果如表4所示:
從結(jié)果中可以看到,本模型可自動化地對每一條專利推薦一定數(shù)量的產(chǎn)業(yè)類目,產(chǎn)業(yè)類目中大部分符合專業(yè)判斷,例如對專利“正滲透分離方法、聚苯乙烯磺酸鈉的應(yīng)用及回收方法”的推薦情況,該專利完整摘要信息為“本發(fā)明提供一種正滲透分離方法、聚苯乙烯磺酸鈉的應(yīng)用及回收方法。聚苯乙烯磺酸鈉的應(yīng)用包括,將聚苯乙烯磺酸鈉應(yīng)用于正滲透過程中作為汲取溶質(zhì)。本發(fā)明解決了現(xiàn)有技術(shù)中汲取溶質(zhì)普遍存在的滲透壓低、反滲嚴重、回收困難,有毒以及與膜兼容性不好等問題”,對其推薦的5個《戰(zhàn)略性新興產(chǎn)業(yè)分類》類目為“6.1.2 新型膜材料制造,1.3.2 工業(yè)固體廢物、廢氣、廢液回收和資源化利用,1.4.1 節(jié)能環(huán)??茖W(xué)研究,6.3.1 高性能纖維復(fù)合材料制造,6.4.3 智能材料制造”,可見推薦產(chǎn)業(yè)類目與專利均有一定相似性,這些推薦類目可供專家進一步判斷選擇,節(jié)省大量的前期人力成本。
4.2 產(chǎn)業(yè)類目至專利文獻
4.2.1 宏觀分析
將最終相似度矩陣的行與列轉(zhuǎn)置處理,得到行為2015年度中科院各院所8 309個發(fā)明專利,列為《戰(zhàn)略性新興產(chǎn)業(yè)分類》第三層級100個類目的相似度矩陣,每一個產(chǎn)業(yè)類目與專利文獻都對應(yīng)相應(yīng)的相似度值,本實驗設(shè)定相似度值大于0為正相關(guān),因此對該產(chǎn)業(yè)類目推薦所有相似度為正的專利文獻,并以相似度值大小正序排列。為便于觀察整體推薦專利數(shù)量分布,作如下數(shù)據(jù)統(tǒng)計,100個產(chǎn)業(yè)類目平均推薦的2015年度中科院專利數(shù)信息,如表5所示:
產(chǎn)業(yè)分類與專利文獻的映射頻數(shù)分布直方圖如圖3所示:
可以發(fā)現(xiàn),產(chǎn)業(yè)類目與專利文獻的映射頻數(shù)分布直方圖沒有明顯的分布特征,其結(jié)果與選擇映射的專利文獻數(shù)據(jù)有較大關(guān)系,不同的專利數(shù)據(jù)集將有不同的頻數(shù)分布,本實驗映射結(jié)果中推薦的最小映射專利數(shù)量為8,可以保證對99%的產(chǎn)業(yè)類目推薦10個以上的專利文獻,用于統(tǒng)計發(fā)現(xiàn)各產(chǎn)業(yè)類目下中科院各研究所的專利布局等信息,推薦滿足率情況如表6所示:
4.2.2 微觀分析
4.2.1小節(jié)中對整體情況作了評價,本小節(jié)選擇《戰(zhàn)略性新興產(chǎn)業(yè)分類》的前兩個分類“1.1.1 高效節(jié)能通用設(shè)備制造”和“1.1.2 高效節(jié)能專用設(shè)備制造”,從申請人角度統(tǒng)計具體產(chǎn)業(yè)類目下中科院各研究所的專利布局信息,統(tǒng)計數(shù)據(jù)如表7所示:
本模型可以從文本相似度角度觀察某一產(chǎn)業(yè)類目下的申請人分布情況,例如2015年度,“中國科學(xué)院長春光學(xué)精密機械與物理研究所”和“中國科學(xué)院合肥物質(zhì)科學(xué)研究院”在“1.1.1 高效節(jié)能通用設(shè)備制造”和“1.1.2 高效節(jié)能專用設(shè)備制造”產(chǎn)業(yè)領(lǐng)域內(nèi)申請了較多的專利,在中科院各研究院所中處于領(lǐng)先水平。
5 結(jié)論與展望
5.1 結(jié)論
專利信息作為一種集技術(shù)、法律與經(jīng)濟信息于一體的戰(zhàn)略性信息資源,是緊密聯(lián)系科技和經(jīng)濟兩大領(lǐng)域的紐帶,若能有效利用專利數(shù)據(jù)并將其轉(zhuǎn)化為專利指標去評估、監(jiān)控產(chǎn)業(yè)發(fā)展狀況,將非常有助于促進產(chǎn)業(yè)的快速健康發(fā)展。
筆者以2015年度中國科學(xué)院院所發(fā)明專利與《戰(zhàn)略性新興產(chǎn)業(yè)分類》為例,提出了一種基于余弦相似度計算的專利文獻與產(chǎn)業(yè)類目映射模型并進行映射實驗,通過自然語言處理技術(shù)自動化得到專利文獻與產(chǎn)業(yè)類目的映射組合,實現(xiàn)專利到產(chǎn)業(yè)及產(chǎn)業(yè)到專利的映射,模型可節(jié)省大量人力成本并方便地進行映射類目細粒度的調(diào)整,適用于大部分專利與產(chǎn)業(yè)類目的映射。
5.2 改進思路
本模型雖然已可得到較可靠的結(jié)果,但準確率還有待提高,以下提供兩個思路:①增加字詞的語義理解。本模型僅從字詞層面進行相似度的計算,未考慮字詞的語義,例如同義詞、反義詞等,若可以妥善處理語義層面的問題,設(shè)計算法分別對同義詞與反義詞設(shè)定不同的權(quán)重,將會提高模型的準確率。②專利文獻增加對應(yīng)專利類目的官方注釋特征。本模型在計算相似度時,未考慮專利文獻對應(yīng)專利類目的類目特征,《國際專利分類》的官方類目注釋中包含較為準確的字詞信息,若能設(shè)計算法綜合考慮專利文獻標題摘要信息與專利所屬專利類目特征,將可以進一步提升模型的準確率。
5.3 拓展應(yīng)用
在妥善處理現(xiàn)有準確率問題后,本映射模型因有較好的擴展性,還可拓展至以下應(yīng)用領(lǐng)域:
(1)類目細粒度的調(diào)整。本實驗選用的產(chǎn)業(yè)類目細粒度為最小的第三層級,若方法得到進一步的完善,可以方便地調(diào)整類目映射的層級至第一層級與第二層級。
(2)其他產(chǎn)業(yè)分類的映射。本實驗產(chǎn)業(yè)類目的特征詞來自產(chǎn)業(yè)類目的官方注釋信息,《國民經(jīng)濟行業(yè)分類》《高技術(shù)產(chǎn)業(yè)分類》等不同的產(chǎn)業(yè)分類均符合該模型的數(shù)據(jù)需求,可以調(diào)整后進行拓展。
(3)其他專利數(shù)據(jù)集的映射。本實驗的專利數(shù)據(jù)為2015年申請人為中科院相關(guān)單位所有的中國發(fā)明專利,由于專利信息標準規(guī)范,可選擇任意集合的專利進行實驗,例如選擇近10年某研究所發(fā)明專利、某大學(xué)2015年度發(fā)明專利和某特定領(lǐng)域發(fā)明專利等不同專利數(shù)據(jù)集。
筆者在下一步工作中,將繼續(xù)完善本模型,嘗試融合《國際專利分類》類目注釋特征,以期提升映射準確性。建立完善的專利與產(chǎn)業(yè)映射體系,可實現(xiàn)專利與產(chǎn)業(yè)的對接,進而從產(chǎn)業(yè)角度出發(fā)結(jié)合科技、經(jīng)濟數(shù)據(jù)開展專利統(tǒng)計分析,對相關(guān)產(chǎn)業(yè)創(chuàng)新活動、經(jīng)濟發(fā)展政策決策將具有重要意義。
參考文獻:
[1] 田創(chuàng), 趙亞娟. 專利與產(chǎn)業(yè)的映射研究進展[J]. 圖書情報工作, 2016, 60(1): 135-141.
[2] VERSPAGEN B, MOERGASTEL T V, SLABBERS M. MERIT concordance table: IPC-ISIC (rev. 2) [R]. Maastricht: UNU-MERIT, 1994: 1-20.
[3] SCHMOCH U, LAVILLE F, PATEL P, et al. Linking technology areas to industrial sectors: final Report to the European Commission [R]. Karlsruhe: Fraunhofer ISI, 2003: 36-52.
[4] EUROSTAT. Patent Statistics: Concordance IPC V8 – NACE REV.2[EB/OL]. [2015-09-03]. https://circabc.europa.eu/sd/a/d1475596-1568-408a-9191-426629047e31/2014-10-16-Final%20IPC_NACE2_2014.pdf.
[5] LYBBERT T J, ZOLAS N J. Getting patents and economic data to speak to each other: an ‘a(chǎn)lgorithmic links with probabilities approach for joint analyses of patenting and economic activity [J]. Research policy, 2014, 43(3): 530-542.
[6] 國家知識產(chǎn)權(quán)局. 中國專利文獻的國民經(jīng)濟行業(yè)分類標引工作取得階段性成果[EB/OL]. [2016-06-24]. http://www.sipo.gov.cn/ghfzs/zltjjb/201503/P020150325567300995160.pdf.
[7] 北京市知識產(chǎn)權(quán)信息中心. 服務(wù)于產(chǎn)業(yè)行業(yè)的數(shù)據(jù)組織方式研究[EB/OL]. [2016-06-24]. http://www.sipo.gov.cn/wxfw/zlxxyjjl/hgzdyj/201505/P020150827328075817725.pdf.
[8] 國家統(tǒng)計局. 戰(zhàn)略性新興產(chǎn)業(yè)分類(2012)[EB/OL]. [2016-06-24]. http://www.stats.gov.cn/zjtj/tjbz/201301/U020131021375903103360.pdf.
[9] 國家知識產(chǎn)權(quán)局. 2014年戰(zhàn)略性新興產(chǎn)業(yè)發(fā)明專利統(tǒng)計分析總報告[EB/OL]. [2016-06-24]. http://www.sipo.gov.cn/tjxx/yjcg/201504/P020150422347216350682.pdf.
[10] 國家知識產(chǎn)權(quán)局. 國際專利分類與國民經(jīng)濟行業(yè)分類參照關(guān)系表(試用版)編制說明[EB/OL]. [2016-06-24]. http://www.sipo.gov.cn/tjxx/zltjjb/201512/P020151221492994057449.pdf.
[11] 結(jié)巴中文分詞 [EB/OL]. [2016-06-24]. https://github.com/fxsjy/jieba.
[12] 顧益軍, 樊孝忠, 王建華, 等. 中文停用詞表的自動選取[J]. 北京理工大學(xué)學(xué)報, 2005, 25(4): 337-340.
[13] Patent_To_Industry: stopwords [EB/OL]. [2016-06-24]. https://github.com/littlewilliam/Patent_To_Industry/blob/master/StopWords.txt.
[14] SALTON G, WONG A, YANG C S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.
[15] SALTON G, BUCKLEY C. Term-weighting approaches in automatic text retrieval [J]. Information processing & management, 1988, 24(5): 513-523.
[16] TAN P N, STEINBACH M, KUMAR V. Introduction to data mining [M]. Boston: Pearson Addison Wesley, 2006.
作者貢獻說明:
田 創(chuàng):負責文獻的搜集、整理和論文撰寫;
趙亞娟:負責整體研究方向和框架把握,并對論文進行審閱和修改。
Research on Mapping Patent Document and Industrial Classification
——Mapping Between the 2015 Annual Patents of Chinese Academy of Sciences and the Classification of Strategic Emerging Industries
Tian Chuang Zhao Yajuan
National Science Library, Chinese Academy of Sciences, Beijing 100190
Abstract: [Purpose/significance] This paper aims to propose a mapping model based on cosine similarity for mapping between patent documents and industrial classification. This model is accurate, efficient and scalable, which provides some references for the further research. [Method/process] After introducing the methods for mapping between patents and industrial classification, we designed a model for mapping between patent documents and industrial classification and completed the mapping between the 2015 annual patents of Chinese Academy of Sciences and the Classification of Strategic Emerging Industries. Then we evaluated this model according to the mapping results. [Result/conclusion] This model obtains the mapping results between patent documents and industrial classification automatically by the natural language processing technology and enables mapping between patents and industrial classification bi-directionally. The method saves a lot of labor costs and can easily adjust the fine-grained classification and be applied to most of the mapping between patents and industrial classification. Finally, improvements of the model are described. Some future application areas are also briefly discussed in this paper.
Keywords: patent document industry classification classification mapping mapping methods