• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學習的高質(zhì)量專利特征組合挖掘

      2021-07-01 00:02:26王婧怡黃彩云余玲瓏
      武漢紡織大學學報 2021年3期
      關(guān)鍵詞:優(yōu)秀獎金獎決策樹

      周 磊,王婧怡,黃彩云,余玲瓏

      基于機器學習的高質(zhì)量專利特征組合挖掘

      周 磊a,王婧怡a,黃彩云b,余玲瓏a

      (武漢紡織大學 a. 會計學院,b. 管理學院,湖北 武漢 430200)

      挖掘高質(zhì)量專利的特征組合有助于揭示專利價值形成機制,進而引導專利質(zhì)量整體提升。以中國專利獎獲獎發(fā)明專利為樣本集,從技術(shù)質(zhì)量、法律質(zhì)量和經(jīng)濟質(zhì)量等指標建立高質(zhì)量專利評價指標體系,進而利用決策樹模型抽取出9條區(qū)分金獎發(fā)明和優(yōu)秀發(fā)明的知識規(guī)則。發(fā)現(xiàn)法律質(zhì)量是高質(zhì)量專利的第一要素,高權(quán)利項可作為識別金獎發(fā)明的唯一特征;較高的權(quán)利項與專利族、被引頻次的組合可以識別金獎發(fā)明;權(quán)利項偏低時,專利需滿足多個技術(shù)質(zhì)量指標閾值才能認定為金獎發(fā)明。

      專利質(zhì)量;機器學習;決策樹;專利權(quán)利項;中國專利獎

      當前,中國國家知識產(chǎn)權(quán)局年均受理專利申請量位于全球首位,但專利“大而不強,多而不優(yōu)”的整體態(tài)勢并未完全扭轉(zhuǎn)。本文將以中國專利獎授予的金獎發(fā)明為目標集,利用機器學習模型挖掘其指標特征以揭示高質(zhì)量專利的價值形成機制,為監(jiān)督式學習分類器提供多元化的高質(zhì)量專利篩選標準,為提升我國專利知識產(chǎn)權(quán)總體質(zhì)量提供參考建議。

      1 國內(nèi)外文獻綜述

      1.1 專利質(zhì)量評價指標研究

      主流觀點將專利質(zhì)量分為三個構(gòu)面:技術(shù)質(zhì)量、法律質(zhì)量和經(jīng)濟質(zhì)量。技術(shù)質(zhì)量重點反映專利的技術(shù)新穎性和創(chuàng)造性,主要指標包括:基于專利引用關(guān)系的專利被引頻次、技術(shù)循環(huán)周期(TCT)、專利權(quán)人的H指數(shù)、技術(shù)原創(chuàng)性與多樣性[1, 2];基于NPC分析的科學關(guān)聯(lián)度、專利科學強度;基于技術(shù)保護范圍的專利技術(shù)寬度、技術(shù)融合程度[3, 4];基于專利申請人的合作申請模式、發(fā)明人規(guī)模;基于專利申請策略的專利族規(guī)模、PCT申請、三方專利申請等[5, 6]。法律質(zhì)量重點反映專利經(jīng)受審查、無效和訴訟程序的綜合能力,只有確保專利有效才能借助專利實現(xiàn)壟斷性經(jīng)濟價值[7]。主要指標包括:專利權(quán)利項、專利合同備案、異議、糾紛、訴訟、專利說明書和附圖平均頁數(shù)[8]。經(jīng)濟質(zhì)量反映專利商業(yè)化和經(jīng)營創(chuàng)效前景,主要指標包括:專利技術(shù)市場需求度、專利市場技術(shù)壟斷程度、專利壽命、專利技術(shù)利潤率;專利實施、許可、質(zhì)押等轉(zhuǎn)化能力指標[9,10]。

      1.2 專利質(zhì)量評價方法研究

      情報學早期研究利用文獻計量、層次分析法等定性研究法對專利質(zhì)量進行綜合評價。技術(shù)創(chuàng)新管理研究利用計量經(jīng)濟學方法,發(fā)現(xiàn)對創(chuàng)業(yè)板上市公司專利質(zhì)量綜合指數(shù)影響較大的是有效發(fā)明專利量、專利近 3 年被引次數(shù)[11];而專利被引次數(shù)和權(quán)利要求數(shù)量對企業(yè)盈利能力具有顯著正向效應[12]。目前,新興研究引入邏輯回歸、決策樹、神經(jīng)網(wǎng)絡等機器學習方法,以期提升專利質(zhì)量評價的客觀性、便利性和科學性。張杰等(2018)以訴訟專利為目標集,利用AdaBoost算法提升專利質(zhì)量評價弱分類器的準確性[13]。劉夏等(2019)針對專利大數(shù)據(jù),提出基于隨機森林算法的專利質(zhì)量預測模型[4]。Mariani MS et al (2019)提出了一個年限標準化的專利中心性指標rescaled PageRank,證明該指標比引用次數(shù)計量法更能準確發(fā)現(xiàn)引用網(wǎng)絡中重要專利[14]。Lee et al (2019)對18個專利質(zhì)量指標進行前饋多層神經(jīng)網(wǎng)絡建模,預測具有高被引次數(shù)的高質(zhì)量專利[15]。

      綜上所述,專利質(zhì)量評價主題的國內(nèi)外研究成果頗豐,針對中國高質(zhì)量專利的探索性研究也已展開。然而,如何將豐富的專利評價指標充分嫁接于中國專利系統(tǒng),推動中國高質(zhì)量專利研究從評價指標的描述性統(tǒng)計向綜合性、關(guān)聯(lián)性分析升級,仍是一個值得深入探討的問題?;诖耍疚膶⒁灾袊鴮@劷皙剬@?、優(yōu)秀獎專利作為對立樣本,通過決策樹建模挖掘金獎專利的綜合質(zhì)量特征,從而揭示高質(zhì)量專利的形成機制,并為專利質(zhì)量指標體系研究提供多樣化的評價準則。

      2 數(shù)據(jù)源與研究設計

      本文首先構(gòu)建專利質(zhì)量區(qū)分指標體系并進行單特征統(tǒng)計、進而增加若干輔助指標進行決策樹建模、最后抽取出高質(zhì)量專利特征組合的知識規(guī)則,研究思路如圖1所示:

      圖1 研究思路

      2.1 數(shù)據(jù)源

      中國專利獎由國家知識產(chǎn)權(quán)局和世界知識產(chǎn)權(quán)組織共同主辦,是我國唯一專門對專利給予獎勵的政府部門獎。鑒于發(fā)明專利、外觀設計專利在專利“三性”要求上存在顯著差異,本文選擇發(fā)明專利作為樣本集。其中,金獎發(fā)明作為高質(zhì)量專利集,優(yōu)秀獎專利作為對照組。為了獲得足夠的樣本集并統(tǒng)一時間窗口,筆者在incoPat數(shù)據(jù)庫中下載了第13屆(2011年)至第21屆(2018年)金獎發(fā)明153件、優(yōu)秀獎專利3575件。

      2.2 研究設計

      2.2.1 專利質(zhì)量區(qū)分指標集構(gòu)建

      綜合國內(nèi)外研究結(jié)論及樣本數(shù)據(jù)源特征,從技術(shù)價值、法律價值和經(jīng)濟價值三方面建立專利質(zhì)量區(qū)分指標體系,如表1所示。

      表1 專利質(zhì)量區(qū)分指標體系

      需要特別說明的有三點:一是考慮到專利引用的“時間截面”問題,以年均被引頻次替代被引總次數(shù);二是技術(shù)融合程度是新興的專利質(zhì)量評價指標,本文以專利中不同IPC小類的共現(xiàn)來表示;三是由于有效數(shù)據(jù)稀疏,技術(shù)標準、PCT專利、自引、他引評價指標未納入本研究。樣本中的絕大部分專利尚處于有效期內(nèi),故未將法律狀態(tài)、專利壽命指標納入本研究設計。

      2.2.2 專利質(zhì)量輔助判斷指標

      還有部分指標不能獨立評價專利質(zhì)量但常用于專利分類,可以輔助上述指標判斷專利質(zhì)量。特此增加申請人類型、國民經(jīng)濟分類2個輔助指標:

      (1)申請人類型:以取值0-6分別表示申請人為企業(yè)、機關(guān)團體、科研單位、其他、個人、大專院校、合作申請。

      (2)國民經(jīng)濟分類:以專利所屬的國民經(jīng)濟分類為表示專利技術(shù)類別,取值0-5分別表示分類為農(nóng)林牧漁業(yè)、采礦業(yè)、制造業(yè)、電力熱力燃氣及水生產(chǎn)和供應業(yè)、建筑業(yè)、信息傳輸軟件和信息技術(shù)服務業(yè)。

      2.2.3 機器學習模型選擇

      常用的二分類監(jiān)督學習模型包括決策樹、SVM、邏輯回歸模型。決策樹、SVM能夠表示復雜的、非線性關(guān)系,分類準確性通常高于邏輯回歸模型;而決策樹能夠直觀展示分類規(guī)則?;诜诸惼鳒蚀_性及本文的研究目的,故而選擇決策樹模型。

      決策樹模型以二叉樹的形式表示分類過程,每一個父節(jié)點表示一個屬性分裂規(guī)則,左分支表示滿足該判斷條件的樣本集,右分支表示不滿足該判斷條件的樣本集;每一個葉節(jié)點表示一種分類結(jié)果。一般通過計算各節(jié)點的信息熵(entropy)、基尼指數(shù)(Gini)、信息增益值確定每一屬性的分裂規(guī)則。從根節(jié)點出發(fā),歷經(jīng)各級父節(jié)點,到達葉節(jié)點的一條路徑表示一條完整的分類規(guī)則。決策樹的層次越深,分類越精細,但也可能帶來分類規(guī)則過于復雜及覆蓋性有限的問題。

      3 高質(zhì)量專利特征組合挖掘

      3.1 中國專利獎獲獎發(fā)明的單特征統(tǒng)計

      將金獎發(fā)明記為第1組,優(yōu)秀獎發(fā)明記為第2組,依次檢驗表1中各指標的顯著性。由于被引頻次、專利族規(guī)模、技術(shù)寬度、發(fā)明人規(guī)模、權(quán)利項規(guī)模、審查時程的取值為定量數(shù)據(jù),故采用T檢驗。T檢驗要求樣本符合正態(tài)分布;均值比較時,根據(jù)樣本是否具有方差齊性,選則不同的計算規(guī)則進行檢驗。統(tǒng)計發(fā)現(xiàn)被引頻次、專利族規(guī)模、保護寬度、發(fā)明人規(guī)模、權(quán)利項規(guī)模5個指標的樣本不符合正態(tài)分布,故首先利用公示(1)進行正態(tài)化:

      對5個指標進行正態(tài)化后,對上述6項指標進行T檢驗,如表2所示。

      表2 金獎專利與優(yōu)秀獎專利的指標對比(T檢驗)

      注:***表示。

      非專利引用、三方專利、技術(shù)融合、專利運用的取值為分類數(shù)據(jù),故采用卡方檢驗,統(tǒng)計結(jié)果如表3所示。

      表3 金獎專利與優(yōu)秀獎專利的指標對比(卡方檢驗)

      注:*表示。

      由表2、表3可知,金獎專利、優(yōu)秀獎發(fā)明在技術(shù)質(zhì)量上的差別不顯著,而法律質(zhì)量存在顯著差異、經(jīng)濟質(zhì)量存在一定差異。具體來看,專利權(quán)利項是金獎發(fā)明的重要標志,正態(tài)化處理前,金獎發(fā)明平均擁有6.3條權(quán)利要求而優(yōu)秀獎發(fā)明平均僅有1.7條權(quán)利要求。專利運用也可用于區(qū)分金獎發(fā)明、優(yōu)秀獎發(fā)明,說明二者的經(jīng)濟價值亦存在較大不同。

      3.2 中國專利獎獲獎發(fā)明的決策樹建模結(jié)果

      近年來,金獎發(fā)明與優(yōu)秀獎發(fā)明比重持續(xù)走低,如2018年授予發(fā)明和實用新型金獎20件,優(yōu)秀獎802件。針對樣本中兩類數(shù)據(jù)不均衡性問題,分別利用過采樣、欠采樣、綜合采樣三種算法協(xié)調(diào)兩類數(shù)據(jù)的采用比例,將其與原始樣本的訓練、測試準確率進行對比,結(jié)果如表4所示。

      表4 各采樣策略下決策樹建模結(jié)果比較

      由表4可知,基于原始采樣的決策樹建模準確率高于其他采樣策略,前者在訓練集上的分類準確率為96.14%、在測試集上的分類準確率為94.37%。筆者認為,這可能與原始采樣在最大程度上保證樣本真實性、十折交叉驗證策略賦予分類器足夠的、多樣的學習樣本有關(guān)。利用原始數(shù)據(jù)建立決策樹模型,最終發(fā)現(xiàn)9條表征金獎發(fā)明的if-then知識規(guī)則:

      Rule-1: if 權(quán)利項≤10, 高?;蚝献魃暾? 技術(shù)寬度>5 then 金獎發(fā)明

      Rule-2: if 權(quán)利項≤10, 高校或合作申請,年均被引>9.78, 審查時程≤11個月 then 金獎發(fā)明

      Rule-3: if 權(quán)利項≤10, 企業(yè)、研究所、機關(guān)團體、個人或其他方獨立申請, 審查時程≤30個月, 技術(shù)寬度≤2, 專利轉(zhuǎn)讓、許可或質(zhì)押, 年均被引>13.53 then 金獎發(fā)明

      Rule-4: if 權(quán)利項≤10, 企業(yè)、研究所、機關(guān)團體、個人或其他方獨立申請, 審查時程≤9個月, 技術(shù)寬度>2, 發(fā)明人=1 then 金獎發(fā)明

      Rule-5: if 11≤權(quán)利項≤12, 專利族≤18,企業(yè)申請, 年均被引>3.665, 發(fā)明人≤6 then 金獎發(fā)明

      Rule-6: if 權(quán)利項>26, 專利族≤18, 非企業(yè)申請, 年均被引≤0.525 then 金獎發(fā)明

      Rule-7: if 11<權(quán)利項≤22, 專利族≤18, 非企業(yè)申請, 1.34<年均被引≤1.715 then 金獎發(fā)明

      Rule-8: if 權(quán)利項>18, 專利族>18, 年均被引>1.3 then 金獎發(fā)明

      Rule-9: if 10<權(quán)利項≤18, 專利族>18, 年均被引>1.4 審查時程≤11個月 then 金獎發(fā)明

      由上述9條知識規(guī)則可知:

      (1)Rule-6表明,權(quán)利項足夠大時(>26),即可判斷該專利為金獎發(fā)明。由此說明專利法律質(zhì)量,特別是專利權(quán)利項是評價專利質(zhì)量的第一標準。

      (2)Rule-5、Rule-7、Rule-8、Rule-9表明,當專利權(quán)利項較大時(10<權(quán)利項≤22),專利族、年均被引頻次、審查時程分別大于閾值時,該專利為金獎發(fā)明。由此說明,專利法律保護范圍較大時,若目標市場范圍廣(>18),則對后續(xù)技術(shù)影響較大的發(fā)明即為高質(zhì)量專利;若目標市場范圍較廣(≤18),還需考察申請人類型、被引頻次、發(fā)明人規(guī)模等指標。

      (3)Rule-1至Rule-4表明,權(quán)利項偏小時(≤10),需要分別考察技術(shù)寬度、申請人類型、專利運用、審查時程、年均被引等多個指標的取值情況,才能認定該專利是否為金獎發(fā)明。由此說明,法律保護范圍較有限時,高校申請或合作申請的專利更容易滿足高質(zhì)量專利條件;其他主體申請的專利,還需要考核審查時程、技術(shù)保護范圍、專利運用、技術(shù)影響力、發(fā)明人等多個指標。

      綜上所述,通過對比單特征統(tǒng)計結(jié)果與上述9條知識規(guī)則,發(fā)現(xiàn)專利權(quán)利項在單因素分析和決策樹建模中均發(fā)揮了關(guān)鍵作用;單因素分析中非顯著的技術(shù)質(zhì)量因素通過與專利權(quán)利項的組合,在決策樹建模中表現(xiàn)出足夠的判別能力。這一發(fā)現(xiàn)與劉夏等(2019)提出的基于隨機森林的專利質(zhì)量預測模型[7]一致,亦可作為專利質(zhì)量評價向多指標評價、綜合化方法升級的有力證據(jù)。

      4 結(jié)束語

      中國經(jīng)濟“雙循環(huán)”發(fā)展模式離不開高質(zhì)量科技創(chuàng)新的支撐。本文以中國專利獎獲獎發(fā)明專利集合為樣本,探索以金獎專利為代表的高質(zhì)量專利的特征組合,形成了三點主要貢獻:一是就單一專利質(zhì)量評價指標而言,金獎發(fā)明、優(yōu)秀獎發(fā)明在技術(shù)質(zhì)量指標上的表現(xiàn)無顯著差異,金獎發(fā)明在權(quán)利項規(guī)模、專利運用兩個指標上的表現(xiàn)優(yōu)于優(yōu)秀獎發(fā)明;二是就專利質(zhì)量評價指標組合而言,專利權(quán)利項的判別性強于其他指標,專利權(quán)利項與多項技術(shù)質(zhì)量指標、經(jīng)濟指標、輔助指標的組合可用于識別金獎發(fā)明;三是就研究結(jié)論的拓展應用而言,筆者將專利被引、專利運用等事后指標的統(tǒng)計時間限定為《中國專利獎評獎辦法》規(guī)定專利授權(quán)日前,使得研究方法與結(jié)論具備一定的事前預測能力。

      此外,本研究亦可對優(yōu)化專利質(zhì)量評價研究及提升專利質(zhì)量提供參考建議。一是研究人員應客觀認識專利質(zhì)量外延的豐富性和綜合性。當前專利定量研究中多以被引頻次作為專利質(zhì)量指標,而本文發(fā)現(xiàn)法律質(zhì)量是區(qū)分專利質(zhì)量的單因素指標,技術(shù)質(zhì)量指標主要充當專利質(zhì)量判斷的組合指標;二是專利申請人應重視權(quán)利項范圍的撰寫。專利權(quán)利項是金獎發(fā)明的決定性指標,申請人應通過對權(quán)利項范圍的全面布局來增強專利保護能力,引導專利質(zhì)量的提升;三是專利權(quán)利人應重視授權(quán)專利的運用。專利運用是高質(zhì)量專利的重要特征,權(quán)利人應通過專利許可、轉(zhuǎn)移、抵押等手段實現(xiàn)高質(zhì)量專利的經(jīng)濟價值。

      [1] 朱容輝, 劉樹林, 林軍. 產(chǎn)學協(xié)同創(chuàng)新主體的發(fā)明專利質(zhì)量研究[J]. 情報雜志, 2020, 39(2):78-84.

      [2] 魏駿巍, 王晰巍, 李雪靈. 信息生態(tài)視角下專利質(zhì)量評價指標構(gòu)建研究——以汽車無人駕駛專利為例[J]. 情報理論與實踐, 2016, 39(11):106-110.

      [3] 卞雅莉. 科學引文對企業(yè)專利質(zhì)量的影響——以納米材料產(chǎn)業(yè)為例[J]. 情報雜志, 2013, 32(1):50-54.

      [4] 劉夏, 黃燦, 余驍鋒. 基于機器學習模型的專利質(zhì)量預測初探[J]. 情報學報, 2019, 38(4):72-80.

      [5] 蔣仁愛, 張路路, 石皓月. 專利發(fā)明人合作對中國專利質(zhì)量的影響研究[J]. 科學學研究, 2020, 38(7): 1215-1226.

      [6] 宋河發(fā), 穆榮平, 陳芳, 等. 基于中國發(fā)明專利數(shù)據(jù)的專利質(zhì)量測度研究[J]. 科研管理, 2014, 35(11):68-76.

      [7] 劉立春. 二元專利質(zhì)量研究[J]. 情報雜志, 2017, 36(11):168-174.

      [8] 茍尤釗, 呂琳媛, 陳永偉. 專利質(zhì)量分析的研究進展與述評[J]. 電子知識產(chǎn)權(quán), 2019, 30(2):59-65.

      [9] 劉運華. 專利質(zhì)量闡釋及提升策略探討[J]. 知識產(chǎn)權(quán), 2015, 29(9):79-83.

      [10] 劉云, 王小黎, 閆哲. 專利質(zhì)量測度及區(qū)域比較研究——以我國石墨烯產(chǎn)業(yè)為例[J]. 科學學與科學技術(shù)管理, 2019, 40 (9): 20-36.

      [11] 胡諜, 王元地. 企業(yè)專利質(zhì)量綜合指數(shù)研究——以創(chuàng)業(yè)板上市公司為例[J]. 情報雜志, 2015, 34(1):77-82.

      [12] 宋艷,常菊,陳琳.專利質(zhì)量對企業(yè)績效的影響研究——技術(shù)創(chuàng)新類型的調(diào)節(jié)作用 [J/OL]. 科學學研究(網(wǎng)絡首發(fā)),https://kns.cnki.net/KCMS/detail/11.1805.G3.20200915.1651.014.html,[2020-09-15].

      [13] 張杰, 孫超, 翟東升, 等. 基于訴訟專利的專利質(zhì)量評價方法研究[J]. 科研管理, 2018, 39(5):138-146.

      [14] Mariani M S , Medo M, Lafond F. Early identification of important patents: Design and validation of citation network metrics[J]. Technological Forecasting and Social Change, 2019, 146: 644-654.

      [15] Lee C, Kwon O, Kim M, et al. Early identification of emerging technologies: A machine learning approach using multiple patent indicators[J]. Technological Forecasting and Social Change, 2018, 127: 291-303.

      Mining Features Combination of High-quality Patents by Machine Learning

      ZHOU Leia, WANG Jing-yia, HUANG Cai-yunb, YU Ling-longa

      (a. Accounting College, b.School of Management, Wuhan Textile University, Wuhan Hubei 430200, China)

      Mining features combination of high-quality patents is helpful to revealing the mechanism forming patent value and improving the overall quality of patents. Treating award-winning inventions of China Patent Award as the sample, a high-quality patent evaluation index system is established including technical quality, legal quality, and economic quality. And then, 9 knowledge rules are extracted to differ gold award inventions from excellent award inventions by a decision tree model. Several findings are drawn from such 9 rules. Firstly, legal quality is the fundamental element for high-quality patent with the evidence that patent claim is regard as the individual feature of gold award invention. Secondly, the combination of larger patent claims, patent family and yearly citations refers to gold award invention. Thirdly, a gold award invention with smaller patent claims must reach the thresholds of multiple technical quality index simultaneously.

      patent quality; machine learning; decision tree; patent claim; China Patent Award

      周磊(1986-),女,副教授,博士,研究方向:技術(shù)創(chuàng)新管理、數(shù)據(jù)挖掘.

      國家社會科學基金青年項目(19CTQ030).

      F204

      A

      2095-414X(2021)03-0067-05

      猜你喜歡
      優(yōu)秀獎金獎決策樹
      喜報!我廳獲省直機關(guān)青年黨團知識競賽優(yōu)秀獎
      第五屆“讀友杯”優(yōu)秀獎獲獎名單公布
      欲稱“金獎”,必有其妙——第七屆中華印制大獎金獎作品賞析(三)
      第三屆“陸儼少獎”全國中國畫展獲獎作品
      中國畫畫刊(2019年2期)2019-12-12 11:45:14
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      金獎作品
      寶藏(2019年9期)2019-09-25 06:56:40
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      Pentawards 2016包裝設計大獎
      基于決策樹的出租車乘客出行目的識別
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      交城县| 大埔区| 牡丹江市| 西平县| 安阳县| 潜江市| 延吉市| 东乌| 宕昌县| 凌云县| 凌海市| 阿勒泰市| 宜良县| 洪江市| 德兴市| 城口县| 北宁市| 土默特右旗| 自贡市| 浑源县| 东阿县| 新竹市| 栾城县| 吉安县| 巴南区| 卢龙县| 龙游县| 黎川县| 长宁区| 建平县| 珠海市| 屯昌县| 桃源县| 伊川县| 屏南县| 平顶山市| 鄂尔多斯市| 昌江| 措美县| 肇庆市| 开化县|