• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于集成學(xué)習(xí)的專利質(zhì)量分析與分類預(yù)測研究*

      2022-10-19 12:48:24付振康柳炳祥周子鈺彭啟寧
      情報(bào)雜志 2022年10期
      關(guān)鍵詞:分類器指標(biāo)體系專利

      付振康 柳炳祥 周子鈺 彭啟寧

      (1.景德鎮(zhèn)陶瓷大學(xué)知識產(chǎn)權(quán)信息中心 景德鎮(zhèn) 333403;2.景德鎮(zhèn)陶瓷大學(xué)管理與經(jīng)濟(jì)學(xué)院 景德鎮(zhèn) 333403;3.景德鎮(zhèn)陶瓷大學(xué)信息工程學(xué)院 景德鎮(zhèn) 333403)

      科技創(chuàng)新在國際競爭格局中占據(jù)著重要地位,專利作為科技創(chuàng)新成果的主要載體,蘊(yùn)含了全球90%~95%的科技信息[1],同時(shí)專利文獻(xiàn)也包含著豐富的法律信息以及經(jīng)濟(jì)信息。我國自2008年發(fā)布《國家知識產(chǎn)權(quán)戰(zhàn)略綱要》以來,專利申請量激增。隨著我國專利數(shù)量的增加,非正常申請的“問題專利”“垃圾專利”也不斷涌現(xiàn),專利質(zhì)量需進(jìn)一步提高。根據(jù)專利競賽理論,專利質(zhì)量要?jiǎng)儆趯@麛?shù)量,高質(zhì)量專利可以為企業(yè)帶來較高的經(jīng)濟(jì)價(jià)值和法律價(jià)值,低質(zhì)量專利往往會(huì)降低企業(yè)自身的核心競爭力[2]。故我國向?qū)@麖?qiáng)國邁進(jìn)的必由之路是提升專利質(zhì)量,而專利質(zhì)量的提升首先要對海量專利進(jìn)行質(zhì)量分類進(jìn)而明晰高質(zhì)量專利的特征。基于此,本文結(jié)合前人研究,構(gòu)建了專利質(zhì)量評價(jià)指標(biāo)體系,并采用基于Stacking框架的集成學(xué)習(xí)算法搭建了專利質(zhì)量分析與分類預(yù)測模型,并以人臉識別技術(shù)作為實(shí)證分析案例進(jìn)行專利質(zhì)量的分析與分類預(yù)測。

      1 相關(guān)研究綜述

      1.1 專利質(zhì)量評價(jià)指標(biāo)體系相關(guān)研究 對于專利質(zhì)量的內(nèi)涵,目前學(xué)界并未給出統(tǒng)一的定義,大部分學(xué)者基于專利的創(chuàng)造性、實(shí)用性和新穎性的角度抑或是技術(shù)質(zhì)量、申請質(zhì)量和經(jīng)濟(jì)質(zhì)量等維度對專利質(zhì)量進(jìn)行闡述。本文所指的專利質(zhì)量是融合了技術(shù)質(zhì)量、申請質(zhì)量、法律保護(hù)質(zhì)量以及經(jīng)濟(jì)質(zhì)量的綜合專利質(zhì)量[3]。21世紀(jì)初,美國的知識產(chǎn)權(quán)咨詢公司CHI提出了一套科學(xué)的專利質(zhì)量評價(jià)指標(biāo)體系,包括專利數(shù)量、專利引證次數(shù)、影響指數(shù)、技術(shù)實(shí)力、技術(shù)生命周期、科學(xué)關(guān)聯(lián)度和科學(xué)強(qiáng)度這7個(gè)指標(biāo)[4],該評價(jià)指標(biāo)體系后來在全球范圍內(nèi)得到了廣泛應(yīng)用。隨后,國內(nèi)外的許多學(xué)者展開了關(guān)于專利質(zhì)量評價(jià)指標(biāo)體系的研究。

      李春燕在CHI指標(biāo)體系的基礎(chǔ)上增加了內(nèi)容指標(biāo)、時(shí)間指標(biāo)以及國際指標(biāo),構(gòu)建了多維度的專利質(zhì)量評價(jià)指標(biāo)體系[5]。于晶晶等根據(jù)我國專利文獻(xiàn)的特點(diǎn)構(gòu)建了包括數(shù)量類指標(biāo)、質(zhì)量類指標(biāo)以及綜合類指標(biāo)的專利組合評價(jià)指標(biāo)體系[6]。馮君等就單件專利質(zhì)量提出了基于專利技術(shù)質(zhì)量、專利保護(hù)質(zhì)量、產(chǎn)業(yè)高度以及社會(huì)經(jīng)濟(jì)效益4個(gè)一級指標(biāo)的單項(xiàng)專利質(zhì)量評價(jià)指標(biāo)體系[7]。劉馳等構(gòu)建了專利寬度、專利長度以及專利高度的專利質(zhì)量要素三維模型[8]。

      綜上,目前大多數(shù)學(xué)者傾向采用多維度指標(biāo)對專利質(zhì)量進(jìn)行評價(jià),尤其是根據(jù)專利的技術(shù)質(zhì)量、法律保護(hù)質(zhì)量和經(jīng)濟(jì)質(zhì)量對專利綜合質(zhì)量進(jìn)行測度。但許多學(xué)者認(rèn)為,專利申請人的技術(shù)研發(fā)能力以及技術(shù)實(shí)力會(huì)對專利質(zhì)量產(chǎn)生較大影響[9-10],故應(yīng)將專利申請人等主體性因素融入專利評價(jià)指標(biāo)體系。

      1.2 專利質(zhì)量評價(jià)模型相關(guān)研究

      在專利質(zhì)量評價(jià)模型方面,目前的研究主要集中在兩方面。一是采用傳統(tǒng)的專家賦權(quán)法或客觀賦權(quán)法對專利質(zhì)量進(jìn)行評價(jià)。張黎等在建立專利質(zhì)量評價(jià)指標(biāo)體系后,采用直覺模糊層次分析法確定了各個(gè)指標(biāo)的權(quán)重,然后采用模糊評價(jià)法對專利質(zhì)量進(jìn)行了綜合評價(jià)[11]。楊登才等基于熵權(quán)理論,構(gòu)建了高校專利質(zhì)量評價(jià)模型,并選取了北京市23所高校進(jìn)行了實(shí)證分析[12]。郜夢蕊等采用AHP法改進(jìn)熵權(quán)法確定專利評價(jià)指標(biāo)的權(quán)重,然后對深度學(xué)習(xí)相關(guān)專利進(jìn)行了專利質(zhì)量評價(jià)[13]。

      二是采用神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等方法對大規(guī)模專利數(shù)據(jù)集進(jìn)行專利質(zhì)量分類。李欣采用隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)以及自適應(yīng)增強(qiáng)4種機(jī)器學(xué)習(xí)算法構(gòu)建了多種分類器模型對專利質(zhì)量進(jìn)行分類,通過對比分析發(fā)現(xiàn)基于支持向量機(jī)的專利質(zhì)量評價(jià)模型優(yōu)于其他模型[14]。Wu J L等通過自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)算法對專利評價(jià)指標(biāo)進(jìn)行聚類,然后采用KPCA方法對專利評價(jià)指標(biāo)進(jìn)行降維,最后采用SVM方法對專利質(zhì)量進(jìn)行分類,并且對比了基于不同核函數(shù)的SVM模型的準(zhǔn)確度[15]。

      綜上,傳統(tǒng)的專利質(zhì)量評價(jià)模型需要結(jié)合專家調(diào)查問卷,其具有過程復(fù)雜、結(jié)果可信度不高以及不適用于大規(guī)模專利數(shù)據(jù)集等缺陷。在采用機(jī)器學(xué)習(xí)等方法進(jìn)行專利質(zhì)量分類的研究中,大部分學(xué)者都采用單一的機(jī)器學(xué)習(xí)算法進(jìn)行專利質(zhì)量的分類,而單一的機(jī)器學(xué)習(xí)算法在不同數(shù)據(jù)集上的準(zhǔn)確性及泛化能力有待提高。

      2 研究思路及方法

      2.1 研究思路

      本文的研究框架如圖1所示。首先,通過數(shù)據(jù)庫采集相關(guān)的專利數(shù)據(jù),然后選取專利質(zhì)量評價(jià)指標(biāo)并對相關(guān)指標(biāo)進(jìn)行計(jì)算和預(yù)處理;之后將數(shù)據(jù)集劃分為訓(xùn)練集和測試集;然后,建立兩層集成學(xué)習(xí)模型,第一層基分類器選用預(yù)測精度高且具有一定差異的機(jī)器學(xué)習(xí)分類算法,第二層采用邏輯回歸分類器對基分類器進(jìn)行集成,獲得最終的專利質(zhì)量分類預(yù)測模型;最后,采用機(jī)器學(xué)習(xí)中常用的模型評價(jià)算法對模型進(jìn)行評價(jià),通過訓(xùn)練效果不斷改進(jìn)訓(xùn)練模型,提高模型的性能。

      圖1 研究框架圖

      2.2 研究方法

      2.2.1基于Stacking思想的集成學(xué)習(xí)方法

      集成學(xué)習(xí)是一種將多種不同的算法或者不同參數(shù)的同一種算法融合到一個(gè)模型的方法,目前常用的集成學(xué)習(xí)方法主要有Boosting、Bagging以及Stacking[16]。由于Stacking的集成學(xué)習(xí)是通過自組織抽樣或者交叉驗(yàn)證的方式融合來自多個(gè)模型的預(yù)測信息進(jìn)而生成新模型的一種方法,相較于單一算法性能更為優(yōu)越,故本文采用Stacking方法構(gòu)建集成學(xué)習(xí)模型。Stacking集成學(xué)習(xí)一般是由基分類器和元分類器組成,該方法的構(gòu)建流程如圖2所示。

      圖2 Stacking方法過程圖

      Stacking集成學(xué)習(xí)的具體訓(xùn)練方式為,將數(shù)據(jù)集D={(xp,yn),p=1,2,…,P,n=1,2,…,N},隨機(jī)劃分為K個(gè)大小基本相同的數(shù)據(jù)子集{D1,D2,…,Dk}以及D-k=D-Dk,其中Dk,D-k分別代表第k折訓(xùn)練的測試集和訓(xùn)練集。每個(gè)基分類器采用訓(xùn)練集D-k進(jìn)行k折交叉訓(xùn)練得到最優(yōu)基分類器模型Ck,k=1,2,……,K。在k折交叉訓(xùn)練過程中Ck對于Dk包含的特征xp的預(yù)測結(jié)果可以表示為Zkn,基分類器的輸出集合構(gòu)成了新的指標(biāo)特征數(shù)據(jù)集Dnew={(yn,(Z1n,Z2n,…Zkn)),k=1,2,……,K,n=1,2,…,N}。Dnew則為集成學(xué)習(xí)模型中第二層分類器的輸入數(shù)據(jù),第二層模型采用新數(shù)據(jù)集訓(xùn)練元分類器CMeta。

      在基分類器構(gòu)建過程中,需要選擇精度高且具有差異性的機(jī)器學(xué)習(xí)分類器,故本文從分類效果較好的KNN算法、邏輯回歸分類算法、感知機(jī)分類算法、隨機(jī)森林算法(RF)、支持向量機(jī)算法(SVM)、AdaBoost算法、LightGBM算法(LGBM)以及XGBoost算法8種機(jī)器學(xué)習(xí)算法當(dāng)中選擇具有差異性的算法進(jìn)行基分類器集成,元分類器選擇Stacking集成模型常用的邏輯回歸算法。

      2.2.2模型評估方法

      本文采用集成學(xué)習(xí)模型最終完成的任務(wù)是專利質(zhì)量的三分類,故本文采用準(zhǔn)確率(Accuracy)、宏平均精確率(Macro_P)、宏平均召回率(Macro_R)、宏平均F1值(Macro_F1)以及漢明損失(Hamming_L)5個(gè)指標(biāo)對模型的性能進(jìn)行評價(jià)。

      準(zhǔn)確率是模型分類正確的專利樣本數(shù)量與所有的專利樣本數(shù)量的比值,其計(jì)算公式如式(1)所示:

      (1)

      宏平均精確率表示所有類別當(dāng)中精確率的均值,精確率表示被正確分為某一特定類別的專利數(shù)與實(shí)際被分為該類別的專利數(shù)的比例,其計(jì)算公式如式(2)所示:

      (2)

      宏平均召回率代表所有類別召回率的均值,召回率表示對于某一特定專利質(zhì)量類別,被模型正確分類的專利樣本數(shù)量與該類別下所有專利樣本數(shù)量的比值,其計(jì)算公式如式(3)所示:

      (3)

      在實(shí)際應(yīng)用當(dāng)中,對于分類模型性能的評估,往往需要綜合考慮模型的精確率與召回率,因此采用兩者的加權(quán)調(diào)和平均作為評價(jià)指標(biāo),該指標(biāo)即為F1值,而宏F1值代表的是所有類別F1值的均值,其計(jì)算公式如式(4)所示:

      (4)

      漢明損失是通過計(jì)算預(yù)測樣本與真實(shí)樣本之間的漢明距離來評價(jià)模型性能的,Hamming_L越小,則模型預(yù)測的準(zhǔn)確率越高。Hamming_L的計(jì)算公式如式(5)所示:

      (5)

      2.3 專利質(zhì)量評價(jià)指標(biāo)體系構(gòu)建及專利質(zhì)量劃分

      2.3.1專利質(zhì)量評價(jià)指標(biāo)體系構(gòu)建

      本文基于綜合專利質(zhì)量的角度,構(gòu)建適用于集成學(xué)習(xí)模型的專利質(zhì)量評價(jià)指標(biāo)體系,指標(biāo)體系的設(shè)計(jì)遵循以下原則:a.指標(biāo)體系要涵蓋技術(shù)、法律、市場以及主體4個(gè)維度。技術(shù)維度主要從目標(biāo)專利的技術(shù)自身出發(fā)衡量專利質(zhì)量,法律保護(hù)維度是從專利的申請以及維護(hù)的角度衡量專利的法律保護(hù)質(zhì)量,市場維度主要從專利的布局市場以及剩余有效期來衡量專利的經(jīng)濟(jì)質(zhì)量,主體性維度是從創(chuàng)新主體的角度衡量專利的綜合質(zhì)量;b.指標(biāo)的選取應(yīng)該具有可操作性,避免主觀因素的影響;c.由于本文采用集成學(xué)習(xí)模型進(jìn)行評價(jià),故各指標(biāo)要能夠量化。綜上,本文選取技術(shù)、法律、市場以及主體4個(gè)維度構(gòu)建了包含19個(gè)指標(biāo)的專利質(zhì)量評價(jià)指標(biāo)體系,各個(gè)指標(biāo)的含義及計(jì)算方法如表1所示。

      表1 專利質(zhì)量評價(jià)指標(biāo)體系

      2.3.2專利質(zhì)量劃分

      專利的質(zhì)押和轉(zhuǎn)讓是專利商業(yè)化的重要形式,在專利質(zhì)押融資過程中,質(zhì)權(quán)人對于目標(biāo)專利的市場前景會(huì)進(jìn)行評估,只有專利權(quán)穩(wěn)定、質(zhì)量較高且具有良好市場前景的專利才會(huì)發(fā)生質(zhì)押,故發(fā)生過質(zhì)押融資的專利一般可以認(rèn)定其為高質(zhì)量專利[22];而專利的轉(zhuǎn)讓和許可是專利權(quán)人獲得經(jīng)濟(jì)收益的重要形式,專利轉(zhuǎn)讓和許可可以一定程度上反映專利的經(jīng)濟(jì)質(zhì)量,故發(fā)生過轉(zhuǎn)讓和許可的專利一般可以認(rèn)定為重要專利[23]。故本文將發(fā)生過質(zhì)押融資的專利劃分為高質(zhì)量專利,發(fā)生過轉(zhuǎn)讓和許可的專利劃分為重要專利,未發(fā)生過質(zhì)押融資和轉(zhuǎn)讓、許可的專利劃分為一般專利。

      3 實(shí)證分析

      3.1 數(shù)據(jù)來源與數(shù)據(jù)處理

      本文使用的專利數(shù)據(jù)庫為incoPat數(shù)據(jù)庫,檢索時(shí)間截至2021年9月,檢索范圍為在中國公開并且獲得授權(quán)的發(fā)明專利以及實(shí)用新型專利,檢索表達(dá)式為TIAB=(人臉識別 OR 面部識別) AND ((PNC=CN) AND (AP-COUNTRY=CN)) AND (AD=[20020101 TO 20210918])。在得到檢索結(jié)果后,通過對IPC分類號的篩選結(jié)合人工標(biāo)引進(jìn)行數(shù)據(jù)清洗,去除與人臉識別核心技術(shù)不相關(guān)的專利數(shù)據(jù),共得到17 667條專利文獻(xiàn)數(shù)據(jù)。得到專利文獻(xiàn)數(shù)據(jù)集后,提取表1所述的指標(biāo)數(shù)據(jù),部分?jǐn)?shù)據(jù)可由著錄項(xiàng)直接獲得,無法直接獲取的指標(biāo)數(shù)據(jù),本文根據(jù)表1所述的指標(biāo)計(jì)算公式進(jìn)行編程計(jì)算。根據(jù)相應(yīng)算法得到指標(biāo)數(shù)據(jù)之后,對數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì),結(jié)果如表2所示。為保證模型的準(zhǔn)確性,消除量綱對模型的影響,本文采用標(biāo)準(zhǔn)化算法對原始的專利指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,公式如式(6)所示,其中xi表示第n項(xiàng)專利的第i個(gè)評價(jià)指標(biāo),xstd表示進(jìn)行標(biāo)準(zhǔn)化以后的專利評價(jià)指標(biāo)數(shù)據(jù)。

      (6)

      表2 專利評價(jià)指標(biāo)數(shù)據(jù)描述性統(tǒng)計(jì)

      由于本文構(gòu)建的集成學(xué)習(xí)模型所要完成的任務(wù)為專利質(zhì)量的分類預(yù)測,因此需要將專利質(zhì)量劃分為不同的類別。依據(jù)上文提到的劃分標(biāo)準(zhǔn)進(jìn)行專利質(zhì)量劃分,具體分類情況如表3所示。由表3可知,3種專利類別的數(shù)量不均衡,高質(zhì)量專利數(shù)量與一般專利數(shù)量的比值僅為1.85%,與重要專利數(shù)量的比值為7.64%,數(shù)據(jù)類別不平衡,進(jìn)而會(huì)影響模型的預(yù)測精度。故本文采用SMOTETomek算法對數(shù)據(jù)集進(jìn)行采樣,該算法的采樣方式是將過采樣和欠采樣進(jìn)行結(jié)合[24],進(jìn)而解決數(shù)據(jù)不平衡的問題。

      表3 專利質(zhì)量分類情況

      3.2 特征貢獻(xiàn)度分析

      通過對不同特征的重要度進(jìn)行分析,可以發(fā)現(xiàn)不同特征對于模型的影響程度,從而在構(gòu)建模型過程中可以更好的解釋模型和調(diào)整模型。本文選擇特征重要度以及shap值來分析不同特征對于模型的影響。選用XGBoost模型為基準(zhǔn)模型進(jìn)行特征貢獻(xiàn)度分析,結(jié)果如圖3所示。

      (a)特征重要性圖

      (b)Class0類shap摘要圖

      圖3(a)顯示了不同專利類別的特征重要度,圖3(b)顯示了class0類(高質(zhì)量專利)的shap值分布,由圖可知在class0類中,技術(shù)先進(jìn)性、技術(shù)穩(wěn)定性以及保護(hù)范圍對于高質(zhì)量專利的影響較為顯著,且這3個(gè)特征的shap值均對模型有正向推動(dòng)作用,即這3個(gè)指標(biāo)其值越高,成為高質(zhì)量專利的概率越大;在class1類(重要專利)中,技術(shù)先進(jìn)性、技術(shù)影響力、技術(shù)穩(wěn)定性以及保護(hù)范圍這3個(gè)特征對重要專利的影響較為顯著,且均為正向影響,即這4個(gè)指標(biāo)值的增加,目標(biāo)專利成為重要專利的概率越大。上述結(jié)果與2.3節(jié)的分析也是相契合的。此外,由圖3(a)可知,技術(shù)先進(jìn)性、技術(shù)影響力、技術(shù)穩(wěn)定性以及保護(hù)范圍這4個(gè)特征對模型影響較大。

      3.3 基于集成學(xué)習(xí)的專利質(zhì)量分類預(yù)測模型構(gòu)建

      Stacking集成學(xué)習(xí)模型最終的性能主要取決于基分類器的準(zhǔn)確度以及基分類器之間的相似度,性能優(yōu)越的集成學(xué)習(xí)分類器應(yīng)該是遵循“好而不同”的原則[25]。為此,本文首先在Jupyter Notebook平臺使用Python中的scikit-learn機(jī)器學(xué)習(xí)庫進(jìn)行實(shí)驗(yàn),分別建立KNN分類器、邏輯回歸分類器、感知機(jī)分類器、RF分類器、AdaBoost分類器、LightGBM分類器、XGBoost分類器以及GBDT分類器8種機(jī)器學(xué)習(xí)分類模型,在訓(xùn)練集上進(jìn)行單獨(dú)訓(xùn)練,采用交叉驗(yàn)證結(jié)合隨機(jī)搜索以及學(xué)習(xí)曲線的方式尋找最優(yōu)超參數(shù)組合,各個(gè)分類器的超參數(shù)組合及預(yù)測精度如表4所示。由表4可知,邏輯回歸分類器以及感知機(jī)分類器在9種分類器當(dāng)中性能較弱,為保證基分類器“好”的特性,在后續(xù)集成過程中可拋棄這2種分類器。

      表4 各分類器的超參數(shù)組合及預(yù)測精度

      為選擇最佳的基分類器組合,本文對不同算法的預(yù)測結(jié)果進(jìn)行了相關(guān)性分析,通過計(jì)算不同基分類器的預(yù)測誤差分布,采用相關(guān)系數(shù)計(jì)算基分類器之間的差異性[26],得到如圖4所示的相關(guān)性熱度圖。圖中顏色越深代表模型的相關(guān)性越高,顏色越淺代表模型的相關(guān)性越低。

      圖4 不同模型相關(guān)性分析

      由圖4可知,除感知機(jī)分類器(PPN)以及邏輯回歸分類器(Logistic)外,其余分類器之間的相關(guān)性均較大,原因是不同的基分類器預(yù)測的精度均較高,在訓(xùn)練過程中,固有誤差不可避免。其中LGBM模型、XGBoost模型、GBDT模型以及RF模型之間的相關(guān)系數(shù)達(dá)0.8以上,原因是這3類模型雖然原理不同,但其本質(zhì)都是基于樹模型的集成算法,因此數(shù)據(jù)的觀測與處理方式基本相同。

      為保證基分類器的差異性,本文在進(jìn)行集成模型構(gòu)建的過程中。選取相關(guān)性系數(shù)<0.7的分類器作為基分類器,構(gòu)建兩層集成學(xué)習(xí)模型,本文共構(gòu)建了8種集成學(xué)習(xí)模型,每個(gè)模型的內(nèi)部具體結(jié)構(gòu)如表5所示。

      表5 不同集成學(xué)習(xí)模型的構(gòu)成

      3.4 模型評估

      采用2.2節(jié)所述的評估指標(biāo),將構(gòu)建的8種集成學(xué)習(xí)模型在測試集上的表現(xiàn)與傳統(tǒng)的機(jī)器學(xué)習(xí)模型KNN、SVM、決策樹(DCT)和樸素貝葉斯模型(GNB)以及傳統(tǒng)的集成學(xué)習(xí)模型隨機(jī)森林(RF)、AdaBoost、GBDT、LGBM和XGBoost單獨(dú)在測試集上的表現(xiàn)進(jìn)行對比,結(jié)果如表6所示。

      由表6可知在測試集中,StackingModel3的Accuracy、Macro_P、Macro_R以及Macro_F1的評分均為0.9942,其Hamming_L也是最低的,為0.0058。綜合整體實(shí)驗(yàn)分析可知,本文構(gòu)建的StackingModel3模型的整體性能優(yōu)于傳統(tǒng)單個(gè)機(jī)器學(xué)習(xí)分類模型以及其他集成學(xué)習(xí)模型,故本文選擇StackingModel3為最優(yōu)專利質(zhì)量分類預(yù)測模型,該模型的內(nèi)部構(gòu)成見表5。

      表6 專利質(zhì)量分類預(yù)測模型在測試集上的性能評估

      4 結(jié) 論

      本文首先根據(jù)專利質(zhì)量評價(jià)指標(biāo)體系的相關(guān)研究,提出了基于技術(shù)維度、法律維度、市場維度以及主體性維度的4維度19個(gè)指標(biāo)的專利質(zhì)量評價(jià)指標(biāo)體系;其次,采用Stacking思想,建立雙層集成學(xué)習(xí)模型對專利質(zhì)量進(jìn)行分類預(yù)測;最后,選取在我國授權(quán)的人臉識別技術(shù)相關(guān)專利數(shù)據(jù)進(jìn)行了實(shí)證分析,對本文構(gòu)建的評價(jià)指標(biāo)體系以及評價(jià)模型的有效性及準(zhǔn)確性進(jìn)行驗(yàn)證。

      通過實(shí)證分析得出如下結(jié)論:一是通過對專利質(zhì)量的劃分以及前人相關(guān)研究可以發(fā)現(xiàn),進(jìn)行專利質(zhì)量分類的專利指標(biāo)數(shù)據(jù)集往往是類別不平衡數(shù)據(jù)集,高質(zhì)量專利占比較少,在進(jìn)行分類預(yù)測時(shí),需要對數(shù)據(jù)進(jìn)行采樣處理;二是通過特征貢獻(xiàn)度分析可知,在不同類別的專利當(dāng)中,各個(gè)評價(jià)指標(biāo)對模型的貢獻(xiàn)度是不一致的,故在不同的應(yīng)用場景下,應(yīng)該考慮對不同的評價(jià)指標(biāo)賦予不同的權(quán)重,例如在高質(zhì)量專利篩選過程中,要著重考查專利的技術(shù)先進(jìn)性、技術(shù)穩(wěn)定性以及保護(hù)范圍這3個(gè)指標(biāo),在重要專利篩選過程中,除了要考查專利的技術(shù)先進(jìn)性、技術(shù)穩(wěn)定性以及技術(shù)保護(hù)范圍以外,還要著重對專利的技術(shù)影響力進(jìn)行評判;三是在專利質(zhì)量分類預(yù)測模型方面,本文構(gòu)建的集成學(xué)習(xí)模型相較于傳統(tǒng)的機(jī)器學(xué)習(xí)模型的預(yù)測精度更高,模型的泛化能力更強(qiáng),尤其是本文構(gòu)建的StackingModel3模型,與傳統(tǒng)的機(jī)器學(xué)習(xí)模型KNN、SVM、DCT以及GNB模型相比,宏平均F1值分別提高了1.8%、4.67%、1.01%以及17.4%,與傳統(tǒng)的集成學(xué)習(xí)模型RF、AdaBoost、LGBM、XGBoost以及GBDT相比,宏平均F1值分別提高了0.26%、1.06%、0.27%、0.23%、0.27%以及0.29%,這說明本文構(gòu)建的專利質(zhì)量分類預(yù)測集成模型效果較好。

      綜上所述,本文構(gòu)建的專利質(zhì)量評價(jià)指標(biāo)體系以及專利質(zhì)量分類預(yù)測模型具有一定的科學(xué)性以及現(xiàn)實(shí)意義,可為政府以及相關(guān)創(chuàng)新主體把握產(chǎn)業(yè)未來發(fā)展方向提供一定的決策支持,為高質(zhì)量專利的篩選及培育提供技術(shù)支撐。當(dāng)然,本文構(gòu)建的評價(jià)指標(biāo)以及模型也具有一定的局限性:一是本文構(gòu)建的評價(jià)指標(biāo)體系,并未充分的考慮新申請專利質(zhì)量的評判;二是本文構(gòu)建的集成學(xué)習(xí)模型的時(shí)間復(fù)雜度較高,還需進(jìn)一步降低模型的時(shí)間復(fù)雜度。因此,未來研究過程中,本文將對上述不足進(jìn)行進(jìn)一步研究,力求推進(jìn)本文構(gòu)建的評價(jià)指標(biāo)體系以及分類預(yù)測模型應(yīng)用到實(shí)際工作當(dāng)中。

      猜你喜歡
      分類器指標(biāo)體系專利
      專利
      發(fā)明與專利
      傳感器世界(2019年4期)2019-06-26 09:58:44
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      層次分析法在生態(tài)系統(tǒng)健康評價(jià)指標(biāo)體系中的應(yīng)用
      供給側(cè)改革指標(biāo)體系初探
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      專利
      測土配方施肥指標(biāo)體系建立中‘3414
      怀化市| 怀集县| 会泽县| 福清市| 定兴县| 宾阳县| 仪陇县| 余干县| 邹平县| 海兴县| 土默特右旗| 赤城县| 镇赉县| 张家界市| 张掖市| 靖宇县| 泸水县| 泗阳县| 吴江市| 临夏县| 天水市| 汝阳县| 永修县| 黄平县| 焦作市| 伊宁县| 洮南市| 乐昌市| 会昌县| 肃宁县| 木兰县| 长泰县| 夏河县| 正定县| 繁峙县| 清水县| 平远县| 沽源县| 屏山县| 望江县| 永靖县|