• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合多維特征的高校專利價(jià)值分級(jí)方法及其實(shí)證研究*

      2022-12-17 07:49:30高道斌
      圖書館論壇 2022年11期
      關(guān)鍵詞:發(fā)明人語義專利

      張 彪,吳 紅,高道斌

      0 引言

      高校是國(guó)家創(chuàng)新系統(tǒng)中的重要行為主體,截至2020年12月,其發(fā)明專利有效量達(dá)442,523項(xiàng)[1],但產(chǎn)業(yè)化率僅3%[2]。為促進(jìn)高校科技成果轉(zhuǎn)化,2020年教育部、國(guó)家知識(shí)產(chǎn)權(quán)局和科技部聯(lián)合發(fā)布的《關(guān)于提升高等學(xué)校專利質(zhì)量 促進(jìn)轉(zhuǎn)化運(yùn)用的若干意見》指出樹立高校專利等科技成果只有轉(zhuǎn)化才能實(shí)現(xiàn)創(chuàng)新價(jià)值、不轉(zhuǎn)化是最大損失的理念;2021年“每萬人口高價(jià)值發(fā)明專利擁有量(件)”寫入“十四五”時(shí)期經(jīng)濟(jì)社會(huì)發(fā)展主要指標(biāo)。此外,隨著新興技術(shù)復(fù)雜度的提高,企業(yè)在僅憑自身研發(fā)體系和資源構(gòu)成愈加難以取得或保持創(chuàng)新優(yōu)勢(shì)時(shí)[3],逐漸通過專利轉(zhuǎn)讓、許可等形式吸收高校的技術(shù)成果、實(shí)現(xiàn)技術(shù)升級(jí)[4]。面對(duì)海量專利,校企雙方都希望能夠通過技術(shù)轉(zhuǎn)移將高校專利的技術(shù)價(jià)值轉(zhuǎn)變?yōu)楫a(chǎn)業(yè)價(jià)值。然而,并非所有高校專利都具有高價(jià)值,也并非所有高校專利都能發(fā)生技術(shù)轉(zhuǎn)移。因此,如何全面客觀評(píng)估高校專利價(jià)值、準(zhǔn)確測(cè)算高校專利的技術(shù)轉(zhuǎn)移潛力成為推動(dòng)高校技術(shù)成果與市場(chǎng)對(duì)接、促進(jìn)成果變現(xiàn)以及協(xié)助企業(yè)定位高價(jià)值專利迫切需要解決的問題。本文擬就該問題進(jìn)行探索。

      1 文獻(xiàn)綜述

      專利價(jià)值是衡量人類知識(shí)產(chǎn)權(quán)水平的主要測(cè)度標(biāo)準(zhǔn)[5],學(xué)者就如何客觀準(zhǔn)確評(píng)估專利價(jià)值展開了探索。早期的專利價(jià)值評(píng)估主要基于經(jīng)濟(jì)學(xué)方法,包括成本法、市場(chǎng)法、收益法[6],近期也有學(xué)者提出實(shí)物期權(quán)法[7]、潛在維權(quán)成本評(píng)估法[8]。經(jīng)濟(jì)學(xué)方法多用于評(píng)估企業(yè)專利的資產(chǎn)價(jià)值,計(jì)算公式的參數(shù)估計(jì)主觀性強(qiáng),現(xiàn)實(shí)中較少使用。當(dāng)前對(duì)專利價(jià)值評(píng)估方法的研究,更多是從兩方面展開討論。

      (1)指標(biāo)評(píng)價(jià)方法。部分學(xué)者通過對(duì)指標(biāo)賦權(quán)評(píng)估專利價(jià)值。Zhang等[9]使用信息熵對(duì)審查時(shí)長(zhǎng)、權(quán)力要求數(shù)量、同族專利數(shù)等指標(biāo)進(jìn)行加權(quán),并使用協(xié)同過濾技術(shù)排除創(chuàng)造性低的專利,進(jìn)而確定高價(jià)值專利。伊惠芳等[10]提出一種柔性的動(dòng)態(tài)確權(quán)專利價(jià)值評(píng)價(jià)框架,采用熵權(quán)法對(duì)指標(biāo)賦權(quán),并利用多屬性決策方法識(shí)別高價(jià)值專利。部分學(xué)者借助機(jī)器學(xué)習(xí)構(gòu)建評(píng)估模型。Kim等[11]將被引次數(shù)作為專利價(jià)值的代理變量,選取相似專利數(shù)、權(quán)利人歷史被引數(shù)等指標(biāo),使用隨機(jī)森林、邏輯回歸等方法構(gòu)建專利價(jià)值評(píng)估模型。冉從敬等[12]以有無技術(shù)轉(zhuǎn)移為依據(jù)劃分專利價(jià)值,從指標(biāo)易獲取性角度選取發(fā)明人數(shù)量、3年內(nèi)被引用次數(shù)等指標(biāo),并采用主成分分析方法對(duì)指標(biāo)進(jìn)行篩選,最后基于人工神經(jīng)網(wǎng)絡(luò)構(gòu)建高校專利價(jià)值評(píng)估模型。

      (2)文本分析方法。Park等[13]提出采用專利文本中的SAO結(jié)構(gòu)代表技術(shù)方案,通過預(yù)測(cè)TRIZ演化趨勢(shì)判斷專利價(jià)值。詹文青等[14]基于語義標(biāo)注專利文獻(xiàn)和技術(shù)需求的技術(shù)問題、技術(shù)功能、技術(shù)效果等技術(shù)特征詞組,計(jì)算專利文獻(xiàn)和技術(shù)需求的相似性,根據(jù)相似度排序識(shí)別潛在高價(jià)值專利。郭燁等[15]認(rèn)為專利價(jià)值的核心是技術(shù)水平的高低,據(jù)此提出一種基于功能分析的專利價(jià)值評(píng)估方法,在專利功能句抽取的基礎(chǔ)上從重要性、性能、成本、有害性等角度分析專利價(jià)值。

      綜上,指標(biāo)評(píng)價(jià)方法多是從專利自身屬性特征出發(fā),從技術(shù)、經(jīng)濟(jì)、法律等層面選取評(píng)估指標(biāo),采取主、客方法對(duì)指標(biāo)賦權(quán)或構(gòu)建機(jī)器學(xué)習(xí)模型評(píng)估專利價(jià)值。文本分析方法強(qiáng)調(diào)專利文本信息包含的技術(shù)方案是專利價(jià)值的重要來源,主要基于TRIZ理論對(duì)專利的技術(shù)方案進(jìn)行表征,通過對(duì)技術(shù)方案進(jìn)行定量分析評(píng)價(jià)專利價(jià)值。上述方法對(duì)專利價(jià)值評(píng)估均有一定作用,但少有研究能夠?qū)⒅笜?biāo)評(píng)價(jià)和文本分析進(jìn)行有效結(jié)合,從專利自身屬性特征和專利文本語義信息的角度全面判斷專利價(jià)值,而且當(dāng)前研究多是將專利籠統(tǒng)分為高價(jià)值專利、低價(jià)值專利,未能細(xì)化專利價(jià)值的層級(jí)結(jié)構(gòu)?;诖耍狙芯吭诮梃b已有研究成果的基礎(chǔ)上,提出一種融合專利自身屬性、文本信息等多維特征的高校專利價(jià)值分級(jí)方法,旨在為高校準(zhǔn)確評(píng)估專利價(jià)值、適時(shí)對(duì)外提供實(shí)踐路徑,也為企業(yè)尋求高校高價(jià)值專利提供決策參考。

      2 研究方法

      專利價(jià)值來源于多個(gè)方面,主要受技術(shù)本身的創(chuàng)新水平、專利撰寫質(zhì)量以及發(fā)明人知識(shí)積累影響[16-17]。對(duì)應(yīng)以上3個(gè)影響因素,本研究將融合以下3個(gè)維度的特征實(shí)現(xiàn)對(duì)高校專利價(jià)值更準(zhǔn)確的評(píng)估:專利文本語義特征,專利文本語義信息包含的技術(shù)方案能夠反映技術(shù)的創(chuàng)新水平[15];專利自身屬性特征,技術(shù)、法律、經(jīng)濟(jì)3個(gè)層面的專利自身屬性特征是現(xiàn)有研究中通過專利撰寫質(zhì)量評(píng)估專利價(jià)值的重要可量化指標(biāo)[10];發(fā)明人特征,發(fā)明人能力越強(qiáng)則其創(chuàng)造的專利具有的價(jià)值越高[18],據(jù)此設(shè)計(jì)能夠直接體現(xiàn)發(fā)明人能力與專利價(jià)值關(guān)聯(lián)的指標(biāo)。以上述特征為基礎(chǔ),采用機(jī)器學(xué)習(xí)算法構(gòu)建高校專利價(jià)值評(píng)估模型,預(yù)測(cè)專利發(fā)生技術(shù)轉(zhuǎn)移的概率,并劃定閾值將專利價(jià)值分級(jí)細(xì)化,以期更準(zhǔn)確、更細(xì)粒度地對(duì)高校專利價(jià)值進(jìn)行評(píng)估與分級(jí)。本研究框架如圖1所示。

      圖1 研究框架

      2.1 專利數(shù)據(jù)分類

      專利價(jià)值通常使用被引頻次[11]、專利強(qiáng)度[19]、交易價(jià)格[20]、有無技術(shù)轉(zhuǎn)移[12]等作為代理變量,而高校專利價(jià)值最直接的體現(xiàn)就是通過轉(zhuǎn)讓或許可等方式轉(zhuǎn)移至企業(yè)??紤]到交易價(jià)格的私密性和獲取難度,本研究以有無技術(shù)轉(zhuǎn)移作為專利價(jià)值的分類準(zhǔn)則。主要獲取3類數(shù)據(jù):類別一,已發(fā)生技術(shù)轉(zhuǎn)移的專利,其技術(shù)轉(zhuǎn)移概率為1;類別二,直至失效也未發(fā)生技術(shù)轉(zhuǎn)移的專利,其技術(shù)轉(zhuǎn)移概率為0;類別三,當(dāng)前有效但未發(fā)生技術(shù)轉(zhuǎn)移的專利。類別一、類別二數(shù)據(jù)主要用于模型構(gòu)建,類別三數(shù)據(jù)用于展現(xiàn)模型預(yù)測(cè)的效果。

      2.2 多維特征獲取

      (1)專利文本語義特征。專利價(jià)值核心在于其技術(shù)水平的高低[15],而技術(shù)水平的高低則取決于專利文本中技術(shù)方案的描述。從專利技術(shù)自身擁有的技術(shù)方案出發(fā)進(jìn)行價(jià)值分析,關(guān)鍵在于如何對(duì)專利文本語義特征進(jìn)行有效表征?,F(xiàn)有研究多借助TRIZ,通過對(duì)功能語句分析實(shí)現(xiàn)價(jià)值評(píng)估[21]。這種方法通常需要人工解讀,效率較為低下。隨著人工智能技術(shù)的發(fā)展,自然語言處理中的詞向量方法實(shí)現(xiàn)了對(duì)各類文本語義特征的自動(dòng)編碼。Word2Vec[22]是常用的詞向量模型,相比于one-hot等高維、稀疏的表示法,Word2Vec訓(xùn)練出的詞向量是低維、稠密的,而且利用了詞的上下文信息,語義信息更加豐富,解決了向量稀疏和語義聯(lián)系兩個(gè)問題。但是,Word2Vec忽略了詞語與整個(gè)句子之間的聯(lián)系,對(duì)于局部與主體之間的特征表達(dá)得不夠準(zhǔn)確。直到2018年,Bert[23]通過海量語料預(yù)訓(xùn)練,結(jié)合不同語境動(dòng)態(tài)獲取詞語在上下文中不同的語義特征,有效克服了Word2Vec的缺陷,可以將語義特征從詞級(jí)別深化到句子級(jí)別[24],能夠更好地對(duì)專利文本語義特征進(jìn)行表征。

      本研究擬采用12層Encoder的Bert模型,模型輸入是專利文本,輸出是768維的句向量。由于句向量維度過于龐大,可能會(huì)增加冗余信息對(duì)模型性能的干擾,而且不同的特征之間可能會(huì)存在某種相關(guān)性,導(dǎo)致后續(xù)構(gòu)建的模型消耗時(shí)間過長(zhǎng)且難以獲得最優(yōu)的參數(shù),進(jìn)而使模型性能降低,因此本研究采用主成分分析方法(PCA)對(duì)句向量進(jìn)行降維處理,將句向量的前d個(gè)主成分作為專利文本語義特征,以特征向量形式進(jìn)行存儲(chǔ)。

      (2)專利自身屬性特征。本研究的專利自身屬性特征即各大專利數(shù)據(jù)庫規(guī)范化的字段信息及專利著錄項(xiàng)目中常被用以評(píng)估專利價(jià)值的指標(biāo)[6]。結(jié)合已有研究,依據(jù)《專利價(jià)值分析指標(biāo)體系操作手冊(cè)》從技術(shù)、法律、經(jīng)濟(jì)3個(gè)層面選取廣泛使用的指標(biāo),如表1所示。

      表1 專利自身屬性特征

      (3)發(fā)明人特征。發(fā)明人是專利的直接關(guān)聯(lián)者,雖有部分學(xué)者注意到發(fā)明人對(duì)專利價(jià)值的重要影響,并采用第一發(fā)明人職稱、第一發(fā)明人職務(wù)、第一發(fā)明人所在單位等指標(biāo)表征發(fā)明人的能力,但職稱、職務(wù)等多是從側(cè)面體現(xiàn)發(fā)明人的綜合能力[34],難以與專利價(jià)值產(chǎn)生直接聯(lián)系。因此,本研究設(shè)計(jì)了能夠更直接體現(xiàn)發(fā)明人能力與專利價(jià)值關(guān)聯(lián)的指標(biāo)。專利發(fā)明人通常有多個(gè),為了便于計(jì)算,使用第一發(fā)明人作為發(fā)明人的代表,具體指標(biāo)如下:

      Y1:第一發(fā)明人授權(quán)專利參與數(shù)目。正向指標(biāo),參與數(shù)目越多,則第一發(fā)明人的專利被授權(quán)能力越強(qiáng),以有效專利數(shù)與失效專利數(shù)的和表征,不包含未授權(quán)專利。

      Y2:第一發(fā)明人技術(shù)轉(zhuǎn)移率。正向指標(biāo),技術(shù)轉(zhuǎn)移率越高,則第一發(fā)明人的科技成果轉(zhuǎn)化能力越強(qiáng),計(jì)算方法如公式(1)所示。其中,a代表第一發(fā)明人參與授權(quán)的專利中發(fā)生轉(zhuǎn)移的數(shù)量。

      Y3:第一發(fā)明人資源浪費(fèi)率。負(fù)向指標(biāo),資源浪費(fèi)率越大,則第一發(fā)明人的科技成果轉(zhuǎn)化能力越弱,計(jì)算方法如公式(2)所示。其中,b代表第一發(fā)明人參與授權(quán)的專利中直至失效也未發(fā)生轉(zhuǎn)移的專利數(shù)。

      Y4:第一發(fā)明人的技術(shù)覆蓋面。正向指標(biāo),技術(shù)覆蓋面越廣,則第一發(fā)明人的技術(shù)掌握越全面,以第一發(fā)明人參與專利的IPC分類號(hào)前4位總類數(shù)進(jìn)行表征。

      2.3 高校專利價(jià)值評(píng)估模型構(gòu)建

      本研究采用機(jī)器學(xué)習(xí)的二分類算法構(gòu)建專利價(jià)值評(píng)估模型,在進(jìn)行模型構(gòu)建之前,需要對(duì)專利文本語義特征、專利自身屬性特征、發(fā)明人特征3個(gè)維度的特征進(jìn)行融合處理。采用d維特征向量表示專利文本語義特征,將14個(gè)指標(biāo)轉(zhuǎn)化為14維的特征向量表示專利自身屬性特征,使用4維特征向量表示發(fā)明人特征,然后將以上3個(gè)特征向量進(jìn)行橫向拼接,最后生成d+18維特征向量,并進(jìn)行歸一化處理。模型輸入為d+18維的特征向量,模型輸出為技術(shù)轉(zhuǎn)移概率。為驗(yàn)證本研究方法的有效性,采用邏輯回歸(LR)、隨機(jī)森林(RF)、高斯貝葉斯(GaussianNB)、K近鄰(KNN)、梯度提升算法(GBDT)、支持向量機(jī)(SVM)、極端梯度提升算法(XGBoost)、BP神經(jīng)網(wǎng)絡(luò)(BP)、自適應(yīng)增強(qiáng)(Adaboost)9種常用的機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,并從中挑選性能最好的模型用以預(yù)測(cè)未知數(shù)據(jù)集的技術(shù)轉(zhuǎn)移概率。

      采用準(zhǔn)確率Accuracy、查準(zhǔn)率Precision、查全率Recall和調(diào)和平均值F1共4個(gè)指標(biāo)對(duì)模型的性能進(jìn)行評(píng)估,計(jì)算方法如公式(3)-(6)所示。式中M表示測(cè)試集中預(yù)測(cè)正確的數(shù)目,N表示測(cè)試集總數(shù)目,TP表示測(cè)試集中實(shí)際發(fā)生技術(shù)轉(zhuǎn)移且被預(yù)測(cè)正確的數(shù)目,PN表示測(cè)試集中預(yù)測(cè)可能發(fā)生技術(shù)轉(zhuǎn)移的數(shù)目,TN表示測(cè)試集中實(shí)際發(fā)生技術(shù)轉(zhuǎn)移的數(shù)目。通過繪制ROC曲線、計(jì)算AUC值展示最優(yōu)模型的性能。

      2.4 專利分級(jí)

      在驗(yàn)證模型有效性的基礎(chǔ)上,使用高校專利價(jià)值評(píng)估模型預(yù)測(cè)每項(xiàng)專利發(fā)生技術(shù)轉(zhuǎn)移的概率P,P∈[0,1],步長(zhǎng)為0.1,總共分為10級(jí)。專利發(fā)生技術(shù)轉(zhuǎn)移的概率P越大,價(jià)值越高。具體級(jí)別與概率分布如表2所示。

      表2 專利級(jí)別與概率分布

      3 實(shí)證研究

      3.1 數(shù)據(jù)采集

      本研究對(duì)云計(jì)算領(lǐng)域?qū)@M(jìn)行實(shí)證分析,數(shù)據(jù)來源于智慧芽專利數(shù)據(jù)庫(以下簡(jiǎn)稱“智慧芽”)。智慧芽對(duì)專利引文、發(fā)明人、專利權(quán)人、權(quán)力轉(zhuǎn)移、專利許可等字段信息進(jìn)行了收錄與規(guī)范化處理,而且可以將各字段信息以csv格式導(dǎo)出,是本研究較為理想的專利數(shù)據(jù)庫。文章根據(jù)專家意見并參照已有研究[35-36]制定如下檢索式:TA:(“云計(jì)算”O(jiān)R“云安全”O(jiān)R“云服務(wù)”O(jiān)R“分布式存儲(chǔ)”O(jiān)R“云存儲(chǔ)”O(jiān)R“云平臺(tái)”)。經(jīng)初步檢索發(fā)現(xiàn),云計(jì)算領(lǐng)域高校專利數(shù)據(jù)中,類別一僅有315件,而類別二有1,065件,采用以上數(shù)據(jù)不僅容易導(dǎo)致模型陷入對(duì)小數(shù)據(jù)集的過擬合,而且模型的普適性也不夠強(qiáng)。為解決此問題,本研究借鑒學(xué)者以中國(guó)專利數(shù)據(jù)代替純高校專利數(shù)據(jù)的思路[12],在保留高校專利特征的前提下,增加模型訓(xùn)練的數(shù)據(jù)量,豐富數(shù)據(jù)特征,以有利于提高模型的普適性,減小過擬合的風(fēng)險(xiǎn)。具體檢索方式如下:

      以智慧芽中的中國(guó)發(fā)明專利和實(shí)用新型專利為數(shù)據(jù)源,使用上述檢索式,篩選條件“法律事件→權(quán)利轉(zhuǎn)移OR許可”,檢索到2,588件專利作為正樣本,標(biāo)簽為1;篩選條件“簡(jiǎn)單法律狀態(tài)→失效&法律事件→未發(fā)生權(quán)力轉(zhuǎn)移或許可”,檢索到3,319件專利作為負(fù)樣本,標(biāo)簽為0;篩選條件“簡(jiǎn)單法律狀態(tài)→有效&法律事件→未發(fā)生權(quán)力轉(zhuǎn)移或許可&當(dāng)前專利權(quán)人→大學(xué)”,檢索到3,242件專利,作為高校專利待分級(jí)的數(shù)據(jù)(預(yù)測(cè)集)。檢索時(shí)間為2021年11月11日。

      3.2 數(shù)據(jù)處理

      (1)數(shù)據(jù)集劃分。剔除信息不完整的專利,得到正樣本2,427個(gè)、負(fù)樣本3,249個(gè)、預(yù)測(cè)集3,122個(gè)。為避免數(shù)據(jù)類別分布不平衡降低模型效果,對(duì)負(fù)樣本進(jìn)行欠采樣,隨機(jī)去掉部分樣本,得到2,427個(gè)負(fù)樣本。將正負(fù)樣本合并,隨機(jī)劃分80%為訓(xùn)練集(3,883個(gè)樣本),20%為測(cè)試集(971個(gè)樣本)。

      (2)多維特征獲取。對(duì)于專利文本語義特征,使用Python編程調(diào)用肖涵在github上公開的bert句向量生成接口①,將每項(xiàng)專利的摘要轉(zhuǎn)化為768維的句向量,調(diào)用scikit-learn機(jī)器學(xué)習(xí)庫的PCA算法計(jì)算累計(jì)方差貢獻(xiàn)率與特征數(shù)的關(guān)系(見圖2)。當(dāng)累計(jì)方差貢獻(xiàn)率為0.7時(shí),特征數(shù)為40,即句向量的前40個(gè)主成分可以保留原始數(shù)據(jù)70%的信息。因此,將句向量維度降至40,最終每項(xiàng)專利的文本語義特征使用40維的特征向量表示。對(duì)于專利自身屬性特征,可根據(jù)智慧芽下載的專利著錄項(xiàng)目結(jié)合專利文獻(xiàn)計(jì)算得到。對(duì)于發(fā)明人特征,首先獲取云計(jì)算領(lǐng)域授權(quán)專利的第一發(fā)明人姓名,然后根據(jù)2.2中的發(fā)明人特征計(jì)算方法得到每個(gè)第一發(fā)明人的Y1、Y2、Y3、Y44個(gè)指標(biāo),最后根據(jù)第一發(fā)明人的姓名與各項(xiàng)專利對(duì)應(yīng)。將40維的專利文本語義特征向量、14維的專利自身屬性特征向量、4維的發(fā)明人特征向量進(jìn)行橫向拼接,得到58維的特征向量,最終訓(xùn)練集、測(cè)試集、預(yù)測(cè)集的結(jié)構(gòu)分別為3,883×58、971×58、3,122×58的矩陣。

      圖2 累計(jì)方法貢獻(xiàn)率—特征數(shù)關(guān)系

      3.3 模型構(gòu)建與評(píng)估

      本研究訓(xùn)練集數(shù)據(jù)樣本較少,采用五折交叉驗(yàn)證進(jìn)行模型參數(shù)調(diào)優(yōu),即將訓(xùn)練集分成5份,輪流將其中4份作為訓(xùn)練數(shù)據(jù),1份作為驗(yàn)證數(shù)據(jù),最后求5次實(shí)驗(yàn)的平均準(zhǔn)確率評(píng)估模型的性能。借助scikit-learn機(jī)器學(xué)習(xí)庫采用2.3所述的9種機(jī)器學(xué)習(xí)算法進(jìn)行模型構(gòu)建,模型的參數(shù)調(diào)優(yōu)見表3。

      表3 機(jī)器學(xué)習(xí)算法相關(guān)參數(shù)設(shè)置

      測(cè)試集評(píng)估結(jié)果如表4所示。使用9種機(jī)器學(xué)習(xí)算法構(gòu)建的專利價(jià)值評(píng)估模型acc值最低為90.216%,最高為97.631%,p值最低為91.071%,最高為97.131%,r值最低為89.027%,最高為98.137,f1值最低為90.052%,最高為97.631%。從各項(xiàng)指標(biāo)的評(píng)估結(jié)果來看,模型性能較為優(yōu)異,能夠證明本研究所提方法的有效性。

      表4 模型測(cè)試集評(píng)估結(jié)果

      選用4項(xiàng)評(píng)估指標(biāo)均最高的RF模型繪制ROC曲線(見圖3),AUC值為0.99699,與已有研究[12]相比,在同一領(lǐng)域的數(shù)據(jù)集上AUC值提升22個(gè)百分點(diǎn),能夠充分證明本研究所提方法的優(yōu)異性能。因此,將構(gòu)建的RF模型應(yīng)用到未知數(shù)據(jù)集上,預(yù)測(cè)專利發(fā)生技術(shù)轉(zhuǎn)移的概率。

      圖3 RF模型的ROC曲線

      3.4 高校專利分級(jí)結(jié)果

      使用RF模型對(duì)預(yù)測(cè)集的技術(shù)轉(zhuǎn)移概率進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果按照2.4所述規(guī)則進(jìn)行專利價(jià)值分級(jí),結(jié)果見圖4。云計(jì)算領(lǐng)域不同等級(jí)的高校專利價(jià)值呈現(xiàn)出明顯右偏態(tài)分布,F(xiàn)、G兩個(gè)級(jí)別的專利數(shù)量最多,其余等級(jí)的專利數(shù)量較少,這與現(xiàn)有學(xué)者提出的少數(shù)專利產(chǎn)生多數(shù)價(jià)值[37]、專利價(jià)值呈現(xiàn)右偏分布[38]的觀點(diǎn)一致,能夠證明本研究預(yù)測(cè)分級(jí)的結(jié)果可信性。A-E(5個(gè))級(jí)別的技術(shù)轉(zhuǎn)移概率大于等于0.5,具備較高的價(jià)值,總計(jì)占比14.87%;F-J(5個(gè))級(jí)別的技術(shù)轉(zhuǎn)移概率小于0.5,價(jià)值較低,總計(jì)占比85.13%,說明云計(jì)算領(lǐng)域的高校高價(jià)值專利僅占少數(shù),多數(shù)專利價(jià)值偏低[12]。價(jià)值最高的A級(jí)別專利僅占3.24%,而F、G兩個(gè)級(jí)別的專利分別占35.65%、37.7%,說明大多數(shù)高校專利的技術(shù)轉(zhuǎn)移概率介于0.3~0.5。基于以上結(jié)果,建議擁有高等級(jí)專利的高校可以謀求技術(shù)合作,構(gòu)建專利組合打包出售,推進(jìn)科技成果轉(zhuǎn)化;企業(yè)也可根據(jù)自身需求與相關(guān)高校對(duì)接,促進(jìn)技術(shù)升級(jí)。同時(shí),對(duì)于級(jí)別較低的專利,高校也應(yīng)及時(shí)止損,減少資源浪費(fèi)。

      圖4 專利價(jià)值分級(jí)

      4 結(jié)語

      客觀、準(zhǔn)確地對(duì)高校專利價(jià)值進(jìn)行評(píng)估,是促進(jìn)高校專利合理運(yùn)營(yíng)、實(shí)現(xiàn)成果變現(xiàn),進(jìn)而推動(dòng)企業(yè)實(shí)現(xiàn)技術(shù)升級(jí)的重要環(huán)節(jié),對(duì)構(gòu)建產(chǎn)學(xué)研深度融合的技術(shù)創(chuàng)新體系具有積極意義。針對(duì)現(xiàn)有研究未能結(jié)合指標(biāo)、文本等多維特征,專利價(jià)值劃分粒度粗糙的問題,本研究提出了融合多維特征的高校專利價(jià)值分級(jí)方法:首先,從高校專利價(jià)值的3個(gè)重要來源出發(fā),使用時(shí)下流行的Bert預(yù)訓(xùn)練模型表示專利文本語義特征,設(shè)計(jì)與專利價(jià)值直接關(guān)聯(lián)的發(fā)明人特征,并與專利自身屬性特征相融合;其次,采用機(jī)器學(xué)習(xí)算法構(gòu)建高校專利價(jià)值評(píng)估模型,預(yù)測(cè)專利發(fā)生技術(shù)轉(zhuǎn)移的概率;最后,對(duì)技術(shù)轉(zhuǎn)移概率劃定閾值,將專利價(jià)值的粒度細(xì)化為10個(gè)等級(jí)。對(duì)云計(jì)算領(lǐng)域進(jìn)行的實(shí)證研究表明,本研究所提方法能夠有效將專利文本語義特征、專利自身屬性特征、發(fā)明人特征進(jìn)行融合,構(gòu)建的模型與現(xiàn)有研究相比AUC值提升22個(gè)百分點(diǎn),提高了高校專利價(jià)值評(píng)估結(jié)果的準(zhǔn)確性和科學(xué)性,為高校專利價(jià)值評(píng)估提供了新的研究思路。該方法未來可應(yīng)用于高校專利運(yùn)營(yíng)、專利推送、企業(yè)專利成果引進(jìn)、產(chǎn)學(xué)研合作等場(chǎng)景。比如,高??山柚痉椒▽?duì)校內(nèi)各領(lǐng)域?qū)@M(jìn)行分級(jí)評(píng)價(jià),將等級(jí)高的專利打包出售實(shí)現(xiàn)成果變現(xiàn),促進(jìn)科技成果轉(zhuǎn)化;企業(yè)可對(duì)領(lǐng)域內(nèi)高校專利進(jìn)行分級(jí)評(píng)價(jià),精準(zhǔn)引進(jìn)高價(jià)值專利,還可篩選擁有高等級(jí)專利的高校作為備選合作伙伴,促進(jìn)技術(shù)升級(jí)。不足之處在于:本研究的多維特征僅限于文本、數(shù)值型信息,而專利文獻(xiàn)中存在的大量圖片信息并沒有得到有效利用。因此,在后續(xù)研究中,將探索融合更多類型的特征,以期對(duì)高校專利價(jià)值實(shí)現(xiàn)更為準(zhǔn)確、客觀的評(píng)價(jià)。

      注釋

      ①bert句向量生成接口開源網(wǎng)址:https://github.com/hanxiao/bert-as-service。

      猜你喜歡
      發(fā)明人語義專利
      專利
      發(fā)明人角色識(shí)別及二元?jiǎng)?chuàng)新能力差異分析
      ——社會(huì)資本視角的解釋
      語言與語義
      發(fā)明與專利
      傳感器世界(2019年4期)2019-06-26 09:58:44
      淺析發(fā)明人(或設(shè)計(jì)人)變更的常見問題及建議
      專利代理(2019年2期)2019-01-26 15:16:16
      搖擺撞擊洗滌裝置
      家電科技(2018年9期)2018-09-28 01:45:00
      洗衣機(jī)
      家電科技(2018年9期)2018-09-28 01:45:00
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      專利
      鄂尔多斯市| 大埔区| 高平市| 应用必备| 东辽县| 阳信县| 尚义县| 泾阳县| 乌拉特前旗| 河西区| 新化县| 巴东县| 广宁县| 阆中市| 昭觉县| 岑溪市| 梧州市| 海城市| 南涧| 九寨沟县| 东平县| 金溪县| 西安市| 自贡市| 白河县| 芜湖县| 连南| 当雄县| 陈巴尔虎旗| 克东县| 邵阳市| 石柱| 色达县| 上思县| 上蔡县| 清镇市| 南丹县| 平武县| 古田县| 秀山| 汪清县|