張軍鋒 杲雯 張航 宋喆欣 趙陽(yáng)
摘 要:我國(guó)高校每年都會(huì)申請(qǐng)的大批專利中有一部分難以轉(zhuǎn)化,經(jīng)濟(jì)價(jià)值較低,對(duì)于這部分專利,高校可以考慮適當(dāng)減少專利維護(hù)時(shí)間。目前對(duì)于專利的評(píng)價(jià)一般都是由相關(guān)專家在專利公布較長(zhǎng)時(shí)間以后完成。在專利公布初期,難以評(píng)估該專利的價(jià)值。我們使用機(jī)器學(xué)習(xí)算法,根據(jù)已有專利數(shù)據(jù),確定各個(gè)指標(biāo)的權(quán)重,找出專利申請(qǐng)初期各項(xiàng)指標(biāo)和最終價(jià)值之間的關(guān)系。依據(jù)此關(guān)系對(duì)新申請(qǐng)的專利進(jìn)行評(píng)估,作為高校評(píng)判的輔助。
關(guān)鍵詞:機(jī)器學(xué)習(xí);高校;發(fā)明專利;專利價(jià)值;權(quán)重
黨的十八大以來(lái),我國(guó)知識(shí)產(chǎn)權(quán)事業(yè)取得顯著成效,知識(shí)產(chǎn)權(quán)作為國(guó)家發(fā)展戰(zhàn)略性資源和國(guó)際競(jìng)爭(zhēng)力核心要素的作用更加凸顯。專利作為知識(shí)產(chǎn)權(quán)的核心,受到了更多的重視,新時(shí)代下我們不僅要追求高數(shù)量的專利,也應(yīng)該要追求高質(zhì)量的專利。但是目前對(duì)于專利的評(píng)估幾乎都是在專利已經(jīng)申請(qǐng)較長(zhǎng)時(shí)間后進(jìn)行,并且是由專家進(jìn)行,評(píng)估方法復(fù)雜,評(píng)估效率低下。亟需一種高效、準(zhǔn)確的評(píng)估方法來(lái)對(duì)專利價(jià)值進(jìn)行評(píng)估。
我們小組在此次研究中,聚焦于高校專利,只選取了其中的發(fā)明專利進(jìn)行評(píng)估,對(duì)于外觀設(shè)計(jì)和實(shí)用新型的專利沒(méi)有進(jìn)行考慮,因此我們的評(píng)估方法不是適用于全部專利,有一定的局限性。對(duì)于高校中的發(fā)明專利,經(jīng)過(guò)我們不斷地調(diào)整和測(cè)試,誤差控制在百分之一以內(nèi)。同時(shí)我們使用了獲得中國(guó)專利獎(jiǎng)中的部分?jǐn)?shù)據(jù)作為最終測(cè)試集,因此我們的系統(tǒng)具有較高的可靠性。
在數(shù)據(jù)的初步清理中,我們和專利相關(guān)方面的專家以及指導(dǎo)教師溝通后,我們最終確定了對(duì)專利的評(píng)分標(biāo)準(zhǔn):
確定了專利分?jǐn)?shù)以后,我們選取了申請(qǐng)人數(shù)量,專利審查時(shí)長(zhǎng),專利實(shí)審時(shí)長(zhǎng),簡(jiǎn)單同族數(shù)量,權(quán)利要求數(shù)量,IPC個(gè)數(shù)六項(xiàng)指標(biāo)。初始時(shí),我們希望可以確定這六項(xiàng)指標(biāo)對(duì)專利價(jià)值的貢獻(xiàn)權(quán)重,即確定這六項(xiàng)指標(biāo)和專利價(jià)值的一次關(guān)系。我們將各個(gè)指標(biāo)的權(quán)重作為遺傳算法中的“染色體”,將專利價(jià)值和計(jì)算出的專利價(jià)值作為適應(yīng)度函數(shù),采用實(shí)數(shù)編碼,以模擬二進(jìn)制交叉(SBX)作為交叉算子,使用均勻變異作為變異算子,對(duì)權(quán)重解空間進(jìn)行了搜索。我們?cè)O(shè)置了初始種群為1000,在種群經(jīng)過(guò)了一千代以后,最佳權(quán)重不再發(fā)生大的變動(dòng),因此將該權(quán)重認(rèn)為是解空間中的最佳權(quán)重。但是該權(quán)重下的適應(yīng)度函數(shù)依然較大,即預(yù)測(cè)的價(jià)值和實(shí)際之間的價(jià)值誤差較大,達(dá)到百分之五十左右?;谏鲜霾僮?,我們認(rèn)為專利的六項(xiàng)指標(biāo)和專利最終價(jià)值之間不符合一次關(guān)系。
我們這次的數(shù)據(jù)選取了專利的六項(xiàng)指標(biāo),數(shù)據(jù)較多,因此我們希望通過(guò)使用主成分分析法對(duì)數(shù)據(jù)進(jìn)行降維。我們首先計(jì)算了數(shù)據(jù)是否適合進(jìn)行主成分分析,計(jì)算結(jié)果如下。
可以看出,KMO統(tǒng)計(jì)量在0.5以上,并且Sig.<0.05,因此我們認(rèn)為符合標(biāo)準(zhǔn),可以進(jìn)行主成分分析法降維。
在進(jìn)行主成分分析時(shí),我們選取了總體數(shù)據(jù)的百分之七十作為樣本矩陣,對(duì)這些樣本數(shù)據(jù)進(jìn)行規(guī)范化處理得到規(guī)范會(huì)數(shù)據(jù)矩陣。依據(jù)這些規(guī)范化數(shù)據(jù)矩陣我們得到樣本的相關(guān)矩陣;求出樣本相關(guān)矩陣的六個(gè)特征值和特征向量。我們將方差貢獻(xiàn)值確定在百分之八十,經(jīng)過(guò)計(jì)算確定了五個(gè)樣本主成分。因?yàn)闃颖緟f(xié)方差矩陣的的特征值和特征向量是總體協(xié)方差矩陣的特征值和特征向量的極大似然估計(jì),所以在后面的計(jì)算中,我們使用這里求出來(lái)的五個(gè)特征向量進(jìn)行計(jì)算主成分。
在求出數(shù)據(jù)的主成分以后,我們接下來(lái)使用了一種較為經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法,BP網(wǎng)絡(luò)。為了適應(yīng)我們選取的激活函數(shù):sigmoid函數(shù),我們將專利的分?jǐn)?shù)都除以了100,作為期望輸出。我們選取了六個(gè)指標(biāo),因此需要有五個(gè)輸入,中間層我們?cè)O(shè)置了十五個(gè)神經(jīng)元,輸出層只有一個(gè)神經(jīng)元。經(jīng)過(guò)了兩萬(wàn)次的訓(xùn)練,數(shù)據(jù)的誤差在百分之一以內(nèi),是較為理想的結(jié)果,我們記錄下了此時(shí)BP神經(jīng)網(wǎng)絡(luò)中各個(gè)參數(shù)的數(shù)值。接下來(lái),我們使用這組參數(shù)數(shù)值去計(jì)算獲得了中國(guó)專利獎(jiǎng)的專利,這些專利都獲得了較高的分?jǐn)?shù)。因此我們認(rèn)為,我們的這組參數(shù)數(shù)值是符合實(shí)際,且具有較高可靠性的。因參數(shù)數(shù)值過(guò)多,這里就不再進(jìn)行展示。具體計(jì)算方法即為經(jīng)典BP神經(jīng)網(wǎng)絡(luò)計(jì)算方法。下圖為部分專利的預(yù)測(cè)分?jǐn)?shù)與實(shí)際分?jǐn)?shù)的對(duì)比
在獲得了專利價(jià)值評(píng)估模型后,我們將該模型置于網(wǎng)絡(luò)平臺(tái)內(nèi),可以方便高校快速、便捷的了解到專利的價(jià)值,同時(shí)我們平臺(tái)也加入了企業(yè)入駐的功能,讓入駐企業(yè)可以快速了解到各個(gè)高校的科研情況,假哭專利轉(zhuǎn)化。在此平臺(tái)內(nèi),企業(yè)也可以將在日常生產(chǎn)中產(chǎn)生的技術(shù)難題發(fā)布,交由高校進(jìn)行研究,促進(jìn)我國(guó)向知識(shí)強(qiáng)國(guó)的轉(zhuǎn)化。
我們此次的研究,將機(jī)器學(xué)習(xí)算法和專利文獻(xiàn)進(jìn)行結(jié)合,得到的結(jié)論在一定范圍內(nèi)具有較高的可靠性??梢宰鳛楦咝Q定繳納多久專利維護(hù)費(fèi)的輔助,幫助高校對(duì)專利的價(jià)值有一個(gè)提前的預(yù)知。幫助我國(guó)專利由高數(shù)量向高質(zhì)量進(jìn)行轉(zhuǎn)變。
參考文獻(xiàn):
[1]周志華.機(jī)器學(xué)習(xí)[M]. 北京:清華大學(xué)出版社,2016.
[2] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M]. 北京:清華大學(xué)出版社,2019.