• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于失效(有效)專利文本聚類的技術(shù)主題演變研究

      2020-01-08 02:09:02蔡裕謙
      研究與發(fā)展管理 2019年6期
      關(guān)鍵詞:專利聚類詞語

      馬 力,杭 捷,蔡裕謙

      (1.大連理工大學(xué) 商學(xué)院,盤錦 124200;2.清華大學(xué) 理學(xué)院,北京 100084)

      專利集合了技術(shù)、經(jīng)濟、商業(yè)情報等重要信息,具有可靠、及時、內(nèi)容詳實等特點,是獲取技術(shù)信息的有效途徑[1]。近年來,隨著國際競爭日益激烈,專利數(shù)量爆炸式增長,在“萬眾創(chuàng)新、大眾創(chuàng)業(yè)”的大環(huán)境下,我國繼2015年蟬聯(lián)專利申請量世界第一后,2016年專利申請增量占全球總增量的98%,再創(chuàng)新高[2]。在專利申請和授權(quán)量迅猛增加的同時,也應(yīng)注意到有大量專利進入公知公用領(lǐng)域,這些失效專利具有二次研究開發(fā)、分析專利價值、判定技術(shù)開發(fā)軌跡和方向等重要功能,對創(chuàng)新創(chuàng)業(yè)決策具有不可忽視的利用價值[3]。但因失效專利數(shù)量龐大且雜質(zhì)較多,針對其利用的研究并不多。隨著計算機技術(shù)的發(fā)展,數(shù)據(jù)挖掘方法被廣泛運用到專利分析中,使從海量的失效專利中挖掘有價值的信息成為可能。

      目前,關(guān)于技術(shù)主題研究的文獻多從優(yōu)化聚類算法角度出發(fā),實現(xiàn)技術(shù)主題獲取的精準化。部分成果選擇時間角度進行研究切入,針對各技術(shù)主題隨時間演進的發(fā)展趨勢進行研究。這些研究存在一定的缺陷,即未充分考慮專利的科技含量及法律狀態(tài)。就科技含量而言,相比于其他類型的專利,授權(quán)發(fā)明專利最能反映技術(shù)發(fā)展水平。根據(jù)法律狀態(tài),可將授權(quán)發(fā)明專利分為失效的授權(quán)發(fā)明專利和有效的授權(quán)發(fā)明專利,失效授權(quán)發(fā)明專利的失效原因包括:更先進技術(shù)的專利產(chǎn)生、原專利的技術(shù)特征已被淘汰、專利權(quán)人無法支付專利年費、專利不符合當(dāng)時技術(shù)發(fā)展需要等。對失效授權(quán)發(fā)明專利信息進行剖析,可以避免重復(fù)研究,明確技術(shù)發(fā)展方向,節(jié)約研發(fā)經(jīng)費,提高科研效率[4-5]。

      不同于以往研究,本文聚焦于授權(quán)發(fā)明專利,并且將失效授權(quán)發(fā)明專利(下文簡稱為失效專利)納入重要的研究維度,在優(yōu)化中文文本聚類基礎(chǔ)上,提供一種觀察技術(shù)主題變化的新角度,即對失效專利、有效專利及失效/有效專利分別進行中文文本聚類,并運用桑基圖(Sankey diagram)對3個聚類結(jié)果之間的關(guān)系進行可視化分析,確定各專利類、專利流的技術(shù)主題,通過專利流的走向了解技術(shù)主題的變化情況,對比分析主題的新生、消亡及發(fā)展狀況。此外,本文基于LED封裝產(chǎn)業(yè)專利數(shù)據(jù)對新研究方法的正確性進行驗證。

      1 研究綜述

      1.1 基于文本挖掘的專利技術(shù)主題分析方法

      專利數(shù)量的增加推進了專利文本挖掘研究,逐步出現(xiàn)適用于技術(shù)主題分析的多種方法,包括術(shù)語詞頻統(tǒng)計、共詞分析、文本聚類分析等[6]。①術(shù)語詞頻統(tǒng)計是最早、最簡單的分析方法,利用術(shù)語抽取技術(shù),從專利文本(如專利標題、摘要、權(quán)利等)中獲得技術(shù)術(shù)語來反映技術(shù)主題,并據(jù)此展開研究,目前主要包括兩方面研究:依據(jù)高頻詞分布情況確定技術(shù)研究熱點和加入時間序列對技術(shù)主題的演化進行分析。②共詞分析較術(shù)語詞頻統(tǒng)計而言,同時考慮了詞語之間的聯(lián)系,根據(jù)詞語關(guān)聯(lián)度的高低進行分析。共詞分析可劃分為共詞網(wǎng)絡(luò)分析、共詞聚類分析和戰(zhàn)略圖分析3種。欒春娟[7]通過對專利關(guān)鍵詞共現(xiàn)的研究,構(gòu)建了全球太陽能技術(shù)網(wǎng)絡(luò),實現(xiàn)對關(guān)鍵技術(shù)主題的識別。韓紅旗等[8]根據(jù)戰(zhàn)略圖對燃料電池進行實證分析。③文本聚類分析則將每個文檔中各個詞語出現(xiàn)的頻率轉(zhuǎn)換為該文檔的特征向量,利用特征向量間的距離來量化不同文檔間的相似程度。2個文檔中詞語出現(xiàn)的頻率越相似,則其相似度就越高。按照相似程度的高低將文檔分為不同技術(shù)主題的團簇進行分析。用專利文本聚類方法對技術(shù)主題進行研究,一般分為兩階段:首先是對專利文本進行聚類,形成不同技術(shù)主題的團簇;其次,各團簇生成主題詞來代表該團簇的技術(shù)主題[6]。層次聚類[9]、k-means聚類[10]等文本聚類算法常用于專利文本聚類之中。另外,常用的主題詞生成方法是選取團簇中的高頻技術(shù)術(shù)語代表該團簇技術(shù)主題[11]。

      其中,術(shù)語詞頻統(tǒng)計只能反映單個技術(shù)主題的變化情況,不能得到不同技術(shù)主題間的關(guān)系;共詞分析雖能了解不同技術(shù)主題間的關(guān)聯(lián),但其針對的是不同文章均出現(xiàn)的高支持度詞語,對于僅在少數(shù)文章中出現(xiàn)的詞語并不敏感,所以新技術(shù)主題不易被識別。相較而言,專利文本聚類依托文檔相似性,克服了以上局限,是一種有效的技術(shù)主題分析方法,且適合于本文提出的產(chǎn)業(yè)技術(shù)主題演變新方法。

      1.2 專利視角下的產(chǎn)業(yè)技術(shù)主題發(fā)展研究

      建立技術(shù)主題信息之間的聯(lián)系,可以了解產(chǎn)業(yè)技術(shù)主題發(fā)展情況。目前,常見的技術(shù)主題發(fā)展研究均納入時間維度。通過觀察主題詞詞頻在時間上的變化可明確技術(shù)主題的發(fā)展情況、預(yù)測未來發(fā)展趨勢,但不能獲得各技術(shù)主題之間的關(guān)聯(lián)情況[12]。KIM等[13]基于專利文本聚類結(jié)合專利申請時間,通過構(gòu)建關(guān)鍵詞語義網(wǎng)絡(luò),明確了技術(shù)主題發(fā)展過程;CHEN等[14]根據(jù)不同的時間窗口,將專利文獻集進行切割、聚類,獲得技術(shù)主題演變過程;王亮等[1]利用不同時間點的有效專利聚類作為聯(lián)系,繪制了專利隨時間演化的河流圖。這些研究不僅能看到技術(shù)主題隨時間的變化情況,還能得到各技術(shù)主題間的關(guān)聯(lián),在這點上是優(yōu)于基于術(shù)語詞頻統(tǒng)計的技術(shù)主題研究。但上述研究均不能得到致使技術(shù)主題發(fā)生變化的原因。這是由于以往研究忽視了專利的一個重要特性即其法律狀態(tài)。技術(shù)主題的改變通常伴隨著專利的產(chǎn)生與失效,從專利的法律狀態(tài)著手,提取失效專利與有效專利的關(guān)系,可進一步觀察技術(shù)主題改變的原因。因此,本文從專利的法律狀態(tài)出發(fā),對產(chǎn)業(yè)技術(shù)主題的演化進行分析,以期獲取更深層次的信息。

      1.3 考慮專利法律狀態(tài)的研究

      在專利研究領(lǐng)域,不同目的的研究會選擇不同種類的專利進行研究,申請專利、授權(quán)專利是出現(xiàn)較多的專利種類。也有部分專家會從專利的法律狀態(tài)切入,其中根據(jù)有效專利或(和)失效專利開展的研究總體數(shù)量較少。在有效專利研究方面,張米爾等[15]進行了專利叢林的測度以及演進情況分析;楊建安[16]、陳振英等[17]對高校專利存在的管理、制度等問題進行研究。對有效專利數(shù)量、狀態(tài)的研究,可明確產(chǎn)業(yè)或地區(qū)創(chuàng)新能力的強弱以及存在的不足,發(fā)現(xiàn)影響有效專利數(shù)量的因素,提出相應(yīng)建議[18-19]。

      在失效專利研究方面,國內(nèi)外學(xué)者的研究內(nèi)容有所差異。國外學(xué)者比國內(nèi)學(xué)者更多、更早進入專利相關(guān)領(lǐng)域的研究,因而對失效專利研究也更為深入,主要可概括為以下方面:①以即將失效的專利為研究對象,對其后續(xù)影響及應(yīng)對策略進行研究[20];②以失效專利為研究對象,挖掘此類專利的內(nèi)在價值,為技術(shù)的創(chuàng)新和轉(zhuǎn)移、提高市場競爭力服務(wù)[21];③對無效專利制度的研究[22]。國內(nèi)失效專利利用率較低,且多從概念、定義角度出發(fā)進行闡述,或根據(jù)實例總結(jié)失效專利價值,而對失效專利利用方法的研究甚少。這可能與對失效專利的重視程度、挖掘價值的難度和成本等有關(guān)。

      近年來,隨著失效專利數(shù)量的增加、數(shù)據(jù)挖掘技術(shù)的普及以及知識產(chǎn)權(quán)的重要性被不斷強調(diào),不少學(xué)者加入挖掘失效專利信息的行列[23-25]。韓曉彤等[26]將失效專利列為研究對象,同時利用專利申請數(shù)據(jù),構(gòu)建可用于識別競爭對手研發(fā)方向的有效方法,幫助企業(yè)尋找技術(shù)機會,是少有的從專利法律狀態(tài)出發(fā)對失效專利價值充分利用的研究,也是少有的建立起不同種類專利之間關(guān)系的研究。

      本文將搭建起失效專利和有效專利之間的關(guān)系,從一個全新的角度了解產(chǎn)業(yè)技術(shù)主題演變情況及演變原因,即通過失效專利、有效專利分別聚類,明確產(chǎn)業(yè)當(dāng)前的技術(shù)熱點及失效專利涉及的技術(shù)主題,同時,將“失效/有效專利”作為失效專利、有效專利兩者聯(lián)系的紐帶,對比專利類及相關(guān)專利流各主題間的關(guān)系,提取微觀層面專利技術(shù)變化的深層信息。

      2 研究方法及步驟

      2.1 中文專利文本聚類過程

      專利文本聚類的過程主要包括初始專利數(shù)據(jù)庫的獲得、文本預(yù)處理、文檔建模及優(yōu)化、聚類并對結(jié)果進行評價或描述,如圖1所示。

      圖1 專利文本聚類過程圖Fig.1 Clustering process diagram of patent text

      2.1.1 初始專利數(shù)據(jù)庫的獲得 ①檢索并篩選專利:根據(jù)需求確定檢索詞和檢索范圍(專利摘要、專利名稱、專利權(quán)利等),選擇合適的專利數(shù)據(jù)庫(歐洲、美國、日本、中國等)進行檢索得到相關(guān)專利。②提取、下載專利數(shù)據(jù):根據(jù)研究內(nèi)容選擇條目(申請時間、專利權(quán)人、IPC等)進行下載,得到相應(yīng)專利文檔。③清洗專利數(shù)據(jù),剔除與研究主題不符的專利。

      2.1.2 文本預(yù)處理 這是決定聚類效果好壞的關(guān)鍵步驟,也是工作量最大的步驟,主要包括以下內(nèi)容。①用中文分詞軟件對專利的名稱或摘要進行分詞處理(本文采用中科院張華平博士開發(fā)的NLPIR漢語分詞系統(tǒng),又名ICTCLAS2013①資料來源:http://ictclas.nlpir.org/。)。②對各個詞語的詞性進行標注,保留名詞、動詞、動名詞等具有實際意義的詞語。③過濾一些和技術(shù)主題無關(guān)聯(lián)的詞語,如發(fā)明、方法、步驟、程序等,同時將每個專利都含有的主題詞刪去(包括LED、發(fā)光二極管、封裝、半導(dǎo)體、發(fā)光等詞);計算余下詞語的支持度,選擇保留支持度大于n的詞語,其中n需要根據(jù)實際聚類專利情況反復(fù)嘗試確定,保留的詞語大約為原來的1%。

      2.1.3 文檔建模 文檔建模的步驟包括文本特征的選擇、表示及相似度矩陣的構(gòu)造。本文則統(tǒng)計各詞語在不同專利摘要中出現(xiàn)的頻率,利用向量空間模型(VSM)來實現(xiàn)文本特征表示,并通過計算詞頻—逆文本頻率指數(shù)(term frequency-inverse document freauency,TF-IDF)實現(xiàn)相似度矩陣的構(gòu)造,TF-IDF的計算公代表詞頻(termfrequency),即文檔d中單詞i的權(quán)重,值越大,權(quán)重越高,其中,tfi(d)表示文檔d中出現(xiàn)單詞i的次數(shù),max TF(t)表示所有文檔中出現(xiàn)單詞i代表反文檔頻數(shù)(inversedocument frequency),表示單詞i的全局權(quán)重,即越多的文檔中包含某一單詞,該單詞的重要性越低,其中,N表示文檔數(shù)量,DF(t)表示含有單詞i的文檔數(shù)量。

      2.1.4 聚類、評價或描述結(jié)果 本文選用層次聚類分析方法,利用Python編寫代碼實現(xiàn)。相較于其他聚類方法,層次聚類算法無須預(yù)先確定聚類數(shù)量,可以觀察類之間的層次關(guān)系,自行選擇、更改聚類數(shù)量,并且該算法效率很高。之后對聚類結(jié)果進行分析和描述,可以確定各類研究主題,本文是通過“分詞、長尾詞、統(tǒng)計支持度及詞頻”的方式確定各類研究主題,為后續(xù)的討論分析服務(wù)。長尾詞這一步驟,一方面是為了克服分詞系統(tǒng)和專業(yè)詞匯之間的矛盾,即有些專業(yè)詞匯不能通過中文分詞軟件得到,例如量子阱、數(shù)碼管等,另一方面是為了得到更為細化的主題,如比LED更細化的白光LED、LED芯片等。綜合考慮支持度和詞頻是為了避免某些詞語在單個專利中的極高出現(xiàn)頻次對主題詞選擇的影響[27]。

      2.2 基于失效/有效專利聚類的產(chǎn)業(yè)技術(shù)主題研究過程

      在發(fā)明、實用新型及外觀設(shè)計3類專利中,發(fā)明專利審查最為嚴格,最能反映核心技術(shù)水平和發(fā)展趨勢,所以將發(fā)明授權(quán)專利作為數(shù)據(jù)來源分析產(chǎn)業(yè)技術(shù)主題的變化最為合理。根據(jù)專利法的規(guī)定,失效專利包括屆滿專利、專利權(quán)人放棄的專利(未滿期專利)、未在中國提出申請的國外專利、知識產(chǎn)權(quán)局認定的失效專利以及專利權(quán)被撤銷的專利。其中,專利權(quán)人放棄的專利是本文研究的失效專利主體,其失效原因主要包括:①該項技術(shù)先進,甚至具有超前性,未來市場前景廣闊,但當(dāng)前尚不具備實施條件;②高昂的年費讓一些專利權(quán)人決定放棄該專利;③技術(shù)迭代更新,專利權(quán)人擁有了更加領(lǐng)先的技術(shù)而放棄了原來的技術(shù)[3]。但從專利文獻中并不能直接得到專利權(quán)人放棄該專利的潛在原因,所以需要通過數(shù)據(jù)挖掘分析的手段對該專利的研究價值和意義做出判斷。

      具體流程如圖2所示。①整理文檔根據(jù)壽命、失效原因等判定專利是否為研究對象,即未繳納年費的失效專利和有效專利,將其根據(jù)失效專利、有效專利、失效/有效專利進行分類。②確定相同聚類用詞對失效/有效專利的專利標題進行分詞,再通過詞語的詞性判斷是否為停用詞、與技術(shù)無關(guān)詞、共同主題詞等,得到初級詞庫。之后針對失效/有效專利摘要,就初級詞庫進行支持度統(tǒng)計、排序,篩選前1%的詞語得到聚類詞庫。因為專利標題最能直接反映專利內(nèi)容,且沒有多余的修飾詞,分詞結(jié)果更為理想,能得到代表該產(chǎn)業(yè)技術(shù)領(lǐng)域的主要詞匯,所以初級詞庫根據(jù)標題得到。通過失效/有效專利得到的詞庫是之后聚類的基礎(chǔ),以相同的詞語聚類才具有比較的意義。③聚類。在相同的聚類用詞的基礎(chǔ)上,分別對失效專利、有效專利、失效/有效專利的摘要進行聚類,得到聚類結(jié)果。④提取主題詞。根據(jù)不同的聚類結(jié)果將專利整理、分類,通過“分詞、長尾詞、統(tǒng)計支持度及詞頻”的方式確定研究主題。首先,對各類摘要進行分詞處理得到一級詞,對一級詞兩兩組合得到二級詞語,二級詞語之間再次組合或與一級詞組合得到三級詞,以此類推,得到屬于該類的所有長尾詞。其次,由分詞得到的一級詞和經(jīng)過組合得到的長尾詞共同構(gòu)成初級詞庫。再次,過濾掉不具實際意義的詞匯,得到一個全新的詞庫。最后,計算該類中含有不同詞語的專利個數(shù),即詞語支持度,保留支持度≥50%的詞語,當(dāng)滿足支持度要求的詞語數(shù)量小于m時,將詞頻靠前的其他詞語進行保留,從而實現(xiàn)保留的詞語數(shù)量≥m。支持度≥50%,說明該詞語在此類50%以上的專利中出現(xiàn),具有一定的概括性,可以作為確定該類主題的一個可靠依據(jù)。m則根據(jù)類的大小、研究主題的廣泛和狹窄確定,是一個需要反復(fù)實踐的過程。之后,對比保留下來的m個相關(guān)詞匯,確定該類主題和能代表該類研究內(nèi)容的主題詞。技術(shù)主題詞的提取過程為:一級詞→長尾詞→初級詞庫→主題詞。⑤聚類結(jié)果可視化?;谑?有效專利的產(chǎn)業(yè)技術(shù)主題發(fā)展研究需要建立起失效和有效專利之間的聯(lián)系,而本文通過各自聚類、綜合聚類來實現(xiàn)連接,每個專利均會出現(xiàn)在兩個聚類結(jié)果當(dāng)中,如果不將其進行可視化,就不能明確看到各類之間的關(guān)系以及各技術(shù)主題的變化情況。本文采用?;鶊D(又稱桑基能量平衡圖)來可視化聚類結(jié)果,把失效專利、失效/有效專利、有效專利分別作為3個節(jié)點,而專利在2個節(jié)點間的數(shù)量則是流動前后保持不變的能量。?;鶊D中專利流的粗細代表專利數(shù)量,專利流越粗,相關(guān)專利越多。通過桑基圖能看到專利的合流、分流,進行主題詞分析亦能看到研究主題的變化以及專利空白點等內(nèi)容。圖3是?;鶊D在本文中的呈現(xiàn)范例。

      圖2 基于失效/有效專利聚類的產(chǎn)業(yè)技術(shù)主題研究過程Fig.2 Process of industrial technology subject research based on not in force/effectivepatent clustering

      圖3 ?;鶊D范例Fig.3 Exampleof Sankey diagram

      2.3 聚類結(jié)果分析

      通過?;鶊D一般可以得到9種最基本的關(guān)系,如圖4所示,其中,圖4(a)~圖4(c)是最簡單的3種關(guān)系,其余6種可根據(jù)專利類的變化劃分為合并或分解關(guān)系。為了使示意圖更清晰明了,圖中失效專利類記為“失效X”,有效專利類記為“有效X”,失效/有效專利的共同聚類結(jié)果記為“totX”。

      1)一一對應(yīng)的關(guān)系,即對失效/有效聚類,失效專利中的某一類和有效專利中的某一類共同歸屬于同一tot類。如圖4(a)中失效專利A類與有效專利B類同時屬于totC類,則A類中的失效專利和B類中的有效專利具有很高的相似性,涉及的技術(shù)主題基本一致。

      2)全失效專利聚類,即沒有有效專利與這些失效專利涉及相同的研究主題,如圖4(b)。也就是說,該主題已經(jīng)是被淘汰的技術(shù)主題,研究意義和價值較低。

      3)全有效專利聚類,即沒有失效專利與這些有效專利研究相同的技術(shù)主題,如圖4(c)。也就是說,該技術(shù)主題相對較新且具有活力,存在一定的研究意義和價值。

      4)失效專利類合并,即失效/有效聚類將多個失效專利類和一個有效專利類聚在一類之中,圖4(d)所示的是最簡單的一種情況,屬于二對一的情況。因為有效C類專利的加入,失效A類專利和失效B類專利建立起了聯(lián)系,同屬于totD類,有效專利C類研究的技術(shù)主題同時涉及失效專利A類、B類的技術(shù)主題,則說明失效專利A類和失效專利B類的交叉領(lǐng)域具有研究價值,即有效專利C類所屬領(lǐng)域。

      5)有效專利類合并,即失效/有效聚類將多個有效專利類和一個失效專利類聚在一類之中,圖4(e)所示的是最簡單的一種情況,即一對二的情況。有效專利A類和有效專利B類本來是獨立的2個類,因為失效專利C類的加入建立起聯(lián)系,說明失效專利C類是有效專利A類和B類的交叉研究領(lǐng)域。有效專利A類和有效專利B類是從失效專利C類發(fā)展而來的2個較獨立的技術(shù)方向。

      圖4 失效/有效專利聚類結(jié)果示意圖Fig.4 Not in force/effective patent clustering results

      6)失效、有效專利類同時合并。多個失效專利類和多個有效專利類聚集到一個失效/有效專利類當(dāng)中,其中最簡單的一種就是二對二的情況,如圖4(f)所示。失效專利A、B類之間,以及有效專利C、D類之間是存在一定距離的,通過失效/有效專利聚類,這4個專利類聚集在一起,說明它們隸屬于一個技術(shù)領(lǐng)域,且有效專利C類和D類均是在失效專利A類和B類的交叉領(lǐng)域發(fā)展起來的2個技術(shù)方向。

      7)有效專利類分解。原本獨立的一類有效專利在加入失效專利共同聚類后被分解成多類,說明被分解的有效專利類在考慮失效專利前已經(jīng)存在較大距離。而有效專利類最簡單的分解情況是將其分解成2類,即和有效專利類相關(guān)的2個不同的方向或主題。如圖4(g)所示,有效專利C類分別與失效專利A、B聚類得到totD類和totE類,說明有效專利C類由于失效專利A、B類的加入,分解為有效專利C1和C2。C1和C2是有效專利C類的2個方向或主題,且分別和失效專利A、B類相近。

      8)失效專利類分解。原本獨立的一類失效專利在和有效專利共同聚類后被分解成多類,說明該失效專利類之間存在較大的距離,而失效專利類最簡單的分解情況是將其分解成2類,如圖4(h)所示。與有效專利分解類似,失效專利C類分別與有效專利A、B聚類得到totD類和totE類,說明失效專利C類由于有效專利A、B類的加入,分解為失效專利C1和C2。C1和C2是失效專利C類的2個方向或主題,且分別和有效專利A、B類相近。

      9)失效、有效專利類同時分解。通過失效/有效專利聚類,原來獨立的失效專利類和有效專利類同時被分解成多個類,若失效專利類和有效專利類分解后所屬的類有相同部分,則該領(lǐng)域中涵蓋的有效和失效專利相似度極高,且存在著技術(shù)主題演化規(guī)律。其中,最簡單的情況就是失效專利類和有效專利類同時分解成相同的兩類,如圖4(i)所示。B1、B2是失效專利B類的2個分支,技術(shù)主題屬于失效專利B類主題;A1、A2技術(shù)主題和有效專利A類主題相同。由于加入有效專利A1,失效專利C類和B1聚為一類,說明A1涉及的技術(shù)領(lǐng)域是失效專利C類和B1的交叉技術(shù)領(lǐng)域;有效專利D類、A2和失效專利B2聚為一類,說明有效專利D類、A2是由失效專利B2發(fā)展而來的2個技術(shù)方向。

      以上是較為理想且簡化的結(jié)果,實際情況更為復(fù)雜,而聚類效果的好壞將對分析結(jié)果產(chǎn)生直接影響。文本聚類是無監(jiān)督學(xué)習(xí)的過程,沒有嚴格的標準衡量聚類結(jié)果的好壞,只能通過反復(fù)的調(diào)試、修改聚類層級來盡可能達到想要的結(jié)果。而專利摘要不夠具體、中文詞匯的一詞多義等也會對聚類的效果及后續(xù)分析產(chǎn)生較大影響。

      2.4 方法的創(chuàng)新性及其適用情形

      目前,基于專利分析進行產(chǎn)業(yè)技術(shù)主題研究的相關(guān)文獻大多未充分考慮專利的法律狀態(tài),或?qū)⑹@?、有效專利分別作為研究對象展開研究。僅針對失效專利展開研究,無法把握產(chǎn)業(yè)發(fā)展的大方向,所以對于產(chǎn)業(yè)技術(shù)主題變化研究的借鑒意義不足。僅關(guān)注有效專利或未區(qū)別專利法律狀態(tài)進行的研究,忽視了主題變化過程中失效專利技術(shù)主題所蘊含的信息。本文提出的新方法既能得到產(chǎn)業(yè)技術(shù)主題的變化信息,亦可獲得技術(shù)主題演變的微觀原因,實現(xiàn)了對專利法律狀態(tài)信息的充分利用。

      本文提出的方法是基于文本聚類實現(xiàn)的,因而,運用該方法進行技術(shù)主題的變化研究時,前提是研究領(lǐng)域存在足夠的失效、有效發(fā)明授權(quán)專利,這就意味著該領(lǐng)域是發(fā)展較為成熟、專利產(chǎn)出較多、更替較快的科技領(lǐng)域。在此基礎(chǔ)上,專家學(xué)者可以根據(jù)不同的研究目的選擇不同的專利數(shù)據(jù)進行分析。例如:為確定某時間段內(nèi)技術(shù)主題的變化情況,可對某段時間內(nèi)的失效、有效專利進行主題挖掘;為明確某主題下的細分主題變化情況,從更微觀的層面分析主題演變的原因,可對細分主題所屬領(lǐng)域的相關(guān)失效、有效專利進行研究,為企業(yè)研發(fā)決策提供參考。為充分說明本文提出的新方法,下文將對1985—2015年的LED封裝技術(shù)領(lǐng)域?qū)@M行技術(shù)主題挖掘。LED封裝產(chǎn)業(yè)發(fā)展歷史悠久,具有充足的失效及有效專利數(shù)量,且技術(shù)主題具有多樣性,通過本文提出的創(chuàng)新方法可以挖掘得到不同技術(shù)主題間的相互關(guān)聯(lián),獲得主題演變的原因。

      3 LED封裝產(chǎn)業(yè)技術(shù)主題研究

      3.1 數(shù)據(jù)來源及簡單描述

      LED封裝技術(shù)專利檢索方案如下:2017年10月29日于IncoPat科技創(chuàng)新情報平臺(http://www.incopat.com/)檢索,數(shù)據(jù)庫范圍限定為中國發(fā)明授權(quán)專利(不包括香港、臺灣地區(qū)),時間范圍為1985—2015年(按申請日期),檢索主題詞為“LED”“發(fā)光二極管”“半導(dǎo)體發(fā)光”,而非“燈”“有機”“顯示屏”“模板”“控制器”“發(fā)光棒”“廣告”“手電”[28]。

      因為發(fā)明專利一般從申請日到公布進入實質(zhì)審查日需要18個月的時間,所以2016—2017年的數(shù)據(jù)是不完整的,搜索的時間范圍確定為1985—2015年。對搜索得到的專利信息進行篩選,刪去和LED封裝技術(shù)無關(guān)的專利,得到符合要求的專利8 791項。其中,屆滿失效(到達專利年限失效)的專利數(shù)量為3項,原專利權(quán)人分別為美國的馬西莫有限公司、日本的株式會社東芝和株式會社日立;宣告無效的專利為2項;因?qū)@麢?quán)人放棄而失效的專利為1 404項;有效專利數(shù)量為7 382項。按照專利申請年份對之后獲得授權(quán)的發(fā)明專利(包括專利權(quán)人放棄的失效專利、屆滿失效專利及有效專利)進行統(tǒng)計,可以得到LED封裝技術(shù)的發(fā)展趨勢,如圖5所示,2012年申請的發(fā)明專利被授權(quán)的數(shù)量最多,說明這是LED封裝產(chǎn)業(yè)發(fā)展最快的時期,LED封裝技術(shù)研發(fā)參與者大幅增加,加大了對該產(chǎn)業(yè)的投入。

      前已述及,在產(chǎn)業(yè)發(fā)展進程中,多種原因會導(dǎo)致授權(quán)后的專利變成失效專利,LED封裝技術(shù)產(chǎn)業(yè)的失效專利壽命統(tǒng)計如圖6所示。由圖6可知,失效專利的壽命主要集中在48、60、72個月,即3~5年,這和專利年費的梯度增長、專利質(zhì)量相對較低有關(guān)。

      圖5 1988—2014年LED封裝技術(shù)相關(guān)發(fā)明專利各年授權(quán)數(shù)量Fig.5 Annual number of authorized patentsrelated to LEDpackagingtechnology in 1988—2014

      圖6 LED封裝技術(shù)發(fā)明專利壽命統(tǒng)計Fig.6 Invention patent lifestatisticsof LEDpackagingtechnology

      3.2 技術(shù)熱點分析

      通過VOSviewer分別可視化失效專利和有效專利中專業(yè)詞語間的關(guān)聯(lián)分析結(jié)果,并對關(guān)聯(lián)性較強的詞語聚類,結(jié)果如圖7、圖8所示。

      圖7 未滿期失效專利聚類Fig.7 Clustering of unexpired not in force patent

      圖8 有效專利聚類Fig.8 Clusteringof effectivepatent

      通過觀察聚類結(jié)果可知,LED封裝技術(shù)專利主要涉及照明裝置、熒光粉、封裝結(jié)構(gòu)、電路板等領(lǐng)域。對比2種聚類可以發(fā)現(xiàn),部分技術(shù)熱點是在改變的,例如:未滿期失效專利中存在散熱基板、半導(dǎo)體發(fā)光組件等詞語,但在有效專利聚類中并未看到,說明這些領(lǐng)域有效專利數(shù)量較少,不再是當(dāng)今技術(shù)熱點;一些未出現(xiàn)在失效專利聚類中的詞語,如磷光、磷酸等,卻出現(xiàn)在有效專利聚類中,說明該技術(shù)方向是較新的。這些變化通過單獨對比失效、有效聚類分析很難得到確切的結(jié)果,通過失效/有效聚類建立起失效專利與有效專利的聯(lián)系更能說明問題。

      3.3 LED封裝產(chǎn)業(yè)(部分)技術(shù)主題發(fā)展情況

      根據(jù)2.2節(jié)描述的產(chǎn)業(yè)技術(shù)主題發(fā)展研究過程,運用中文專利文本聚類方法,實現(xiàn)對有效專利、失效專利以及失效/有效專利的分別聚類,選擇相同聚類層級,并用桑基圖對3個聚類結(jié)果間的關(guān)系進行可視化,截取其中關(guān)于“熒光粉”的失效專利1相關(guān)部分對2.2節(jié)中提到的9種情況進行說明(見圖9)。本文只針對圖中失效專利1類涉及的專利類(失效1,失效8,tot20,tot19,tot33,tot18,有效25,有效44,有效28,有效24)進行討論,簡化起見,只研究?;鶊D上主要的專利流。

      圖9 LED封裝發(fā)明專利(失效/有效)局部關(guān)系圖Fig.9 Local relation diagramof LEDpatent inventions(not in force/effective patent)

      為方便理解,給出這幾類專利的關(guān)系結(jié)構(gòu)圖,如圖10所示。圖中失效專利1類由于有效專利(25、44、28、24)的加入,分解為4條明顯的專利流(1-1、1-2、1-3、1-4),說明在失效/有效聚類時,隸屬于失效專利1類的專利分別與不同的有效專利類產(chǎn)生關(guān)聯(lián),可分為4個研究領(lǐng)域。而與失效專利1類關(guān)聯(lián)的有效專利中,僅有效專利25類的一個分支(25-1)將失效專利1類的分支(1-1)與失效專利8類的分支(8-4)建立聯(lián)系,即為失效、有效專利同時分解的一種復(fù)雜情況。結(jié)合本文2.3節(jié)的分析結(jié)果,可知各專利類涉及領(lǐng)域之間的關(guān)系。而失效專利8類的分支可以分為(8-1)至(8-5)這5個主要部分,除了分支(8-4)與失效專利1類建立聯(lián)系外,其余4個分支與失效專利1類相關(guān)性較低,限于篇幅,本文不對其進行討論。

      圖10 失效專利1類專利流向Fig.10 Theflowof type1 of not in forcepatents

      通過獲取各專利類以及連接失效專利和tot、tot和有效專利之間專利流的主題詞,比較與分析后得到技術(shù)主題的演變情況,如表1所示。白光LED的光效、光強、壽命、色溫等性能受熒光粉與封裝結(jié)構(gòu)、工藝的影響。上述失效專利1類相關(guān)的領(lǐng)域主要涉及的技術(shù)主題詞有熒光粉、白光LED、發(fā)光(熒光)材料,所以失效專利1類研究的是白光LED熒光粉技術(shù)領(lǐng)域。失效專利1類因為加入有效專利25、44、28、24類被分解成4個專利流,即白光LED熒光粉技術(shù)領(lǐng)域的4個主要研究方向。通過本文提供的方法,對比失效專利1類相關(guān)專利流提供的信息,可知“藍光LED芯片激發(fā)熒光粉產(chǎn)生白光”技術(shù)領(lǐng)域越來越受重視,且紅光研究領(lǐng)域的衰退與此有關(guān);樹脂、基質(zhì)在白光LED封裝上的應(yīng)用和白光的產(chǎn)生是白光LED領(lǐng)域2個熱門的研究方向;氮氧化物等熒光材料是發(fā)展的趨勢;紅色熒光粉領(lǐng)域技術(shù)在不斷改進完善。這些信息無法從圖7和圖8中獲得,須基于文本聚類通過tot建立失效專利和有效專利的橋梁,比較專利流前后信息得到。通過查閱相關(guān)產(chǎn)業(yè)文獻[29-30]發(fā)現(xiàn),本文得出的結(jié)論與當(dāng)時該技術(shù)領(lǐng)域發(fā)展狀況及未來發(fā)展趨勢相符,說明本文提出的研究方法是科學(xué)的。

      表1 失效專利1類相關(guān)主題變化情況分析Tab.1 Analysis of in related theme changes in of not in force patents

      4 結(jié)論與展望

      與以往的產(chǎn)業(yè)技術(shù)主題研究不同,本文將失效專利納入考察維度,提出了一種觀察技術(shù)主題微觀變化過程的新方法。若僅將有效專利作為研究對象進行產(chǎn)業(yè)研究,不考慮專利的法律狀態(tài),可以得到技術(shù)主題的變化情況,但不能明確導(dǎo)致變化產(chǎn)生的微觀原因。另一方面,若僅針對失效專利進行技術(shù)主題分析,只能片面了解某產(chǎn)業(yè)中失效專利多屬于哪一領(lǐng)域,包含哪些技術(shù)主題。而將專利分為失效、有效、失效/有效專利分別進行聚類,建立未滿期失效專利和有效專利之間的聯(lián)系,并利用桑基圖直觀地了解各個主題之間的關(guān)系,不失為一種更為有效的技術(shù)主題研究方法。通過專利流的合并與分解,能更清晰地了解技術(shù)主題的淘汰、保留及發(fā)展情況;對比專利流信息,可以明確該主題涉及的技術(shù)特征的變化情況。

      本文提出的研究方法主要具有3方面的重要意義:①加入失效專利分析維度,可以幫助企業(yè)把握產(chǎn)業(yè)技術(shù)主題的發(fā)展大方向,為企業(yè)專利戰(zhàn)略的制訂提供依據(jù);②通過對比“失效—tot”“tot”“tot—有效”各主題間的關(guān)系,可以分析得到更深層的技術(shù)變化信息,為企業(yè)研發(fā)決策服務(wù);③通過建立有效專利和失效專利之間的聯(lián)系來挖掘?qū)@畔⑹且环N全新的研究視角,企業(yè)可以據(jù)此對專利權(quán)人、技術(shù)功效方案等轉(zhuǎn)變進行研究。應(yīng)用該方法須注意的事項為:對于領(lǐng)域技術(shù)涉及較廣、涵蓋技術(shù)主題較多且技術(shù)主題間關(guān)系復(fù)雜的情況,須仔細根據(jù)文中提及的9種情況加以判斷;同時,本方法的另一個局限是,研究對象須包含足夠數(shù)量的失效專利,對處于萌芽期、成長期的產(chǎn)業(yè)可能不太適用。

      猜你喜歡
      專利聚類詞語
      容易混淆的詞語
      專利
      水運工程(2022年7期)2022-07-29 08:37:38
      找詞語
      發(fā)明與專利
      傳感器世界(2019年4期)2019-06-26 09:58:44
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      詞語欣賞
      基于改進的遺傳算法的模糊聚類算法
      一枚詞語一門靜
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      库尔勒市| 隆林| 菏泽市| 盱眙县| 阿图什市| 庄河市| 凤台县| 正镶白旗| 布拖县| 曲沃县| 鄂托克旗| 综艺| 武清区| 湟中县| 若尔盖县| 定襄县| 星子县| 潢川县| 右玉县| 当阳市| 营口市| 建阳市| 茌平县| 张家口市| 信阳市| 乌兰浩特市| 白沙| 崇左市| 长葛市| 怀远县| 庆云县| 拜泉县| 怀化市| 金寨县| 京山县| 休宁县| 利津县| 克什克腾旗| 肃南| 锡林郭勒盟| 保康县|