宋艷輝,邱均平
(1.杭州電子科技大學(xué)管理學(xué)院,杭州310018;2.杭州電子科技大學(xué)中國(guó)科教評(píng)價(jià)研究院,杭州310018)
文獻(xiàn)計(jì)量學(xué)發(fā)展至今,許多文獻(xiàn)計(jì)量學(xué)研究方法提出較早,并且經(jīng)過(guò)了充分的研究與發(fā)展,已經(jīng)相當(dāng)成熟。然而,專利也是一種文獻(xiàn),將文獻(xiàn)計(jì)量方法拓展到專利文獻(xiàn),探討專利計(jì)量方法,是一件有意義的工作。發(fā)明人專利文獻(xiàn)耦合源自文獻(xiàn)計(jì)量學(xué)中作者文獻(xiàn)耦合,作者文獻(xiàn)耦合則是論文文獻(xiàn)耦合基礎(chǔ)上提出的。文獻(xiàn)耦合,是指兩篇論文引用了同一篇文獻(xiàn)而形成了一種同引用關(guān)系,即耦合關(guān)系。文獻(xiàn)耦合最早是由Kessler[1]于1963年提出來(lái)的。作者文獻(xiàn)耦合將耦合的分析提升到作者層面,而不僅僅停留在論文層面,以論文的作者作為主要的對(duì)象[2]。拓展到作者層面后,文獻(xiàn)耦合就變成了一種動(dòng)態(tài)關(guān)系,隨著論文的變化,作者文獻(xiàn)耦合也在動(dòng)態(tài)的變化,因此,作者文獻(xiàn)耦合分析變得更加具有分析意義[3]。專利發(fā)明人如論文作者一樣,具有強(qiáng)烈的標(biāo)簽意義。一般認(rèn)為,論文作者的研究多為相對(duì)固定的,當(dāng)然,一位作者可能擁有多個(gè)研究領(lǐng)域,研究領(lǐng)域也有可能發(fā)生遷移,但短時(shí)間就發(fā)生重大變化以及頻頻發(fā)生變化的可能性并不大。因此,論文作者成為了很多文獻(xiàn)計(jì)量學(xué)者的重要分析與計(jì)量對(duì)象。
專利發(fā)明人之于專利,正如論文作者之于論文。專利發(fā)明人也往往具備相對(duì)固定的技術(shù)研究方向,因此,專利發(fā)明人是非常具有分析與計(jì)量?jī)r(jià)值的。除了專利文獻(xiàn)容易發(fā)生耦合外,德溫特分類號(hào)也是極易耦合的,在德溫特?cái)?shù)據(jù)庫(kù)中,德溫特分類號(hào)[4]是德溫特調(diào)用大量的專業(yè)人士,將收入到德溫特?cái)?shù)據(jù)庫(kù)中的專利信息進(jìn)行深度加工,把來(lái)自不同國(guó)家不同語(yǔ)言的專利信息統(tǒng)一翻譯成英語(yǔ),尤其是對(duì)晦澀難懂的題名與摘要信息都以簡(jiǎn)明易懂的英語(yǔ)表達(dá)出來(lái),并對(duì)專利的內(nèi)容、新穎性和應(yīng)用等方面進(jìn)行提煉總結(jié)。其對(duì)每項(xiàng)專利都分配至少一個(gè)專利代碼,有的專利涉及多個(gè)專利分類代碼,人們可透過(guò)代碼很容易辨析出專利所屬的技術(shù)領(lǐng)域。因此,專利發(fā)明人、引文文獻(xiàn)和德溫特分類號(hào)構(gòu)成了專利耦合的重要分析單元與關(guān)聯(lián)關(guān)系,本文試從比較的角度,探究其之間的耦合關(guān)聯(lián)關(guān)系。
國(guó)內(nèi)外關(guān)于專利耦合的研究表現(xiàn)為三個(gè)方面的特征:①多為專利文獻(xiàn)耦合。即以引文作為媒介建立耦合關(guān)系,借此測(cè)度技術(shù)相似性[5]、發(fā)掘技術(shù)機(jī)會(huì)[6]、識(shí)別新興技術(shù)[7],并對(duì)可能出現(xiàn)的技術(shù)突破進(jìn)行預(yù)見[8],或者側(cè)重于企業(yè)的競(jìng)爭(zhēng)情報(bào)分析[9]。②多為專利權(quán)人耦合研究。如溫芳芳[10]曾經(jīng)提出以專利權(quán)人類號(hào)耦合進(jìn)行科學(xué)合作的探測(cè),Huang等[11]較早使用專利耦合探討高新技術(shù),顏端武等[12]以專利耦合方法研究技術(shù)創(chuàng)新網(wǎng)絡(luò),Sternitzke等[13]將專利耦合與社會(huì)網(wǎng)絡(luò)分析結(jié)合起來(lái),進(jìn)行過(guò)類似研究還有國(guó)內(nèi)的陳云偉等[14]。③有對(duì)比研究,多為專利耦合與專利共被引的比較及融合。其中有代表性的是高楠等[15]建議融合專利共被引和耦合方法進(jìn)行前沿識(shí)別,李睿等[16]從聚類的可操作性、穩(wěn)定性、協(xié)同性等方面比較專利共被引與耦合方法。
從目前的研究可以看出,1994年Narin[17]最早提出專利計(jì)量的研究,之后Huang等[3]和孫濤濤等[9]進(jìn)行了專利耦合的研究。關(guān)于專利耦合的研究遠(yuǎn)遠(yuǎn)沒(méi)有成熟,還有很多值得研究的角度以及研究不足之處。例如,①大多數(shù)研究多側(cè)重于方法的應(yīng)用,對(duì)方法本身的探討略顯不足,也即是對(duì)基礎(chǔ)理論研究不足。②多從專利權(quán)人角度進(jìn)行耦合研究,實(shí)際上,專利發(fā)明人是專利的研發(fā)者,但并不一定就是實(shí)際擁有者,即并非專利權(quán)人,因此,對(duì)于具體研究專利的技術(shù)內(nèi)容方面,或者其他的特定研究目的,專利發(fā)明人比專利權(quán)人將更有分析價(jià)值,能夠得到更多的研究結(jié)論。③目前,有少數(shù)專利分類號(hào)耦合的探討,如溫芳芳[10],但這些研究還是遠(yuǎn)遠(yuǎn)不夠的,需要繼續(xù)向前發(fā)展。因此,基于以上的研究不足,本文提出,從專利發(fā)明人的角度進(jìn)行專利耦合的研究,從方法本身的探討角度進(jìn)行專利發(fā)明人文獻(xiàn)耦合與專利發(fā)明人德溫特分類號(hào)耦合的分析比較研究。德溫特分類代碼,是嚴(yán)格按照分類標(biāo)準(zhǔn)進(jìn)行標(biāo)注的,包含3個(gè)大類:工程、電子電氣、化學(xué),下分許多部,部下又分子類,共包含188個(gè)子類。德溫特分類體系,由類→部類→子類構(gòu)成一個(gè)完整的層級(jí)分類體系。如t01(digital computers)就是表示數(shù)字計(jì)算機(jī)技術(shù)領(lǐng)域,為子類層面的技術(shù)領(lǐng)域。本文的發(fā)明人德溫特分類號(hào)耦合就是在子類層面的耦合。
德溫特?cái)?shù)據(jù)庫(kù)(Derwent Innovations Index,DII)是本文重要的NPE專利數(shù)據(jù)來(lái)源。德溫特?cái)?shù)據(jù)庫(kù)提供1963年以來(lái)至今的數(shù)千萬(wàn)條專利信息,而且是每周更新一次[18-19]。數(shù)據(jù)樣本主要是NPE專利,NPE(non praticing enties)為非專利實(shí)施主體,其獲取專利不以具體實(shí)施為目的,NPE將專利視為可以流轉(zhuǎn)的商品,依靠專利交易活動(dòng)賺取利潤(rùn),其專利運(yùn)營(yíng)行為既可能是正當(dāng)商業(yè)行為,也可能是濫用專利權(quán)的專利投機(jī)行為。選擇非專利實(shí)施主體專利為例,主要是我們對(duì)其比較熟悉,以及其專利價(jià)值一般比較高,有利于我們對(duì)兩種方法進(jìn)行充分的討論。我們的數(shù)據(jù)檢索,采取高級(jí)檢索途徑,檢索項(xiàng)為專利權(quán)人。以專利權(quán)人名稱進(jìn)行檢索,可以避開非標(biāo)準(zhǔn)代碼的非獨(dú)一無(wú)二性,很多企業(yè)享有同樣的非標(biāo)準(zhǔn)代碼等問(wèn)題。獲取Eolas、Wi-Lan、Rambus、DataTreasury等NPE的 專 利 數(shù) 據(jù)[20],共 獲 得4624條專利數(shù)據(jù),建立專利數(shù)據(jù)集,即樣本數(shù)據(jù)。
與作者文獻(xiàn)耦合分析相類似,發(fā)明人專利文獻(xiàn)耦合表示,2位發(fā)明人在發(fā)明專利中因?yàn)橐昧送粚@夹g(shù)或者同一科學(xué)文獻(xiàn)而形成了一種關(guān)系,我們稱之為發(fā)明人專利文獻(xiàn)耦合,需要指出的是,專利引文中既包含專利文獻(xiàn),也包含科學(xué)文獻(xiàn),發(fā)明人專利文獻(xiàn)耦合也將科學(xué)文獻(xiàn)計(jì)算在內(nèi)。發(fā)明人類號(hào)耦合類似于作者學(xué)科耦合與作者關(guān)鍵詞耦合,是指2個(gè)發(fā)明人使用了同一個(gè)分類號(hào)而建立的關(guān)系,這里的分類號(hào)為德溫特分類號(hào),一個(gè)德溫特子類類似于科學(xué)文獻(xiàn)中的一個(gè)學(xué)科或者一個(gè)主題詞。在本文的研究中,我們對(duì)發(fā)明人專利文獻(xiàn)耦合分析,命名為Inventor Bibliographic-Patent-Coupling Analysis,簡(jiǎn)稱IBPCA;Bibliographic-Patent-Coupling意思是,耦合對(duì)象中既包含科學(xué)文獻(xiàn),又包含專利文獻(xiàn)。發(fā)明人類號(hào)耦合分析,命名為Inventor Patent Classification-Coupling Analysis,簡(jiǎn)稱IPCCA。
在耦合的計(jì)算方面,Zhao等[21]為每位作者分別建立數(shù)據(jù)集,數(shù)據(jù)集中包含作者的所有參考文獻(xiàn),兩位作者數(shù)據(jù)集中相同的參考文獻(xiàn)數(shù)量即二者之間的耦合頻次。在IBPCA的計(jì)算中,發(fā)明人與作者是相對(duì)應(yīng)的,論文中的參考文獻(xiàn)與專利中的專利文獻(xiàn)與科技文獻(xiàn)是對(duì)應(yīng)的:發(fā)明人—作者、論文參考文獻(xiàn)—專利文獻(xiàn)+科技文獻(xiàn)。在IPCCA的計(jì)算中,每一個(gè)德溫特分類號(hào)相當(dāng)于一條專利引文,同樣可以將分類號(hào)抽取出來(lái)建立數(shù)據(jù)集,跟專利引文數(shù)據(jù)集的建立過(guò)程與方法基本一致,其計(jì)算方法也是一樣的。本文研究方法主要采用相關(guān)分析、因子分析、可視化分析方法。相關(guān)分析主要考察IBPCA、IPCCA的耦合總頻次、平均耦合頻次、最大耦合頻次的相關(guān)性水平。因子分析主要是通過(guò)因子模型與殘差分析考察IBPCA與IPCCA的擬合優(yōu)度水平,通過(guò)因子載荷分析主要考察IBPCA與IPCCA在因子主題探測(cè)與發(fā)現(xiàn)上的異同。而可視化分析通過(guò)中心性測(cè)度發(fā)現(xiàn)因子主題的重要性以及相近與關(guān)聯(lián)度,K核分析可以進(jìn)一步探測(cè)核心主題。
本文以普賴斯定律作為核心專利發(fā)明人的選定標(biāo)準(zhǔn),統(tǒng)計(jì)NPE專利數(shù)據(jù)中的發(fā)明人,分兩次統(tǒng)計(jì):僅僅考慮第一專利發(fā)明人與考慮所有發(fā)明人。如果是僅僅考慮第一發(fā)明人,專利發(fā)明最多的是WARE,FA,擁有專利數(shù)量為144,則根據(jù)公式計(jì)算而得到m=8.99。如果考慮全部作者,專利發(fā)明最多的仍是WARE,FA,擁有專利數(shù)量為296,即nmax=296,根據(jù)公式計(jì)算而得到m=12.89。這2種方式,擁有的共同作者有68位,僅考慮第一發(fā)明人得到的74位核心專利發(fā)明人中,只有6位不在其中。雖然考慮了全部發(fā)明人之后,發(fā)明人數(shù)量多了很多,核心發(fā)明人也隨著增多了起來(lái),但是,通過(guò)第一專利發(fā)明人確定的核心專利發(fā)明人也同樣是有效的。因此,我們進(jìn)一步篩選出的這68位作者基本可稱為NPE專利的杰出代表。此外,另一個(gè)相似之處是,這兩種方式,確定的核心專利發(fā)明人所擁有的專利量,占所有專利總量的比例是相當(dāng)?shù)?。僅考慮第一作者的占比為34.0568%,而考慮所有作者的占比為35.7052%。因此,專利發(fā)明人及其專利呈現(xiàn)一種良好的集中與離散分布。兩種方式相互印證我們的結(jié)果是可信的。
分別計(jì)算每位發(fā)明人的耦合頻次,如表1所示。平均耦合頻次=耦合總頻次/所有發(fā)明人-1,最大耦合頻次為發(fā)明人在與除自身之外其他發(fā)明人建立的耦合頻次中的最大值,自耦合采取自己最大耦合頻次+1的方法,+1是為了增加自己與自己耦合的親密性。表1顯示,在IBPCA中,耦合頻次最高的3位發(fā)明人是WARE,FA、HAMPEL,CE、ZERBE,JL,同時(shí)也是平均耦合頻次最高的3位發(fā)明人;在IPCCA中,耦合頻次最高的3位發(fā)明人為WARE,FA、BEST,SC、ZERBE,JL,同時(shí)也是平均耦合頻次最高的3位發(fā)明人。我們發(fā)現(xiàn),IBPCA中排名第1位與第3位的發(fā)明人同時(shí)也是IPCCA中的第1位與第3位。發(fā)明人較高的耦合頻次,體現(xiàn)了發(fā)明人較高的研究活力,能夠與其他發(fā)明人建立較多的耦合關(guān)系,因此,WARE,FA、HAMPEL,CE、ZERBE,JL、BEST,SC這些發(fā)明人是NPE專利技術(shù)中比較活躍的研究者。最大耦合頻次又可稱為最強(qiáng)耦合強(qiáng)度,表示了發(fā)明人與發(fā)明人之間的相似程度,只有2位發(fā)明人的研究極為相似才會(huì)反復(fù)地引用同一專利文獻(xiàn),或者反復(fù)地被歸類于同一分類號(hào)。表1顯示,IBPCA的最大耦合頻次對(duì)為WARE,FA—BARTH,RM;IPCCA的最大耦合頻次對(duì)為WARE,FA—PEREGO,RE。在最大耦合頻次方面,WARE,FA依然表現(xiàn)出較高的研究活力,在IBPCA與IPCCA中,WARE,FA都是最強(qiáng)耦合強(qiáng)度對(duì)象,只是其發(fā)生對(duì)象有所不同。在IBPCA中,WARE,FA的最大耦合對(duì)象為BARTH,RM,與PEREGO,RE的耦合頻次為575,排在了第3位,說(shuō)明其與PEREGO,RE依然是非常相似的。在IPCCA中,WARE,FA的最大耦合對(duì)象為PEREGO,RE,與BARTH,RM的最大耦合頻次為50,排在了第4位。因此可以認(rèn)為,在IBPCA中的最大耦合頻次對(duì),在IPCCA中依然是較高的耦合頻次對(duì);而在IPCCA中最大耦合頻次對(duì)在IBPCA也可以保持較高的耦合頻次。通過(guò)以上分析,可以看到,IBPCA與IPCCA在耦合頻次計(jì)算方面還是有一定的相似性,至少在高頻次的發(fā)明人計(jì)算上呈現(xiàn)這種現(xiàn)象,那么從整體上分析是否仍然呈現(xiàn)出良好的相似性,即在較低頻次的發(fā)明人耦合上也是否呈現(xiàn)這種態(tài)勢(shì),可以從下文的進(jìn)一步分析中得到。
為進(jìn)一步從整體上探析IBPCA與IPCCA的相關(guān)性水平,我們對(duì)68位發(fā)明人在IBPCA與IPCCA中的耦合頻次以及耦合排名進(jìn)行相關(guān)性分析,如表2所示。所有的相關(guān)性水平都是在0.01水平上的測(cè)度,Sig.值都遠(yuǎn)遠(yuǎn)小于0.01,即表示相關(guān)性是顯著的。平均耦合頻次是在耦合總頻次的基礎(chǔ)上計(jì)算而得到的,因此,耦合總頻次與平均耦合頻次的相關(guān)性是1,表示完全相關(guān)。其排名的相關(guān)性也是平均耦合頻次排名跟最大耦合頻次排名的相關(guān)系數(shù)也為0.817。這說(shuō)明在IBPCA中,耦合總頻次跟最大耦合頻次之間是存在明顯的相關(guān)性的,耦合總頻次較高,最大耦合頻次也容易較高。耦合總頻次排名、平均耦合頻次排名跟最大耦合頻次排名的相關(guān)系數(shù)也都為0.927。這說(shuō)明相關(guān)性是很高的,發(fā)明人在耦合中頻次具有較高的排名,在最大耦合頻次中也往往是擁有較高的排名。此外,發(fā)明人耦合頻次排名的相關(guān)性要略高于頻次值的相關(guān)性。在IPCCA中,發(fā)明人耦合頻次排名的相關(guān)性跟頻次值的相關(guān)性是相當(dāng)?shù)?。在IPCCA中,耦合總頻次與最大耦合頻次的相關(guān)系數(shù)為0.751,耦合總頻次排名與最大耦合頻次排名的相關(guān)系數(shù)為0.749。這2個(gè)數(shù)值是極為接近的。在IPCCA中,發(fā)明人的耦合總頻次比較高,最大耦合頻次也是容易比較高的;發(fā)明人的耦合總頻次排名較高,則發(fā)明人的最大耦合頻次排名也容易較高。還可以發(fā)現(xiàn),無(wú)論是IBPCA,還是IPCCA中,耦合頻次(耦合總頻次、平均耦合頻次)與最大耦合頻次都是存在較高的相關(guān)性的,耦合頻次排名(耦合總頻次、平均耦合頻次)與最大耦合頻次排名也都是存在較高的相關(guān)性的;但在IPCCA中,這種相關(guān)性水平要略低于IBPCA。換言之,發(fā)明人在IBPCA中,具有較高的耦合頻次或者擁有較高的排名,則比IPCCA更容易獲得較高的最大耦合頻次及其排名。
表1 發(fā)明人耦合頻次分布(前10位)
表2 耦合頻次及排名相關(guān)性分析
加入專利量與專利量排名之后的相關(guān)性分析??梢钥吹?,在IBPCA中,專利量與專利總頻次、平均耦合頻次的相關(guān)性要大于IPCCA。IBPCA的相關(guān)系數(shù)為0.779,而IPCCA的相關(guān)系數(shù)為0.570。而在專利量排名與耦合總頻次排名、平均耦合頻次排名的相關(guān)性相差不大,分別為0.479、0.579。這說(shuō)明,在IBPCA中,專利量與耦合總頻次、平均耦合頻次的直接相關(guān)性更大一些,發(fā)明人擁有多的專利發(fā)明,其在耦合方面更易獲得較高的耦合頻次。而在排名方面,相比IPCCA,IBPCA則并不明顯。在專利量及其排名與最大耦合頻次及其排名的相關(guān)分析系數(shù)上(0.780、0.711,0.414、0.591)看,IPCCA則比IBPCA更具優(yōu)勢(shì),也就是說(shuō),相對(duì)于專利文獻(xiàn)耦合,在IPCCA中,擁有較多發(fā)明的發(fā)明人,更容易獲得較高的最大耦合頻次,在專利量排名較高,那么最大耦合頻次的排名也往往具有較高的名次。
以上的相關(guān)分析并沒(méi)有區(qū)分同一發(fā)明人在2種方法中的異同,實(shí)際上,分析同一發(fā)明人在不同方法中的表現(xiàn),則更能體現(xiàn)著2種方法的異同點(diǎn)[5]。為進(jìn)一步挖掘IBPCA與IPCCA的相似性,分析IBPCA與IPCCA的共有發(fā)明人,如表3所示。數(shù)據(jù)反映,顯著水平是在0.01上的顯著相關(guān),Sig.遠(yuǎn)遠(yuǎn)小于0.01,表示相關(guān)性是存在的,IBPCA與IPCCA并非毫無(wú)關(guān)聯(lián)。IBPCA與IPCCA的發(fā)明人耦合總頻次相關(guān)系數(shù)是最高的,為0.618。IBPCA與IPCCA的發(fā)明人耦合總頻次排名的相關(guān)系數(shù)為0.568。這表示,發(fā)明人在IBPCA與IPCCA中的耦合行為還是基本趨于一致的,發(fā)明人在IBPCA中的耦合總頻次跟IPCCA中的耦合總頻次在一定程度上是相關(guān)的,而發(fā)明人在專利文獻(xiàn)耦合中的耦合頻次排名與同一發(fā)明人在專利類號(hào)耦合中的頻次排名也是保持了一定的相關(guān)性,也就是說(shuō)變化并不大。
表3 IBPCA與IPCCA相關(guān)性對(duì)比分析
平均耦合頻次是根據(jù)耦合總頻次計(jì)算而得,因此,平均耦合頻次與耦合總頻次在IBPCA與IPCCA中的相關(guān)性分析結(jié)果保持一致。發(fā)明人在IBPCA與IPCCA中的最大耦合頻次相關(guān)性分析結(jié)果分別為0.455;發(fā)明人在IBPCA與IPCCA中的最大耦合頻次排名的相關(guān)性分析結(jié)果為0.467。這2個(gè)數(shù)值是極為接近的,而且相關(guān)系數(shù)并不高。這說(shuō)明在最大耦合頻次方面,IBPCA、IPCCA并不是一種強(qiáng)相關(guān)性關(guān)系。分析發(fā)現(xiàn),有很多發(fā)明人在IBPCA有著良好的表現(xiàn),而在IPCCA中表現(xiàn)并不佳,如SPINAR,B在IBPCA中的最大耦合頻次排名為3,而在IPCCA中的卻排在了63位,相差60位。這些發(fā)明人都會(huì)弱化發(fā)明人在IBPCA與IPCCA中最大耦合頻次的相關(guān)性。當(dāng)然,大多數(shù)發(fā)明人在IBPCA與IPCCA中的最大耦合頻次及排名還是有著一定的相關(guān)性的。
分別構(gòu)建68位發(fā)明人的IBPCA矩陣與IPCCA矩陣。對(duì)角線為發(fā)明人的自耦合[22],對(duì)角線采取最大耦合頻次加1的方式是較為合理的。分別對(duì)IBPCA矩陣與IPCCA矩陣進(jìn)行相似性轉(zhuǎn)換,消除數(shù)據(jù)在數(shù)量級(jí)與量綱上的差異。將相似矩陣導(dǎo)入SPSS進(jìn)行因子分析,因子提取選用主成分分析。因子分析的旋轉(zhuǎn)方法為直接Oblimin方法[23-25]。
4.4.1 模型擬合及殘差分析
對(duì)IBPCA矩陣與IPCCA矩陣進(jìn)行因子分析,碎石圖如圖1所示。從碎石圖上看,IBPCA與IPCCA的模型擬合結(jié)果優(yōu)度都比較理想。一條擬合優(yōu)度理想的碎石圖表現(xiàn)為,首先呈現(xiàn)陡峭地下降,并形成一個(gè)弧度,最后變成一條水平的直線。IPCCA的擬合結(jié)果要更優(yōu)于IBPCA,因?yàn)镮PCCA的曲線更為陡峭、急劇的下降,弧度的銜接更為平滑而直接,最后的直線也更水平。IPCCA碎石圖也顯示,曲線從第6個(gè)節(jié)點(diǎn)開始轉(zhuǎn)為水平;IBPCA碎石圖顯示,從第10個(gè)節(jié)點(diǎn)之后在逐漸轉(zhuǎn)平,但具體哪個(gè)節(jié)點(diǎn)并不能完全看出。IBPCA共提取了12個(gè)因子,共解釋了90.138%的總方差;而IPCCA僅僅用5個(gè)因子,就解釋了97.327%的總方差。相對(duì)于IBPCA,IPCCA可以用更少的因子,解釋更多的總方差,方差的解釋力度要更好。主成分分析模型提取的因子也一般是呈現(xiàn)由高到低的順序排列,IBPCA提取的第一個(gè)因子也是最高的因子的特征值為23.672,占比34.811%的總方差,對(duì)應(yīng)于圖1a的第一個(gè)起點(diǎn);IPCCA提取的第一個(gè)因子則為36.597,占比53.820%,并對(duì)應(yīng)于圖1b的首起點(diǎn)。IPCCA的第2個(gè)因子的特征值為20.695,占總方差的30.434%,即右圖的第2個(gè)下降的節(jié)點(diǎn),該節(jié)點(diǎn)距離第一個(gè)節(jié)點(diǎn)較近,高踞在上端,這2個(gè)節(jié)點(diǎn)就累積解釋了總方差的84.254%。而IBPCA除第一個(gè)因子具有較高的解釋力度外,其他11個(gè)因子的解釋力度皆為一般水平。
圖1 因子擬合碎石圖
本文從殘差與公因子角度進(jìn)一步分析比較IBPCA與IPCCA的擬合優(yōu)度。IPCCA計(jì)算觀察到的相關(guān)性和重新生成的相關(guān)性之間的參考,發(fā)現(xiàn)有20(0%)個(gè)絕對(duì)值大于0.05的非冗余殘差;IBPCA計(jì)算觀察到的相關(guān)性和重新生成的相關(guān)性之間的參考,發(fā)現(xiàn)有95(4%)個(gè)絕對(duì)值大于0.05的非冗余殘差。因此,從殘差上也顯示IPCCA的結(jié)果要優(yōu)于IBPCA。IPCCA通過(guò)因子分析提取的公因子也要比IBPCA理想。IPCCA的公因子變動(dòng)范圍為0.716~0.999,最高公因子為0.999,最低公因子為0.716;而IBPCA的公因子變動(dòng)范圍為0.482~0.992,最高公因子0.992也小于0.999,而最低公因子0.482也小于0.716。因此,從公因子變動(dòng)范圍、最高公因子、最低公因子上都顯示IPCCA要優(yōu)于IBPCA。
4.4.2 余弦相似度比較
余弦相似度(cosine similarity)是用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小。重點(diǎn)考慮的是向量在方向上的差異而不是距離或者長(zhǎng)度上的差異。如圖2所示,對(duì)于向量d1、q、d2。如果d1、q、d2為二維空間的向量,那么d1與q、q與d2的余弦相似度為
如果d1與q為坐標(biāo)軸向量,軸坐標(biāo)值分別為(m1,n1)、(m2,m2)那么d1與q的余弦相似度為
同理,可得到q與d2的余弦相似度。
如果d1=(X1,X2,…,Xn),q=(Y1,Y2,…,Yn),則
圖2 余弦相似度圖例
基于以上的理論,運(yùn)行SPSS對(duì)IBPCA矩陣與IPCCA矩陣進(jìn)行余弦相似度測(cè)度。結(jié)果顯示,共有4624對(duì)數(shù)據(jù),數(shù)據(jù)百分之百有效。這4624對(duì)數(shù)據(jù)是一一對(duì)應(yīng)的關(guān)系,通過(guò)對(duì)4624對(duì)數(shù)據(jù)的計(jì)算與比對(duì),結(jié)果表明IBPCA矩陣與IPCCA矩陣為相似矩陣,相似度為0.396。這是對(duì)原始數(shù)據(jù)矩陣的余弦相似度計(jì)算結(jié)果。我們認(rèn)為,原始數(shù)據(jù)存在著較大的數(shù)據(jù)差異而會(huì)在一定程度上影響結(jié)果的表達(dá),為消除數(shù)據(jù)在數(shù)量級(jí)與量綱上的差異,將相似性轉(zhuǎn)化后的矩陣進(jìn)行余弦相似度計(jì)算。計(jì)算結(jié)果果然要比原始矩陣的計(jì)算結(jié)果理想很多,相似性大大增強(qiáng)。因此可以說(shuō),通過(guò)對(duì)IBPCA與IPCCA矩陣余弦相似性的計(jì)算,基本可以斷定IBPCA與IPCCA并不是毫無(wú)關(guān)系,是具有一定的相似性的。上文中,從耦合總頻次、平均耦合頻次、最大耦合頻次等方面的相關(guān)性分析論證了IBPCA與IPCCA是相關(guān)的,可以說(shuō)是從宏、中觀層面的論證;而余弦相似度深入到每一個(gè)數(shù)據(jù)的比對(duì)與計(jì)算,可謂是從微觀層面的論證IBPCA與IPCCA的相似程度。這都證明了IBPCA與IPCCA并非沒(méi)有關(guān)系,而是具有一定關(guān)聯(lián)的。
4.4.3 因子載荷分析
因子標(biāo)簽的確定,通過(guò)檢查最高載荷發(fā)明人,考察最高載荷發(fā)明人與其他發(fā)明人(尤其是高載荷發(fā)明人)之間的高頻次耦合對(duì),分析這些發(fā)明人之間的共性,尤其是研究引發(fā)這些高載荷發(fā)明人發(fā)生耦合的專利文獻(xiàn)內(nèi)容,并咨詢相關(guān)領(lǐng)域的專家學(xué)者,來(lái)確定因子的內(nèi)容,IBPCA因子載荷分析如表4所示。
因子1:最大載荷發(fā)明人為CONNORS,DP,與WENTINK,M的耦合頻次為76,與DALLY,WJ的耦合頻次為46,與MAENG,J的耦合頻次為40,與WARE,FA(載荷排名16)的耦合頻次為最大耦合頻次95。數(shù)字計(jì)算機(jī)與數(shù)據(jù)靜態(tài)存儲(chǔ)。因子2:最大載荷發(fā)明人為GARLEPP,BW,與ZERBE,J的耦合頻次為276,與STOJANOVIC,VM的耦合頻次為160,與STOCKHAM,MA耦合頻次43,與WERNER,CW的耦合頻次64。其中涉及最多的是信號(hào)生成與分布(TO1K)因子3:最大載荷發(fā)明人為SPINAR,B,與STANWOOD,KL的 耦 合 頻 次 為1689,也是最大耦合頻次為1689,與ONG,AE的耦合頻次為181,與VOGELSANG,T的耦合頻次為16。其中大量涉及的內(nèi)容是數(shù)字信息傳輸(W01A),為通信領(lǐng)域。為避免混淆,區(qū)別于因子11(數(shù)據(jù)存儲(chǔ)與傳輸,偏重計(jì)算機(jī)與半導(dǎo)體領(lǐng)域),定義該因子為通信數(shù)字信息傳輸。因子4、因子5不存在高載荷發(fā)明人,最大載荷發(fā)明人分別為L(zhǎng)EE,W、BENYASSINE,A。因子6:最大載荷發(fā)明人為HYNECEK,J,主要檢查HYNECEK,J與COK,RS、HOSSAIN,M的共同技術(shù)研究來(lái)確定因子為半導(dǎo)體與集成電路。因子7,也不存在高載荷發(fā)明人,重點(diǎn)研究SU,H、GAO,Y共同的專利發(fā)明。因子8、因子9、因子10、因子12因子載荷普遍體低于0.4,并不存在高載荷發(fā)明人。因子11,最高載荷發(fā)明人為WEBSTER,MA,涉及最多的是數(shù)據(jù)存儲(chǔ)與內(nèi)存、互連、數(shù)據(jù)傳輸(T01H)、數(shù)據(jù)靜態(tài)存儲(chǔ)(U14A),可以看到,雖然二者屬于不同的大類,但內(nèi)容還是有很多交叉的,因子內(nèi)容可以歸納提煉為“數(shù)據(jù)存儲(chǔ)與傳輸”。因子4、因子5、因子7、因子8、因子9、因子10、因子12。本文集中統(tǒng)一標(biāo)注因子內(nèi)容,因?yàn)檠芯堪l(fā)現(xiàn)這7個(gè)因子都是源自SHLOMOT,E、GAO,Y、SU,H、THYSSEN,J、BENYASSINE,A這5位發(fā)明人,這些因子是相對(duì)獨(dú)立的,且因子載荷分布比較均勻。因子標(biāo)簽的確定我們首先主要考慮最高載荷發(fā)明人與耦合頻次最高的發(fā)明人之間的共性研究,當(dāng)因子之間發(fā)生沖突時(shí),如因子10與因子12的最高載荷發(fā)明人,以及最高耦合對(duì)可能同為SHLOMOT,E、GAO,Y,我們?cè)倏紤]第2或者第3載荷發(fā)明人的研究。如此下來(lái),確定因子標(biāo)簽為,因子4為“計(jì)算機(jī)語(yǔ)音處理”,因子5為“一般語(yǔ)音處理”,因子7的載荷作者過(guò)少并且載荷值過(guò)低難以確定研究?jī)?nèi)容,以“未查明”來(lái)表示,因子8為“便攜式手機(jī)”,因子9為“噪音處理”,因子10為“編碼與信息論”,因子12為“數(shù)據(jù)轉(zhuǎn)換與傳送”。
表4 IBPCA因子載荷分析
IPCCA因子載荷分析如表5所示。因子1:LAU,BC是最大載荷發(fā)明人,最大耦合頻次為22,LAU,BC與KIZER,JM耦合頻次為19,與STARK,DC的耦合頻次為21,與KIM,J的耦合頻次為16,與BEST,SC的耦合頻次為22。因子2:GAO,Y是最大載荷發(fā)明人,最大耦合頻次為51,與CONNORS,DP的耦合頻次為27,與MONRO,DM的耦合頻次為51,與SHLOMOT,E的耦合頻次為30。因子3:分析高耦合發(fā)明人共同的技術(shù)研究,尤其是BELL,M與ARMSTRONG,BA研究發(fā)現(xiàn),耦合最多的是數(shù)據(jù)存儲(chǔ)與內(nèi)存、互連、數(shù)據(jù)傳輸(T01H)、數(shù)據(jù)靜態(tài)存儲(chǔ)(U14A),因子內(nèi)容可以歸納提煉為“數(shù)據(jù)存儲(chǔ)與傳輸”,既涉及數(shù)字計(jì)算機(jī)領(lǐng)域,又涉及半導(dǎo)體與電子電路,是二者的交叉領(lǐng)域。因子4:只有2位發(fā)明人,分別是STOCKHAM,MA、HIDER,RC。STOCKHAM,MA是最大載荷發(fā)明人,而最大耦合頻次對(duì)象也恰好是HIDER,RC,頻次值為4。分析STOCKHAM,MA與HIDER,RC交合的研究,多為B大類的環(huán)系化合物研究。因子5:耦合較多的技術(shù)領(lǐng)域?yàn)椋阂壕э@示器(U14-K01)、光學(xué)(X26)。因子內(nèi)容可以為“LCD光學(xué)研究”。
4.4.4 可視化分析
運(yùn)用NERDRAW對(duì)因子矩陣進(jìn)行可視化展示。因子用圓形節(jié)點(diǎn)表示,發(fā)明人用方形節(jié)點(diǎn)表示。圓形節(jié)點(diǎn)與方形節(jié)點(diǎn)之間的連線,表示該發(fā)明人在該因子上具有載荷,且載荷值要大于0.2才會(huì)出現(xiàn)。連線的粗細(xì)代表因子載荷值的大小。因子用統(tǒng)一的顏色表示。方形節(jié)點(diǎn)的顏色代表不同的點(diǎn)中心性,紅色表示點(diǎn)中心性為1,軍綠色節(jié)點(diǎn)表示點(diǎn)中心性為2,粉色節(jié)點(diǎn)表示點(diǎn)中心性為3,黃色節(jié)點(diǎn)中心性為4,深藍(lán)色節(jié)點(diǎn)的點(diǎn)中心性為5,熒光色節(jié)點(diǎn)的點(diǎn)中心性為6。節(jié)點(diǎn)的大小代表中間中心性。
在IBPCA可視化圖譜(如圖3所示)中,通過(guò)中間中心性分析之后,可以發(fā)現(xiàn)3個(gè)比較重要的因子:數(shù)字計(jì)算機(jī)、通信數(shù)字信息傳輸、數(shù)據(jù)存儲(chǔ)與傳輸。通過(guò)后文的K核分析,也會(huì)發(fā)現(xiàn)這3個(gè)因子是最為重要的。這3個(gè)因子相互作用,交織在一起。聯(lián)系通信數(shù)字信息傳輸、數(shù)據(jù)存儲(chǔ)與傳輸?shù)陌l(fā)明人是VTANWOOD,KL,ARYANFAR,F。聯(lián)系數(shù)字計(jì)算機(jī)、數(shù)據(jù)存儲(chǔ)與傳輸?shù)陌l(fā)明人比較多。聯(lián)系數(shù)字計(jì)算機(jī)、通信數(shù)字信息傳輸?shù)陌l(fā)明人是WENTINK,M。數(shù)字計(jì)算機(jī)與“半導(dǎo)體與集成電路”也是比較密切的,有很多聯(lián)系發(fā)明人。
表5 IPCCA因子載荷分析
圖3 IBPCA可視化圖譜(彩圖請(qǐng)見http://qbxb.istic.ac.cn/)
在IPCCA可視化圖譜(如圖4所示)中,最為重要的因子為:數(shù)字計(jì)算機(jī)、通信數(shù)字信息傳輸。這也是相互作用最強(qiáng)的2個(gè)因子。中間有眾多的發(fā)明人相互聯(lián)系,這跟IBPCA是不一樣的。IBPCA僅有一位發(fā)明人聯(lián)系,2個(gè)因子之間的相互作用明顯比較弱。“數(shù)據(jù)存儲(chǔ)與傳輸”與數(shù)字計(jì)算機(jī)的作用比較強(qiáng),中間聯(lián)系的發(fā)明人有W00,SC、TSERN,EK、SHAEFFER,I、OH,KS、PEREGO,RE、BARTH,RM?!皵?shù)據(jù)存儲(chǔ)與傳輸”與通信數(shù)字信息傳輸?shù)南嗷プ饔靡脖容^強(qiáng),中間聯(lián)系的發(fā)明人有MONRO,DM、SHUSTER,GS、MAENG,J、COK,RS。這幾位發(fā)明人同時(shí)也是聯(lián)系數(shù)字計(jì)算機(jī)與通信數(shù)字信息傳輸?shù)闹匾l(fā)明人。
可以看出,IPCCA探測(cè)到的最為重要的因子為:數(shù)字計(jì)算機(jī)、通信數(shù)字信息傳輸,在IBPCA中都有探測(cè)到。IPCCA探測(cè)到的數(shù)據(jù)存儲(chǔ)與傳輸,在IBPCA也有探測(cè)到,該因子在IBPCA是中重要因子。IPCCA探測(cè)到的LED光學(xué)研究,在IBPCA中并未探測(cè)到。IBPCA探測(cè)到很多小的因子,如便攜式手機(jī)、一般語(yǔ)音處理、計(jì)算機(jī)語(yǔ)音處理、編碼與信息論、數(shù)據(jù)轉(zhuǎn)換與傳送、噪音處理等,在IPCCA中也查詢不到。因此,可以說(shuō),IBPCA能比IPCCA探測(cè)到更多因子,尤其是小的因子。因子之間的相互作用也是不一樣的,在IPCCA相互作用強(qiáng),未必會(huì)在IBPCA中表現(xiàn)出強(qiáng)作用力;在IBPCA中作用力強(qiáng),也未必會(huì)在IPCCA表現(xiàn)出強(qiáng)作用力。
本文進(jìn)一步進(jìn)行K核分析,可以得到更為核心的研究領(lǐng)域及發(fā)明人。分別進(jìn)行K=1與K=2,5的計(jì)算就可以看到IBPCA的核心研究領(lǐng)域(因子)有4個(gè)分別是:數(shù)字計(jì)算機(jī)、通信數(shù)字信息傳輸、數(shù)據(jù)存儲(chǔ)與傳輸、半導(dǎo)體與集成電路。而進(jìn)行K=3與K=1,2的計(jì)算,IPCCAK也發(fā)現(xiàn)了3個(gè)核心研究領(lǐng)域:數(shù)字計(jì)算機(jī)、通信數(shù)字信息傳輸、數(shù)據(jù)存儲(chǔ)與傳輸。因此,可以看出IBPCA與IPCCA發(fā)掘的核心領(lǐng)域大體是相當(dāng)?shù)摹?/p>
本文以NPE專利為例,探析發(fā)明人專利文獻(xiàn)耦合與德溫特分類號(hào)耦合,主要的研究結(jié)論如下:
圖4 IPCCA可視化圖譜(彩圖請(qǐng)見http://qbxb.istic.ac.cn/)
(1)從專利量及其排名、耦合總頻次及其排名、平均耦合頻次及其排名、最大耦合頻次及其排名的相關(guān)分析結(jié)果顯示,IBPCA與IPCCA是具有相關(guān)性,相關(guān)水平會(huì)略有不同。例如,耦合頻次與最大耦合頻次都是存在較高的相關(guān)性的,耦合頻次排名與最大耦合頻次排名也都是存在較高的相關(guān)性的,而最大耦合頻次在二者之中卻呈現(xiàn)弱相關(guān),平均耦合頻次與耦合總頻次趨于一致。
(2)IBPCA與IPCCA的模型擬合結(jié)果優(yōu)度均比較理想。IPCCA的擬合結(jié)果更優(yōu)于IBPCA。IPCCA可以用更少的因子,解釋更多的總方差,方差的解釋力度要更好。公因子變動(dòng)范圍、公因子大小等也顯示IPCCA要優(yōu)于IBPCA。余弦相似度從微觀層面揭示了IBPCA與IPCCA的相似程度。
(3)IBPCA能比IPCCA探測(cè)到更多主題,在規(guī)模較小的主題上發(fā)現(xiàn)更具優(yōu)勢(shì),規(guī)模小的主題往往體現(xiàn)了前沿領(lǐng)域。IBPCA與IPCCA中主題的相互作用會(huì)有差異,強(qiáng)弱難辨,即在IPCCA相互作用強(qiáng),未必會(huì)在IBPCA中表現(xiàn)出強(qiáng)作用力;在IBPCA中作用力強(qiáng),也未必會(huì)在IPCCA表現(xiàn)出強(qiáng)作用力,需要進(jìn)一步的實(shí)證研究。
(4)IBPCA與IPCCA發(fā)掘的NPE核心領(lǐng)域大體是相當(dāng)?shù)?。IBPCA的核心研究領(lǐng)域有4個(gè)分別是:數(shù)字計(jì)算機(jī)、通信數(shù)字信息傳輸、數(shù)據(jù)存儲(chǔ)與傳輸、半導(dǎo)體與集成電路;而IPCCA也發(fā)現(xiàn)了3個(gè)核心研究領(lǐng)域:數(shù)字計(jì)算機(jī)、通信數(shù)字信息傳輸、數(shù)據(jù)存儲(chǔ)與傳輸。這些主題基本代表了NPE研究的核心所在。
本文是文獻(xiàn)計(jì)量學(xué)方法向?qū)@墨I(xiàn)領(lǐng)域拓展的有益嘗試,并希望專利耦合最終能像文獻(xiàn)耦合那樣成為成熟的方法得以廣泛應(yīng)用。本文提出的發(fā)明人專利文獻(xiàn)耦合與發(fā)明人德溫特分類號(hào)耦合在未來(lái)能夠在專利文獻(xiàn)結(jié)構(gòu)探測(cè)方面發(fā)揮重要作用,而且這兩種方法各有特點(diǎn),也各有優(yōu)勢(shì),如果能結(jié)合起來(lái)使用將會(huì)取得比較好的研究結(jié)論。同時(shí),本文也存在一定缺點(diǎn)和不足:一是僅僅選擇了德溫特?cái)?shù)據(jù)庫(kù)進(jìn)行實(shí)證研究;二是人名雖然根據(jù)機(jī)構(gòu)進(jìn)行過(guò)清洗,但難免會(huì)有錯(cuò)誤與遺漏。這些不足之處有待在未來(lái)工作中做進(jìn)一步完善。