趙向陽 王亮 梁晨院
摘要:全球范圍內(nèi),運用大數(shù)據(jù)技術(shù)推動經(jīng)濟發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能力正成為趨勢。因此,對大數(shù)據(jù)技術(shù)進(jìn)行梳理和分析有著十分重要的現(xiàn)實意義。而專利分析法作為一種常用的分析方法,通過對專利說明書、專利公報中大量零碎的專利信息進(jìn)行分析、加工、組合,將這些專利信息轉(zhuǎn)化為技術(shù)情報,為各方的相關(guān)決策提供參考。本文通過對大數(shù)據(jù)相關(guān)技術(shù)產(chǎn)業(yè)相關(guān)發(fā)明專利的申請情況、地區(qū)分布情況、申請人(權(quán)利人)分布情況等的分析,從數(shù)據(jù)層面清晰反映了大數(shù)據(jù)技術(shù)產(chǎn)業(yè)的創(chuàng)新能力、發(fā)展?fàn)顩r、發(fā)展階段和發(fā)展趨勢。
關(guān)鍵詞:大數(shù)據(jù);專利;技術(shù)路線
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.l003_6970.2017.08.037
概述
大數(shù)據(jù)不是具體的方法,甚至不算具體的研究學(xué)科,而只是對某一類問題、或需處理的數(shù)據(jù)的描述。通俗地來說,大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。根據(jù)Gartner公司的定義,大數(shù)據(jù)是大量、高速、及/或多變的信息資產(chǎn),它需要新型的處理方式去促成更強的決策能力、洞察力與流程優(yōu)化能力。而大數(shù)據(jù)的概念自誕生以來并非一成不變。大數(shù)據(jù)公認(rèn)的特征3V是2001年由METAGROUP公司的分析員萊尼提出的,萊尼在一份報告中對大數(shù)據(jù)提出“3-D數(shù)據(jù)管理”的看法,即數(shù)據(jù)成長將朝3個方向發(fā)展,分別為數(shù)據(jù)即時處理的速度(Velocity)、數(shù)據(jù)格式的多樣化(Variety)與數(shù)據(jù)量的規(guī)模(Volume),三者統(tǒng)稱為“3V”0后來,隨著時間的推移,人們對大數(shù)據(jù)有了更深入的看法,因此,對大數(shù)據(jù)的特征進(jìn)行了相應(yīng)的調(diào)整。2012年,包括IBM、國際調(diào)查機構(gòu)Gartner、IDC等紛紛對大數(shù)據(jù)提出新的論述,將3V的概念擴展為4V,在原有的基礎(chǔ)上增加了數(shù)據(jù)的真實性(Veracity)。此后,大數(shù)據(jù)的概念又在4V的基礎(chǔ)上增加“Visualize”、“Value”、“Vast”
而擴展為6V甚至7V。隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)技術(shù)越來越廣泛的被應(yīng)用于社會生活的方方面面,因而通過分析專利信息挖掘,從數(shù)據(jù)層面反應(yīng)目前大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的發(fā)展?fàn)顩r和趨勢具有重要的意義。
1 大數(shù)據(jù)技術(shù)專利分析
1.1 數(shù)據(jù)采集范圍及相關(guān)說明
本文的外文數(shù)據(jù)檢索于德溫特數(shù)據(jù)庫(DWPI數(shù)據(jù)庫),中文專利數(shù)據(jù)檢索于中國專利文獻(xiàn)數(shù)據(jù)庫(CPRSABS數(shù)據(jù)庫),數(shù)據(jù)采集時間截至2015年12月。利用專業(yè)專利分析工具進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)深度挖掘。
同一項發(fā)明創(chuàng)造在多個國家申請專利而產(chǎn)生的一組內(nèi)容相同或基本相同的文件出版物,稱為一個專利族。從技術(shù)研發(fā)角度來看,屬于同一專利族的多個專利申請可視為同一項技術(shù)。本文中,進(jìn)行技術(shù)分析時對同族專利進(jìn)行了合并統(tǒng)計,針對國家分布進(jìn)行分析時各件專利進(jìn)行了單獨統(tǒng)計。
在進(jìn)行專利申請數(shù)量統(tǒng)計時,對于數(shù)據(jù)庫中以一族(這里的“族”指的是同族專利中的“族”)數(shù)據(jù)的形式出現(xiàn)的一系列專利文獻(xiàn),計算為“1項”。以“項”為單位進(jìn)行的專利文獻(xiàn)量的統(tǒng)計主要出現(xiàn)在外文數(shù)據(jù)的統(tǒng)計中。
在進(jìn)行專利申請數(shù)量統(tǒng)計時,為了分析申請人在不同國家、地區(qū)或組織所提出的專利申請的分布情況,將同族專利申請分開進(jìn)行統(tǒng)計,所得到的結(jié)果對應(yīng)于申請的件數(shù)。1項專利申請可能對應(yīng)于1件或多件專利申請。
1.2 技術(shù)分解
由于大數(shù)據(jù)涉及的技術(shù)種類較多,技術(shù)復(fù)雜多變,且在教科書以及專利分類體系中均沒有現(xiàn)成的大數(shù)據(jù)的分類體系可供參考。因此,在綜合考慮了現(xiàn)有的主流大數(shù)據(jù)平臺架構(gòu)以及數(shù)據(jù)處理的流程,對大數(shù)據(jù)技術(shù)進(jìn)行如表1的技術(shù)分解。
1.3 大數(shù)據(jù)技術(shù)專利申請態(tài)勢
基于上述的技術(shù)分解,采用CPRSABS和DWPI數(shù)據(jù)庫進(jìn)行檢索,在上述兩個數(shù)據(jù)庫中共檢索到專利32120項。
從圖2可以看出,大數(shù)據(jù)領(lǐng)域的專利主要集中于數(shù)據(jù)挖掘以及數(shù)據(jù)存儲,數(shù)據(jù)計算的相關(guān)專利較少,只占到總申請量的8.5%。數(shù)據(jù)挖掘?qū)@兄饕埣杏诰垲愃惴?、分類算法以及關(guān)聯(lián)分析算法。數(shù)據(jù)存儲專利主要集中于分布式塊存儲、分布式數(shù)據(jù)庫以及分布式文件系統(tǒng)。
通過統(tǒng)計各項申請的優(yōu)先權(quán),大數(shù)據(jù)技術(shù)全球范圍內(nèi)專利申請的技術(shù)原創(chuàng)國分布如上圖所示。優(yōu)先權(quán)所屬的國家/地區(qū)反映了申請人首次申請所屬的國家/地區(qū),折射了專利技術(shù)的起源,即專利技術(shù)的輸出國家/地區(qū),其數(shù)量也反映了相應(yīng)國家/地區(qū)在相應(yīng)領(lǐng)域的技術(shù)實力。從圖2中可以看出,東亞地區(qū)、歐洲地區(qū)以及北美地區(qū)的主要國家均有申請,由此可見,大數(shù)據(jù)技術(shù)得到了眾多科技發(fā)達(dá)國家的重視。同時,美國和中國的申請量最為龐大,遠(yuǎn)遠(yuǎn)多于其他國家,緊隨中國及美國之后的是日本、歐洲國家以及韓國。
圖3為主要五個國家/地區(qū)大數(shù)據(jù)專利申請的總體情況。橫向比較,中國相關(guān)專利的年申請量已超過美國、日本、韓國以及歐洲,年申請量超過了1900項。同時,從申請人數(shù)量來看,自2000年以來,中國申請人的數(shù)量隨著專利申請數(shù)量的增加增長明顯,這顯示出中國大數(shù)據(jù)市場參與者眾多,競爭激烈,不斷有新的申請人涌現(xiàn)。但是在申請人數(shù)量方面,中國與美國還有這較大差距,近兩年申請人數(shù)量僅為美國的一半左右,這在一定程度上顯示出,美國仍然是大數(shù)據(jù)技術(shù)創(chuàng)新的中心。日本與中國不同,雖然申請量也有較大增長,但是其申請人數(shù)量一直維持在400人左右,說明日本大數(shù)據(jù)市場成熟度較高,對大數(shù)據(jù)技術(shù)的投入持續(xù)而穩(wěn)定。同時,可以看到,雖然在08年金融海嘯中,各國經(jīng)濟均遭受重倉J,其中美國、日本和歐洲均出現(xiàn)負(fù)增長,但是各國在大數(shù)據(jù)領(lǐng)域投入并未受到影響,無論是申請量還是申請人數(shù)量都未降低。可見,大數(shù)據(jù)領(lǐng)域備受世界各國重視。從技術(shù)構(gòu)成上看,主要五個國家/地區(qū)的專利申請主要集中于數(shù)據(jù)挖掘領(lǐng)域,中國、日本、歐洲、韓國有關(guān)數(shù)據(jù)挖掘的專利申請超過了總申請量的一半。美國以及歐洲在數(shù)據(jù)存儲領(lǐng)域申請量占比較大,這是由于數(shù)據(jù)存儲領(lǐng)域中的大公司絕大多數(shù)都是歐美公司,如:IBM、EMC、NETAPP等公司。而中國在數(shù)據(jù)計算領(lǐng)域的申請量占比較大,這與中國互聯(lián)網(wǎng)公司的爆發(fā)息息相關(guān),諸如阿里巴巴、騰訊等互聯(lián)網(wǎng)公司對大數(shù)據(jù)計算技術(shù)投入較多。
在專利流向方面,如圖4所示,日本公司在美國布局的專利數(shù)目最多,緊隨其后的是歐洲,而中國申請人在美國申請的大數(shù)據(jù)專利較少,中國絕大部分的申請人都是僅申請本國專利。這一方面說明中國申請人對本國市場的重視,另一方面說明中國申請人缺乏全球視野,忽視了對全球的專利布局,沒有為日后進(jìn)軍全球市場做好充分準(zhǔn)備。美國申請的大數(shù)據(jù)專利主要以歐洲作為目標(biāo)國,優(yōu)先對歐洲進(jìn)行專利布局。在我國布局大數(shù)據(jù)專利最多的國家是美國,其次是日本,歐洲、韓國相關(guān)專利進(jìn)入中國的較少。
大數(shù)據(jù)技術(shù)專利的主要申請人包括IBM、日立、微軟、谷歌、NETAPP、華為等公司。其中,IBM公司的專利申請量最大,是本領(lǐng)域中最為重要的專利申請人。從圖5可以看到,LBM的專利分布于大數(shù)據(jù)領(lǐng)域的各個方面,在所有的領(lǐng)域都有涉及,而分布式塊存儲以及分布式文件系統(tǒng)是IBM公司申請的重點。日立公司作為日本企業(yè)的代表,其在大數(shù)據(jù)領(lǐng)域的專利布局也很廣泛,但相較于微軟和谷歌這一類互聯(lián)網(wǎng)公司,日立在數(shù)據(jù)計算領(lǐng)域較為薄弱,尤其是谷歌公司,其于2004年首次提出Map Reduce編程模型,開創(chuàng)了大數(shù)據(jù)計算的新局面。華為公司作為中國申請人的代表,其專利同樣集中于分布式文件系統(tǒng)和分布式塊存儲,在數(shù)據(jù)挖掘方面申請較少,同時在申請總量上與國外公司還有較大差距。
1.4 大數(shù)據(jù)技術(shù)發(fā)展路線
大數(shù)據(jù)的存儲架構(gòu)可以分為三類,分別是分布式文件系統(tǒng)、分布式塊存儲與分布式對象存儲。由于大數(shù)據(jù)的來源都為社交網(wǎng)絡(luò)、電子商務(wù)等應(yīng)用,而第三種架構(gòu)容易造成大數(shù)據(jù)訪問的瓶頸,因此,如兩種作為主流存儲,在市場中有很多產(chǎn)品,從最初谷歌開發(fā)的GFS[18]發(fā)展到HDFS以及后來的Lustre等。此外,為了適應(yīng)大數(shù)據(jù)多元化的特點,數(shù)據(jù)庫也從傳統(tǒng)的關(guān)系型數(shù)據(jù)庫轉(zhuǎn)為N0SQL數(shù)據(jù)庫,例如MongoDB、HBase和SequoiaDB,且NoSQL數(shù)據(jù)庫已應(yīng)用在諸多新興互聯(lián)網(wǎng)公司,其中包括國內(nèi)的淘寶、百度、360等。
從1980年代的DAS與NAS發(fā)展到1990年代的SAN,分布式塊存儲在2009年迎來重大進(jìn)展,其中包括著名的Sheepdog和Ceph存儲系統(tǒng)。最初的分布式文件系統(tǒng)應(yīng)用發(fā)生在上世紀(jì)80年代,極具代表性的NFS和AFS問世。90年代中后期,隨著SAN的廣泛普及,分布式文件系統(tǒng)進(jìn)入飛速發(fā)展期,出現(xiàn)了多種體系結(jié)構(gòu),諸如GPFS與XNFS等。到2004年谷歌提出GFS并申請多篇重要專利(如US7065618B2[21]等),標(biāo)志著新的時代開始,隨后基于GFS的HDFS大范圍被使用,直至今天仍然是最重要的存儲系統(tǒng)。
NoSQL最早出現(xiàn)于1998年,是一個輕量、開源、不提供SQL功能的關(guān)系數(shù)據(jù)庫。而在現(xiàn)如今的海量數(shù)據(jù)和多樣化數(shù)據(jù)類型的環(huán)境下,關(guān)系型數(shù)據(jù)庫不再是最佳的選擇了。2009年再次提出的NoSQL概念,主要指非關(guān)系型、分布式、不提供ACID的數(shù)據(jù)庫設(shè)計模式。NoSQL最初為NotSQL的縮寫,如今已經(jīng)演變?yōu)镹otOnlySQL,強調(diào)鍵值和文檔數(shù)據(jù)庫的優(yōu)點,而不是單純的反對RDBMS(關(guān)系型數(shù)據(jù)庫系統(tǒng))。谷歌首先開發(fā)出Bigtable,緊隨其后的是Amazon的Dynamo、Facebook的Cassandra以及Microsoft的Azure等,各大廠商也紛紛申請了相應(yīng)的重要專利(例如微軟的壓縮鍵值US8595268B2[22])。NoSQL目前發(fā)展為4類:Key-value、Document-Oriented,Column-Family與Graph-Oriented。隨后開發(fā)商意識到,NoSQL不使用SQL是一個錯誤,由此便出現(xiàn)了所謂的NewSQL[23]數(shù)據(jù)庫,主流的有VoltDB、NuoDB、Clustrix等。NewSQL是對各種新的可擴展/高性能的關(guān)系型數(shù)據(jù)庫的簡稱,其不僅具有NoSQL對海量數(shù)據(jù)的存儲管理能力,還保持了傳統(tǒng)關(guān)系型數(shù)據(jù)庫支持ACID和SQL等特性,EMC于2012年申請了無共享架構(gòu)的專利US8386473B2。
在互聯(lián)網(wǎng)和大數(shù)據(jù)應(yīng)用的沖擊下,數(shù)據(jù)庫進(jìn)入井噴式發(fā)展階段,各式各樣的產(chǎn)品迸發(fā)而出,局面由過去傳統(tǒng)通用數(shù)據(jù)庫(OldSQL)—統(tǒng)天下變成了OldSQL、NoSQL、NewSQL共同支撐多類應(yīng)用的局面。
由于對于大數(shù)據(jù)分析實時性的要求逐漸提高,大數(shù)據(jù)計算架構(gòu)從早期的離線批處理模式已發(fā)展到針對在線數(shù)據(jù)進(jìn)行處理的流式數(shù)據(jù)處理模式以及基于內(nèi)存計算的處理模式。離線批處理模式的典型代表是由Google公司在2004年提出的MapReduce編程模式(并申請相關(guān)專利US8126909B2、US7756919B2與US7650331B2等),主要適用于對靜態(tài)數(shù)據(jù)進(jìn)行批量處理。然而其在數(shù)據(jù)計算效率方面還需要進(jìn)一步提升,同時其并不能滿足對動態(tài)數(shù)據(jù)的處理。針對上述不足,大數(shù)據(jù)計算領(lǐng)域相繼出現(xiàn)針對在線數(shù)據(jù)進(jìn)行處理的流式數(shù)據(jù)處理模式和實時交互架構(gòu),以及針對采用圖數(shù)據(jù)庫進(jìn)行存取的數(shù)據(jù)而設(shè)計的基于圖數(shù)據(jù)的綜合處理模式。
在實時性要求較高的應(yīng)用場景,離線批量數(shù)據(jù)處理模式便存在諸多不足,由此出現(xiàn)了基于在線動態(tài)數(shù)據(jù)的流式數(shù)據(jù)處理架構(gòu)和基于內(nèi)存計算的處理模式。流式數(shù)據(jù)處理架構(gòu)在無需先存儲,可以直接進(jìn)行數(shù)據(jù)計算,實時性要求很嚴(yán)格,但數(shù)據(jù)精確度要求稍微寬松的應(yīng)用場景中具有明顯優(yōu)勢,其主要用于對動態(tài)產(chǎn)生的數(shù)據(jù)進(jìn)行實時計算并及時反饋結(jié)果,但往往不要求結(jié)果絕對精確。流式數(shù)據(jù)處理模式最具典型的代表為Twitter的Storm、Yahoo的S4系統(tǒng)與Linkedin的Kafka系統(tǒng)等。尤其是Storm流式計算(重要專利有動態(tài)修改數(shù)據(jù)流的US8286191B2、US8285780B2),在非專利文獻(xiàn)庫中對其研究和應(yīng)用非常熱門,這不僅和其系統(tǒng)本身相關(guān),更和其開源相關(guān),目前廣泛引用于金融銀行業(yè)、互聯(lián)網(wǎng)、電子商務(wù)、物聯(lián)網(wǎng)等領(lǐng)域。
基于圖數(shù)據(jù)的處理一直都是計算機領(lǐng)域研究的重點,現(xiàn)今主要的圖數(shù)據(jù)庫有Neo4j、Infmite Graph與Trinity等,比較具有代表性的圖數(shù)據(jù)處理系統(tǒng)包括Google的Pregel系統(tǒng),Neo4j系統(tǒng)和微軟的Trinity系統(tǒng)。
基于內(nèi)存計算的Spark是在HadoopMapReduce的基礎(chǔ)上實現(xiàn),其不再需要讀寫HDFS,能更好的適用于數(shù)據(jù)挖掘和機器學(xué)習(xí)等迭代算法。Spark于2009年誕生,2013年進(jìn)入高速發(fā)展期,隨后便成為了Apache的頂級項目,且相應(yīng)的申請了關(guān)于緩存優(yōu)化的專利CN103631730A。由于支持多種數(shù)據(jù)源,并具有更多種性能優(yōu)化技術(shù),到了2015年Spark在國內(nèi)IT行業(yè)變得愈發(fā)火爆,大量的公司開始重點部署或者使用Spark來替代MapReduce、Hive、Storm等傳統(tǒng)的大數(shù)據(jù)計算框架。
由于傳統(tǒng)的機器學(xué)習(xí)模型幾乎無法支持大規(guī)模的數(shù)據(jù)集,而大多數(shù)數(shù)據(jù)挖掘應(yīng)用需要實時性,比如:突發(fā)事件監(jiān)測、輿情管理等,因此,對于數(shù)據(jù)挖掘技術(shù)主要面臨計算量和精度上的兩個問題。關(guān)于計算量的問題,可以采用分布式的方式加速運算,在精度上,可以用數(shù)據(jù)挖掘算法人手,在數(shù)據(jù)采集時通過采樣減少數(shù)據(jù)規(guī)模,在數(shù)據(jù)模型中采用近似求解方式或采用簡單的模型減少計算復(fù)雜度,或是通過分布式的架構(gòu)并行計算。此外,為了在減少復(fù)雜度時保證結(jié)果準(zhǔn)確度,也可以采用多個簡單模型進(jìn)行組合。如圖8所示,不管是在分類、聚類、關(guān)聯(lián)分析、時間序列分析、或者其他數(shù)據(jù)挖掘算法中,傳統(tǒng)的算法出現(xiàn)時間較早,但是并不適用于大數(shù)據(jù)的特點。因此,需要從算法的時間復(fù)雜度和計算效率等方面對傳統(tǒng)的數(shù)據(jù)挖掘算法進(jìn)行改進(jìn),如1995年前提出的ID3、C4.5、CART等決策數(shù)算法在進(jìn)行計算時需要多次掃描和排序,效率低,而1996年IBM提出的SLIQ和SPINT算法針對該缺點進(jìn)行了改進(jìn),減少了時間復(fù)雜度??偠灾瑢τ诖髷?shù)據(jù)的挖掘算法,需要改進(jìn)后,方可有實用性,比較成功的案例如:騰訊公司的Peacock改進(jìn)了LDA模型,以適應(yīng)百萬級別的主題。改進(jìn)的方式有:基于更復(fù)雜的模型、模型的組合以及混合模型。其實,在大數(shù)據(jù)分析時,由于數(shù)據(jù)的混雜性和模型,無法完全解決“測不準(zhǔn)的問題”,因此,數(shù)據(jù)挖掘的模型必須具有在線學(xué)習(xí)和流式學(xué)習(xí)的能力,一邊使用就模型,一遍納入新的數(shù)據(jù)進(jìn)行增量訓(xùn)練,快速更新模型以適應(yīng)新環(huán)境。必須指出的是,大數(shù)據(jù)不僅有規(guī)模的特點,還有多源化的特點,因此,在數(shù)據(jù)特征不多的前提下往往傳統(tǒng)的簡單的模型也非常有效,比如常見的流感預(yù)測或票房預(yù)測,簡單的線性回歸模型就可以應(yīng)對的很好。
2 結(jié)論
中國在大數(shù)據(jù)領(lǐng)域起步較晚,但是隨著我國互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,積累豐富的線上和線下數(shù)據(jù)資源,自2000年以來,在該領(lǐng)域的專利申請數(shù)量和專利申請人數(shù)量都出現(xiàn)了爆發(fā)式的增長,但是在專利申請質(zhì)量上還有待提尚。從技術(shù)構(gòu)成來看,中國專利申請主要集中于數(shù)據(jù)挖掘領(lǐng)域,其申請量占到總申請量的接近50%,在申請量最多的數(shù)據(jù)挖掘領(lǐng)域,排名靠前的申請人多為高校和研究院,這與國外申請人主要集中于企業(yè)形成了鮮明的對比,說明我國在該領(lǐng)域的技術(shù)大多還處于實驗室階段,急需將這些技術(shù)產(chǎn)業(yè)化,形成市場化的產(chǎn)品。在大數(shù)據(jù)存儲領(lǐng)域,申請量排名靠前的申請人以企業(yè)為主,但是,應(yīng)該看到,在該領(lǐng)域無論是從專利申請數(shù)量還是從專利申請數(shù)量上來看,中國的申請人還是遠(yuǎn)遠(yuǎn)落后于諸如IBM、EMC、日立這樣的國際巨頭。