曾 立 王文佳
近年來(lái),幾乎所有行業(yè)或多或少受到大數(shù)據(jù)的影響??萍紳B透到各個(gè)領(lǐng)域,并且已經(jīng)成為每個(gè)處理單元的必要元素。英國(guó)學(xué)者舍恩伯格和庫(kù)克耶2013年合著《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,開啟了大數(shù)據(jù)研究的先河。他們?cè)跁兄赋?,大?shù)據(jù)帶來(lái)的信息風(fēng)暴正在變革人們的生活、工作和思維,一個(gè)大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時(shí)代正在開啟。①維克托·邁克-舍恩伯格, 肯尼思·庫(kù)克耶. 大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M]. 杭州: 浙江人民出版社, 2013.
專利數(shù)據(jù),作為專業(yè)行業(yè)基礎(chǔ)數(shù)據(jù)、專利文獻(xiàn)的源頭,是指申請(qǐng)人提交的專利申請(qǐng),經(jīng)過(guò)專利審查部門的受理、信息采集、掃描、代碼化加工、形式審查或?qū)嵸|(zhì)審查等所產(chǎn)生的數(shù)據(jù)。專利數(shù)據(jù),以其內(nèi)容廣博、數(shù)量巨大等特點(diǎn),被人們譽(yù)為集科技、經(jīng)濟(jì)和法律信息為一體的科技信息資源。同一科技成果出現(xiàn)在專利文獻(xiàn)中的時(shí)間比出現(xiàn)在其他信息載體中的時(shí)間平均早1~2年,因此,從專利文獻(xiàn)分析入手,能夠更好地掌握當(dāng)前技術(shù)發(fā)展現(xiàn)狀,以及未來(lái)發(fā)展趨勢(shì)。專利篩選是從專利中獲取有價(jià)值信息的重要途徑,所以專利篩選為了解當(dāng)前技術(shù)現(xiàn)狀及進(jìn)一步技術(shù)創(chuàng)新提供了重要依據(jù)。如何將大數(shù)據(jù)技術(shù)和專利篩選結(jié)合,更好地利用海量專利數(shù)據(jù),使其產(chǎn)生此前不曾預(yù)料的價(jià)值,成為時(shí)下研究的熱點(diǎn)。本文將從大數(shù)據(jù)專利篩選的現(xiàn)狀入手,暢談國(guó)防科技戰(zhàn)略研究智庫(kù)關(guān)于專利篩選大數(shù)據(jù)技術(shù)的設(shè)想方案。
創(chuàng)新是推動(dòng)經(jīng)濟(jì)實(shí)現(xiàn)成功與增長(zhǎng)的動(dòng)力,創(chuàng)新能力決定著一個(gè)國(guó)家的綜合國(guó)力和長(zhǎng)遠(yuǎn)發(fā)展?jié)摿?。②FURMAN J. L., HAYES R. Catching up or standing still? : National innovative productivity among 'Follower' Countries, 1978-1999[J]. Research Policy, 2004, 33(9): 1329-1354.當(dāng)前,科學(xué)技術(shù)的飛速發(fā)展及其對(duì)經(jīng)濟(jì)與社會(huì)發(fā)展的超常規(guī)巨大推動(dòng)力,已經(jīng)成為當(dāng)今社會(huì)的主要時(shí)代特征之一。③張志強(qiáng). 洞察科技發(fā)展趨勢(shì) 支撐科學(xué)發(fā)展決策——《世界科技研究與發(fā)展》2017年卷首語(yǔ)[J]. 世界科技研究與發(fā)展,2017,39(1):1-2.科技創(chuàng)新不僅是發(fā)達(dá)國(guó)家,更是發(fā)展中國(guó)家追趕和保持一定經(jīng)濟(jì)增長(zhǎng)率的關(guān)鍵要素,在國(guó)家經(jīng)濟(jì)增長(zhǎng)中發(fā)揮著關(guān)鍵作用。④WANG L., SZIRMAI A. The Unexpected Covergence of Regional Productivity in Chinese Industry, 1978-2005[J]. Oxford Development Studies, 2013, 41(1):29-53.黨的十八大正式提出實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,中國(guó)的創(chuàng)新能力不斷提升,在許多方面取得了長(zhǎng)足進(jìn)步,已經(jīng)跨入世界科技創(chuàng)新型國(guó)家行列。
2017年發(fā)布的《全球?qū)@麆?chuàng)新活動(dòng)研究報(bào)告2016》指出,2008年至2015年,中國(guó)發(fā)明專利公開量和授權(quán)量年均增長(zhǎng)率分別為20.9 7%與22.48%,中國(guó)國(guó)內(nèi)的技術(shù)創(chuàng)新強(qiáng)勢(shì)推動(dòng)了全球?qū)@夹g(shù)創(chuàng)新的增長(zhǎng)勢(shì)頭,中國(guó)已成為僅次于美國(guó)的專利布局目標(biāo)市場(chǎng)。⑤國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利文獻(xiàn)部,中國(guó)專利技術(shù)開發(fā)公司. 全球?qū)@麆?chuàng)新活動(dòng)研究報(bào)告[M]. 北京:知識(shí)產(chǎn)權(quán)出版社,2017.2018年發(fā)布的《2017全球創(chuàng)新報(bào)告》指出,盡管中國(guó)的專利增長(zhǎng)速度近期有所放緩,但在過(guò)去的十年間,中國(guó)發(fā)明專利數(shù)量的年平均增長(zhǎng)率仍保持22.6%的高水平,中國(guó)新發(fā)明專利的數(shù)量占全球總量的68.1%。⑥湯森路透. 2017全球創(chuàng)新報(bào)告:進(jìn)無(wú)止境[R]. 北京:湯森路透,2018.
專利不僅僅是衡量創(chuàng)新能力的重要指標(biāo),其所囊括的大量零碎專利信息經(jīng)過(guò)分析、加工、組合后,可轉(zhuǎn)化為技術(shù)情報(bào),為國(guó)家和企業(yè)的相關(guān)決策提供參考。無(wú)論企業(yè)還是國(guó)家,都將研發(fā)工作視為首要任務(wù),并希望將資金和資源優(yōu)先分配給研發(fā)活動(dòng),以獲得更大的成功幾率。專利篩選通過(guò)對(duì)專利數(shù)據(jù)分析挖掘,篩選出值得推廣的專利技術(shù),能夠更好地配置資源,提高專利推廣和科技成果轉(zhuǎn)化的成功率。由于專利數(shù)量大、分布零散,專利篩選工作量大,耗時(shí)長(zhǎng),效率非常低。同時(shí),專利數(shù)據(jù)集科技、法律、經(jīng)濟(jì)信息一體,如果采用傳統(tǒng)的人工專利篩選方式,對(duì)從業(yè)人員素質(zhì)涵養(yǎng)要求極高。日漸成熟的大數(shù)據(jù)技術(shù)為專利篩選提供了利器。
“大數(shù)據(jù)(Big Data)””概念在上世紀(jì)9 0年代最初提出時(shí),是對(duì)無(wú)法用傳統(tǒng)手段進(jìn)行抓取、管理和處理的數(shù)據(jù)的統(tǒng)稱。⑦盧青,趙澎碧.大數(shù)據(jù)環(huán)境下的專利分析模型研究[J]. 現(xiàn)代情報(bào),2018,38(1):37-44.近年來(lái),圍繞大數(shù)據(jù)產(chǎn)生了眾多新信息技術(shù),高速、大規(guī)模的數(shù)據(jù)交換、互聯(lián)成為現(xiàn)實(shí)。美國(guó)麥肯錫公司在其報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和下一個(gè)生產(chǎn)力前沿》中指出,“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!雹嘤?jì)算機(jī)行業(yè)-大數(shù)據(jù)(Big Data)專題報(bào)告[R]. 上海:光大證券股份有限公司研究所,2011.
大數(shù)據(jù)不是具體的方法,甚至不算具體的研究學(xué)科,而是對(duì)某一類問(wèn)題或需要處理的數(shù)據(jù)的描述。具有以下四個(gè)層面的特點(diǎn),即4個(gè)“V”⑨大數(shù)據(jù)分析技術(shù)的發(fā)展[EB/OL]. 2012-05-16. http:/ / tech. ccidnet. com / art / 32963/ 20120516/ 3859799_1. html.:
(1)海量的數(shù)據(jù)規(guī)模(Volume):人類社會(huì)的數(shù)據(jù)量在不斷刷新一個(gè)個(gè)新的量級(jí)單位,已經(jīng)從T B、P B級(jí)別躍升到了E B、Z B級(jí)別。其中,非結(jié)構(gòu)化數(shù)據(jù)規(guī)模巨大、增長(zhǎng)迅速。
(2)多樣的數(shù)據(jù)類型(Variety):數(shù)據(jù)類型繁多。數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,比如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。 數(shù)據(jù)格式囊括了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
(3)價(jià)值密度低(Value):大量的不相關(guān)信息,比如,連續(xù)不間斷監(jiān)控視頻中,可能有用的數(shù)據(jù)僅僅一兩秒鐘。
(4)處理速度快(Velocity):大量在線或?qū)崟r(shí)數(shù)據(jù)分析處理,而非批量式分析。數(shù)據(jù)輸入、處理與丟棄,一秒鐘完成,而非事后見(jiàn)效。
傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理以結(jié)構(gòu)化數(shù)據(jù)為主,因此關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)(RDBMS)可以滿足各類應(yīng)用需求。專利數(shù)據(jù)往往是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為主,結(jié)構(gòu)化數(shù)據(jù)為輔,其篩選應(yīng)用需要對(duì)不同類型的數(shù)據(jù)內(nèi)容檢索、交叉對(duì)比、深度挖掘與綜合分析。面對(duì)這類篩選要求,傳統(tǒng)的以結(jié)構(gòu)化數(shù)據(jù)為主的數(shù)據(jù)庫(kù)無(wú)論在技術(shù)上還是功能上都難以為繼。
大數(shù)據(jù)領(lǐng)域每年都會(huì)涌現(xiàn)出大量新的技術(shù),成為大數(shù)據(jù)獲取、存儲(chǔ)、處理分析和可視化的有效手段。大數(shù)據(jù)分析技術(shù)包括A/B測(cè)試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、眾包(c r o w d s o u r c i n g)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識(shí)別、預(yù)測(cè)建模、回歸、情感分析、信號(hào)處理、空間分析、統(tǒng)計(jì)、監(jiān)督學(xué)習(xí)、模擬、時(shí)間序列分析、無(wú)監(jiān)督學(xué)習(xí)和可視化。⑩李廣建,楊林. 大數(shù)據(jù)視角下的情報(bào)研究與情報(bào)研究技術(shù)[J]. 圖書與情報(bào),2012(6):1-8.這些技術(shù)絕大部分是已有的技術(shù),也有部分是隨著互聯(lián)網(wǎng)的發(fā)展以及對(duì)大規(guī)模數(shù)據(jù)挖掘的需求,在原有技術(shù)的角度發(fā)展起來(lái)的。對(duì)專利數(shù)據(jù)的深度分析主要是基于大規(guī)模的機(jī)器學(xué)習(xí)技術(shù)。一般而言,機(jī)器學(xué)習(xí)模型的訓(xùn)練過(guò)程可以歸納為最優(yōu)化定義于大規(guī)模訓(xùn)練數(shù)據(jù)上的目標(biāo)函數(shù)并通過(guò)一個(gè)循環(huán)迭代的算法實(shí)現(xiàn)。①蘇金樹,張博鋒,徐昕. 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 軟件學(xué)報(bào),2006,17(9):1848-1859.在專利數(shù)據(jù)分析的應(yīng)用過(guò)程中,可視化通過(guò)交互式視覺(jué)表現(xiàn)的方式來(lái)幫助人們探索和理解復(fù)雜的專利數(shù)據(jù)??梢暬c可視分析能夠迅速和有效地簡(jiǎn)化與提煉數(shù)據(jù)流,幫助人們交互篩選大量的數(shù)據(jù),有助于人們更快更好地從復(fù)雜專利數(shù)據(jù)中發(fā)現(xiàn)科技現(xiàn)狀、發(fā)展趨勢(shì)。
目前市場(chǎng)上,以文本搜索為核心的數(shù)據(jù)框架平臺(tái)越來(lái)越多。比如,德溫特專利引文索引(DPCI)是由專利引文和科學(xué)文獻(xiàn)引文兩部分組成的引文數(shù)據(jù)庫(kù)。這些引文可以追蹤一件發(fā)明在成型過(guò)程中參考的所有文獻(xiàn)、該項(xiàng)發(fā)明的影響,以及推動(dòng)其繼續(xù)發(fā)展改進(jìn)的未來(lái)技術(shù)。用戶可以洞悉專利有效性和侵權(quán)狀況,揭示已有在先技術(shù),發(fā)現(xiàn)空白領(lǐng)域,開展競(jìng)爭(zhēng)格局調(diào)查。大數(shù)據(jù)技術(shù)整合了分布零散的專利數(shù)據(jù),專利數(shù)據(jù)挖掘的深度不斷加深。大數(shù)據(jù)技術(shù)的應(yīng)用減少了專利篩選的工作量,縮短了時(shí)間,提高了數(shù)據(jù)分析的準(zhǔn)確性。同時(shí),大數(shù)據(jù)技術(shù)的應(yīng)用打通了專利數(shù)據(jù)的更多維度,在一定程度上緩解了專利篩選人才短缺的問(wèn)題。
在大數(shù)據(jù)時(shí)代,人們迫切希望在由普通機(jī)器組成的大規(guī)模集群上實(shí)現(xiàn)高性能的以機(jī)器學(xué)習(xí)算法為核心的數(shù)據(jù)分析,為實(shí)際業(yè)務(wù)提供服務(wù)和指導(dǎo),進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的最終變現(xiàn)。然而,非結(jié)構(gòu)化數(shù)據(jù)分析目前仍是大數(shù)據(jù)技術(shù)的瓶頸。一方面,由于先驗(yàn)知識(shí)的缺乏,非結(jié)構(gòu)化數(shù)據(jù)很難以類似結(jié)構(gòu)化數(shù)據(jù)的方式構(gòu)建出其內(nèi)部的正式關(guān)系;另一方面,很多數(shù)據(jù)以流的形式源源不斷地到來(lái),這些需要實(shí)時(shí)處理的數(shù)據(jù)很難有足夠的時(shí)間去建立先驗(yàn)知識(shí)。
非結(jié)構(gòu)化數(shù)據(jù)所反映的信息蘊(yùn)含著提高專利篩選效率的機(jī)會(huì)。只有解決非結(jié)構(gòu)化數(shù)據(jù)的分析困難,才能更有效地將大規(guī)模專利數(shù)據(jù)中隱藏的信息和知識(shí)挖掘出來(lái),克服逐漸攀升的數(shù)據(jù)量和復(fù)雜性對(duì)專利篩選的重重阻礙,驅(qū)動(dòng)科技成果轉(zhuǎn)化的效率。
針對(duì)當(dāng)前專利分析大數(shù)據(jù)技術(shù)的瓶頸問(wèn)題,國(guó)防科技戰(zhàn)略研究智庫(kù)(后文簡(jiǎn)稱智庫(kù))計(jì)劃利用“人工智能+大數(shù)據(jù)+小型超級(jí)計(jì)算機(jī)”的模式進(jìn)行專利篩選技術(shù)開發(fā)。智庫(kù)進(jìn)行了超級(jí)計(jì)算機(jī)小型化研究。小型化就是針對(duì)特定專業(yè)具體需求,提供軟硬件一體的定制服務(wù)。小型超級(jí)計(jì)算機(jī)可以為人工智能、大數(shù)據(jù)技術(shù)提供充足的計(jì)算性能。智庫(kù)計(jì)劃以小型超級(jí)計(jì)算機(jī)平臺(tái)為基礎(chǔ),運(yùn)用人工智能、大數(shù)據(jù)技術(shù),從多個(gè)類別、外部來(lái)源、類型聚合中提取內(nèi)容,包括專利數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)數(shù)據(jù)、期刊文獻(xiàn)數(shù)據(jù)庫(kù)等,使用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和其他分析來(lái)組織、分析和可視化專利數(shù)據(jù)和內(nèi)容,理解含義并識(shí)別趨勢(shì)、模式、關(guān)聯(lián)和異常。這個(gè)項(xiàng)目的成果可以為技術(shù)研發(fā)人員、投資方和政府提供輔助決策和咨詢服務(wù)。
專利篩選可以服務(wù)于產(chǎn)品、產(chǎn)業(yè)和國(guó)家戰(zhàn)略,為各方提供科學(xué)輔助。專利數(shù)據(jù)是技術(shù)研發(fā)的工作基礎(chǔ),進(jìn)行專利數(shù)據(jù)分析研究,不僅僅是為技術(shù)研發(fā)過(guò)程中的問(wèn)題解決方法提供良好策略,也可將之用于考查技術(shù)系統(tǒng)開發(fā)應(yīng)用的一般規(guī)律。通過(guò)專利數(shù)據(jù)篩選分析,研發(fā)人員可以明確要做什么,接下來(lái)的研究在多個(gè)技術(shù)路線中采用什么樣的技術(shù)或手段實(shí)現(xiàn)產(chǎn)品和服務(wù)。當(dāng)投資者開始關(guān)注一項(xiàng)新技術(shù),首先要做的是了解這個(gè)產(chǎn)業(yè)的格局,市場(chǎng)的趨勢(shì)、政策的趨勢(shì)、技術(shù)的趨勢(shì)和地區(qū)是否能夠承載某一產(chǎn)業(yè)發(fā)展的各種因素,例如區(qū)域因素和人才因素等。專利數(shù)據(jù)篩選分析能夠找到“錢去向哪里、團(tuán)隊(duì)去向哪里、誰(shuí)在研究什么技術(shù),以及這項(xiàng)技術(shù)的基礎(chǔ)和前景”等方面的線索。投資者可以根據(jù)專利技術(shù)篩選分析,識(shí)別技術(shù),制定自己的投資戰(zhàn)略和計(jì)劃。專利技術(shù)篩選分析可以揭示各個(gè)產(chǎn)業(yè)的技術(shù)發(fā)展格局,聚焦前沿技術(shù)、交叉技術(shù)。從國(guó)家戰(zhàn)略和政府層面來(lái)看,利用專利技術(shù)篩選結(jié)果能有效地進(jìn)行技術(shù)識(shí)別,揭穿技術(shù)欺騙,建立中國(guó)特色的科技發(fā)展路線,掌握未來(lái)世界科技發(fā)展的話語(yǔ)權(quán)。