田蔚+李駿宇
摘 要:通過信息情報調研,分析國內和國際的大數(shù)據(jù)挖掘與分析產業(yè)的發(fā)展環(huán)境及發(fā)展情況,從全球、中國和貴州省三個維度,對大數(shù)據(jù)專利技術發(fā)展趨勢、專利區(qū)域分布、專利主要申請人和專利技術主體分布等進行研究。文章分析了主要專利技術主題的專利申請分布以及隨時間變化的情況,掌握大數(shù)據(jù)挖掘與分析技術的研究保護熱點以及發(fā)展方向,對未來技術發(fā)展規(guī)劃提供指導。
關鍵詞:大數(shù)據(jù);挖掘與分析;專利戰(zhàn)略;Hadoop
目前我們生活的方方面面都存在數(shù)據(jù)傳輸——無論是智能手機、電子產品和城市基礎設施,毋庸置疑,一場數(shù)據(jù)革命就在眼前。據(jù)易觀國際統(tǒng)計,2015年我國大數(shù)據(jù)市場規(guī)模達102億元,2017年有望達到170億元,這看似百億級別的市場,背后卻能撬動數(shù)萬億元的相關市場規(guī)模。近年來,阿里巴巴投資優(yōu)酷和新浪微博,騰訊集團入股京東和大眾點評等,背后都有大數(shù)據(jù)整合的影子。這些掌握著流量的大數(shù)據(jù)平臺,已經成為互聯(lián)網(wǎng)資源的聚集地。
在如今的大數(shù)據(jù)時代,數(shù)據(jù)信息在帶給人們生產生活極大便利的同時,還會被諸多社會數(shù)據(jù)信息所困擾。為了使廣大人民群眾的日常生活更加便捷,需要其客觀、正確地使用、處理數(shù)據(jù)信息,完善和健全數(shù)據(jù)分析技術和數(shù)據(jù)挖掘手段,通過各種切實可行的數(shù)據(jù)分析方法科學合理地分析大數(shù)據(jù)時代下的數(shù)據(jù),做好數(shù)據(jù)挖掘技術工作。因此,我們有必要對國內和國際的大數(shù)據(jù)挖掘與分析產業(yè)相關專利深入分析,掌握關鍵技術和核心算法等研究熱點及發(fā)展方向,為未來技術發(fā)展規(guī)劃提供指導與建議。
1 大數(shù)據(jù)挖掘與分析技術
大數(shù)據(jù)是指無法在一定時間內用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內容進行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)應用流程與傳統(tǒng)數(shù)據(jù)處理流程一致,都包括數(shù)據(jù)產生、聚集數(shù)據(jù)、分析數(shù)據(jù)和利用數(shù)據(jù)4個階段,只是這一業(yè)務流程是在大數(shù)據(jù)平臺和系統(tǒng)上執(zhí)行的。目前,大數(shù)據(jù)平臺的主流技術是Hadoop+MapReduce,其中Hadoop的分布式文件處理系統(tǒng)(HDFS)作為大數(shù)據(jù)存儲的框架,分布式計算框架MapReduce作為大數(shù)據(jù)挖掘、分析處理的框架。
1.1 基本概念
數(shù)據(jù)挖掘是將隱含的、尚不為人知的同時又是潛在有用的信息從數(shù)據(jù)中提取出來。機器學習為數(shù)據(jù)挖掘提供了技術基礎,可用其將信息從數(shù)據(jù)庫的原始數(shù)據(jù)中提取出來,以可以理解的形式表達,并可用作多種用途。
數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。在大數(shù)據(jù)處理的過程中,數(shù)據(jù)分析是核心,因為大數(shù)據(jù)的價值全部在數(shù)據(jù)分析過程中產生。大數(shù)據(jù)產業(yè)中賺錢的重點在于如何提高數(shù)據(jù)的分析能力,通過分析發(fā)現(xiàn)數(shù)據(jù)的更多潛在的價值。在大數(shù)據(jù)時代,數(shù)據(jù)分析是數(shù)據(jù)價值發(fā)現(xiàn)的最重要環(huán)節(jié),也是決策的決定性元素[1]。
1.2 關鍵技術與核心算法
通過對科技文獻及各方面資料的調研,在結合中國大數(shù)據(jù)產業(yè)自身情況的技術特點的基礎上,分別針對大數(shù)據(jù)挖掘與分析算法和大數(shù)據(jù)挖掘與分析應用領域進行技術分解,得到表1。
2 專利申請保護態(tài)勢分析
2.1 專利來源與檢索策略
本分析報告涉及的專利信息檢索工作全部在INCOPAT合享新創(chuàng)專利信息服務平臺上完成,檢索截止日期為:2016年12月20日。該平臺收錄了全球102個國家、地區(qū)和組織的超過1億條專利信息,支持中英文混和檢索。本報告檢索專利數(shù)據(jù)范圍包括國內主要專利數(shù)據(jù)。
通過對大數(shù)據(jù)挖掘與分析相關專利技術的調研,結合重點關注的技術內容,從檢索要素中的關鍵詞和IPC的兩個維度作出表2,然后依據(jù)檢索要素表中的相應信息通過檢索系統(tǒng)進行檢索、分析。
2.2 專利類型及法律狀態(tài)分析
截止到檢索日期,共檢索到大數(shù)據(jù)挖掘專利與分析算法領域有569件,其中發(fā)明563件,實用新型6件,發(fā)明占了總量的98%以上。
對大數(shù)據(jù)挖掘專利與分析應用領域專利法律狀態(tài)進行統(tǒng)計,其中有效專利指授權并且正常維持的專利;審查中專利指已公開但尚未授權的專利申請;失效專利指因專利保護期屆滿、未繳費、專利無效等原因失去專利權、不再收專利法律保護的專利。發(fā)明專利中有效專利115件(20.21%),審中專利346件(60.81%),失效專利102件(17.93%),審中專利數(shù)量明顯多于其他。實用新型專利中有效專利3件(0.53%),失效專利3件(0.53%)。
綜合而言,大數(shù)據(jù)挖掘專利與分析應用中有效專利118件,審查中專利346件,失效專利105件。該領域的有效專利量占專利申請總量的20.74%,專利有效率較低;審中專利占申請總量的比例為60.81%,表明當前本領域的發(fā)明創(chuàng)造活躍度較高;失效專利占申請總量的比例為17.93%,失效率較低。實用新型專利數(shù)量幾乎可忽略不計,說明在該技術領域的發(fā)明創(chuàng)造中單純的產品類創(chuàng)造專利數(shù)量較少。
2.3 專利趨勢分析
在1993年知識產權局受理了第一件相關專利,但在2005年之前相關專利申請基本只維持一個“有”的狀態(tài),其中1994年、1995年、1996年、1997年、2001年都未有專利申請,在2005年之后相關專利申請開始出現(xiàn)增長,且增長數(shù)據(jù)增速明顯這件,到2015年達到了專利申請數(shù)量最高點,126件,并且該年申請的專利還有部分未公開的。
從總體看,大數(shù)據(jù)挖掘專利與分析算法領域目前專利申請依舊處于快速增長態(tài)勢,并且未受經濟發(fā)展趨勢(經濟增速明顯放緩)的影響,因此預計未來幾年也將保持該快速增長的趨勢。
2.4 技術主題分析
通過對相關領域專利的國際分類號(IPC)進行統(tǒng)計分析,了解大數(shù)據(jù)挖掘專利與分析算法領域主要涉及的技術領域及相關專利申請分布情況。從涉及最多的專利IPC大組前三最多占專利總量的38.49%可以看出,在大數(shù)據(jù)挖掘專利與分析算法領域直接涉及算法的專利數(shù)量不占絕對多數(shù),說明在算法技術領域核心技術較少,較多的是現(xiàn)有核心技術與具體運用技術的結合。
2.5 區(qū)域申請情況分析
通過對各省份相關專利申請情況的研究,可以有效的了解各省份的在該技術領域的技術實力,為可能的技術引進與技術合作提供合作省份方向指導。
圖3為大數(shù)據(jù)挖掘專利與分析算法領域專利申請省市地圖,可以看出,申請相關專利最多的是北京,有133件專利,其后擁有40件以上專利的省市有江蘇(92件)、上海(49件)、浙江(47件),內陸地區(qū)只有四川擁有的專利數(shù)量較多,而目前貴州沒有相關專利的申請,在技術上不具有明顯優(yōu)勢。
從整體區(qū)域上來看,在大數(shù)據(jù)挖掘專利與分析應用領域最多的算法技術主要集中在長江流域省份、珠三角及北京地區(qū),同時內蒙古、山西、貴州、青海、新疆、西藏未有相關專利的申請。
2.6 主要申請人分析
將申請人分為大專院校、科研單位、企業(yè)、個人、機關團體、其此他6大領域進行統(tǒng)計。專利申請人中大部分專利都是大專院校申請(340件,56.29%),達到了總申請量的55%以上,排在之后的企業(yè)申請量也達到186件(30.79%),科研單位擁有39件,占總量的6.46%,個人、機關團體和其他各申請了23件(3.81%)、15件(2.48%)和1件(0.17%)專利??梢园l(fā)現(xiàn)大專院校和科研單位是該技術領域技術進步的主導力量,企業(yè)也是技術進步的較重要因素。
整體上可以看出,在大數(shù)據(jù)挖掘專利與分析算法領域相關技術主要集中在大專院校和科研單位,除了國家電網(wǎng)公司以外,企業(yè)在該技術領域有一定的技術投入,但投入相對小于大專院校和科研單位。
3 結束語
目前大數(shù)據(jù)作為新興技術,各地對發(fā)展大數(shù)據(jù)產業(yè)都處于探索階段,大數(shù)據(jù)產業(yè)的核心是數(shù)據(jù)挖掘和應用,結合中國自身的產業(yè)及知識產權情況,提出如下建議:
一是制定更加有利于大數(shù)據(jù)產業(yè)發(fā)展政策。結合國內大數(shù)據(jù)產業(yè)實際發(fā)展情況,在經過全面、深入、徹底的知識產權及技術評估后,針對性的對中國大數(shù)據(jù)挖掘及分析產業(yè)提出指導性、綱領性的文件,并配套相應的扶持政策。
二是積極契合國家及省內的大數(shù)據(jù)相關扶持政策。積極引導企業(yè)在保證市場前景和技術開發(fā)難度的情況下,盡可能的使開發(fā)或引進技術及產業(yè)符合政策扶持要求,通過政策扶持的手段最大程度上減少企業(yè)的產業(yè)發(fā)展成本及技術研發(fā)成本。
三是加強技術攻關、搶占技術前沿。擬在科技計劃中設立大數(shù)據(jù)科技專項,圍繞海量數(shù)據(jù)挖掘、海量數(shù)據(jù)分析、數(shù)據(jù)信息應用等重點方向,以企業(yè)為主體加強關鍵技術攻關并推動成果產業(yè)化,同時在此基礎上進行全面的、細致的專利布局,對自身的發(fā)明創(chuàng)造實現(xiàn)全方位的保護。
四是加強知識產權宣傳力度。大力宣傳知識產權對企業(yè)的價值,促使企業(yè)提高對知識產權方面的重視程度,特別是對知識產權運用的重視程度,讓企業(yè)在規(guī)避知識產權方面風險的同時實現(xiàn)自身知識產權價值的最大化。
參考文獻
[1]陳良臣.大數(shù)據(jù)挖掘與分析的關鍵技術研究[J].數(shù)字技術與應用,2016(2).
[2]單海波.淺談大數(shù)據(jù)時代的數(shù)據(jù)分析[J].科技創(chuàng)新與應用,2016(24).