趙亮等
摘 要:創(chuàng)新方法是創(chuàng)新經(jīng)驗和技巧的高度總結,是技術創(chuàng)新的“孫子兵法”,傳統(tǒng)創(chuàng)新方法在互聯(lián)網(wǎng)技術推動下的“大數(shù)據(jù)”時代,在創(chuàng)新資源相關數(shù)據(jù)的獲取和融合效率方面面臨新的機遇與挑戰(zhàn)。文章通過對大數(shù)據(jù)技術與方法以及圍繞著大數(shù)據(jù)環(huán)境下的企業(yè)技術創(chuàng)新與管理決策相關技術與方法的研究,通過院校合作,構建起大數(shù)據(jù)環(huán)境下的技術創(chuàng)新與決策的技術框架體系,依據(jù)技術創(chuàng)新“雙向決策模型”,通過數(shù)據(jù)的在線收集與預處理、大數(shù)據(jù)存儲與預處理技術體系、創(chuàng)新資源數(shù)據(jù)的可視化技術與決策技術方法和創(chuàng)新應用工具的開發(fā)四個子項的實施,實現(xiàn)技術創(chuàng)新的“評估與預測”和“監(jiān)測與預警”。結合企業(yè)研發(fā)與技術創(chuàng)新實踐,希望能幫助企業(yè)實現(xiàn)更加精準的技術創(chuàng)新決策。
關鍵詞:創(chuàng)新方法;大數(shù)據(jù);技術創(chuàng)新管理
引言
提高國家與企業(yè)的自主創(chuàng)新能力是建設創(chuàng)新型國家發(fā)展戰(zhàn)略的核心和提高綜合國力的關鍵。國家、企業(yè)間的競爭既要依靠創(chuàng)新,也受到創(chuàng)新效率的影響。先進的創(chuàng)新方法是保證創(chuàng)新效率的基礎。創(chuàng)新方法是創(chuàng)新經(jīng)驗和技巧的高度總結,是創(chuàng)新的兵法。如何將創(chuàng)新方法的最新研究成果轉化為現(xiàn)實生產(chǎn)力是當前高效創(chuàng)新驅動面臨的挑戰(zhàn)。另一方面,互聯(lián)網(wǎng)技術推動下的“大數(shù)據(jù)”時代的來臨,企業(yè)通過從海量的數(shù)據(jù)中萃取有效知識并將其轉化為新的商業(yè)競爭優(yōu)勢[1]的信息管理思想和技術方法正在實現(xiàn)。如何有效使用“大數(shù)據(jù)”來實現(xiàn)對創(chuàng)新方法的創(chuàng)新,則成為了目前學術界與企業(yè)界廣泛關注的焦點。因此,文章希望通過大數(shù)據(jù)技術與方法的深入研究,利用大數(shù)據(jù)技術來變革和提升創(chuàng)新方法、思維體系與管理模式,并促進企業(yè)自主創(chuàng)新和生產(chǎn)力的快速提高,使技術創(chuàng)新管理工作適應企業(yè)創(chuàng)新實踐的新需求。
1 研究背景
1.1 大數(shù)據(jù)的研究進展與趨勢
自1998年美國硅圖公司(SGI)的首席科學家John R.Masey提出了大數(shù)據(jù)概念以來,隨著網(wǎng)絡技術的發(fā)展人們在近年來從海量數(shù)據(jù)分析的角度轉向大數(shù)據(jù)。其中,以Facebook為代表的社交網(wǎng)絡軟件的應用,直接導致大量非結構化數(shù)據(jù)的涌現(xiàn),并促進了針對非結構化數(shù)據(jù)查詢與處理技術快速發(fā)展。2008年,《Nature》雜志出版??禕ig Data》針對多個學科的實際研究現(xiàn)狀系統(tǒng)地介紹了“大數(shù)據(jù)”所蘊含的潛在價值和挑戰(zhàn)。2011年,《Science》雜志出版的專刊《Dealing with Data》標志著“大數(shù)據(jù)”時代的到來[2]。隨后,美國奧巴馬政府在2012年3月推出“大數(shù)據(jù)研究開發(fā)計劃”(Big Data Research and Development Initiative)。該計劃的目標是改進現(xiàn)有人們從海量和復雜的數(shù)據(jù)中獲取知識的能力,從而加速美國在科學與工程領域發(fā)明的步伐,增強國家安全,轉變現(xiàn)有的教學和學習方式[3],從而實現(xiàn)從“數(shù)據(jù)分析能力”向“數(shù)據(jù)決策能力與優(yōu)勢”的轉化[4]。
目前,針對大數(shù)據(jù)的概念與定義還存在著許多不同的分析角度。其中,大數(shù)據(jù)研究機構Gartner對“大數(shù)據(jù)”的定義為:需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。“大數(shù)據(jù)”的資產(chǎn)屬性暗含了通過“分析”可以給其擁有和控制者帶來預期的利益,它是從數(shù)據(jù)中萃取知識,并將其轉化為商業(yè)競爭優(yōu)勢的智能化活動。麥肯錫公司(McKinsey)看到了個人海量信息具備潛在的商業(yè)價值,成為最早應用“大數(shù)據(jù)”的公司,并發(fā)布了關于“大數(shù)據(jù)”的麥肯錫報告[5]。
我國在2011年12月,國家工業(yè)和信息化部發(fā)布的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》上,將信息處理技術作為四項關鍵技術創(chuàng)新工程之一被提出,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分[6]。2012年5月,主題為“網(wǎng)絡數(shù)據(jù)科學與工程─一門新興的交叉學科?”的香山科學會議在北京召開,隨后以李國杰院士為核心的計算機學科專家學者紛紛就圍繞“大數(shù)據(jù)”定義的“數(shù)據(jù)科學”的理論框架與算法應用等問題進行了綜合性的歸納研究與討論[7]。北京航空航天大學馬帥教授等就對“大數(shù)據(jù)”的異構數(shù)據(jù)模型與存儲、復雜數(shù)據(jù)智能分析、數(shù)據(jù)質量以及大數(shù)據(jù)安全性等問題也進行了分析和討論[8]。如何合理高效的利用這些海量的數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)創(chuàng)新與決策提供優(yōu)化的服務,則是目前企業(yè)創(chuàng)新過程中面臨的一個重要的挑戰(zhàn)。
1.2 大數(shù)據(jù)環(huán)境下創(chuàng)新管理的雙向決策模型
針對大數(shù)據(jù)環(huán)境對科技創(chuàng)新決策管理帶來的挑戰(zhàn),中國科學院的王飛躍教授在處理與分析大數(shù)據(jù)使其有效支撐科技決策問題中構建了面向大數(shù)據(jù)和開源信息的科技態(tài)勢解析與決策服務[9]。而北京理工大學朱東華教授針對美國“大數(shù)據(jù)研究開發(fā)計劃”項目的深入調(diào)研,尤其是針對大數(shù)據(jù)計劃最核心的美國國防部及國防部高級研究計劃局在相關立項中的側重點與項目目標的分析,發(fā)現(xiàn)從傳統(tǒng)的“目標驅動決策”向“數(shù)據(jù)驅動決策”的重大轉型是美國國家戰(zhàn)略應對大數(shù)據(jù)環(huán)境的最直接變化之一。而基于傳統(tǒng)數(shù)據(jù)分析方法的“評估與預測”理念也正在向“監(jiān)測與預警”轉化。有效地利用大數(shù)據(jù)環(huán)境,深入挖掘與分析潛在技術競爭情報,監(jiān)測技術的發(fā)展動態(tài),分析潛在的網(wǎng)絡威脅與攻擊,正是大數(shù)據(jù)環(huán)境下美國政府的全新國家戰(zhàn)略思維與部署。同時,研究團隊在整合技術創(chuàng)新管理現(xiàn)有理論方法的基礎上,構建了面向技術創(chuàng)新管理的雙向決策模型,即目標驅動模式與數(shù)據(jù)驅動模式并行的雙向決策模型[10](見圖1)。一方面,以傳統(tǒng)目標驅動為基礎,形成以傳統(tǒng)數(shù)據(jù)挖掘技術與方法為核心的數(shù)據(jù)獲取、處理、分析、支持決策的技術評估與預測模型。另一方面,圍繞大數(shù)據(jù)環(huán)境下的復雜數(shù)據(jù)特征與環(huán)境,采用當前數(shù)據(jù)挖掘領域應用于大數(shù)據(jù)處理的新方法、新思路,形成以自組織動態(tài)實時監(jiān)測為核心,能夠有效預警并積極處理突發(fā)事件的技術監(jiān)測與預警模型。
技術評估與預測模型圍繞雙向決策中的“目標驅動決策”展開,在大數(shù)據(jù)環(huán)境下,采用常規(guī)的數(shù)據(jù)挖掘方法,通過數(shù)據(jù)采集、加工與分析計算等步驟,將數(shù)據(jù)轉化為可供技術創(chuàng)新決策目標支持的有效知識或觀點。具體運用在技術創(chuàng)新管理工作中,“目標驅動決策”模型通過有目的的對大數(shù)據(jù)環(huán)境下科技、網(wǎng)絡以及其他數(shù)據(jù)中的潛在信息進行有效萃取與分析,實現(xiàn)對具體技術領域的“知識發(fā)現(xiàn)”與“可視化”,從而達到評估技術發(fā)展狀態(tài),預測技術發(fā)展趨勢的最終目的。
技術監(jiān)測與預警模型以數(shù)據(jù)為驅動,不同于事先制定目標,依目標的需求進行相應的數(shù)據(jù)挖掘工作。技術監(jiān)測與預警模型通過規(guī)則的建立與基于機器學習的算法訓練,形成專注于“數(shù)據(jù)”本身的實時監(jiān)測模型,通過對小規(guī)模數(shù)據(jù)的訓練與學習,形成反應并處理相應大數(shù)據(jù)的人工智能。在技術創(chuàng)新管理工作中,基于傳統(tǒng)數(shù)據(jù)挖掘方法的基礎上,融入能夠響應動態(tài)數(shù)據(jù)變化的動態(tài)數(shù)據(jù)挖掘理念,通過提升機器的自組織與自學能力,從而達到分析潛在新興技術的發(fā)展動態(tài),挖掘可能促進技術升級的核心技術,監(jiān)測競爭對手相關技術領域的最新進展,并針對這一切可能情況做出及時并有效的反應,實現(xiàn)技術監(jiān)測與預警的目的。面向技術創(chuàng)新管理的雙向決策模型,整合傳統(tǒng)的“目標驅動決策”與大數(shù)據(jù)環(huán)境下的“數(shù)據(jù)驅動決策”理念及方法,分別從“技術評估與預測”及“技術監(jiān)測與預警”兩個方面創(chuàng)造性的構建了適用于技術創(chuàng)新管理的新方案,為應對大數(shù)據(jù)環(huán)境,企業(yè)高效實施技術創(chuàng)新提供了行之有效的新路徑。
2 大數(shù)據(jù)環(huán)境下企業(yè)技術創(chuàng)新方法
與傳統(tǒng)創(chuàng)新數(shù)據(jù)的獲取相比,大數(shù)據(jù)改變了創(chuàng)新方法與過程的數(shù)據(jù)來源以及環(huán)境基礎,為挖掘知識數(shù)據(jù)中隱藏的價值帶來了新的機遇和新的挑戰(zhàn)。創(chuàng)新方法需要數(shù)據(jù)的支持,而大數(shù)據(jù)技術通過對海量數(shù)據(jù)的分析可以最大程度地降低創(chuàng)新過程中的不確定性,以及知識轉化和推理過程中的難題。甚至以數(shù)據(jù)為基礎的定量分析方法也有逐步取代耗時耗力的以專家為基礎的定性分析方法的趨勢。為了更好地將技術創(chuàng)新工作與大數(shù)據(jù)應用環(huán)境相結合,以應對大數(shù)據(jù)條件下,復雜的國際間以及企業(yè)之間的競爭,本研究試圖在整合創(chuàng)新方法現(xiàn)有理論方法的基礎上,充分考慮大數(shù)據(jù)環(huán)境帶來的挑戰(zhàn)與機遇,將決策驅動的根源由傳統(tǒng)的“目標驅動決策”向“目標、數(shù)據(jù)雙向驅動決策”轉化。并依據(jù)“雙向決策模型”,一方面,采用傳統(tǒng)目標驅動創(chuàng)新方法時,形成了以傳統(tǒng)數(shù)據(jù)挖掘技術與方法為核心的數(shù)據(jù)獲取、處理、分析、支持決策的技術創(chuàng)新模型;另一方面,圍繞大數(shù)據(jù)環(huán)境下的復雜數(shù)據(jù)特征與環(huán)境,采用當前大數(shù)據(jù)處理中海量數(shù)據(jù)提取、分布式數(shù)據(jù)處理和存儲技術以及大數(shù)據(jù)可視化技術等,并通過下面四個子項的研究實施,最終實現(xiàn)在大數(shù)據(jù)環(huán)境下為企業(yè)技術創(chuàng)新與管理創(chuàng)新提供有效的創(chuàng)新決策支持。研究的整體框架如圖2所示。
2.1 數(shù)據(jù)的在線收集與預處理
基于大數(shù)據(jù)環(huán)境的創(chuàng)新決策主要通過對各種創(chuàng)新數(shù)據(jù)進行動態(tài)分析,將不同領域、不同類型的創(chuàng)新資源進行融合?;诙嘣串悩媱?chuàng)新資源大數(shù)據(jù)的在線監(jiān)測、自動收集與預警機制研究主要包含三方面的內(nèi)容:一是利用網(wǎng)絡數(shù)據(jù)的在線監(jiān)測技術與主動爬蟲技術,研究大數(shù)據(jù)環(huán)境下創(chuàng)新資源的自動獲取與自動收集機制,特別是在半結構化和非結構化數(shù)據(jù)中蘊藏的巨大價值;二是自動地識別不同主題下創(chuàng)新資源的內(nèi)容信息,并且將這些信息按照特定的規(guī)則和要求自動地收集與增量式抓??;三是針對期刊、報告等在內(nèi)的傳統(tǒng)科技領域數(shù)據(jù)資源以及網(wǎng)絡中社交、輿情等數(shù)據(jù)和其它多數(shù)據(jù)來源中的潛在信息進行有效萃取與分析,實現(xiàn)對創(chuàng)新資源與不同創(chuàng)新方法的信息特征分析。技術難點是對不同數(shù)據(jù)源的技術創(chuàng)新數(shù)據(jù)識別獲取和融合。
主動爬蟲技術已被廣泛應用在網(wǎng)絡信息的安全監(jiān)控與信息獲取過程中。監(jiān)測對象主要包括:期刊、專利、技術研究報告與統(tǒng)計數(shù)據(jù)等在內(nèi)的科技領域數(shù)據(jù)資源,同時也包含了網(wǎng)絡中發(fā)布的創(chuàng)新政策、社交數(shù)據(jù)、博客與微博數(shù)據(jù)、企業(yè)報表、網(wǎng)絡輿情數(shù)據(jù)、市場動態(tài)數(shù)據(jù)以及金融交易數(shù)據(jù)等海量數(shù)據(jù)資源。另外,隨著創(chuàng)新方法與工具的發(fā)展,創(chuàng)新方法與創(chuàng)新資源的數(shù)據(jù)量也呈現(xiàn)出爆炸性的增長態(tài)勢。特別是在半結構化和非結構化數(shù)據(jù)中蘊藏的巨大價值,大量的創(chuàng)新資源與創(chuàng)新方法的實踐結果往往也分布在網(wǎng)絡中不同的數(shù)據(jù)系統(tǒng)內(nèi),并且以數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)頁、文件等形式存在。因此,如何自動地識別不同主題下創(chuàng)新資源的內(nèi)容信息,并且將這些信息按照特定規(guī)則和要求來自動地收集與增量式抓取[11],是研究面對的一個重要挑戰(zhàn)。
2.2大數(shù)據(jù)存儲與預處理技術體系
基于創(chuàng)新資源與創(chuàng)新方法的大數(shù)據(jù)存儲與預處理技術體系研究的主要任務是利用創(chuàng)新資源的分類特征抽取和信息融合,對創(chuàng)新資源和創(chuàng)新方法中的多源異構數(shù)據(jù)進行存儲和預處理,為創(chuàng)新資源大數(shù)據(jù)分析奠定基礎。主要工作包含三方面的內(nèi)容:一是創(chuàng)新資源與創(chuàng)新方法大數(shù)據(jù)的存儲與并行處理機制研究;二是創(chuàng)新資源與創(chuàng)新方法大數(shù)據(jù)的預處理技術方案實現(xiàn);三是根據(jù)創(chuàng)新方法與創(chuàng)新資源的特定需求進行多層聚合,形成統(tǒng)一的創(chuàng)新方法大數(shù)據(jù)資源庫。該工作的技術難點是創(chuàng)新數(shù)據(jù)本體庫的建立和海量創(chuàng)新資源與創(chuàng)新文本數(shù)據(jù)的特征提取與優(yōu)化。
在創(chuàng)新資源與創(chuàng)新方法大數(shù)據(jù)的存儲與并行處理機制研究方面,針對創(chuàng)新資源與創(chuàng)新方法數(shù)據(jù)的復雜性、多源異構性以及體量巨大等特點,在Hadoop平臺和Hbase數(shù)據(jù)庫基礎上,建立一個創(chuàng)新資源大數(shù)據(jù)的分布式存儲框架。該框架采用HDFS文件系統(tǒng)(Hadoop Distributed File System)來實現(xiàn)高吞吐量的數(shù)據(jù)訪問以及流式的數(shù)據(jù)訪問,適合大規(guī)模創(chuàng)新資源與創(chuàng)新方法數(shù)據(jù)集的應用存儲與數(shù)據(jù)的服務[12]。另外,由于創(chuàng)新資源的文本數(shù)據(jù)體量巨大,采用傳統(tǒng)計算手段無法實現(xiàn)文本建模、特征抽取、特征聚合。因此利用分布式并行計算框架來實現(xiàn)信息內(nèi)容的聚合,一方面,為了提高數(shù)據(jù)分析的效率,在HDFS文件系統(tǒng)上使用HIVE建立分布式數(shù)據(jù)倉庫,并將查詢服務映射成Map Reduce任務來執(zhí)行。另一方面,該框架采用Storm流計算、Spark內(nèi)存計算、Map/Reduce并行化編程范式,將多個查詢與信息聚合任務分解為多個并行任務同時處理,可實現(xiàn)快速復雜數(shù)據(jù)運算[13]。
此外,針對科技創(chuàng)新資源與創(chuàng)新方法在應用與管理過程中,常常會出現(xiàn)一些臟數(shù)據(jù),需要進行差異識別與數(shù)據(jù)的預處理。這些數(shù)據(jù)預處理的方式主要包括了去除無關數(shù)據(jù)、噪聲數(shù)據(jù)、遺漏數(shù)據(jù)、空值數(shù)據(jù)等臟數(shù)據(jù),把錯誤的、含噪聲的、有沖突的、不一致、有重疊的數(shù)據(jù)轉化成可以進一步聚合的數(shù)據(jù)。由于數(shù)據(jù)的規(guī)格、語義的不統(tǒng)一會對后續(xù)的聚合造成影響,因此需要對數(shù)據(jù)進行規(guī)范化與歸一化處理,保障數(shù)據(jù)的一致性。由于創(chuàng)新資源主要以文本的形式存在,這些資源需要通過對創(chuàng)新資源與創(chuàng)新方法特征庫的分類,轉變?yōu)閯?chuàng)新資源與創(chuàng)新方法的領域元數(shù)據(jù)庫、領域本體庫、命名實體庫等特征元數(shù)據(jù)庫,并形成統(tǒng)一的數(shù)據(jù)模型和數(shù)據(jù)規(guī)范。同時需要對文本內(nèi)容的分詞和詞頻統(tǒng)計建立文本的主題向量空間模型、“主題詞帶”模型、創(chuàng)新領域知識模型,形成創(chuàng)新資源的特征信息集合。這些數(shù)據(jù)的特征抽取與預處理對于后續(xù)數(shù)據(jù)處理奠定基礎。
2.3 創(chuàng)新資源數(shù)據(jù)的可視化技術與決策技術方法
大數(shù)據(jù)環(huán)境下創(chuàng)新資源的可視化技術與決策支持方法研究的主要任務是利用文本挖掘技術和數(shù)據(jù)可視化技術,對海量文本數(shù)據(jù)進行特征抽取和信息融合。主要工作包含兩方面的內(nèi)容:一是創(chuàng)新資源大數(shù)據(jù)環(huán)境下的數(shù)據(jù)靜態(tài)與動態(tài)分析的可視化分析;二是利用可視化降維技術對高維度非結構化創(chuàng)新數(shù)據(jù)進行降維處理。工作的技術難點為多維異構創(chuàng)新數(shù)據(jù)可視化技術實現(xiàn)。在技術創(chuàng)新活動中需要了解創(chuàng)新數(shù)據(jù)自身的規(guī)律以及創(chuàng)新數(shù)據(jù)之間的相互關系和發(fā)展趨勢。因此需要利用大數(shù)據(jù)中的可視化技術,提高企業(yè)分析和利用創(chuàng)新數(shù)據(jù)的層次。
文本可視化分析技術是將文本分析技術和交互式可視化技術結合在一起的產(chǎn)物。它利用人們對圖形的迅速辨識及分析能力,將文本挖掘結果及相應的文本數(shù)據(jù)轉換成直觀的、可交互的展現(xiàn)形式,使人們可以通過視覺迅速獲得有用信息,從而達到對大文本數(shù)據(jù)集進一步分析、推理以及理解的目的。已有的可視化分析技術主要包括靜態(tài)和動態(tài)兩大類方法,其中,靜態(tài)可視方法不關心文檔的時間屬性,著重研究文檔以及內(nèi)容直接的靜態(tài)關系;而動態(tài)方法則研究文檔集合中隨著時間變化的內(nèi)容以及相應關系,用于找出一些關鍵的時刻和事件,并進一步推導相應事件產(chǎn)生的原因。例如,利用Circle Packing圖可以圓圈的大小和歸屬表達明確的層級關系,幫助用戶迅速定位數(shù)據(jù)的聚類,并對離散點進行評估。Stream Graph則通過對一段時間內(nèi),文本特征的變化來展示出動態(tài)的變化行為,從而可以實現(xiàn)對數(shù)據(jù)質量分析的優(yōu)化。如圖3是研究團隊針對專利信息以及論壇的主題內(nèi)容進行靜態(tài)與動態(tài)分析的可視化結果示意圖[14]。
在大數(shù)據(jù)條件下,利用可視化技術對高維度非結構化創(chuàng)新數(shù)據(jù)進行處理,不僅可以對數(shù)據(jù)特征向量進行降維和簡化,還可對靜態(tài)特征數(shù)據(jù)以及動態(tài)的行為變化過程數(shù)據(jù)與結果進行可視化顯示。因此,不僅有利于對創(chuàng)新資源與創(chuàng)新成果數(shù)據(jù)進行預處理與分析,同時也對創(chuàng)新資源之間的關聯(lián)特征、技術創(chuàng)新過程中動態(tài)演化行為等關鍵性問題,起到?jīng)Q策輔助支持的作用,進而提升創(chuàng)新資源與創(chuàng)新方法相關數(shù)據(jù)的利用價值。
2.4 創(chuàng)新應用工具的開發(fā)
大數(shù)據(jù)環(huán)境下創(chuàng)新應用工具的開發(fā)與應用的主要任務是在上述研究工作的基礎上,實現(xiàn)創(chuàng)新應用工具的開發(fā),并選取應用單位進行應用驗證。傳統(tǒng)的創(chuàng)新方法都包含有多種工具。文章研究的核心工作是基于Hadoop平臺來完成一個相關的創(chuàng)新資源分析與創(chuàng)新方法應用的軟件工具,并利用該工具來指導企業(yè)實際應用。其中,軟件工具主要包括分布式創(chuàng)新數(shù)據(jù)萃取和數(shù)據(jù)融合、創(chuàng)新大數(shù)據(jù)模型變換、流數(shù)據(jù)處理和創(chuàng)新數(shù)據(jù)自動摘要功能等。
根據(jù)數(shù)據(jù)格式的不同,分布式創(chuàng)新數(shù)據(jù)萃取采用不同的算法對其進行處理。分類過后的數(shù)據(jù)還必須遵循統(tǒng)一的數(shù)據(jù)模型進行變換,從而形成統(tǒng)一的創(chuàng)新數(shù)據(jù)存儲。該功能的實現(xiàn)采用使用元數(shù)據(jù)描述創(chuàng)新數(shù)據(jù),從而將所有創(chuàng)新數(shù)據(jù)置于同一標準下。創(chuàng)新數(shù)據(jù)含有獨特的創(chuàng)新信息,在針對需要實時計算的創(chuàng)新流數(shù)據(jù)時,除使用分布式計算架構中的流處理技術,還要進行創(chuàng)新數(shù)據(jù)流處理算法的設計。在企業(yè)進行創(chuàng)新數(shù)據(jù)處理時,除了使用系統(tǒng)提供的自動收集和預警等功能外,很多情況下還需要人工處理一些數(shù)據(jù),當創(chuàng)新數(shù)據(jù)包含大量的非結構化數(shù)據(jù),人工往往無法迅速地獲取最有價值的信息。因此通過實現(xiàn)創(chuàng)新數(shù)據(jù)自動摘要生成技術,能夠方便企業(yè)查找和比對大數(shù)據(jù)環(huán)境下的技術創(chuàng)新數(shù)據(jù),提升技術創(chuàng)新活動的效率。
3 結束語
大數(shù)據(jù)時代的到來,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素。特別是近年來,企業(yè)在激烈的市場競爭中往往由于技術資源的局限性以及海量數(shù)據(jù)獲取與分析的能力限制而造成技術創(chuàng)新的成功率較低且管理決策的風險較高的影響,大數(shù)據(jù)技術與應用為企業(yè)技術創(chuàng)新提供了一個全新的機遇。圍繞著大數(shù)據(jù)環(huán)境下對企業(yè)技術創(chuàng)新與管理決策的相應技術研究,陜西工業(yè)技術研究院與西安交通大學軟件學院在深入合作研究過程中,已建立起來了大數(shù)據(jù)環(huán)境下的技術創(chuàng)新與決策的技術框架體系,依據(jù)技術創(chuàng)新“雙向決策模型”,整合傳統(tǒng)“目標驅動決策”與大數(shù)據(jù)環(huán)境下“數(shù)據(jù)驅動決策”的理念和方法,通過四個子項的實施,實現(xiàn)技術創(chuàng)新的“評估與預測”和“監(jiān)測與預警”,結合企業(yè)研發(fā)與技術創(chuàng)新實踐,希望能幫助企業(yè)實現(xiàn)更加精準的技術創(chuàng)新決策。下一步,將大數(shù)據(jù)環(huán)境下的創(chuàng)新方法在企業(yè)中得到應用與推廣,為企業(yè)的創(chuàng)新提供新的技術支撐。
參考文獻
[1]McAfee A,Brynjolfsson E. Big data:The management revolution[J].Harvard Bus Rev,2012,90(10).
[2]陶翔,羅天雨.大數(shù)據(jù)技術的發(fā)展歷程及其演化趨勢[N].科技日報,2014-08-10(2).
[3]R.Weiss, L.Zgorski,“Obama Administration Unveils 'BigData' Initiative: Announces MYM200 Million in New R&D Investments”, Office of Science and Technology Policy, Washington, DC,2012.
[4]賽迪智庫軟件與信息服務研究所.美國將發(fā)展大數(shù)據(jù)提升到戰(zhàn)略層面[N].中國電子報,2012-07-17(003).
[5](英)維克托·邁爾-舍恩伯格,(英)肯尼思·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤,譯.浙江人民出版社,2013.
[6]工業(yè)和信息化部.物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃[Z].北京:工業(yè)和信息化部,2011.
[7]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域-大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012(6):
647-657.
[8]馬帥,李建新,胡春明.大數(shù)據(jù)科學與工程的挑戰(zhàn)與思考[J].中國計算機學會通訊,2012,27(5):527-537.
[9]王躍飛.知識產(chǎn)生方式和科技決策支撐的重大變革:面向大數(shù)據(jù)和開源信息的科技態(tài)勢解析與決策服務[J].中國科學院院刊,2012,
27(5):527-537.
[10]朱東華,張嶷,汪雪鋒,等.大數(shù)據(jù)環(huán)境下技術創(chuàng)新管理方法研究[J].科學學與科學技術管理.2013,34(4):172-180.
[11]丁杰,徐俊剛.IPSMS:一個網(wǎng)絡輿情監(jiān)控系統(tǒng)的設計與實現(xiàn)[J].計算機應用與軟件,2010(4):188-190.
[12]李昕娟.基于主題的文本數(shù)據(jù)流實時聚類及演化研究[D].西安交通大學,2014.
[13]黃曉斌,鐘輝新.大數(shù)據(jù)時代企業(yè)競爭情報研究的創(chuàng)新與發(fā)展[J].圖書與情報,2013(6):9-14.
[14]劉大偉.基于文本聚類的專利信息分析與可視化研究與應用[D].西安交通大學,2014.
作者簡介:趙亮 (1969-),男,吉林長春,經(jīng)濟師/MBA。陜西工業(yè)技術研究院技術創(chuàng)新部,從事創(chuàng)新項目孵化技術轉移研究。