李曼迪,蘇 成,崔怡雯,趙志遠(yuǎn),趙筱媛
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
顛覆性技術(shù)能夠突破傳統(tǒng)或主流的技術(shù)、產(chǎn)品、商業(yè)思維和路線,對(duì)已有的技術(shù)、產(chǎn)品、商業(yè)模式、工藝流程、設(shè)計(jì)方法等進(jìn)行一種另辟蹊徑的革新。顛覆性技術(shù)感知與響應(yīng)任務(wù)驅(qū)動(dòng)下的情報(bào)采集工作基于地平線掃描系統(tǒng)開(kāi)展,能夠?yàn)轭嵏残约夹g(shù)監(jiān)測(cè)、識(shí)別提供重要的數(shù)據(jù)支撐。
面向顛覆性技術(shù)的情報(bào)采集工作主要有兩種模式[1-3]:一是針對(duì)特定技術(shù)展開(kāi)的定向掃描,用于監(jiān)測(cè)特定技術(shù)發(fā)展態(tài)勢(shì)。目前,學(xué)界針對(duì)特定技術(shù)定向監(jiān)測(cè)掃描已有較為深入的研究[4-8],主要依托具體應(yīng)用場(chǎng)景從整體監(jiān)測(cè)思路、流程和體系進(jìn)行闡述,定向搜集情報(bào)進(jìn)行分析。二是利用地平線掃描工具開(kāi)展的非定向掃描,即較為廣泛地進(jìn)行信息收集,然后使用大數(shù)據(jù)分析方法從中挖掘、捕捉技術(shù)弱信號(hào),進(jìn)而發(fā)現(xiàn)未來(lái)技術(shù)發(fā)展趨勢(shì)。針對(duì)非定向掃描模式,網(wǎng)絡(luò)信息能夠?yàn)轭嵏残约夹g(shù)感知與響應(yīng)提供強(qiáng)有力的情報(bào)資源保障,其資源類(lèi)型廣泛,包含技術(shù)、產(chǎn)品、市場(chǎng)、政策等諸多方面內(nèi)容,是對(duì)當(dāng)前以專(zhuān)利和論文為主的顛覆性技術(shù)定量識(shí)別方法和以專(zhuān)家主觀想法為主的定性識(shí)別方法中數(shù)據(jù)基礎(chǔ)的有效補(bǔ)充,已用于德國(guó)聯(lián)邦教育和研究部、韓國(guó)科學(xué)與技術(shù)信息研究院的技術(shù)預(yù)測(cè)與預(yù)見(jiàn)活動(dòng)[9]。
但在紛繁復(fù)雜的網(wǎng)絡(luò)環(huán)境中,哪些信息源適合用于情報(bào)采集來(lái)監(jiān)測(cè)、識(shí)別顛覆性技術(shù);如何結(jié)合顛覆性技術(shù)特點(diǎn)評(píng)價(jià)、遴選信息源,進(jìn)而從海量數(shù)據(jù)中有針對(duì)性地提取高價(jià)值的情報(bào)、最大化情報(bào)效益是一個(gè)值得研究的問(wèn)題?;诖?,本文開(kāi)展了面向顛覆性技術(shù)情報(bào)采集的網(wǎng)絡(luò)信息源的研究。
(1)從信息組織形式角度分析。網(wǎng)絡(luò)科技信息總體上可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),從信息公開(kāi)程度與組織形式可基本分為四類(lèi)[10]。第一類(lèi)是科技圖書(shū)、科技期刊、專(zhuān)利、研究報(bào)告等信息,一般存在于各類(lèi)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中,即結(jié)構(gòu)化數(shù)據(jù)。第二類(lèi)是不同主體在互聯(lián)網(wǎng)公開(kāi)發(fā)布的科技信息,從信息發(fā)布者與內(nèi)容組織者的一致性上看可分為原始發(fā)布和轉(zhuǎn)載發(fā)布。原始發(fā)布既包含各類(lèi)主體在其門(mén)戶網(wǎng)站發(fā)布的信息,也包含各類(lèi)新聞媒體對(duì)事件的事實(shí)性報(bào)道所形成的新聞資訊信息;轉(zhuǎn)載發(fā)布主要是指各類(lèi)信息匯聚平臺(tái)對(duì)原始發(fā)布信息的轉(zhuǎn)載。第三類(lèi)是基于移動(dòng)互聯(lián)網(wǎng)在具有一定社交性質(zhì)的平臺(tái)發(fā)布的科技信息,如微信公眾平臺(tái)、知乎、專(zhuān)業(yè)論壇等,主要針對(duì)某個(gè)主題進(jìn)行組織且具有較強(qiáng)的互動(dòng)性。隨著移動(dòng)互聯(lián)網(wǎng)的興起,此類(lèi)信息的傳播范圍大大增加,并且擁有了一批優(yōu)質(zhì)的個(gè)體信息源。第四類(lèi)是通過(guò)郵件、網(wǎng)絡(luò)通信軟件等途徑傳播的科技信息,此類(lèi)信息不公開(kāi)。后三類(lèi)信息均是非結(jié)構(gòu)化數(shù)據(jù),在采集過(guò)程中需要進(jìn)行處理加工。
(2) 從創(chuàng)新參與主體角度分析。隨著社會(huì)發(fā)展,科學(xué)研究與技術(shù)創(chuàng)新朝著系統(tǒng)化、專(zhuān)業(yè)化和常態(tài)化的方向發(fā)展,科技發(fā)展環(huán)境日益復(fù)雜。分析參與顛覆性技術(shù)創(chuàng)新過(guò)程中關(guān)鍵主體發(fā)揮的作用,能夠明晰需采集情報(bào)的源頭方向,參與主體主要包括政府、企業(yè)、行業(yè)協(xié)會(huì)、科研機(jī)構(gòu)等,如圖1所示。
圖1 創(chuàng)新參與主體作用分析
? 政府主要通過(guò)科技政策與發(fā)展戰(zhàn)略的制定參與到創(chuàng)新鏈條當(dāng)中。通過(guò)制定相關(guān)科技、產(chǎn)業(yè)政策與戰(zhàn)略,從國(guó)家層面為科技事業(yè)、產(chǎn)業(yè)發(fā)展提供宏觀性方向引導(dǎo),同時(shí)在具體技術(shù)創(chuàng)新過(guò)程中促進(jìn)和激勵(lì)企業(yè)技術(shù)創(chuàng)新、保護(hù)知識(shí)產(chǎn)權(quán),進(jìn)而推動(dòng)技術(shù)轉(zhuǎn)移、擴(kuò)散和升級(jí)換代[11]。從國(guó)家科技管理體制、科技創(chuàng)新體系等角度,收集具體的政府主體包括科技管理機(jī)構(gòu)、科技資助機(jī)構(gòu)、科技情報(bào)機(jī)構(gòu)等,可以獲得相關(guān)科技政策、科技戰(zhàn)略與計(jì)劃、科技項(xiàng)目布局等信息以及國(guó)家科技動(dòng)態(tài)等,一般對(duì)外公開(kāi)的科技政策與發(fā)展戰(zhàn)略等信息能夠在相應(yīng)政府組織的官方網(wǎng)站或通過(guò)網(wǎng)絡(luò)檢索獲得。
? 企業(yè)在國(guó)家技術(shù)創(chuàng)新體系中發(fā)揮核心作用。企業(yè)通過(guò)科技創(chuàng)新培養(yǎng)的核心技術(shù)競(jìng)爭(zhēng)力,是企業(yè)市場(chǎng)競(jìng)爭(zhēng)的關(guān)鍵因素,也是企業(yè)實(shí)現(xiàn)長(zhǎng)遠(yuǎn)發(fā)展的重要保障;同時(shí),企業(yè)基于核心技術(shù)的業(yè)務(wù)發(fā)展反過(guò)來(lái)促進(jìn)了技術(shù)創(chuàng)新水平[12]。顛覆性技術(shù)通過(guò)形成一定的產(chǎn)品或服務(wù)在市場(chǎng)上發(fā)揮作用,通過(guò)監(jiān)測(cè)市場(chǎng)上的企業(yè)技術(shù)研發(fā)、工具方法、產(chǎn)品服務(wù)等情況,來(lái)對(duì)技術(shù)作用于市場(chǎng)的信息進(jìn)行收集。一般可獲得企業(yè)的組織架構(gòu)、研發(fā)情況、產(chǎn)品服務(wù)、投融資情況等信息。
? 行業(yè)協(xié)會(huì)在技術(shù)創(chuàng)新中發(fā)揮協(xié)助與橋梁作用,其介于政府、企業(yè)之間實(shí)施行業(yè)管理與行業(yè)監(jiān)督[13-14]。通過(guò)監(jiān)測(cè)國(guó)內(nèi)外重點(diǎn)行業(yè)協(xié)會(huì)政策落實(shí)信息與相關(guān)行業(yè)動(dòng)向,能夠了解某行業(yè)或某地區(qū)企業(yè)產(chǎn)品與技術(shù)的創(chuàng)新方向與基本輪廓。一般通過(guò)其官方網(wǎng)站或組織建設(shè)的行業(yè)門(mén)戶網(wǎng)站可獲得相關(guān)信息資源。例如,中國(guó)半導(dǎo)體行業(yè)協(xié)會(huì)的官方網(wǎng)站匯聚了半導(dǎo)體行業(yè)相關(guān)信息,包括政策法規(guī)、行業(yè)要聞、新產(chǎn)品與技術(shù)、熱點(diǎn)觀察等重點(diǎn)板塊。
? 科研機(jī)構(gòu)也是國(guó)家創(chuàng)新體系的重要組成部分,對(duì)于側(cè)重于研究帶動(dòng)產(chǎn)業(yè)升級(jí)、具有市場(chǎng)競(jìng)爭(zhēng)性、突破瓶頸制約、影響或制約國(guó)家安全等重要基礎(chǔ)和技術(shù)[15]的應(yīng)用型科研機(jī)構(gòu),能夠?yàn)轭嵏残约夹g(shù)創(chuàng)新提供強(qiáng)有力的基礎(chǔ)支撐作用??蒲袡C(jī)構(gòu)的研究進(jìn)展與布局動(dòng)向可通過(guò)結(jié)構(gòu)化文獻(xiàn)成果數(shù)據(jù)、項(xiàng)目研究數(shù)據(jù)進(jìn)行分析,其官方網(wǎng)站上一般也會(huì)發(fā)布相關(guān)科技資訊,如中國(guó)科學(xué)院自動(dòng)化研究所官方網(wǎng)站上的科研動(dòng)態(tài)、頭條新聞等板塊。
(3)從科技活動(dòng)過(guò)程角度分析。網(wǎng)絡(luò)科技信息除了依托創(chuàng)新主體進(jìn)行內(nèi)容組織外,圍繞科技活動(dòng)過(guò)程也分布著一些科技信息源??萍佳芯炕顒?dòng)一般由相關(guān)科技基金或計(jì)劃管理機(jī)構(gòu)組織,從項(xiàng)目基本信息、項(xiàng)目過(guò)程管理信息到項(xiàng)目成果信息由管理機(jī)構(gòu)選擇性公開(kāi)發(fā)布。學(xué)術(shù)交流活動(dòng)伴隨科技研究過(guò)程開(kāi)展,包括期刊論文發(fā)表、學(xué)術(shù)會(huì)議交流等。在頂級(jí)期刊、會(huì)議中包含某一領(lǐng)域高水平的前沿學(xué)術(shù)動(dòng)態(tài)信息,能夠從中研判該領(lǐng)域已取得的科技突破、技術(shù)發(fā)展前沿和熱點(diǎn)信息。科技預(yù)測(cè)活動(dòng)由政府、智庫(kù)/咨詢(xún)機(jī)構(gòu)、科技雜志等組織開(kāi)展,通過(guò)定性或定量方法開(kāi)展對(duì)技術(shù)或?qū)W科領(lǐng)域的評(píng)估預(yù)測(cè)工作,其預(yù)測(cè)結(jié)果通過(guò)網(wǎng)絡(luò)進(jìn)行發(fā)布。此外,也有科技展覽、技術(shù)交易等科技活動(dòng)類(lèi)型。
本研究團(tuán)隊(duì)通過(guò)對(duì)顛覆性技術(shù)的長(zhǎng)期研究,分析和歸納了顛覆性技術(shù)具有“變革性”“突破性”“前瞻性”“替代性”與“高風(fēng)險(xiǎn)性”的特征。除變革性是特指顛覆性技術(shù)所能夠帶來(lái)的巨大效果,屬于一種事后特征,無(wú)法指導(dǎo)顛覆性技術(shù)網(wǎng)絡(luò)信息源選擇外,本文結(jié)合顛覆性技術(shù)的其他特征,歸納總結(jié)了面向顛覆性技術(shù)情報(bào)采集的網(wǎng)絡(luò)信息源特點(diǎn)。
(1)信息源應(yīng)涵蓋技術(shù)、產(chǎn)品、市場(chǎng)等多種監(jiān)測(cè)信息內(nèi)容類(lèi)型。顛覆性技術(shù)具有突破性與替代性特征,即能夠通過(guò)自身取得的突破性進(jìn)展取代現(xiàn)有主流技術(shù)進(jìn)而產(chǎn)生顛覆性創(chuàng)新,包括基于科學(xué)原理重大突破所產(chǎn)生的技術(shù)突破、基于技術(shù)創(chuàng)新性應(yīng)用或多種技術(shù)跨界融合形成的產(chǎn)品突破以及基于顛覆性思路解決實(shí)際問(wèn)題的商業(yè)突破等類(lèi)型[16]。以往基于論文與專(zhuān)利等結(jié)構(gòu)化文獻(xiàn)信息分析技術(shù)的數(shù)據(jù)基礎(chǔ)較弱,還應(yīng)包含企業(yè)和行業(yè)創(chuàng)新主體的產(chǎn)品服務(wù)、市場(chǎng)行業(yè)信息等多種監(jiān)測(cè)內(nèi)容類(lèi)型,因此,從整體上看,顛覆性技術(shù)監(jiān)測(cè)信息源集合應(yīng)具備信息類(lèi)型多樣性的特點(diǎn)。
(2)信息源內(nèi)容主體具備領(lǐng)域頂尖性特點(diǎn)。顛覆性技術(shù)具備前瞻性特征,一方面表現(xiàn)在內(nèi)容上具有前沿性,能夠引領(lǐng)學(xué)科領(lǐng)域新的研究與發(fā)展方向。從信息生態(tài)鏈角度,前沿科技信息產(chǎn)生者,是參與該領(lǐng)域科技創(chuàng)新活動(dòng)以及信息活動(dòng)的領(lǐng)先主體,通常能創(chuàng)造出該領(lǐng)域的重大突破或拓展出新的研究方向,是引領(lǐng)所在領(lǐng)域發(fā)展的頂尖性群體[17]。因此,在進(jìn)行信息源選擇過(guò)程中,應(yīng)著重選擇領(lǐng)域內(nèi)此類(lèi)頂尖主體,進(jìn)而把握領(lǐng)域主要發(fā)展脈絡(luò)、捕捉前沿動(dòng)態(tài)。
(3)信息源集合應(yīng)包含能夠面向未來(lái)需求的信息源。顛覆性技術(shù)的前瞻性特征,另一方面表現(xiàn)在時(shí)間上具有一定的超前性,即面向未來(lái)需求而部署。例如,隸屬韓國(guó)科技部的韓國(guó)科技評(píng)估與規(guī)劃研究院(Korea Institute of Science & Technology Evaluation and Planning,KISTEP) 自 2009 年起,每年都會(huì)篩選并公布《KISTEP 十大新興技術(shù)》,分析新興技術(shù)未來(lái)應(yīng)用前景;知名咨詢(xún)公司高德納(Gartner)每年發(fā)布《十大戰(zhàn)略科技發(fā)展趨勢(shì)》,預(yù)測(cè)未來(lái)五年內(nèi)能迅速增長(zhǎng)、具有巨大潛力的科技趨勢(shì);科技雜志《麻省理工科技評(píng)論》(MIT Technol‐ogy Review)每年開(kāi)展全球十大突破性技術(shù)評(píng)選,探討科技未來(lái)新走向。從這些報(bào)告中能夠得到面向社會(huì)發(fā)展、行業(yè)趨勢(shì)、科技研究等不同時(shí)長(zhǎng)階段需求的未來(lái)數(shù)據(jù)。
(4)信息源集合應(yīng)包含能夠體現(xiàn)風(fēng)險(xiǎn)投資行為的信息源。顛覆性技術(shù)發(fā)展具有高度的不確定性,任何一項(xiàng)顛覆性技術(shù)在產(chǎn)生顛覆性效應(yīng)前可能在很長(zhǎng)時(shí)間內(nèi)都處于被忽視的狀態(tài)[18],使其具有高風(fēng)險(xiǎn)特征。高風(fēng)險(xiǎn)從風(fēng)險(xiǎn)投資的角度考慮也往往會(huì)帶來(lái)高收益,吸引著資本力量的投入。在產(chǎn)業(yè)層面,資本市場(chǎng)對(duì)企業(yè)的風(fēng)險(xiǎn)投資能夠激發(fā)經(jīng)濟(jì)發(fā)展新動(dòng)能,其投資方向中不乏許多高新科技企業(yè),它們的產(chǎn)品技術(shù)、研發(fā)方向等引領(lǐng)行業(yè)發(fā)展且能夠?yàn)榻?jīng)濟(jì)、社會(huì)帶來(lái)巨大影響,因此,可通過(guò)分析知名資本的投資布局挖掘顛覆性技術(shù)信號(hào)線索。此外,在科研層面,有些科學(xué)資助機(jī)構(gòu)也引入風(fēng)險(xiǎn)投資理念來(lái)開(kāi)展科技資源配置管理,以期能夠產(chǎn)生具有巨大變革力量的創(chuàng)新成果,其往往以變革性、高風(fēng)險(xiǎn)高回報(bào)、創(chuàng)新性等描述,也是更為直接的參考信息源。
(5)信息源應(yīng)具備高質(zhì)量特點(diǎn)。鑒于高質(zhì)量信息源對(duì)特定任務(wù)有直接效用[19],許多研究者對(duì)基于不同研究目的優(yōu)質(zhì)信息源所應(yīng)具備的特征或特點(diǎn)進(jìn)行研究。王芳等[20]從可獲取性和信息質(zhì)量?jī)煞矫嫜芯啃畔⒃催x擇的影響,其中用可靠性、相關(guān)性和時(shí)效性對(duì)信息源的質(zhì)量進(jìn)行了具體量化。李榮等[17]對(duì)科技前沿信息源相關(guān)概念給予界定,提出科技前沿信息應(yīng)具備生產(chǎn)者的尖端性、傳播的權(quán)威性、內(nèi)容的先導(dǎo)性、來(lái)源渠道多樣性等四大特征,并基于此建立了科技前沿跟蹤信息源目標(biāo)體系。陸泉等[21]從信息可信度的內(nèi)涵出發(fā),提出了健康領(lǐng)域信息源應(yīng)具備權(quán)威性與影響力特征,即信息源具備較高的資格認(rèn)證與可信度;同時(shí),信息源擁有較多的關(guān)注者并受到廣泛信息質(zhì)量上的監(jiān)督。總之,高質(zhì)量信息源的特點(diǎn)并未形成統(tǒng)一論述,一般根據(jù)特定的任務(wù)或研究?jī)?nèi)容,對(duì)所需信息源的特點(diǎn)進(jìn)行定義。本文從內(nèi)容相關(guān)性、數(shù)據(jù)可靠性和信息源活躍度三個(gè)層次定義了高質(zhì)量,具體見(jiàn)第4.1 節(jié)。
基于上述分析,本文提出了面向顛覆性技術(shù)情報(bào)采集的網(wǎng)絡(luò)信息源遴選分布譜系,如圖2 所示。從信息組織角度出發(fā),譜系內(nèi)主要包括圍繞創(chuàng)新過(guò)程和科技活動(dòng)的相關(guān)主體、載體進(jìn)行組織的信息源,包括政府組織、行業(yè)協(xié)會(huì)、企業(yè)、科研機(jī)構(gòu)、智庫(kù)/咨詢(xún)機(jī)構(gòu)、科技雜志、頂級(jí)期刊、會(huì)議、競(jìng)賽、專(zhuān)業(yè)獎(jiǎng)項(xiàng)、綜合監(jiān)測(cè)平臺(tái)等內(nèi)容,涉及政策、市場(chǎng)、產(chǎn)品服務(wù)、工具方法、技術(shù)、機(jī)構(gòu)、科技突破、未來(lái)數(shù)據(jù)八個(gè)維度的監(jiān)測(cè)信息資源類(lèi)型,用于指導(dǎo)顛覆性技術(shù)情報(bào)采集的信息源遴選工作。
圖2 面向顛覆性技術(shù)情報(bào)采集的網(wǎng)絡(luò)信息源分布譜系
確定信息源分布譜系并初步遴選后,還需要對(duì)信息源的質(zhì)量進(jìn)行把控,本文建立了基于內(nèi)容相關(guān)性、數(shù)據(jù)可靠性和信息源活躍度的三維信息源評(píng)估標(biāo)準(zhǔn):①內(nèi)容相關(guān)性是信息源的重要特征,直接決定信息處理與分析結(jié)果。經(jīng)初步歸納,面向顛覆性技術(shù)監(jiān)測(cè)的情報(bào)主要分為技術(shù)動(dòng)態(tài)、政策動(dòng)態(tài)、市場(chǎng)動(dòng)態(tài)、機(jī)構(gòu)動(dòng)態(tài)、產(chǎn)品服務(wù)、工具方法、未來(lái)數(shù)據(jù)、科技重大突破等資源類(lèi)型,若信息源所展示的內(nèi)容與上述類(lèi)型吻合度較高時(shí),則內(nèi)容相關(guān)性較高。②數(shù)據(jù)可靠性是指數(shù)據(jù)具有較高的可信度與可用性,包含數(shù)據(jù)來(lái)源的權(quán)威性、內(nèi)容原創(chuàng)性以及內(nèi)容的完備性三個(gè)方面。權(quán)威性考量監(jiān)測(cè)信息源中信息的可靠程度,由官方主體(如政府組織、科研機(jī)構(gòu)、知名智庫(kù))發(fā)布的信息權(quán)威性更高,而在論壇等平臺(tái)發(fā)布的信息權(quán)威性偏低;原創(chuàng)性是指信息發(fā)布主體與內(nèi)容主體的一致性,若網(wǎng)站內(nèi)信息均為原始發(fā)布,則原創(chuàng)性高,若為轉(zhuǎn)載信息,則原創(chuàng)性低;監(jiān)測(cè)信息源包含所需字段內(nèi)容越多,則內(nèi)容完備性越高。③信息源活躍度是指信息源更新內(nèi)容的頻率,更新頻率越高,則信息源內(nèi)容的新穎程度越高,即表示網(wǎng)站能夠針對(duì)展示內(nèi)容及時(shí)更新、時(shí)效性好。對(duì)于同種主體類(lèi)別的信息源來(lái)說(shuō),活躍度更有參考價(jià)值,能夠反映出信息組織者對(duì)信息源的管理與運(yùn)行情況,間接決定著信息源質(zhì)量。
面向顛覆性技術(shù)情報(bào)采集的信息源遴選并非一蹴而就,對(duì)于遴選的信息源是否合適,既依靠于遴選過(guò)程中情報(bào)人員的專(zhuān)業(yè)判斷,也需要進(jìn)行后續(xù)的信息源評(píng)估工作,以便能夠?qū)﹀噙x結(jié)果進(jìn)行可用性判別,選擇價(jià)值更高的網(wǎng)絡(luò)信息源集為顛覆性技術(shù)識(shí)別等工作提供有效數(shù)據(jù)支撐。
信息源從遴選入原始信息源名單,到最終核驗(yàn)通過(guò)進(jìn)入地平線掃描信息源數(shù)據(jù)庫(kù),具體評(píng)估流程如圖3 所示。
圖3 信息源評(píng)估流程
(1)評(píng)估與解析。遴選后得到的原始信息源名單依據(jù)內(nèi)容相關(guān)性、數(shù)據(jù)可靠性和信息源活躍度三維評(píng)估體系,對(duì)信息源數(shù)據(jù)情況進(jìn)行評(píng)估。評(píng)估過(guò)程需要對(duì)信息源的基本屬性信息進(jìn)行解析,如表1所示。需要注意的是在實(shí)際情報(bào)采集過(guò)程中,如果不定向地對(duì)網(wǎng)站全部信息進(jìn)行爬取,那么所獲得的數(shù)據(jù)具有非常大的噪音,所以本文采用網(wǎng)站下一級(jí)“欄目”作為信息源的最小單元。通過(guò)對(duì)信息源解析與初步評(píng)估,綜合評(píng)判信息源質(zhì)量,確定監(jiān)測(cè)信息源的可用程度,生成具備打分信息的信息源原始列表。
表1 信息源基本屬性
(2)篩選。依據(jù)評(píng)估得到的具備排序信息的原始列表,從中剔除低于最低標(biāo)準(zhǔn)的信息源,去掉重復(fù)的信息源,最后篩選出可用的信息源列表。為進(jìn)行后續(xù)情報(bào)采集工作,需對(duì)信息源進(jìn)行采集信息補(bǔ)充,形成計(jì)算機(jī)可讀取的字段內(nèi)容,減少無(wú)用數(shù)據(jù)采集并形成結(jié)構(gòu)化網(wǎng)絡(luò)數(shù)據(jù)。X-Path 即XML(ex‐tensible markup language)路徑查詢(xún)語(yǔ)言,是一種用來(lái)確定XML 文檔中某部分位置的語(yǔ)言,通過(guò)網(wǎng)頁(yè)特定模塊的X-Path 地址能夠?qū)崿F(xiàn)對(duì)相關(guān)內(nèi)容的有效讀取。一般來(lái)說(shuō),信息源需要采集的字段信息包括標(biāo)題、時(shí)間、作者、來(lái)源、摘要、正文等,通過(guò)補(bǔ)充相應(yīng)的X-Path 信息形成信息源初選列表。
(3)核驗(yàn)。針對(duì)篩選后的采集列表開(kāi)展試采工作,即少量采集監(jiān)測(cè)信息源的信息,而后通過(guò)對(duì)采集的內(nèi)容進(jìn)行核驗(yàn)以再次評(píng)估監(jiān)測(cè)信息源質(zhì)量,主要從內(nèi)容的完備性和相關(guān)性?xún)煞矫娉霭l(fā)。信源核驗(yàn)通過(guò)后可正式入選信息源數(shù)據(jù)庫(kù),按照既定策略定期采集相應(yīng)的數(shù)據(jù),對(duì)于驗(yàn)證后效果欠佳的信息源也需及時(shí)剔除。
(4)反饋迭代。進(jìn)入地平線掃描數(shù)據(jù)庫(kù)的信息源也需要定期進(jìn)行迭代更新。一方面,仍有一些優(yōu)質(zhì)的信息源可通過(guò)評(píng)估納入數(shù)據(jù)庫(kù);另一方面,由于信息源網(wǎng)站來(lái)自不同的管理個(gè)體,定期會(huì)對(duì)網(wǎng)站進(jìn)行改版、更新,所以,針對(duì)入選庫(kù)中的信息源也要定期檢查數(shù)據(jù)狀態(tài),及時(shí)關(guān)注信息源動(dòng)態(tài)變化,從而保證基礎(chǔ)數(shù)據(jù)的有效性與可用性。
在顛覆性技術(shù)網(wǎng)絡(luò)信息源分布譜系的指導(dǎo)下,本研究團(tuán)隊(duì)進(jìn)行了生物技術(shù)、智能制造、新一代信息通信技術(shù)、新材料技術(shù)、空天技術(shù)、海洋技術(shù)等六個(gè)領(lǐng)域的網(wǎng)絡(luò)信息源遴選工作,信息源主要圍繞政府組織、行業(yè)協(xié)會(huì)、企業(yè)、科研機(jī)構(gòu)、智庫(kù)/咨詢(xún)機(jī)構(gòu)、科技雜志、頂級(jí)期刊、會(huì)議、競(jìng)賽、專(zhuān)業(yè)獎(jiǎng)項(xiàng)、綜合監(jiān)測(cè)平臺(tái)等類(lèi)別進(jìn)行收集。
按照上述評(píng)估標(biāo)準(zhǔn)與評(píng)估流程,本文進(jìn)行了六個(gè)領(lǐng)域初選信息源的解析、去重、信息補(bǔ)充等操作,并對(duì)生物技術(shù)領(lǐng)域進(jìn)行了信息試采,完成了該領(lǐng)域信息源核驗(yàn),發(fā)現(xiàn)企業(yè)以及期刊、會(huì)議、競(jìng)賽等主體或載體的門(mén)戶網(wǎng)站信息質(zhì)量普遍較低。企業(yè)門(mén)戶網(wǎng)站作為企業(yè)宣傳陣地主要是對(duì)企業(yè)活動(dòng)信息的報(bào)道,而期刊、會(huì)議、競(jìng)賽等網(wǎng)站則多為簡(jiǎn)要描述信息,對(duì)于此類(lèi)價(jià)值不高的信息源進(jìn)行了剔除,具體遴選結(jié)果如表2 所示。
表2 生物技術(shù)領(lǐng)域信息源遴選結(jié)果
為了實(shí)現(xiàn)顛覆性技術(shù)網(wǎng)絡(luò)情報(bào)的有效采集,中國(guó)科學(xué)技術(shù)信息研究所團(tuán)隊(duì)建設(shè)了顛覆性技術(shù)信息源管理與情報(bào)采集平臺(tái)。該平臺(tái)是基于前期信息源遴選與評(píng)估工作開(kāi)展的網(wǎng)絡(luò)信息源管理與情報(bào)采集的工程化實(shí)踐,旨在對(duì)已遴選評(píng)估的高質(zhì)量信息源進(jìn)行管理與展示,且能夠?qū)崿F(xiàn)重點(diǎn)信息源網(wǎng)絡(luò)情報(bào)的自動(dòng)化采集與加工,滿足研究人員對(duì)信息源的監(jiān)測(cè)跟蹤需求,并與本團(tuán)隊(duì)其他系統(tǒng)平臺(tái)有效銜接。
面向顛覆性技術(shù)情報(bào)采集的信息源系統(tǒng)核心功能如圖4 所示。采集前先將數(shù)據(jù)庫(kù)已遴選評(píng)估的信息源上傳至系統(tǒng)信息源列表,通過(guò)信息源管理功能可對(duì)信息源進(jìn)行展示、查詢(xún)等操作,隨后確定需要進(jìn)行采集的信息源范圍,制定采集開(kāi)始時(shí)間、采集頻率等采集策略。到達(dá)采集時(shí)間后,程序自動(dòng)運(yùn)行并執(zhí)行對(duì)選定監(jiān)測(cè)源的情報(bào)采集工作;選定范圍監(jiān)測(cè)源的采集工作結(jié)束后生成此次采集日志,可瀏覽具體策略設(shè)定、范圍選擇和采集結(jié)果等詳細(xì)內(nèi)容。
圖4 平臺(tái)情報(bào)采集流程
考慮到多場(chǎng)景、系統(tǒng)可維護(hù)性與可拓展性等方面的需求,系統(tǒng)平臺(tái)采用B/S(browser/server,瀏覽器/服務(wù)器)架構(gòu)。該系統(tǒng)除了上述基于信息源的核心采集功能外,還具備信息源列表管理、策略管理、數(shù)據(jù)管理和狀態(tài)管理模塊,所具備的詳細(xì)功能如表3 所示。
表3 系統(tǒng)模塊與功能描述
從顛覆性技術(shù)感知響應(yīng)的情報(bào)任務(wù)關(guān)切出發(fā),本研究首先分析了網(wǎng)絡(luò)資源中科技信息的分布情況,針對(duì)顛覆性技術(shù)特征勾畫(huà)了情報(bào)采集時(shí)所需網(wǎng)絡(luò)信息源的分布譜系,提出了一套具有實(shí)際操作意義的顛覆性技術(shù)網(wǎng)絡(luò)信息源評(píng)估標(biāo)準(zhǔn)與流程,并在此基礎(chǔ)上進(jìn)行信息源管理與情報(bào)采集平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)。本研究旨在復(fù)雜網(wǎng)絡(luò)環(huán)境中,瞄準(zhǔn)適合用于顛覆性技術(shù)監(jiān)測(cè)、識(shí)別的高質(zhì)量情報(bào)源頭,可從海量數(shù)據(jù)中有針對(duì)性地提取高價(jià)值的情報(bào),最大化情報(bào)效益,滿足顛覆性技術(shù)感知響應(yīng)任務(wù)的要求。顛覆性技術(shù)網(wǎng)絡(luò)情報(bào)采集是一項(xiàng)長(zhǎng)期工作,信息源的遴選與評(píng)估也需要在具體情報(bào)采集過(guò)程中定期進(jìn)行以提供數(shù)據(jù)源頭保障,不同類(lèi)型的信息源在情報(bào)參考價(jià)值上具體如何表現(xiàn),如何更為快速、準(zhǔn)確地對(duì)信息源進(jìn)行辨別定位,值得后續(xù)進(jìn)行更深入的研究與探討。