摘要:[目的/意義]科學(xué)知識(shí)圖譜作為新興的知識(shí)發(fā)現(xiàn)工具和可視化知識(shí)分析平臺(tái),可以輔助科技智庫(kù)洞察科技領(lǐng)域的發(fā)展脈絡(luò),預(yù)測(cè)未來(lái)科技發(fā)展趨勢(shì)。[方法/過(guò)程]本研究遵循科技智庫(kù)的工作邏輯和流程,構(gòu)建科技活動(dòng)全要素的科學(xué)知識(shí)圖譜,并開(kāi)發(fā)知識(shí)圖譜分析發(fā)現(xiàn)系統(tǒng)。實(shí)施知識(shí)獲取、知識(shí)融合和知識(shí)計(jì)算。[結(jié)果/結(jié)論]實(shí)現(xiàn)知識(shí)深度挖掘、知識(shí)隱含關(guān)系發(fā)現(xiàn)、趨勢(shì)預(yù)測(cè)和其他智能化決策應(yīng)用。
關(guān)鍵詞:科技智庫(kù)? ? 知識(shí)圖譜? ? 可視化? ? 知識(shí)庫(kù)? ? 趨勢(shì)預(yù)測(cè)? ? 輔助決策
當(dāng)前全球科技創(chuàng)新步入空前活躍期,以信息技術(shù)、生命科技、新能源、新材料等為引領(lǐng)的新一輪科技革命正孕育爆發(fā),引導(dǎo)著全球產(chǎn)業(yè)變革加速推進(jìn),影響著人們的生產(chǎn)生活方式,重構(gòu)著全球科技創(chuàng)新的發(fā)展格局和競(jìng)爭(zhēng)力??萍贾菐?kù)是科技創(chuàng)新領(lǐng)域的智囊和參謀,對(duì)科技和產(chǎn)業(yè)的超前預(yù)測(cè)、戰(zhàn)略研究和政策評(píng)估深刻影響著經(jīng)濟(jì)社會(huì)的治理,全球高端科技智庫(kù)的作用日益凸顯,表現(xiàn)出走向世界智庫(kù)中心舞臺(tái)的趨勢(shì)[1]。而今科技智庫(kù)已經(jīng)由傳統(tǒng)的單純依賴(lài)專(zhuān)家經(jīng)驗(yàn)判斷轉(zhuǎn)向依靠現(xiàn)代信息技術(shù)和專(zhuān)家智慧綜合分析研判,尤其是通過(guò)構(gòu)建科學(xué)知識(shí)圖譜系統(tǒng),運(yùn)用大數(shù)據(jù)分析、知識(shí)挖掘、人工智能和可視化等技術(shù),進(jìn)行復(fù)雜運(yùn)算和分析,支撐研究戰(zhàn)略和結(jié)論。
知識(shí)圖譜是2012年由谷歌提出的基于互聯(lián)網(wǎng)語(yǔ)義搜索而構(gòu)建的大數(shù)據(jù)本體和概念關(guān)聯(lián)關(guān)系知識(shí)庫(kù)體系,科學(xué)知識(shí)圖譜運(yùn)用了知識(shí)圖譜的核心理念和技術(shù),綜合運(yùn)用圖譜學(xué)、計(jì)量學(xué)和科學(xué)數(shù)據(jù)庫(kù)技術(shù),構(gòu)建科學(xué)技術(shù)知識(shí)譜系,揭示多重知識(shí)單元和知識(shí)組織間的時(shí)間、空間等復(fù)雜關(guān)系,可推演新知識(shí)結(jié)構(gòu)和科技發(fā)展趨勢(shì)。
本研究分析了我國(guó)科技智庫(kù)探索信息化、數(shù)據(jù)化、智能化輔助決策的發(fā)展脈絡(luò),結(jié)合科技智庫(kù)的研究需求和知識(shí)圖譜的技術(shù)功能特征,構(gòu)建了科技智庫(kù)科學(xué)知識(shí)圖譜系統(tǒng),設(shè)計(jì)了系統(tǒng)數(shù)據(jù)模型和計(jì)算模型,研究了應(yīng)用范式和運(yùn)行流程,并實(shí)證應(yīng)用于前沿技術(shù)跟蹤監(jiān)測(cè),驗(yàn)證了其可行性和應(yīng)用價(jià)值。
1? 研究綜述
2015年國(guó)家出臺(tái)《關(guān)于加強(qiáng)中國(guó)特色新型智庫(kù)建設(shè)的意見(jiàn)》[2],迎來(lái)了智庫(kù)大發(fā)展的機(jī)遇。在科技智庫(kù)領(lǐng)域,中國(guó)科學(xué)院系統(tǒng)、中國(guó)科協(xié)系統(tǒng)、高??茖W(xué)管理學(xué)院以及全國(guó)各地的科技情報(bào)機(jī)構(gòu)是骨干力量。這些機(jī)構(gòu)長(zhǎng)期從事科技情報(bào)服務(wù)、科技決策咨詢(xún)、科技政策研究和技術(shù)預(yù)見(jiàn)等工作,20世紀(jì)90年代初期,就開(kāi)始探索建設(shè)和應(yīng)用數(shù)據(jù)庫(kù)系統(tǒng)輔助研究,如中國(guó)科技情報(bào)所重慶分所的科技期刊題錄數(shù)據(jù)庫(kù)、清華大學(xué)的科技文獻(xiàn)原文數(shù)據(jù)庫(kù)、北京科技情報(bào)所聯(lián)合全國(guó)科技情報(bào)機(jī)構(gòu)建設(shè)的科技成果數(shù)據(jù)庫(kù)等,2000年之后,隨著WEB2.0技術(shù)興起,開(kāi)始將數(shù)據(jù)倉(cāng)庫(kù)、信息挖掘、知識(shí)發(fā)現(xiàn)等技術(shù)運(yùn)用到科技決策咨詢(xún)研究方面的探索,2005年中國(guó)科學(xué)院資源環(huán)境科學(xué)信息中心吳新年等[3]基于科技情報(bào)學(xué)研究的需求提出了將各類(lèi)不相關(guān)聯(lián)的科學(xué)學(xué)科數(shù)據(jù)庫(kù)統(tǒng)一構(gòu)建到一個(gè)平臺(tái)上,建立數(shù)據(jù)倉(cāng)庫(kù),通過(guò)數(shù)據(jù)加工和挖掘算法實(shí)現(xiàn)統(tǒng)一檢索,并設(shè)計(jì)了不同權(quán)限用戶(hù)的構(gòu)想,之后在數(shù)據(jù)獲取和知識(shí)處理、數(shù)據(jù)挖掘和運(yùn)算等方面做了諸多探索,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心譚宗穎等[4]運(yùn)用本體技術(shù)對(duì)信息進(jìn)行組織,運(yùn)用文本聚類(lèi)技術(shù)挖掘科技主題和相互關(guān)系,構(gòu)建科技智庫(kù)科技發(fā)展前沿監(jiān)測(cè)跟蹤平臺(tái),預(yù)測(cè)科技發(fā)展趨勢(shì);逯萬(wàn)輝等[5]通過(guò)深度學(xué)習(xí)算法,對(duì)期刊文獻(xiàn)進(jìn)行分群建庫(kù),建立科學(xué)知識(shí)結(jié)構(gòu)庫(kù);蘇曉娟等[6]綜合運(yùn)用科技大數(shù)據(jù)、人工智能,構(gòu)建中英雙語(yǔ)料庫(kù),2015年之后,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心開(kāi)始探索基于知識(shí)圖譜技術(shù)的科研主體、科研活動(dòng)、科研成果等面向科研全過(guò)程鏈條的知識(shí)組織構(gòu)建,開(kāi)發(fā)新型知識(shí)檢索發(fā)現(xiàn)服務(wù),胡吉穎等[7]基于全球海量科技數(shù)據(jù)建設(shè)的學(xué)術(shù)知識(shí)圖譜構(gòu)建了研究人員、機(jī)構(gòu)、期刊、論文、項(xiàng)目、基金、專(zhuān)利等實(shí)體相互關(guān)聯(lián)的復(fù)雜網(wǎng)絡(luò),實(shí)現(xiàn)了知識(shí)層面的數(shù)據(jù)融合與集成,并以知識(shí)圖譜為核心搜索引擎,完成了科技大數(shù)據(jù)知識(shí)發(fā)現(xiàn)平臺(tái)的建設(shè);王穎等[8]設(shè)計(jì)和實(shí)現(xiàn)科研實(shí)體知識(shí)抽取、實(shí)體對(duì)齊和關(guān)系發(fā)現(xiàn)、知識(shí)融合與語(yǔ)義豐富化的知識(shí)圖譜構(gòu)建方法。
知識(shí)圖譜是2012年由谷歌提出的 [9],是為實(shí)現(xiàn)更智能的搜索,它的本質(zhì)是語(yǔ)義網(wǎng)絡(luò)(semantic network)知識(shí)庫(kù),節(jié)點(diǎn)代表實(shí)體和概念,實(shí)體之間的鏈接線(xiàn)代表關(guān)聯(lián)關(guān)系,概念和關(guān)聯(lián)關(guān)系構(gòu)成了知識(shí)庫(kù),百度、搜狗等搜索引擎都先后推出了自己的知識(shí)圖譜系統(tǒng),提供更強(qiáng)大的基于語(yǔ)義的搜索服務(wù)??茖W(xué)知識(shí)圖譜運(yùn)用到科技領(lǐng)域,國(guó)內(nèi)尚沒(méi)有明確一致的定義,湯建民[10]認(rèn)為科學(xué)知識(shí)圖譜是以可視化圖譜的形式展現(xiàn)學(xué)科發(fā)展總體圖景、親族關(guān)系和演化歷程等,劉則淵[11]等認(rèn)為科學(xué)知識(shí)圖譜是以知識(shí)域?yàn)閷?duì)象,是呈現(xiàn)科學(xué)知識(shí)的發(fā)展過(guò)程和結(jié)構(gòu)關(guān)系的一種圖像,是用可視化的知識(shí)圖形來(lái)呈現(xiàn)序列化的知識(shí)譜系。在知識(shí)圖譜的應(yīng)用研究方面,由于其具有較高的技術(shù)難度和較大的資源投入的特點(diǎn),國(guó)內(nèi)目前更多應(yīng)用于商業(yè)價(jià)值高的搜索引擎領(lǐng)域和互聯(lián)網(wǎng)金融行業(yè),如百度(Baidu Knowledge Graph)、搜狗(知立方)等,而在科技智庫(kù)這類(lèi)公益性研究和公共政策服務(wù)為主的領(lǐng)域,尚處于探索起步階段,目前有實(shí)質(zhì)進(jìn)展的僅有中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心在探索建設(shè)基于知識(shí)圖譜的科技大數(shù)據(jù)知識(shí)發(fā)現(xiàn)平臺(tái)[7],是包含人員、機(jī)構(gòu)、期刊、論文、項(xiàng)目、基金、專(zhuān)利等結(jié)構(gòu)化可計(jì)量數(shù)據(jù)的學(xué)術(shù)知識(shí)網(wǎng)絡(luò)圖譜,更加注重學(xué)術(shù)的特征,這符合中國(guó)科學(xué)院探索科學(xué)前沿的需求。
本研究構(gòu)建的科技智庫(kù)科學(xué)知識(shí)圖譜是圍繞科技智庫(kù)戰(zhàn)略研究功能設(shè)計(jì)的可視化知識(shí)庫(kù)系統(tǒng),遵循科技智庫(kù)的工作邏輯,數(shù)據(jù)來(lái)源既包含各類(lèi)學(xué)術(shù)產(chǎn)出數(shù)據(jù)(論文、專(zhuān)利、成果、人才、機(jī)構(gòu)等),還創(chuàng)新性引入替代計(jì)量數(shù)據(jù),包括科技新聞資訊、新媒體、自媒體動(dòng)態(tài)、垂直社交平臺(tái)言論等,充分體現(xiàn)當(dāng)今科學(xué)技術(shù)發(fā)展的動(dòng)態(tài)性和經(jīng)濟(jì)社會(huì)各領(lǐng)域的交叉融合性。替代計(jì)量數(shù)據(jù)的結(jié)構(gòu)多樣化、信息描述不規(guī)范化和文本抽取多噪音等特征,使數(shù)據(jù)融合的技術(shù)實(shí)現(xiàn)難度增大,對(duì)實(shí)體映射、關(guān)系識(shí)別、知識(shí)融合、實(shí)體鏈接和知識(shí)推理等技術(shù)交叉運(yùn)用提出了挑戰(zhàn),在科技智庫(kù)領(lǐng)域尚沒(méi)有成熟研究可借鑒。
2? 科技智庫(kù)特征和智能化需求
美國(guó)賓夕法尼亞大學(xué)的《2015年全球智庫(kù)報(bào)告》[12]認(rèn)為科技智庫(kù)是發(fā)現(xiàn)和了解人類(lèi)社會(huì)所面臨的挑戰(zhàn),而后找到解決方法去克服它們,盡力持續(xù)開(kāi)展能源、環(huán)境、教育、公共衛(wèi)生、基礎(chǔ)設(shè)施建設(shè)等領(lǐng)域的相關(guān)研究,提供這些領(lǐng)域科技推動(dòng)進(jìn)步方面的相關(guān)政策建議。中國(guó)科學(xué)院科技戰(zhàn)略咨詢(xún)研究院萬(wàn)勁波等[13]將科技智庫(kù)定義為“以科技戰(zhàn)略政策科學(xué)研究為主要職能,以科技戰(zhàn)略政策決策咨詢(xún)?yōu)橹饕δ艿膶?zhuān)業(yè)政策研究和咨詢(xún)機(jī)構(gòu)”;于升峰等[14]認(rèn)為科技智庫(kù)是匯聚社會(huì)各界智慧,研究科技創(chuàng)新發(fā)展規(guī)律,為決策機(jī)構(gòu)提供知識(shí)產(chǎn)品,并向社會(huì)傳播政策信息的組織,通過(guò)廣泛聯(lián)接政府和科技、經(jīng)濟(jì)、社會(huì)各界,影響科技創(chuàng)新政策的制定、選擇和實(shí)施??梢?jiàn)國(guó)外學(xué)者對(duì)科技智庫(kù)的定義,站在全人類(lèi)發(fā)展的視角,提出了面臨挑戰(zhàn)、研究策略和政策引導(dǎo)應(yīng)用,而國(guó)內(nèi)學(xué)者定義是從目標(biāo)導(dǎo)向出發(fā),直接圍繞政策應(yīng)用路徑相關(guān)問(wèn)題展開(kāi),隱含了其中的研究范疇、策略和方法,其實(shí)是殊途同歸,就是要發(fā)現(xiàn)和識(shí)別科技創(chuàng)新的發(fā)展規(guī)律,并加以引導(dǎo)和應(yīng)用。
全球科技智庫(kù)普遍具備3個(gè)方面主要特征。一是專(zhuān)業(yè)化特征??茖W(xué)研究具有自身的研究方法和研究規(guī)律,科學(xué)學(xué)科分類(lèi)精細(xì)、紛繁復(fù)雜,科技智庫(kù)需要具備很強(qiáng)的專(zhuān)業(yè)性,對(duì)各領(lǐng)域全球發(fā)展態(tài)勢(shì)要有準(zhǔn)確的把握。二是多學(xué)科融合特征?,F(xiàn)代科學(xué)技術(shù)發(fā)展呈爆炸性、交叉性、迭代性趨勢(shì),需要科技智庫(kù)具備多元化、融合性、前瞻性特征,擅長(zhǎng)研究領(lǐng)域交叉、學(xué)科交叉、產(chǎn)學(xué)研融合等復(fù)雜問(wèn)題,把科學(xué)問(wèn)題放到社會(huì)發(fā)展的大視野中,提出多視角、綜合性、全方位的政策建議。三是知識(shí)處理信息化、智能化特征?,F(xiàn)代科技發(fā)展日新月異,全球科技競(jìng)爭(zhēng)異常激烈,與科技有關(guān)的信息、知識(shí)和邏輯關(guān)聯(lián)爆炸性指數(shù)級(jí)增長(zhǎng),科技創(chuàng)新和經(jīng)濟(jì)社會(huì)發(fā)展交叉融合呈現(xiàn)多元化趨勢(shì),處理復(fù)雜性、綜合性問(wèn)題的需求更加突出,科技智庫(kù)對(duì)知識(shí)工具依賴(lài)性越發(fā)明顯,亟需強(qiáng)有力的智能化知識(shí)處理工具支撐。
科技智庫(kù)的信息化、智能化特征是前兩個(gè)核心競(jìng)爭(zhēng)力特征的有利支撐,美國(guó)賓夕法尼亞大學(xué)智庫(kù)與公民社會(huì)項(xiàng)目認(rèn)為,以人工智能技術(shù)等為代表的第四次工業(yè)革命催發(fā)了四股社會(huì)趨勢(shì),其中大數(shù)據(jù)趨勢(shì)在變革社會(huì)發(fā)展的同時(shí),同樣將極大影響智庫(kù)的研究模式和效率。高水平科技智庫(kù)必須具備強(qiáng)大的大數(shù)據(jù)處理和智能化分析能力,這甚至成為一些全球頂尖智庫(kù)的核心優(yōu)勢(shì),比如美國(guó)布魯金斯學(xué)會(huì)就建有交互式智能數(shù)據(jù)分析系統(tǒng),通過(guò)大數(shù)據(jù)多維度可視化的方式進(jìn)行復(fù)雜數(shù)據(jù)的智能過(guò)濾、智能篩選和智能分析,并通過(guò)平臺(tái)共享機(jī)制實(shí)現(xiàn)全球智庫(kù)專(zhuān)家的合作交流[15]。
3? 科學(xué)知識(shí)圖譜的系統(tǒng)構(gòu)建
3.1? 總體目標(biāo)
科技智庫(kù)在科技創(chuàng)新戰(zhàn)略研究方面具有不可替代的核心優(yōu)勢(shì),一是在遴選科技優(yōu)先發(fā)展領(lǐng)域方面,二是在預(yù)測(cè)關(guān)鍵核心技術(shù)方面,三是在謀劃構(gòu)建科技創(chuàng)新系統(tǒng)方面[16]??萍贾菐?kù)對(duì)智能化分析方法的需求強(qiáng)烈,科學(xué)知識(shí)圖譜作為新興的知識(shí)發(fā)現(xiàn)工具和可視化知識(shí)分析平臺(tái),可以為科技智庫(kù)的更高要求提供可能,它通過(guò)揭示知識(shí)組元、知識(shí)族之間關(guān)聯(lián)、結(jié)構(gòu)、融合和演化的復(fù)雜關(guān)系,可以發(fā)現(xiàn)科技領(lǐng)域的發(fā)展脈絡(luò),預(yù)測(cè)未來(lái)發(fā)展趨勢(shì)。本研究基于此需求構(gòu)建科技活動(dòng)全要素的科學(xué)知識(shí)圖譜,開(kāi)發(fā)知識(shí)圖譜分析發(fā)現(xiàn)系統(tǒng),實(shí)現(xiàn)知識(shí)深度挖掘、知識(shí)隱含關(guān)系發(fā)現(xiàn)、隱含趨勢(shì)預(yù)測(cè)和其他智能化應(yīng)用。
3.2? 系統(tǒng)設(shè)計(jì)
本研究把科技智庫(kù)知識(shí)圖譜作為搜索引擎,構(gòu)建復(fù)雜網(wǎng)絡(luò)關(guān)系實(shí)體的可視化知識(shí)庫(kù)四層運(yùn)算體系結(jié)構(gòu):第一層是知識(shí)獲取,抽取各類(lèi)數(shù)據(jù)源中的科技活動(dòng)實(shí)體、概念及關(guān)聯(lián)屬性,分別構(gòu)建知識(shí)庫(kù);第二層是知識(shí)融合,通過(guò)建立本體、實(shí)體和客體映射關(guān)系,將不同源數(shù)據(jù)、不同結(jié)構(gòu)數(shù)據(jù)和不同屬值數(shù)據(jù)的知識(shí)庫(kù)融合成統(tǒng)一知識(shí)庫(kù);第三層是知識(shí)計(jì)算,通過(guò)知識(shí)圖譜的運(yùn)算和推理,發(fā)現(xiàn)知識(shí)內(nèi)部隱含關(guān)系、隱含規(guī)律和隱含趨勢(shì);第四層是決策應(yīng)用,包括語(yǔ)義檢索、可視化分析、跟蹤檢測(cè)和規(guī)律預(yù)測(cè)等。
3.2.1? 知識(shí)結(jié)構(gòu)? 基于科技智庫(kù)的需求模型,構(gòu)建科學(xué)知識(shí)圖譜的知識(shí)結(jié)構(gòu)和知識(shí)關(guān)系,依據(jù)知識(shí)詞匯與本體概念的映射關(guān)系,先對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)抽取,即對(duì)期刊論文庫(kù)、專(zhuān)利文獻(xiàn)庫(kù)、科技成果庫(kù)、機(jī)構(gòu)庫(kù)、人才庫(kù)、項(xiàng)目庫(kù)、基金庫(kù)等結(jié)構(gòu)化、規(guī)范化數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)抽取,對(duì)不同數(shù)據(jù)結(jié)構(gòu)進(jìn)行標(biāo)準(zhǔn)化、實(shí)體化處理,抽取研究者、機(jī)構(gòu)、時(shí)間、標(biāo)題、科研方向、合作關(guān)系等科研實(shí)體,同時(shí)抽取實(shí)體之間的關(guān)聯(lián)關(guān)系和語(yǔ)義組織;而后依據(jù)本體概念與數(shù)據(jù)源詞匯的映射關(guān)系,對(duì)科技資訊、網(wǎng)站信息、社交信息和自媒體信息等替代計(jì)量數(shù)據(jù)進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)解析、知識(shí)抽取、實(shí)體化處理、抽取本體、抽取語(yǔ)義組織和關(guān)聯(lián)關(guān)系。不同源數(shù)據(jù)依據(jù)相同的本體概念與源詞匯映射的關(guān)系構(gòu)建的知識(shí)集,不同的詞匯指向相同的實(shí)體。知識(shí)圖譜的概念模型是經(jīng)抽象化的相關(guān)實(shí)體概念的關(guān)系圖,包括概念、屬性、類(lèi)型、關(guān)系、域及值域,對(duì)應(yīng)主題(subject)、研究人員(researcher)、機(jī)構(gòu)(institution)、基金(fund)、項(xiàng)目(project)、會(huì)議(meeting)、時(shí)間(date)、地點(diǎn)(site)、合作者(research team)等,實(shí)體間關(guān)系包括貢獻(xiàn)關(guān)系(contribution)、隸屬關(guān)系(membership)、資助關(guān)系(supportive)等(圖1)。
3.2.2? 知識(shí)獲取? 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取和實(shí)體關(guān)系抽取,結(jié)構(gòu)化數(shù)據(jù)包含數(shù)據(jù)庫(kù)、數(shù)據(jù)表和結(jié)構(gòu)化文本等按映射關(guān)系進(jìn)行規(guī)范化處理,構(gòu)建標(biāo)準(zhǔn)知識(shí)庫(kù)。非結(jié)構(gòu)化數(shù)據(jù)包含web、Twitter、Wechat等信息,先要提取正文即過(guò)濾廣告信息后的文本信息,并運(yùn)用自然語(yǔ)言處理技術(shù)對(duì)文本進(jìn)行實(shí)體識(shí)別,與結(jié)構(gòu)化數(shù)據(jù)抽取的標(biāo)準(zhǔn)知識(shí)庫(kù)進(jìn)行實(shí)體鏈接,將候選實(shí)體鏈接到標(biāo)準(zhǔn)知識(shí)庫(kù)上面,并通過(guò)構(gòu)建同義詞表的方式完成不同實(shí)體描述的對(duì)應(yīng)關(guān)系。實(shí)體關(guān)系識(shí)別是通過(guò)語(yǔ)義解析和實(shí)體間的依存關(guān)系分析,識(shí)別關(guān)鍵語(yǔ)句中詞向量和角色的關(guān)系。
3.2.3? 知識(shí)融合? 把不同數(shù)據(jù)源抽取的知識(shí)和實(shí)體關(guān)系融合成統(tǒng)一的知識(shí)庫(kù)[17],核心是構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)詞典和數(shù)據(jù)關(guān)系詞典即構(gòu)建本體,把本體作為錨定,在不同數(shù)據(jù)源進(jìn)行知識(shí)抽取時(shí),建立起實(shí)體與本體的映射關(guān)系,采用實(shí)體匹配和模式匹配技術(shù)消除不同數(shù)據(jù)源的抽取值不同的數(shù)據(jù)噪音,這種本體融合技術(shù)既要融合本體中描述相同的客體的不同術(shù)語(yǔ),也要融合相同客體的數(shù)據(jù)術(shù)語(yǔ)差異,客體、實(shí)體、本體形成唯一映射關(guān)系,不同源數(shù)據(jù)、不同結(jié)構(gòu)數(shù)據(jù)融合成統(tǒng)一知識(shí)庫(kù)。這里本體的構(gòu)建是根據(jù)科技智庫(kù)的需求,可以靈活調(diào)整數(shù)據(jù)詞典和數(shù)據(jù)模型,遵循科技活動(dòng)的特征和分析需要(圖2)。融合后的大型知識(shí)庫(kù)根據(jù)科技智庫(kù)應(yīng)用場(chǎng)景采用MYSQL關(guān)系型數(shù)據(jù)庫(kù)索引,并采用成熟的SPARK和HADOOP技術(shù)進(jìn)行大數(shù)據(jù)運(yùn)算。
3.2.4? 知識(shí)計(jì)算? 通過(guò)知識(shí)圖譜計(jì)算和推理,發(fā)現(xiàn)隱含知識(shí)、隱含關(guān)系和隱含趨勢(shì)。運(yùn)用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)技術(shù)和智能語(yǔ)義技術(shù),對(duì)大規(guī)模協(xié)同合作知識(shí)庫(kù)進(jìn)行知識(shí)運(yùn)算和情報(bào)分析,發(fā)現(xiàn)科學(xué)知識(shí)圖譜中的隱含知識(shí),包括知識(shí)之間的隱含關(guān)系、通過(guò)數(shù)據(jù)推理處理后的知識(shí)隱含規(guī)律和知識(shí)的關(guān)聯(lián)路徑等。通過(guò)鏈接預(yù)測(cè)可以發(fā)現(xiàn)知識(shí)的移動(dòng)規(guī)律,包括科研機(jī)構(gòu)、科技專(zhuān)家的流向與合作網(wǎng)絡(luò)關(guān)系。通過(guò)知識(shí)圖譜的知識(shí)計(jì)算可提供大量智能決策應(yīng)用,比如智能化知識(shí)搜索,結(jié)合用戶(hù)智能畫(huà)像,提供個(gè)性化智能搜索結(jié)果;通過(guò)跟蹤前沿技術(shù),發(fā)現(xiàn)知識(shí)組織關(guān)聯(lián)關(guān)系和脈絡(luò)趨勢(shì);通過(guò)領(lǐng)域技術(shù)隱含關(guān)系可發(fā)現(xiàn)技術(shù)發(fā)展規(guī)律隨時(shí)間、地域和其他影響因素的變化等(圖3)。
3.2.5? 決策應(yīng)用? 通過(guò)科學(xué)知識(shí)圖譜的計(jì)算和推理,可以實(shí)現(xiàn)科技智庫(kù)所需的多種智能化應(yīng)用。本研究列舉的可視化分析,可以通過(guò)直觀(guān)的方式,呈現(xiàn)某領(lǐng)域核心技術(shù)隨時(shí)間演進(jìn)的規(guī)律,從而預(yù)測(cè)領(lǐng)域技術(shù)的發(fā)展趨勢(shì)和市場(chǎng)對(duì)該領(lǐng)域技術(shù)需求的發(fā)展脈絡(luò);智能檢索可以針對(duì)科技活動(dòng)的相關(guān)要素和關(guān)聯(lián)關(guān)系,反饋科技智庫(kù)專(zhuān)家基于語(yǔ)義的檢索需求[18];隱含關(guān)系發(fā)現(xiàn),可通過(guò)融合知識(shí)挖掘幫助科技智庫(kù)專(zhuān)家發(fā)現(xiàn)技術(shù)族、研發(fā)人員和研發(fā)機(jī)構(gòu)的時(shí)間、空間、實(shí)體、虛擬等維度上的復(fù)雜合作關(guān)系;還可以提供擴(kuò)展性應(yīng)用,比如通過(guò)提取領(lǐng)域交叉技術(shù),不確定性技術(shù),產(chǎn)業(yè)低關(guān)注度企業(yè)高聚焦度技術(shù)等,輔助識(shí)別顛覆性技術(shù)[19]等。
4? 應(yīng)用實(shí)證
基于本研究的科學(xué)知識(shí)圖譜,在垂直領(lǐng)域?qū)嵶C構(gòu)建深海潛器裝備技術(shù)可視化知識(shí)庫(kù),通過(guò)文獻(xiàn)計(jì)量算法和替代計(jì)量算法實(shí)施領(lǐng)域前沿技術(shù)跟蹤監(jiān)測(cè)。主要進(jìn)行核心研發(fā)專(zhuān)家和機(jī)構(gòu)精準(zhǔn)畫(huà)像、主體聚類(lèi)分析和技術(shù)發(fā)展趨勢(shì)分析,通過(guò)可視化的方式全景掃描深海潛器領(lǐng)域的技術(shù)、專(zhuān)家、機(jī)構(gòu)、合作網(wǎng)絡(luò)、熱點(diǎn)技術(shù)、高關(guān)注度技術(shù)和技術(shù)發(fā)展趨勢(shì),供智庫(kù)專(zhuān)家深度分析識(shí)別領(lǐng)域發(fā)展態(tài)勢(shì)、隱含規(guī)律特征,提出未來(lái)發(fā)展策略等,其中通過(guò)融合替代計(jì)量知識(shí)庫(kù),包括web新聞、Wechat、Twitter等動(dòng)態(tài)信息,豐富了知識(shí)分析結(jié)論的動(dòng)態(tài)屬性,突出跟蹤監(jiān)測(cè)特征。
4.1? 精準(zhǔn)畫(huà)像
專(zhuān)家和機(jī)構(gòu)精準(zhǔn)畫(huà)像如圖4所示,基于知識(shí)圖譜的計(jì)算,精準(zhǔn)提取深海潛器領(lǐng)域?qū)<液蜋C(jī)構(gòu)的知識(shí)特征和知識(shí)關(guān)聯(lián)描述特征,識(shí)別專(zhuān)家、機(jī)構(gòu)的研究方向、核心貢獻(xiàn)、合作網(wǎng)絡(luò)和全球影響力。
4.2? 聚類(lèi)分析
聚類(lèi)分析圖如圖5所示,是基于文獻(xiàn)計(jì)量算法,通過(guò)詞頻分析、共詞分析、熱詞云圖和熱詞發(fā)展趨勢(shì)聚類(lèi)分析,識(shí)別基礎(chǔ)研究前沿、技術(shù)發(fā)展前沿和高關(guān)注度技術(shù)前沿,以及基礎(chǔ)研究、技術(shù)發(fā)展和產(chǎn)業(yè)技術(shù)需求相互作用共同演化發(fā)展趨勢(shì)。
4.3? 趨勢(shì)分析
圖6趨勢(shì)分析圖是通過(guò)技術(shù)熱點(diǎn)分析、技術(shù)發(fā)展趨勢(shì)分析和技術(shù)發(fā)展歷程描述,計(jì)算推理深海潛器領(lǐng)域技術(shù)發(fā)展趨勢(shì),同時(shí)本研究構(gòu)建的知識(shí)圖譜提供了開(kāi)放的模型,可以通過(guò)設(shè)定基礎(chǔ)研究前沿、技術(shù)發(fā)展前沿和媒體關(guān)注度的不同權(quán)值,模擬推演領(lǐng)域技術(shù)發(fā)展的未來(lái)圖景。
5? 結(jié)語(yǔ)
科學(xué)知識(shí)圖譜是圍繞科技智庫(kù)的戰(zhàn)略研究需求構(gòu)建的可視化知識(shí)庫(kù),是將各類(lèi)獨(dú)立的、散亂的數(shù)據(jù)源、知識(shí)庫(kù)、網(wǎng)絡(luò)信息進(jìn)行融合,按科技智庫(kù)定義的知識(shí)圖譜引擎進(jìn)行索引,既提供文獻(xiàn)計(jì)量、專(zhuān)利分析等標(biāo)準(zhǔn)功能,又開(kāi)發(fā)了聯(lián)合挖掘、深度分析、智能搜索等拓展計(jì)算功能,并提供可視化表達(dá)。本研究探索構(gòu)建的科學(xué)知識(shí)圖譜,在垂直領(lǐng)域進(jìn)行了應(yīng)用實(shí)踐,基本功能實(shí)現(xiàn)很好,拓展功能上還有待進(jìn)一步深入研究,尤其在科學(xué)知識(shí)圖譜與知識(shí)推理和人工智能技術(shù)的深度融合方面,極具應(yīng)用價(jià)值。
參考文獻(xiàn):
[1] 袁秀, 李培楠, 萬(wàn)勁波, 等. 從知識(shí)到政策: 科技智庫(kù)的知識(shí)轉(zhuǎn)化機(jī)制[J]. 科技導(dǎo)報(bào), 2019, 37(12): 9-13.
[2] 中共中央辦公廳、國(guó)務(wù)院辦公廳印發(fā)《關(guān)于加強(qiáng)中國(guó)特色新型智庫(kù)建設(shè)的意見(jiàn)》[EB/OL]. (2015-01-20)[2020-06-20]. http://www.gov.cn/xinwen/2015-01/20/content_2807126.htm.
[3] 吳新年, 孫成權(quán). 學(xué)科情報(bào)研究與科研決策支持平臺(tái)建設(shè)構(gòu)想[J]. 情報(bào)雜志, 2005(6): 14-16.
[4] 譚宗穎, 王強(qiáng), 蒼宏宇, 等. 科技發(fā)展前沿信息監(jiān)測(cè)與分析平臺(tái)的構(gòu)建[J]. 科學(xué)學(xué)研究, 2010, 28(2): 195-201.
[5] 逯萬(wàn)輝, 譚宗穎. 基于深度學(xué)習(xí)的期刊分群與科學(xué)知識(shí)結(jié)構(gòu)測(cè)度方法研究[J]. 情報(bào)學(xué)報(bào), 2020, 39(1): 38-46.
[6] 蘇曉娟, 張英杰, 白晨, 等. 科技大數(shù)據(jù)背景下的中英雙語(yǔ)語(yǔ)料庫(kù)的構(gòu)建及其特點(diǎn)研究[J]. 中國(guó)科技資源導(dǎo)刊, 2019, 51(6): 87-92.
[7] 胡吉穎, 謝靖, 錢(qián)力, 等. 基于知識(shí)圖譜的科技大數(shù)據(jù)知識(shí)發(fā)現(xiàn)平臺(tái)建設(shè)[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2019, 3(1): 55-62.
[8] 王穎, 錢(qián)力, 謝靖, 等. 科技大數(shù)據(jù)知識(shí)圖譜構(gòu)建模型與方法研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2019, 3(1): 15-26.
[9] AMIT S. Introducing the knowledge graph: Things, not strings[EB/OL]. [2020-07-10]. http://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html.
[10] 湯建民. 學(xué)科知識(shí)圖譜的繪制及在學(xué)科發(fā)展監(jiān)測(cè)與評(píng)價(jià)中的應(yīng)用[J]. 情報(bào)理論與實(shí)踐, 2009, 32(10): 55-59.
[11] 劉則淵, 陳悅, 侯海燕. 科學(xué)知識(shí)圖譜: 方法與應(yīng)用[M]. 北京: 人民出版社, 2008: 3-11.
[12] MCGANN J G. 2015 Global go to think tank index report[EB/OL]. [2020-07-19]. http://repository.upenn.edu/cgi/viewcontent.cgi?article=1009&context=think_tanks.
[13] 萬(wàn)勁波, 李培楠. 國(guó)家科技智庫(kù)體系建設(shè)態(tài)勢(shì)及政策建議[J]. 數(shù)字圖書(shū)館論壇, 2017(3): 6-10.
[14] 于升峰, 肖強(qiáng). 科技智庫(kù)戰(zhàn)略決策平臺(tái)構(gòu)建研究[J]. 智庫(kù)理論與實(shí)踐, 2020, 5(1): 22-27.
[15] 秦佳佳. 淺探布魯金斯學(xué)會(huì)數(shù)據(jù)可視化應(yīng)用及對(duì)我國(guó)智庫(kù)的啟迪[J]. 中國(guó)管理信息化, 2019, 22(14): 157-159.
[16] 王雪, 褚鑫, 宋瑤瑤, 等. 中國(guó)科技智庫(kù)建設(shè)發(fā)展現(xiàn)狀及對(duì)策建議[J]. 科技導(dǎo)報(bào), 2018, 36(16): 53-61.
[17] 漆桂林, 高桓, 吳天星. 知識(shí)圖譜研究進(jìn)展[J]. 情報(bào)工程, 2017, 3(1): 4-25.
[18] 牛海波, 趙丹群, 郭倩影. 基于BERT和引文上下文的文獻(xiàn)表征與檢索方法研究[J]. 情報(bào)理論與實(shí)踐, 2020, 43(9): 125-131.
[19] 王超, 許海云, 方曙. 顛覆性技術(shù)識(shí)別與預(yù)測(cè)方法研究進(jìn)展[J]. 科技進(jìn)步與對(duì)策, 2018, 35(9): 152-160.