耿江濤 匡增意 駱清霞
【摘 ?要】大數(shù)據(jù)技術(shù)的發(fā)展,催生了Google以語(yǔ)義網(wǎng)和領(lǐng)域本體為其關(guān)鍵技術(shù)的大規(guī)模語(yǔ)義網(wǎng)絡(luò)知識(shí)庫(kù)——知識(shí)圖譜(Knowledge Graph)的誕生和發(fā)展,不但在計(jì)算機(jī)科學(xué)領(lǐng)域發(fā)揮重大作用,且日益應(yīng)用到其他領(lǐng)域。同時(shí),在圖書(shū)情報(bào)領(lǐng)域基于引文分析可視化、知識(shí)地圖和知識(shí)網(wǎng)絡(luò)等研究產(chǎn)生的科學(xué)知識(shí)圖譜(Mapping Knowledge Domain)也在近二十年間得到了長(zhǎng)足的發(fā)展。隨著研究領(lǐng)域的融合,有必要分析兩者的研究?jī)?nèi)涵,厘清兩者的關(guān)系,在知識(shí)管理方面優(yōu)勢(shì)互補(bǔ),發(fā)揮更大的作用。
【關(guān)鍵詞】科學(xué)知識(shí)圖譜; Google知識(shí)圖譜; 語(yǔ)義網(wǎng); 大數(shù)據(jù)
引言
就中文字面而言,知識(shí)圖譜的研究既有在圖書(shū)情報(bào)領(lǐng)域廣泛使用的科學(xué)知識(shí)圖譜,又有在計(jì)算機(jī)科學(xué)領(lǐng)域的Google知識(shí)圖譜。雖然兩者在發(fā)展過(guò)程中都簡(jiǎn)稱(chēng)為知識(shí)圖譜,但其英文內(nèi)涵、使用技術(shù)及應(yīng)用都有本質(zhì)的不同。
科學(xué)知識(shí)圖譜是在圖書(shū)情報(bào)領(lǐng)域基于引文分析可視化、知識(shí)地圖和知識(shí)網(wǎng)絡(luò)等研究產(chǎn)生的,采用可視化的圖譜,形象地展示所研究學(xué)科的框架、歷史、現(xiàn)狀和未來(lái)。
Google知識(shí)圖譜是在計(jì)算機(jī)科學(xué)領(lǐng)域,人工智能的深度學(xué)習(xí)技術(shù)賦能傳統(tǒng)語(yǔ)義網(wǎng)(Semantic Web)的研究,通過(guò)構(gòu)建本體(Ontology)建構(gòu)大規(guī)模語(yǔ)義網(wǎng)絡(luò)知識(shí)庫(kù),并對(duì)相關(guān)信息進(jìn)行可視化研究,是大數(shù)據(jù)時(shí)代知識(shí)管理的必然產(chǎn)物。
1.科學(xué)知識(shí)圖譜概述
科學(xué)知識(shí)圖譜通過(guò)文獻(xiàn)分析及可視化技術(shù),繪制文獻(xiàn)計(jì)量圖(Bibliometric mapping)及文獻(xiàn)地圖(Literature mapping),以科學(xué)地圖(Science mapping)表現(xiàn)形式,緊扣英文Mapping地圖和向?qū)У膬?nèi)涵,特別易于展現(xiàn)學(xué)科的結(jié)構(gòu)、歷史沿革和發(fā)展趨勢(shì)、以及研究前沿等內(nèi)容。
1.1基本概念
從知識(shí)管理的視角而言,科學(xué)知識(shí)圖譜是以學(xué)科文獻(xiàn)為研究對(duì)象,用“圖”(可視化圖形)和“譜”(結(jié)構(gòu)化的譜系)的方式展示學(xué)科的發(fā)展與結(jié)構(gòu)。
1.2知識(shí)可視化
知識(shí)有語(yǔ)言、文字、圖像等多種表達(dá)形式,但人類(lèi)對(duì)視覺(jué)圖形則有更強(qiáng)的理解和識(shí)記能力,百聞不如一見(jiàn)、一圖勝萬(wàn)言。在知識(shí)學(xué)習(xí)方面,廣泛使用概念圖、思維導(dǎo)圖等圖形工具展現(xiàn)概念、設(shè)計(jì)及關(guān)系等。
1.3科學(xué)知識(shí)圖譜
科學(xué)知識(shí)圖譜以文獻(xiàn)分析的引文分析和共引分析構(gòu)建學(xué)科的知識(shí)基礎(chǔ),通過(guò)建立數(shù)學(xué)模型和網(wǎng)絡(luò)結(jié)構(gòu),并繪制可視化圖形,以形象化地顯示學(xué)科結(jié)構(gòu)、熱點(diǎn)、歷史與趨勢(shì)。
1.4知識(shí)管理及使用流程
樣本數(shù)據(jù)獲取。主要數(shù)據(jù)來(lái)源:Web of Science;科學(xué)文獻(xiàn)數(shù)據(jù):SCI, SSCI;國(guó)際會(huì)議文獻(xiàn)數(shù)據(jù):CPCI;其他國(guó)際文獻(xiàn)數(shù)據(jù)庫(kù):Scopus,Science Direct
國(guó)內(nèi)數(shù)據(jù)庫(kù):CNKI、CSSCI、CSCD、萬(wàn)方等。
網(wǎng)絡(luò)數(shù)據(jù)源:Google Scholar、arXiv。
(2)樣本數(shù)據(jù)清洗。樣本數(shù)據(jù)的質(zhì)量決定了分析的質(zhì)量。為此,需要對(duì)文獻(xiàn)數(shù)據(jù)庫(kù)采集的數(shù)據(jù)進(jìn)行清洗預(yù)處理操作。包括對(duì)數(shù)據(jù)分段,修正原始數(shù)據(jù)的明顯錯(cuò)誤,以及進(jìn)行去掉重復(fù)數(shù)據(jù)的處理。
(3)選擇知識(shí)單元。選擇知識(shí)單元是進(jìn)行知識(shí)處理的最基本工作。首先選擇話(huà)題(Topic):包括題名(Title)、關(guān)鍵詞、【摘 ?要】、作者等,此外資源類(lèi)型、學(xué)科和研究方向等多種內(nèi)容。
(4)構(gòu)建知識(shí)單元關(guān)系。通過(guò)引文分析理論與方法,采用引文網(wǎng)絡(luò)的共引分析、貢獻(xiàn)分析、耦合分析等構(gòu)建知識(shí)單元之間的關(guān)系。
(5)數(shù)據(jù)標(biāo)準(zhǔn)化。通過(guò)正交化、零值偏移化等方法,對(duì)知識(shí)單元的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
(6)簡(jiǎn)化分析。主要使用因子分析,使用主成分分析、多維尺度分析以及神經(jīng)網(wǎng)絡(luò)聚類(lèi)算法等分析方法。
(7)知識(shí)可視化。通過(guò)使用幾何圖、戰(zhàn)略圖、主題河圖和地形圖等多種可視化展示工具,系統(tǒng)地展示知識(shí)單元及其關(guān)系。
(8)科學(xué)知識(shí)圖譜解讀。主要從網(wǎng)絡(luò)分析,歷時(shí)、空間和突變分析等多方面,對(duì)科學(xué)知識(shí)圖譜進(jìn)行分析和解讀。
2.Google知識(shí)圖譜概述
為提升搜索質(zhì)量,Google從圖(Graph)模型出發(fā),對(duì)傳統(tǒng)語(yǔ)義網(wǎng)重新賦能,構(gòu)建了統(tǒng)一結(jié)構(gòu)化的知識(shí)圖譜,即大規(guī)模語(yǔ)義網(wǎng)絡(luò)知識(shí)庫(kù),成為大數(shù)據(jù)智能時(shí)代的前沿。
2.1本體
本體描述了概念及之間的關(guān)系,是對(duì)客觀世界存在及關(guān)系的抽象和建模。本體精確定義概念、關(guān)系及約束。通過(guò)形式化描述,便于人機(jī)交互和計(jì)算推理,同時(shí)也是領(lǐng)域內(nèi)不同主體進(jìn)行通訊的語(yǔ)義基礎(chǔ)。
本體 = 概念 + 實(shí)例 + 關(guān)系 + 【公理】
目前通用領(lǐng)域的本體庫(kù)產(chǎn)品,都是由數(shù)據(jù)驅(qū)動(dòng)自動(dòng)構(gòu)建的,然后由人工審核進(jìn)行修正。
2.2資源描述框架RDF
RDF(Resource Description Framework)是用于Web上數(shù)據(jù)交換的標(biāo)準(zhǔn)模型。RDF鏈接結(jié)構(gòu)形成一個(gè)有向標(biāo)記標(biāo)簽圖,其中邊表示由圖節(jié)點(diǎn)表示的兩個(gè)知識(shí)單元之間的關(guān)系。
2.3知識(shí)圖譜研究的關(guān)鍵技術(shù)
大數(shù)據(jù)時(shí)代,如何從互聯(lián)網(wǎng)上積累的海量數(shù)據(jù)中提取出知識(shí),組織為可用的知識(shí)庫(kù),是知識(shí)圖譜所要解決的主要問(wèn)題。關(guān)鍵技術(shù)包括:
(1)知識(shí)抽取。是指從各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)中獲取知識(shí)。包括實(shí)體提取、屬性提取、實(shí)體關(guān)系提取。
實(shí)體抽?。翰捎妹麑?shí)體識(shí)別技術(shù),將實(shí)體及其屬性從文本中挖掘出來(lái)。
實(shí)體關(guān)系提?。禾崛?shí)體間的語(yǔ)義關(guān)聯(lián)。在知識(shí)庫(kù)的構(gòu)建過(guò)程中,實(shí)體關(guān)系提取與實(shí)體提取處于同樣重要的地位,也是知識(shí)庫(kù)構(gòu)建與補(bǔ)全的關(guān)鍵步驟之一。
(2)知識(shí)融合。知識(shí)融合是將抽取到的知識(shí),與知識(shí)庫(kù)已有的知識(shí)相整合。特別要解決實(shí)體的歧義性,包括相同的實(shí)體具有不同的名字,或者相同的名字指向不同的實(shí)體。解決這一問(wèn)題需要用到的技術(shù),主要分基于概率模型和基于機(jī)器學(xué)習(xí)模型兩類(lèi)。
(3)知識(shí)加工。經(jīng)過(guò)知識(shí)抽取與知識(shí)融合后,知識(shí)庫(kù)中就包含了一系列事實(shí)。但要形成可用的知識(shí)圖譜,還需要對(duì)知識(shí)進(jìn)行進(jìn)一步的加工處理。這一過(guò)程主要有本體構(gòu)建,和知識(shí)推理。
3.結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代,Google知識(shí)圖譜賦予語(yǔ)義網(wǎng)技術(shù)新的活力,且隨著深度學(xué)習(xí)技術(shù)的發(fā)展,廣泛地應(yīng)用到各個(gè)學(xué)科領(lǐng)域。而科學(xué)知識(shí)圖譜則以知識(shí)可視化為核心方法,經(jīng)過(guò)近二十年的發(fā)展,支撐理論、體系方法和應(yīng)用成果都取得明顯的成效。當(dāng)前,二者的交叉融合,互促發(fā)展,也為人工智能時(shí)代提供了創(chuàng)新的機(jī)會(huì)和研究領(lǐng)域。
參考文獻(xiàn)
[1] 馮新翎,何勝,熊太純,等.“科學(xué)知識(shí)圖譜”與“Google知識(shí)圖譜”比較分析---基于知識(shí)管理理論視角[J].情報(bào)雜志,2017,36(1):149-153.
[2] 楊思洛,韓瑞珍.國(guó)外知識(shí)圖譜的應(yīng)用研究現(xiàn)狀分析[J].情報(bào)資料工作,2013(06):15-20.
基金項(xiàng)目: ① 廣東省教育廳2019年度普通高校特色創(chuàng)新類(lèi)項(xiàng)目(2019GKTSCX152)成果;②廣東省教育廳2018年度廣東省特色創(chuàng)新項(xiàng)目(2018GWTSCX055)成果;③ 廣東省教育廳2018年省高職質(zhì)量工程教改項(xiàng)目(GDJG2019309)成果。
作者簡(jiǎn)介:耿江濤,副教授,博士生,廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院華文與國(guó)際教育學(xué)院院長(zhǎng)。研究方向:大數(shù)據(jù)應(yīng)用;
*通訊作者:匡增意,副教授,廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院常務(wù)副校長(zhǎng)。研究方向:高職教育管理。
駱清霞,助教,廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院實(shí)踐教學(xué)管理室。研究方向:實(shí)踐教學(xué)管理。