技術(shù)宅
現(xiàn)在無(wú)論是在微信朋友圈、PPT還是很多新聞中,我們都可以看到大量的知識(shí)圖譜。這些媒介通過(guò)一張張簡(jiǎn)單的圖譜闡述了很多原來(lái)需要很多筆墨才能表達(dá)清楚的事物(圖1)。那么什么是知識(shí)圖譜?它可以應(yīng)用在什么地方?對(duì)于一般人來(lái)說(shuō)構(gòu)建知識(shí)圖譜又有什么實(shí)際意義?
科技掃盲——認(rèn)識(shí)知識(shí)圖譜
如上所述,現(xiàn)在我們經(jīng)常在各種媒介上看到知識(shí)圖譜。它是將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜進(jìn)行展示的一種技術(shù)。實(shí)際上如果單從表面看,知識(shí)圖譜其實(shí)就是一張包含各種知識(shí)結(jié)構(gòu)的圖片,當(dāng)然我們也可以理解成一張由知識(shí)點(diǎn)相互連接而成的語(yǔ)義網(wǎng)絡(luò)。知識(shí)圖譜其實(shí)和我們生活中小孩玩的磁力棒游戲很類似,它包含各個(gè)知識(shí)節(jié)點(diǎn)(鋼珠)和節(jié)點(diǎn)關(guān)系(磁力棒),這樣這些鋼珠和磁力棒就組成一張知識(shí)圖譜(圖2)。
那么知識(shí)圖譜是怎么出現(xiàn)的?嚴(yán)格來(lái)說(shuō)“知識(shí)圖譜”是一個(gè)舶來(lái)品,2012年5月負(fù)責(zé)Google搜索引擎的大神Amit Singhal在一篇《Introducing the Knowledge Graph: things, not strings》博客文章中提出“Knowledge Graph”(即知識(shí)圖譜)的概念,這篇文章被國(guó)內(nèi)媒體廣泛轉(zhuǎn)載,知識(shí)圖譜概念就逐漸開始在國(guó)內(nèi)傳播,因此“知識(shí)圖譜”最早是在搜索引擎中應(yīng)用的。
知識(shí)圖譜的構(gòu)建——認(rèn)識(shí)圖譜背后的秘密
如上所述,“知識(shí)圖譜”最早是在搜索引擎中應(yīng)用的。那么搜索引擎服務(wù)商為什么要在搜索引擎中引入“知識(shí)圖譜”的概念?它又是怎樣建立起來(lái)的呢?
大家知道隨著互聯(lián)網(wǎng)的普及,我們大量的信息是通過(guò)互聯(lián)網(wǎng)獲取的。在這個(gè)網(wǎng)絡(luò)中,每張包含信息的網(wǎng)頁(yè)就像是上述圖片中的“鋼珠”,網(wǎng)頁(yè)之間通過(guò)“磁力棒”(超鏈接)建立關(guān)聯(lián)關(guān)系。為了獲取到自己所需的信息,人們主要通過(guò)在搜索引擎中輸入關(guān)鍵字進(jìn)行搜索,然后在搜索結(jié)果中找到自己所需的信息。但是大家知道,現(xiàn)在互聯(lián)網(wǎng)上的信息數(shù)以億計(jì),為了能夠讓人們?cè)诤A康乃阉鹘Y(jié)果中快速找到所需的信息,搜索引擎廠商們就引入了“知識(shí)圖譜”這個(gè)概念。當(dāng)然除了谷歌,現(xiàn)在百度、搜狗等搜索引擎也在使用“知識(shí)圖譜”,以搜狗搜索為例。
當(dāng)我們打開https://w w w. sogou.com/輸入“比爾·蓋茨”作為關(guān)鍵字,這樣在搜索結(jié)果頁(yè)面右側(cè)就會(huì)出現(xiàn)和比爾·蓋茨相關(guān)的知識(shí)圖譜,如比爾·蓋茨的親情、友情、愛情,以及與其相關(guān)的經(jīng)濟(jì)人物、書籍等內(nèi)容,這就是一個(gè)典型的知識(shí)圖譜的應(yīng)用(圖3)。
那么這個(gè)圖譜是怎么建立?知識(shí)圖譜的關(guān)鍵是節(jié)點(diǎn)和節(jié)點(diǎn)聯(lián)系,以上述搜索為例,這里的節(jié)點(diǎn)就是各個(gè)搜索關(guān)鍵詞的頁(yè)面。作為搜索引擎它會(huì)通過(guò)網(wǎng)絡(luò)爬蟲收集海量的網(wǎng)頁(yè)數(shù)據(jù)作為節(jié)點(diǎn),有了這些節(jié)點(diǎn)數(shù)據(jù)后關(guān)鍵就是如何將相關(guān)聯(lián)的節(jié)點(diǎn)數(shù)據(jù)建立對(duì)應(yīng)的聯(lián)系。
搜索引擎要為用戶建立知識(shí)圖譜,關(guān)鍵是要理解用戶的搜索意圖。還是以上述搜索為例,搜索引擎在響應(yīng)用戶輸入關(guān)鍵詞“比爾·蓋茨”后,除了可以展示直接的搜索結(jié)果(“比爾·蓋茨”的搜狗百科內(nèi)容),還可以將“比爾·蓋茨”相關(guān)的關(guān)系以圖解方式列出知識(shí)圖譜。這是因?yàn)樗阉饕婵梢詫?duì)用戶輸入的關(guān)鍵詞進(jìn)行智能學(xué)習(xí)和判斷。比如搜索引擎可以根據(jù)用戶之前搜索的大數(shù)據(jù)進(jìn)行分析和學(xué)習(xí),知道用戶在輸入類似“比爾·蓋茨”關(guān)鍵詞時(shí),很多用戶還希望了解“比爾·蓋茨”相關(guān)的數(shù)據(jù),如其妻子、合作伙伴,甚至和其地位相似的經(jīng)濟(jì)人物等。當(dāng)然搜索引擎還會(huì)通過(guò)深度學(xué)習(xí)(通過(guò)人工輸入特定關(guān)鍵詞,或者抓取搜索大數(shù)據(jù)),了解到用戶普遍的搜索需求,從而可以在用戶輸入關(guān)鍵詞后能夠?qū)ψ陨泶鎯?chǔ)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)(如上例列出“比爾·蓋茨”的親情、友情、愛情關(guān)系圖譜),迅速將相應(yīng)的知識(shí)圖譜展現(xiàn)在用戶屏幕上。顯然知識(shí)圖譜的建立是大數(shù)據(jù)分析、深度學(xué)習(xí)、人工智能這些先進(jìn)技術(shù)的結(jié)晶(圖4)。
知識(shí)圖譜 不僅應(yīng)用在搜索引擎
通過(guò)上述例子我們知道知識(shí)圖譜在搜索引擎中的應(yīng)用,顯然通過(guò)知識(shí)圖譜我們可以獲得比較全面的搜索結(jié)果。雖然知識(shí)圖譜在搜索引擎中率先應(yīng)用,但是隨著知識(shí)圖譜的普及,它也逐漸應(yīng)用在我們的日常生活中。
比如很多朋友在進(jìn)行互聯(lián)網(wǎng)金融投資(P2P)時(shí),為了避免踩到平臺(tái)自融的雷,我們一般會(huì)通過(guò)工商查詢系統(tǒng)查看股東關(guān)系,很多平臺(tái)股東會(huì)在多個(gè)公司交叉持股。為了能夠更方便地對(duì)股東交叉持股的關(guān)系有個(gè)清晰的了解,此時(shí)使用知識(shí)圖譜來(lái)表示持股信息就是一個(gè)很好的方法。通過(guò)預(yù)先查詢特定股東參股的公司,然后根據(jù)實(shí)際持股信息繪制知識(shí)圖表,這樣股東持股信息就一目了然了(圖5)。
顯然利用知識(shí)圖譜可以將一些關(guān)系復(fù)雜、書面語(yǔ)言難以描述的關(guān)系利用知識(shí)圖表清晰地表達(dá)出來(lái)。同樣我們可以將其運(yùn)用在很多方面,比如記憶單詞的時(shí)候,很多朋友喜歡使用一些基本詞根來(lái)進(jìn)行擴(kuò)展記憶,那么我們可以利用詞根來(lái)制作一張知識(shí)圖譜幫助我們記憶單詞(圖6)。