臧根林
由谷歌(Google)旗下DeepMind公司戴密斯.哈薩比斯領(lǐng)銜的團隊開發(fā)的阿爾法圍棋(AlphaGo)人工智能機器人在2016年3月與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),以4比1的總比分獲勝,引爆了新一輪人工智能熱潮。人工智能研究從1956年開始,經(jīng)過三起三落,至今已經(jīng)60多年了,但始終發(fā)展沒有達到我們的期望,現(xiàn)在有了大數(shù)據(jù)技術(shù),在機器學習模型訓練方面有了重大提升,在語義理解、圖像識別等方面都有了不少突破,也出現(xiàn)了AI播音員等,但我們發(fā)現(xiàn)要實際運用的時候,人工智能離我們還有相當遠的距離。比如無人駕駛汽車,試驗階段是沒有問題的,真正上路為我們服務(wù),能在復(fù)雜路況下像老司機一樣安全駕駛,誰也說不清還需要等多少年。
怎么樣才能讓人工智能為人類服務(wù)?我認為這個問題非常像把一條狗訓練成警犬的過程。狗的智商不如人類,但在“硬件”方面有優(yōu)勢,比如奔跑速度、嗅覺等等,我們要訓練一條狗成為警犬,就必須讓它學習,能理解人類的意圖,知道要它做什么。訓練狗的過程實際上是知識降維的過程,我們?nèi)祟惸X子里的知識結(jié)構(gòu)非常復(fù)雜,其存儲結(jié)構(gòu)、關(guān)聯(lián)思維、決策判斷過程至今也無法完全研究明白。要把這么復(fù)雜的知識結(jié)構(gòu)讓狗能理解,只能把維度降下來,比如找出一包毒品可以得到一份食物的獎勵,也就是將毒品這個實體和它喜歡的食品這個實體建立了關(guān)系。訓練人工智能其實也就是這樣,計算機的計算、存儲能力可擴展,超級計算機可以實現(xiàn)我們?nèi)祟悷o法達到的高性能計算,但無法完全模擬我們?nèi)祟惖乃季S,只有我們把知識結(jié)構(gòu)降維,形成一個計算機能看懂的結(jié)構(gòu),它的優(yōu)勢才能發(fā)揮。這樣降維后形成的知識,基本上圍繞著實體、實體的屬性、實體之間的關(guān)系這三個要素展開,這種知識架構(gòu)就是知識圖譜。特別是現(xiàn)實世界中的大量知識是非結(jié)構(gòu)化的,如聲音、圖像等,而計算機擅長處理的是結(jié)構(gòu)化數(shù)據(jù)。知識圖譜可以實體的結(jié)構(gòu)化信息和非結(jié)構(gòu)信息關(guān)聯(lián)起來。所以有一種說法,叫知識圖譜是大數(shù)據(jù)走向人工智能的階梯。
知識圖譜本質(zhì)上就是一個用圖數(shù)據(jù)結(jié)構(gòu)等技術(shù)作載體,描述客觀事物及其關(guān)系的大型知識庫。在具體實現(xiàn)上,知識圖譜用語義網(wǎng)(Semantic Web)中的資源描述框架(Resource Description Framework,RDF)對知識體系和實例數(shù)據(jù)二個層面的內(nèi)容進行統(tǒng)一表示,共同構(gòu)成一個完整的知識系統(tǒng)。
世界本身不存在結(jié)構(gòu)化或非結(jié)構(gòu)化問題,在信息化時代之前也沒有人去區(qū)分結(jié)構(gòu)化或非結(jié)構(gòu)化,但人類進入信息化時代,什么都想通過計算來得到結(jié)果,就產(chǎn)生了信息是否結(jié)構(gòu)化問題。所以這個問題是人類為了將就計算機而產(chǎn)生的問題。知識圖譜把這個問題進一步加深了,因為我們不僅僅想讓計算機幫我們計算信息,還想讓計算機學會跟我們?nèi)祟愐粯尤ニ伎既ヅ袛?,也就是現(xiàn)在很熱門的人工智能。為了教育計算機看懂人類的知識,我們類似給幼兒設(shè)計看圖識字本一樣,將知識整理成知識圖譜。
知識圖譜的本質(zhì)是具有有向圖結(jié)構(gòu)的知識庫,知識圖譜是人工智能應(yīng)用不可或缺的基礎(chǔ)資源。知識圖譜分為兩類:通用知識圖譜和領(lǐng)域知識圖譜。通用的知識圖譜可以認為是百科全書,比如Google 知識圖譜、DBpedia、YAGO和Freebase等;領(lǐng)域知識圖譜是基于領(lǐng)域數(shù)據(jù)構(gòu)建的知識圖譜,用于領(lǐng)域分析研究工作。通用知識圖譜的本體根類型,基本上就是實體(entity),然后再分類。通用知識圖譜和領(lǐng)域知識圖譜,從基礎(chǔ)架構(gòu)上基本相同,但由于領(lǐng)域知識圖譜面向更為復(fù)雜的領(lǐng)域數(shù)據(jù)和場景,從構(gòu)建和應(yīng)用上來講更加復(fù)雜。
雖然知識圖譜概念由美國谷歌公司在2012年5月首次提出,但知識圖譜這樣的理念和表達思路在中國已經(jīng)存在超過二千年,五行理論和相生相克圖就是一個典型的知識圖譜結(jié)構(gòu)。知識圖譜描述的關(guān)鍵三要素是實體、屬性和實體之間的關(guān)系,五行相生相克圖(圖1)正是完整表達了這樣的三個要素,金、木、水、火、土每個字不但表達一種類型實體,而且字面本身已經(jīng)蘊含了屬性解釋,如“水”字自然就是指世界上一切液體性質(zhì)的實體,每個實體都和另外四個發(fā)生聯(lián)系,四條連線代表了實體之間相生或相克的關(guān)系。
在很多領(lǐng)域的知識圖譜,其實和五行相生相克圖都有相似之處,圖2就是是公安部門數(shù)據(jù)存儲的常用分類,將數(shù)據(jù)分為人(人口信息)、地址(門牌樓等)、案件、物品(刀、槍、毒品等)及組織(某黑社會、邪教組織等)。
知識圖譜可以用于各個行業(yè)領(lǐng)域,用于領(lǐng)域的數(shù)據(jù)整合和業(yè)務(wù)分析,比如政府輔助決策、媒體分析、電商分析、金融分析、公安情報分析、學術(shù)領(lǐng)域、學科分析、軍事信息搜索等。面向不同領(lǐng)域有不同的領(lǐng)域本體(Domain Ontoloty),領(lǐng)域本體是領(lǐng)域知識圖譜的基礎(chǔ)概念。在領(lǐng)域知識圖譜工程中,最先需要確定的是本體中的對象類型。各個領(lǐng)域都有自己關(guān)注的主要對象,領(lǐng)域的信息化是圍繞這些對象而產(chǎn)生和收集數(shù)據(jù),所以在構(gòu)建領(lǐng)域知識圖譜中,這些主要對象就是知識圖譜中主要的對象類型。
領(lǐng)域知識圖譜構(gòu)建的過程,就是分別將領(lǐng)域中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)加工成知識對象和關(guān)系的過程,針對三種類型的數(shù)據(jù)分別構(gòu)建,構(gòu)建后的文本類型和多媒體類型的對象,又可以通過人工或機器的方式進行知識加工,從中提取有價值的實體、事件和關(guān)系。圖3顯示的就是領(lǐng)域知識圖譜構(gòu)建和知識加工原理。
大數(shù)據(jù)技術(shù)發(fā)展非??焖?,2012年在中國開始提出大數(shù)據(jù),短短幾年時間已經(jīng)從一種高大上的技術(shù)變成了基礎(chǔ)性的技術(shù),各行各業(yè)都在使用大數(shù)據(jù)。但如何讓大數(shù)據(jù)發(fā)揮更大價值,大家都把目光轉(zhuǎn)向人工智能的時候,發(fā)現(xiàn)人工智能離自己實際使用有相當?shù)木嚯x,甚至無從下手。其實,先把大數(shù)據(jù)構(gòu)建成自己領(lǐng)域的知識圖譜,形成機器學習、模型訓練的知識資源,正是通往人工智能的階梯。