張佳星
如果說(shuō)波士頓動(dòng)力的翻跟頭是在幫機(jī)器人鍛煉筋骨,那么知識(shí)圖譜的“繪制”則是在試圖“創(chuàng)造”一個(gè)能運(yùn)轉(zhuǎn)的機(jī)器人大腦。
“目前,還不能做到讓機(jī)器理解人的語(yǔ)言?!敝袊?guó)科學(xué)院軟件所研究員、中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)孫樂(lè)說(shuō)。無(wú)論是能逗你一樂(lè)的Siri,還是會(huì)做詩(shī)的小冰,亦或是會(huì)“懸絲診脈”的沃森,它們并不真正明白自己在做什么、為什么這么做。
讓機(jī)器學(xué)會(huì)思考,要靠“譜”。這個(gè)“譜”被稱(chēng)為知識(shí)圖譜,意在將人類(lèi)世界中產(chǎn)生的知識(shí),構(gòu)建在機(jī)器世界中,進(jìn)而形成能夠支撐類(lèi)腦推理的知識(shí)庫(kù)。
為了在國(guó)內(nèi)構(gòu)建一個(gè)關(guān)于知識(shí)圖譜的全新產(chǎn)學(xué)合作模式,知識(shí)圖譜研討會(huì)日前召開(kāi),來(lái)自高校院所的研究人員與產(chǎn)業(yè)團(tuán)隊(duì)共商打造全球化的知識(shí)圖譜體系,建立世界領(lǐng)先的人工智能基礎(chǔ)設(shè)施的開(kāi)拓性工作。
技術(shù)原理:把文本轉(zhuǎn)化成知識(shí)
“對(duì)于‘姚明是上海人這樣一個(gè)句子,存儲(chǔ)在機(jī)器里只是一串字符。而這串字符在人腦中卻是‘活起來(lái)的?!睂O樂(lè)舉例說(shuō)。比如說(shuō)到“姚明”,人會(huì)想到他是前美職籃球員、“小巨人”、中鋒等,而“上?!睍?huì)讓人想到東方明珠、繁華都市等含義。但對(duì)于機(jī)器來(lái)說(shuō),僅僅說(shuō)“姚明是上海人”,它不能和人類(lèi)一樣明白其背后的含義。機(jī)器理解文本,首先就需要了解背景知識(shí)。
那如何將文本轉(zhuǎn)化成知識(shí)呢?
“借助信息抽取技術(shù),人們可以從文本中抽取知識(shí),這也正是知識(shí)圖譜構(gòu)建的核心技術(shù)?!睂O樂(lè)說(shuō),目前比較流行的是使用“三元組”的存儲(chǔ)方式。三元組由兩個(gè)點(diǎn)、一條邊構(gòu)成,點(diǎn)代表實(shí)體或者概念,邊代表實(shí)體與概念之間的各種語(yǔ)義關(guān)系。一個(gè)點(diǎn)可以延伸出多個(gè)邊,構(gòu)成很多關(guān)系。例如姚明這個(gè)點(diǎn),可以和上海構(gòu)成出生地的關(guān)系,可以和美職籃構(gòu)成效力關(guān)系,還可以和2.26米構(gòu)成身高關(guān)系。
“如果這些關(guān)系足夠完善,機(jī)器就具備了理解語(yǔ)言的基礎(chǔ)?!睂O樂(lè)說(shuō)。那么如何讓機(jī)器擁有這樣的“理解力”呢?
“上世紀(jì)六十年代,人工智能先驅(qū)麻省理工學(xué)院的馬文·明斯基在一個(gè)問(wèn)答系統(tǒng)項(xiàng)目SIR中,使用了實(shí)體間語(yǔ)義關(guān)系來(lái)表示問(wèn)句和答案的語(yǔ)義,劍橋語(yǔ)言研究部門(mén)的瑪格麗特·瑪斯特曼在1961年使用Semantic Network來(lái)建模世界知識(shí),這些都可被看作是知識(shí)圖譜的前身。”孫樂(lè)說(shuō)。
隨后的Wordnet、中國(guó)的知網(wǎng)(Hownet)也進(jìn)行了人工構(gòu)建知識(shí)庫(kù)的工作。
“這里包括主觀知識(shí),比如社交網(wǎng)站上人們對(duì)某個(gè)產(chǎn)品的態(tài)度是喜歡還是不喜歡;場(chǎng)景知識(shí),比如在某個(gè)特定場(chǎng)景中應(yīng)該怎么做;語(yǔ)言知識(shí),例如各種語(yǔ)言語(yǔ)法;常識(shí)知識(shí),例如水、貓、狗,教人認(rèn)的時(shí)候可以直接指著教,卻很難讓計(jì)算機(jī)明白?!睂O樂(lè)解釋?zhuān)瑥倪@些初步的分類(lèi)中就能感受到知識(shí)的海量,更別說(shuō)那些高層次的科學(xué)知識(shí)了。
構(gòu)建方式:從手工勞動(dòng)到自動(dòng)抽取
“2010年之后,維基百科開(kāi)始嘗試‘眾包的方式,每個(gè)人都能夠貢獻(xiàn)知識(shí)?!睂O樂(lè)說(shuō),這讓知識(shí)圖譜的積累速度大大增加,后續(xù)百度百科、互動(dòng)百科等也采取了類(lèi)似的知識(shí)搜集方式,發(fā)動(dòng)公眾使得“積沙”這個(gè)環(huán)節(jié)的時(shí)間大大縮短、效率大大增加,無(wú)數(shù)的知識(shí)從四面八方趕來(lái),迅速集聚,只待“成塔”。
面對(duì)如此大量的數(shù)據(jù),或者說(shuō)“文本”,知識(shí)圖譜的構(gòu)建工作自然不能再手工勞動(dòng),“讓機(jī)器自動(dòng)抽取結(jié)構(gòu)化的知識(shí),自動(dòng)生成‘三元組?!睂O樂(lè)說(shuō),學(xué)術(shù)界和產(chǎn)業(yè)界開(kāi)發(fā)出了不同的構(gòu)架、體系,能夠自動(dòng)或半自動(dòng)地從文本中生成機(jī)器可識(shí)別的知識(shí)。
孫樂(lè)的演示課件中,有一張生動(dòng)的圖畫(huà),一大摞文件紙吃進(jìn)去,電腦馬上轉(zhuǎn)化為“知識(shí)”,但事實(shí)遠(yuǎn)沒(méi)有那么簡(jiǎn)單。自動(dòng)抽取結(jié)構(gòu)化數(shù)據(jù)在不同行業(yè)還沒(méi)有統(tǒng)一的方案。在“百度知識(shí)圖譜”的介紹中這樣寫(xiě)道:對(duì)提交至知識(shí)圖譜的數(shù)據(jù)轉(zhuǎn)換為遵循Schema的實(shí)體對(duì)象,并進(jìn)行統(tǒng)一的數(shù)據(jù)清洗、對(duì)齊、融合、關(guān)聯(lián)等知識(shí)計(jì)算,完成圖譜的構(gòu)建?!暗谴蠹野l(fā)現(xiàn),基于維基百科,結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)挖掘出來(lái)的知識(shí)圖譜還是不夠,因此目前所有的工作都集中在研究如何從海量文本中抽取知識(shí)。”孫樂(lè)說(shuō),例如谷歌的Knowledge Vault,以及美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院主辦的TAC-KBP評(píng)測(cè),也都在推進(jìn)從文本中抽取知識(shí)的技術(shù)。
在權(quán)威的“知識(shí)庫(kù)自動(dòng)構(gòu)建國(guó)際評(píng)測(cè)”中,從文本中抽取知識(shí)被分解為實(shí)體發(fā)現(xiàn)、關(guān)系抽取、事件抽取、情感抽取等4部分。在美國(guó)NIST組織的TAC-KBP中文評(píng)測(cè)中,中科院軟件所—搜狗聯(lián)合團(tuán)隊(duì)獲得綜合性能指標(biāo)第3名,事件抽取單項(xiàng)指標(biāo)第1名的好成績(jī)。
“我國(guó)在這一領(lǐng)域可以和國(guó)際水平比肩。”孫樂(lè)介紹,中科院軟件所提出了基于Co-Bootstrapping的實(shí)體獲取算法,基于多源知識(shí)監(jiān)督的關(guān)系抽取算法等,大幅度降低了文本知識(shí)抽取工具構(gòu)建模型的成本,并提升了性能。
終極目標(biāo):將人類(lèi)知識(shí)全部結(jié)構(gòu)化
《圣經(jīng)·舊約》記載,人類(lèi)聯(lián)合起來(lái)興建希望能通往天堂的高塔—“巴別塔”,而今,創(chuàng)造AI的人類(lèi)正在建造這樣一座“巴別塔”,幫助人工智能企及人類(lèi)智能。
自動(dòng)的做法讓知識(shí)量開(kāi)始形成規(guī)模,達(dá)到了能夠支持實(shí)際應(yīng)用的量級(jí)?!暗沁@種轉(zhuǎn)化,還遠(yuǎn)遠(yuǎn)未達(dá)到人類(lèi)的知識(shí)水平?!睂O樂(lè)說(shuō),何況人類(lèi)的知識(shí)一直在增加、更新,一直在動(dòng)態(tài)變化,理解也應(yīng)該與時(shí)俱進(jìn)地體現(xiàn)在機(jī)器“腦”中。
“因此知識(shí)圖譜不會(huì)是一個(gè)靜止的狀態(tài),而是要形成一個(gè)循環(huán),這也是美國(guó)卡耐基梅隆大學(xué)等地方提出來(lái)的Never Ending Learning(學(xué)無(wú)止境)的概念?!睂O樂(lè)說(shuō)。
資料顯示,目前谷歌知識(shí)圖譜中記載了超過(guò)35億事實(shí);Freebase中記載了4000多萬(wàn)實(shí)體,上萬(wàn)個(gè)屬性關(guān)系,24億多個(gè)事實(shí);百度百科記錄詞條數(shù)1000萬(wàn)個(gè),百度搜索中應(yīng)用了聯(lián)想搜索功能。
“在醫(yī)學(xué)領(lǐng)域、人物關(guān)系等特定領(lǐng)域,也有專(zhuān)門(mén)的知識(shí)圖譜?!睂O樂(lè)介紹,Kinships描述人物之間的親屬關(guān)系,104個(gè)實(shí)體,26種關(guān)系,10800個(gè)事實(shí);UMLS在醫(yī)學(xué)領(lǐng)域描述了醫(yī)學(xué)概念之間的聯(lián)系,135個(gè)實(shí)體,49種關(guān)系,6800個(gè)事實(shí)。
“這是一幅充滿(mǎn)美好前景的宏偉藍(lán)圖?!睂O樂(lè)說(shuō),知識(shí)圖譜的最終目標(biāo)是將人類(lèi)的知識(shí)全部形式化、結(jié)構(gòu)化,并用于構(gòu)建基于知識(shí)的自然語(yǔ)言理解系統(tǒng)。
盡管令業(yè)內(nèi)滿(mǎn)意的“真正理解語(yǔ)言的系統(tǒng)”還遠(yuǎn)未出現(xiàn),目前的“巴別塔”還只是在基礎(chǔ)層面,但相關(guān)的應(yīng)用已經(jīng)顯示出廣闊的前景。例如,在百度百科輸入“冷凍電鏡”,右豎條的關(guān)聯(lián)將出現(xiàn)“施一公”,輸入“撒幣”,將直接在搜索項(xiàng)中出現(xiàn)“王思聰”等相關(guān)項(xiàng)。其中蘊(yùn)含著機(jī)器對(duì)人類(lèi)意圖的理解。
“知識(shí)圖譜的應(yīng)用涉及到眾多行業(yè),尤其是知識(shí)密集型行業(yè),目前關(guān)注度比較高的領(lǐng)域:醫(yī)療、金融、法律、電商、智能家電等?!睂O樂(lè)介紹,基于信息、知識(shí)和智能形成的閉環(huán),從信息中獲取知識(shí),基于知識(shí)開(kāi)發(fā)智能應(yīng)用,智能應(yīng)用產(chǎn)生新的信息,從新的信息中再獲取新的知識(shí),不斷迭代,就可以不斷產(chǎn)生更加豐富的知識(shí)圖譜,更加智能的應(yīng)用。