田莉霞
(寧夏財(cái)經(jīng)職業(yè)技術(shù)學(xué)院,寧夏 銀川 750021)
信息技術(shù)飛速發(fā)展,不斷推動(dòng)著互聯(lián)網(wǎng)技術(shù)的變革,互聯(lián)網(wǎng)的核心性技術(shù)Web經(jīng)歷了網(wǎng)頁鏈接到數(shù)據(jù)鏈接的變革后,正逐漸向大規(guī)模的語義網(wǎng)絡(luò)[1]演變。語義網(wǎng)絡(luò)將知識(shí)采用網(wǎng)絡(luò)的形式表示,它將經(jīng)過加工和推理的知識(shí)以圖形的方式提供給用戶,而實(shí)現(xiàn)智能化語義檢索的基礎(chǔ)和橋梁就是知識(shí)圖譜。
知識(shí)圖譜以圖的形式呈現(xiàn),用以描述現(xiàn)實(shí)世界中的實(shí)體、概念及二者的內(nèi)在聯(lián)系,是當(dāng)前人工智能的熱門技術(shù)之一,是實(shí)現(xiàn)智能搜索、語音問答的技術(shù)基礎(chǔ),被廣泛應(yīng)用于醫(yī)療、金融、教育、旅游、農(nóng)業(yè)、人力資源管理等領(lǐng)域。
為提高搜索效率,優(yōu)化搜索質(zhì)量,提升自家搜索引擎的競(jìng)爭(zhēng)力,2012年,Google首先提出知識(shí)圖譜[2]這一概念,以知識(shí)圖譜為技術(shù)支持的搜索引擎,具有一定的“理解”能力,用戶不再需要通過不停的點(diǎn)擊鏈接來獲取自己想要的信息,搜索引擎通過推理功能向用戶推薦問題的答案,實(shí)現(xiàn)智能搜索,這為用戶提供了完全不一樣的搜索感受。到底什么是知識(shí)圖譜?本質(zhì)上,知識(shí)圖譜就是以圖譜的形式呈現(xiàn)出客觀世界中的概念、實(shí)體及其間的復(fù)雜關(guān)系。Google 在推廣知識(shí)圖譜時(shí),曾提出“Things,not strings”的宣傳口號(hào),這就是知識(shí)圖譜的精華所在,即:不要無意義的字符串,而是獲取字符串背后隱含的對(duì)象或事物[3]。
例如,當(dāng)我們看到Leonardo di ser Piero da Vinci這串字符時(shí),首先想到什么?
相信很多人不明白其中的意思,我們一起來看下他對(duì)應(yīng)的中文:列奧納多·迪·皮耶羅·達(dá)·芬奇,這下絕大多數(shù)人都知道,這是一個(gè)外國人的名字, 接著我們會(huì)聯(lián)想到這是著名畫家、科學(xué)家,會(huì)聯(lián)想到他的著名作品《蒙娜麗莎》,還會(huì)想到意大利文藝復(fù)興三杰拉斐爾、米開朗基羅和達(dá)·芬奇。
機(jī)器看到文本的反應(yīng)和我們看到達(dá)·芬奇意大利文原名(Leonardo di ser Piero da Vinci)的反應(yīng)幾乎一樣。想要讓機(jī)器理解文本的含義,我們需要對(duì)客觀世界中的具體事物(實(shí)體)創(chuàng)建一個(gè)完整的模型[4],包含它的各種屬性以及與其他事物的關(guān)系,也就是構(gòu)建知識(shí)圖譜,為機(jī)器存儲(chǔ)先驗(yàn)知識(shí)。如圖1所示,為以達(dá)·芬奇實(shí)體為核心構(gòu)建的知識(shí)圖譜。
圖1 知識(shí)圖譜示例Fig.1 Example of Knowledge Graphs
知識(shí)圖譜讓機(jī)器擁有了最基礎(chǔ)的認(rèn)知能力,當(dāng)它再次看到Leonardo di ser Piero da Vinci時(shí),就會(huì)像人類看到熟悉的事物時(shí)一樣進(jìn)行相應(yīng)的聯(lián)想和推理。
早期互聯(lián)網(wǎng)搜索僅僅是基于文本的鏈接[5],搜索時(shí)僅單純的給出包含搜索詞的網(wǎng)頁,讓用戶去網(wǎng)頁中尋找答案。2012年谷歌提出知識(shí)圖譜并且將其應(yīng)用于語義搜索,改進(jìn)搜索質(zhì)量,搜索算法會(huì)在網(wǎng)頁搜索時(shí)盡可能的鏈接與其相關(guān)的結(jié)構(gòu)化信息,這些信息會(huì)以知識(shí)卡片(Knowledge Card)的形式返回給用戶,知識(shí)卡片是搜索引擎中知識(shí)圖譜的最直接呈現(xiàn)方式。百度、搜狗等國內(nèi)的主流搜索引擎公司,也都將最初對(duì)知識(shí)圖譜的理論研究轉(zhuǎn)向了產(chǎn)品的實(shí)際應(yīng)用。圖 2、圖 3分別給出了在搜狗、百度搜索“九寨溝在哪”時(shí)返回的知識(shí)卡片。
圖2 知識(shí)圖譜在搜索中的展現(xiàn)-知識(shí)卡片(圖片來源于搜狗)Fig.2 Display of Knowledge Graphs in searchknowledge card (picture from Sogou)
圖3 知識(shí)圖譜在搜索中的展現(xiàn)-知識(shí)卡片(圖片來源于百度)Fig.3 Display of Knowledge Graphs in searchknowledge card (picture from Baidu)
同時(shí)搜索結(jié)果頁面的右側(cè),如圖4所示,還會(huì)出現(xiàn)與其相關(guān)的推薦信息。
對(duì)于一些搜索問句比如“媽媽的爸爸怎么稱呼”,搜索引擎也能準(zhǔn)確返回搜索結(jié)果,如圖5、圖6所示,分別是搜狗和百度返回的知識(shí)卡片的截圖。能夠準(zhǔn)確給出用戶答案,而不是一堆相關(guān)的鏈接,這意味著知識(shí)圖譜讓搜索引擎真正明白了用戶的想法與需求。
在實(shí)際應(yīng)用中,我們可以用多關(guān)系圖(Multirelational Graph)來簡化知識(shí)圖譜,其實(shí)質(zhì)就是把所有不同種類的信息連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)[6]。如圖 7所示為一多關(guān)系圖,它包含多種類型的節(jié)點(diǎn)和多種類型的邊,不同形狀和顏色代表不同種類的節(jié)點(diǎn)和邊。節(jié)點(diǎn)表示實(shí)體或概念,邊則構(gòu)成關(guān)系。實(shí)體指的是現(xiàn)實(shí)世界中的具體事物或具體的人,比如著名的物理學(xué)家愛因斯坦、偉大的思想家馬克思等;概念是指人們?cè)谡J(rèn)識(shí)世界過程中形成的對(duì)客觀事物的概念化表示,如人、動(dòng)物、組織結(jié)構(gòu)等;關(guān)系則用來表達(dá)不同實(shí)體、概念之間的聯(lián)系,例如小王和小李是“同事”、李紅-“工作在”-上海等等。
圖4 知識(shí)圖譜在搜索頁面中的展現(xiàn)(圖片來源于百度)Fig.4 Display of Knowledge Graphs in search page (picture from Baidu)
圖5 關(guān)系搜索中的知識(shí)卡片展現(xiàn)(圖片來源于搜狗)Fig.5 Display of Knowledge Card in relation search (picture from Sogou)
圖6 關(guān)系搜索中的知識(shí)卡片展現(xiàn)(圖片來源于百度)Fig.6 Display of Knowledge Card in relation search (picture from Baidu)
圖7 多關(guān)系圖Fig.7 Multiple relation graph
知識(shí)圖譜可以方便的表示生活中的很多場(chǎng)景,比如一個(gè)人的社交網(wǎng)絡(luò)圖譜,如圖8所示,以圖譜的形式清晰呈現(xiàn)出社交人脈。
在社交關(guān)系圖譜中,實(shí)體可以是“人”,也可以是社會(huì)組織機(jī)構(gòu),例如“學(xué)?!薄ⅰ肮ぷ鲉挝弧钡?。人與人之間可以是親人、朋友,同學(xué)、同事、鄰居等。人和學(xué)校之間可以是“在讀”或者“畢業(yè)”的關(guān)系,如圖9所示。
無論是實(shí)體還是關(guān)系,都會(huì)有描述它們各自特征的屬性,例如實(shí)體人會(huì)擁有“性別”、“體重”、“民族”等屬性。在多關(guān)系圖中,為實(shí)體或關(guān)系添加相應(yīng)的屬性[7],新得到的圖譜我們稱之為屬性圖(Property Graph)。如圖10所示為一個(gè)簡單的屬性圖,小白年齡35歲,任職于百度,職位為區(qū)域經(jīng)理,百度公司成立于2000年1月。
圖8 社交圖譜Fig.8 Social graph
圖9 社交知識(shí)圖譜案例展示Fig.9 Case display of social Knowledge Graphs
圖10 屬性圖Fig.10 Property Graphs
在學(xué)術(shù)場(chǎng)景,知識(shí)圖譜主要用資源描述框架RDF[8](Resource Description Framework)來表示,它由很多的三元組(Triples)組成。
知識(shí)圖譜讓網(wǎng)絡(luò)具備了基礎(chǔ)的認(rèn)知思維,能夠類似于人一樣去思考問題,大大提高了網(wǎng)絡(luò)的智能化水平。互聯(lián)網(wǎng)上海量、異構(gòu)、動(dòng)態(tài)的大數(shù)據(jù),通過知識(shí)圖譜實(shí)現(xiàn)了更有效地使用?,F(xiàn)階段,知識(shí)圖譜除了廣泛應(yīng)用在搜索引擎領(lǐng)域外,還在智能問答、智能推薦以及一些垂直行業(yè)中有所應(yīng)用,不斷推動(dòng)著這些行業(yè)的發(fā)展及變革。
智能問答目前也是一個(gè)非常熱門的方向,它是信息檢索系統(tǒng)的一種高級(jí)形式,它降低了人機(jī)交互的門檻,非常適合成為互聯(lián)網(wǎng)的新入口。早期的搜索引擎無法直接給出問題的答案,只是根據(jù)關(guān)鍵字將相關(guān)網(wǎng)頁返給用戶,用戶再根據(jù)自己的需求,去尋找答案。智能問答系統(tǒng)通過知識(shí)圖譜,具有類似于人的認(rèn)知思維,可以真正明白用戶的意圖,直接給出用戶想要的答案。目前很多問答平臺(tái)引入了知識(shí)圖譜,典型的應(yīng)用有蘋果的Siri,圖11、圖12為蘋果Siri的問答展示。
圖11 Siri的問答展示1Fig.11 Siri's Q & A show 1
圖12 Siri的問答展示2Fig.12 Siri's Q & A show 2
智能推薦是目前知識(shí)圖譜應(yīng)用的熱門領(lǐng)域之一,它可以以知識(shí)圖譜為基礎(chǔ),為用戶構(gòu)建相關(guān)場(chǎng)景,并向用戶提供最合適的推薦。電商領(lǐng)域的智能推薦最為常用,例如利用知識(shí)圖譜構(gòu)建電商平臺(tái)的產(chǎn)品庫[9]。如果用戶要查詢某個(gè)產(chǎn)品的信息時(shí),只需輸入關(guān)鍵詞,以知識(shí)圖譜為基礎(chǔ)的智能推薦就會(huì)向用戶輸出產(chǎn)品相關(guān)的信息。在用戶購買完一個(gè)商品時(shí),智能推薦還可以通過知識(shí)圖譜判斷用戶的購物需求及購物場(chǎng)景,向用戶提供其他配套產(chǎn)品的信息,這也是知識(shí)圖譜在電商領(lǐng)域的主要用途之一。
2013年,F(xiàn)acebook作為全球最大的社交網(wǎng)絡(luò)之一,推出基于知識(shí)圖譜的全新產(chǎn)品 Graph Search。它利用知識(shí)圖譜將社交網(wǎng)絡(luò)中的重要元素人、地點(diǎn)、時(shí)間、事情等聯(lián)系起來,形成巨大的社交關(guān)系圖譜,幫助用戶快速準(zhǔn)確的找出密切相關(guān)的人選,這個(gè)應(yīng)用就是最典型的智能推薦。
金融領(lǐng)域是知識(shí)圖譜最早、最廣泛的應(yīng)用領(lǐng)域之一,目前最常用的主要是風(fēng)險(xiǎn)控制和智能投顧兩方面。
金融行業(yè)擁有大量的專業(yè)數(shù)據(jù),例如公司、組織機(jī)構(gòu)、個(gè)人的存貸款情況,征信和投資數(shù)據(jù)、交易記錄、消費(fèi)概況,通過知識(shí)圖譜將這些數(shù)據(jù)構(gòu)建為金融圖譜,將所有實(shí)體的屬性及關(guān)系全面呈現(xiàn)出來。當(dāng)用戶的金融操作出現(xiàn)異常狀況時(shí),可以通過個(gè)人特征的監(jiān)控,操作的不一致性檢測(cè),異常狀況的分析,發(fā)現(xiàn)隱藏其中的潛在風(fēng)險(xiǎn),進(jìn)行風(fēng)險(xiǎn)控制及反欺詐[10]。
同時(shí),利用金融知識(shí)圖譜,對(duì)數(shù)據(jù)進(jìn)行智能分析,當(dāng)用戶進(jìn)行投資理財(cái)時(shí),可以根據(jù)提取出來的信息,結(jié)合用戶的實(shí)際需求,為用戶智能推薦理財(cái)產(chǎn)品,實(shí)現(xiàn)智能投顧。利用智能投顧,可以幫助理財(cái)師等金融分析工作人員更全面的對(duì)經(jīng)濟(jì)事件做全方位、深層次的投資決策。
除了以上列舉的智能問答、智能推薦、金融領(lǐng)域外,知識(shí)圖譜的應(yīng)用可以涉及到很多其他的行業(yè),包括醫(yī)療、教育科研、農(nóng)業(yè)、旅游、人力資源管理等等。生活中關(guān)系無處不在,而知識(shí)圖譜是最有效的體現(xiàn)關(guān)系的方法,未來會(huì)在更多領(lǐng)域?qū)崿F(xiàn)更多應(yīng)用價(jià)值。
知識(shí)圖譜是一個(gè)多種技術(shù)與知識(shí)高度融合的新型應(yīng)用技術(shù),它包括計(jì)算機(jī)應(yīng)用技術(shù)以及知識(shí)表示、專家系統(tǒng)、自然語言理解等知識(shí)。本文首先針對(duì)知識(shí)圖譜的概念、表示方法做了詳細(xì)的介紹,并對(duì)知識(shí)圖譜在搜索引擎、智能問答、智能推薦、金融領(lǐng)域的應(yīng)用做了深層次的闡述。
知識(shí)圖譜作為人工智能的最前沿研究熱點(diǎn),將其與各個(gè)行業(yè)的知識(shí)相結(jié)合,不斷拓展其應(yīng)用價(jià)值,為多個(gè)學(xué)科領(lǐng)域及行業(yè)找到了新的突破口,它不僅僅是一項(xiàng)新技術(shù),更是一項(xiàng)重要的戰(zhàn)略資產(chǎn)。我們期待,未來會(huì)有更多的知識(shí)圖譜應(yīng)用落地,會(huì)有更多的問題在知識(shí)圖譜幫助下協(xié)同解決。