劉柳
大數(shù)據(jù)時(shí)代的到來(lái),使得人工智能技術(shù)獲得了前所未有的長(zhǎng)足進(jìn)步。同時(shí),隨著人工智能對(duì)數(shù)據(jù)處理和理解需求逐日增加,知識(shí)圖譜升溫。融合知識(shí)圖譜與深度學(xué)習(xí),已然成為人工智能進(jìn)一步發(fā)展的重要思路之一。知識(shí)圖譜應(yīng)用領(lǐng)域日趨廣泛,如互聯(lián)網(wǎng)金融、醫(yī)藥等領(lǐng)域,本文就知識(shí)圖譜的行業(yè)應(yīng)用與未來(lái)發(fā)展進(jìn)行深入闡述。
多領(lǐng)域發(fā)揮重要作用
知識(shí)圖譜本質(zhì)上是基于語(yǔ)義網(wǎng)絡(luò)(semantic network)的知識(shí)庫(kù),旨在描述客觀世界的概念、實(shí)體、事件及其之間的關(guān)系。
知識(shí)圖譜(Knowledge Graph)的概念最先是由谷歌于2012年正式提出,主要用來(lái)支撐下一代搜索和在線廣告業(yè)務(wù)。2013年以后知識(shí)圖譜開(kāi)始在學(xué)術(shù)界和業(yè)界普及,并在搜索、智能問(wèn)答、情報(bào)分析、金融等領(lǐng)域應(yīng)用中發(fā)揮重要作用。
搜索:理解自然語(yǔ)言
基于知識(shí)圖譜的搜索引擎開(kāi)始具備更精確的語(yǔ)義分析能力,可以清晰辨別出自然語(yǔ)言問(wèn)題。
坐擁海量數(shù)據(jù)的互聯(lián)網(wǎng)巨頭,基于生態(tài)閉環(huán),其數(shù)據(jù)能夠自我生長(zhǎng)、消化吸收、形成新的知識(shí)體系,源源不斷地產(chǎn)生知識(shí)庫(kù)和知識(shí)圖譜。
基于龐大的知識(shí)庫(kù)和知識(shí)圖譜,產(chǎn)生了支持自然語(yǔ)言溝通的SIRI、EVI和Google Now等語(yǔ)音個(gè)人助理。2011年,IBM研發(fā)了Watson問(wèn)答系統(tǒng),Watson參加了Jeopardy?。ㄎkU(xiǎn)邊緣)問(wèn)答類電視節(jié)目,打敗人類冠軍。
臉書(shū)利用知識(shí)圖譜技術(shù)構(gòu)建興趣圖譜(interest graph),用來(lái)連接人與人之間分享的信息,2013年基于此構(gòu)建了社交圖譜搜索工具graph search。當(dāng)時(shí),《連線》雜志認(rèn)為臉書(shū)推出社交圖譜搜索工具一方面是要在網(wǎng)頁(yè)搜索領(lǐng)域擊敗谷歌;另一方面是要在垂直搜索領(lǐng)域擊退求職領(lǐng)域的LinkedIn、約會(huì)領(lǐng)域的Match,以及餐館點(diǎn)評(píng)領(lǐng)域的Yelp。
在國(guó)內(nèi),微軟必應(yīng)、搜狗、百度等搜索引擎公司在谷歌提出知識(shí)圖譜一年后紛紛發(fā)布了自己的知識(shí)圖譜產(chǎn)品,如百度“知心”、搜狗“知立方”(現(xiàn)為“立知”)等。搜狗作為國(guó)內(nèi)首家構(gòu)建和應(yīng)用知識(shí)圖譜的搜索引擎,將基于知識(shí)圖譜的人工智能技術(shù)和差異化內(nèi)容內(nèi)置到產(chǎn)品中。根據(jù)搜狗2016年財(cái)報(bào)顯示,其搜索流量急速攀升,移動(dòng)搜索流量較2015年底增長(zhǎng)70%。百度的知識(shí)圖譜也已廣泛應(yīng)用于眾多產(chǎn)品線中,從2014年上線到2017年,其服務(wù)規(guī)模已增長(zhǎng)約160倍。
騰訊匯總了微信、QQ和公眾號(hào)超過(guò)20萬(wàn)億次的閱讀點(diǎn)擊量,數(shù)百億筆支付數(shù)據(jù),全年約1300億次視頻點(diǎn)擊量,70億次新聞點(diǎn)擊量,四十余萬(wàn)款上線APP等數(shù)據(jù),構(gòu)建了社交知識(shí)圖譜,并用于服務(wù)旗下眾多產(chǎn)品,并在語(yǔ)音搜索、智能問(wèn)答等新趨勢(shì)中積蓄勢(shì)能。
今日頭條每一個(gè)用戶的每一次操作行為都幫助它提高關(guān)系的準(zhǔn)確度和維度,以此構(gòu)建更加完善的知識(shí)圖譜。
生命科學(xué):降低研發(fā)診斷成本
由于研發(fā)新藥花費(fèi)較高,醫(yī)藥公司非常關(guān)注如何縮短新藥研制周期,降低研發(fā)成本。歐盟第七框架下的開(kāi)放藥品平臺(tái)Open Phacts項(xiàng)目,就是利用來(lái)自實(shí)驗(yàn)室的理化數(shù)據(jù)、各種期刊文獻(xiàn)中的研究成果以及各種開(kāi)放數(shù)據(jù),包括Clinical Trials.org,美國(guó)開(kāi)放數(shù)據(jù)中的臨床實(shí)驗(yàn)數(shù)據(jù),來(lái)加速藥物研制中的分子篩選工作,已吸引輝瑞和諾華等制藥巨頭參與。
Watson取得巨大成功之后,IBM成立了Watson group(事業(yè)部),對(duì)各種行業(yè)進(jìn)行認(rèn)知突破。其中在醫(yī)療方面,IBM啟動(dòng)了登月計(jì)劃(moon shot),通過(guò)整合大量醫(yī)療文獻(xiàn)和書(shū)籍以及各種EMR(電子病歷)來(lái)獲取海量高質(zhì)量的醫(yī)療知識(shí),并基于這些知識(shí)向醫(yī)護(hù)人員提供輔助臨床決策和用藥安全等方面的應(yīng)用。
金融:識(shí)別及預(yù)防欺詐
金融僅次于醫(yī)療,是知識(shí)圖譜應(yīng)用最廣泛的領(lǐng)域,在反欺詐、搜索和營(yíng)銷方面均有深入應(yīng)用。
國(guó)外的Datafox和Spiderbook,國(guó)內(nèi)的通聯(lián)數(shù)據(jù)等,通過(guò)從互聯(lián)網(wǎng)提取上市公司的相關(guān)數(shù)據(jù),包括產(chǎn)品、公司供應(yīng)鏈關(guān)系、競(jìng)爭(zhēng)對(duì)手關(guān)系等,整合為知識(shí)圖譜幫助企業(yè)或投資機(jī)構(gòu)進(jìn)行全網(wǎng)數(shù)據(jù)的關(guān)聯(lián)分析、影響傳播和預(yù)測(cè)。
反欺詐在金融風(fēng)控中舉足輕重,但基于大數(shù)據(jù)的反欺詐存在兩個(gè)難點(diǎn):一是如何整合不同來(lái)源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并有效地識(shí)別出身份造假、團(tuán)體欺詐、代辦包裝等欺詐案件。二是不少欺詐案件涉及復(fù)雜的關(guān)系網(wǎng)絡(luò),如組團(tuán)欺詐。
知識(shí)圖譜是基于關(guān)系的表達(dá)方式,可輕松解決以上兩個(gè)問(wèn)題,因此在反欺詐中獲得廣泛應(yīng)用。首先,知識(shí)圖譜可以提供非常便捷的方式來(lái)添加新的數(shù)據(jù)源。其次,知識(shí)圖譜本身是直觀的關(guān)系表達(dá)方式,可以幫助更有效地分析復(fù)雜關(guān)系中存在的特定的潛在風(fēng)險(xiǎn)。
比如,荷蘭的法律對(duì)破產(chǎn)不追責(zé),因此很多人利用法律漏洞建立團(tuán)伙進(jìn)行企業(yè)倒賣,通過(guò)將其中一些公司申請(qǐng)破產(chǎn)以非法獲得很多免費(fèi)資源。荷蘭政府希望找到幕后組織避免大量損失,但政府各個(gè)部門(mén)和組織的數(shù)據(jù)非常分散,導(dǎo)致各個(gè)部門(mén)無(wú)法得到完整的信息判別上述團(tuán)伙,而傳統(tǒng)的數(shù)據(jù)集成方法需要依賴經(jīng)驗(yàn)豐富的專家對(duì)數(shù)據(jù)庫(kù)進(jìn)行手工集成,大大增加了工作量和處理周期。引入知識(shí)圖譜,進(jìn)行有效的去中心化的高效知識(shí)融合,可快速確定可能性最大的元兇,相關(guān)部門(mén)就可以對(duì)其進(jìn)行有針對(duì)性的深入調(diào)查。
農(nóng)業(yè):多媒體知識(shí)指導(dǎo)
大量的農(nóng)業(yè)資料以不同格式分散存儲(chǔ),傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)模式不適用于復(fù)雜多變的領(lǐng)域,無(wú)法實(shí)現(xiàn)定義所有可能的知識(shí)點(diǎn)并構(gòu)建關(guān)鍵數(shù)據(jù)庫(kù)模式,而知識(shí)圖譜這種更加靈活的知識(shí)表示模型可以實(shí)現(xiàn)管理。利用抽取挖掘技術(shù)從各種多源異構(gòu)數(shù)據(jù)中獲取相應(yīng)的知識(shí),并用統(tǒng)一圖譜進(jìn)行表示,形成完整的知識(shí)庫(kù),刻畫(huà)作物知識(shí)、土壤知識(shí)、肥料知識(shí)、疾病知識(shí)和天氣知識(shí)等。通過(guò)圖譜關(guān)聯(lián)到圖片信息,形成多媒體知識(shí)圖譜,病變圖片信息相比專業(yè)知識(shí)更加直觀,也更方便農(nóng)民使用。
客戶服務(wù):個(gè)性化前瞻性關(guān)懷
維護(hù)客戶的原則即希望對(duì)于信用好的用戶能前瞻性地了解其需求,并在用戶抱怨或詢問(wèn)信息時(shí),可以預(yù)判其需求,并幫其解決,從而減少溝通次數(shù)和溝通時(shí)長(zhǎng)。為此系統(tǒng)需要判斷用戶的信用等級(jí),并根據(jù)用戶的當(dāng)前消費(fèi)情況和行為來(lái)自動(dòng)化判斷其可能的行為。
Amdocs是美國(guó)最大的第三方賬單審計(jì)和客服中心,其客戶包括AT&T、 Verizon和SPRIN,Amdocs對(duì)電信行業(yè)的設(shè)備、賬單、支付、消費(fèi)模式等知識(shí)進(jìn)行數(shù)據(jù)分類和商業(yè)概念歸類,經(jīng)過(guò)提取整合各種數(shù)據(jù)源,形成統(tǒng)一的知識(shí),并配合業(yè)務(wù)規(guī)則和貝葉斯網(wǎng)絡(luò)來(lái)形成決策引擎,對(duì)用戶的信用和各種行為結(jié)果進(jìn)行預(yù)測(cè),最終達(dá)到個(gè)性化前瞻性的客戶關(guān)懷。
此外,知識(shí)圖譜在媒體和政府均有不同程度的應(yīng)用,如英國(guó)廣播電臺(tái)最早采用了知識(shí)圖譜技術(shù),近期熱論的新聞自動(dòng)寫(xiě)作機(jī)器人也是基于知識(shí)圖譜技術(shù)。Palantir則是美國(guó)最早在政府領(lǐng)域使用知識(shí)圖譜技術(shù)的公司,該公司幫助美國(guó)政府成功定位到了本拉登的位置。
賦能認(rèn)知智能
知識(shí)圖譜對(duì)于人工智能的價(jià)值在于讓機(jī)器具備了認(rèn)知能力。機(jī)器認(rèn)知智能在應(yīng)用方面是廣泛、多樣的,體現(xiàn)在精準(zhǔn)分析、智慧搜索、智能推薦、智能解釋、更自然的人機(jī)交互和深層關(guān)系推理等多個(gè)方面。
智能分析
由于缺乏諸如知識(shí)圖譜此類背景知識(shí),各類工具理解大數(shù)據(jù)的手段有限,限制了基于大數(shù)據(jù)的精準(zhǔn)與精細(xì)分析,大大降低了大數(shù)據(jù)的潛在價(jià)值。因此盡管越來(lái)越多的行業(yè)或者企業(yè)積累了規(guī)??捎^的數(shù)據(jù),但這些數(shù)據(jù)非但未能創(chuàng)造價(jià)值,甚至可能因消耗大量的運(yùn)維成本而成為負(fù)資產(chǎn)。
知識(shí)圖譜的發(fā)展提供了強(qiáng)大的背景知識(shí)支撐,可以賦能輿情分析、商業(yè)洞察、軍事情報(bào)分析和商業(yè)情報(bào)分析此類基于大數(shù)據(jù)的精準(zhǔn)分析。
知識(shí)圖譜和基于此的認(rèn)知智能為精細(xì)分析提供了可能。如汽車制造廠商等制造企業(yè)都希望實(shí)現(xiàn)個(gè)性化制造運(yùn)用于精細(xì)分析案例。知識(shí)圖譜構(gòu)建關(guān)于汽車評(píng)價(jià)的背景知識(shí),如汽車的車型、車飾、動(dòng)力、能耗等,提取消費(fèi)者對(duì)汽車的褒貶態(tài)度、消費(fèi)者改進(jìn)建議、競(jìng)爭(zhēng)品牌等評(píng)價(jià)與反饋,并以此為據(jù)實(shí)現(xiàn)按需與個(gè)性化定制。
智能搜索及推薦
第一,精準(zhǔn)理解搜索意圖。在缺乏上下文的情況下,基于知識(shí)圖譜的認(rèn)知智能可幫助搜索工具辨別出核心詞和修飾詞,如可應(yīng)用在電商搜索引擎。
第二,實(shí)現(xiàn)對(duì)多元復(fù)雜對(duì)象的搜索。搜索的對(duì)象將從以文本為主到圖片、聲音,甚至是代碼和視頻、設(shè)計(jì)素材等。
第三,實(shí)現(xiàn)多元化搜索粒度,如段落級(jí)、語(yǔ)句級(jí)、詞匯級(jí)的搜索。這將率先在知識(shí)管理領(lǐng)域得到大范圍應(yīng)用。傳統(tǒng)知識(shí)管理大都只能做到文檔級(jí)搜索,這種粗粒度的知識(shí)管理已經(jīng)難以滿足實(shí)際應(yīng)用中細(xì)粒度的知識(shí)獲取需求。
第四,實(shí)現(xiàn)跨媒體協(xié)同搜索。傳統(tǒng)搜索以單質(zhì)單源數(shù)據(jù)的搜索居多,文本搜索難以借力視頻、圖片信息,圖片搜索對(duì)文本信息利用率不高。未來(lái)借助認(rèn)知智能,可聯(lián)合檢索社交網(wǎng)絡(luò)、地圖、文本與圖片信息等多個(gè)渠道多種媒體的信息。
因此未來(lái)的推薦趨勢(shì)就是精準(zhǔn)感知任務(wù)與場(chǎng)景,基于背景知識(shí),實(shí)現(xiàn)行為與語(yǔ)義融合的推薦,想用戶之未想。
知識(shí)型內(nèi)容推薦。任何搜索內(nèi)容背后都體現(xiàn)著特定的消費(fèi)意圖,很有可能對(duì)應(yīng)到特定的內(nèi)容、場(chǎng)景和知識(shí)背景。建立相應(yīng)圖譜,實(shí)現(xiàn)精準(zhǔn)推薦,將顯著增強(qiáng)用戶對(duì)于推薦內(nèi)容的信任與接受程度,這對(duì)于電商個(gè)性化推薦而言至關(guān)重要。
冷啟動(dòng)下的推薦。利用外部知識(shí),特別是關(guān)于用戶與物品的知識(shí)指引冷啟動(dòng)階段的匹配與推薦,讓系統(tǒng)盡快度過(guò)冷啟動(dòng)階段。
跨領(lǐng)域的推薦。有效利用知識(shí)圖譜這類背景知識(shí),可以跨越不同平臺(tái)之間的語(yǔ)義鴻溝,實(shí)現(xiàn)跨領(lǐng)域推薦。如微博作為媒體平臺(tái),淘寶作為電商平臺(tái),二者的語(yǔ)言體系、用戶行為完全不同,實(shí)現(xiàn)跨領(lǐng)域推薦以后,可向經(jīng)常曬山峰照片的用戶推薦購(gòu)買登山裝備,商業(yè)潛力巨大。
智能解釋
可解釋性決定了人工智能系統(tǒng)的發(fā)現(xiàn)、推理和決策結(jié)果能否被人類采信,因此可解釋性成為了金融、醫(yī)療、司法等諸多領(lǐng)域中阻礙人工智能系統(tǒng)落地應(yīng)用的最后一關(guān),而知識(shí)圖譜在實(shí)現(xiàn)人工智能可解釋性方面具有重要作用。可解釋人工智能實(shí)現(xiàn)以后,將率先大幅度提升金融領(lǐng)域智能投資決策、信貸風(fēng)險(xiǎn)評(píng)估的采納率,也將大幅提升人工智能在醫(yī)療領(lǐng)域確診方面的采納率和應(yīng)用范圍。
自然人機(jī)交互
人機(jī)交互將會(huì)變得更簡(jiǎn)單自然。自然人機(jī)交互包括自然語(yǔ)言問(wèn)答、對(duì)話、體感交互、表情交互等,需要機(jī)器能夠理解人類的自然語(yǔ)言,要求其具有較高認(rèn)知智能水平及強(qiáng)大的背景知識(shí)。會(huì)話式(Conversational UI)、問(wèn)答式(QA)交互將逐步代替?zhèn)鹘y(tǒng)的關(guān)鍵字搜索式交互。未來(lái),Google NOW、siri、amazon Alexa等語(yǔ)音助手及下一代對(duì)話機(jī)器人將代替我們閱讀、瀏覽,甚至代替我們看電影、電視劇,然后回答我們所關(guān)心的任何問(wèn)題。
深刻影響社會(huì)結(jié)構(gòu)
以深度學(xué)習(xí)為代表的人工智能獲得巨大進(jìn)展,但深度學(xué)習(xí)的不透明性、不可解釋性已成為制約其發(fā)展的障礙,“理解”與“解釋”是人工智能需要攻克的下一個(gè)挑戰(zhàn),而知識(shí)圖譜為“可解釋的人工智能”提供了全新的視角和機(jī)遇,并帶來(lái)新科技、商業(yè)和社會(huì)新紀(jì)元—認(rèn)知時(shí)代的黎明。
對(duì)于人類而言,知識(shí)圖譜賦能人工智能之后,將增強(qiáng)人類的能力,讓我們可以理解和運(yùn)作社會(huì)中復(fù)雜的系統(tǒng),提升我們駕馭科技的能力,改善人類的生存環(huán)境,人類與機(jī)器的交互將更加自然、有預(yù)見(jiàn)性、有情感性。
對(duì)于企業(yè)而言,產(chǎn)品和服務(wù)將具備認(rèn)知能力,這將對(duì)企業(yè)產(chǎn)生顛覆性影響,將重塑其所處行業(yè)的形態(tài),革新行業(yè)的各個(gè)關(guān)鍵環(huán)節(jié)。當(dāng)前已有越來(lái)越多企業(yè)將人工智能升至企業(yè)的核心戰(zhàn)略,在電商、社交、物流、金融、醫(yī)療、司法、制造等眾多領(lǐng)域?qū)?huì)涌現(xiàn)出越來(lái)越多的人工智能賦能的案例。
對(duì)于社會(huì)而言,除了探索發(fā)現(xiàn)能力將得到長(zhǎng)足進(jìn)步以外,認(rèn)知系統(tǒng)接受領(lǐng)先從業(yè)人員的訓(xùn)練,掌握政治、經(jīng)濟(jì)、法律、醫(yī)學(xué)、銷售和烹調(diào)等專業(yè)術(shù)語(yǔ),能夠理解和傳授復(fù)雜的專業(yè)技能,將大大縮短社會(huì)培養(yǎng)人才所需的時(shí)間,甚至取代人類做出部分社會(huì)管理層面的工作決定。越來(lái)越多的知識(shí)工作將逐步被機(jī)器所代替,將對(duì)社會(huì)結(jié)構(gòu)產(chǎn)生深遠(yuǎn)的影響。
總之,知識(shí)圖譜將賦能認(rèn)知智能,而認(rèn)知智能是一種能夠?qū)崒?shí)在在落地的、有著廣泛且多樣的應(yīng)用需求的、能夠產(chǎn)生巨大社會(huì)經(jīng)濟(jì)價(jià)值的人工智能技術(shù)。認(rèn)知智能的發(fā)展本質(zhì)上是不斷解放人類腦力,伴隨而來(lái)的將是機(jī)器生產(chǎn)力的進(jìn)一步解放,最終將導(dǎo)致生產(chǎn)關(guān)系的改變。