■林一松 秦 祎 秦浩煒
(1.中國(guó)建設(shè)銀行總行機(jī)構(gòu)業(yè)務(wù)部;2.中國(guó)建設(shè)銀行總行同業(yè)業(yè)務(wù)中心)
知識(shí)圖譜是一種直觀顯示各個(gè)實(shí)體關(guān)聯(lián)信息的有效數(shù)據(jù)結(jié)構(gòu),是一種可以關(guān)聯(lián)源自不同種類(lèi)的知識(shí),將它們集中在一起而得到的關(guān)系圖譜,本質(zhì)上它是Semantic Network的知識(shí)庫(kù),它將客觀世界中存在的各種概念或?qū)嶓w及其之間的關(guān)系以結(jié)構(gòu)化的形式來(lái)進(jìn)行描述[1]。因此也可以簡(jiǎn)單地用一張巨大的網(wǎng)絡(luò)來(lái)比作它,其中,網(wǎng)絡(luò)中的節(jié)點(diǎn)就表示知識(shí)圖譜中的實(shí)體或概念,而節(jié)點(diǎn)之間的邊則表示知識(shí)圖譜中的屬性或關(guān)系,用最小的代價(jià)知識(shí)圖譜便可將從互聯(lián)網(wǎng)中積累起來(lái)的信息組織起來(lái),并使其成為有著高利用價(jià)值的知識(shí)[2]。
金融行業(yè)的現(xiàn)代金融體系,每時(shí)每刻都運(yùn)行產(chǎn)生大量的金融數(shù)據(jù),容量龐大、時(shí)刻變化和來(lái)源多樣的金融數(shù)據(jù)給金融業(yè)帶來(lái)了極大的挑戰(zhàn),同時(shí),金融業(yè)也是一個(gè)在數(shù)據(jù)、信息和知識(shí)上有著極大需求的典型的知識(shí)密集型行業(yè),金融決策大都需要大量的數(shù)據(jù)、信息和知識(shí)作為支撐,從大數(shù)據(jù)中提取信息和知識(shí)的速度與能力很大程度上會(huì)在未來(lái)決定著金融業(yè)的核心競(jìng)爭(zhēng)力。
在大數(shù)據(jù)環(huán)境下,針對(duì)海量且異質(zhì)多源的金融數(shù)據(jù),加以知識(shí)獲取的相關(guān)理論、方法和技術(shù)進(jìn)行運(yùn)用,進(jìn)而從中獲取有價(jià)值的知識(shí)信息,從而形成各類(lèi)金融知識(shí)庫(kù)來(lái)支持金融決策,并對(duì)金融知識(shí)庫(kù)使用知識(shí)關(guān)聯(lián)、知識(shí)檢索和知識(shí)推理等技術(shù)來(lái)進(jìn)行運(yùn)算,然后以知識(shí)檢索、自動(dòng)問(wèn)答和知識(shí)導(dǎo)航等形式呈現(xiàn)結(jié)果提供知識(shí)服務(wù)給決策者,這項(xiàng)技術(shù)在許多的金融決策支持過(guò)程中都有著十分重要的意義,例如風(fēng)險(xiǎn)管理、金融監(jiān)管和投資決策等[3]。
根據(jù)已有的研究成果,國(guó)內(nèi)外相關(guān)研究重點(diǎn)關(guān)注這幾個(gè)方面:①知識(shí)的融合與集成,獲取到的多源異質(zhì)的金融知識(shí)可能存在重復(fù)、語(yǔ)義關(guān)聯(lián)不明確、不一致等問(wèn)題,要將其融合與集成,就需要用到實(shí)體對(duì)齊、語(yǔ)義映射等技術(shù),在同一框架下生成規(guī)范的金融知識(shí)庫(kù);②高效率的挖掘、獲取大規(guī)模知識(shí),從海量的金融數(shù)據(jù)資源中通過(guò)自動(dòng)標(biāo)注語(yǔ)義、機(jī)器學(xué)習(xí)和自然語(yǔ)言處理等技術(shù),高效率地挖掘并獲取大規(guī)模的金融知識(shí);③個(gè)性且智能化服務(wù)于決策支持,面向金融決策支持知識(shí)服務(wù)的前提和基礎(chǔ)就是獲取金融知識(shí)后形成的各類(lèi)知識(shí)庫(kù)。如何運(yùn)用知識(shí)檢索、推理等技術(shù),結(jié)合決策者的特征和需求對(duì)金融知識(shí)庫(kù)運(yùn)算得出結(jié)果,并為決策者提供個(gè)性化和智能化的金融知識(shí)服務(wù),以知識(shí)導(dǎo)航、知識(shí)檢索和自動(dòng)問(wèn)答等形式,極其值得進(jìn)一步研究[4]。有了知識(shí)圖譜作為輔助之后,文本背后的含義便能夠被機(jī)器所理解,用戶(hù)的查詢(xún)背后的語(yǔ)義信息也能夠輕易地被搜索引擎洞察,這樣就可以返回更為精準(zhǔn)的結(jié)構(gòu)化信息,更大可能地滿(mǎn)足了用戶(hù)的查詢(xún)需求,更高效地組織管理并理解互聯(lián)網(wǎng)海量信息,這都是獲益于知識(shí)圖譜技術(shù)的幫助[5]。
構(gòu)建知識(shí)圖譜,這一過(guò)程經(jīng)過(guò)了信息抽取、知識(shí)表示、知識(shí)融合、知識(shí)推理四個(gè)過(guò)程,每一次更新迭代也都包含這四個(gè)階段。
作為知識(shí)圖譜構(gòu)建及應(yīng)用的基礎(chǔ),知識(shí)表示被廣泛地應(yīng)用到了自然語(yǔ)言處理和圖像識(shí)別等領(lǐng)域。知識(shí)表示技術(shù)用來(lái)表示研究對(duì)象的方法是使用低維稠密的向量,廣泛應(yīng)用于補(bǔ)全知識(shí)圖譜、抽取關(guān)系和智能問(wèn)答等,不僅可以顯著地提高計(jì)算效率,還能有效地解決數(shù)據(jù)稀疏的問(wèn)題;知識(shí)表示主要包括:翻譯模型、匹配模型、矩陣分解模型和神經(jīng)網(wǎng)絡(luò)模型等主要模型。
知識(shí)圖譜數(shù)據(jù)來(lái)源范圍廣泛,包括文本,圖像,傳感器,視頻等形式。信息抽取是指從這些不同的來(lái)源和不同的結(jié)構(gòu)中提取數(shù)據(jù)以形成結(jié)構(gòu)畫(huà)的知識(shí)并存儲(chǔ)在知識(shí)圖譜中。在信息抽取過(guò)程中不僅標(biāo)識(shí)實(shí)體,還對(duì)抽取的實(shí)體進(jìn)行分類(lèi)。可以根據(jù)知識(shí)圖譜的要求調(diào)整類(lèi)別。關(guān)系抽取則是多個(gè)實(shí)體之間語(yǔ)義關(guān)系的抽取。
知識(shí)圖譜在執(zhí)行知識(shí)抽取時(shí)使用多樣化的數(shù)據(jù)源,知識(shí)融合將事實(shí)對(duì)象與實(shí)體、關(guān)系、屬性等之間存在的歧義消除后,可以在規(guī)范框架下對(duì)多種來(lái)源的知識(shí)進(jìn)行異構(gòu)數(shù)據(jù)整合集成、消除歧義、加工以及推理驗(yàn)證并更新等。知識(shí)融合當(dāng)出現(xiàn)同屬性不同值,需要決策并賦予其較正確的屬性值時(shí),可以數(shù)據(jù)源的數(shù)量和可靠度作為依據(jù)判斷[6]。
知識(shí)推理是構(gòu)建知識(shí)圖譜的重要手段和關(guān)鍵環(huán)節(jié),它可以從現(xiàn)有知識(shí)中發(fā)現(xiàn)新知識(shí),但存在不完整的數(shù)據(jù)源和不正確的抽取過(guò)程,這就要用已有的事實(shí)和推理技術(shù),從相應(yīng)知識(shí)庫(kù)中挖掘推理出缺失以及深層的關(guān)系,并對(duì)知識(shí)圖譜進(jìn)行補(bǔ)全并去噪,完善和豐富知識(shí)圖譜。知識(shí)推理從特定的知識(shí)圖譜中派生新實(shí)體跟實(shí)體之間的關(guān)系,并在知識(shí)計(jì)算中發(fā)揮重要作用,例如知識(shí)分類(lèi),知識(shí)驗(yàn)證,知識(shí)鏈接預(yù)測(cè)和知識(shí)補(bǔ)全等[7]。
金融、醫(yī)療、電商作為知識(shí)圖譜垂直行業(yè)的應(yīng)用領(lǐng)域代表,產(chǎn)出了金融反欺詐、智能營(yíng)銷(xiāo)、商品推薦等的應(yīng)用場(chǎng)景[4]。知識(shí)圖譜,本質(zhì)上是語(yǔ)義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。通過(guò)知識(shí)圖譜技術(shù)將存在金融行業(yè)數(shù)據(jù)中的大量的實(shí)體和關(guān)系建立連接,將金融行業(yè)現(xiàn)有數(shù)據(jù)以突破傳統(tǒng)計(jì)算的模式深度整合,然后結(jié)合外部數(shù)據(jù)能夠更有效地挖掘潛在客戶(hù)、預(yù)警潛在風(fēng)險(xiǎn),金融行業(yè)的各項(xiàng)業(yè)務(wù)效率大幅提升、利用價(jià)值得到更大發(fā)揮都得益于此[8]。
在營(yíng)銷(xiāo)應(yīng)用領(lǐng)域,潛在客戶(hù)挖掘使用現(xiàn)有及外部數(shù)據(jù)精準(zhǔn)且迅速地找到潛在相關(guān)業(yè)務(wù)中的客戶(hù),帶給銀行業(yè)務(wù)頗多助益,對(duì)客戶(hù)的潛在需求進(jìn)行深度挖掘,使用銀行客戶(hù)關(guān)系的知識(shí)圖譜系統(tǒng),可以靈活地?cái)U(kuò)展用戶(hù)行為數(shù)據(jù),并將其與多類(lèi)數(shù)據(jù)源結(jié)合起來(lái),用以客戶(hù)行為分析更準(zhǔn)確,了解其潛在需求并提供精準(zhǔn)的推送給現(xiàn)有客戶(hù);將企業(yè)級(jí)的客戶(hù)財(cái)務(wù)關(guān)系、法人關(guān)系、投資關(guān)系以及公司業(yè)務(wù)關(guān)系等用以知識(shí)圖譜進(jìn)行分析,可得出企業(yè)級(jí)客戶(hù)的潛在需求,最后對(duì)其需要的產(chǎn)品、服務(wù)等進(jìn)行推薦。從精確營(yíng)銷(xiāo)的角度來(lái)看,知識(shí)圖譜通過(guò)將多個(gè)數(shù)據(jù)源鏈接起來(lái),構(gòu)成用戶(hù)及其群體完備的知識(shí)體系,進(jìn)而更充分更到位地對(duì)用戶(hù)及其群體的行為進(jìn)行理解、認(rèn)識(shí)和分析,金融公司用知識(shí)圖譜去分析待銷(xiāo)售用戶(hù)群體之間的關(guān)系就是個(gè)很好的例子,通過(guò)分析去了解他們的共同愛(ài)好,進(jìn)而為用戶(hù)人群對(duì)癥下藥地制定相應(yīng)的營(yíng)銷(xiāo)策略。
在風(fēng)控應(yīng)用領(lǐng)域,客戶(hù)辦理業(yè)務(wù)的行為在O2O的時(shí)代下得到了前所未有的便利,但也隨之而來(lái)并且愈演愈烈的反欺詐問(wèn)題,羊毛黨、職業(yè)欺詐團(tuán)伙層出不窮,反欺詐在金融風(fēng)險(xiǎn)管理中起著重要作用。人是反欺詐的核心,抽取借款人相關(guān)的全部數(shù)據(jù)源及行為數(shù)據(jù),并將其全都整合到反欺詐知識(shí)圖譜中,以進(jìn)行高效并準(zhǔn)確的反欺詐分析預(yù)測(cè),在申請(qǐng)階段,構(gòu)建已知欺詐因素的關(guān)系圖譜,例如手機(jī)、設(shè)備、賬號(hào)、地理位置等因素,再對(duì)其統(tǒng)計(jì)分析全量風(fēng)險(xiǎn)數(shù)據(jù),在交易階段的反欺詐,可以建立風(fēng)險(xiǎn)特征數(shù)據(jù)庫(kù)。通過(guò)知識(shí)圖譜技術(shù),可以有效解決電子渠道被薅羊毛、被惡意申請(qǐng)等問(wèn)題,為電子銀行的發(fā)展保駕護(hù)航,可以有效解決信用卡申請(qǐng)欺詐信用卡虛假申請(qǐng)、信用卡套現(xiàn)等難點(diǎn)痛點(diǎn)問(wèn)題,助力信用卡業(yè)務(wù)更加健康地發(fā)展。
在預(yù)測(cè)應(yīng)用領(lǐng)域,預(yù)測(cè)行業(yè)潛在風(fēng)險(xiǎn),進(jìn)行行業(yè)細(xì)分后用貨款、行業(yè)等信息來(lái)建立模型用以關(guān)系的挖掘,顯示行業(yè)關(guān)聯(lián)性大小,并及時(shí)預(yù)測(cè)相關(guān)行業(yè),以免被高風(fēng)險(xiǎn)行業(yè)或事件牽扯,提前預(yù)測(cè)風(fēng)險(xiǎn)并規(guī)避,通過(guò)建立客戶(hù)、企業(yè)和行業(yè)的知識(shí)圖譜預(yù)測(cè)潛在風(fēng)險(xiǎn)客戶(hù),也可以連接行業(yè)和企業(yè)之間數(shù)據(jù),盡早預(yù)測(cè)行業(yè)的潛在風(fēng)險(xiǎn),可及時(shí)地發(fā)現(xiàn)行業(yè)風(fēng)險(xiǎn)以及關(guān)聯(lián)的企業(yè)客戶(hù),數(shù)據(jù)在金融行業(yè)中是極其重要的成分,將知識(shí)圖譜的關(guān)聯(lián)關(guān)系概念利用起來(lái),不僅能突破現(xiàn)有關(guān)系型數(shù)據(jù)庫(kù)的限制,還能更加精準(zhǔn)高效地獲得數(shù)據(jù)的價(jià)值。
知識(shí)圖譜這一概念從被提出至今,其行業(yè)應(yīng)用熱度仍然在不斷增長(zhǎng)。本文對(duì)知識(shí)圖譜的構(gòu)建技術(shù)進(jìn)行了闡述,包括知識(shí)表示、知識(shí)抽取、知識(shí)融合以及知識(shí)推理等核心技術(shù),結(jié)合了當(dāng)今社會(huì)的需求介紹了知識(shí)圖譜在金融行業(yè)中的應(yīng)用現(xiàn)狀,研究分析了知識(shí)圖譜對(duì)風(fēng)控、營(yíng)銷(xiāo)、預(yù)測(cè)等領(lǐng)域的影響和發(fā)展趨勢(shì),對(duì)金融行業(yè)具有較好的參考價(jià)值。