吳永飛 王彥博 楊 璇 徐 奇
習(xí)近平總書記在中央政治局第二十四次集體學(xué)習(xí)時強(qiáng)調(diào),“量子科技發(fā)展具有重大科學(xué)意義和戰(zhàn)略價值,是一項對傳統(tǒng)技術(shù)體系產(chǎn)生沖擊、進(jìn)行重構(gòu)的重大顛覆性技術(shù)創(chuàng)新,將引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革方向”。2021年3月發(fā)布的《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》提出,“加強(qiáng)關(guān)鍵數(shù)字技術(shù)創(chuàng)新應(yīng)用”“加快布局量子計算、量子通信、神經(jīng)芯片、DNA存儲等前沿技術(shù)”。作為量子科技中的重要領(lǐng)域,量子計算近年來迅猛發(fā)展,并已經(jīng)在我國銀行業(yè)取得應(yīng)用突破。當(dāng)前國內(nèi)已有商業(yè)銀行開始在運(yùn)營管理、資產(chǎn)管理等業(yè)務(wù)條線探索應(yīng)用量子計算技術(shù)。本文面向銀行智能風(fēng)控場景,運(yùn)用量子神經(jīng)網(wǎng)絡(luò)算法開展小樣本學(xué)習(xí)技術(shù)創(chuàng)新應(yīng)用探索,在樣本量極小且“壞”樣本量極小的苛刻條件下,實(shí)現(xiàn)良好的智能建模效果,為商業(yè)銀行智能風(fēng)控在小樣本數(shù)據(jù)量下的創(chuàng)新發(fā)展提供有益借鑒,并為解決小樣本學(xué)習(xí)這一世界性難題提供全新思路。
自圖靈提出機(jī)器也可以像人類一樣進(jìn)行學(xué)習(xí)和思考的想法以來,國內(nèi)外研究人員便開始致力于讓計算機(jī)從數(shù)據(jù)中學(xué)習(xí)規(guī)律并形成智能。隨著信息時代的高速發(fā)展,數(shù)據(jù)量爆發(fā)式增長,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等研究方向應(yīng)運(yùn)而生。依托于大量樣本數(shù)據(jù),上述領(lǐng)域得到了高速發(fā)展。目前來看,當(dāng)樣本量充足時,存在于數(shù)據(jù)中的規(guī)律更容易被歸納出來,并且在測試數(shù)據(jù)上可以得到具有更小泛化誤差的知識模型。然而與人類智能相比,機(jī)器智能仍存在諸多難題:人類可以從極少數(shù)的案例中進(jìn)行學(xué)習(xí)和總結(jié),快速地建立具有泛化能力的認(rèn)知體系,即使只有少量數(shù)據(jù)樣本輸入,也能較為快速準(zhǔn)確地建立認(rèn)知,并且面對一定的噪聲影響,依然不會改變最終的判斷和預(yù)測結(jié)果;而機(jī)器在樣本量較小時往往難以訓(xùn)練出泛化性很強(qiáng)的模型。小樣本學(xué)習(xí)要實(shí)現(xiàn)的目標(biāo)正是在樣本量不充足的苛刻條件下,仍可以訓(xùn)練出具有良好泛化能力的模型。
針對小樣本學(xué)習(xí),國內(nèi)外學(xué)者展開了一系列研究。2022年7月,在軸承故障診斷場景中,呂云開、武兵、李聰明等人基于小樣本數(shù)據(jù)建模,輸入定義為一對帶有正負(fù)標(biāo)簽的原始振動信號樣本,在樣本數(shù)量僅為140個時,采用基于SNN-LSTM的故障診斷方法實(shí)現(xiàn)了80.57%的模型準(zhǔn)確率。2022年1月,王登峰、郭 通過引入工業(yè)小樣本模型和灰色分析模型,探索出了基于優(yōu)化算法和灰色理論的小樣本學(xué)習(xí)方法。2022年5月,吳永飛等人在商業(yè)銀行100—500學(xué)習(xí)集樣本量的小樣本智能風(fēng)控場景中,采用創(chuàng)新的關(guān)聯(lián)規(guī)則挖掘分類算法構(gòu)建模型,為小樣本學(xué)習(xí)提供了新思路。
本文參考質(zhì)量管理中的“人-機(jī)-料-法-環(huán)-測”六要素,提出了小樣本學(xué)習(xí)技術(shù)發(fā)展的“6M”框架方法論。一是基于專家經(jīng)驗的小樣本學(xué)習(xí)(Man-based few-shot learning),即依托業(yè)務(wù)專家經(jīng)驗形成規(guī)則來構(gòu)建模型,常見的技術(shù)方法包括規(guī)則模型、評分卡模型、層次分析法模型、社交網(wǎng)絡(luò)與知識圖譜模型等。二是基于數(shù)據(jù)的小樣本學(xué)習(xí)(Material-based fewshot learning),即通過增加數(shù)據(jù)量將樣本擴(kuò)充為大樣本,常見的技術(shù)方法有兩類:一類是基于數(shù)據(jù)本身,通過樣本增強(qiáng)的方法(如SMOTE、GAN等)擴(kuò)充樣本量進(jìn)行建模;另一類是在“數(shù)據(jù)可用不可見”的思想下,利用聯(lián)邦學(xué)習(xí)技術(shù)來實(shí)現(xiàn)擴(kuò)充樣本進(jìn)行建模。三是基于模型的小樣本學(xué)習(xí)(Model-based fewshot learning),即從模型的角度入手,利用某類數(shù)據(jù)集學(xué)會一種學(xué)習(xí)的機(jī)制(如每個類別分類器參數(shù)的產(chǎn)生機(jī)制等),然后遷移到目標(biāo)小樣本數(shù)據(jù)集中,通過參數(shù)微調(diào)使得模型具有更強(qiáng)的泛化性,能夠快速進(jìn)行新類的學(xué)習(xí),常見的技術(shù)方法包括遷移學(xué)習(xí)、元學(xué)習(xí)等。四是基于算法的小樣本學(xué)習(xí)(Methodbased few-shot learning),即聚焦算法創(chuàng)新,選擇合適的嵌入方法將數(shù)據(jù)的原始特征嵌入一個可分的空間,在新空間構(gòu)造特征后進(jìn)行建模,常見的技術(shù)方法包括支持向量機(jī)中的核函數(shù)法、分類關(guān)聯(lián)規(guī)則挖掘中的頻繁項集法和利用網(wǎng)絡(luò)進(jìn)行特征嵌入法等。五是基于仿真環(huán)境的小樣本學(xué)習(xí)(Environment-based few-shot learning),即在極少樣本甚至無樣本的條件下,通過梳理業(yè)務(wù)傳導(dǎo)邏輯,構(gòu)建端到端的數(shù)字孿生仿真模擬環(huán)境,并通過強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行建模。六是基于計算機(jī)發(fā)展的小樣本學(xué)習(xí)(Machine-based few-shot learning),即基于量子科技發(fā)展將經(jīng)典計算機(jī)升級為量子計算機(jī),從而對小樣本數(shù)據(jù)集直接構(gòu)建量子算法模型。實(shí)證表明,該類技術(shù)方法在解決小樣本學(xué)習(xí)問題上較傳統(tǒng)機(jī)器學(xué)習(xí)算法有著明顯的優(yōu)勢。
小樣本學(xué)習(xí)不僅在學(xué)界被認(rèn)為是從現(xiàn)有的智能走向真正人工智能的重要一步,在業(yè)界應(yīng)用中同樣具有重要意義。以商業(yè)銀行智能風(fēng)控場景為例,當(dāng)前以邏輯回歸、決策樹、集成樹模型、Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)、因子分解機(jī)、高斯混合模型、孤立森林、圖卷神經(jīng)網(wǎng)絡(luò)、BERT等為代表的算法已得到廣泛應(yīng)用。然而,基于上述算法所構(gòu)建的智能模型往往需要對大規(guī)模數(shù)據(jù)樣本進(jìn)行學(xué)習(xí),而在商業(yè)銀行的實(shí)際業(yè)務(wù)場景中,往往存在很多小樣本學(xué)習(xí)建模需求。例如:當(dāng)銀行開拓一個新的業(yè)務(wù)領(lǐng)域時,總是需要一個逐漸積累業(yè)務(wù)數(shù)據(jù)樣本的過程,我們稱為業(yè)務(wù)的“冷啟動”階段;相比銀行零售業(yè)務(wù)板塊數(shù)以千萬計或更大規(guī)模的樣本量,對公業(yè)務(wù)板塊的數(shù)據(jù)樣本量呈數(shù)量級銳減之勢,若按照行業(yè)、區(qū)域、規(guī)模進(jìn)行細(xì)分后,相關(guān)業(yè)務(wù)的數(shù)據(jù)樣本量則變得十分有限;銀行智能風(fēng)控場景中還經(jīng)常遇到“好”“壞”標(biāo)簽的樣本數(shù)量很不平衡的問題,特別是在開拓新業(yè)務(wù)領(lǐng)域的初期,能夠積累到的“壞”樣本數(shù)量極少;從而導(dǎo)致傳統(tǒng)算法模型應(yīng)用效果受限。綜上,如何面向少量數(shù)據(jù)樣本,尤其是“壞”樣本數(shù)量極少的情況,來構(gòu)建相對準(zhǔn)確可靠的風(fēng)控模型,是商業(yè)銀行智能風(fēng)控領(lǐng)域亟待突破的重要難題。
本文參考發(fā)表于《銀行家》2022年5月刊《數(shù)字金融領(lǐng)域小樣本學(xué)習(xí)技術(shù)創(chuàng)新》一文中所介紹的銀行業(yè)務(wù)場景,并采用文中所描述的“加盟平臺型”數(shù)字金融業(yè)務(wù)數(shù)據(jù)。在“加盟平臺型”數(shù)字金融業(yè)務(wù)中,本文進(jìn)一步聚焦物流類客群,從之前的數(shù)據(jù)集中進(jìn)一步提取了相關(guān)數(shù)據(jù)樣本,開展量子智能風(fēng)控算法建模的數(shù)據(jù)準(zhǔn)備工作:選取近年來產(chǎn)品類型為個人經(jīng)營性貸款且貸款額度在50萬元以下、還款期限為3—6個月、貸款利率在8%以下,同時借款人在該銀行的累計經(jīng)營性貸款總金額不超過500萬元、貸款逾期不超過2.5個月、借款人信用卡總授信金額大于50萬元、正常貸記卡共享額度不超過40萬元,且借款人的央行信用評分在675—935之間,提取相關(guān)樣本作為實(shí)證分析數(shù)據(jù)進(jìn)行建模研究。通過上述條件篩選,在這個更小規(guī)模的數(shù)據(jù)集中,定義逾期10天及以上為“壞”樣本,“壞”樣本濃度約占5%。經(jīng)過數(shù)據(jù)清洗、特征工程等預(yù)處理過程后,最終形成10個變量作為建模的解釋變量,其中包含歷史逾期類變量2個、歷史額度類變量4個、時間和查詢類變量4個。
本文使用的量子神經(jīng)網(wǎng)絡(luò)是一種參數(shù)化的量子線路,其訓(xùn)練過程主要是利用量子線路不斷預(yù)測類別標(biāo)簽并計算損失函數(shù),而后使用梯度下降、反向傳播的方法得到最小化損失函數(shù)下的最優(yōu)量子線路參數(shù)。這保證了量子線路能夠充分借鑒經(jīng)典神經(jīng)網(wǎng)絡(luò)的思想進(jìn)行參數(shù)優(yōu)化。本研究中的量子機(jī)器學(xué)習(xí)算法可以理解為應(yīng)用量子門線路將數(shù)據(jù)嵌入一個易于區(qū)分的量子態(tài)空間,以量子態(tài)的測量值作為樣本分類的依據(jù),其中量子門線路包含12個旋轉(zhuǎn)門、3個受控門和1個測量門,整個模型包含12個參數(shù)。
在基于量子神經(jīng)網(wǎng)絡(luò)算法構(gòu)建量子智能風(fēng)控模型的基礎(chǔ)上,為進(jìn)一步驗證算法模型的有效性,本文基于相同數(shù)據(jù)集進(jìn)一步構(gòu)建了傳統(tǒng)的邏輯回歸模型、決策樹模型、隨機(jī)森林模型、XGboost模型、神經(jīng)網(wǎng)絡(luò)模型和分類關(guān)聯(lián)規(guī)則挖掘模型,并將各類模型結(jié)果進(jìn)行對比分析。本研究將數(shù)據(jù)集按照1∶1的比例隨機(jī)劃分為訓(xùn)練集和測試集,并且針對訓(xùn)練集樣本量從60下降至10的11種情況(即60、55、50、45、40、35、30、25、20、15和10)進(jìn)行模型驗證(見表1)。為了排除模型結(jié)果的偶然性,在每個驗證樣本量下采取50次隨機(jī)抽樣,根據(jù)大數(shù)定律,多次抽樣數(shù)據(jù)形成的模型平均評估指標(biāo)(AUC、KS、Recall等)依概率收斂于最終結(jié)果(見圖1、圖2、圖3)。
表1 基于量子小樣本學(xué)習(xí)技術(shù)的銀行智能風(fēng)控模型評估指標(biāo)
圖1 各類模型在不同樣本量下AUC變化曲線圖
圖2 各類模型在不同樣本量下KS變化曲線圖
圖3 各類模型在不同樣本量下Recall變化曲線圖
實(shí)證研究結(jié)果顯示,基于AUC、KS和Recall三個模型評估指標(biāo),在訓(xùn)練集樣本數(shù)量從60到10不斷下降的過程中(各組數(shù)據(jù)集以5個樣本遞減),量子神經(jīng)網(wǎng)絡(luò)算法模型的效果均優(yōu)于傳統(tǒng)的邏輯回歸模型、決策樹模型、隨機(jī)森林模型、XGboost模型、神經(jīng)網(wǎng)絡(luò)模型和分類關(guān)聯(lián)規(guī)則挖掘模型。同時,量子神經(jīng)網(wǎng)絡(luò)算法模型的評估效果在各組小樣本數(shù)據(jù)集下均保持較高的穩(wěn)定水平,且隨著樣本量的不斷下降,量子神經(jīng)網(wǎng)絡(luò)算法模型的表現(xiàn)效果較其他模型的優(yōu)勢越發(fā)凸顯。
面向本文所描述的業(yè)務(wù)場景,在模型訓(xùn)練集樣本數(shù)據(jù)量從60下降到10的各組小樣本學(xué)習(xí)數(shù)據(jù)條件下,量子神經(jīng)網(wǎng)絡(luò)算法模型的AUC指標(biāo)均達(dá)到0.7及以上,KS指標(biāo)均達(dá)到0.55以上,能夠滿足相關(guān)銀行對模型效果評估指標(biāo)的基本要求。研究結(jié)果初步驗證了量子神經(jīng)網(wǎng)絡(luò)算法模型在面對小樣本數(shù)據(jù)條件時具有良好的智能風(fēng)險識別效果,運(yùn)用量子機(jī)器學(xué)習(xí)技術(shù)構(gòu)建風(fēng)控模型可為商業(yè)銀行建立基于小樣本學(xué)習(xí)的智能風(fēng)控體系,對助力商業(yè)銀行全面提升智能風(fēng)控能力起到積極的推動作用。
本文立足商業(yè)銀行業(yè)務(wù)實(shí)踐,面向智能風(fēng)控典型業(yè)務(wù)場景,創(chuàng)新運(yùn)用前沿的量子神經(jīng)網(wǎng)絡(luò)算法對小樣本學(xué)習(xí)建模問題進(jìn)行研究。面向本文所描述的業(yè)務(wù)場景,實(shí)證分析結(jié)果顯示,在學(xué)習(xí)集樣本數(shù)據(jù)量從60下降到10的小樣本數(shù)據(jù)條件下,量子神經(jīng)網(wǎng)絡(luò)算法模型的AUC、KS和Recall三項模型評估指標(biāo)均較傳統(tǒng)機(jī)器學(xué)習(xí)模型有著顯著提升,為銀行金融機(jī)構(gòu)突破小樣本學(xué)習(xí)難題提供了全新思路。后續(xù)有必要進(jìn)一步探索其他量子人工智能算法在商業(yè)銀行各類小樣本學(xué)習(xí)建模場景中的研究與應(yīng)用,以期為數(shù)字經(jīng)濟(jì)時代商業(yè)銀行數(shù)字化轉(zhuǎn)型、智能化發(fā)展以及量子金融科技創(chuàng)新發(fā)展提供技術(shù)支撐和借鑒思路。