盧浩文,何元清
(中國(guó)民用航空飛行學(xué)院計(jì)算機(jī)學(xué)院,廣漢 618399)
隨著民航業(yè)的飛速發(fā)展,保障飛行安全、提升飛行能力和降低航空安全事件發(fā)生率一直是航空安全管理的重要內(nèi)容,目前航空安全事件發(fā)生的原因呈現(xiàn)復(fù)雜化和多元化特征,對(duì)航空安全事件發(fā)展趨勢(shì)的預(yù)測(cè)也面臨新的挑戰(zhàn)[1]。
知識(shí)圖譜(knowledge graph,KG)是谷歌公司在2012 年提出的,它將實(shí)體(包括概念和屬性)表示成圖上的節(jié)點(diǎn),連接兩個(gè)節(jié)點(diǎn)的邊表示成兩個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系,并最終用以三元組(頭實(shí)體,關(guān)系,尾實(shí)體)為基本元素結(jié)構(gòu)來(lái)表示知識(shí)[2]。知識(shí)圖譜中,E表示實(shí)體集合,R表示關(guān)系集合,T表示三元組集合。對(duì)于知識(shí)三元組中的任意知識(shí),我們使用()h,r,t∈T進(jìn)行表示,其中h∈E代表頭實(shí)體,t∈E代表尾實(shí)體,r∈R代表頭尾實(shí)體之間的關(guān)系。
將航空安全事件表示成知識(shí)圖譜的形式,可以獲取到歷史航空安全事件的基本信息以及在人員因素、航空器因素、環(huán)境因素、管理因素及結(jié)果等方面的相關(guān)信息[3],并對(duì)知識(shí)圖譜進(jìn)行推理分析得到隱患事件的發(fā)展結(jié)果[4]。航空安全事件領(lǐng)域的體系結(jié)構(gòu)比較獨(dú)特,實(shí)體的屬性關(guān)系也復(fù)雜多樣,這給表示學(xué)習(xí)造成了不小的困難,使得航空安全事件乃至整個(gè)航空領(lǐng)域中,基于知識(shí)圖譜的表示學(xué)習(xí)技術(shù)研究相對(duì)薄弱。目前研究者使用TransE 模型[5]對(duì)航空安全事件進(jìn)行表示學(xué)習(xí),但是,TransE 模型在一對(duì)多、多對(duì)一、多對(duì)多以及自反關(guān)系上效果不是很好[6]。
鑒于此,本文首先創(chuàng)建航空安全知識(shí)圖譜數(shù)據(jù)集ASIKG,利用TransE 模型的改進(jìn)模型TransH[7]和TransR[8],分別對(duì)ASIKG 進(jìn)行表示學(xué)習(xí),再與TransE表示結(jié)果進(jìn)行對(duì)比,找到契合航空安全領(lǐng)域知識(shí)圖譜數(shù)據(jù)特性的表示學(xué)習(xí)算法。
本文在對(duì)民航相關(guān)規(guī)定和大量航空安全事件語(yǔ)料庫(kù)等相關(guān)內(nèi)容進(jìn)行分析和研究的基礎(chǔ)上構(gòu)建航空安全事件知識(shí)圖譜(aviation safety inci?dent knowledge graph, ASIKG),ASIKG 實(shí)例數(shù)據(jù)來(lái)源于課題研究組整理的2006—2021 年航空事故調(diào)查跟蹤報(bào)告中的873件不安全事件以及其他開(kāi)源的航空安全事件調(diào)查數(shù)據(jù)。航空事故調(diào)查跟蹤報(bào)告是官方提供的世界上發(fā)生的航空安全事件,一條報(bào)告對(duì)應(yīng)一個(gè)航空安全事件,將其抽取整理并構(gòu)建航空安全事件領(lǐng)域知識(shí)圖譜。表1 展示了事件報(bào)告0628B762 和0812JA848C 抽取后的詳細(xì)內(nèi)容,包括事件名稱、時(shí)間、客機(jī)型號(hào)、所屬公司、航班號(hào)、起飛地點(diǎn)、降落地點(diǎn)、出事地點(diǎn)、事件類型、航線類型、航班類型、天氣情況、操作階段、直接原因、人員傷亡、事件結(jié)果以及事件等級(jí)。
表1 詳細(xì)事件示例
事故調(diào)查跟蹤報(bào)告共抽取整理了964條事件組成航空安全事件知識(shí)圖譜,圖譜有6335 個(gè)實(shí)體,16種關(guān)系,15456組三元組,其中,一個(gè)事件分別對(duì)應(yīng)16 種關(guān)系,每個(gè)事件相互獨(dú)立,但不同事件連接的尾實(shí)體如直接原因、事件結(jié)果、天氣狀況等都存在大量相關(guān)性,部分結(jié)構(gòu)特點(diǎn)如圖1所示。
圖1 ASIKG部分結(jié)構(gòu)特點(diǎn)示例
將知識(shí)圖譜存入Neo4j 中進(jìn)行可視化呈現(xiàn),如圖2所示。
圖2 ASIKG局部
可以看到航空安全事件知識(shí)圖譜ASIKG 中存在大量一對(duì)多和多對(duì)一的關(guān)系,而存在少量一對(duì)一和多對(duì)多的關(guān)系。針對(duì)此,本文進(jìn)行ASIKG表示學(xué)習(xí)研究。
基本的轉(zhuǎn)移假設(shè)將關(guān)系看成實(shí)體間的轉(zhuǎn)移,后續(xù)發(fā)展出更復(fù)雜的轉(zhuǎn)移假設(shè),將關(guān)系看成經(jīng)過(guò)某種映射后的實(shí)體之間的轉(zhuǎn)移。
基本轉(zhuǎn)移假設(shè)的提出者Boedes 等[5]提出了第一個(gè)基于轉(zhuǎn)移的表示模型TransE,掀起了Trans 系列的研究熱潮。在TransE 算法中,若三元組(h,r,t)成立,則尾實(shí)體向量近似等于頭實(shí)體向量與關(guān)系向量之和,即h+r≈t,若三元組(h,r,t)不成立,則t應(yīng)當(dāng)遠(yuǎn)離h+r,轉(zhuǎn)移過(guò)程如圖3所示。
圖3 TransE模型實(shí)體、關(guān)系向量空間
TransE 模型結(jié)構(gòu)簡(jiǎn)單,有兩個(gè)三元組(川航8633 事件,直接原因,風(fēng)擋破裂),(大韓航空KE995 事件,直接原因,風(fēng)擋破裂),兩個(gè)三元組中都存在實(shí)體“風(fēng)擋破裂”和關(guān)系“直接原因”,TransE 模型只簡(jiǎn)單考慮h+r=t,就會(huì)根據(jù)“風(fēng)擋破裂”=“川航8633 事件+直接原因”,“風(fēng)擋破裂”=“大韓航空KE995事件+直接原因”得出結(jié)論“川航8633 事件=大韓航空KE995 事件”,很顯然,這樣推理出來(lái)的結(jié)果并不準(zhǔn)確。
為了解決上述問(wèn)題,2014 年TransH 模型被提出,用來(lái)解決這種復(fù)雜關(guān)系。在TransH 模型中,實(shí)體首先被投射到關(guān)系特定的超平面,關(guān)系被看作超平面上的兩個(gè)實(shí)體之間的轉(zhuǎn)移。假設(shè)wr∈Rk表示關(guān)系r對(duì)應(yīng)的超平面的法向量,則頭實(shí)體h和尾實(shí)體t在超平面wr上的投影h⊥和t⊥分別為三元組(h,r,t)的評(píng)分函數(shù)定義為式(1)。
其中:dr為關(guān)系r的向量表示,是r對(duì)應(yīng)的超平面的方向向量,轉(zhuǎn)移過(guò)程如圖4 所示。TransH使不同的實(shí)體在不同的關(guān)系下?lián)碛辛瞬煌谋硎拘问?,但由于?shí)體向量被投影到了關(guān)系的語(yǔ)義空間中,故它們具有相同的維度。
圖4 TransH模型
TransR 方法的提出是在TransE 和TransH 的基礎(chǔ)之上,TransE 和TransH 雖然都取得了很大進(jìn)步,但是它們將實(shí)體和關(guān)系都映射在同一語(yǔ)義空間中,無(wú)法充分表示實(shí)體包含的多種屬性,以及不同的關(guān)系對(duì)應(yīng)不同的實(shí)體屬性。TransR模型將知識(shí)三元組(h,r,t) ∈T中的實(shí)體h,t∈E映射到實(shí)體向量空間h,t∈Rd,關(guān)系r∈R映射到關(guān)系向量空間r∈Rk,且k≠d。并且使用不同的映射矩陣Mr定義從實(shí)體空間到各個(gè)關(guān)系空間的映射。轉(zhuǎn)移過(guò)程如圖5所示。
圖5 TransR模型
具體地,對(duì)于給定的三元組(h,r,t),TransR模型使用特定關(guān)系r下的映射矩陣Mr∈Rk*d將實(shí)體向量h和t從實(shí)體空間映射到關(guān)系r所在的關(guān)系空間中,得到hr和tr如式(2)所示。
在關(guān)系r所在的關(guān)系空間中,hr,tr,r∈Rk之間存在hr+r≈tr的關(guān)系。形式化地,TransR模型對(duì)三元組(h,r,t)定義如下評(píng)分函數(shù):
實(shí)際中,TransR 模型使用最大間隔方法,定義目標(biāo)函數(shù):
其中:T為正例三元組集合;T'為負(fù)例三元組集合;γ為正負(fù)例三元組得分的間隔距離。TransR模型通過(guò)在關(guān)系空間最大化正負(fù)例三元組之間的得分差來(lái)優(yōu)化知識(shí)表示。
公開(kāi)數(shù)據(jù)集使用了兩個(gè)通用的知識(shí)圖譜語(yǔ)料庫(kù)[9],WordNet 的子集WN18RR 和Freebase 的子集FB15k?237。WN18 數(shù)據(jù)集是覆蓋范圍較大的英文詞匯數(shù)據(jù)庫(kù);FB15k 的知識(shí)來(lái)源于維基百科,后被Google 收購(gòu)并成為當(dāng)前規(guī)模最大的開(kāi)源通用型知識(shí)庫(kù)之一。數(shù)據(jù)集WN18RR 和FB15k?237 去掉了WN18 和FB15k 上存在的所有逆三元組來(lái)提高模型預(yù)測(cè)的準(zhǔn)確性。其數(shù)據(jù)集基本信息如表2所示。
表2 知識(shí)圖譜語(yǔ)料庫(kù)
本文使用兩個(gè)統(tǒng)計(jì)量指標(biāo)評(píng)估各個(gè)模型性能:平均倒數(shù)等級(jí)(MRR)和命中數(shù)@n(Hits@n)。MRR 指對(duì)測(cè)試集中的所有正三元組在評(píng)估結(jié)果中的排名的倒數(shù)取均值,若正三元組在結(jié)果中的排名越靠前,其倒數(shù)值越大,所以MRR 得分越大,模型性能越好。Hits@n 指排名前n的評(píng)估結(jié)果中正確結(jié)果所占的比例。一般地,Hits@10 指正確結(jié)果出現(xiàn)在評(píng)估結(jié)果列表前10 的一個(gè)概率。本文使用MRR 和Hits@n 指標(biāo)對(duì)各個(gè)表示模型進(jìn)行鏈接預(yù)測(cè)對(duì)比研究[10]。
實(shí)驗(yàn)參數(shù)選擇如下:使用L2 正則化對(duì)打分函數(shù)進(jìn)行約束;模型的學(xué)習(xí)率lr為0.01;實(shí)體和關(guān)系的嵌入維度為{50;100;200};同時(shí),由于航空安全事件三元組數(shù)據(jù)相對(duì)公共數(shù)據(jù)集較少,為防止過(guò)擬合,設(shè)置迭代周期為500。
通過(guò)模型建模,我們得到了每個(gè)實(shí)體和關(guān)系的嵌入向量,利用嵌入向量,可以進(jìn)行知識(shí)圖譜的鏈接預(yù)測(cè)[11]。鏈接預(yù)測(cè)分為三類:
(1)頭實(shí)體預(yù)測(cè):(?,r,t)
(2)關(guān)系預(yù)測(cè):(h,?,t)
(3)尾實(shí)體預(yù)測(cè):(h,r,?)
利用向量的可加性即可實(shí)現(xiàn),假設(shè)t'=h+r,則在所有的實(shí)體中選擇與t'距離最近的向量,即為t的預(yù)測(cè)值。鏈接預(yù)測(cè)結(jié)果如下表所示。
表3 鏈接預(yù)測(cè)結(jié)果(向量維度50)
表4 鏈接預(yù)測(cè)結(jié)果(向量維度100)
表5 鏈接預(yù)測(cè)結(jié)果(向量維度200)
根據(jù)實(shí)驗(yàn)結(jié)果可以看到,當(dāng)維度為50 和100 時(shí),對(duì)于FB15k?237 數(shù)據(jù)集,TransR 模型的鏈接預(yù)測(cè)效果較好;而對(duì)于WN18RR 數(shù)據(jù)集,TransE 模型的鏈接預(yù)測(cè)效果較好。在ASIKG 數(shù)據(jù)集中,TransH 模型的鏈接預(yù)測(cè)效果好于TransE和TransR。
當(dāng)維度為200 時(shí),對(duì)于FB15k?237 數(shù)據(jù)集,TransR模型的鏈接預(yù)測(cè)效果較好;對(duì)于WN18RR數(shù)據(jù)集,TransR 模型的鏈接預(yù)測(cè)效果較好,但是TransR 的hit@10 指標(biāo)仍小于TransE。由表2可知,WN18RR 數(shù)據(jù)集中實(shí)體數(shù)量遠(yuǎn)大于FB15k?237數(shù)據(jù)集中實(shí)體數(shù)量,而關(guān)系數(shù)量卻少于后者。由此可知,算法的鏈接預(yù)測(cè)效果與數(shù)據(jù)集的結(jié)構(gòu)關(guān)系密切。
在ASIKG 數(shù)據(jù)集中,TransH 模型的鏈接預(yù)測(cè)效果仍好于TransE 和TransR。結(jié)合航空安全事件三元組數(shù)據(jù)集特點(diǎn),ASIKG中存在大量1對(duì)n和n對(duì)1 的關(guān)系,而存在少量1 對(duì)1 和n對(duì)n的關(guān)系,對(duì)于TransE 適合處理1 對(duì)1 關(guān)系,TransR適合處理n對(duì)n關(guān)系,結(jié)合ASIKG中的關(guān)系是16種固定關(guān)系,將實(shí)體投影到超平面的TransH 更適合航空安全事件知識(shí)圖譜的表示學(xué)習(xí)工作。
在基于轉(zhuǎn)移的知識(shí)圖譜表示學(xué)習(xí)研究中,知識(shí)圖譜表示學(xué)習(xí)的效果與知識(shí)圖譜數(shù)據(jù)結(jié)構(gòu)類型息息相關(guān),本文構(gòu)建的航空安全事件知識(shí)圖譜ASIKG 中存在大量一對(duì)多和多對(duì)一的關(guān)系,而存在少量一對(duì)一和多對(duì)多的關(guān)系,相對(duì)于TransE 和TransR,TransH 模型更適合ASIKG 的表示學(xué)習(xí)工作。在后續(xù)的研究中,將嘗試結(jié)合神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法對(duì)ASIKG 中的關(guān)系和實(shí)體進(jìn)行充分表示學(xué)習(xí)。