李 平,李雨航
(中國西南電子技術(shù)研究所,成都 610036)
在空、海戰(zhàn)場監(jiān)視系統(tǒng)的常規(guī)性執(zhí)勤任務(wù)中,由于雷達(dá)探測結(jié)果存在系統(tǒng)性誤差[1],使得同一真實目標(biāo)會產(chǎn)生多條空間位置平行或相交的軌跡。軌跡關(guān)聯(lián)是將此類誤差軌跡判斷為一個目標(biāo),對于監(jiān)視分析任務(wù)尤為重要。
軌跡關(guān)聯(lián)一般基于時空相似度算法結(jié)合聚類的方式,核心在于使用高度量性的相似度算法。文獻(xiàn)[2]利用最長公共子序列度量軌跡的相似度,并通過具有噪聲的基于密度的聚類(Density-based Spatial Clustering of Applications with Noise,DBSCAN)算法對出租車軌跡進(jìn)行聚類。文獻(xiàn)[3]通過計算子軌跡間的水平距離、垂直距離、角度距離來度量軌跡的相似性,并提出軌跡空間聚類(Trajectory Ordering Points to Identify the Clustering Structure,TR-OPTICS)算法用于軌跡聚類。這些方法對噪聲具有較強(qiáng)的魯棒性,但僅考慮軌跡點序列的空間位置來衡量相似度,沒有從時間維度進(jìn)行度量,導(dǎo)致準(zhǔn)確度不高。文獻(xiàn)[4]結(jié)合時空屬性提出時間加權(quán)相似度(Time Weighted Similarity,TWS)和空間加權(quán)相似度(Space Weighted Similarity,SWS)有效提升軌跡相似度的準(zhǔn)確性。該方法通過調(diào)整相似度和距離等閾值參數(shù)能夠高效地處理實時軌跡關(guān)聯(lián),但其準(zhǔn)確性受參數(shù)設(shè)置的影響較大,遷移性弱,且忽略了軌跡內(nèi)部各點的關(guān)聯(lián)性以及軌跡的形狀特征。
隨著深度學(xué)習(xí)的發(fā)展,通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,自動提取數(shù)據(jù)深度特征,在信號處理、自然語言處理等領(lǐng)域都得到了廣泛的應(yīng)用。文獻(xiàn)[5]使用長短時記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)提取干擾信號的時域、頻域特征,完成特征融合后進(jìn)行分類識別。文獻(xiàn)[6]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型對人員軌跡進(jìn)行分類,并設(shè)計多種檢測評估方式對人員位置進(jìn)行估計。文獻(xiàn)[7]通過構(gòu)建雙向注意力機(jī)制模型,設(shè)計遮蔽語言模型(Masked Language Model,MLM)與下句預(yù)測(Next Sentence Prediction,NSP)相結(jié)合的預(yù)訓(xùn)練任務(wù),以無監(jiān)督的方式訓(xùn)練出高精度的預(yù)訓(xùn)練模型。文獻(xiàn)[8]通過增加訓(xùn)練數(shù)據(jù)擴(kuò)大向量編碼長度,并僅使用遮蔽語言模型設(shè)計預(yù)訓(xùn)練任務(wù),訓(xùn)練得到更魯棒的預(yù)訓(xùn)練模型。文獻(xiàn)[9]通過構(gòu)建更簡潔的詞嵌入層大幅度減少模型參數(shù)量,并設(shè)計更具學(xué)習(xí)難度的序列順序預(yù)測任務(wù)(Sentence Order Prediction,SOP),使模型在維持原有性能的前提下參數(shù)量大幅減小。利用大量無標(biāo)注領(lǐng)域數(shù)據(jù)以無監(jiān)督方式作預(yù)訓(xùn)練,使用少量標(biāo)注數(shù)據(jù)對預(yù)訓(xùn)練模型參數(shù)進(jìn)行微調(diào)成為當(dāng)今的主流解決方案。然而,在軌跡關(guān)聯(lián)領(lǐng)域,基于深度學(xué)習(xí)的預(yù)訓(xùn)練模型應(yīng)用較少。
針對時空相似度算法參數(shù)敏感遷移性差的問題,本文采用深度學(xué)習(xí)方法,提出一種基于無監(jiān)督預(yù)訓(xùn)練的軌跡自動關(guān)聯(lián)方法。利用Geohash經(jīng)緯度編碼算法表征軌跡特征,構(gòu)造雙向自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對無標(biāo)注軌跡數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練;構(gòu)建孿生網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練少量標(biāo)注軌跡對,得到高度量性能的軌跡匹配模型。采用Geolife GPS軌跡數(shù)據(jù)集[16-18]進(jìn)行模型驗證,結(jié)果表明,基于深度學(xué)習(xí)預(yù)訓(xùn)練的軌跡自動關(guān)聯(lián)效果在軌跡關(guān)聯(lián)領(lǐng)域達(dá)到最優(yōu)。
傳感器捕獲的軌跡數(shù)據(jù)可表示為T=[(p1,t1),(p2,t2),…,(pn,tn)],其中(pi,ti)表示在ti時刻(t1 (1) 式中:pk表示軌跡中的第k個點;l為滑窗窗長。當(dāng)處理第k個點時,將該點與其前l(fā)-1個點一起求平均得到濾波后的點。從軌跡起始點開始,以步長為1進(jìn)行滑窗,依次處理各點得到去噪后軌跡。 軌跡壓縮能夠大幅度去除冗余軌跡點,保留關(guān)鍵軌跡信息,減小軌跡處理計算量,并提升軌跡數(shù)據(jù)處理的魯棒性。Douglas-Peucker算法[11]被廣泛使用于軌跡數(shù)據(jù)壓縮中,軌跡壓縮過程如圖1所示。 圖1 軌跡壓縮過程Fig.1 The process of trajectory compression 軌跡序列的起始點被選作錨點,結(jié)束點被選作浮動點。計算兩點之間所有軌跡點到其連線的垂直距離,篩選出其中的最大值,如最大值超過設(shè)置的距離閾值,該最大值點被認(rèn)定為特征分割點并儲存。從特征分割點處將軌跡分為兩段,將前段的特征分割點設(shè)置為浮動點,后段的特征分割點設(shè)置為錨點。對每段子軌跡都進(jìn)行上述步驟的遞歸操作,直到所有距離都小于閾值。存儲的所有特征分割點以及原始始末點所構(gòu)成的軌跡按照時序排列,即為壓縮后的軌跡。該算法只考慮了軌跡空間關(guān)系,忽略了時間因素的影響。時間比率算法(Top-Down Time-Ratio Algorithm,TD-TR)[12]將考慮時間因素的距離計算方式加入Douglas-Peucker算法中,計算時間相對距離的方式如圖2所示。 圖2 時間相對距離Fig.2 The relative distance of time (2) 軌跡序列一般基于軌跡點的經(jīng)緯度表征為二維向量形式,該方式所能表示的信息量較少。針對神經(jīng)網(wǎng)絡(luò)模型的特征提取,本文的軌跡高維向量轉(zhuǎn)化方法分為兩步:首先基于Geohash編碼將軌跡點編碼為字符串并構(gòu)成編碼字典;其次隨機(jī)初始化編碼向量映射矩陣,完成軌跡的向量轉(zhuǎn)化。 如圖3所示,Geohash編碼基于Base32編碼通過遞歸二分的方式將二維經(jīng)緯度轉(zhuǎn)化成字符串,每一個字符串代表某一空間區(qū)域,編碼位數(shù)越多區(qū)域越小,定位更精準(zhǔn),矩形區(qū)域中的所有坐標(biāo)點都共享該字符串[14]。 圖3 Geohash編碼示例Fig.3 Example of Geohash encoding 對軌跡數(shù)據(jù)編碼并構(gòu)造編碼字典,再隨機(jī)初始化Geohash向量嵌入矩陣,利用向量嵌入將軌跡序列映射至高維向量空間。軌跡序列由二維經(jīng)緯度離散向量轉(zhuǎn)化為高維連續(xù)區(qū)域柵格編碼向量,使得模型更容易學(xué)習(xí)到軌跡內(nèi)部以及軌跡之間的關(guān)系表示。本文對輸入軌跡完整預(yù)處理方式如圖4所示。 圖4 軌跡預(yù)處理流程Fig.4 The pre-processing flow of trajectory 原始軌跡數(shù)據(jù)依次通過均值濾波器剔除軌跡噪聲點,通過TD-TR算法壓縮軌跡,完成軌跡時空預(yù)處理。其次,對壓縮后軌跡數(shù)據(jù)做特征工程處理,利用Geohash編碼得到軌跡中所有點的編碼表示;構(gòu)建窗長為2、步長為1的滑窗,按照時間順序從起始點開始對軌跡數(shù)據(jù)進(jìn)行滑窗操作,當(dāng)滑窗內(nèi)兩軌跡點對應(yīng)的Geohash編碼不一致時,使用遞歸二分補(bǔ)點方式在兩軌跡點之間補(bǔ)點并按照時間順序排列,直到新增點對應(yīng)的Geohash編碼與其鄰接點保持一致;依次遍歷補(bǔ)點后的軌跡數(shù)據(jù)去除鄰接點中Geohash編碼重復(fù)的點。最后,整理全部軌跡點的Geohash編碼去重并保存為編碼字典。上述方式能夠豐富原始軌跡數(shù)據(jù)特征,減弱不同物理設(shè)備采樣率、精度不同所造成的數(shù)據(jù)失真,并且將二維軌跡點數(shù)據(jù)轉(zhuǎn)化為契合神經(jīng)網(wǎng)絡(luò)模型的輸入形式。 自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模型(Transformer)[7]通過引入自注意力機(jī)制,接收一個向量序列并產(chǎn)生一個重新加權(quán)的向量序列,在機(jī)器翻譯領(lǐng)域取得了重大突破。本文基于Transformer的編碼器結(jié)構(gòu)構(gòu)建基于自注意力機(jī)制的特征提取結(jié)構(gòu),提取軌跡數(shù)據(jù)深度特征。優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖5所示。 圖5 自注意力編碼器結(jié)構(gòu)Fig.5 Self-attention encoder structure 首先,原始輸入軌跡信號通過序列嵌入層映射為高維向量輸入,通過線性尺寸調(diào)節(jié)層減小向量尺寸,降低模型計算復(fù)雜度。其次,依次通過查詢線性轉(zhuǎn)換層、鍵線性轉(zhuǎn)換層、值線性轉(zhuǎn)換層得到查詢矩陣、鍵矩陣、值矩陣,利用查詢矩陣與鍵矩陣求得注意力分?jǐn)?shù)矩陣。可用下式來表示注意力分?jǐn)?shù)的計算過程: (3) 式中:Q表示查詢矩陣;K表示鍵矩陣;dk表示向量隱藏層大小;softmax()為激活函數(shù),可表示為 (4) 基于大規(guī)模數(shù)據(jù)量的無監(jiān)督預(yù)訓(xùn)練任務(wù),在自然語言處理領(lǐng)域能大幅度提升各類下游任務(wù)的性能[7-9]。本文對無標(biāo)注軌跡數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,提升模型對軌跡深度特征提取能力。預(yù)訓(xùn)練過程如圖6所示。 圖6 預(yù)訓(xùn)練過程Fig.6 Pre-training process 原始軌跡數(shù)據(jù)通過Geohash編碼轉(zhuǎn)化為編碼序列;對編碼序列進(jìn)行隨機(jī)遮蔽操作,隨機(jī)選中編碼序列中15%的部分,對選中的編碼以80%的概率替換為字符MASK,10%的概率保留,10%的概率替換為字典中任意一個編碼[8];將遮蔽后的編碼序列通過自注意力編碼器得到考慮編碼序列各部分重要性的加權(quán)輸出;通過全連接分類層得到每一個編碼位置對應(yīng)的預(yù)測結(jié)果;將MASK編碼對應(yīng)的預(yù)測結(jié)果輸入至交叉熵?fù)p失函數(shù)計算損失值。交叉熵?fù)p失函數(shù)可表示為 (5) 式中:y是樣本x屬于某一個類別的真實概率;fθ(x)是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)輸出的樣本屬于某一類別的預(yù)測分?jǐn)?shù)。損失值L用來衡量預(yù)測結(jié)果與真實結(jié)果的差異性。最后,利用Adam優(yōu)化器更新自注意力編碼器以及全連接分類層的模型參數(shù)。重復(fù)以上過程,完成模型預(yù)訓(xùn)練,提升對軌跡數(shù)據(jù)的向量編碼能力。 構(gòu)造帶標(biāo)簽的軌跡對匹配數(shù)據(jù)集,基于孿生網(wǎng)絡(luò)結(jié)構(gòu)[13],構(gòu)建孿生匹配神經(jīng)網(wǎng)絡(luò);通過訓(xùn)練軌跡對匹配任務(wù),對預(yù)訓(xùn)練后的自注意力模型進(jìn)行參數(shù)微調(diào)。孿生匹配神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。 圖7 孿生匹配網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Siamese matching network structure 軌跡對數(shù)據(jù)依次通過預(yù)訓(xùn)練后的自注意力模型輸出重新加權(quán)求和后的軌跡點高維向量集合;利用平均池化層,從軌跡點的維度對向量求平均,降低向量尺寸,分別得到兩軌跡的向量表示u,v;將兩軌跡向量以及兩者的絕對偏差向量|u-v|橫向拼接得到軌跡對向量;通過全連接層輸出軌跡對相似值,進(jìn)一步利用均方差損失函數(shù)求得訓(xùn)練損失值,該過程可表示為 (6) 式中:y是樣本x屬于某一類別的真實概率;fθ(x)是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)輸出的樣本屬于某一類別的預(yù)測分?jǐn)?shù)。最后,在反向傳播過程中更新自注意力模型與全連接分類器的參數(shù)。重復(fù)以上過程,完成孿生匹配網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)微調(diào),使模型能夠輸出軌跡對信號的相似度分?jǐn)?shù)。 為了評估特征工程方式、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、預(yù)訓(xùn)練方式對軌跡信號匹配能力的影響以及與時空相似度算法相比深度學(xué)習(xí)的有效性,本文根據(jù)軌跡深度關(guān)聯(lián)的流程進(jìn)行以下3組實驗: 實驗1,利用Geohash向量嵌入與直接使用經(jīng)緯度完成特征工程進(jìn)行軌跡匹配; 實驗2,分別構(gòu)造自注意力神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(Transformer)、長短時記憶(LSTM)神經(jīng)網(wǎng)絡(luò)、雙向長短時記憶(Bidirectional LSTM,Bi-LSTM)神經(jīng)網(wǎng)絡(luò)作為特征提取器進(jìn)行軌跡匹配; 實驗3,引入預(yù)訓(xùn)練方式與直接使用標(biāo)注軌跡對數(shù)據(jù)集訓(xùn)練,以及使用實時場景表現(xiàn)優(yōu)秀的空間加權(quán)相似度(Space Weighted Similarity,SWS)算法[3]進(jìn)行軌跡匹配。 實驗數(shù)據(jù)集采用微軟亞洲研究院公開的用戶生活軌跡GPS數(shù)據(jù)集(Geolife)[16-18]。該數(shù)據(jù)集采集了182位用戶為期5年的生活軌跡,共計17 621條軌跡,涵蓋了中國30個城市,出行方式包括步行、慢跑、自行車、公交車、自駕、火車、飛機(jī)。數(shù)據(jù)的采集使用多種GPS記錄設(shè)備,平均采樣率為1~5 s或者5~10 m,軌跡點信息包含經(jīng)度、緯度。為構(gòu)造匹配軌跡集,從原始數(shù)據(jù)集中任意選取1 000條軌跡,依次對軌跡數(shù)據(jù)進(jìn)行采樣間隔為2,4,6,8點的重采樣。為增強(qiáng)數(shù)據(jù)魯棒性,將信噪比設(shè)置為50 dB構(gòu)造經(jīng)度、緯度的高斯白噪聲添加至軌跡數(shù)據(jù)。以5%的概率任意選取軌跡點并以5 000~10 000 m的距離偏差構(gòu)造異常點。經(jīng)過上述處理后,每條原始軌跡構(gòu)造得到4條關(guān)聯(lián)軌跡,共計5 000條關(guān)聯(lián)軌跡集。將匹配的軌跡數(shù)據(jù)兩兩組合得到10 000對正樣本軌跡對,同時篩選時間與空間距離較為接近的負(fù)樣本對,構(gòu)造得到10 000對負(fù)樣本軌跡對,共計20 000對關(guān)聯(lián)軌跡對數(shù)據(jù),正負(fù)樣本對比例為1∶1,按照9∶1的比例劃分為訓(xùn)練集與測試集。 在神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面,使用Python語言和Pytorch深度學(xué)習(xí)框架,學(xué)習(xí)率設(shè)置為2×10-5,batchsize設(shè)置為40,epoch設(shè)置為20。 構(gòu)造自注意力機(jī)制模型用于訓(xùn)練與測試,隱藏層向量尺寸設(shè)置為128,隱藏層深度設(shè)置為4,多頭注意力數(shù)目設(shè)置為32。采用Geohash向量嵌入方式時,編碼字典基于Geolife原始17 621條軌跡數(shù)據(jù)集構(gòu)造,嵌入向量尺寸設(shè)置為32。上述參數(shù)為實驗過程的最優(yōu)設(shè)置。通過線性層將嵌入向量尺度轉(zhuǎn)化為隱藏層向量尺度;采用經(jīng)緯度構(gòu)造方式時,將經(jīng)緯度直接作為向量輸入,通過線性層將其向量尺度調(diào)節(jié)為與隱藏層相同。測試準(zhǔn)確率隨訓(xùn)練迭代輪數(shù)的變化情況如圖8所示。 圖8 匹配準(zhǔn)確率變化曲線(實驗1)Fig.8 Matching accuracy in Experiment 1 使用Geohash向量嵌入方式在2 000軌跡對測試集上達(dá)到94.2%的匹配準(zhǔn)確率相較于直接使用經(jīng)緯度作為向量輸入提升14個百分點。5位的Geohash編碼每一個編碼柵格大約能夠表示10 km2,即大致5 100萬個編碼就能表征整個地球,與之相比4位精度的經(jīng)緯度則需要約648億個組合,實際情況會更加稀疏,使得模型的訓(xùn)練難度大幅度提升,因此Geohash向量嵌入方式更有利于模型學(xué)習(xí)軌跡點之間的關(guān)聯(lián)關(guān)系。 基于Geohash向量嵌入完成特征工程,分別構(gòu)建自注意力神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、長短時記憶神經(jīng)網(wǎng)絡(luò)、雙向長短時記憶神經(jīng)網(wǎng)絡(luò)作為特征提取器,隱藏層向量尺寸都設(shè)置為128,隱藏層深度都設(shè)置為4,自注意力神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的多頭注意力數(shù)目設(shè)置為32。測試準(zhǔn)確率隨訓(xùn)練迭代輪數(shù)的變化情況如圖9所示。 圖9 匹配準(zhǔn)確率變化曲線(實驗2)Fig.9 Matching accuracy in Experiment 2 自注意力神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(Transformer)、雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)、長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)在2 000軌跡對測試集上的匹配準(zhǔn)確率分別為94.2%,90.4%,87.9%。LSTM為單向的循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器,僅考慮了前序序列對后序序列的影響;Bi-LSTM基于前向LSTM與后向LSTM拼接而成,考慮了上下文序列的影響,但是對長距離的影響關(guān)系存在遺忘性;Transformer引入自注意力機(jī)制,考慮上下文序列的影響,基于注意力矩陣度量不同位置序列之間的影響關(guān)系,不會因為距離因素產(chǎn)生遺忘,因此,Transformer編碼器更適合對軌跡序列的特征編碼。 基于Geohash向量嵌入完成特征工程構(gòu)造自注意力機(jī)制模型,隱藏層向量尺寸設(shè)置為128,隱藏層深度設(shè)為4,多頭注意力數(shù)目設(shè)置為32。基于Geolife原始17 621條軌跡數(shù)據(jù)集作預(yù)訓(xùn)練,并基于18 000對匹配軌跡對訓(xùn)練集對預(yù)訓(xùn)練后的模型進(jìn)行參數(shù)微調(diào);SWS算法距離閾值分別設(shè)置為500 m,1 000 m,1 500 m?;? 000對匹配軌跡對測試集進(jìn)行測試,測試準(zhǔn)確率隨訓(xùn)練迭代輪數(shù)的變化情況如圖10所示。 圖10 匹配準(zhǔn)確率變化曲線(實驗3)Fig.10 Matching accuracy in Experiment 3 SWS算法在距離閾值設(shè)置為1 000 m時性能最佳。預(yù)訓(xùn)練結(jié)合參數(shù)微調(diào)的方式比直接使用標(biāo)注軌跡訓(xùn)練匹配準(zhǔn)確率提升2個百分點,比SWS-1000算法匹配準(zhǔn)確率率提升5個百分點。SWS算法具有較為優(yōu)異的基線能力,但其對距離閾值的設(shè)置較為敏感,泛用能力較弱。隨機(jī)掩碼預(yù)訓(xùn)練任務(wù)同樣適用于軌跡序列,此任務(wù)為無監(jiān)督不需要人工整理訓(xùn)練數(shù)據(jù)集,可以提供大數(shù)據(jù)量的軌跡數(shù)據(jù)作為預(yù)訓(xùn)練數(shù)據(jù)集,使得模型更好地學(xué)習(xí)軌跡數(shù)據(jù)的特征分布,預(yù)訓(xùn)練后的模型加強(qiáng)了下游軌跡匹配的模型基準(zhǔn)能力。 3組實驗綜合匹配準(zhǔn)確率如表1所示。從本文實驗數(shù)據(jù)可以看出,從特征工程的角度比較,使用Geohash向量嵌入方式提升模型匹配性能14個百分點,向量嵌入的特征工程方式更能表示軌跡數(shù)據(jù)的特征結(jié)構(gòu);從模型結(jié)構(gòu)的角度比較,Bi-LSTM比LSTM的匹配性能高2個百分點,Transformer相較Bi-LSTM匹配性能提升4個百分點,自注意力機(jī)制的注意力加權(quán)求和方式更能提取關(guān)鍵特征信息;從訓(xùn)練方式的角度比較,預(yù)訓(xùn)練參數(shù)微調(diào)方式,相比直接訓(xùn)練匹配模型,模型的收斂速度更快,并提升匹配性能2個百分點,預(yù)訓(xùn)練方式增強(qiáng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對軌跡數(shù)據(jù)的特征表示能力;從算法層面比較,預(yù)訓(xùn)練微調(diào)方式相較SWS算法提升5個百分點匹配準(zhǔn)確率,時空相似度算法根據(jù)不同的軌跡點分布情況需調(diào)節(jié)合適的距離閾值,本文提出的Geohash向量嵌入結(jié)合預(yù)訓(xùn)練微調(diào)的方式更具魯棒性,且軌跡關(guān)聯(lián)性能更高,取得了最優(yōu)實驗結(jié)果。 表1 模型匹配準(zhǔn)確率Tab.1 Model matching accuracy 本文針對軌跡匹配問題提出了一種基于無監(jiān)督預(yù)訓(xùn)練的軌跡深度匹配關(guān)聯(lián)方法。采用公開數(shù)據(jù)集進(jìn)行的實驗結(jié)果表明,Geohash向量嵌入結(jié)合自注意力神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用預(yù)訓(xùn)練微調(diào)的方式,軌跡匹配準(zhǔn)確率高于時空相似度度量方式,可達(dá)96.3%,說明該方式能提取軌跡數(shù)據(jù)的深度特征,提高軌跡匹配精度。 從本文實驗可以看出,特征工程軌跡向量處理方式、模型特征提取方式以及預(yù)訓(xùn)練任務(wù)會影響模型的匹配性能,這為以后的研究提供了思路,具備工程應(yīng)用推廣性。后續(xù)研究工作主要從三個方面展開:第一,將軌跡信號可能含有的其他特征,如高度、速度、方向、意圖等融入向量嵌入的表達(dá)方式中,豐富特征結(jié)構(gòu),提高輸入模型的特征向量質(zhì)量;第二,對預(yù)訓(xùn)練任務(wù)進(jìn)一步研究,設(shè)計與特征相關(guān)的預(yù)訓(xùn)練任務(wù)與隨機(jī)掩碼任務(wù)相結(jié)合,提升模型對軌跡數(shù)據(jù)的特征表示能力;第三,針對模型復(fù)雜度與訓(xùn)練耗時的問題,研究在提升準(zhǔn)確率的同時通過調(diào)節(jié)模型結(jié)構(gòu)、向量嵌入等方式降低模型訓(xùn)練復(fù)雜度。結(jié)合以上研究內(nèi)容,將繼續(xù)開展其他類型軌跡數(shù)據(jù)集及模擬實時軌跡的實驗驗證。1.2 軌跡數(shù)據(jù)壓縮
1.3 Geohash軌跡預(yù)處理
2 模型構(gòu)建與訓(xùn)練
2.1 自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
2.2 基于遮蔽預(yù)測的軌跡預(yù)訓(xùn)練
2.3 孿生匹配網(wǎng)絡(luò)結(jié)構(gòu)
3 實驗結(jié)果
3.1 兩類特征工程方式的軌跡對匹配準(zhǔn)確率
3.2 3類神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取的軌跡對匹配準(zhǔn)確率
3.3 兩類訓(xùn)練方式和SWS算法的航跡對匹配準(zhǔn)確率
4 結(jié)束語