• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于FastText和WKNN融合模型的警情智能下發(fā)

      2020-08-07 05:50侯位昭齊幸輝宋凱磊韓志卓司佳劉勇
      現(xiàn)代電子技術(shù) 2020年13期
      關(guān)鍵詞:信息融合

      侯位昭 齊幸輝 宋凱磊 韓志卓 司佳 劉勇

      摘? 要: 警情的下發(fā)效率直接關(guān)系到公安民警的出警質(zhì)量,從而影響公安機關(guān)駕馭治安局勢的能力和水平。在以往的警情下發(fā)中,一般只考慮地址位置的經(jīng)緯度信息,這就導(dǎo)致在管轄范圍界限模糊、經(jīng)緯度定位不準(zhǔn)確時,仍需手動下發(fā)警情,容易造成人力、物力的損失以及區(qū)域安全指數(shù)的降低。為了解決這個問題,文中創(chuàng)新性地將區(qū)域劃分問題轉(zhuǎn)化為分類問題,并綜合考慮經(jīng)緯度地理編碼信息以及中文地名語義信息,提出基于FastText和WKNN的融合地址位置和文本相似性的警情自動下發(fā)方法。該方法融合了由FastText得到的地址詞向量和根據(jù)地址解析服務(wù)得到的經(jīng)緯度信息,將二者組成的地址多元要素作為加權(quán)KNN(WKNN)模型的輸入來訓(xùn)練分類器。同時,WKNN采用sigmoid函數(shù)自適應(yīng)地權(quán)衡在不同經(jīng)緯度解析精度下地址位置坐標(biāo)與詞向量相似性的權(quán)重,提高了模型的魯棒性。以某市歷史警情下發(fā)數(shù)據(jù)為依托,實驗結(jié)果顯示警情下發(fā)準(zhǔn)確率在91%以上,驗證了該模型在某市經(jīng)緯度不準(zhǔn)確、新地址冷啟動等警情下發(fā)場景中的有效性及高效性。

      關(guān)鍵詞: 警情自動下發(fā); 融合模型; 信息融合; 權(quán)重權(quán)衡; 分類器訓(xùn)練; 模型驗證

      中圖分類號: TN911.1?34; TP181; TP391? ? ? ? ? ? ? ?文獻標(biāo)識碼: A? ? ? ? ? ? ? 文章編號: 1004?373X(2020)13?0073?08

      Intelligent police alarm issuing based on FastText and WKNN fusion model

      HOU Weizhao1, QI Xinghui1, SONG Kailei1, HAN Zhizhuo1, SI Jia1, LIU Yong2

      (1. The 54th Research Institute, China Electronics Technology Group Corporation, Shijiazhuang 050081, China;

      2. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China)

      Abstract: The issuing efficiency of the police alarm is directly related to the response effect of public security police, which accordingly influence the ability and level of the public security organs to control the security situation. In the past police alarm issuing, only the latitude and longitude information of an address location has been taken into account. Therefore, it has led to manual police alarm issuing when jurisdiction boundaries are obscure, and latitude and longitude positioning is inaccurate, which is prone to cause the loss of manpower and material resources, and the reduction of regional safety index. In view of the above, the regional division pattern is innovatively transformed into the classification one. In addition, the latitude and longitude geocoding information and the semantic information of Chinese geographical names are taken into account comprehensively, and the FastText and WKNN (weighted K?nearest neighbor) based automatic police alarm issuing method is proposed, which fuses the address word vector got by FastText and the latitude and longitude information got by address resolution service. The address multivariate elements formed by the two are used as the input of weighted KNN (WKNN) model to train the classifier. At the same time, the WKNN with sigmoid function is used to adaptively weigh the weights of address location coordinates and the word vector similarity at different latitude and longitude resolution accuracy, which improves the robustness of the model. The experimental results (which take the historical data of police alarm issuing of a certain city as an example) show that the accuracy of the police alarm issuing is higher than 91%. It verifies the validity and efficiency of the model in situations of inaccurate longitude and latitude and cold start of new address.

      Keywords: automatic police alarm issuing; fusion model; signal fusion; weight balance; classifier training; model verification

      0? 引? 言

      隨著人工智能時代的到來,如何探索一種準(zhǔn)確而實用的警情自動下發(fā)機制,縮短警情出現(xiàn)到出警的時間周期,提高公安民警的出警質(zhì)量和效率[1],成為公安行業(yè)內(nèi)亟待解決的問題。

      文獻[2]設(shè)計出智能警情自動識別群發(fā)系統(tǒng),將接收到的警情信息經(jīng)過字符識別、自動尋址處理后,群發(fā)到各治安卡口、對應(yīng)案發(fā)轄區(qū)派出所和流動巡邏警力。但是在某市的警情下發(fā)過程中,缺乏“派出所管轄范圍”的基礎(chǔ)數(shù)據(jù),同時,某些地區(qū)地理信息系統(tǒng)不完善,存在地名不規(guī)范、經(jīng)緯度定位不準(zhǔn)確等問題。因此,上述算法并不適用于某市的警情下發(fā)場景。在某市的警情下發(fā)場景中,實現(xiàn)警情自動下發(fā)的前提是實現(xiàn)管轄區(qū)域范圍的自動劃分及解決中文地名相似性度量的問題。

      近年來,區(qū)域劃分問題被越來越多的學(xué)者所關(guān)注。文獻[3]提出了城市功能區(qū)劃分的聚類算法,通過該算法得到的凸包存在重合交叉的情況,仍需要在凸包功能區(qū)的基礎(chǔ)上進行人工刪除或融合功能區(qū)。文獻[4]提出了通過計算重心點距與最遠(yuǎn)點距的大小進行邊界提取,然而這種算法對于曲率變化較大的點云效果不佳。

      文獻[5]將基于邊長比約束的邊界追蹤算法應(yīng)用于離散點數(shù)據(jù)區(qū)域的邊界提取,對邊界進一步細(xì)化內(nèi)縮,獲取更準(zhǔn)確的邊界。此外,文獻[6]采用基于堆棧的回溯機制實現(xiàn)對參考點邊界的搜索。然而上述算法計算復(fù)雜度較高,不滿足海量數(shù)據(jù)的實時響應(yīng)。

      綜上,鑒于某市派出所管轄范圍邊界不規(guī)則,包含離群點等特點,本文創(chuàng)新性地將區(qū)域劃分問題轉(zhuǎn)化為分類問題,綜合考慮經(jīng)緯度地理編碼信息以及中文地名語義信息,提出基于FastText和WKNN的融合地址位置和文本相似性的警情自動下發(fā)方法。該方法融合了由FastText得到的地址詞向量和根據(jù)地址解析服務(wù)得到的經(jīng)緯度信息,將二者組成的地址多元要素作為加權(quán)KNN模型的輸入來訓(xùn)練分類器。

      當(dāng)新警情到達,首先根據(jù)警情中文地址信息調(diào)用百度地圖API獲取地址經(jīng)緯度、置信度信息,并根據(jù)置信度自適應(yīng)設(shè)置經(jīng)緯度相似性與中文地址文本語義相似性的權(quán)重;同時,借助jieba分詞將中文地址切分,并查詢基于FastText分類器訓(xùn)練出的詞向量庫,得到地址的向量化表示;然后將所得的經(jīng)緯度、置信度、中文地址詞向量輸入WKNN區(qū)域劃分算法,得到派出所ID,并最終下發(fā)給對應(yīng)派出所。

      采用凸包算法作為對比實驗,以某市歷史警情下發(fā)數(shù)據(jù)為依托,實驗結(jié)果顯示派出所的管轄范圍的凸包圖交叉重疊的現(xiàn)象嚴(yán)重,并且效果受異常離群點的影響較大,而FastText?WKNN算法繪制的區(qū)域無交叉,能夠較好地處理離群點,且對新地址具有一定的發(fā)現(xiàn)能力,警情下發(fā)準(zhǔn)確率在91%以上,能夠?qū)崿F(xiàn)警情的精準(zhǔn)自動下發(fā)。

      1? 相關(guān)工作

      1.1? 加權(quán)KNN(WKNN)相關(guān)工作

      文獻[7]針對訓(xùn)練樣本的不規(guī)則性,分析了相似度權(quán)重的KNN 算法,并將該算法應(yīng)用于網(wǎng)絡(luò)輿情的識別實驗中,實驗結(jié)果表明:KNN 算法用相似度作為權(quán)重,充分考慮了相似度屬性對分類結(jié)果的影響,能夠有效提高輿情識別質(zhì)量。文獻[8]針對KNN算法精度受[k]值選取影響較大的問題,提出了一種使用BP神經(jīng)網(wǎng)絡(luò)來優(yōu)化KNN算法的改進算法,降低[k]值選取對算法精度的影響,同時提高分類準(zhǔn)確率。另外,文獻[9]提出了利用屬性值對類別的重要性進行改進的KNN算法(FCD?KNN),定義兩個樣本間的距離為屬性值的相關(guān)距離,此距離有效度量了樣本間的相似度。

      理論分析及仿真實驗結(jié)果表明,F(xiàn)CD?KNN算法較傳統(tǒng)KNN及距離加權(quán)?KNN的分類準(zhǔn)確性要高。

      本文在上述研究的基礎(chǔ)上,采用WKNN區(qū)域劃分算法歸納歷史下發(fā)數(shù)據(jù)的隱含規(guī)律。WKNN算法適用于處理類域交叉或重疊較多的大數(shù)據(jù)分類問題[10],在邊界凹陷程度較大的區(qū)域,能更精確地描繪出原始模型的輪廓,同時,對離群點具有較強的抗干擾性[11]。

      1.2? FastText相關(guān)工作

      在文本處理領(lǐng)域,文獻[12]提出利用編輯距離度量中文地名文本相似性,同時,借助形近字庫解決錯別字問題。但是該相似性的度量未考慮語義相似性,同時依賴于分詞的準(zhǔn)確性,不適用于某市地名不規(guī)范的場景。另一種思路為借助詞袋模型或向量空間模型[13],將詞向量化,但是詞袋模型僅考慮了詞頻等統(tǒng)計信息,同樣不能考慮上下文語義,并且維度過高。

      近年來詞向量被越來越多學(xué)者關(guān)注[14?16],通過訓(xùn)練語言模型得到詞向量,使得詞向量的相似性能夠表示詞語語義的相似性,例如,Mikolov等人提出word2vec[17],它通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)語言模型,將詞轉(zhuǎn)化成詞向量,文本內(nèi)容的處理便轉(zhuǎn)化為向量空間中的向量運算。通過向量空間上的相似度表示文本語義上的相似度。

      與word2vec類似的FastText技術(shù)目前已經(jīng)有效地應(yīng)用于英文標(biāo)簽預(yù)測和情感分析中[18],F(xiàn)astText獲得的性能與基于深度學(xué)習(xí)的方法接近,而且速度更快,無論是訓(xùn)練速度還是測試速度,F(xiàn)astText模型比深度學(xué)習(xí)模型快幾百倍,將訓(xùn)練時間由數(shù)天縮短到幾分鐘[19]。另外,F(xiàn)astText與word2vec的本質(zhì)區(qū)別體現(xiàn)在h?softmax的使用上。word2vec模型最終得到詞向量是在輸入層得到,輸出層對應(yīng)的h?softmax產(chǎn)生的向量最終都被拋棄。 FastText則充分利用了h?softmax的分類功能,遍歷分類樹的所有葉節(jié)點,找到概率最大的label(一個或者[N]個)[20]。

      文獻[21]從視頻監(jiān)控防控目標(biāo)的角度出發(fā),把對視頻監(jiān)控系統(tǒng)防控目標(biāo)分類的問題轉(zhuǎn)化為短文本分類問題,并采用FastText模型實現(xiàn)了對北京市一類視頻監(jiān)控系統(tǒng)防控目標(biāo)的詳細(xì)分類。視頻監(jiān)控系統(tǒng)防控目標(biāo)的分類問題主要是通過防控目標(biāo)的名稱進行區(qū)分。實驗結(jié)果顯示分類具有較高的準(zhǔn)確性,且效率較高。在本研究中,考慮到警情自動下發(fā)情景可轉(zhuǎn)換為中文短文本分類問題,本文利用FastText文本分類算法[22]得到某市警情下發(fā)領(lǐng)域中文地址詞向量庫,利用地址詞向量庫度量中文地名語義相似性,降低經(jīng)緯度信息不準(zhǔn)確造成的負(fù)面影響,提高模型預(yù)測精度。FastText算法適用于大型數(shù)據(jù),具有高效的訓(xùn)練速度,能使訓(xùn)練模型在使用標(biāo)準(zhǔn)多核CPU的情況下10 min內(nèi)處理超過10億個詞匯[23],這滿足了警情自動下發(fā)中對高時效性的要求。

      2? 基本原理

      2.1? 基于經(jīng)緯度信息的WKNN區(qū)域劃分算法

      在傳統(tǒng)的KNN算法中,測試數(shù)據(jù)的[k]鄰居是等權(quán)的,然而在實際中,各個[k]近鄰對測試標(biāo)簽的貢獻顯然不同,而這種貢獻往往與距離有關(guān)。加權(quán)KNN算法準(zhǔn)則如下[24]:

      式中:[c]表示類別個數(shù);[j]表示樣本標(biāo)簽;[ai]為[k]鄰近樣本[(x0i,y0i)]的權(quán)重;[δ(m,n)]為指示函數(shù),當(dāng)且僅當(dāng)[m=n]時值為1,否則為0。

      令[di]表示待預(yù)測點到最鄰近的[k]個點中第[i]個樣本點的距離,則基于距離的加權(quán)KNN(WKNN)算法的權(quán)重如下所示:

      理論上地址經(jīng)緯度信息能唯一表征某地址,但通過實驗分析,單純依賴地址經(jīng)緯度信息的WKNN區(qū)域劃分算法,在某些區(qū)域預(yù)測精度極度下降,這是由于在該區(qū)域經(jīng)緯度坐標(biāo)點對應(yīng)的真實值的基準(zhǔn)參考值存在誤差,為警情精準(zhǔn)下發(fā)埋下隱患。因此,本文在地址經(jīng)緯度編碼信息的基礎(chǔ)上,引入中文文本相似性,用于挖掘警情推送中文地名特征規(guī)律。本文采用FastText文本分類模型獲取詞向量,以此度量中文地名的語義相似性。一種很自然的算法是嘗試直接利用FastText分類模型實現(xiàn)地址自動下發(fā)。

      2.2? FastText文本分類算法

      為降低經(jīng)緯度解析誤差對警情下發(fā)精度的負(fù)面影響,本文在地址經(jīng)緯度編碼信息的基礎(chǔ)上,引入中文文本語義信息。采用FastText文本分類模型獲取詞向量,用詞向量度量中文地名的語義相似性。

      針對[N]個文本分類問題,F(xiàn)astText算法以文本[n?gram]特征為額外輸入特征,用于保持詞序信息;使用softmax函數(shù)計算各類的概率分布,并最小化負(fù)對數(shù)似然函數(shù),公式如下[25]:

      式中:[xn]包含詞袋特征與[n?gram]特征;[yn]為文本類別標(biāo)簽;[A]和[B]為權(quán)重矩陣。

      用[m]表示類別個數(shù),[d]為文本表示的特征維度,傳統(tǒng)線性分類器的計算復(fù)雜度為[O(md)]。FastText使用基于Huffman樹的層級softmax,將樹的每個節(jié)點與根節(jié)點到該節(jié)點的概率關(guān)聯(lián)。若某節(jié)點位于[l+1]層,其父節(jié)點為[nl,…,n2,n1],則與之關(guān)聯(lián)的概率如下:

      同時,借助層級softmax,F(xiàn)astText將計算復(fù)雜度降為[O(dlog2m)]。

      在警情推送場景中,中文地名的“近義”特指空間位置、行政區(qū)劃級別、從屬派出所的相似度,如同一派出所管轄的地址[a1]和地址[a2]被視為相近詞,從屬于同一個鄉(xiāng)的村被視為相近詞。

      FastText分類模型的訓(xùn)練過程如圖1所示,由此可得警情自動下發(fā)領(lǐng)域的中文地址詞向量庫。但是FastText專注于文本分類,依賴于歷史下發(fā)數(shù)據(jù)的豐富度,當(dāng)新到地址與歷史庫中已下發(fā)地址描述差異較大時,下發(fā)精度將顯著降低。

      因此,本文提出基于自適應(yīng)權(quán)重的WKNN算法,綜合考慮地址坐標(biāo)相似性與中文地址語義相似性,構(gòu)建派出所管轄范圍,同時解決經(jīng)緯度不準(zhǔn)確、地址冷啟動等問題。

      2.3? 自適應(yīng)FastText?WKNN算法

      相似性的度量對WKNN分類精度至關(guān)重要。本文為減少真實數(shù)據(jù)的不可靠性對預(yù)測的影響,提出融合地址位置信息和文本信息的自適應(yīng)相似性度量準(zhǔn)則,并采用基于sigmoid函數(shù)的自適應(yīng)權(quán)值[w]:

      式中:[α]為百度地圖接口返回的參數(shù)“地址理解度”,用于度量地址編碼解析服務(wù)的準(zhǔn)確度,分值越大,地理編碼服務(wù)對地址理解程度越高。在[α≥90]時,解析誤差100 m內(nèi)概率為89%,誤差500 m內(nèi)概率為96%,當(dāng)[α>90]時,認(rèn)為百度地圖接口返回的經(jīng)緯度較為精確,此時,地理坐標(biāo)相似性占有的權(quán)重較大,[w>0.5];相反,[α≤90]時,認(rèn)為百度地圖接口返回的經(jīng)緯度存在誤差,此時,中文地名相似性占有的權(quán)重較大,此時,[w<0.5]?;谏鲜龇蔷€性權(quán)重,可得到綜合考慮地理坐標(biāo)相似性、中文地名相似性自適應(yīng)權(quán)重度量準(zhǔn)則:

      式中:[LSim]表示位置坐標(biāo)相似性,用于度量地址經(jīng)緯度編碼信息的差異;[TSim]表示文本相似性。

      基于FastText構(gòu)建的詞向量用于度量中文地址語義相似性。顯然,位置坐標(biāo)相似性的權(quán)重隨著地址經(jīng)緯度解析精度的增大而增大,進而提高模型的魯棒性。

      值得注意的是,自適應(yīng)FastText?WKNN基于自適應(yīng)相似性[AdaSim]獲得最鄰近的[k]個鄰居,并參考基于距離的WKNN對近鄰使用如下加權(quán)準(zhǔn)則:

      WKNN是一種基于懶惰學(xué)習(xí)實例的算法,沒有離線訓(xùn)練階段。本文使用[D]和[T]分別代表訓(xùn)練樣本庫和測試樣本庫的大小。完成[d0]與訓(xùn)練樣本庫中的所有樣本的相似性計算需要[O(DV)],相似性的排序需要[O(Dlog D)]。因此,總運行時間為[O(T(Dlog D+DV))]。

      3? 某市警情自動下發(fā)的FastText?WKNN模型的設(shè)計與實現(xiàn)

      3.1? 某市警情自動下發(fā)模型

      本文為減少經(jīng)緯度誤差對警情推送精度造成的負(fù)面影響,提高模型對新地址的預(yù)測能力,綜合基于文本語義相似性的FastText分類算法與WKNN區(qū)域劃分算法,從而構(gòu)建警情自動下發(fā)的自適應(yīng)混合模型。

      警情自動下發(fā)算法流程如下所示:當(dāng)新警情到達,首先根據(jù)警情中文地址信息調(diào)用百度地圖API獲取地址經(jīng)緯度、置信度信息,并根據(jù)置信度自適應(yīng)設(shè)置經(jīng)緯度相似性與中文地址文本語義相似性的權(quán)重;同時,借助jieba分詞將中文地址切分,并查詢基于FastText分類器訓(xùn)練出的詞向量庫,得到地址的向量化表示;然后將所得的經(jīng)緯度、置信度、中文地址詞向量輸入WKNN區(qū)域劃分算法,得到分類結(jié)果,在這里將派出所ID作為標(biāo)簽,最終根據(jù)分類結(jié)果下發(fā)給對應(yīng)派出所即可。

      算法1:融合地理位置和文本相似性的FastText?WKNN算法

      Input:a training set D of size m*1

      Its label set L of size m*1

      a test set to be predicted T of size n*1

      parameter: n?gram,echo,l,k

      Output: FastText_WKNN model

      Function_FastText_WKNN (L,D,T, n?gram,echo,l,k):

      Preprocessing of D,L and T;

      Empty set Lnglat,F(xiàn)asttext, W

      for address in D:

      Get_lnglat(address,ak)→(lng,lat)

      Get_comprehension(address,ak) →

      Get_jieba(address) →S={a,b,c…}

      Get_FastText(S,n?gram,echo) →Q={q,w,e…}

      Get_weight( ,sigmoid) →w

      Lnglat.append((lng,lat))

      Fasttext.append(Q)

      W.append(w)

      Get? WKNN_Model(Lnglat,F(xiàn)astText,W,L,k)

      Sent T to WKNN_Model

      for each state i ∈{1,2,…,n}

      Output the classification of T(i) →r

      Results.append(r)

      Get_ accuracy(Results) →accuracy

      If accuracy>0.9:

      //模型訓(xùn)練完成

      return FastText_WKNN_Model

      else:

      adjust n?gram,echo,l,k

      Function_FastText_WKNN (L,D,T,n?gram,echo,l,k)

      3.2? 數(shù)據(jù)預(yù)處理

      首先通過數(shù)據(jù)預(yù)處理解決原始數(shù)據(jù)中的異常點、不一致等問題。

      在選擇數(shù)據(jù)時,針對經(jīng)緯度誤差造成的異常點問題,當(dāng)“地址理解度”低于給定閾值時,說明該點為異常點,則將其刪除。

      對于歷史記錄中相同地址警情下發(fā)到不同派出所的不一致情況,本文選擇時間最新的為基準(zhǔn),即此時僅保留最新的下發(fā)結(jié)果。

      此外,構(gòu)建某市專有地名字典庫,同時,利用jieba分詞對地址數(shù)據(jù)切分,轉(zhuǎn)換為FastText所要求的數(shù)據(jù)格式。

      3.3? 模型參數(shù)選擇

      在實驗中,首先獲得中文地址名的經(jīng)緯度,同時使用FastText獲取地址名的詞向量。將經(jīng)緯度和詞向量作為WKNN模型的輸入,地址的從屬派出所ID為類別標(biāo)簽,訓(xùn)練WKNN模型。

      使用百度的地理編碼服務(wù)獲得中文地址的經(jīng)緯度,地址結(jié)構(gòu)越完整,地址內(nèi)容越準(zhǔn)確,解析的坐標(biāo)精度越高。該服務(wù)返回結(jié)果參數(shù)如表1所示。

      在這里使用comprehension字段作為地址解析結(jié)果準(zhǔn)確與否的判斷標(biāo)準(zhǔn)。當(dāng)解析誤差較大時,經(jīng)緯度這一特征的有效性降低,甚至可能會帶來噪音。因此,當(dāng)comprehension字段的值較低時,降低經(jīng)緯度這一特征的權(quán)重,同時提高詞向量特征的權(quán)重。在實驗中根據(jù)式(6)自適應(yīng)設(shè)置權(quán)值。

      在FastText算法訓(xùn)練得到的中文地址詞向量庫中查詢得到的詞向量作為后續(xù)WKNN模型輸入的一部分。在FastText分類器訓(xùn)練中,學(xué)習(xí)率[lr]、傳遞完整數(shù)據(jù)集的次數(shù)[echo]和詞序列窗口大小[n?gram]等參數(shù)對模型性能有很大影響。雖然[n?gram]值越大,模型越能表示詞順序信息,但是同時會降低模型訓(xùn)練效率。本文權(quán)衡耗時與精度,選擇合適的[n?gram]值,同時,采用5折交叉驗證算法選取合適[lr]與[echo]值。

      使用經(jīng)緯度及詞向量多元特征來訓(xùn)練WKNN模型,在模型訓(xùn)練過程中,[k]值的選取十分重要。若[k]值較大,可以減少學(xué)習(xí)的估計誤差,但是學(xué)習(xí)的近似誤差會增大,致使與輸入實例較遠(yuǎn)的訓(xùn)練實例也會對預(yù)測產(chǎn)生影響,使預(yù)測產(chǎn)生錯誤,并且[k]值增大模型的復(fù)雜度會下降。此外,[k]越小,分類邊界越是非線性,越是靈活,但也越容易過擬合,同時,學(xué)習(xí)的估計誤差會增大,預(yù)測結(jié)果對近鄰的實例點較敏感。本文采用5折交叉驗證算法選取合適的[k]值。

      另外,在WKNN模型中,如果一個樣本最接近的[k]個鄰居里,絕大多數(shù)屬于某個類別,則該樣本也屬于這個類別。指定投票權(quán)重類型為“distance”,即本節(jié)點所有鄰居節(jié)點的投票權(quán)重與距離成反比,越近的距離權(quán)重越高,在一定程度上避免了樣本分布不平均的問題,減少了噪音污染的影響。

      4? 實驗結(jié)果

      本節(jié)以某市警情自動下發(fā)為例,通過與基于凸包算法模型、基于文本語義相似性的FastText模型和依賴經(jīng)緯度的WKNN模型進行推送精度與效率對比,驗證了本文提出的FastText?WKNN模型具有較高的有效性和高效性。

      4.1? 實驗數(shù)據(jù)及實驗環(huán)境

      本文選取某市9萬條警情下發(fā)歷史數(shù)據(jù),原始數(shù)據(jù)屬性包括警情ID、警情地址及下發(fā)派出所編號ID。

      實驗環(huán)境及功能說明如表2所示。

      4.2? 實驗結(jié)果

      在實驗中,通過調(diào)用百度地圖API獲取歷史警情地址的經(jīng)緯度信息,分別采用凸包及WKNN算法構(gòu)建各個派出所的管轄范圍。

      首先,通過Graham掃描法構(gòu)建凸包,所建立的社區(qū)邊界示意圖如圖2所示,橫坐標(biāo)為緯度,縱坐標(biāo)為經(jīng)度。

      從圖2中可以看出,派出所的管轄范圍的凸包圖交叉重疊的現(xiàn)象嚴(yán)重,并且效果受異常離群點的影響較大。

      此外,調(diào)用Python scikit?learn機器學(xué)習(xí)庫中的KNN算法實現(xiàn)基于WKNN的區(qū)域劃分。在實驗中,采用交叉驗證算法選出誤差率最小的模型,其對應(yīng)的[k]值為3。

      基于WKNN的區(qū)域劃分效果示意圖如圖3所示,橫坐標(biāo)為標(biāo)準(zhǔn)化的警情地址緯度值,縱坐標(biāo)為標(biāo)準(zhǔn)化的警情地址經(jīng)度值。

      圖3表示歷史警情所下發(fā)的不同派出所編號,不同顏色區(qū)域表示不同派出所的管轄范圍。可以看出,WKNN算法繪制的區(qū)域無交叉,能夠較好地處理離群點。

      模型依賴的經(jīng)緯度和地址解析的精確性決定了模型的性能,因此為了提高模型的性能,本文引入基于文本相似性的FastText模型,在實驗中發(fā)現(xiàn)[n?gram]值取1時達到最佳性能。但文本相似性的計算過于依賴歷史數(shù)據(jù)庫,當(dāng)一條地址為全新的地址時,F(xiàn)astText模型的效果較差。

      為克服以上算法的局限性,提出融合地理位置和文本相似性的FastText?WKNN模型,并使用交叉驗證算法對比實驗來驗證模型效果。

      本節(jié)將某市的數(shù)據(jù)按照不同縣劃分為8個數(shù)據(jù)集,分別為A,B,C,D,E,F(xiàn),G和H,其中E,F(xiàn),G和H為熱點區(qū)域,各個區(qū)域的總數(shù)據(jù)如表3所示。

      對每個數(shù)據(jù)集按照9∶1隨機劃分為訓(xùn)練集與測試集,各區(qū)域警情推送精度及時間如表4所示。

      不同區(qū)域地址理解程度如表5所示。地址理解程度與WKNN模型準(zhǔn)確率的關(guān)系如圖4所示。

      由圖4可知:二者在熱點區(qū)域E,F(xiàn),G,H 4個區(qū)域的經(jīng)緯度解析準(zhǔn)確率都較高,且兩者精度相近;在非熱點區(qū)域A,B,C,D 4個區(qū)域FastText?WKNN模型的精度明顯高于依賴于經(jīng)緯度的WKNN模型。這是由于在熱點區(qū)域通過百度地圖API獲得的經(jīng)緯度較為準(zhǔn)確,而在非熱點區(qū)域經(jīng)緯度定位存在較大的誤差,從而導(dǎo)致下發(fā)準(zhǔn)確率低。此外,F(xiàn)astText分類器的計算效率高于WKNN模型,這是由于對于多分類標(biāo)簽(如派出所組織ID)眾多的場景,F(xiàn)astText利用層級softmaxt,顯著降低計算復(fù)雜度,表明FastText對中文文本分類具有較好的適用性。

      同時,為了比較模型對于新地址的預(yù)測能力。以E區(qū)域為例,調(diào)整測試集與訓(xùn)練集的比例進行測試,其中測試數(shù)據(jù)占比越大,說明新地址越多,實驗結(jié)果如圖5所示。

      由圖5可以看出,隨著測試數(shù)據(jù)占比的增大,基于文本語義相似性的FastText分類預(yù)測精度顯著降低,而WKNN區(qū)域劃分算法預(yù)測精度僅略微下降。這是由于FastText分類模型依賴于歷史下發(fā)數(shù)據(jù)的豐富度,當(dāng)新到地址與歷史庫中下發(fā)過的地址描述差異較大時,下發(fā)精度將明顯降低。而所提FastText?WKNN模型克服了這一弊端,對歷史數(shù)據(jù)庫的依賴度大幅度降低,不論是在熱點區(qū)域還是非熱點區(qū)域,下發(fā)準(zhǔn)確率都能達到90%以上。在訓(xùn)練集占比0.2和測試集占比0.8的情況下,對新地址依然保持較高的發(fā)現(xiàn)能力。實驗結(jié)果證明,在警情下發(fā)業(yè)務(wù)情境下,本文提出的FastText?WKNN模型能獲得較好的實驗結(jié)果。

      綜上所述,單獨一種基于文本語義相似性的FastText分類模型或WKNN區(qū)域劃分模型都不能同時適用于非熱點區(qū)域經(jīng)緯度不準(zhǔn)確、新地址冷啟動等警情下發(fā)場景。針對上述不足,本文提出基于地址多元要素的FastText?WKNN模型,該模型集成WKNN模型對新地址的預(yù)測能力,同時,引入FastText的分詞能力,將地址詞向量作為地址多元要素的一部分輸入到模型中,通過這種方式減小在非熱點區(qū)域經(jīng)緯度誤差造成的負(fù)面影響,從而能夠?qū)崿F(xiàn)警情的精準(zhǔn)自動下發(fā)。

      5? 結(jié)? 語

      本文提出基于FastText和WKNN的融合地理位置和文本相似性的警情自動下發(fā)模型,采用sigmoid函數(shù)權(quán)衡地址位置坐標(biāo)及中文地址文本語義相似性的權(quán)重,提高模型的魯棒性,并通過實驗驗證該混合模型在某市經(jīng)緯度不準(zhǔn)確、新地址冷啟動等警情下發(fā)場景具有有效性及高效性。

      未來將綜合警員經(jīng)驗、警情類別、交通狀況等多種因素,實現(xiàn)融合泛在態(tài)勢的警情精準(zhǔn)推送,實現(xiàn)在節(jié)省手工下發(fā)人力的同時,合理分配任務(wù),提高警員任務(wù)完成率。

      注:本文通訊作者為宋凱磊。

      參考文獻

      [1] 吳泉源,張寧玉.4S技術(shù)與公安預(yù)警信息系統(tǒng)[J].遙感技術(shù)與應(yīng)用,2000,15(4):232?236.

      [2] 王銳,陳里,彭功民,等.智能警情自動識別群發(fā)系統(tǒng):CN103456147A[P].2013?12?18.

      [3] 竇智.城市功能區(qū)劃分空間聚類算法研究[D].成都:四川師范大學(xué),2010.

      [4] 劉立強.散亂點云數(shù)據(jù)處理相關(guān)算法的研究[D].西安:西北大學(xué),2010.

      [5] 黃先鋒,程曉光,張帆,等.基于邊長比約束的離散點準(zhǔn)確邊界追蹤算法[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2009,34(6):688?691.

      [6] 吳懷軍,孫家廣.基于回溯的參考點邊界搜索算法[J].計算機研究與發(fā)展,1998,35(6):562?566.

      [7] 鄭偉,王若怡,馬林,等.KNN算法在輿情領(lǐng)域中的應(yīng)用研究[J].中國管理信息化,2019,22(6):157?158.

      [8] 路敦利,寧芊,臧軍.基于BP神經(jīng)網(wǎng)絡(luò)決策的KNN改進算法[J].計算機應(yīng)用,2017,37(z2):65?67.

      [9] 肖輝輝,段艷明.基于屬性值相關(guān)距離的KNN算法的改進研究[J].計算機科學(xué),2013,40(11A):157?159.

      [10] 耿麗娟,李星毅.用于大數(shù)據(jù)分類的KNN算法研究[J].計算機應(yīng)用研究,2014,31(5):1342?1344.

      [11] GOLENBIEWSKI J, TEWOLDE G. Implementation of an indoor positioning system using the WKNN algorithm [C]// 2019 IEEE 9th Annual Computing and Communication Workshop and Conference (CCWC). Las Vegas, NV, USA: IEEE, 2019: 397?400.

      [12] 向雯婷,郭旦懷.基于地名相似度算法與空間場景相似性評價的地址規(guī)范化研究[J].科研信息化技術(shù)與應(yīng)用,2013,4(1):67?73.

      [13] 李靜,林鴻飛,李瑞敏.基于情感向量空間模型的歌曲情感標(biāo)簽預(yù)測模型[J].中文信息學(xué)報,2012,26(6):45?50.

      [14] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model [EB/OL]. [2015?11?28]. http://www.doc88.com/p?9925363440847.html.

      [15] COLLOBERT R, WESTON J. A unified architecture for natural language processing: deep neural networks with multitask learning [C]// Proceedings of the 25th International Con?ference on Machine Learning. [S.l.]: ACM, 2008: 160?167.

      [16] MNIH A, HINTON G. A scalable hierarchical distributed language model [EB/OL]. [2016?01?25]. http://www.doc88.com/p?7038917089758.html.

      [17] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2015?11?09]. https://wenku.baidu.com/view/36ffa6ac76c66137ee? 0619aa.html.

      [18] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification [C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain: Association for Computational Linguistics, 2017: 427?431.

      [19] ALESSA A, FAEZIPOUR M, ALHASSAN Z. Text classification of flu?related tweets using FastText with sentiment and keyword features [C]// 2018 IEEE International Conference on Healthcare Informatics (ICHI). New York, NY: IEEE, 2018: 366?367.

      [20] LJUBE?I? N. Comparing CRF and LSTM performance on the task of morphosyntactic tagging of non?standard varieties of South Slavic languages [C]// Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects. New Mexico, USA: Association for Computational Linguistics, 2018: 156?163.

      [21] 王藝杰.基于Fasttext的防控目標(biāo)分類實現(xiàn)[J].中國公共安全(學(xué)術(shù)版),2018(1):29?32.

      [22] BOJANOWSKI P, GRAVE E, JOULIN A, et al. Enriching word vectors with subword information [J]. Transactions of the association for computational linguistics, 2017, 5: 135?146.

      [23] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification [C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain: IEEE, 2017: 427?431.

      [24] BENSAFI N, LAZRI M, AMEUR S. Novel WkNN?based technique to improve instantaneous rainfall estimation over the north of Algeria using the multispectral MSG SEVIRI imagery [J]. Journal of Atmospheric and Solar?Terrestrial Physics, 2019, 183: 110?119.

      [25] BALODIS K, DEKSNE D. FastText?based intent detection for inflected languages [J]. Information (Switzerland), 2019, 10(5): 161.

      猜你喜歡
      信息融合
      信息融合方法在水力發(fā)電廠狀態(tài)檢修中的應(yīng)用
      基于智能粒子濾波的多傳感器信息融合算法
      大數(shù)據(jù)背景下的信號處理分析
      大數(shù)據(jù)環(huán)境下基于多維信息融合的高校教學(xué)評價
      一種無人飛艇高度傳感器信息融合方法
      基于區(qū)域信息融合的風(fēng)電場平均年發(fā)電量預(yù)測
      基于極限學(xué)習(xí)機的老人防摔倒系統(tǒng)設(shè)計
      并發(fā)故障信息DSmT融合算法的應(yīng)用研究
      海南省| 武功县| 吉隆县| 合作市| 建德市| 家居| 广昌县| 共和县| 光泽县| 梁河县| 阳信县| 台东市| 连云港市| 措美县| 丹东市| 衡东县| 宜川县| 黄浦区| 屯昌县| 成安县| 济阳县| 个旧市| 拜城县| 泽州县| 延吉市| 阳谷县| 安化县| 凤冈县| 西畴县| 长沙市| 瑞安市| 兰西县| 淮南市| 兰溪市| 虹口区| 东丰县| 太原市| 沿河| 水城县| 河南省| 临城县|