• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Graph Embedding的話單分析?

      2020-05-15 05:19:42韓文輕彭艷兵
      計算機與數(shù)字工程 2020年2期
      關鍵詞:話單通話記錄廣度

      韓文輕 彭艷兵

      (1.南京烽火天地通信科技有限公司 南京 210019)(2.武漢郵電科學研究院 武漢 430074)

      1 引言

      由于話單分析在犯罪偵查中的作用越來越大,關于話單分析的方法也層出不窮。話單數(shù)據(jù)中包含著很多隱藏的信息,合理利用話單數(shù)據(jù)進行分析,可以輔助犯罪偵查工作,大大提高偵查效率。

      目前關于話單分析的研究,大多基于社交網(wǎng)絡進行分析。如根據(jù)通聯(lián)次數(shù)和通聯(lián)時間分析通連方與嫌疑人是何種關系[1~2]。一般同事主要在工作時間聯(lián)系,工作之外基本不聯(lián)系;朋友在吃飯時間聯(lián)系的較多;情人在私密的時間聯(lián)系的次數(shù)較多,時長較長;行賄的一般在節(jié)假日前后聯(lián)系較多[3~4]。通過話單中的基站區(qū)碼標識和小區(qū)標識判斷嫌疑人通話時所在位置,分析嫌疑人的活動軌跡[5~6]。還可以判斷嫌疑人的作案地與居住地,根據(jù)嫌疑人的通話時間與基站位置,判斷嫌疑人的居住地與作案地[7~9]。通過分析嫌疑人親密聯(lián)系的人找出逃逸嫌疑人更換的手機號碼[10~12]。這個可以根據(jù)該嫌疑人換手機號之前的話單分析,找出聯(lián)系密切的幾個人,分析這幾個人在嫌疑人換號碼前后新增的號碼,從中找出共同聯(lián)系人,從而發(fā)現(xiàn)嫌疑人使用的新號碼[13~15]等。

      根據(jù)社交網(wǎng)絡關系分析的方法,雖然簡潔便利,但是不能用機器學習算法進行話單分析。機器學習是現(xiàn)在的熱門算法之一,如果能將機器學習算法用于話單分析,通過提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,應用模型進行預測與分析,那么以后再遇到類似的問題,就可以直接將數(shù)據(jù)用模型分析。

      2 特征設計

      提取數(shù)據(jù)特征,是進行機器學習算法的第一步。本文提取話單數(shù)據(jù)中的用戶號碼、對方號碼、通話時長、主被叫標志,然后進行特征設計。

      在進行特征設計之前,先定義一些基本概念。

      令Ω表示已知重點對象集合。

      ck=s,t為一條由 s主叫 t的通聯(lián)關系。為總體樣本通聯(lián)關系集合,其中n為通話記錄總數(shù)。

      I(x)為對象x的重要性指標,這個指標是根據(jù)已知對象的涉案程度來定義的,不同案件定義不同。s為主叫方,t為被叫方,那么I(s)和I(t)分別為主叫方s和被叫方t的重要性指標。

      1A(x)為指示函數(shù)。

      T(ck)為通話記錄ck的通話時長。

      定義了這些基本概念,接下來定義六個影響對象重要性的指標。

      2.1 撥出重要性

      Outs,<s,ti>表示在通話記錄 < s,ti> 中 s的撥出重要性。也就是說,若s與ti存在通聯(lián)關系,且ti在已知重點集合內(nèi),那么s的撥出重要性就是通聯(lián)雙方s和ti的重要性指標的均值。在整個通話網(wǎng)絡C中,s的撥出重要性累計為

      2.2 接聽重要性

      In<si,t>,t表示在通話記錄 < si,t> 中 t的接聽重要性。也就是說,若si與t存在通聯(lián)關系,且si在已知重點集合內(nèi),那么t的接聽重要性就是通聯(lián)雙方si和t的重要性指標的均值。在整個通話網(wǎng)絡?中,t的接聽重要性累計為

      2.3 撥出時長重要性

      Du_outs,<s,ti>表示在通話記錄 <s,ti> 中 s的撥出時長重要性。這里定義s的撥出時長重要性為s的撥出重要性與通話時長T(ck)的乘積以10為基的對數(shù)。后續(xù)會解釋這么做的原因。那么在整個通話網(wǎng)絡?中,s的撥出時長重要性累計為

      2.4 接聽時長重要性

      Du_in<si,t>,t表示在通話記錄 < si,t> 中 t的接聽時長重要性。這里定義t的接聽時長重要性為t的接聽重要性與通話時長T(ck)的乘積以10為基的對數(shù)。那么在整個通話網(wǎng)絡?中,t的接聽時長重要性累計為i

      2.5 撥出廣度

      Ex_outs表示在通話記錄<s,ti>中 s的撥出廣度。這里s的撥出廣度為ti在已知重點集合內(nèi)的個數(shù)。

      2.6 接聽廣度

      Ex_int表示在通話記錄 <si,t> 中 t的接聽廣度。這里t的接聽廣度為si在已知重點集合內(nèi)的個數(shù)。

      3 推薦模型

      提取數(shù)據(jù)特征之后,要抽象出數(shù)據(jù)的模型。在建模之前,要先分析上述六個影響對象重要性指標的影響程度。

      結合以往的案例分析,發(fā)現(xiàn)通聯(lián)廣度(即撥出廣度與接聽廣度)對對象的影響力最大,通話(即撥出電話與接聽電話)影響力次之,通話時長(即撥出時長與接聽時長)對對象的影響力最小。

      但是,從數(shù)據(jù)來看,對于對象影響力最小的通話時長的數(shù)值往往是最大的,我們把這種現(xiàn)象定義為外部極化現(xiàn)象。同時,通話時長的方差也是數(shù)據(jù)中最大的,我們把這種現(xiàn)象定義為內(nèi)部極化現(xiàn)象。

      在統(tǒng)計分析中,極化問題越嚴重,代表對于維度對數(shù)據(jù)集內(nèi)部結構的解釋就越大。這里用到的原理是主成分分析原理。

      在數(shù)據(jù)挖掘中,極化問題往往導致模型偏向解釋極化問題最嚴重的維度,從而弱化其他維度的影響力。

      而在話單分析的問題中,我們希望提高通聯(lián)廣度和通話這兩個影響因素對數(shù)據(jù)集的解釋作用,降低通話時長的解釋力。

      為了解決上述問題,我們必須對數(shù)據(jù)進行無量綱和平滑處理。

      而對于外部極化現(xiàn)象,我們采用離差標準化進行無量綱處理。

      離差標準化函數(shù)為

      在話單分析問題中,我們選擇只對通聯(lián)廣度和通話影響力進行無量綱處理,也就是說不對通話時長的外部極化問題進行處理。

      最后我們將對象的影響力(嫌疑度)定義為

      也就是說,IC越大,其影響力(嫌疑度)越大。在實際應用中,對IC進行排序,選出IC較大的作為推薦對象。

      4 實驗與結果

      4.1 實驗數(shù)據(jù)源

      數(shù)據(jù)源來自某案例的話單數(shù)據(jù)。話單數(shù)據(jù)中包含的信息非常多,但是根據(jù)我們的推薦模型,只需其中的部分數(shù)據(jù)。對原始數(shù)據(jù)進行預處理,提取我們所需的數(shù)據(jù)部分,處理后的結果部分如表1所示(部分數(shù)據(jù)做了匿名化處理)。

      表1 處理后的數(shù)據(jù)

      4.2 實驗過程

      根據(jù)第2節(jié)所給出的向量表示,我們先對數(shù)據(jù)質(zhì)量、結構和分布進行探索。

      由于特征向量包含六個影響力指標,屬于多維問題。首先利用t-sne(t student stochastic neibor?hood estimation)對數(shù)據(jù)進行降維,然后在二維空間進行可視化,對數(shù)據(jù)處理后的結果如圖1所示。

      圖1 降維后的結果圖

      可以發(fā)現(xiàn)上述數(shù)據(jù)集是一個可分集合,并且已知重點人具有明顯的聚集情況。其中有一些較為離散的點是因為嫌疑人經(jīng)常換手機,該手機號的話單數(shù)量較少,最終導致離群的現(xiàn)象。

      接下來,采用k-Means聚類算法(center=5)對上述數(shù)據(jù)進行聚類,然后進行降維來實現(xiàn)可視化,得到的結果如圖2所示。

      圖2 降維可視化效果圖

      由圖可以看出聚類得到的類別劃分較為顯著,重點人都在同一簇內(nèi)。這一現(xiàn)象再次說明我們的特征模型是合理的。

      4.3 實驗結果

      對數(shù)據(jù)進行處理后,使用推薦模型進行計算IC,對IC進行排序,選出IC較大的作為推薦對象,處理得到的結果如圖3所示。

      圖3 推薦結果圖

      圖中xx標注的點即為模型推薦的排名前50的對象??梢钥闯鏊鼈兙奂F(xiàn)象明顯。

      推薦的結果中,已知重點對象基本都在名單里面。而通過后期調(diào)查,發(fā)現(xiàn)未知人員大部分都是涉案人員。這個結果說明我們的推薦模型是可靠的。

      推薦結果部分如表2所示(部分數(shù)據(jù)做了匿名化處理)。

      表2 推薦結果

      5 結語

      本文用圖嵌入的方法研究話單,圖嵌入把圖中的節(jié)點進行嵌入變成可計算的點,也就是把節(jié)點向量化。相較于以往的基于社交網(wǎng)絡的方法,圖嵌入的方法可以對向量化的數(shù)據(jù)進行建模分析。相對于以往的點和線的關系,圖嵌入的方法更加具體化,更能表達點與線的關系。

      通過將通話網(wǎng)絡中的點和關系向量化,從而讓將機器學習算法用于話單分析成為了可能。

      猜你喜歡
      話單通話記錄廣度
      河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實驗語音學初探
      追求思考的深度與廣度
      采用大數(shù)據(jù)技術的移動DPI關聯(lián)算法探索及實現(xiàn)
      電信科學(2017年12期)2018-01-08 05:35:46
      解釋
      不用解釋
      借助“微信電話本”實現(xiàn)無痕通話
      電腦迷(2015年12期)2015-04-29 23:22:51
      網(wǎng)絡在拓展學生閱讀廣度中的運用
      金融廣度:指標選擇與政策建議
      GSM-R移動交換機ASN.1話單的解碼
      GPRS按時長計費模塊的優(yōu)化與應用
      紫云| 明溪县| 如皋市| 桐柏县| 韶山市| 七台河市| 恩施市| 抚松县| 介休市| 大方县| 双流县| 碌曲县| 新建县| 微山县| 通山县| 营山县| 云林县| 克东县| 海淀区| 六盘水市| 曲阜市| 海盐县| 鸡西市| 广汉市| 杨浦区| 株洲市| 岢岚县| 峨眉山市| 安达市| 金阳县| 左权县| 苍溪县| 黄大仙区| 杭州市| 阿城市| 兰考县| 江门市| 河北区| 连南| 铜川市| 保山市|