• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聯(lián)合特征和XGBoost的活動(dòng)語(yǔ)義識(shí)別方法

      2020-11-30 05:47:24郭茂祖趙玲玲
      計(jì)算機(jī)應(yīng)用 2020年11期
      關(guān)鍵詞:語(yǔ)義聚類特征

      郭茂祖,張 彬,趙玲玲,張 昱,4

      (1.北京建筑大學(xué)電氣與信息工程學(xué)院,北京 100044;2.建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室(北京建筑大學(xué)),北京 100044;3.哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001;4.深部巖土力學(xué)與地下工程國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)礦業(yè)大學(xué)),北京 100083)

      (?通信作者zhaoll@hit.edu.cn)

      0 引言

      移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展促進(jìn)了基于位置的社交網(wǎng)絡(luò)的形成[1]。社交網(wǎng)絡(luò)融合了社交關(guān)系和位置信息,用戶能隨時(shí)隨地分享包括位置信息、活動(dòng)信息、個(gè)體情感信息、空間環(huán)境信息等動(dòng)態(tài)內(nèi)容,這些由活動(dòng)所產(chǎn)生的移動(dòng)性時(shí)空數(shù)據(jù)對(duì)基于位置的服務(wù)研究提供了數(shù)據(jù)基礎(chǔ),可用于挖掘用戶的移動(dòng)特征、活動(dòng)偏好和生活模式。

      對(duì)人類移動(dòng)性時(shí)空數(shù)據(jù)的建模可以從時(shí)間和空間兩個(gè)維度進(jìn)行考慮。在時(shí)間維度上,人類的活動(dòng)表現(xiàn)出一定的序列性[2-3]和周期性[4],而在空間維度上人類的活動(dòng)則表現(xiàn)出一定的區(qū)域聚集性[5-6]。在建模個(gè)體移動(dòng)的序列相關(guān)性中基于馬爾可夫鏈的研究取得很好的成果,Cheng等[7]在原始馬爾可夫鏈的基礎(chǔ)上進(jìn)行改進(jìn)引入了一種因式分解個(gè)性化馬爾可夫鏈;Zhang 等[8]則提出了位置轉(zhuǎn)移概率圖;Cho 等[1]建立了一個(gè)基于社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的人的移動(dòng)模型,用于解釋人類移動(dòng)的周期性行為;Wang 等[4]建模了一種高斯混合模型將人類移動(dòng)的規(guī)律性和一致性進(jìn)行整合。上述研究都是對(duì)時(shí)間維度上的序列特征以及周期特征進(jìn)行探討,缺乏對(duì)空間信息的挖掘。而人類在活動(dòng)選擇上偏好于訪問人數(shù)多的地方以及熟悉的地方,各種活動(dòng)地點(diǎn)也有不同的屬性。顯然,這些特性的表達(dá)將對(duì)活動(dòng)語(yǔ)義的識(shí)別提供更豐富的信息支持,但目前仍然缺少針對(duì)這些屬性的研究。

      針對(duì)上述問題,本文提出了一種結(jié)合時(shí)間特征和空間特征的人類活動(dòng)語(yǔ)義識(shí)別方法??臻g特征中的空間熱點(diǎn)區(qū)域特征用于表示人類的熱點(diǎn)訪問區(qū)域,經(jīng)緯度特征表示訪問位置,時(shí)間特征則是基礎(chǔ)特征,記錄人類活動(dòng)的時(shí)間信息。本文通過具有噪聲的基于密度的聚類(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)得到空間熱度特征;時(shí)間特征表達(dá)人的周期和序列活動(dòng)模式。相比較于K均值聚類算法(K-means clustering algorithm,K-means),DBSCAN 不需要指定簇類的數(shù)量,能夠發(fā)現(xiàn)任意形狀的簇,對(duì)噪聲點(diǎn)也可以很好地識(shí)別??臻g中的熱點(diǎn)區(qū)域的數(shù)量不定,分布不均勻,受地理與地形的影響。因此采用K-means 聚類算法不能有效挖掘出空間熱點(diǎn)區(qū)域。最后,利用極限梯度提升(eXtreme Gradient Boosting,XGBoost)算法來進(jìn)行編碼,建立結(jié)合空間經(jīng)緯度特征、區(qū)域熱度特征、時(shí)間周期特征的人類活動(dòng)語(yǔ)義識(shí)別模型。XGBoost 是一種基于梯度提升理論的集成學(xué)習(xí)算法,有著良好的拓展性和高效性。與隨機(jī)森林、AdaBoost 集成學(xué)習(xí)算法相比,XGBoost 算法針對(duì)損失函數(shù)、正則化和并行運(yùn)算等方面做了改進(jìn),同樣支持列抽樣,當(dāng)訓(xùn)練數(shù)據(jù)為稀疏值時(shí)還可以為缺失值或指定值設(shè)置分支的默認(rèn)分裂方向,因此本文選擇XGBoost 對(duì)活動(dòng)語(yǔ)義進(jìn)行分類,提高算法的效率和識(shí)別精度。

      1 相關(guān)研究

      時(shí)空特征的周期性是人類活動(dòng)建模中顯著的特征,工作、休息、飲食等活動(dòng)具有很強(qiáng)的周期性。在許多對(duì)人類移動(dòng)性建模的模型里都使用到了時(shí)空特征的周期性,如:Zarezade等[9]針對(duì)社交網(wǎng)絡(luò)中用戶的簽到行為的周期性以及其社交關(guān)系提出了一個(gè)基于周期衰減核的雙隨機(jī)點(diǎn)過程的概率模型;Li等[10]則提出了一種時(shí)空數(shù)據(jù)周期性檢驗(yàn)和度量方法以挖掘活動(dòng)行為的周期性;Rizwan 等[11-12]使用核密度估計(jì)的方法來觀察用戶的活動(dòng)時(shí)空趨勢(shì),并對(duì)空間進(jìn)行回歸分析,發(fā)現(xiàn)相對(duì)于男性,女性更傾向使用社交媒體數(shù)據(jù),而且在工作日與周末的活動(dòng)上二者也表現(xiàn)出差異性。

      序列特征是隱藏在人類行為當(dāng)中的特征,人類的行為活動(dòng)往往具有先后順序,而序列模式就是指這種從語(yǔ)義時(shí)空軌跡中挖掘出來的有規(guī)律的序列。Ying等[13]將活動(dòng)內(nèi)容標(biāo)簽進(jìn)行了連接,把各個(gè)活動(dòng)語(yǔ)義串聯(lián)起來(家-工作-吃飯),然后使用頻繁模式語(yǔ)義挖掘來得到序列特征;Chen 等[14]將序列符號(hào)化之后,采用了一種基于序列的模式挖掘算法:STS-TPs(standing for Spatial-Temporal Semantic Trajectory Patterns)。

      對(duì)于時(shí)空數(shù)據(jù)建模的無(wú)監(jiān)督方法主要是通過聚類的方法。例如對(duì)軌跡點(diǎn)進(jìn)行聚類,各個(gè)聚類簇中的軌跡可看作具有相同的行為或進(jìn)行著相同的活動(dòng)。聚類的方法主要有兩種:基于距離的聚類和基于密度的聚類。為了得到用戶的行為規(guī)律,基于距離的聚類方法往往需要首先衡量軌跡的相似性,包 括CPD(Closet-Pair Distance)、SPD(Sum-of-Pairs Distanc)、DTW(Dynamic Time Warping)、LCSS(Longest Common SubSequence)、EDR(Edit Distance on Real sequence)等,其中LCSS 和EDR 對(duì)噪聲具有更好的魯棒性,而CPD 和SPD 計(jì)算開銷比較小。Redondo 等[15]將熵分析與聚類技術(shù)結(jié)合起來證實(shí)社交媒體活動(dòng)中的意外行為是該城市活動(dòng)意外變化所導(dǎo)致;Cao 等[16]提出了一種社交學(xué)習(xí)模型,根據(jù)用戶偏好和社會(huì)關(guān)系來評(píng)估興趣點(diǎn),之后還將用戶地理信息整合到模型框架中,使用聚類的方法形成個(gè)性化的興趣點(diǎn)(Point of Interest,POI)推薦列表;Zhong 等[17]提出了一種多中心聚類算法來捕獲用戶的移動(dòng)模式并開發(fā)一種用戶相似性度量的方法;Sakkari 等[18]通過使用無(wú)監(jiān)督競(jìng)爭(zhēng)學(xué)習(xí)算法自組織圖和基于密度的聚類方法來識(shí)別和檢測(cè)人群,然后建立熵模型用于檢測(cè)城市中的異常事件;Coelho Da 等[19]提出了一種在線軌跡挖掘的框架,用于得到用戶的行為規(guī)律,其中采用了基于距離聚類的方式對(duì)軌跡段進(jìn)行聚類。

      在預(yù)測(cè)算法方面,近年來機(jī)器學(xué)習(xí)發(fā)展迅速,作為統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的交叉領(lǐng)域、人工智能以及數(shù)據(jù)科學(xué)的核心方法,廣泛地應(yīng)用于許多領(lǐng)域,解決了各種各樣的問題,在軌跡模式識(shí)別、活動(dòng)預(yù)測(cè)等相關(guān)領(lǐng)域中也有著很好的效果。Liao等[20]采用了兩個(gè)基學(xué)習(xí)器和一個(gè)元學(xué)習(xí)器將時(shí)間特征和序列特征整合起來用于預(yù)測(cè)用戶的活動(dòng)目的和活動(dòng)位置;Lv 等[21]通過將原始的全球定位系統(tǒng)(Global Positioning System,GPS)軌跡分割從中提取出活動(dòng)點(diǎn),進(jìn)而得出活動(dòng)場(chǎng)所,并結(jié)合時(shí)間特征、空間特征和序列特征提出了一種增強(qiáng)型位置分類器用于活動(dòng)預(yù)測(cè);鄧堯等[22]則使用用戶簽到內(nèi)容的短文本來進(jìn)行地理定位,從短文本中提取實(shí)體,之后建立實(shí)體與位置間的概率模型,然后對(duì)候選區(qū)域進(jìn)行排序選擇排名最高的位置作為結(jié)果;Fu 等[23]應(yīng)用自然語(yǔ)言處理的方法從用戶發(fā)布Twitter 帖子中的文本內(nèi)容挖掘用戶的活動(dòng)類型,并根據(jù)時(shí)間和空間分布來評(píng)估得到的活動(dòng)類型。

      2 聯(lián)合特征和XGBoost理論

      針對(duì)基于社交網(wǎng)絡(luò)簽到數(shù)據(jù)的人類活動(dòng)語(yǔ)義識(shí)別問題,本文提出了基于聯(lián)合特征和XGBoost 的活動(dòng)語(yǔ)義識(shí)別方法,該方法包括兩個(gè)主要模塊:聯(lián)合特征提取模塊和XGBoost 分類模型構(gòu)建模塊。聯(lián)合特征指用戶在進(jìn)行某活動(dòng)時(shí)的空間特征和時(shí)間特征,空間特征指經(jīng)緯度特征、區(qū)域熱度特征,其中區(qū)域熱度特征使用DBSCAN 提取出用戶活動(dòng)的聚集區(qū)域(不同的簇),然后計(jì)算各個(gè)簇中包含元素的數(shù)量,將空間中的區(qū)域的熱度量化作為該空間區(qū)域的熱度特征;時(shí)間特征指時(shí)間信息中的季節(jié)、月份、星期、工作日、時(shí)間點(diǎn);將以上特征組成特征向量用于XGBoost 的輸入通過訓(xùn)練學(xué)習(xí)構(gòu)建分類模型。圖1概述了本文方法的模型架構(gòu)。

      圖1 基于聯(lián)合特征和XGBoost的活動(dòng)語(yǔ)義識(shí)別方法框架Fig.1 Framework of activity semantic recognition method based on joint features and XGBoost

      2.1 特征提取

      簽到數(shù)據(jù)信息中一般包含4 個(gè)主要信息(U,L,T,A),U 表示User 用戶,L 表示Location 具體地點(diǎn),T 表示Time,A 表示Activity 即進(jìn)行的活動(dòng)或者一些用戶在當(dāng)前時(shí)間位置所記錄的文本、圖片、視頻等信息。

      本文從空間、時(shí)間兩個(gè)維度進(jìn)行特征提取,其中空間特征除了經(jīng)緯度特征之外還針對(duì)人群的行為特點(diǎn)來提取,即個(gè)體進(jìn)行特定活動(dòng)時(shí)具有較大概率選擇訪問熱度高、訪問人數(shù)多的區(qū)域,因此采用基于密度的聚類方法DBSCAN 得到這些高熱度的訪問區(qū)域,并將其結(jié)果量化,從而得到空間特征。

      時(shí)間序列特征是指人類不同活動(dòng)行為之間的序列相關(guān)性,在移動(dòng)軌跡問題中主要是從時(shí)間序列中獲得,但是對(duì)于簽到數(shù)據(jù)來說存在時(shí)間間隔不固定、簽到次數(shù)不固定等問題,不能夠有效地從時(shí)間序列中得到序列特征。時(shí)間周期特征主要指人類相同活動(dòng)之間的周期相關(guān)性,包含時(shí)間數(shù)據(jù)中提取的季節(jié)、月份、工作日、小時(shí)等特征,對(duì)于時(shí)間特征是指在不同天、月、季節(jié)在同一時(shí)間進(jìn)行活動(dòng)的周期性。

      2.1.1 基于DBSCAN聚類的空間特征提取

      DBSCAN 是一種典型的基于密度的聚類算法,相比較于K-means這種只適用于凸樣本集的聚類,DBSCAN 還適用于非凸樣本集。DBSCAN 的顯著優(yōu)點(diǎn)就是聚類速度快且能夠有效處理噪聲點(diǎn)和發(fā)現(xiàn)任意形狀的空間聚類,該算法利用基于密度的聚類概念,要求聚類空間內(nèi)所包含的對(duì)象數(shù)目不小于給定閾值,過濾低密度區(qū)域發(fā)現(xiàn)稠密樣本點(diǎn),同一類別的樣本之間緊密連接。在空間上人類活動(dòng)表現(xiàn)出一定的區(qū)域聚集性,而實(shí)際的地理位置上確實(shí)存在一些熱點(diǎn)區(qū)域,例如繁華的市中心、商業(yè)步行街、網(wǎng)紅餐廳、著名景點(diǎn)等。本文研究使用的數(shù)據(jù)集是FourSquare 的公共簽到數(shù)據(jù)集,其實(shí)際簽到位置圖如圖2 所示,其簽到位置熱力圖如圖3 所示,K-means、DBSCN聚類結(jié)果分別如圖4、圖5所示。

      結(jié)合簽到位置以及熱力圖可以發(fā)現(xiàn)有一些地點(diǎn),人們對(duì)于其的訪問次數(shù)要比其他地方多很多,本文基于這一空間中的熱點(diǎn)區(qū)域訪問量大的特點(diǎn),考慮在識(shí)別人類的活動(dòng)語(yǔ)義時(shí)人們對(duì)于此類地區(qū)的訪問可能性應(yīng)大于其他地方。因此在識(shí)別的時(shí)候采取DBSCAN 聚類方法將這一空間特征提取量化,作為表達(dá)活動(dòng)語(yǔ)義的特征之一。算法步驟如下。

      算法1 DBSCAN聚類算法。

      輸入 n 個(gè)樣本的數(shù)據(jù)集D,半徑參數(shù)ε,鄰域密度閾值MinPts;

      輸出 樣本集合的聚類C。

      1)標(biāo)記所有對(duì)象為unvisitied;

      2)Do

      3) 隨機(jī)選擇一個(gè)unvisitied對(duì)象p;

      4) 標(biāo)記p為visited

      5) If p的ε鄰域至少由Minpts個(gè)對(duì)象:

      創(chuàng)建一個(gè)新簇C,并把p添加到C;

      令N為p的ε鄰域中的對(duì)象集合

      For N中的每個(gè)點(diǎn)p:

      If p是unvisited:

      標(biāo)記p為visited;

      If p 的ε 鄰域至少有MinPts 個(gè)對(duì)象,把這些對(duì)象添加到N;

      If p還不是任何簇的成員,把p添加到C;

      End For

      輸出C

      6) Else 標(biāo)記p為噪聲

      7)Until沒有標(biāo)記為unvisited的對(duì)象

      圖2 紐約市簽到數(shù)據(jù)地理投影Fig.2 Geographic projection of New York city check-in data

      圖3 紐約市簽到位置熱力圖Fig.3 Heat map of New York city check-in locations

      從K-means 和DBSCAN 聚類結(jié)果可以看出,K-means 聚類結(jié)果中各類別以區(qū)域劃分,而DBSCAN 則是以區(qū)域內(nèi)訪問量即簽到點(diǎn)的密度劃分,因此可以更好地挖掘空間區(qū)域熱度特征。所以本文選取DBSCAN 聚類方法,并從聚類結(jié)果中提取了兩個(gè)特征:聚類的類別標(biāo)簽、各個(gè)聚類結(jié)果簇中包含元素的數(shù)量。兩個(gè)特征均反映空間區(qū)域的熱度特征,對(duì)于那些訪問量大的熱點(diǎn)區(qū)域,其簇中的點(diǎn)多占比就大,人們?cè)僭L問其地點(diǎn)時(shí)的可能性就高。從空間中得到的區(qū)域熱度特征是基于對(duì)區(qū)域的訪問偏好所提取的。

      2.1.2 時(shí)間特征提取

      對(duì)于簽到數(shù)據(jù)來說,存在用戶簽到時(shí)間的不規(guī)律性、簽到間隔的不確定性,整個(gè)簽到行為具有很大的隨意性,這就導(dǎo)致了簽到數(shù)據(jù)集本身稀疏的問題。本文提取了季節(jié)特征season、月份特征month、日特征day、星期特征week、工作日特征workday、時(shí)刻特征hour1、時(shí)刻特征hour2,其中month、day、week、hour1 從協(xié)調(diào)世界時(shí)(Universal Time Coordinated,UTC)時(shí)間信息中獲得,hour1的精度為小時(shí)向上取整。

      圖4 基于K-means聚類的熱度分類結(jié)果Fig.4 Heat classification results based on K-means clustering

      圖5 基于DBSCAN聚類的熱度分類結(jié)果Fig.5 Heat classification results based on DBSCAN clustering

      季節(jié)特征season 按紐約氣候特征,劃分3~5 月為春季、6~8月為夏季、9~11月秋季、12~2月為冬季。

      工作日特征workday 周六日為休息時(shí)間,其余為工作時(shí)間。時(shí)刻特征精度為小時(shí)分為兩種特征hour1 和hour2,hour1為一天當(dāng)中所屬小時(shí)24 小時(shí)制,hour2 為一周當(dāng)中所屬小時(shí)7*24 小時(shí)制。其余的月份month、日day、星期week 直接從數(shù)據(jù)中提取。各特征計(jì)算方法見式(1)~(3):

      2.2 基于XGBoost的用戶活動(dòng)語(yǔ)義識(shí)別

      XGBoost是傳統(tǒng)Boosting方法的一種,Chen等[24]首次提出此算法。對(duì)于包含n 個(gè)樣本m 個(gè)特征的訓(xùn)練集Data={(xi,yi)},i=1,2,…,N。XGBoost 預(yù)測(cè)值由多個(gè)分類回歸樹(Classification And Regression Tree,CART)構(gòu)成的集成模型所得,表示為:

      式中:K為決策樹數(shù)量;fk(xi)為第k棵CART對(duì)數(shù)據(jù)集中第i個(gè)樣本計(jì)算分值;F為所有CART函數(shù)所構(gòu)成的函數(shù)空間。

      XGBoost 算法中模型學(xué)習(xí)的目標(biāo)函數(shù)考慮損失函數(shù)和正則項(xiàng)兩部分,正則項(xiàng)用于控制模型復(fù)雜度,避免過擬合,表達(dá)式見式(5):

      式中:T 是葉子節(jié)點(diǎn)總數(shù),r 代表控制葉子數(shù)量權(quán)重的參數(shù),wj為第j個(gè)葉子的權(quán)重,ft是樹的模型函數(shù)。

      XGBoost 對(duì)損失函數(shù)采用了二階泰勒展開,同時(shí)用到了一階和二階導(dǎo)數(shù),在代價(jià)函數(shù)中加入了正則項(xiàng),用于控制模型的復(fù)雜度。縮減(Shrinkage)技術(shù)削弱了每棵樹的影響,列特征二次采樣,可以減少計(jì)算同時(shí)降低過擬合。對(duì)于高維稀疏性數(shù)據(jù)XGBoost 采用了一種稀疏感知的分割搜尋算法,對(duì)于樣本在某特征缺失無(wú)法劃分時(shí),將樣本分別劃分到左節(jié)點(diǎn)和右節(jié)點(diǎn),然后計(jì)算其增益最終劃分到增益大的那邊。XGBoost還具有高效性,在訓(xùn)練開始時(shí)會(huì)進(jìn)行一遍預(yù)處理來提高之后每次迭代的效率,多線程的并行計(jì)算也會(huì)減少計(jì)算時(shí)間的開銷。XGBoost算法步驟如下:

      算法2 XGBoost算法。

      輸入 訓(xùn)練集樣本Data={(x1,y1),(x2,y2),…,(xm,ym)},最大迭代次數(shù)k,損失函數(shù)L;

      輸出 XGBoost模型。

      1)循環(huán)增加一棵CART ft(xi)

      2)采用貪婪算法建樹,對(duì)迭代輪數(shù)t=1,2,…,k有:

      ①對(duì)樣本i=1,2,…,m,計(jì)算損失函數(shù)的一階和二階導(dǎo)數(shù)(取負(fù)值):

      ②利用(xi,gti),(xi,hti),擬合CATR,得到第t 課樹,其對(duì)應(yīng)的葉子節(jié)點(diǎn)區(qū)域?yàn)镽ij(j=1,2,…,J),其中J 為新添加樹的葉子節(jié)點(diǎn)數(shù)。

      ③對(duì)葉子區(qū)域j=1,2,…,J,計(jì)算最佳擬合值:

      ④計(jì)算節(jié)點(diǎn)分裂的最優(yōu)增益:

      3)用構(gòu)建好的樹迭代優(yōu)化函數(shù)空間:

      4)重復(fù)1)直到生成第k棵樹。

      3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果展示

      3.1 數(shù)據(jù)集描述

      本文實(shí)驗(yàn)采用的數(shù)據(jù)集[25]是從2012 年4 月12 日到2013年2 月16 日從Foursquare 上收集的公共簽到數(shù)據(jù),數(shù)據(jù)集總共包含8列,分別是:1)用戶ID(user_id);2)場(chǎng)地ID(Foursquare 編碼);3)場(chǎng)地類別ID(Foursquare 編碼);4)場(chǎng)地類別名稱(Foursquare 編碼);5)緯度;6)經(jīng)度;7)時(shí)區(qū)偏移量(分鐘);8)UTC 時(shí)間。涉及227 428 條簽到信息、1 000 多位用戶的記錄。簽到數(shù)據(jù)示例如表1 所示,此示例數(shù)據(jù)未包含場(chǎng)地ID、場(chǎng)地類別ID、時(shí)區(qū)偏移量。

      表1 用戶簽到數(shù)據(jù)示例Tab.1 Examples of user check-in data

      3.2 實(shí)驗(yàn)設(shè)置

      在相同實(shí)驗(yàn)條件下,從聯(lián)合特征的有效性和識(shí)別算法的性能兩個(gè)方面對(duì)本文方法的有效性進(jìn)行了驗(yàn)證。在聯(lián)合特征有效性方面,采用不同的特征組合進(jìn)行實(shí)驗(yàn)結(jié)果的比較和分析;在方法性能評(píng)估方面,將本文基于聯(lián)合特征和XGBoost 方法(Joint Feature and XGBoost algorithm,JF-XGBoost)與CAH(Context-Aware Hybrid)方 法[20]、STAP(Spatio Temporal Activity Preference)方法[25],在相同數(shù)據(jù)集下,以前k 個(gè)分類準(zhǔn)確率Acc@top-k來進(jìn)行比較。

      XGBoost 參數(shù)主要分為三大類:通用參數(shù)、Booster 參數(shù)和學(xué)習(xí)目標(biāo)參數(shù)。調(diào)參調(diào)整的是Booster 參數(shù),通過窮舉搜索所有候選參數(shù),循環(huán)遍歷得到最優(yōu)的參數(shù),利用的是GridsearchCV 網(wǎng)格搜索算法,參數(shù)優(yōu)劣的評(píng)價(jià)標(biāo)準(zhǔn)是測(cè)試集準(zhǔn)確率的高低。候選參數(shù)主要考慮:生成最大樹的數(shù)目n_estimator,決定最大的迭代次數(shù);學(xué)習(xí)率learning_rate,控制運(yùn)行速度和準(zhǔn)確率;樹的最大深度max_depth,用于控制模型對(duì)樣本的擬合程度。本文XGBoost 模型實(shí)驗(yàn)參數(shù)設(shè)置為:

      n_estimators=1 200,learning_rate=0.1,max_depth=7,objective='multi:softprob'。

      3.3 實(shí)驗(yàn)結(jié)果

      時(shí)間特征和聯(lián)合特征的對(duì)比實(shí)驗(yàn)結(jié)果如圖6 所示。實(shí)驗(yàn)結(jié)果表明,基于聯(lián)合特征模型在進(jìn)行活動(dòng)語(yǔ)義識(shí)別時(shí)效果更好,在具體數(shù)值上基于時(shí)間特征的模型識(shí)別準(zhǔn)確率為0.300 46,基于聯(lián)合特征的模型準(zhǔn)確率為0.586 7,模型的識(shí)別準(zhǔn)確率提高了28個(gè)百分點(diǎn)。

      圖7是XGBoost識(shí)別模型的混淆矩陣,由于本文以簽到位置的簽到點(diǎn)名稱為標(biāo)簽,類別眾多共247 類,其混淆矩陣太密集,因此本文對(duì)簽到點(diǎn)的名稱進(jìn)行了歸類總結(jié),將247 類歸為12 類用于展示說明。從混淆矩陣中發(fā)現(xiàn)Restaurant 活動(dòng)的識(shí)別中出現(xiàn)了較多問題,許多錯(cuò)例被識(shí)別為Restaurant 項(xiàng),出現(xiàn)這一問題從數(shù)據(jù)上分析是因?yàn)楦黜?xiàng)活動(dòng)數(shù)目不均衡,Restaurant 項(xiàng)在所有數(shù)據(jù)中最多。簽到數(shù)據(jù)在時(shí)間上,Restaurant項(xiàng)幾乎包含所有時(shí)間點(diǎn),并且簽到數(shù)據(jù)集中只有簽到時(shí)間,沒有活動(dòng)開始時(shí)間、持續(xù)時(shí)間和結(jié)束時(shí)間;空間上實(shí)際生活中存在一樓消費(fèi)、二樓餐飲的設(shè)置,這樣不同活動(dòng)會(huì)在空間位置上重疊,因此導(dǎo)致其在時(shí)間特征與空間特征上具有很大相似性,所以在識(shí)別中會(huì)出現(xiàn)較多的問題。人們?cè)谶M(jìn)行簽到時(shí)也偏向于簽到那些新奇的地方,對(duì)于日常的活動(dòng)行為記錄相對(duì)較少,這也不利于活動(dòng)行為的識(shí)別。

      圖7 識(shí)別結(jié)果混淆矩陣Fig.7 Confusion matrix of recognition results

      本文對(duì)比了CAH方法[20]、STAP方法[25],結(jié)果見表2。

      表2 識(shí)別算法對(duì)比結(jié)果Tab.2 Comparison results of recognition algorithms

      通過算法對(duì)比和特征對(duì)比實(shí)驗(yàn),本文JF-XGBoost 方法在活動(dòng)語(yǔ)義的識(shí)別方面具有更好的效果,而且時(shí)空聯(lián)合特征也在活動(dòng)語(yǔ)義識(shí)別中也有重要作用。在空間地理位置訪問上形成熱點(diǎn)的空間區(qū)域,這是人類在現(xiàn)實(shí)社交生活中經(jīng)過長(zhǎng)時(shí)間的積累自然形成的聚集區(qū)域,具有十分客觀的現(xiàn)實(shí)意義,在時(shí)間上一些日常的飲食、運(yùn)動(dòng)、工作等行為也有著明顯的周期性特點(diǎn),對(duì)于這些特征的深入挖掘?qū)⒂欣诨顒?dòng)行為語(yǔ)義的識(shí)別。

      4 結(jié)語(yǔ)

      本文主要研究了人類的活動(dòng)語(yǔ)義識(shí)別,考慮了空間經(jīng)緯度特征、區(qū)域熱點(diǎn)特征,并結(jié)合時(shí)間特征,利用聯(lián)合特征和XGBoost 集成學(xué)習(xí)方法從稀疏的社交媒體簽到數(shù)據(jù)中識(shí)別用戶的活動(dòng)語(yǔ)義。相對(duì)于以往研究,增加了對(duì)空間熱點(diǎn)特征的挖掘,通過無(wú)監(jiān)督學(xué)習(xí)的DBSCAN 聚類方法從原始數(shù)據(jù)中獲得空間熱度特征并結(jié)合時(shí)間特征組成特征向量,采用XGBoost 算法學(xué)習(xí)數(shù)據(jù)中的信息,從而得到活動(dòng)語(yǔ)義識(shí)別模型。在個(gè)人的活動(dòng)建模方面,本文主要關(guān)注了空間特征和時(shí)間特征,以及地理空間、活動(dòng)類型的整合等,但對(duì)于個(gè)體本身的偏好、屬性等個(gè)人特點(diǎn)未加考慮,個(gè)人的社交關(guān)系網(wǎng)絡(luò)也會(huì)對(duì)此有所影響,因此,將上述等問題考慮進(jìn)活動(dòng)語(yǔ)義建模中是今后提高識(shí)別效果的研究方向所在。

      猜你喜歡
      語(yǔ)義聚類特征
      語(yǔ)言與語(yǔ)義
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      基于DBSACN聚類算法的XML文檔聚類
      抓住特征巧觀察
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      認(rèn)知范疇模糊與語(yǔ)義模糊
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      周至县| 闸北区| 金坛市| 游戏| 金寨县| 托里县| 祁连县| 新昌县| 乌拉特后旗| 武隆县| 勃利县| 内乡县| 沾益县| 镇赉县| 巴塘县| 宝清县| 虹口区| 张家口市| 通山县| 贡嘎县| 水富县| 洛南县| 陆良县| 平罗县| 治多县| 高平市| 高青县| 洪湖市| 沂南县| 五寨县| 蒙自县| 二手房| 额敏县| 苗栗县| 金川县| 都昌县| 襄汾县| 靖西县| 天门市| 墨脱县| 金平|