• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于LDA的大學(xué)一卡通學(xué)生行為特征分析研究

      2022-05-25 04:48:08馮健文
      現(xiàn)代計算機(jī) 2022年6期
      關(guān)鍵詞:一卡通軌跡標(biāo)簽

      馮健文

      (韓山師范學(xué)院教務(wù)處,潮州 521041)

      0 引言

      人工智能時代,通過挖掘信息系統(tǒng)中用戶的行為數(shù)據(jù),發(fā)現(xiàn)其蘊(yùn)含的社會發(fā)展規(guī)律和趨勢成為可能。在物聯(lián)網(wǎng)技術(shù)應(yīng)用中,用戶行為數(shù)據(jù)為移動對象時空軌跡(spatio-temporal trajectories,STR)數(shù)據(jù),軌跡數(shù)據(jù)挖掘主要包括模式挖掘和語義分類兩種。模式挖掘側(cè)重軌跡路徑,研究成果較多,但不易解釋用戶行為。語義分類則同時關(guān)注路徑和語義,是新興的研究分支,受到廣泛關(guān)注。主要方法有動態(tài)貝葉斯網(wǎng)絡(luò)、隱馬兒可夫模型、條件隨機(jī)場、高斯混合模型、主題模型、聚類等。Nascimento等和Sun等提出了改進(jìn)的隱馬兒可夫模型,處理人類活動認(rèn)知。Santos等提出使用動態(tài)貝葉斯網(wǎng)絡(luò)作為分類器推理。狄利克雷分布模型(latent Dirichlet allocation,LDA)是重要的文檔分析模型,本質(zhì)上是一種貝葉斯網(wǎng)絡(luò),近年開始應(yīng)用于用戶特征提取和語義軌跡分類。起源于文本處理的LDA主題模型具有提取興趣主題的多樣性和簡單性、數(shù)據(jù)降維、異構(gòu)數(shù)據(jù)建模、語義歸納等優(yōu)點。張宏鑫等采用LDA主題模型從手機(jī)日志數(shù)據(jù)提取人群特征。Ferrari等應(yīng)用LDA模型從社交位置數(shù)據(jù)提取城市日?;顒幽J?。Chu等采用一種基于LDA主題模型的語義轉(zhuǎn)換方法,以出租車行駛軌跡為文檔,經(jīng)過的街道名字為單詞,映射GPS坐標(biāo)為軌跡數(shù)據(jù),提取出租車行駛軌跡特征。蔡文學(xué)等通過LDA模型分析出租車軌跡得到熱門城市區(qū)域,有效解釋用戶行為。雖然現(xiàn)有的LDA模型軌跡分類應(yīng)用取得了較好效果,但是很少面向RFID軌跡數(shù)據(jù),非業(yè)務(wù)特征軌跡數(shù)據(jù)分析鮮見,因此相關(guān)研究需要更多探索。

      本文以大學(xué)一卡通學(xué)生行為特征分析為案例,根據(jù)一卡通RFID應(yīng)用場景和數(shù)據(jù)特征,提出基于LDA的RFID數(shù)據(jù)軌跡框架,通過RFID應(yīng)用標(biāo)簽的表示和分類方法、詞袋模型構(gòu)建、主題模型建立和聚類分析,最終提取學(xué)生群體特征知識,用于指導(dǎo)管理部門改進(jìn)服務(wù)質(zhì)量。

      1 基于LDA的學(xué)生行為特征挖掘框架

      本文研究目的是基于一卡通RFID-SIR數(shù)據(jù)提取學(xué)生用戶群體特征知識,發(fā)現(xiàn)數(shù)據(jù)隱含的信息,對一卡通業(yè)務(wù)應(yīng)用服務(wù)改進(jìn)提供建議。如圖1所示,研究基本流程為:①獲取一卡通RFID-SIR數(shù)據(jù)并生成語義軌跡數(shù)據(jù);②建立語義軌跡與LDA主題模型的關(guān)聯(lián),通過分析一卡通業(yè)務(wù)點特征來定義應(yīng)用類型標(biāo)簽,該標(biāo)簽作為單詞集,接著基于使用次數(shù)或交易金額等語義打分機(jī)制建立詞袋模型,語義軌跡作為文檔,利用LDA主題模型學(xué)習(xí)分析得到主題與應(yīng)用類型標(biāo)簽的關(guān)聯(lián);③通過聚類分析得到主題特征用戶群體;④分析結(jié)果并提出業(yè)務(wù)改進(jìn)建議。

      圖1 學(xué)生行為特征挖掘框架

      1.1 問題分析

      為了挖掘一卡通學(xué)生用戶的行為習(xí)慣,需要把原始軌跡數(shù)據(jù)預(yù)處理,得到語義軌跡作為軌跡特征知識挖掘的數(shù)據(jù)源。原始數(shù)據(jù)來源于多個一卡通RFID業(yè)務(wù)應(yīng)用,存在數(shù)據(jù)格式、語義等差異。經(jīng)過數(shù)據(jù)清洗、整合、壓縮等校準(zhǔn)操作,并根據(jù)業(yè)務(wù)應(yīng)用主題建立數(shù)據(jù)集市。一卡通用戶軌跡大多是單點軌跡,即軌跡中只包含單個業(yè)務(wù)點數(shù)據(jù),不同的軌跡間沒有明顯的關(guān)聯(lián)和約束,即無業(yè)務(wù)流程特征??刹捎眠^程發(fā)現(xiàn)(process discovery)技術(shù)結(jié)合時間閥值參數(shù)法,從數(shù)據(jù)集市中提取用戶的業(yè)務(wù)活動過程軌跡,即得到語義軌跡,其中不僅包含用戶在某個時間段內(nèi)的軌跡,還蘊(yùn)含了用戶的活動特征。例如,以一天為時間閥值,可得到某學(xué)生語義軌跡:食堂A(7:30)—實驗室B(7:50)—圖書館C(10:00)—食堂B(12:00)—圖書館C(15:00)—熱水D(22:00)。

      可以看到軌跡業(yè)務(wù)點是屬于某個業(yè)務(wù)應(yīng)用類型,如食堂屬于“餐飲類”。當(dāng)把全部業(yè)務(wù)點分類到多個集合后,每一個集合可定義為一個主題。顯然每個學(xué)生的活動特征實際上就是多個主題的聚合模型。因此,需要建立語義軌跡與LDA主題模型的關(guān)聯(lián),通過LDA方法得到主題模型的種類,用于學(xué)生用戶群體聚類分析。

      1.2 主題模型建立

      要建立語義軌跡與LDA模型文本描述之間的映射關(guān)系,就需要通過RFID應(yīng)用領(lǐng)域“語義軌跡-主題-業(yè)務(wù)應(yīng)用類型標(biāo)簽”到LDA“用戶-主題-單詞”三層貝葉斯模型的語義轉(zhuǎn)換,最后通過模型的生成實現(xiàn)軌跡特征知識的提取。定義一個學(xué)生用戶語義軌跡對應(yīng)一篇文檔,用戶軌跡中的業(yè)務(wù)應(yīng)用類型標(biāo)簽對應(yīng)文檔中的單詞,全部學(xué)生用戶就形成語料庫,學(xué)生行為軌跡提取就轉(zhuǎn)為LDA方法從語料庫中提取主題模型。LDA主題模型可以幫助在聚類前對數(shù)據(jù)進(jìn)行降維操作,把學(xué)生用戶軌跡中幾十個業(yè)務(wù)點提取為學(xué)生與主題的相關(guān)度。

      1.2.1 建立應(yīng)用標(biāo)簽的詞袋模型

      在一卡通RFID應(yīng)用標(biāo)簽對應(yīng)單詞后,進(jìn)一步從RFID應(yīng)用業(yè)務(wù)名稱文本集合中提取出詞頻大于某個閥值的業(yè)務(wù)應(yīng)用名稱集合;主題采用主題重要度確定,即軌跡出現(xiàn)次數(shù);將語義軌跡看作文檔,軌跡中涉及多個RFID應(yīng)用主題區(qū)域,好比文檔包含多個主題,這樣將軌跡集合類比文檔集合,對其進(jìn)行主題推斷,就可以得到多個主題區(qū)域,而這些主題區(qū)域通過應(yīng)用標(biāo)簽來表示,所以反映了語義軌跡的特征知識。因此,使用一卡通應(yīng)用類型分類標(biāo)簽作為單詞,建立每個學(xué)生用戶的詞袋模型,如表1所示。

      表1 一卡通學(xué)生用戶應(yīng)用標(biāo)簽詞袋模型

      詞袋模型采用了業(yè)務(wù)點重要度來衡量,業(yè)務(wù)點重要度指應(yīng)用標(biāo)簽單詞在某個語義軌跡中出現(xiàn)的次數(shù),次數(shù)越高說明該單詞越能代表該語義軌跡特征。考慮業(yè)務(wù)點太多,采用業(yè)務(wù)點類型與校區(qū)結(jié)合的方式定義應(yīng)用標(biāo)簽類。采用單個業(yè)務(wù)點刷卡次數(shù)與LDA模型的詞頻對應(yīng),通過打分機(jī)制提高單詞的文檔代表性。一個業(yè)務(wù)點在所有主題中出現(xiàn)概率為1,設(shè)置一個閥值篩選主題中的業(yè)務(wù)點。

      1.2.2 一卡通學(xué)生行為主題特征模型

      在一卡通RFID應(yīng)用領(lǐng)域,根據(jù)LDA主題模型,得到公式(1):

      每個軌跡與個主題的一個多項分布對應(yīng),每個主題又與個標(biāo)簽的一個多項分布對應(yīng)。因此LDA模型求解如圖2所示,首先要求解與和參數(shù)相關(guān)的狄利克雷先驗分布參數(shù)和,然后推理出和參數(shù),最后使用Gibbs抽樣法求出軌跡在主題上的分布和主題在標(biāo)簽上的分布,就能得到軌跡與標(biāo)簽的分布。

      圖2 LDA主題特征模型[5]

      經(jīng)多次實驗,選取3個有實際代表意義的主題進(jìn)行本文分析,分別為自習(xí)類、生活類、實驗類,每個主題下包括多個一卡通應(yīng)用分類標(biāo)簽,如表2所示。每個學(xué)生用戶與每個主題都有相關(guān)度,如某學(xué)生主題相關(guān)度為:自習(xí)=0.7,生活=0.5,實驗=0.1,表明該學(xué)生有良好的自習(xí)學(xué)習(xí)習(xí)慣,可能是文科類專業(yè),使用校內(nèi)生活服務(wù)應(yīng)用頻次一般。

      表2 一卡通學(xué)生用戶應(yīng)用主題構(gòu)成

      1.3 特征聚類

      在得到學(xué)生用戶語義軌跡與主題的相關(guān)度后,每個學(xué)生都可用3個應(yīng)用標(biāo)簽維度向量來表示。采用主流的聚類算法如K-means將具有相近主題特征的用戶軌跡聚集,形成代表性學(xué)生一卡通用戶群體。本文實驗采集2萬名左右學(xué)生用戶一年數(shù)據(jù)、一卡通業(yè)務(wù)點38個,統(tǒng)計每個用戶和3個主題的相關(guān)度,采用K-means算法將學(xué)生聚類為4類主題用戶群體,其中心點如表3所示。

      表3 一卡通學(xué)生用戶群體的特征分析

      從表3可以看出,學(xué)生群體3用戶數(shù)最多,其行為特征是生活類相比其他主題較多,但總體上使用一卡通業(yè)務(wù)應(yīng)用不突出,也沒有自習(xí)行為。結(jié)合其他群體特征分析,從校內(nèi)生活服務(wù)頻率看,只有學(xué)生群體2的不足2000人,蘊(yùn)含信息是學(xué)生對校內(nèi)餐飲、小賣部、熱水等生活類服務(wù)滿意度一般,這可能受該大學(xué)周邊外賣和超市、餐館林立的情況影響,說明后勤部門應(yīng)對生活服務(wù)類應(yīng)用進(jìn)行調(diào)查,加強(qiáng)服務(wù)質(zhì)量。從自習(xí)行為看,只有群體1有自習(xí)習(xí)慣,蘊(yùn)含信息可能是:一方面有自習(xí)習(xí)慣但沒有列入統(tǒng)計的學(xué)生可能在宿舍或不需要校園卡的場所學(xué)習(xí);另一方面有一部分學(xué)生確實沒有良好的自習(xí)習(xí)慣,學(xué)生管理部門可進(jìn)行相關(guān)的調(diào)查,在學(xué)風(fēng)建設(shè)上開展有針對性的措施。

      2 結(jié)語

      本文以大學(xué)一卡通學(xué)生行為特征分析為案例,介紹從日常信息系統(tǒng)用戶原始數(shù)據(jù)中,經(jīng)過數(shù)據(jù)預(yù)處理、語義軌跡提取、行為主題建模,有效獲得一卡通學(xué)生行為群體特征知識,為大學(xué)管理部門加強(qiáng)一卡通應(yīng)用服務(wù)和學(xué)生管理、提升人才培養(yǎng)質(zhì)量提供幫助。研究發(fā)現(xiàn),軌跡數(shù)據(jù)挖掘必須附加語義分析才能增強(qiáng)研究的實際指導(dǎo)作用,其中數(shù)據(jù)預(yù)處理、主題類定義、聚類結(jié)果分析幾個環(huán)節(jié)值得關(guān)注,研究團(tuán)隊?wèi)?yīng)引進(jìn)具有業(yè)務(wù)應(yīng)用領(lǐng)域知識的專家,在上述幾個關(guān)鍵環(huán)節(jié)提供應(yīng)用知識。本研究會進(jìn)一步將結(jié)果進(jìn)行可視化,并把數(shù)據(jù)范圍擴(kuò)大至5年以上,探索大數(shù)據(jù)下挖掘算法的效率和實用性。

      猜你喜歡
      一卡通軌跡標(biāo)簽
      軌跡
      軌跡
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      軌跡
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
      中國三峽(2017年2期)2017-06-09 08:15:29
      基于“一卡通”開發(fā)的員工信息識別系統(tǒng)
      電子制作(2016年19期)2016-08-24 07:49:44
      向心加速度學(xué)習(xí)一卡通
      標(biāo)簽化傷害了誰
      向心加速度學(xué)習(xí)一卡通
      双流县| 云霄县| 东阳市| 景宁| 思南县| 通化市| 桃江县| 山西省| 班玛县| 甘泉县| 太原市| 祁门县| 五华县| 扶风县| 如东县| 河池市| 乃东县| 利辛县| 资阳市| 北海市| 东兰县| 房产| 固安县| 定兴县| 桦南县| 钟山县| 海林市| 惠东县| 望城县| 蒲城县| 河源市| 东方市| 滨海县| 且末县| 金塔县| 伽师县| 兰考县| 大竹县| 临桂县| 彰武县| 锡林郭勒盟|