• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于校園行為信息網(wǎng)絡(luò)的生活習(xí)慣相似學(xué)生搜索

      2020-11-10 12:35:58王新澳崔丁山頓毅杰秦蕊琦
      計(jì)算機(jī)研究與發(fā)展 2020年11期
      關(guān)鍵詞:數(shù)據(jù)源信息網(wǎng)絡(luò)相似性

      王新澳 段 磊 崔丁山 盧 莉 頓毅杰 秦蕊琦

      1(四川大學(xué)計(jì)算機(jī)學(xué)院 成都 610065)

      2(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 蘭州 730030)(wangxinao@stu.scu.edu.cn)

      隨著2018年國家標(biāo)準(zhǔn)《智慧校園總體框架》發(fā)布,致力于構(gòu)建校園工作、學(xué)習(xí)和生活一體化的智慧校園正在全國多個高校逐步成型,從課堂到生活的教育理念已經(jīng)被廣為接受.傳統(tǒng)基于預(yù)制定教學(xué)計(jì)劃的培養(yǎng)模式已不能滿足當(dāng)前創(chuàng)新性人才的個性化培養(yǎng)需求.以大數(shù)據(jù)分析、人工智能等信息技術(shù)為支撐的智慧教育模式已成為教育信息化的趨勢[1],通過掌握學(xué)生的興趣、愛好、生活習(xí)慣等,提高人才培養(yǎng)質(zhì)量成為當(dāng)前教育領(lǐng)域的重要研究問題.

      生活習(xí)慣是學(xué)生心理狀況、財務(wù)狀況和興趣愛好的綜合體現(xiàn),對學(xué)生的個人發(fā)展和學(xué)業(yè)表現(xiàn)有著重要的影響.分析學(xué)生的行為,掌握學(xué)生的生活習(xí)慣,對關(guān)愛學(xué)生心理健康、明晰學(xué)生財務(wù)狀況、促進(jìn)學(xué)生學(xué)業(yè)進(jìn)步有非常重要的作用.例如:中國礦業(yè)大學(xué)根據(jù)學(xué)生校園生活狀況,建立家庭經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)庫,提供精準(zhǔn)資助依據(jù)(1)http://www.moe.gov.cn/jyb_xwfb/s6192/s133/s183/201612/t20161212_291588.html.西安電子科技大學(xué)利用大數(shù)據(jù)分析學(xué)生食堂用餐期間的消費(fèi)記錄,“隱性地”資助貧困學(xué)生(2)http://www.cpwnews.com/content-22-32315-1.html.

      計(jì)算學(xué)生生活習(xí)慣的相似性,搜索相似的學(xué)生,可以支持包括下面2種場景的眾多應(yīng)用:

      1) 場景1.現(xiàn)有的大學(xué)寢室分配方法較單一,沒有充分考慮學(xué)生的興趣、性格、生活習(xí)慣等方面,容易造成矛盾.通過搜索生活習(xí)慣相似學(xué)生,調(diào)整寢室分配,對促進(jìn)和諧校園、改善寢室氛圍有著積極的作用.

      2) 場景2.學(xué)生進(jìn)行社團(tuán)選擇、項(xiàng)目組隊(duì)時信息來源較少.搜索與學(xué)生生活習(xí)慣一致的社員或隊(duì)友,可以為學(xué)生的選擇提供參考,同時有利于突破學(xué)生自身交際圈促成跨專業(yè)或跨學(xué)院的交流.

      本文基于校園行為信息搜索具有相似生活習(xí)慣的學(xué)生.從技術(shù)上講,使用校園行為數(shù)據(jù)分析學(xué)生生活習(xí)慣具有2方面挑戰(zhàn):

      1) 學(xué)生在校行為數(shù)據(jù)是多源、異構(gòu)且持續(xù)增長的,包含例如選課、成績、消費(fèi)、門禁等不同來源和不同結(jié)構(gòu),并會隨時間逐漸增多數(shù)據(jù).算法設(shè)計(jì)過程中需要充分考慮原始數(shù)據(jù)的這些特點(diǎn).

      2) 不同數(shù)據(jù)源之間的語義復(fù)雜,包括自習(xí)(圖書館門禁數(shù)據(jù))、飲食(食堂消費(fèi)數(shù)據(jù))等.在計(jì)算相似性時需要保證語義清晰準(zhǔn)確,即能夠解釋相似的原因.

      目前教育數(shù)據(jù)挖掘領(lǐng)域絕大多數(shù)研究的關(guān)注點(diǎn)在于學(xué)生的學(xué)習(xí)過程和學(xué)習(xí)表現(xiàn)以及一些特殊任務(wù),例如評估抑郁[2]、拖延癥[3]、學(xué)業(yè)預(yù)警[4]或輔助獎助學(xué)金發(fā)放[5-6]等.文獻(xiàn)[7]通過基于LINE的網(wǎng)絡(luò)嵌入方法獲得學(xué)生的低維向量表示,從而計(jì)算學(xué)生之間的相似性,但這種方法會損失原始數(shù)據(jù)中包含的語義信息,并且無法拓展性地融合更多的數(shù)據(jù)源.

      使用異構(gòu)信息網(wǎng)絡(luò)可以很好地將學(xué)生和行為信息保存在一起.借鑒異構(gòu)信息網(wǎng)絡(luò)的思想和技術(shù)[8],我們構(gòu)建校園行為信息網(wǎng)絡(luò)(campus behavior infor-mation network)來表達(dá)學(xué)生在校行為信息.并且在校園行為信息網(wǎng)絡(luò)中,我們用具有明確語義信息的元路徑度量學(xué)生之間的相似性,從而得到所有學(xué)生之間的相似關(guān)系.目前基于異構(gòu)信息網(wǎng)絡(luò)的相似性度量方法已較為成熟,但因?yàn)樾@活動數(shù)據(jù)與常用于構(gòu)建異構(gòu)信息網(wǎng)絡(luò)的數(shù)據(jù)不同,具有重復(fù)率高的特點(diǎn)(第2節(jié)做詳細(xì)分析),目前的相似性度量方法并不完全適用于校園行為信息網(wǎng)絡(luò).

      同時因?yàn)樾@行為數(shù)據(jù)多源的特點(diǎn),在單一數(shù)據(jù)源的行為信息網(wǎng)絡(luò)中提取的相似語義信息往往是片面的.例如,僅使用圖書館的進(jìn)出記錄無法確定一個學(xué)生是否喜歡上自習(xí),因?yàn)榻虒W(xué)樓同樣具有自習(xí)的功能.因此有必要集成多個網(wǎng)絡(luò)中的相似信息來更全面地體現(xiàn)學(xué)生的在校行為.相應(yīng)地,還需要設(shè)計(jì)將多個學(xué)生相似信息融合起來的方法,用于從整體上評判學(xué)生之間的相似性.

      對此,本文提出SCALE(similar campus lifestyle miner)算法用于解決在校園行為信息網(wǎng)絡(luò)中搜索生活習(xí)慣相似學(xué)生的問題.主要工作有4個方面:

      1) 單層學(xué)生相似子網(wǎng)絡(luò)的構(gòu)建.由單一數(shù)據(jù)源得到校園行為信息網(wǎng)絡(luò),提出一種帶約束的元路徑相似度計(jì)算方法,使用給定的元路徑計(jì)算學(xué)生之間的相似度,構(gòu)建單層學(xué)生相似子網(wǎng)絡(luò).

      2) 學(xué)生相似網(wǎng)絡(luò)的構(gòu)建.增量式地將單層學(xué)生相似子網(wǎng)絡(luò)構(gòu)建為一個多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò),并通過帶偏隨機(jī)游走的方式生成每個學(xué)生的上下文語義.

      3) 基于網(wǎng)絡(luò)嵌入的相似學(xué)生搜索.使用Skip-Gram模型將所有學(xué)生的上下文語義嵌入到一個低維向量空間中,將每位同學(xué)的相似信息向量化.通過計(jì)算向量之間的相似度搜索相似學(xué)生.

      4) 通過真實(shí)校園環(huán)境數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證了SCALE算法的有效性和執(zhí)行效率.

      1 問題定義

      我們首先引入一些用于表示學(xué)生行為的概念.

      考慮到校園行為一般以教學(xué)周為周期迭代進(jìn)行,我們用時間約束(τ)描述一對時間條件{W(t)=Tdow,T(t)∈Tz},其中Tdow表示1周中的某一天,Tz表示1天中的某個時間區(qū)間.滿足此約束的時間t記作tτ.例如{W(t)=Monday,T(t)∈[11:00,13:00)}為一個具體的時間約束.

      滿足同一個時間約束且在相同地點(diǎn)發(fā)生的同類型事件實(shí)例的集合體現(xiàn)了相似的行為,由一個行為實(shí)例表示,記作時間約束(τ),地點(diǎn)(l),事件類型(c).對于tτ,l=l,c=c,都有t,l,c∈τ,l,c.

      例1.有屬于學(xué)生1和學(xué)生2的3個事件實(shí)例.

      對于時間約束τ:{W(t)=Monday,T(t)∈[11:00,13:00)},t1,t2滿足時間約束τ,而t3不滿足τ.因此,學(xué)生1的2個事件實(shí)例均屬于同一個行為實(shí)例{W(t)=Monday,T(t)∈[11:00,13:00)},一食堂,就餐.且學(xué)生1參與了此行為實(shí)例2次,學(xué)生2沒有參與此行為實(shí)例.

      校園行為信息網(wǎng)絡(luò)包含了5種典型的對象類型:學(xué)生(s)、時間約束(τ)、地點(diǎn)(l)、事件類型(c)、行為實(shí)例(b).時間約束、地點(diǎn)及事件類型為行為實(shí)例的屬性.網(wǎng)絡(luò)還包括4種類型的鏈接:學(xué)生與行為實(shí)例之間具有參與幾次或者被參與幾次的關(guān)系,行為實(shí)例和時間約束之間存在“發(fā)生”或者“發(fā)生在”的關(guān)系,行為實(shí)例和地點(diǎn)之間存在處于或發(fā)生的關(guān)系,行為實(shí)例與事件類型之間存在屬于或包含的關(guān)系.容易看出,校園行為信息網(wǎng)絡(luò)是一個帶權(quán)重的異構(gòu)信息網(wǎng)絡(luò)[9],包含了4種權(quán)重類型.學(xué)生與行為實(shí)例之間鏈接的權(quán)重為學(xué)生參與此行為實(shí)例的次數(shù),時間約束、地點(diǎn)和事件類型為行為實(shí)例的屬性,它們與行為實(shí)例之間鏈接的權(quán)重均為1,且任一行為實(shí)例必須與其對應(yīng)的時間約束、處于的地點(diǎn)及屬于的事件類型對象相連.圖1為校園行為信息網(wǎng)絡(luò)的一個示例,時間約束、地點(diǎn)、事件類型與行為實(shí)例之間鏈接的權(quán)重被省略.

      Fig.1 An example of campus behavior information network

      在校園行為信息網(wǎng)絡(luò)中,2個對象可以通過多條不同的路徑相連,連接2個對象的某一條路徑蘊(yùn)含了這2個對象之間的某種語義關(guān)系,且不同路徑表達(dá)著不同的語義關(guān)系,稱這些路徑為元路徑,記作P.若元路徑P上的鏈接帶有權(quán)重,則P為帶權(quán)重元路徑[9].

      若校園信息網(wǎng)絡(luò)中存在1條與元路徑P的對象類型和鏈接類型全部對應(yīng)的路徑p,則稱p為元路徑P的實(shí)例,記作p∈P.

      考慮元路徑P:“學(xué)生—行為實(shí)例—地點(diǎn)—行為實(shí)例—學(xué)生”,在要求路徑中對象不重復(fù)的情況下,圖1中存在著2條元路徑P的實(shí)例.p1:“s1—b3—l2—b2—s3”;p2:“s2—b3—l2—b2—s3”.

      在校園行為信息網(wǎng)絡(luò)中使用元路徑查找相似語義時,存在不同類型行為的路徑并不能表達(dá)相似,因此要求元路徑中出現(xiàn)的行為實(shí)例為相同事件類型.具有較強(qiáng)相似語義信息的元路徑有3條:

      1) “學(xué)生—行為實(shí)例—時間約束—行為實(shí)例—學(xué)生”.2個學(xué)生在相同的時間約束下具有相同類型的行為,例如圖1中包含的實(shí)例“s1—b3—τ3—b4—s4”,語義為s1和s4在相同的時間約束(τ3)下有相同類型的行為(b3,b4的事件類型同為c2).

      2) “學(xué)生—行為實(shí)例—地點(diǎn)—行為實(shí)例—學(xué)生”.2個學(xué)生在相同的地點(diǎn)具有同樣類型的行為,例如圖1中包含的實(shí)例“s1—b3—l2—b2—s3”,語義為s1和s3在相同的地點(diǎn)(l2)有同樣類型的行為(b2,b3的事件類型同為c2).

      3) “學(xué)生—行為實(shí)例—學(xué)生”.2個學(xué)生在相同的時間約束下和相同的地點(diǎn)有相同的行為,例如圖1中包含的實(shí)例“s1—b3—s2”,等價于同時存在前2種元路徑的情況,即同時存在實(shí)例“s1—b3—τ3—b3—s2”和“s1—b3—l2—b3—s2”,語義為s1和s2在相同的時間約束(τ3)下和地點(diǎn)(l2)中有相同的行為(b3的事件類型為c2).

      可以發(fā)現(xiàn),上面3種元路徑與其反向的元路徑是相同的,我們稱這種元路徑為對稱元路徑[8].對于一個給定的對稱元路徑P,文獻(xiàn)[8]給出了2個相同類型對象os和ot之間基于實(shí)例數(shù)的元路徑相似性度量方式PathSim.

      Sim(os,ot,P)=

      (1)

      其中,pos?ot表示os和ot之間的路徑實(shí)例,pos?os表示os和os之間的路徑實(shí)例,pot?ot表示ot和ot之間的路徑實(shí)例.

      例2.對于圖1中的校園行為信息網(wǎng)絡(luò)G和元路徑P:“學(xué)生—行為實(shí)例—學(xué)生”.學(xué)生1(s1)與學(xué)生2(s2)之間的Pathsim相似度計(jì)算如下:

      1) 學(xué)生1與學(xué)生2之間元路徑P的實(shí)例有2條,分別為“s1—b1—s2”和“s1—b3—s2”,因此|{ps1?s2|ps1?s2∈P}|=2.

      2) 學(xué)生1與學(xué)生1之間元路徑P的實(shí)例有2條,分別為“s1—b1—s1”和“s1—b3—s1”,因此|{ps1?s1|ps1?s1∈P}|=2.

      3) 學(xué)生2與學(xué)生2之間元路徑P的實(shí)例有2條,分別為“s2—b1—s2”和“s2—b3—s2”,因此|{ps2?s2|ps2?s2∈P}|=2.

      4) 因此,Sim(s1,s2,P

      通過基于元路徑的相似度計(jì)算方式,我們可以基于給定元路徑從校園行為信息網(wǎng)絡(luò)中計(jì)算得到所有學(xué)生之間的相似度.以學(xué)生作為節(jié)點(diǎn)、相似度作為權(quán)重,構(gòu)建單層學(xué)生相似子網(wǎng)絡(luò).單層學(xué)生相似子網(wǎng)絡(luò)是一個無向帶權(quán)重圖B=(S,),其中每個節(jié)點(diǎn)s∈S代表1個學(xué)生,每條邊e∈連接2個相似的學(xué)生,e上帶有的屬性w代表2個學(xué)生的相似度.

      但是獲得多個子網(wǎng)絡(luò)之后,單層學(xué)生相似子網(wǎng)絡(luò)的權(quán)重并不能表達(dá)學(xué)生之間的相似度.因此為了度量學(xué)生在多個子網(wǎng)絡(luò)中表現(xiàn)出的相似性,我們構(gòu)建多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò)并使用網(wǎng)絡(luò)嵌入的方法得到學(xué)生的向量表示,從而通過計(jì)算向量之間的距離得到學(xué)生之間的相似性.

      2 相關(guān)工作

      本文基于異構(gòu)信息網(wǎng)絡(luò),以信息網(wǎng)絡(luò)的形式重構(gòu)校園行為數(shù)據(jù),構(gòu)建了校園行為信息網(wǎng)絡(luò),使用結(jié)合元路徑方法的網(wǎng)絡(luò)嵌入方法來研究校園行為信息網(wǎng)絡(luò)中的相似搜索.因此,本節(jié)將從基于異構(gòu)信息網(wǎng)絡(luò)的相似性度量和教育數(shù)據(jù)挖掘2個方面介紹本文的相關(guān)工作.

      2.1 基于異構(gòu)信息網(wǎng)絡(luò)的相似性度量

      異構(gòu)信息網(wǎng)絡(luò)被定義為由多種類型的實(shí)體和關(guān)系構(gòu)成的網(wǎng)絡(luò).區(qū)別于傳統(tǒng)的網(wǎng)絡(luò),異構(gòu)信息網(wǎng)絡(luò)包含了不同的類別信息,它們能用來表達(dá)路徑中豐富的語義信息.因此在大部分現(xiàn)實(shí)場景下,異構(gòu)信息網(wǎng)絡(luò)更適合用于對現(xiàn)實(shí)世界進(jìn)行抽象表示.近些年,為了研究復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)之間豐富的聯(lián)系,基于異構(gòu)信息網(wǎng)絡(luò)的數(shù)據(jù)挖掘任務(wù)成為了研究熱點(diǎn),其中包括聚類[10]、分類[11]、鏈接預(yù)測[12]和相似搜索[13]等.比如,Sun等人[10]將元路徑與融入了用戶偏好的聚類相結(jié)合,從而對網(wǎng)絡(luò)中對象聚類;Ji等人[11]基于在1個類中排位更高對象應(yīng)該有更重要作用的思想,提出了基于排序的分類方法RankClass;Kuo等人[12]通過綜合的統(tǒng)計(jì)方法,將異構(gòu)信息網(wǎng)絡(luò)中不同類別的信息建模到一個多層的圖中,并推理出隱藏的鏈接.侯泳旭等人[13]構(gòu)建了包含疾病、基因和病癥節(jié)點(diǎn)的疾病信息網(wǎng)絡(luò),并設(shè)計(jì)了基于元路徑的相似基因搜索算法gSim_Miner.在這些任務(wù)中,異構(gòu)信息網(wǎng)絡(luò)的相似性度量是一個基本并且重要的功能.在下文中,我們將總結(jié)異構(gòu)信息網(wǎng)絡(luò)的相似性度量的相關(guān)工作.

      不少研究者已經(jīng)意識到基于異構(gòu)信息網(wǎng)絡(luò)的相似性度量的重要性.Ni等人[14]在利用科學(xué)文獻(xiàn)中豐富的元數(shù)據(jù)構(gòu)建有向圖的基礎(chǔ)上,設(shè)計(jì)了一個有路徑約束的隨機(jī)游走算法(path-constrained random walks, PCRW)來測量任意類型節(jié)點(diǎn)對之間的相似性.Sun等人[8]考慮到不同類型對象組成的元路徑能表達(dá)語義,提出了PathSim算法,該算法通過對稱的元路徑計(jì)算2個相同類型對象之間的相似性.Shi等人[15]結(jié)合PCRW和PathSim算法,設(shè)計(jì)了HeteSim算法,通過用戶給定的任意的元路徑計(jì)算相同或不同類型的對象相關(guān)性.注意:校園行為信息網(wǎng)絡(luò)與其他常見的異構(gòu)信息網(wǎng)絡(luò)存在不同,學(xué)生常在幾個固定的場所活動,很少前往沒有去過的地點(diǎn),且對于熟悉的地點(diǎn),學(xué)生通常會頻繁前往,即重復(fù)率高,所以在校園信息網(wǎng)絡(luò)中需要以邊上權(quán)重的方式存儲學(xué)生與某地之間產(chǎn)生聯(lián)系的頻度,且一般情況下權(quán)重會比較高.若使用以上的方法計(jì)算元路徑相似度,邊上的權(quán)重信息就會被丟失,例如偶爾去1次圖書館和經(jīng)常出入圖書館會被相似度評價方法視作相同的行為.因此以上方法不適用于本問題.近年來,Shi等人[9]介紹了SemRec算法,并提出用帶有權(quán)重的元路徑來精細(xì)地描述路徑語義,在計(jì)算實(shí)例數(shù)時要求對稱的2個關(guān)系所具有的權(quán)重相等,從而保證被計(jì)算的實(shí)例能夠表達(dá)2個對象之間相似的語義.但是SemRec適用于評分的場景,對于重復(fù)率高的校園數(shù)據(jù)來說,只計(jì)算權(quán)重相等的實(shí)例太過嚴(yán)格,會丟失過多的語義.

      網(wǎng)絡(luò)嵌入是將對象嵌入到低維稠密的向量空間中的技術(shù),能有效捕捉對象的重要信息.因此,許多研究工作將基于元路徑的方法融入網(wǎng)絡(luò)嵌入來得到節(jié)點(diǎn)唯一的向量表達(dá).Metapath2vec[16]和HIN2Vec[17]通過元路徑的隨機(jī)游走得到節(jié)點(diǎn)的序列,并結(jié)合Skip-gram模型從而得到網(wǎng)絡(luò)節(jié)點(diǎn)的嵌入.HEBE[18]提出了異構(gòu)信息網(wǎng)絡(luò)中事件的概念,它將參與同一個事件的對象看為1個整體,即1個事件,并用超邊表示對象之間的多種關(guān)系,從而得到對象的近似.TransPath[19]借用了知識圖譜中的平移機(jī)制的思想,將元路徑當(dāng)作源結(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的平移操作,用于得到元路徑和節(jié)點(diǎn)的嵌入.但是此類方法的拓展性普遍較差,在融合更多數(shù)據(jù)源的數(shù)據(jù)時已有的計(jì)算結(jié)果將被全部重新計(jì)算.

      2.2 教育數(shù)據(jù)挖掘

      近年來,由于學(xué)生相關(guān)數(shù)據(jù)越來越多,教育數(shù)據(jù)挖掘(educational data mining, EDM)已成為一個新興的跨學(xué)科研究領(lǐng)域.EDM指在教育環(huán)境中利用數(shù)據(jù)挖掘的技術(shù)解決實(shí)際的教育教學(xué)問題,從而改善和提高學(xué)生學(xué)習(xí)質(zhì)量,完善學(xué)習(xí)過程與教育管理[20].

      在教育數(shù)據(jù)挖掘中,大部分研究關(guān)注于學(xué)生的學(xué)習(xí)過程[21-26]和學(xué)習(xí)表現(xiàn)[27-33].這些方法通過分析線下或線上的學(xué)習(xí)活動所產(chǎn)生的數(shù)據(jù)來進(jìn)行建模,從而研究和預(yù)測學(xué)生的學(xué)習(xí)行為和學(xué)習(xí)成績.除了學(xué)生的學(xué)習(xí)過程和學(xué)習(xí)表現(xiàn),校園生活等也引起了研究者的注意.Resnik等人[2]分析對大學(xué)生的問卷調(diào)查,使用文本分析主題建模以預(yù)測學(xué)生中的抑郁者.Zhu等人[3]提出了一個從行為畫像到預(yù)測抑郁的無監(jiān)督學(xué)習(xí)模型(動態(tài)RP),該模型通過分析大學(xué)生在圖書館的借閱記錄來評估學(xué)生的拖延癥.Sattar等人[4]介紹了一個框架,該框架利用了多組不同類型的變量,包括了家庭背景、中學(xué)信息、注冊登記和學(xué)分,以預(yù)測學(xué)生退學(xué)的概率.Ye等人[5]給出了多模型多標(biāo)簽的方法,來輔助大學(xué)提供學(xué)生獎學(xué)金和補(bǔ)助金的分配.Guan等人[6]設(shè)計(jì)了Dis-HARD框架,用于預(yù)測學(xué)生應(yīng)給的補(bǔ)助等級.Hang等人[7]將學(xué)生的Check-In數(shù)據(jù)(WIFI訪問日志)整合到二部圖,并編碼學(xué)生、興趣點(diǎn)(point of interest, POI)和活動之間的相關(guān)性,用以預(yù)測POI、查詢相似學(xué)生.

      據(jù)我們所知,在教育環(huán)境下的研究工作只有文獻(xiàn)[7]針對有著相似生活行為學(xué)生的搜索,與本文最為相似.但文獻(xiàn)[7]提出的算法基于LINE進(jìn)行向量嵌入,計(jì)算時會丟失語義信息,并且無法拓展性地融合更多數(shù)據(jù)源.本文將在實(shí)驗(yàn)部分與文獻(xiàn)[7]提出的算法進(jìn)行對比.

      3 SCALE—生活習(xí)慣相似學(xué)生搜索

      SCALE是基于校園行為信息網(wǎng)絡(luò)的生活習(xí)慣相似學(xué)生搜索算法.學(xué)生的校園行為是多種多樣的,因此描述學(xué)生在校行為的數(shù)據(jù)也是多源的,對于單個數(shù)據(jù)源可以構(gòu)建出一個校園行為信息網(wǎng)絡(luò),通過給定的元路徑能得到單層學(xué)生相似子網(wǎng)絡(luò).顯然,單層學(xué)生相似子網(wǎng)絡(luò)所包含的信息是片面的,無法從整體上對學(xué)生之間的相似性進(jìn)行表達(dá).因此需要構(gòu)建多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò),并使用網(wǎng)絡(luò)嵌入的方法將所有學(xué)生映射到低維的向量空間中,從而使相似學(xué)生搜索問題得到簡化.

      圖2展示了SCALE算法的主要流程.

      Fig.2 Algorithm flow introduction of SCALE

      3.1 單層學(xué)生相似子網(wǎng)絡(luò)的構(gòu)建

      根據(jù)不同的數(shù)據(jù)源,構(gòu)建校園行為信息網(wǎng)絡(luò)的方式有很多種.對于行為信息來說,我們首先可以把學(xué)生的所有事件劃分為多個獨(dú)立的行為實(shí)例,用行為實(shí)例作為事件實(shí)例的載體保存在網(wǎng)絡(luò)中.同時,為保證能夠在網(wǎng)絡(luò)的元路徑中提取到明確的語義,我們按如下方式構(gòu)建校園行為信息網(wǎng)絡(luò):

      1) 根據(jù)校園生活存在的周期性和具體情況設(shè)置時間約束.不失一般性,我們采用與文獻(xiàn)[7]相同的方式將所有的時間劃分到以1周7天為周期,每天4個時間段(從0點(diǎn)開始,每6 h為1個時間段)所組成的28個時間約束中.

      2) 將同一個時間約束下,同一個地點(diǎn)發(fā)生的相同類型的事件實(shí)例保存在同一個行為實(shí)例對象中存入校園行為信息網(wǎng)絡(luò).并與對應(yīng)的時間約束、地點(diǎn)和事件類型對象相連,鏈接的權(quán)重為1.

      3) 將每個學(xué)生作為1個對象存入網(wǎng)絡(luò),并與參與的行為實(shí)例對象相連,鏈接的權(quán)重為參與的次數(shù).

      自然地,所有的行為實(shí)例都具有時間約束、地點(diǎn)及事件類型屬性.因此上述的校園行為信息網(wǎng)絡(luò)構(gòu)建方式對于所有的校園行為都適用.但校園行為信息網(wǎng)絡(luò)的表達(dá)能力是可拓展的.針對一些具有特殊屬性的行為實(shí)例,也可以將這些屬性作為節(jié)點(diǎn)加入到校園行為信息網(wǎng)絡(luò)中,使網(wǎng)絡(luò)包含更豐富的語義.例如,對于學(xué)生的消費(fèi)行為,可以將“消費(fèi)金額范圍”作為行為實(shí)例的屬性存儲在校園行為信息網(wǎng)絡(luò)中,從而使元路徑“學(xué)生—行為實(shí)例—消費(fèi)金額范圍—行為實(shí)例—學(xué)生”表達(dá)2個學(xué)生消費(fèi)金額相近的語義.

      根據(jù)上述的方式在單數(shù)據(jù)源下構(gòu)建校園行為信息網(wǎng)絡(luò)后,我們可以通過基于元路徑的相似性度量方式計(jì)算學(xué)生之間在此網(wǎng)絡(luò)中的相似度.本文提出一種基于權(quán)重相似度的方式對元路徑的實(shí)例數(shù)進(jìn)行計(jì)算.

      (2)

      (3)

      (4)

      使用帶約束的元路徑相似度計(jì)算公式可以得到所有學(xué)生相互之間的相似度值,從而構(gòu)建學(xué)生相似子網(wǎng)絡(luò).

      例3.對于圖1中展示的校園行為信息網(wǎng)絡(luò)G,給定元路徑P:“學(xué)生—行為實(shí)例—地點(diǎn)—行為實(shí)例—學(xué)生”及權(quán)重相似度閾值α=2.構(gòu)建基于(G,P)的單層學(xué)生相似子網(wǎng)絡(luò)的步驟為:

      3) 同理,s1與s2之間有2條元路徑實(shí)例,s4與其他學(xué)生對象之間無元路徑實(shí)例.s1,s2,s3與自身之間分別有2條、2條、1條元路徑實(shí)例.

      4) 使用wij代表si與sj的相似度,有

      5)s4與其他學(xué)生對象之間的相似度均為0.

      以每一個學(xué)生作為對象,學(xué)生之間相似度作為鏈接的權(quán)重,構(gòu)建基于(G,P)的單層學(xué)生相似子網(wǎng)絡(luò).

      3.2 學(xué)生相似網(wǎng)絡(luò)的構(gòu)建

      單層學(xué)生相似子網(wǎng)絡(luò)只反映了從1個數(shù)據(jù)源中通過1條元路徑語義表達(dá)的學(xué)生相似性,將得到的多個單層學(xué)生相似子網(wǎng)絡(luò)整合起來,形成1個多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò).因?yàn)槊總€學(xué)生一定是和自身完全相似的,所以通過權(quán)重為1的邊將多層網(wǎng)絡(luò)中相同的學(xué)生對象連接起來.從而獲得1個多層的網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)學(xué)生之間的相似關(guān)系.

      SCALE在學(xué)生相似網(wǎng)絡(luò)中采取帶偏的隨機(jī)游走算法生成每個學(xué)生的上下文語義.因?yàn)榫W(wǎng)絡(luò)是多層的,因此隨機(jī)游走的過程中會出現(xiàn)2種情況:1)算法根據(jù)隨機(jī)生成的概率選擇留在本層,以更大概率游走到和當(dāng)前節(jié)點(diǎn)更相似的節(jié)點(diǎn),即與當(dāng)前節(jié)點(diǎn)由更大權(quán)重的邊相連的節(jié)點(diǎn);2)算法選擇游走到網(wǎng)絡(luò)中的其他層,則此步不再做其他操作.通過上述的隨機(jī)游走算法,可以為每一個學(xué)生生成1個由相似節(jié)點(diǎn)組成的序列,表達(dá)其他節(jié)點(diǎn)與當(dāng)前節(jié)點(diǎn)之間的相似關(guān)系.

      3.3 基于網(wǎng)絡(luò)嵌入的相似學(xué)生搜索

      通過帶偏的隨機(jī)游走算法在學(xué)生相似網(wǎng)絡(luò)中獲得每個學(xué)生與其他學(xué)生的相似關(guān)系之后,SCALE采用Skip-Gram模型對所有的隨機(jī)游走序列進(jìn)行嵌入學(xué)習(xí).從而將所有學(xué)生映射到1個低維的向量空間中,使得每個學(xué)生嵌入的向量保留了學(xué)生相似網(wǎng)絡(luò)中體現(xiàn)的相似性.

      得到所有學(xué)生的向量表示之后,對于每一個查詢學(xué)生,利用余弦相似度計(jì)算此學(xué)生向量與其他所有向量之間的距離,得到距離最小的k個向量,所對應(yīng)的k個學(xué)生即為SCALE的搜索結(jié)果.

      需要注意的是,SCALE在單層學(xué)生相似子網(wǎng)絡(luò)構(gòu)建時采用基于帶約束的元路徑相似度計(jì)算方法度量節(jié)點(diǎn)間相似性,在學(xué)生相似網(wǎng)絡(luò)生成上下文語義和網(wǎng)絡(luò)嵌入時使用帶偏隨機(jī)游走和Skip-Gram模型將學(xué)生映射到低維向量.在其他的應(yīng)用中,可以根據(jù)使用場景,更換上述度量方式或表達(dá)學(xué)習(xí)方法.

      SCALE算法的整體流程如算法1所示.

      算法1.SCALE算法.

      ③ 計(jì)算G中每一對學(xué)生的PathSimC(si,sj,P);

      ④N←由G構(gòu)建的單層學(xué)生相似子網(wǎng)絡(luò);

      ⑥ END FOR

      3.4 并行化

      SCALE算法有3處是可解耦的,因此可以針對本算法設(shè)計(jì)并行化處理方法,從而提高算法效率.

      1) 學(xué)生相似度計(jì)算.在構(gòu)建學(xué)生相似網(wǎng)絡(luò)的過程中,需要對任意2個學(xué)生之間計(jì)算相似度.而不同對學(xué)生之間計(jì)算相似度的過程是互不影響的,因此在學(xué)生相似度計(jì)算時,即單層學(xué)生相似子網(wǎng)絡(luò)的構(gòu)建過程中可以使用多進(jìn)程(線程)提升程序運(yùn)行效率.

      2) 學(xué)生相似網(wǎng)絡(luò)構(gòu)建.構(gòu)建不同的學(xué)生相似子網(wǎng)絡(luò)的過程是相互獨(dú)立的,在相似網(wǎng)絡(luò)構(gòu)建的過程中網(wǎng)絡(luò)之間不會互相影響,因此可以使用多進(jìn)程(線程)完成學(xué)生相似網(wǎng)絡(luò)的構(gòu)建過程.

      3) 構(gòu)建學(xué)生相似網(wǎng)絡(luò)之后,需要針對每個學(xué)生使用帶偏隨機(jī)游走算法生成大量的隨機(jī)游走序列,此處可用2個思路實(shí)現(xiàn)并行化:①每個進(jìn)程(線程)都對所有的學(xué)生生成部分隨機(jī)游走序列,全部運(yùn)行完成后將結(jié)果進(jìn)行拼接得到1個學(xué)生所有的隨機(jī)游走序列.②每個進(jìn)程(線程)只對部分學(xué)生生成所有的隨機(jī)游走序列,全部運(yùn)行完成后得到所有學(xué)生的隨機(jī)游走序列.

      同時,因?yàn)镾CALE算法構(gòu)建學(xué)生相似網(wǎng)絡(luò)的過程是解耦的,因此SCALE算法是一個可拓展的方法.當(dāng)添加新的數(shù)據(jù)源或元路徑時,只需將新獲得的單層學(xué)生相似子網(wǎng)絡(luò)加入到之前已經(jīng)構(gòu)建好的學(xué)生相似網(wǎng)絡(luò)中即可進(jìn)行后續(xù)計(jì)算.之前計(jì)算得到的學(xué)生相似網(wǎng)絡(luò)無需重新進(jìn)行計(jì)算,由此節(jié)約了運(yùn)算資源.

      4 實(shí) 驗(yàn)

      本文利用真實(shí)的數(shù)據(jù)集驗(yàn)證校園行為信息網(wǎng)絡(luò)的適用性和相似學(xué)生搜索算法SCALE的有效性以及執(zhí)行效率.實(shí)驗(yàn)源碼存放于https:github.comhdwxaSCALE.git.

      4.1 數(shù)據(jù)集介紹及實(shí)驗(yàn)設(shè)置

      本文使用2018年3月1日—11月30日期間,四川大學(xué)3個校區(qū)內(nèi)采集到的6個不同學(xué)院共2 449名學(xué)生在校行為數(shù)據(jù)進(jìn)行本次實(shí)驗(yàn).該數(shù)據(jù)包含2個數(shù)據(jù)源:1)后勤集團(tuán)數(shù)據(jù)(source1).學(xué)生在校園內(nèi)食堂、便利店及澡堂等地點(diǎn)的消費(fèi)記錄,共包含1 276 806個事件實(shí)例.2)保衛(wèi)處數(shù)據(jù)(source2).學(xué)生進(jìn)出教學(xué)樓、球場、寢室樓的門禁記錄,共包含752 361個事件實(shí)例.表1分別展示了相關(guān)的事件實(shí)例數(shù)為Top-5的地點(diǎn)和事件類型,及它們對應(yīng)的事件實(shí)例數(shù).

      Table 1 Top-5 Locations and Event Types with Highest Number of Event Instances

      表2列出了通過每個數(shù)據(jù)源構(gòu)建的校園信息網(wǎng)絡(luò)的具體規(guī)模.

      Table 2 Size of Campus Behavior Information Networks

      為驗(yàn)證SCALE算法的有效性和執(zhí)行效率,本文在真實(shí)數(shù)據(jù)集上運(yùn)行SCALE算法,挖掘Top-k生活習(xí)慣相似學(xué)生.從有效性測試、模型簡化測試以及應(yīng)用實(shí)例3方面說明SCALE算法的有效性.并驗(yàn)證SCALE算法采取的并行化策略對執(zhí)行效率的提升效果.

      4.2 SCALE有效性測試

      與本文工作相似的最新工作是由文獻(xiàn)[7]提出的EDHG算法,對于給定的查詢學(xué)生s、向量嵌入維度d和負(fù)采樣個數(shù)m,EDHG可以找到Top-k個相似學(xué)生,但無法提供對結(jié)果相似的語義解釋.

      同時,本文還將校園行為信息網(wǎng)絡(luò)轉(zhuǎn)化為矩陣的形式記錄學(xué)生在2個數(shù)據(jù)源中參與某個事件類型、時間約束和地點(diǎn)的行為實(shí)例的次數(shù),針對每位學(xué)生構(gòu)建9×28×101的3維張量.其中后勤集團(tuán)數(shù)據(jù)包含6種事件類型及44個地點(diǎn),保衛(wèi)處數(shù)據(jù)包含3種事件類型及57個地點(diǎn),時間約束個數(shù)均為28.通過主成分分析得到每位學(xué)生在事件類型、時間約束和地點(diǎn)維度上的第1主成分作為每位學(xué)生的向量表示,以此搜索Top-k的相似學(xué)生,與SCALE算法進(jìn)行效果對比,從而說明SCALE算法獲取校園行為信息網(wǎng)絡(luò)中信息的準(zhǔn)確性.3種算法分別記為PCA-c,PCA-τ,PCA-l.

      文獻(xiàn)[7]提出使用共現(xiàn)行為,即2位學(xué)生在很短的時間內(nèi)(本次實(shí)驗(yàn)設(shè)置為2 min)同時出現(xiàn)在同一個地點(diǎn),作為學(xué)生之間是否在行為上相似的一種評判方式.2位學(xué)生之間共現(xiàn)行為越多,則這2位學(xué)生生活習(xí)慣就更為相似.本文采取與文獻(xiàn)[7]相同的方式作為評估模型效果的指標(biāo).以共現(xiàn)行為最高的k個學(xué)生為標(biāo)準(zhǔn),對SCALE算法找到的Top-k個相似學(xué)生使用平均相關(guān)排名(mean reciprocal rank,MRR)進(jìn)行評估.平均相關(guān)排名的計(jì)算方式為

      (5)

      其中,U為全部查詢學(xué)生的集合,Fi為使用共現(xiàn)行為找出學(xué)生i的|Fi|=k個相似生活習(xí)慣的學(xué)生,Rank(j)為學(xué)生j由SCALE算法計(jì)算出的排名.MRR得分越高,說明SCALE算法的效果越好.

      實(shí)驗(yàn)過程中,SCALE算法需要設(shè)置的參數(shù)有:每次查詢搜索的相似生活習(xí)慣學(xué)生個數(shù)k、計(jì)算學(xué)生相似度時的權(quán)重相似度閾值α、多層學(xué)生相似網(wǎng)絡(luò)中對每個節(jié)點(diǎn)產(chǎn)生隨機(jī)游走序列的個數(shù)n,以及使用Skip-Gram模型進(jìn)行向量嵌入的維度d.為保證提取的相似語義充分且不重復(fù),實(shí)驗(yàn)在元路徑“學(xué)生—行為實(shí)例—學(xué)生”上計(jì)算相似度.表3記錄了將四川大學(xué)學(xué)生在校行為數(shù)據(jù)分別應(yīng)用于PCA-c,PCA-τ,PCA-l,EDHG算法和SCALE算法得到的結(jié)果.

      Table 3 MRR Scores

      在表3中可以看出,在k=2時,SCALE算法和EDHG算法的效果相近,且都比PCA-c,PCA-τ,PCA-l效果好.隨著k的增大,5種算法的MRR得分都呈現(xiàn)增長趨勢,并且SCALE算法的得分始終高于其他4種算法,說明本文提出的SCALE算法在尋找相似生活習(xí)慣學(xué)生的任務(wù)上比其他4種算法效果更好.在k=10時,SCALE算法相對于PCA-c,PCA-τ,PCA-l,EDHG算法的效果提升分別達(dá)到了391%,115%,70.3%,65.4%.同時可以發(fā)現(xiàn),在k增大時,SCALE算法相對于其他4種算法效果提升得更為明顯,說明SCALE算法的效果在k取較大的值時更有優(yōu)勢.

      Fig. 3 Influence on SCALE with respect to parameters

      圖3(a)~(c)分別展示了在完整數(shù)據(jù)集下參數(shù)α,n,d對于SCALE算法效果的影響.圖3(a)中可以看出,隨著權(quán)重相似度閾α變大,算法的效果呈現(xiàn)先升后降的趨勢,在α=1.4時,SCALE算法取得最好的效果,因此默認(rèn)情況下設(shè)置α=1.4.由圖3(b)可以看出隨著每個節(jié)點(diǎn)產(chǎn)生隨機(jī)游走序列個數(shù)n的增大,SCALE的效果也逐漸變好,但當(dāng)n由128增大至256時,模型效果的提升很微弱,因此本次實(shí)驗(yàn)?zāi)J(rèn)將n設(shè)置為128.由圖3(c)觀察可知,當(dāng)d=32時SCALE效果最好,因此默認(rèn)設(shè)置d=32.

      4.3 模型簡化測試

      在圖3(a)中,當(dāng)權(quán)重相似度閾值α=1時,PathSimC等價于文獻(xiàn)[9]提出的算法,當(dāng)α為正無窮時,PathSimC等價于PathSim算法,SCALE算法的效果在α=1.4時獲得最好效果,說明PathSimC相對于之前的方法可以更好地保留學(xué)生之間相似生活習(xí)慣的信息.

      我們還將沒有構(gòu)建多層學(xué)生相似網(wǎng)絡(luò)的單數(shù)據(jù)源Na?ve算法與SCALE算法進(jìn)行對比,說明在多數(shù)據(jù)源情況下使用SCALE算法的有效性.在本實(shí)驗(yàn)中,使用消費(fèi)數(shù)據(jù)和門禁數(shù)據(jù)的Na?ve算法分別記為Na?ve-C和Na?ve-E,對比結(jié)果記錄在圖3(d)中.可以看出,SCALE算法的效果始終好于2種Na?ve算法,說明使用多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò)可以更好地保留多數(shù)據(jù)源中的學(xué)生生活習(xí)慣信息.

      4.4 應(yīng)用實(shí)例

      SCALE算法使用的相似度計(jì)算方法是基于元路徑的,因此SCALE算法相對于EDHG算法的另一個優(yōu)點(diǎn)就是還保留了原始數(shù)據(jù)中的語義信息.本實(shí)驗(yàn)展示2種應(yīng)用場景下SCALE算法的Top-k搜索結(jié)果.

      1) 在消費(fèi)和門禁2個數(shù)據(jù)源中都使用元路徑“學(xué)生—行為實(shí)例—學(xué)生”計(jì)算相似度.相似度高的學(xué)生說明他們更傾向于在同一時間、同一地點(diǎn)產(chǎn)生相同的行為.

      2) 僅使用消費(fèi)數(shù)據(jù)源,將“消費(fèi)金額范圍”作為行為實(shí)例的屬性存儲在校園行為信息網(wǎng)絡(luò)中,使用元路徑“學(xué)生—行為實(shí)例—消費(fèi)金額范圍—行為實(shí)例—學(xué)生”和元路徑“學(xué)生—行為實(shí)例—地點(diǎn)—行為實(shí)例—學(xué)生”計(jì)算相似度,相似度高的學(xué)生說明他們消費(fèi)金額相近且喜歡去相同的地方消費(fèi),即消費(fèi)能力相似.

      本文隨機(jī)抽取了3位學(xué)生,并展示針對他們搜索得到的Top-10相似的學(xué)生來說明結(jié)果的合理性.為方便對比,展示時使用“專業(yè)—班號—學(xué)號后2位”代替學(xué)號.由表4的結(jié)果可以看出,在第1種應(yīng)用場景下,尋找到的相似學(xué)生絕大多數(shù)都是相同專業(yè)甚至是相同班級的學(xué)生,這是因?yàn)橄嗤瑢I(yè)和班級學(xué)生的上課時間安排及主要活動區(qū)域是一致的,因此他們更傾向于在相同時間前往相同的教學(xué)樓、食堂、宿舍等區(qū)域,說明SCALE算法在計(jì)算相似性時成功捕獲了此類信息.同時我們可以發(fā)現(xiàn)一些有趣的現(xiàn)象:第2位和第3位查詢學(xué)生在其搜索到的相似學(xué)生中都各自出現(xiàn)了1個非本專業(yè)的學(xué)生.我們通過查看以上學(xué)生的基本信息,發(fā)現(xiàn)第2位同學(xué)與其相似的非本專業(yè)相似學(xué)生性別都為女性,我們推測她們可能是好友.第3位同學(xué)與其相似的非本專業(yè)同學(xué)為不同性別(與其他相似同學(xué)均為同性別),推測他們可能是情侶.

      Table 4 Top-10 Similar Students Found by SCALE

      而在第2種應(yīng)用場景下,不再出現(xiàn)大多數(shù)相似學(xué)生專業(yè)、班級甚至性別屬性相同的情況.這和常識相符,因?yàn)榈?種場景下元路徑所表達(dá)的語義為消費(fèi)能力相似,與專業(yè)、班級或性別屬性的相關(guān)性較小.

      可見SCALE算法具有很好的靈活性,根據(jù)語義設(shè)置不同的元路徑可以獲取學(xué)生之間不同的相似性.

      4.5 SCALE執(zhí)行效率

      為了驗(yàn)證SCALE算法并行化策略對效率的提升效果,本文使用不采取并行化策略的SCALE-Ser算法和使用了并行化策略的SCALE算法在不同數(shù)據(jù)規(guī)模下對比執(zhí)行時間.同時驗(yàn)證SCALE算法在數(shù)據(jù)規(guī)模上的拓展性,本實(shí)驗(yàn)在合成數(shù)據(jù)集上完成.

      若無特殊說明,實(shí)驗(yàn)過程中參數(shù)設(shè)置與有效性實(shí)驗(yàn)中保持一致.并行化使用最大進(jìn)程數(shù)為10的進(jìn)程池實(shí)現(xiàn).在圖4(a)中可以看出,SCALE算法相對于SCALE-Ser算法有顯著的效率提升.但只降低到了原時間規(guī)模的40%左右,并沒有在最大進(jìn)程數(shù)為10的情況下將效率提升到預(yù)期的10倍.這是因?yàn)椴⑿谢椒ㄖ粚CALE算法的學(xué)生相似網(wǎng)絡(luò)構(gòu)建和隨機(jī)游走部分進(jìn)行了并行化,并沒有對網(wǎng)絡(luò)嵌入和Top-k搜索步驟采取并行測量,因此并行化并不能完全達(dá)到預(yù)期的效果.

      同時我們可以發(fā)現(xiàn),隨著數(shù)據(jù)集規(guī)模的增大,SCALE算法的耗時呈非線性關(guān)系增大趨勢,這是因?yàn)樵跇?gòu)建學(xué)生相似網(wǎng)絡(luò)部分需要計(jì)算任意2個學(xué)生之間的相似度,通過Skip-Gram模型進(jìn)行向量嵌入時也需要與其他所有學(xué)生作對比,因此當(dāng)數(shù)據(jù)規(guī)模增大時需要進(jìn)行的計(jì)算次數(shù)以平方規(guī)模增長,因此時間的增加呈現(xiàn)非線性趨勢.

      圖4(a)中還可以看出,SCALE算法具有較好的拓展性,在學(xué)生規(guī)模達(dá)到20 000時仍然可以支持相似學(xué)生的搜索.真實(shí)環(huán)境下,在上萬人中搜索相似學(xué)生已經(jīng)可以滿足絕大多數(shù)需求,因此本算法是具有現(xiàn)實(shí)意義的.

      Fig.4 Scalability test and runtime with respect to parameters

      圖4的(b)~(d)分別展示了參數(shù)α,n,d對SCALE算法效率的影響.圖4(b)中可以看出α對于SCALE算法效率的影響不大,只有在α較小時耗時略低,這是因?yàn)樵讦梁芙咏?時,構(gòu)建學(xué)生相似網(wǎng)絡(luò)過程中只有很少的學(xué)生之間有邊連接,因此導(dǎo)致耗時較短.在α增長到1.4后SCALE算法的效率保持穩(wěn)定.參數(shù)n對SCALE算法效率的影響在隨機(jī)游走和網(wǎng)絡(luò)嵌入2部分,圖4(c)中可以看出,參數(shù)n以乘方規(guī)模增大時,SCALE算法耗時也呈非線性增長,但是增長速度沒有達(dá)到乘方規(guī)模.圖4(d)中展示了SCALE算法隨參數(shù)d的變化,整體上呈現(xiàn)非線性增長的趨勢,但是在d由16增長至32時,耗時反而下降了,這可能是因?yàn)樵赿=16時,Skip-Gram無法快速收斂,因而導(dǎo)致效率降低.

      5 結(jié) 論

      搜索相似生活習(xí)慣的學(xué)生在教育數(shù)據(jù)挖掘領(lǐng)域是一個值得被關(guān)注的問題,但目前已有的研究存在著語義缺失或不適用于校園場景數(shù)據(jù)等問題,因此本文提出SCALE算法用于搜索校園場景下生活習(xí)慣相似的學(xué)生,在保留學(xué)生間相似語義的情況下設(shè)計(jì)帶約束的元路徑相似度計(jì)算方法解決校園場景數(shù)據(jù)中存在的密集性高的問題,最終得到所有學(xué)生的低維向量表示,從而搜索Top-k的相似生活習(xí)慣學(xué)生.同時,我們將SCALE算法的各部分解耦,通過并行化的方法提升效率.最后,我們在校園環(huán)境采集到的真實(shí)數(shù)據(jù)集中驗(yàn)證了SCALE算法的有效性和執(zhí)行效率.

      因?yàn)镾CALE算法的設(shè)計(jì)是模塊化、易拓展的,因此下一步可以考慮將更多的數(shù)據(jù)源納入SCALE,同時可以嘗試在網(wǎng)絡(luò)嵌入部分使用更為前沿的方法以提升模型的效果.在目前SCALE的算法流程中,并未考慮噪聲對搜索結(jié)果的影響,如何在搜索過程中降低噪聲的影響從而獲得更準(zhǔn)確的結(jié)果是未來需要進(jìn)一步研究的工作.

      猜你喜歡
      數(shù)據(jù)源信息網(wǎng)絡(luò)相似性
      一類上三角算子矩陣的相似性與酉相似性
      淺析當(dāng)代中西方繪畫的相似性
      河北畫報(2020年8期)2020-10-27 02:54:20
      幫助信息網(wǎng)絡(luò)犯罪活動罪的教義學(xué)展開
      刑法論叢(2018年2期)2018-10-10 03:32:22
      非法利用信息網(wǎng)絡(luò)罪的適用邊界
      法律方法(2018年3期)2018-10-10 03:21:34
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
      網(wǎng)絡(luò)共享背景下信息網(wǎng)絡(luò)傳播權(quán)的保護(hù)
      幫助信息網(wǎng)絡(luò)犯罪活動罪若干問題探究
      低滲透黏土中氯離子彌散作用離心模擬相似性
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
      噶尔县| 宁乡县| 红安县| 海门市| 连山| 资源县| 星子县| 兰考县| 和平县| 凤庆县| 宜宾市| 合肥市| 潜山县| 孟村| 枝江市| 会东县| 永修县| 济宁市| 朝阳区| 淳安县| 宜川县| 河东区| 南部县| 广州市| 龙游县| 宝清县| 亳州市| 邹平县| 郸城县| 尖扎县| 松原市| 商河县| 孝昌县| 寿阳县| 嘉义县| 信宜市| 辽宁省| 桦南县| 托克逊县| 蓬安县| 佛坪县|