• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于情境感知的學(xué)習(xí)資源關(guān)聯(lián)分析與推薦模型研究

      2017-03-28 09:24:26吳笛李保強(qiáng)
      中國(guó)遠(yuǎn)程教育 2017年2期
      關(guān)鍵詞:關(guān)聯(lián)分析數(shù)據(jù)挖掘

      吳笛+李保強(qiáng)

      【摘 要】

      向?qū)W習(xí)者推薦情境敏感的學(xué)習(xí)資源與學(xué)習(xí)路徑,能夠有效降低學(xué)習(xí)者在互聯(lián)網(wǎng)遠(yuǎn)程教育中的時(shí)間成本,并且?guī)椭涮岣邔W(xué)習(xí)效率、增強(qiáng)學(xué)習(xí)興趣、優(yōu)化學(xué)習(xí)效果。然而學(xué)習(xí)資源的組織結(jié)構(gòu)比較復(fù)雜,資源關(guān)系存在孤立化的問(wèn)題。如何基于當(dāng)前學(xué)習(xí)情境采用合適的感知技術(shù)和關(guān)聯(lián)分析方法,推薦恰當(dāng)?shù)膫€(gè)性化學(xué)習(xí)內(nèi)容是一個(gè)非常關(guān)鍵的問(wèn)題。本研究提出結(jié)合情境感知技術(shù)和多層次、多關(guān)系的關(guān)聯(lián)算法來(lái)實(shí)現(xiàn)學(xué)習(xí)資源的個(gè)性化推薦,探索基于情境感知的行為特征分析和提取流程,詳細(xì)闡述了基于情境描述和關(guān)聯(lián)推薦的機(jī)制,以期提高個(gè)性化學(xué)習(xí)內(nèi)容推薦的服務(wù)質(zhì)量和效果。

      【關(guān)鍵詞】 情境感知;關(guān)聯(lián)分析;數(shù)據(jù)挖掘;資源推薦

      【中圖分類號(hào)】 G434 【文獻(xiàn)標(biāo)識(shí)碼】 A 【文章編號(hào)】 1009-458x(2017)02-0059-07

      一、引言

      隨著移動(dòng)通信技術(shù)的迅猛發(fā)展和移動(dòng)設(shè)備感知化、智能化、小型化程度的提高,人們逐漸適應(yīng)了通過(guò)隨身攜帶的各類移動(dòng)終端獲取信息。同時(shí),越來(lái)越快的生活節(jié)奏決定了學(xué)習(xí)者的學(xué)習(xí)時(shí)間呈現(xiàn)碎片化的趨勢(shì),更傾向于利用空閑時(shí)間觀看和學(xué)習(xí)各類微小課程來(lái)獲取知識(shí)(陳媛嫄, 2012)。在移動(dòng)智能終端成為學(xué)習(xí)載體的同時(shí),傳感器網(wǎng)絡(luò)、物聯(lián)網(wǎng)以及云計(jì)算和大數(shù)據(jù)等最新的信息技術(shù)相互融合,使得學(xué)習(xí)系統(tǒng)獲取學(xué)習(xí)者的時(shí)間、位置、行為活動(dòng)更加容易。根據(jù)數(shù)據(jù)利用模型計(jì)算事物發(fā)展趨勢(shì)的方法和技術(shù)已經(jīng)得到全面發(fā)展,需要遠(yuǎn)程學(xué)習(xí)系統(tǒng)能夠強(qiáng)化情境敏感化的學(xué)習(xí)資源推送能力。作為智慧學(xué)習(xí)環(huán)境構(gòu)建的基本策略,情境感知指的是系統(tǒng)主動(dòng)感知情境變化,根據(jù)用戶的學(xué)習(xí)需求提供恰當(dāng)?shù)膶W(xué)習(xí)資源和服務(wù)。在遠(yuǎn)程教育領(lǐng)域,網(wǎng)絡(luò)教育資源出現(xiàn)了前所未有的爆發(fā)式增長(zhǎng),給學(xué)習(xí)者提供了海量的資源,資源增長(zhǎng)速度過(guò)快,造成了學(xué)習(xí)者的選擇困難,也弱化了不同情境下學(xué)習(xí)者的學(xué)習(xí)體驗(yàn)。智能化的學(xué)習(xí)資源推送應(yīng)該具備學(xué)習(xí)對(duì)象排序、學(xué)習(xí)路徑推薦和學(xué)習(xí)風(fēng)格識(shí)別等能力,通過(guò)數(shù)據(jù)挖掘等大數(shù)據(jù)領(lǐng)域的新技術(shù),提升情境感知改善在線學(xué)習(xí)體驗(yàn)的效果。

      二、推薦模式

      基于情境感知的學(xué)習(xí)資源智能推薦的推理邏輯基礎(chǔ)是學(xué)習(xí)者的用戶模型與知識(shí)模型之間的關(guān)聯(lián)。用戶模型需要體現(xiàn)學(xué)習(xí)者的學(xué)習(xí)風(fēng)格和認(rèn)知水平,并且能夠關(guān)聯(lián)具有適應(yīng)學(xué)習(xí)者能力的動(dòng)態(tài)課程內(nèi)容,智能地向用戶推薦最佳學(xué)習(xí)活動(dòng)序列和學(xué)習(xí)資源(Schilit, Adams, & Want, 1994)。這種動(dòng)態(tài)的學(xué)習(xí)活動(dòng)序列生成能夠根據(jù)具體的學(xué)習(xí)目標(biāo)、依據(jù)學(xué)習(xí)者的個(gè)性差異修正出一套切實(shí)可行的學(xué)習(xí)方案,實(shí)時(shí)觀測(cè)和分析系統(tǒng)中用戶的學(xué)習(xí)風(fēng)格和資源媒體格式的選擇傾向,整合用戶的學(xué)習(xí)目標(biāo)、學(xué)習(xí)任務(wù)、操作步驟、交互形式和評(píng)價(jià)機(jī)制等,形成一個(gè)有機(jī)的、動(dòng)態(tài)化的學(xué)習(xí)過(guò)程(Wang, Dong, & Chin, 2004)。

      情境感知推動(dòng)學(xué)習(xí)資源精確推薦的核心是基于規(guī)則分析的資源搜索引擎。引擎的規(guī)則來(lái)源需要通過(guò)智能裝備感知到學(xué)習(xí)者所處的情境,然后通過(guò)情境特征明確其學(xué)習(xí)需求。情境感知特征根據(jù)不同的感知軟硬件模塊可以分為不同的種類,最基本的包括各種豐富的物理傳感器信息,通過(guò)綜合分析這些特征,生成用戶情境化的信息需求并進(jìn)行語(yǔ)義化表示,盡可能真實(shí)地還原用戶的行為模式和實(shí)時(shí)場(chǎng)景,并對(duì)信息資源的適用情境進(jìn)行語(yǔ)義化標(biāo)注,判斷和預(yù)測(cè)學(xué)習(xí)者的行為目標(biāo),實(shí)現(xiàn)精準(zhǔn)的信息推薦(Rani & Vyas, 2015)。情境建模的重點(diǎn)是情境上下文的構(gòu)建,首先需要確定的是需要獲取哪些情境要素,基本的學(xué)習(xí)情境要素可以包括人物屬性、軟硬件數(shù)據(jù)上下文、學(xué)習(xí)習(xí)慣和偏好、當(dāng)前的學(xué)習(xí)目的及任務(wù)等,然后再根據(jù)要素進(jìn)行推理,理解學(xué)習(xí)者的行為模式和當(dāng)前的意圖,提升面向移動(dòng)用戶的推薦系統(tǒng)(錢(qián)增瑾, 孫東平, 2013)。

      隨著學(xué)習(xí)者在遠(yuǎn)程移動(dòng)學(xué)習(xí)活動(dòng)中參與度的增強(qiáng),用戶情境與學(xué)習(xí)需求的關(guān)聯(lián)準(zhǔn)確度直接決定著學(xué)習(xí)資源推薦質(zhì)量的高低。而移動(dòng)用戶自身位置敏感性等特點(diǎn)又要求學(xué)習(xí)系統(tǒng)的反饋能夠更加及時(shí),相關(guān)的資源推薦能反應(yīng)學(xué)習(xí)者的短期興趣及情境變化等。這需要增強(qiáng)自適應(yīng)學(xué)習(xí)中有關(guān)情境要素與學(xué)習(xí)者行為之間關(guān)聯(lián)信息的數(shù)據(jù)挖掘技術(shù),揭示不同用戶不同情境特征與學(xué)習(xí)資源之間最直接的關(guān)系,探索學(xué)習(xí)者在自適應(yīng)學(xué)習(xí)中的行為規(guī)律,輔助提高學(xué)習(xí)者的學(xué)習(xí)效率(如圖1所示)。

      三、情境要素的收集與處理

      情境要素是表征任何情境實(shí)體狀態(tài)的相關(guān)信息元素,包括相關(guān)的人、事物或抽象模型。情境要素的屬性值是具有限定范圍的,屬性之間相互關(guān)聯(lián),并且與具體的環(huán)境或場(chǎng)景緊密聯(lián)系(何軍, 劉紅巖, 杜小勇, 2007)。情境模型的構(gòu)建首先必須確定情境要素的類型與范圍,構(gòu)建的流程并沒(méi)有統(tǒng)一的定義,在學(xué)習(xí)資源推薦系統(tǒng)中對(duì)情境要素的界定需要考慮學(xué)習(xí)者使用的設(shè)備和所處的學(xué)習(xí)環(huán)境,比商業(yè)服務(wù)中只對(duì)位置和用戶偏好敏感的情境感知更加復(fù)雜。學(xué)習(xí)環(huán)境中情境要素可以從不同的角度進(jìn)行大致的劃分,從時(shí)間維度上可以分為歷史情境和實(shí)時(shí)情境,還有些情境要素是通過(guò)物理傳感設(shè)備實(shí)時(shí)獲取的,更多的要素則是通過(guò)數(shù)據(jù)的收集整理歸納得到,所以也可以分為直接情境和間接情境。

      情境要素的分類可以參考表1。實(shí)時(shí)情境基本上來(lái)源于物理傳感信息和應(yīng)用軟件的實(shí)時(shí)數(shù)據(jù)和使用參數(shù),例如用戶所處的時(shí)間、位置、網(wǎng)絡(luò)狀況和運(yùn)動(dòng)參數(shù),以及正在使用軟件應(yīng)用的具體行為,包括瀏覽網(wǎng)址,正在學(xué)習(xí)的課程和網(wǎng)絡(luò)社交行為等(徐光祐, 史元春, 謝偉凱, 2003)。歷史情境是非常重要的情境判斷背景因素,例如學(xué)習(xí)者的身份信息、學(xué)習(xí)背景和學(xué)習(xí)偏好可以視為用戶的學(xué)習(xí)歷史情境,其中一部分身份信息相關(guān)數(shù)據(jù)可以事先錄入到系統(tǒng)中,其他信息則是經(jīng)過(guò)長(zhǎng)期的歷史數(shù)據(jù)和情境日志分析進(jìn)行信息過(guò)濾和合成而組成的新的情境要素。實(shí)時(shí)情境的各項(xiàng)數(shù)據(jù)基本上都可以通過(guò)歸納整理形成對(duì)應(yīng)的歷史情境,如用戶具有規(guī)律性的位置變化形成用戶的運(yùn)動(dòng)路徑情境,運(yùn)動(dòng)參數(shù)的變化可以構(gòu)成行為或行動(dòng)分析的數(shù)據(jù)基礎(chǔ),學(xué)習(xí)課程的歷史數(shù)據(jù)可以提煉出用戶的學(xué)習(xí)習(xí)慣與興趣偏好等。

      隨著數(shù)據(jù)挖掘等新技術(shù)對(duì)情境感知智能化的提升,系統(tǒng)對(duì)情境數(shù)據(jù)的深入分析能力進(jìn)一步增強(qiáng),間接情境逐漸具有重要的地位。如圖2所示,普通的情境要素收集和獲取更多的是直接從原始數(shù)據(jù)進(jìn)行歸納和推理,而直接獲取的情境要素可以作為數(shù)據(jù)來(lái)源構(gòu)成間接情境要素的分析和分類依據(jù)。間接情境的獲取不需要用戶介入,主要通過(guò)統(tǒng)計(jì)分析、推理規(guī)則或數(shù)據(jù)挖掘的方法從軟硬件環(huán)境中直接獲取的數(shù)據(jù)推理得到用戶的間接情境要素(莫同, 李偉平, 吳中海, 褚偉杰, 2010)。這部分要素是自適應(yīng)學(xué)習(xí)資源推送的基礎(chǔ)與支撐,因?yàn)樗遣粫?huì)隨著時(shí)間改變或者改變很慢的信息,能夠大致圈定用戶所屬的學(xué)習(xí)風(fēng)格和學(xué)習(xí)資源的推薦范圍;而直接情境要素對(duì)于精確定位用戶的實(shí)時(shí)需求起著關(guān)鍵作用,兩者共同構(gòu)成自適應(yīng)學(xué)習(xí)資源推薦中情境模型建立的基礎(chǔ)。

      四、情境描述與推理

      1. 推理過(guò)程

      為實(shí)現(xiàn)情境感知的信息服務(wù)自適應(yīng)個(gè)性化,首先必須識(shí)別獲取用戶當(dāng)前的實(shí)時(shí)情境信息,再根據(jù)歷史情境進(jìn)行推理判斷,獲取用戶的學(xué)習(xí)目標(biāo)和最佳的學(xué)習(xí)方式,這不是通過(guò)簡(jiǎn)單直接的方式就能確定的,需要對(duì)學(xué)習(xí)者的行為進(jìn)行動(dòng)態(tài)采集、分析和評(píng)價(jià)三個(gè)階段(童恩棟, 2011)。首先跟蹤和分析自適應(yīng)學(xué)習(xí)資源推薦系統(tǒng)中學(xué)習(xí)者學(xué)習(xí)的過(guò)程,建立學(xué)習(xí)者行為模型,然后根據(jù)收集的學(xué)習(xí)行為歷史數(shù)據(jù),采用關(guān)聯(lián)分析和數(shù)據(jù)挖掘的方法尋求情境數(shù)據(jù)與學(xué)習(xí)資源知識(shí)庫(kù)之間的聯(lián)系,構(gòu)建動(dòng)態(tài)關(guān)聯(lián)模型。其中動(dòng)態(tài)關(guān)聯(lián)是指在不同的情境空間和時(shí)間維度上,不同的情境要素具有不同的權(quán)重和相關(guān)系數(shù),需要根據(jù)學(xué)習(xí)者的實(shí)時(shí)反饋和學(xué)習(xí)效果形成評(píng)估結(jié)果,對(duì)個(gè)性化的學(xué)習(xí)資源進(jìn)行檢索和動(dòng)態(tài)的推薦。

      過(guò)去的情境描述與推理模型大部分是在本體構(gòu)建和語(yǔ)義檢索的基礎(chǔ)上建立的,這種情境推理的個(gè)性化學(xué)習(xí)服務(wù)方法一般至少需要構(gòu)建兩個(gè)情境本體:用戶情境本體和知識(shí)本體,同時(shí)還需要建立用戶情境到知識(shí)推薦之間的推理規(guī)則,由推理規(guī)則生成適應(yīng)不同情境的具體推理規(guī)則實(shí)例,最后形成通過(guò)用戶具體的情境狀態(tài)推理出滿足其情境期望的服務(wù)集合的資源推薦過(guò)程(Premlatha & Geetha, 2015)。這種方法能夠清晰地描述情境元素以及精確地定位知識(shí)本體數(shù)據(jù)資源,因?yàn)槭孪纫呀?jīng)通過(guò)本體相關(guān)的推理工具完成了知識(shí)庫(kù)的構(gòu)建。但這種推理過(guò)程必須建立在前期大量的數(shù)據(jù)分析和準(zhǔn)備工作之上,包括本體元素的描述約束和知識(shí)庫(kù)的本體化構(gòu)建等,雖然有將模糊的情境信息精確化的優(yōu)點(diǎn),但是數(shù)據(jù)的預(yù)處理非常繁雜,難以滿足大規(guī)模學(xué)習(xí)資源數(shù)據(jù)集搜索的需要。為了避免大量的本體描述和標(biāo)注工作,目前更傾向于采用大數(shù)據(jù)技術(shù)的相關(guān)數(shù)據(jù)挖掘處理方法來(lái)構(gòu)建關(guān)聯(lián)模型,使用過(guò)濾、分類、聚類、關(guān)聯(lián)、序列分析等方法實(shí)現(xiàn)情境數(shù)據(jù)到知識(shí)推送的邏輯推理過(guò)程(趙宏, 陳麗, 趙玉婷, 2015)。

      2. 情境特征提取

      首先需要關(guān)注的是用戶情境特征的表示,給定情境數(shù)據(jù)時(shí)間序列,其中表示一個(gè)情境片段,每個(gè)片段包含了該時(shí)間點(diǎn)采集的所有情境要素?cái)?shù)值,相鄰的情境片段具有相似的情境要素(陳毅波, 2012)。由于不同學(xué)習(xí)者在學(xué)習(xí)的不同階段會(huì)有不同的情境切換模式,因此我們需要利用情境數(shù)據(jù)的內(nèi)在統(tǒng)計(jì)相關(guān)特性,對(duì)情境數(shù)據(jù)進(jìn)行分類,提取情境會(huì)話的關(guān)鍵特征。

      由于情境數(shù)據(jù)的維度是相對(duì)固定的,情境特征的多維數(shù)據(jù)正好構(gòu)成向量表達(dá),而多維向量可以放置到多維空間中,通過(guò)計(jì)算多維空間的余弦距離或歐氏距離形成情境之間的關(guān)系,然后通過(guò)聚類算法提取和描述用戶的關(guān)鍵特征。目前,主流的聚類算法有很多,包括基于劃分的聚類算法、基于密度的聚類算法和基于流的聚類算法(吳鵬飛, 余勝泉, 2015)。因?yàn)椴煌脩魧W(xué)習(xí)情境的差別可能會(huì)很大,所以需要根據(jù)不同的場(chǎng)景選擇合適的聚類規(guī)模參數(shù)。以常用的K-means聚類算法為例,提取情境特征時(shí)向量之間的差異值計(jì)算公式可以為:

      式(1)中為情境要素類型,表示情境會(huì)話向量和在情境要素上的差異值,表示向量和在上的指示項(xiàng),表示在情境要素的取值,的計(jì)算如下:

      通過(guò)K-means對(duì)情境會(huì)話聚類的細(xì)節(jié)描述如下:首先根據(jù)情境要素的取值頻率和大致范圍確定情境會(huì)話的初始數(shù)量K,即期望的情境種類的個(gè)數(shù)。在數(shù)據(jù)稀疏或者缺少歷史數(shù)據(jù)的情況下,可以先大致確定一個(gè)初始數(shù)值,再根據(jù)初步的聚類結(jié)果迭代改進(jìn)K的取值范圍。接下來(lái)隨機(jī)選取K個(gè)中心節(jié)點(diǎn),計(jì)算其他情境會(huì)話最近的中心節(jié)點(diǎn),獲得相同的簇標(biāo)識(shí),最終得到新的每個(gè)聚類的質(zhì)心。該過(guò)程需要不停地迭代,直到聚類結(jié)果穩(wěn)定或者達(dá)到迭代閾值次數(shù)(魏欣楠, 郝忠孝, 2009)。每一個(gè)情境會(huì)話聚類共同反映了一類學(xué)習(xí)情境,可以將該聚類作為數(shù)據(jù)源來(lái)提取用戶情境的描述。

      五、關(guān)聯(lián)分析與推薦

      情境與行為的關(guān)聯(lián)分析最主要的目的是根據(jù)學(xué)習(xí)者目前所處的情境在學(xué)習(xí)資源庫(kù)中搜索并返回最適合的資源提供給他們使用。關(guān)聯(lián)分析的數(shù)據(jù)檢索過(guò)程是動(dòng)態(tài)的,它會(huì)根據(jù)每一次推薦結(jié)果的使用狀況對(duì)自身的關(guān)聯(lián)數(shù)據(jù)進(jìn)行反饋和修正,同時(shí)它也會(huì)根據(jù)使用者的學(xué)習(xí)背景和偏好自動(dòng)適應(yīng)。與推薦相關(guān)的數(shù)據(jù)挖掘算法有很多,包括協(xié)同過(guò)濾算法和關(guān)聯(lián)分析算法等。

      1. 關(guān)聯(lián)規(guī)則分析

      學(xué)習(xí)資源的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是將學(xué)習(xí)者使用的學(xué)習(xí)資源具體類型和順序構(gòu)成一個(gè)學(xué)習(xí)會(huì)話,通過(guò)關(guān)聯(lián)規(guī)則挖掘情境會(huì)話與學(xué)習(xí)會(huì)話之間的關(guān)系,并按照一定的支持度和置信度提取和保留有用的規(guī)則進(jìn)行學(xué)習(xí)推薦應(yīng)用。關(guān)聯(lián)規(guī)則挖掘一般被用來(lái)描述數(shù)據(jù)項(xiàng)之間關(guān)系的規(guī)則,即某些項(xiàng)可能會(huì)同時(shí)出現(xiàn)在一個(gè)事務(wù)中(楊現(xiàn)民, 余勝泉, 張芳, 2013)。關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘一般分為兩步:第一步是從數(shù)據(jù)集合中找出所有的頻繁項(xiàng)集(Frequent ItemSets),第二步是根據(jù)頻繁項(xiàng)集分析得到關(guān)聯(lián)規(guī)則(Association Rules)。

      關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘有兩種,最基本的是針對(duì)單層關(guān)系的數(shù)據(jù)集分析。其流程為:假設(shè)為一個(gè)或一個(gè)以上的項(xiàng)目組成的集合,稱為項(xiàng)目集,事務(wù)(Transaction)是的非空子集,即,關(guān)聯(lián)形式表現(xiàn)為的蘊(yùn)涵式。其中且,和分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼,關(guān)聯(lián)規(guī)則在D中的支持度(support)為D中事務(wù)包含的百分比,置信度(confidence)是包含X的事務(wù)中同時(shí)包含Y的百分比。如果數(shù)據(jù)結(jié)果的支持度和置信度均超過(guò)閾值,則認(rèn)為該關(guān)聯(lián)規(guī)則有效(白云龍, 2014)。

      以表2為例,學(xué)習(xí)資源的項(xiàng)集。對(duì)于關(guān)聯(lián)規(guī)則:,支持度support,置信度confidence。若給定最小支持度和最小置信度均為0.5,即可以認(rèn)為與之間存在關(guān)聯(lián)。

      關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法有很多,其中最基本的無(wú)監(jiān)督學(xué)習(xí)算法為Apriori算法,該算法屬于單維、單層的關(guān)聯(lián)規(guī)則挖掘算法,主要利用了頻繁項(xiàng)集的非空子集也是頻繁的先驗(yàn)性質(zhì)。算法的主要過(guò)程為:首先掃描數(shù)據(jù)庫(kù),確定各“1項(xiàng)集”的支持度,篩選滿足最小支持度的集合L1,L1用于找頻繁“2項(xiàng)集”的集合L2,以此類推,直到因?yàn)闊o(wú)法滿足最小支持度要求而不能產(chǎn)生頻繁項(xiàng)集為止。

      Apriori算法的改進(jìn)有很多,例如增加抽樣(Sampling)技術(shù)、分區(qū)(PARTITION)算法和DHP(Direct-Hush and Prune)算法等,提高了算法的計(jì)算效率,以及泛化關(guān)聯(lián)規(guī)則和周期性關(guān)聯(lián)規(guī)則等。

      2. 多層關(guān)聯(lián)規(guī)則分析

      針對(duì)單層的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘只能發(fā)現(xiàn)學(xué)習(xí)資源庫(kù)內(nèi)部的各項(xiàng)關(guān)聯(lián),如果要考察情境向量實(shí)體與學(xué)習(xí)資源之間的關(guān)聯(lián),還要涉及多層關(guān)聯(lián)規(guī)則。采用多層關(guān)聯(lián)規(guī)則可以有效地發(fā)現(xiàn)情境因素與學(xué)習(xí)者學(xué)習(xí)偏好之間的隱藏關(guān)系,協(xié)助系統(tǒng)自動(dòng)生成知識(shí)學(xué)習(xí)序列,提高資源推薦的精度。多層關(guān)聯(lián)規(guī)則挖掘的研究一般針對(duì)基于星型數(shù)據(jù)模式(multi-dimensional data model)的數(shù)據(jù)庫(kù),處于核心的稱之為事實(shí)表(fact table),并且有多個(gè)維表(dimensional table)與事實(shí)表通過(guò)外鍵關(guān)聯(lián),與事實(shí)表形成一對(duì)多的聯(lián)系(王衛(wèi)軍, 2015)。事實(shí)表一般只包含外鍵關(guān)系,如果還有其他屬性,可以分離出來(lái)形成單獨(dú)的維度表(如圖3所示)。

      從圖3所示的數(shù)據(jù)表中可以得出支持度和置信度為:

      Support(Address=University→Prefer=Logistics)=4/7

      Confidence(Address=University→Prefer=Logistics)=4/5

      假設(shè)最小支持度和最小置信度都超過(guò)閾值1/2,可以得到符合要求的關(guān)聯(lián)規(guī)則:

      Address=University → Prefer=Logistics

      3. 基于ILP的多關(guān)系關(guān)聯(lián)規(guī)則分析

      歸納邏輯程序設(shè)計(jì)(ILP)是機(jī)器學(xué)習(xí)與邏輯程序設(shè)計(jì)的交叉研究領(lǐng)域。歸納邏輯程序設(shè)計(jì)使用了一階邏輯框架,將傳統(tǒng)的單表關(guān)聯(lián)規(guī)則挖掘算法更好地?cái)U(kuò)展到了多表情況。ILP在多關(guān)系環(huán)境下使用一階謂詞邏輯語(yǔ)言表示機(jī)制,通常利用Prolog語(yǔ)言,在其形式化系統(tǒng)中允許在一個(gè)模式中使用多個(gè)變量與關(guān)系,為機(jī)器學(xué)習(xí)提供了更深入的理論和方法,從而克服了描述能力和背景知識(shí)利用的限制(寶騰飛, 2012)。在ILP中,所有的表達(dá)式由常量、變量、謂詞符號(hào)和函數(shù)符號(hào)組成,這些符號(hào)可以組成項(xiàng)、句節(jié)和子句等表達(dá)式。關(guān)聯(lián)規(guī)則是一組具有類似X←Y的形式的語(yǔ)句,其中X、Y均由一組謂詞組成。如果元組給每一變量賦值后使謂詞取值為真的就是支持本謂詞的元組,而同時(shí)滿足關(guān)聯(lián)規(guī)則箭頭兩端的謂詞的元組就是關(guān)聯(lián)規(guī)則的支持元組。

      以如圖4所示的數(shù)據(jù)庫(kù)為例,這是一個(gè)由表student、prefer、where、study組成的多維關(guān)系型數(shù)據(jù)庫(kù),每個(gè)表所代表的關(guān)系用謂詞的形式可以表示為:student(name)、prefer (name, subject)、 where (name, address, time)、study (name,subject)。對(duì)于該數(shù)據(jù)庫(kù),某個(gè)position與subject的關(guān)聯(lián)規(guī)則以Prolog查詢形式可以表現(xiàn)為:

      Student(name), prefer(name, Y), where(name,X, time) →study(name, X, Y)

      當(dāng)且僅當(dāng)該查詢返回非空解時(shí),稱這個(gè)查詢符合數(shù)據(jù)庫(kù)D。對(duì)于一個(gè)特定的數(shù)據(jù)庫(kù),每一個(gè)謂詞的支持度計(jì)算公式為:

      支持度= 符合這個(gè)謂詞的元組數(shù)/所有的元組數(shù)

      一個(gè)關(guān)聯(lián)規(guī)則的支持度為:

      支持度=同時(shí)符合條件謂詞和結(jié)果謂詞的元組數(shù)/符合條件謂詞的元組數(shù)。

      實(shí)體表中的某一個(gè)屬性值是否為真,或者關(guān)系表中某一種關(guān)系是否成立均可以轉(zhuǎn)換為一種謂詞,然后根據(jù)所關(guān)注的謂詞和相應(yīng)的形式,過(guò)濾出那些支持度小于最小支持度閾值的謂詞組合,得到符合要求的關(guān)聯(lián)規(guī)則。

      基于ILP 的技術(shù)挖掘多表關(guān)聯(lián)規(guī)則的典型算法有WARMR 和 FARMER。這類算法使用邏輯原子的方式取代Apriori算法中的項(xiàng)集,使用基于邏輯的DATALOG數(shù)據(jù)查詢語(yǔ)言實(shí)現(xiàn)對(duì)數(shù)據(jù)的演繹推理,通過(guò)分層迭代的方法找到大于閾值的候選集合關(guān)聯(lián)規(guī)則。以WARMR算法為例,該算法采用寬度優(yōu)先的分層方法查找頻繁P(pán)rolog 查詢,首先使用具體化算子和剪枝操作層層迭代產(chǎn)生候選項(xiàng)集,然后通過(guò)計(jì)算候選查詢的支持度確定頻繁項(xiàng)集,整個(gè)迭代過(guò)程持續(xù)到?jīng)]有新頻繁查詢出現(xiàn)時(shí)終止?;贗LP的多關(guān)系關(guān)聯(lián)規(guī)則分析算法具有更強(qiáng)的知識(shí)表達(dá)能力與更大的搜索空間,但在查詢速度優(yōu)化和海量數(shù)據(jù)處理能力上還有不足,近幾年來(lái)已經(jīng)有一些性能更高、伸縮性更強(qiáng)的方法被相繼提出。

      4. 推薦的產(chǎn)生

      通過(guò)不同層次的關(guān)聯(lián)規(guī)則挖掘之后,即可以根據(jù)情境會(huì)話的狀態(tài)對(duì)學(xué)習(xí)者產(chǎn)生推薦。推薦的產(chǎn)生是以“支持—置信”為基礎(chǔ)的,首先根據(jù)不同推薦內(nèi)容的需要進(jìn)行數(shù)據(jù)清理,過(guò)濾掉一些相對(duì)稀疏的數(shù)據(jù)和冷門(mén)的學(xué)習(xí)資源,然后根據(jù)關(guān)聯(lián)規(guī)則的支持度和置信度等參數(shù)和相應(yīng)的閾值進(jìn)行剪枝,把低于最小值的規(guī)則扔掉,最后按照置信度降序排序,Top-N即為當(dāng)前情境最合適的學(xué)習(xí)資源?;谇榫掣兄年P(guān)聯(lián)規(guī)則的挖掘最重要的是數(shù)據(jù)粒度的合適程度,并非數(shù)據(jù)粒度和分辨率越高效果越好,因?yàn)榍榫硶?huì)話或者學(xué)習(xí)資源的分類如果過(guò)于細(xì)致,容易造成數(shù)據(jù)過(guò)于稀疏,數(shù)據(jù)干擾較大,在數(shù)據(jù)挖掘時(shí)無(wú)法形成有效的數(shù)據(jù)關(guān)聯(lián)。

      六、模型的局限性和適用范圍

      在數(shù)據(jù)挖掘的各類關(guān)聯(lián)分析方法中,多關(guān)系關(guān)聯(lián)規(guī)則的提取是比較重要的一種無(wú)監(jiān)督學(xué)習(xí)方法,關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)也是整個(gè)算法流程中最為關(guān)鍵且最耗時(shí)的步驟,因此,使用該模型形成個(gè)性化推薦有一些前提條件以保證數(shù)據(jù)的可靠性和準(zhǔn)確性。

      1. 在處理數(shù)據(jù)前,需要保證對(duì)業(yè)務(wù)邏輯和數(shù)據(jù)關(guān)系的充分理解以及明確目標(biāo)規(guī)則提取的范圍,設(shè)定合理的支持度等查詢參數(shù)大小。由于關(guān)聯(lián)規(guī)則的提取是無(wú)監(jiān)督的,使用DATALOG數(shù)據(jù)查詢語(yǔ)言對(duì)數(shù)據(jù)的演繹推理能夠發(fā)現(xiàn)滿足條件的關(guān)聯(lián)規(guī)則,但它不能判定關(guān)聯(lián)規(guī)則的實(shí)際意義。在系統(tǒng)分析提取的關(guān)聯(lián)規(guī)則當(dāng)中,可能出現(xiàn)主觀上認(rèn)為沒(méi)有多大關(guān)系的數(shù)據(jù),它們之間的關(guān)聯(lián)規(guī)則支持度和可信度卻很高,這需要數(shù)據(jù)分析人員具有足夠豐富的業(yè)務(wù)經(jīng)驗(yàn)對(duì)數(shù)據(jù)有深入的理解,從各個(gè)角度判斷不同關(guān)聯(lián)規(guī)則內(nèi)在的合理性;反之,可能有主觀上認(rèn)為關(guān)系密切的物品,結(jié)果卻顯示它們之間相關(guān)性不強(qiáng)。只有很好地理解業(yè)務(wù)邏輯和關(guān)聯(lián)規(guī)則的意義,才能合理地調(diào)整支持度和可信度等相關(guān)參數(shù),提高關(guān)聯(lián)規(guī)則數(shù)據(jù)分析的準(zhǔn)確性。

      2. 在處理大數(shù)據(jù)時(shí),DATALOG數(shù)據(jù)查詢算法的效率仍有待提高。與傳統(tǒng)數(shù)據(jù)挖掘比較,多關(guān)系數(shù)據(jù)挖掘要搜索的假設(shè)空間變得更大,模式語(yǔ)言強(qiáng)大的表達(dá)能力使它相對(duì)于數(shù)據(jù)庫(kù)查詢語(yǔ)句需要花費(fèi)更高昂的計(jì)算代價(jià)。目前,雖然也有一些分布式的并行計(jì)算方法,但由于數(shù)據(jù)的分區(qū)通常是不對(duì)稱的,如何克服分布式計(jì)算間的數(shù)據(jù)傳輸效率是一個(gè)亟待解決的問(wèn)題。本文采用了聚類方法盡可能地提高模型處理大規(guī)模數(shù)據(jù)和高維數(shù)據(jù)的能力,但是現(xiàn)實(shí)數(shù)據(jù)通常是很復(fù)雜的,會(huì)有數(shù)據(jù)噪聲的產(chǎn)生,即在一組數(shù)據(jù)中無(wú)法解釋的數(shù)據(jù)變動(dòng)和一些不和其他數(shù)據(jù)相一致的數(shù)據(jù)。因此,如何有效地消除噪聲的影響,提高處理現(xiàn)實(shí)數(shù)據(jù)的能力,還有待進(jìn)一步提高。

      3. 關(guān)聯(lián)規(guī)則與其他推薦算法的融合及比較。數(shù)據(jù)分類、關(guān)聯(lián)規(guī)則挖掘和推薦算法之間有一些基本的差別,關(guān)聯(lián)規(guī)則不涉及預(yù)測(cè),也不用提供防止低于或超過(guò)給定支持度的機(jī)制。然而,如何將關(guān)聯(lián)規(guī)則與其他推薦算法進(jìn)行融合,揚(yáng)長(zhǎng)避短,解決傳統(tǒng)算法無(wú)法解決的實(shí)踐問(wèn)題,也是有待研究與探討的。

      七、結(jié)語(yǔ)

      本文探討了個(gè)性化學(xué)習(xí)資源推薦中的情境作用機(jī)制,明確了情境感知特征要素的類型和特征,梳理了直接情境和間接情境的轉(zhuǎn)換過(guò)程。在情境感知的分析理論基礎(chǔ)之上,提出了一個(gè)情境敏感的學(xué)習(xí)資源關(guān)聯(lián)分析與推薦參考模型,并對(duì)其中的情境要素的數(shù)據(jù)處理、特征提取和規(guī)則分析等關(guān)鍵環(huán)節(jié)進(jìn)行了深入的分析,探討了如何將情境元素融入到各類資源推薦算法中。在以后的研究中,將圍繞自適應(yīng)個(gè)性化服務(wù)的用戶模型和知識(shí)模型展開(kāi)更深入的研究,探析動(dòng)態(tài)環(huán)境下情境推理的方法等,并對(duì)具體的算法流程作進(jìn)一步的實(shí)證研究和比較分析。

      [參考文獻(xiàn)]

      白云龍. 2014. 基于Hadoop的數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué).

      寶騰飛. 2012. 面向移動(dòng)用戶數(shù)據(jù)的情境識(shí)別與挖掘[D]. 合肥:中國(guó)科學(xué)技術(shù)大學(xué).

      陳毅波. 2012. 基于關(guān)聯(lián)數(shù)據(jù)和用戶本體的個(gè)性化知識(shí)服務(wù)關(guān)鍵技術(shù)研究[D]. 武漢:武漢大學(xué).

      陳媛嫄. 2012. 基于活動(dòng)的情境感知模型與情境感知交互設(shè)計(jì)[D]. 大連:大連海事大學(xué).

      何軍,劉紅巖,杜小勇. 2007. 挖掘多關(guān)系關(guān)聯(lián)規(guī)則[J]. 軟件學(xué)報(bào)(11): 2752-2765.

      莫同,李偉平,吳中海,褚偉杰. 2010. 一種情境感知服務(wù)系統(tǒng)框架[J]. 計(jì)算機(jī)學(xué)報(bào)(11):2084-2092.

      錢(qián)增瑾,孫東平. 2013. 數(shù)據(jù)挖掘在研究生教育管理信息系統(tǒng)中的應(yīng)用[J]. 學(xué)位與研究生教育(5):46-49.

      童恩棟. 2011. 物聯(lián)網(wǎng)情景感知技術(shù)研究[J]. 計(jì)算機(jī)科學(xué)(4):9-16.

      王衛(wèi)軍. 2015. 高校圖書(shū)館情景敏感服務(wù)及其情景模型構(gòu)建[J]. 情報(bào)理論與實(shí)踐(2):88-92.

      魏欣楠,郝忠孝. 2009. 多關(guān)系數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則挖掘[J]. 自動(dòng)化技術(shù)與應(yīng)用(3):41-43.

      吳鵬飛,余勝泉. 2015. 語(yǔ)義網(wǎng)教育應(yīng)用研究新進(jìn)展:關(guān)聯(lián)數(shù)據(jù)視角[J]. 電化教育研究(7):66-72.

      徐光祐,史元春,謝偉凱. 2003. 普適計(jì)算[J]. 計(jì)算機(jī)學(xué)報(bào)(9):1042-1050.

      楊現(xiàn)民,余勝泉,張芳. 2013. 學(xué)習(xí)資源動(dòng)態(tài)語(yǔ)義關(guān)聯(lián)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 中國(guó)電化教育(1):70-75.

      趙宏,陳麗,趙玉婷. 2015. 基于學(xué)習(xí)風(fēng)格的個(gè)性化學(xué)習(xí)策略指導(dǎo)系統(tǒng)設(shè)計(jì)[J]. 中國(guó)電化教育(5):67-72.

      Premlatha, K. R., & Geetha, T. V. 2015. Learning content design and learner adaptation for adaptive e-learning environment. Artificial Intelligence Review: 1-23.

      Rani, M., & Vyas, O. P. 2015. An ontology-based adaptive personalized e-learning system, assisted by software agents on cloud storage. Knowledge-Based Systems, (10): 33-48.

      Schilit, B., Adams, N., & Want, R. 1994. Context-aware computing applications. IEEE workshop on Mobile Computing Systems and Applications: 85-90.

      Wang Xiaohang, Dong Jinsong, & Chin, C. Y. 2004. Semantic Space: An Infrastructure for Smart Spaces. IEEE Pervasive Computing, 3(3): 32-39.

      猜你喜歡
      關(guān)聯(lián)分析數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
      基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動(dòng)力學(xué)關(guān)聯(lián)分析模型
      關(guān)聯(lián)分析技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      基于關(guān)聯(lián)分析的學(xué)生活動(dòng)參與度與高校社團(tuán)管理實(shí)證研究
      科技視界(2016年15期)2016-06-30 12:43:00
      不同的數(shù)據(jù)挖掘方法分類對(duì)比研究
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      甘泉县| 视频| 清涧县| 玛纳斯县| 宁明县| 淮南市| 黑水县| 栖霞市| 珠海市| 晴隆县| 犍为县| 淳化县| 南陵县| 福海县| 蕉岭县| 乐昌市| 蓝山县| 米泉市| 临猗县| 贡觉县| 卫辉市| 武山县| 广平县| 远安县| 景宁| 扶沟县| 象山县| 利辛县| 汕头市| 岳池县| 会昌县| 福州市| 武安市| 新源县| 青海省| 武安市| 凤庆县| 商洛市| 霸州市| 宜城市| 达州市|