• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于用戶畫像的課程學(xué)習(xí)視頻推薦系統(tǒng)研究與設(shè)計(jì)

      2023-06-21 09:28:16陳玉帛項(xiàng)慨王順馳何希李婭琴鄒正李玉婷
      現(xiàn)代信息科技 2023年9期
      關(guān)鍵詞:用戶畫像個(gè)性化推薦推薦系統(tǒng)

      陳玉帛 項(xiàng)慨 王順馳 何希 李婭琴 鄒正 李玉婷

      摘? 要:文章面向在線教育,研究并設(shè)計(jì)一種課程學(xué)習(xí)視頻的推薦系統(tǒng)。由于線上學(xué)習(xí)資源冗雜繁多,且缺乏規(guī)范化構(gòu)建和系統(tǒng)化管理,學(xué)習(xí)者難以精準(zhǔn)獲取滿足其個(gè)性化需求的課程學(xué)習(xí)視頻。文章通過(guò)數(shù)據(jù)挖掘技術(shù)獲取用戶數(shù)據(jù)后構(gòu)建用戶畫像并進(jìn)行相似用戶群體識(shí)別,再利用推薦算法實(shí)現(xiàn)課程學(xué)習(xí)視頻與用戶之間的精準(zhǔn)匹配。實(shí)驗(yàn)結(jié)果表明,該文推薦系統(tǒng)可以有效解決人們?cè)谶x擇學(xué)習(xí)資源時(shí)產(chǎn)生的“信息迷航”和“信息過(guò)載”等問(wèn)題,能夠有效滿足用戶個(gè)性化學(xué)習(xí)需求并為用戶提供個(gè)性化學(xué)習(xí)路線。

      關(guān)鍵詞:課程學(xué)習(xí)視頻;用戶畫像;個(gè)性化推薦;推薦系統(tǒng)

      中圖分類號(hào):TP311? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)09-0001-08

      Abstract: This paper studies and designs a course learning video recommendation system for online education. As online learning resources are numerous, and lack of standardized construction and systematic management, it's hard for online learners to catch accurately course learning videos that meet their personalized needs. This paper obtains user data through data mining technology, constructs user profiles, identifies similar user groups, and then uses recommendation algorithms to achieve precise matching between course learning videos and users. The experimental results indicate that, the recommendation system proposed in this paper can effectively solve the problems of “information confusion” and “information overload” that people encounter when choosing learning resources, and can effectively meet users' personalized learning needs and provide personalized learning routes for users.

      Keywords: course learning video; user portrait; personalized recommendation; recommendation system

      0? 引? 言

      CNNIC發(fā)布的2021年度中國(guó)互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展情況調(diào)查報(bào)告顯示:截至2021年6月,全國(guó)互聯(lián)網(wǎng)用戶總數(shù)在2021年新增2 175萬(wàn),用戶總規(guī)模約10.11億,互聯(lián)網(wǎng)普及率達(dá)到71.6%。我國(guó)在線教育在數(shù)字化時(shí)代到來(lái)和互聯(lián)網(wǎng)普及率提高的背景下有了明顯起色?!督逃?022年工作要點(diǎn)》中也提出“實(shí)施教育數(shù)字化戰(zhàn)略行動(dòng)”,以此來(lái)推進(jìn)教育數(shù)字轉(zhuǎn)型與智能升級(jí)。這體現(xiàn)出數(shù)字化對(duì)于教育行業(yè)發(fā)展的重要意義,在線學(xué)習(xí)教育已經(jīng)發(fā)展成為新的教育模式。

      在線教育領(lǐng)域也因此產(chǎn)生了海量的課程學(xué)習(xí)視頻資源,從管理到教學(xué),從職業(yè)培訓(xùn)到專業(yè)培訓(xùn),從基礎(chǔ)教育到素質(zhì)教學(xué),科技持續(xù)縱深?!皩W(xué)習(xí)迷航”“認(rèn)知過(guò)載”等問(wèn)題導(dǎo)致學(xué)習(xí)者在學(xué)習(xí)的過(guò)程中效果不佳[1],對(duì)感興趣的學(xué)習(xí)資源的獲取效率降低。

      如何更好地進(jìn)行個(gè)性化推薦成為一個(gè)關(guān)鍵性問(wèn)題。現(xiàn)有學(xué)習(xí)資源推薦的研究主要針對(duì)單一課程的在線學(xué)習(xí)活動(dòng)進(jìn)行認(rèn)知能力分析,而缺乏根據(jù)用戶個(gè)性化特征進(jìn)行精準(zhǔn)推薦的研究,不能很好地滿足學(xué)習(xí)者的個(gè)性化需求。

      本文在“數(shù)字化教育”大力發(fā)展的趨勢(shì)下,采取用戶畫像技術(shù)進(jìn)行用戶畫像建模,以此精準(zhǔn)地定位用戶需求。并對(duì)課程學(xué)習(xí)視頻的個(gè)性化推薦系統(tǒng)進(jìn)行研究,將智能推薦算法進(jìn)行深度運(yùn)用。針對(duì)不同用戶需求,為其智能推薦個(gè)性化的課程學(xué)習(xí)視頻,以此達(dá)到優(yōu)化課程學(xué)習(xí)視頻的推薦、節(jié)省用戶挑選課程學(xué)習(xí)視頻時(shí)間的目的。

      1? 用戶畫像和推薦系統(tǒng)

      1.1? 用戶畫像

      此概念最先產(chǎn)生于交互設(shè)計(jì)領(lǐng)域,由AlanCooper提出。其指出用戶畫像是真實(shí)的目標(biāo)用戶的虛擬代表,是建立在真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型[2]。

      用戶畫像如今主要是指在某一確定的研究領(lǐng)域收集用戶各類相關(guān)的真實(shí)數(shù)據(jù),根據(jù)用戶的個(gè)人屬性、興趣偏好、生活習(xí)慣和行為等數(shù)據(jù)信息抽象出來(lái)的標(biāo)簽化的用戶模型。其通過(guò)特殊場(chǎng)景下的用戶行為信息最終生成用來(lái)描述用戶屬性及行為的標(biāo)簽集合,有利于更精確、多角度、更具時(shí)效性的分析目標(biāo)用戶。

      構(gòu)建用戶畫像的方法總體分為以下四種:基于用戶興趣偏好、基于用戶行為、基于主題或話題、基于本體或概念[3]。構(gòu)建過(guò)程從流程上可大致分為三個(gè)主要步驟:全面收集用戶數(shù)據(jù);研究并分析用戶信息、細(xì)分構(gòu)建用戶標(biāo)簽;完善和豐富用戶畫像的具體描述?;诖?,在強(qiáng)調(diào)用戶為主體的前提下形成用戶畫像模型,顯現(xiàn)用戶特征,為個(gè)性化推薦打下基礎(chǔ)。

      1.2? 推薦系統(tǒng)

      互聯(lián)網(wǎng)的快速發(fā)展導(dǎo)致信息規(guī)模的大幅擴(kuò)張,使得用戶在面對(duì)超載的信息時(shí)難以迅速尋找出自己需要的信息,而推薦系統(tǒng)則是信息超載問(wèn)題的一種有效解決方法。推薦系統(tǒng)是建立在大量數(shù)據(jù)挖掘基礎(chǔ)上,為用戶提供滿足其需求的個(gè)性化內(nèi)容的一種篩選信息的工具[4]。推薦系統(tǒng)根據(jù)一些策略規(guī)則預(yù)測(cè)用戶可能喜歡的物品,并對(duì)其進(jìn)行排序后依次推薦給目標(biāo)用戶,這些策略規(guī)則就是推薦算法。

      1.2.1? 基于協(xié)同過(guò)濾的推薦

      此算法最先由Goldberg等[5]在1992年介紹用于分類篩選電子郵件和解決資訊超載難題的推薦系統(tǒng)Tapestry時(shí)提出。此算法通過(guò)分析興趣相投的群體的反饋和評(píng)價(jià),預(yù)測(cè)出用戶可能感興趣的信息并將其推薦給用戶。協(xié)同過(guò)濾算法可以分為基于用戶的和基于物品的。前者根據(jù)目標(biāo)用戶對(duì)物品的評(píng)分計(jì)算其與其他用戶的相似度,預(yù)測(cè)目標(biāo)用戶對(duì)其他用戶感興趣物品的評(píng)分。后者則通過(guò)計(jì)算目標(biāo)用戶已有偏好的目標(biāo)物品和同樣對(duì)目標(biāo)物品存在偏好的其他用戶喜歡的其他物品的相似度,預(yù)測(cè)目標(biāo)用戶對(duì)其他物品的偏好。

      1.2.2? 基于內(nèi)容的推薦

      基于內(nèi)容的推薦的基礎(chǔ)是項(xiàng)目?jī)?nèi)容信息,而非用戶對(duì)項(xiàng)目本身的評(píng)價(jià)意見(jiàn),更多地需要采用機(jī)器學(xué)習(xí)的方法,從關(guān)于內(nèi)容的特征刻畫的事例中獲取用戶的興趣資料。該算法的關(guān)鍵是發(fā)現(xiàn)內(nèi)容之間的關(guān)聯(lián)性,根據(jù)用戶以往的瀏覽記錄推薦給用戶相似的內(nèi)容。

      該算法的重點(diǎn)是推薦項(xiàng)目?jī)?nèi)容上相似的物品,與用戶之間無(wú)關(guān)系,對(duì)目標(biāo)用戶的推薦結(jié)果不受其他用戶的影響。與協(xié)同過(guò)濾算法相比,該算法不受冷啟動(dòng)問(wèn)題的局限,當(dāng)引入一個(gè)新的項(xiàng)目時(shí),可以將新項(xiàng)目的信息和用戶歷史偏好進(jìn)行比對(duì),而不必考慮用戶和新項(xiàng)目之間是否存在交互[6]。因此可以有效解決在個(gè)性化推薦過(guò)程中需要大量收集用戶歷史數(shù)據(jù)的問(wèn)題。

      基于內(nèi)容的推薦步驟:首先對(duì)產(chǎn)品或項(xiàng)目?jī)?nèi)容特征進(jìn)行提取,然后進(jìn)行用戶偏好計(jì)算,并依據(jù)算法規(guī)則進(jìn)行內(nèi)容召回,最后將物品進(jìn)行排序后依次推薦給用戶。

      1.2.3? 混合推薦算法

      基于內(nèi)容的推薦具有“過(guò)于個(gè)性化缺乏驚喜度”的弊端,基于協(xié)同過(guò)濾的推薦具有“項(xiàng)目冷啟動(dòng)”的弊端?;旌贤扑]算法通過(guò)多種推薦算法的組合彌補(bǔ)了單種推薦算法的缺點(diǎn),對(duì)提升個(gè)性化推薦的準(zhǔn)確率、召回率及覆蓋率具有極大幫助[7-9]。目前常用的混合推薦算法有以下幾種:

      特征組合法:輸入來(lái)自多個(gè)推薦算法的數(shù)據(jù)源特征組合,輸出將其中一個(gè)算法作為主算法的推薦結(jié)果。

      特征增強(qiáng)法:將前一種推薦算法的輸出作為后一種推薦算法的輸入。

      交叉法:在用戶交互界面上將不同算法的結(jié)果按相應(yīng)比例組合起來(lái)。

      加權(quán)法:將多個(gè)推薦算法結(jié)果分?jǐn)?shù)的加權(quán)和組合在一起。

      串聯(lián)法:將一組推薦算法按順序排列,后面的推薦算法優(yōu)化前面的推薦結(jié)果。

      分級(jí)法:利用一種算法構(gòu)建的模型生成主算法的結(jié)果。

      2? 系統(tǒng)設(shè)計(jì)

      2.1? 系統(tǒng)總體結(jié)構(gòu)

      首先系統(tǒng)將通過(guò)對(duì)用戶個(gè)人屬性和活動(dòng)痕跡等數(shù)據(jù)信息的分類、綜合、聚類等操作,全面掌握用戶的個(gè)人數(shù)據(jù)信息。然后設(shè)置關(guān)聯(lián)規(guī)則并完成數(shù)據(jù)清洗,以獲得有效信息,再通過(guò)合并、聚類等方法,全面收集所有用戶的數(shù)據(jù)信息。其次設(shè)置關(guān)聯(lián)規(guī)則并實(shí)施數(shù)據(jù)清理,以獲得有效信息,最后綜合、統(tǒng)一地使用所有個(gè)人和群體的數(shù)據(jù)信息。構(gòu)建多維用戶標(biāo)簽體系,實(shí)現(xiàn)用戶畫像的核心步驟,并把用戶圖像存放到教學(xué)應(yīng)用庫(kù)中。最后再結(jié)合推薦算法,在課程學(xué)習(xí)視頻資源庫(kù)中提取與應(yīng)用匹配率最高的課程學(xué)習(xí)視頻,以此實(shí)現(xiàn)課堂學(xué)習(xí)視頻資源和應(yīng)用之間的最精確匹配?;谟脩舢嬒竦恼n程學(xué)習(xí)視頻個(gè)性化推薦系統(tǒng)整體框架如圖1所示。

      2.2? 業(yè)務(wù)運(yùn)作流程

      用戶在注冊(cè)登錄時(shí),需填寫“我的信息”,如性別、年齡、行業(yè)和受教育程度等,并選擇興趣標(biāo)簽。系統(tǒng)會(huì)利用用戶畫像技術(shù)綜合用戶特征,構(gòu)建用戶畫像模型,形成個(gè)性化標(biāo)簽。

      一方面,推薦系統(tǒng)會(huì)根據(jù)個(gè)性化標(biāo)簽智能選擇課程學(xué)習(xí)視頻推薦范圍,設(shè)計(jì)用戶首頁(yè)推薦視頻列表。用戶也可選擇進(jìn)入二級(jí)分類視頻區(qū)域,選擇貼近自己偏好和實(shí)際情況的課程學(xué)習(xí)視頻,實(shí)現(xiàn)課程學(xué)習(xí)視頻的精確推薦。

      另一方面,形成的個(gè)性化標(biāo)簽可以生成用戶初步的學(xué)習(xí)路線,后續(xù)用戶可以自定義修改學(xué)習(xí)路線。根據(jù)系統(tǒng)總體需求分析,本學(xué)習(xí)課程視頻個(gè)性化推薦系統(tǒng)的業(yè)務(wù)結(jié)構(gòu)流程如圖2所示。

      2.3? 功能設(shè)計(jì)

      2.3.1? 用戶管理

      用戶管理功能分為“賬號(hào)設(shè)置”“社區(qū)”和“客服”三個(gè)板塊。用戶在進(jìn)入登錄頁(yè)面完成登錄后,即開(kāi)始使用本系統(tǒng)。用戶首先需完成賬號(hào)設(shè)置,進(jìn)入“我的信息”界面填寫年齡、愛(ài)好和地域等信息。系統(tǒng)里內(nèi)設(shè)置有“社區(qū)”板塊,用戶既可以進(jìn)入主頁(yè)的特定社區(qū),又可以選擇自主創(chuàng)建社區(qū)?!翱头卑鍓K能夠幫助用戶解決在使用系統(tǒng)的過(guò)程中遇到的問(wèn)題,完善用戶使用體驗(yàn)。系統(tǒng)用戶管理功能結(jié)構(gòu)如圖3所示。

      2.3.2? 視頻推薦

      視頻推薦功能是系統(tǒng)的核心功能。推薦方式有兩種:一是用戶點(diǎn)擊首頁(yè)推薦視頻或者下滑刷新,二是進(jìn)入二級(jí)分類視頻區(qū)域。二級(jí)分類視頻區(qū)域?qū)⑾到y(tǒng)獲取的各種學(xué)習(xí)視頻依據(jù)授課方式不同分為線上課、錄播課和線下課三類,用戶可以根據(jù)自身情況和學(xué)習(xí)需求選擇不同的授課方式,其中線上課指用戶需在系統(tǒng)上完成課程報(bào)名,并在特定時(shí)間觀看網(wǎng)絡(luò)課程;線下課同樣需要用戶在系統(tǒng)上完成課程報(bào)名,但后續(xù)用戶需按時(shí)去特定地點(diǎn)上課。系統(tǒng)視頻推薦功能結(jié)構(gòu)如圖4所示。

      2.3.3? 學(xué)習(xí)路線

      學(xué)習(xí)路線功能的依據(jù)是用戶在賬號(hào)設(shè)置中填寫的“我的信息”,系統(tǒng)會(huì)根據(jù)用戶的性別、年齡、行業(yè)和受教育程度等信息生成初步的學(xué)習(xí)路線,同時(shí)用戶可以自定義修改自己的學(xué)習(xí)路線。系統(tǒng)學(xué)習(xí)路線功能結(jié)構(gòu)如圖5所示。

      2.3.4? 管理端功能設(shè)計(jì)

      管理端權(quán)限最高,依據(jù)管理對(duì)象分為對(duì)視頻和對(duì)用戶兩種。對(duì)視頻,管理端可以行使查詢、審核、增加和刪除四類管理權(quán)限;對(duì)用戶,管理端則可行使增加、刪除、查詢用戶和發(fā)布公告四類管理權(quán)限。管理端還需不定時(shí)對(duì)系統(tǒng)進(jìn)行維護(hù)。管理端功能設(shè)計(jì)如圖6所示。

      3? 系統(tǒng)實(shí)施

      3.1? 系統(tǒng)層次結(jié)構(gòu)

      本系統(tǒng)自下而上可劃分為數(shù)據(jù)層、數(shù)據(jù)分析層、推薦計(jì)算層和交互界面。系統(tǒng)結(jié)構(gòu)層次如圖7所示。

      3.2? 系統(tǒng)功能模塊

      基于用戶畫像的課程學(xué)習(xí)視頻推薦系統(tǒng)總體上分為三個(gè)功能模塊,系統(tǒng)總體結(jié)構(gòu)如圖8所示。

      3.2.1? 數(shù)據(jù)采集儲(chǔ)存模塊

      這一功能模塊主要包含課程學(xué)習(xí)視頻的數(shù)據(jù)采集與儲(chǔ)存功能。系統(tǒng)抽取互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)端留下的日志記錄以及從各個(gè)學(xué)習(xí)視頻網(wǎng)站獲取的非結(jié)構(gòu)化數(shù)據(jù),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并在后臺(tái)數(shù)據(jù)庫(kù)中以結(jié)構(gòu)化的形式存儲(chǔ)。數(shù)據(jù)庫(kù)設(shè)計(jì)為視頻信息庫(kù)、用戶畫像數(shù)據(jù)庫(kù)、用戶興趣數(shù)據(jù)庫(kù)和用戶社交數(shù)據(jù)庫(kù)四類。

      視頻信息庫(kù)由視頻名稱、up主名稱、網(wǎng)頁(yè)鏈接、圖像鏈接、適用標(biāo)簽和類型六種屬性構(gòu)成,其中網(wǎng)頁(yè)鏈接為該視頻的主鍵。其關(guān)鍵代碼如下:

      # 視頻信息庫(kù) 根據(jù)爬取視頻信息的設(shè)計(jì)

      createtablevideoLibraryifisnotexist

      (videoName? ? ? ? ? varchar(50),? ? ? ? ? —視頻名稱

      blogger? ? ? ? ? ? ? ? ? varchar(50),? ? ? ? ? —up主

      webPageLink? ? ? ? ?varchar(200),? ? ? ? —網(wǎng)頁(yè)鏈接

      imageLink? ? ? ? ? ? ? varchar(200),? ? ? ? —圖像鏈接

      applicationLable? ? ?varchar(200),? ? ? ?—適用標(biāo)簽

      type? ? ? ? ? ? ? ? ? ? ? ? ?varchar(20)? ? ? ? ? —類型

      )charsetutf8;

      用戶畫像數(shù)據(jù)庫(kù)由性別、年齡、行業(yè)和受教育程度四種屬性構(gòu)成,其中行業(yè)為該視頻的主鍵。其關(guān)鍵代碼如下:

      # 用戶畫像 根據(jù)用戶屬性設(shè)計(jì)

      createtableuserInformationifisnotexist

      (sex? ? ? ? ? ? ? ? ? ? ? ? ?varchar(2),? ? ? ? ? —性別

      age? ? ? ? ? ? ? ? ? ? ? ? ? ?int,? ? ? ? ? ? ? ? ? ? ? —年齡

      industry? ? ? ? ? ? ? ? ? ?varchar(10),? ? ? ? —行業(yè)

      eduactionLevel? ? ? ? varchar(10)? ? ? ? —受教育程度

      )charsetutf8;

      用戶興趣數(shù)據(jù)庫(kù)由大學(xué)基礎(chǔ)課程類、大學(xué)擇業(yè)類和興趣技能類三種屬性構(gòu)成。其關(guān)鍵代碼如下:

      # 用戶興趣信息

      createtableuserInternetInformationifisnotexist

      (collegeBasicCourses? ? ?varchar(50),? ? ?—大學(xué)基礎(chǔ)課程類

      studyAndCareerSelection? ? ?varchar(50),? ? ? —升學(xué)擇業(yè)類

      interestsAndSkills? ? ? ? ? ?varchar(200)? ? ? ? ? ?—興趣技能類

      )charsetutf8;

      用戶社交數(shù)據(jù)庫(kù)由關(guān)注的其他人數(shù)量、自己的粉絲數(shù)和訪問(wèn)信息三類屬性構(gòu)成。其關(guān)鍵代碼如下:

      # 用戶社交信息

      createtableuserSocialInformationifisnotexist

      (numberOfFollowUsers? ? ? ?int,? ? ? ? —關(guān)注的其他人數(shù)量

      numberOfFans? ? ? ? ? ? ? int,? ? ? ? ? ? ? ?—自己的粉絲數(shù)

      accessInformation? ? ? ? ?TEXT? ? ? ? ? —訪問(wèn)信息

      )charsetutf8;

      3.2.2? 用戶畫像構(gòu)建模塊

      系統(tǒng)調(diào)取數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),基于其中的用戶基本信息和用戶行為信息設(shè)計(jì)標(biāo)簽并確定權(quán)重、進(jìn)行量化分析,由此構(gòu)建用戶畫像。然后通過(guò)K-means聚類分析進(jìn)行相似的群體識(shí)別,反映各自的用戶特征。用戶在登錄前端界面填寫的個(gè)人信息和進(jìn)行瀏覽、評(píng)論和收藏等產(chǎn)生的行為信息會(huì)錄入后臺(tái)數(shù)據(jù)庫(kù),用于構(gòu)建用戶畫像。最后系統(tǒng)會(huì)根據(jù)用戶畫像和課程學(xué)習(xí)視頻的時(shí)效性形成課程學(xué)習(xí)視頻推薦列表。

      3.2.3? 學(xué)習(xí)視頻推薦模塊

      該模塊針對(duì)新用戶和老用戶具有兩種不同的推薦機(jī)制。對(duì)于新用戶:登錄系統(tǒng)后,需填寫個(gè)人信息和選擇興趣標(biāo)簽,系統(tǒng)通過(guò)聚類分析識(shí)別用戶特征構(gòu)建新用戶的用戶畫像。推薦算法依據(jù)用戶對(duì)不同課程學(xué)習(xí)視頻的喜好差異,掌握用戶對(duì)不同課程學(xué)習(xí)視頻的興趣度,將用戶可能感興趣的課程學(xué)習(xí)視頻經(jīng)過(guò)時(shí)效處理后推薦給用戶。學(xué)習(xí)路線算法結(jié)合用戶填寫的興趣標(biāo)簽與其以往的行為數(shù)據(jù),對(duì)貼近用戶偏好的視頻進(jìn)行去重處理,通過(guò)拓?fù)渑判虼_定各項(xiàng)視頻的先后學(xué)習(xí)順序并生成學(xué)習(xí)路線。對(duì)于老用戶:填寫個(gè)人信息和興趣偏好的環(huán)節(jié)被用戶訪問(wèn)所產(chǎn)生的社交信息產(chǎn)生所替代,此后進(jìn)行機(jī)制相同但更高效的循環(huán),推薦列表的準(zhǔn)確性和時(shí)效性會(huì)越來(lái)越強(qiáng)。

      3.3? 基于用戶畫像的課程學(xué)習(xí)視頻推薦系統(tǒng)實(shí)現(xiàn)

      3.3.1? 多屬性用戶畫像建模

      3.3.1.1? 收集數(shù)據(jù)

      以嗶哩嗶哩(英文名稱:bilibili,簡(jiǎn)稱B站;網(wǎng)站地址:https://www.bilibili.com/)注冊(cè)用戶為研究樣本,爬取公開(kāi)IP代理池收集B站返回的數(shù)據(jù)。首先進(jìn)行一系列數(shù)據(jù)清洗,然后篩選出少量用戶數(shù)據(jù)存儲(chǔ)于用戶數(shù)據(jù)庫(kù)中。處理后的用戶數(shù)據(jù)信息包括用戶ID、姓名、性別、行業(yè)、受教育程度、關(guān)注用戶數(shù)、粉絲數(shù)等。

      3.3.1.2? 設(shè)計(jì)用戶標(biāo)簽體系

      設(shè)計(jì)的用戶標(biāo)簽體系分為三部分:一是基本信息,包含用戶性別、年齡、行業(yè)、受教育程度等。完整的基礎(chǔ)信息對(duì)畫像的精準(zhǔn)度產(chǎn)生正向影響,而譬如性別特征這類基本信息對(duì)于用戶行為偏好也具有一定的影響作用。二是用戶的行為信息,涵蓋用戶選擇課程視頻的類型如大學(xué)基礎(chǔ)課程類、升學(xué)擇業(yè)類等體現(xiàn)用戶興趣的信息,以及關(guān)注用戶、粉絲等體現(xiàn)用戶社交屬性的信息。構(gòu)建的課程視頻個(gè)性化推薦平臺(tái)用戶標(biāo)簽體系如圖9所示。

      基本信息屬性下的指標(biāo)往往可直接從用戶注冊(cè)時(shí)填寫的信息中提取出來(lái),其量化相對(duì)穩(wěn)定。對(duì)其指標(biāo)進(jìn)行量化表示,能夠更好地表示結(jié)構(gòu)范式。研究采樣樣本用戶群體的年齡是18~35歲,可將其年齡可分為兩個(gè)階段,18~22為大學(xué)生群體,22~35歲為青年就業(yè)者群體,并分別由0和1表示。行業(yè)可分為計(jì)算機(jī)、會(huì)計(jì)從業(yè)者、金融從業(yè)者、土木工程、材料化學(xué)、數(shù)學(xué)學(xué)者、物理學(xué)者、歷史學(xué)者、教師和醫(yī)生這十大行業(yè),并分別由1、2、3、4、5、6、7、8、9、10表示。

      基于上述用戶畫像標(biāo)簽體系,對(duì)每一特征進(jìn)行量化表示,從而展示各層次之間的差異化程度,最后將課程學(xué)習(xí)視頻用戶畫像模型表示成一個(gè)向量的形式,即如式(1)所示:

      MUP={B, A, P}? ? ? ? ? ? ? ? ? ? ? ? ?; ? ? (1)

      其中,MUP表示用戶畫像模型;B表示用戶基本屬性;A表示用戶社交屬性;P表示用戶興趣屬性。每一屬性的量化值以及其權(quán)重的確定方法如表1所示。

      用戶興趣信息通過(guò)TF-IDF算法區(qū)分用戶關(guān)注的主要特征,得到各指標(biāo)特征權(quán)重值,計(jì)算關(guān)鍵詞權(quán)重值的大小并將權(quán)重值較大的關(guān)鍵詞作為權(quán)重詞。該詞較準(zhǔn)確地反映了用戶對(duì)于每一條視頻的關(guān)注方面,顯示差異化程度。由于用戶語(yǔ)言習(xí)慣存在差異,雖然一些詞語(yǔ)的表達(dá)形式不同,但表達(dá)的含義卻是相同的。因此對(duì)同義詞進(jìn)行替換就能達(dá)到降低提取的關(guān)鍵詞維度的目的。

      用戶社交信息選擇關(guān)注用戶、粉絲、訪問(wèn)數(shù)三個(gè)指標(biāo),其在一定層面上體現(xiàn)社交性的高低情況。采用熵權(quán)法對(duì)收集到的指標(biāo)數(shù)據(jù)熵值進(jìn)行計(jì)算,獲得指標(biāo)數(shù)據(jù)的整體互動(dòng)值A(chǔ)。具體計(jì)算公式為:

      通過(guò)此方法得到用戶的社交屬性值,該值的大小可反映出用戶互動(dòng)性的強(qiáng)弱,后期使用中可依據(jù)該值對(duì)用戶進(jìn)行分類操作,將用戶分為強(qiáng)、中和弱三類,從而分別對(duì)不同類型的用戶提供針對(duì)性服務(wù),有效提高服務(wù)質(zhì)量。

      3.3.1.3? 基于K-means的相似用戶群體識(shí)別

      通過(guò)多屬性用戶畫像模型MUP,可以得到單個(gè)用戶的畫像模型,但由于用戶基數(shù)大,計(jì)算過(guò)程較為繁雜,本文選用K-means聚類算法對(duì)相似度比較高的用戶信息進(jìn)行分類,進(jìn)一步縮小推薦課程學(xué)習(xí)視頻的候選集,簡(jiǎn)化推薦過(guò)程,提高推薦效率。

      用戶畫像模型MUP集成了用戶基本屬性信息、用戶興趣信息和用戶社交信息,用戶畫像模型信息如表2所示。

      由于需要對(duì)比用戶之間的相似程度,故在針對(duì)用戶興趣屬性的計(jì)算中直接使用每個(gè)用戶發(fā)表的評(píng)論文本并計(jì)算其TF-IDF值。但這會(huì)造成每個(gè)用戶的興趣指標(biāo)不同,故此處需要對(duì)其進(jìn)行統(tǒng)一。利用用戶畫像技術(shù)計(jì)算出特征前TOP10并作為興趣特征,用該特征對(duì)應(yīng)的TF-IDF值作為其權(quán)重值。而由于量綱的不同,需要對(duì)其進(jìn)行歸一化處理,此處主要針對(duì)基本屬性和訪問(wèn)屬性值。歸一化后的用戶畫像模型信息如表3所示。

      得到歸一化后的用戶畫像模型信息,便能進(jìn)行K-means聚類,獲得類似的用戶群體。

      3.3.1.4? 基于用戶畫像的課程學(xué)習(xí)視頻個(gè)性化推薦算法

      不同的課程學(xué)習(xí)視頻具有不同的關(guān)鍵詞,故可通過(guò)關(guān)鍵詞來(lái)識(shí)別對(duì)應(yīng)的課程學(xué)習(xí)視頻,首先需提取課程學(xué)習(xí)視頻的部分關(guān)鍵詞,然后計(jì)算其權(quán)重,并根據(jù)權(quán)重計(jì)算課程學(xué)習(xí)視頻的相似度,最后根據(jù)相似度進(jìn)行課程學(xué)習(xí)視頻推薦。

      3.3.1.5? 用戶的課程學(xué)習(xí)視頻推薦規(guī)則

      設(shè)課程學(xué)習(xí)視頻集合為:P ={ P1,P2,…,Pm},事務(wù)記錄集合為T ={ t1,t2,…,tn},根據(jù)匹配樹(shù)機(jī)制得到支持度和置信度為式(7)、式(8):

      采用K-means聚類算法將課程學(xué)習(xí)視頻進(jìn)行分析,劃分為K個(gè)類型,然后根據(jù)匹配樹(shù)機(jī)制建立各類匹配規(guī)則,計(jì)算最小支持度和最小置信度,最后根據(jù)最小支持度和最小置信度給用戶推薦課程學(xué)習(xí)視頻。

      3.3.1.6? 混合推薦算法部分代碼實(shí)現(xiàn)

      # -*- coding: utf-8 -*-

      importmath

      importpandasaspd

      importnumpyasnp

      importos

      os.chdir('E:/視頻數(shù)據(jù)庫(kù)')

      # 創(chuàng)建視頻畫像

      # 參數(shù)說(shuō)明:

      # items_profiles = {item1:{'label1':1, 'label2': 0, 'label3': 0, ...}, item2:{...}...}

      defcreateItemsProfiles(data_array, labels_names, items_names):

      items_profiles = {}

      foriinrange(len(items_names)):

      items_profiles[items_names[i]] = {}

      forjinrange(len(labels_names)):

      items_profiles[items_names[i]][labels_names[j]] = data_array[i][j]

      returnitems_profiles

      # 創(chuàng)建用戶畫像

      # 參數(shù)說(shuō)明:

      # data_array: 所有用戶對(duì)于其所看過(guò)的視頻的評(píng)分矩陣 data_array = [[2, 0, 0, 1.1, ...], [0, 0, 1.1, ...], ...]

      # users_profiles = {user1:{'label1':1.1, 'label2': 0.5, 'label3': 0.0, ...}, user2:{...}...}

      defcreateUsersProfiles(data_array, users_names, items_names, labels_names, items_profiles):

      users_profiles = {}

      # 計(jì)算每個(gè)用戶對(duì)所看過(guò)的所有視頻的平均隱性評(píng)分

      # users_average_scores_list = [1.2, 2.2, 4.3,...]

      users_average_scores_list = []

      # 統(tǒng)計(jì)每個(gè)用戶所看過(guò)的視頻(不加入隱性評(píng)分信息)

      # items_users_saw = {user1:[item1, item3, item5], user2:[...],...}

      items_users_saw = {}

      # 統(tǒng)計(jì)每個(gè)用戶所看過(guò)的視頻及評(píng)分

      # items_users_saw_scores = {user1:[[item1, 1.1], [item2, 4.1]], user2:...}

      items_users_saw_scores = {}

      foriinrange(len(users_names)):

      items_users_saw_scores[users_names[i]] = []

      items_users_saw[users_names[i]] = []

      count = 0

      sum = 0.0

      forjinrange(len(items_names)):

      # 用戶對(duì)該視頻隱性評(píng)分為正,表示真正看過(guò)該視頻

      ifdata_array[i][j] >0:

      items_users_saw[users_names[i]].append(items_names[j])

      items_users_saw_scores[users_names[i]].append([items_names[j], data_array[i][j]])

      count += 1

      sum += data_array[i][j]

      ifcount == 0:

      users_average_scores_list.append(0)

      else:

      users_average_scores_list.append(sum / count)

      foriinrange(len(users_names)):

      users_profiles[users_names[i]] = {}

      forjinrange(len(labels_names)):

      count = 0

      score = 0.0

      foriteminitems_users_saw_scores[users_names[i]]:

      # 參數(shù):

      # 用戶user1對(duì)類型label1的隱性評(píng)分: user1_score_to_label1

      # 用戶user1對(duì)其看過(guò)的含有類型label1的視頻itemi 的評(píng)分: score_to_itemi

      # 用戶user1對(duì)其看過(guò)的所有視頻的平均評(píng)分: user1_average_score

      # 用戶user1看過(guò)的視頻總數(shù): items_count

      # 公式: user1_score_to_label1 = Sigma(score_to_itemi - user1_average_score)/items_count

      # 該視頻含有特定標(biāo)簽labels_names[j]

      ifitems_profiles[item[0]][labels_names[j]] >0:

      score += (item[1] - users_average_scores_list[i])

      count += 1

      # 如果求出的值太小,直接置0

      ifabs(score) <1e-6:

      score = 0.0

      ifcount == 0:

      result = 0.0

      else:

      result = score / count

      users_profiles[users_names[i]][labels_names[j]] = result

      return (users_profiles, items_users_saw)

      3.4? 主要功能展示

      3.4.1? 開(kāi)發(fā)環(huán)境搭建

      系統(tǒng)環(huán)境搭建及其關(guān)鍵技術(shù)如表4所示。

      3.4.2? 系統(tǒng)主要功能展示

      3.4.2.1? 注冊(cè)登錄界面

      新用戶在系統(tǒng)登錄頁(yè)面在進(jìn)行賬號(hào)注冊(cè)登錄后,還需進(jìn)行興趣愛(ài)好的選擇,為后續(xù)系統(tǒng)推薦更感興趣的內(nèi)容提供信息。用戶注冊(cè)登錄頁(yè)面如圖10所示。

      3.4.2.2? ?個(gè)性化視頻推薦頁(yè)面

      系統(tǒng)首頁(yè)會(huì)隨機(jī)為用戶推薦視頻,用于獲取用戶的愛(ài)好需求,隨著后續(xù)用戶使用的深入,推薦的視頻將更貼合用戶的需求。個(gè)性化視頻推薦頁(yè)面如圖11所示。

      3.4.2.3? 課程搜索

      在系統(tǒng)課程搜索頁(yè)面內(nèi)使用搜索功能會(huì)出現(xiàn)與用戶專業(yè)相關(guān)的標(biāo)簽,為用戶搜索提供參考。隨著用戶使用數(shù)據(jù)的增多和推薦系統(tǒng)的優(yōu)化,搜索功能會(huì)更加精準(zhǔn)。課程搜索界面如圖12所示。

      3.4.2.4? 個(gè)人空間

      個(gè)人空間中可以看見(jiàn)正在學(xué)習(xí)的課程,也可以作為作者發(fā)布課程。個(gè)人空間中的課程按照直播課、線下課等進(jìn)行分類。系統(tǒng)通過(guò)用戶個(gè)人空間顯示的關(guān)注人數(shù)、粉絲數(shù)、訪問(wèn)信息以及喜歡、收藏的課程、發(fā)布的動(dòng)態(tài)完善用戶畫像模型,為用戶提供更精準(zhǔn)的課程學(xué)習(xí)視頻推薦。個(gè)人空間頁(yè)面如圖13所示。

      3.4.2.5? 學(xué)習(xí)路線

      系統(tǒng)根據(jù)用戶需求、個(gè)性化推薦算法和學(xué)習(xí)路線算法,設(shè)計(jì)出符合用戶需求的學(xué)習(xí)路線,向用戶展示學(xué)習(xí)計(jì)劃、已購(gòu)課程和待學(xué)習(xí)課程,并提醒用戶按時(shí)完成自己的學(xué)習(xí)計(jì)劃。點(diǎn)擊右上角的學(xué)習(xí)成長(zhǎng)圖標(biāo)會(huì)顯示用戶的學(xué)習(xí)統(tǒng)計(jì)數(shù)據(jù),如總學(xué)習(xí)時(shí)長(zhǎng)、各課學(xué)習(xí)時(shí)長(zhǎng)等,系統(tǒng)對(duì)用戶學(xué)習(xí)過(guò)程進(jìn)行監(jiān)測(cè),便于用戶實(shí)時(shí)了解自身學(xué)習(xí)情況。學(xué)習(xí)路線頁(yè)面如圖14所示。

      4? 結(jié)? 論

      在“互聯(lián)網(wǎng)+”的環(huán)境下,用戶畫像作為資源信息推薦服務(wù)的設(shè)計(jì)工具,為課程學(xué)習(xí)視頻個(gè)性化推薦服務(wù)提供了新的研究思路。本文利用用戶畫像技術(shù)對(duì)用戶個(gè)人基礎(chǔ)信息和其在網(wǎng)絡(luò)交互系統(tǒng)內(nèi)產(chǎn)生的行為記錄信息進(jìn)行數(shù)據(jù)挖掘,通過(guò)數(shù)據(jù)信息的發(fā)現(xiàn)與數(shù)據(jù)的提煉,結(jié)合基于內(nèi)容和基于協(xié)同過(guò)濾的混合推薦算法,預(yù)測(cè)用戶的資源需求,最終為用戶推薦其可能感興趣的課程學(xué)習(xí)視頻。但目前就用戶畫像技術(shù)在課程學(xué)習(xí)視頻個(gè)性化推薦領(lǐng)域的發(fā)展現(xiàn)狀而言,仍面臨諸多難題與挑戰(zhàn),例如如何科學(xué)、全面地描述學(xué)習(xí)者群體相似性與差異性以及網(wǎng)絡(luò)爬蟲(chóng)限制導(dǎo)致數(shù)據(jù)局限性等具體問(wèn)題。因此,在后續(xù)的研究中,仍需深入研究學(xué)習(xí)者群體對(duì)課程學(xué)習(xí)視頻資源需求的發(fā)展趨勢(shì),仍需繼續(xù)挖掘用戶畫像各屬性之間的關(guān)聯(lián)關(guān)系,并降低算法的時(shí)間復(fù)雜度,以更精準(zhǔn)的方式進(jìn)行個(gè)性化推薦。

      參考文獻(xiàn):

      [1] 馬震.基于學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)資源個(gè)性化推薦研究 [J].中國(guó)教育信息化,2021(23):77-80.

      [2] 徐芳,應(yīng)潔茹.國(guó)內(nèi)外用戶畫像研究綜述 [J].圖書館學(xué)研究,2020(12):7-16.

      [3] 高廣尚.用戶畫像構(gòu)建方法研究綜述 [J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(3):25-35.

      [4] 周萬(wàn)珍,曹迪,許云峰,等.推薦系統(tǒng)研究綜述 [J].河北科技大學(xué)學(xué)報(bào),2020,41(1):76-87.

      [5] GOLDBERG D,NICHOLS D,OKI B M,et al. Using collaborative filtering to weavean information tapestry [J].Communications of the ACM,1992,35(12):61-70.

      [6] 沈丹陽(yáng).基于在線學(xué)習(xí)平臺(tái)的學(xué)習(xí)分析和個(gè)性化推薦的研究 [D].北京:北京郵電大學(xué),2021.

      [7] 李雪婷,楊抒,賽亞熱·迪力夏提,等.融合內(nèi)容與協(xié)同過(guò)濾的混合推薦算法應(yīng)用研究 [J].計(jì)算機(jī)技術(shù)與發(fā)展,2021,31(10):24-29+37.

      [8] 李鄉(xiāng)儒,梁惠雯,馮雋怡,等.在線教育平臺(tái)中個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)設(shè)計(jì) [J].計(jì)算機(jī)技術(shù)與發(fā)展,2021,31(2):143-149.

      [9] 魏玲,郭新悅.融合用戶畫像與協(xié)同過(guò)濾的知識(shí)付費(fèi)平臺(tái)個(gè)性化推薦模型 [J].情報(bào)理論與實(shí)踐,2021,44(3):188-193.

      作者簡(jiǎn)介:陳玉帛(2002.03—),男,漢族,湖北襄陽(yáng)人,本科在讀,研究方向:電子商務(wù);通訊作者:項(xiàng)慨(1977.10—),男,漢族,湖北武漢人,副教授,博士,研究方向:商務(wù)智能、移動(dòng)計(jì)算;王順馳(2002.06—),男,土家族,湖北恩施人,本科在讀,研究方向:軟件工程;何希(2002.02—),女,土家族,湖北恩施人,本科在讀,研究方向:電子商務(wù);李婭琴(2002.08—),女,漢族,湖北黃岡人,本科在讀,研究方向:電子商務(wù);鄒正(2002.08—),男,漢族,湖北孝感人,本科在讀,研究方向:計(jì)算機(jī)科學(xué)與技術(shù);李玉婷(2002.07—),女,漢族,湖北黃岡人,本科在讀,研究方向:電子商務(wù)。

      猜你喜歡
      用戶畫像個(gè)性化推薦推薦系統(tǒng)
      把聲音的魅力發(fā)揮到極致
      基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
      基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過(guò)濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
      基于個(gè)性化的協(xié)同過(guò)濾圖書推薦算法研究
      個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
      基于協(xié)同過(guò)濾算法的個(gè)性化圖書推薦系統(tǒng)研究
      移動(dòng)用戶畫像構(gòu)建研究
      淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
      基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營(yíng)銷
      無(wú)線定位個(gè)性化導(dǎo)覽關(guān)鍵技術(shù)在博物館中的運(yùn)用
      右玉县| 平南县| 漳平市| 盱眙县| 宜川县| 屏东县| 临西县| 侯马市| 镇江市| 定襄县| 息烽县| 那坡县| 双城市| 桐梓县| 天峨县| 乳源| 沙田区| 韶山市| 大港区| 太白县| 乌拉特后旗| 天水市| 外汇| 新沂市| 恩平市| 开远市| 眉山市| 大理市| 青阳县| 松阳县| 泰州市| 怀化市| 松潘县| 红河县| 怀化市| 广东省| 安溪县| 巴彦县| 许昌市| 仙游县| 瑞金市|