• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)環(huán)境下開放教育學習者畫像的構建

      2023-04-06 04:02:18王旭紅張彤申志華
      電腦知識與技術 2023年5期
      關鍵詞:用戶畫像協(xié)同過濾開放教育

      王旭紅 張彤 申志華

      關鍵詞:開放教育;數(shù)據(jù)挖掘;協(xié)同過濾;用戶畫像

      0 引言

      隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘與信息推薦在行政、教育、經濟、醫(yī)療等各個領域都已經有了一定作用與價值。在線的不斷發(fā)展使得在線教育行業(yè)迎來了更為廣闊的發(fā)展方向[1]。目前越來越多的人員選擇在線課程進行學習,極大地提升人民群眾日常接受教育的便利性。

      在線教育網站之中存在著大量的注冊用戶,同時每天都會產生大量的用戶注冊信息,其中包括用戶個人信息、用戶學習課程、學習時間等。面對這些大量的信息,日常卻無法進行統(tǒng)計和決策工作[2]。平臺在給予學習者較高自由度的同時也降低了對學習者的學習引導,從而導致學習者沒有合理的學習路徑指導,對學習資源進行盲目地學習與瀏覽,課程體系缺乏邏輯性,學習失敗風險升高。學習者在課程進行中逐漸凸顯出來的盲目性學習、學習質量下降、參與積極性降低等問題引起了廣大師生和研究者的反思。因此,需要將基于學習者的基本信息和在線學習數(shù)據(jù)進行耦合,刻畫學習者學習畫像,以此更好地提高學習效率,為學習者提供良好的服務[3]。

      1 相關理論

      1.1 用戶畫像

      用戶畫像的定義與發(fā)展用戶畫像是根據(jù)用戶社會屬性、生活習慣和消費行為等信息而抽象出的一個標簽化的用戶模型[4],其核心是用戶標簽。在大數(shù)據(jù)技術支持下通過分析用戶信息提煉特征標識豐富用戶標簽,讓用戶畫像變得立體真實。

      用戶畫像隨著大數(shù)據(jù)等技術的成熟迅速發(fā)展,使原本大量沉睡的數(shù)據(jù)開始發(fā)揮商用價值。通過收集用戶生活習慣、社會信息、心理特征等信息,建立數(shù)學模型,將用戶信息標簽化,抽象出一個帶有標簽的虛擬用戶。

      1.2 大數(shù)據(jù)

      在整個信息化系統(tǒng)逐步發(fā)展過程之中,需要處理的數(shù)據(jù)信息規(guī)模越來越大,整個數(shù)據(jù)所在的應用場景也越來越復雜,需要采用新的技術與分析工具對這些業(yè)務進行處理,此時逐步產生了與大數(shù)據(jù)分析處理相關的專業(yè)名詞[5]。

      在數(shù)據(jù)挖掘的處理之中,主要的操作內容是對大量的業(yè)務數(shù)據(jù)信息進行分析,這些業(yè)務數(shù)據(jù)信息可能存在數(shù)據(jù)信息不完全、不規(guī)律、數(shù)據(jù)模糊、瑕疵或者損壞等特點,經過數(shù)據(jù)挖掘處理之后,能夠從這些信息發(fā)現(xiàn)有價值、可能有效的數(shù)據(jù)信息。在整個數(shù)據(jù)挖掘的處理之中,并不只采用單一的技術進行分析與處理,還將目前的諸多方式進行整合,包括目前應用廣泛的人工智能處理領域、應用數(shù)學分析處理、機器學習與模式識別領域等技術[6]。

      2 研究現(xiàn)狀

      數(shù)據(jù)挖掘的相關技術最早于20世紀80年代產生,而知識發(fā)現(xiàn)的這個概念來源于數(shù)據(jù)挖掘領域。20世紀90年代前后,在人工智能國際會議之上,數(shù)據(jù)挖掘的專門概念第一次被提出,至此數(shù)據(jù)挖掘的相關技術進入了快速發(fā)展的時期。同時由于信息化與互聯(lián)網的快速發(fā)展,數(shù)據(jù)信息存儲與應用的范圍越來越廣,行業(yè)業(yè)務快速發(fā)展,存儲的數(shù)據(jù)類型種類越來越多,包括音頻數(shù)據(jù)、文字數(shù)據(jù)、圖像數(shù)據(jù)、網絡頁面數(shù)據(jù)等類型,而這些數(shù)據(jù)信息存儲的量也越來越大,由此需要數(shù)據(jù)庫對這些龐大的數(shù)據(jù)信息進行存儲。在完成這些數(shù)據(jù)信息存儲的同時,后續(xù)需要對這些龐大數(shù)據(jù)信息進行管理與分析,而分析正是其中的難點,需要從龐大的業(yè)務數(shù)據(jù)信息之中尋找可能有價值的數(shù)據(jù),其難度顯而易見,主要原因在于這些大數(shù)據(jù)量之中,許多數(shù)據(jù)信息是冗余,與真正的處理需求無關,此時需要對信息之間的距離進行定義,學者也提出了DIT、DIST等相關理念,主要用于對信息狀態(tài)的轉移距離進行衡量,而針對這些數(shù)據(jù)庫之中存在的大數(shù)據(jù),數(shù)據(jù)挖掘正是其中重要的工作方式,分類、聚類等處理理念被陸續(xù)提出[7]。

      在目前對推薦算法的研究之中,使用的推薦算法主要類型包括基于內容的推薦、基于協(xié)同過濾方式的推薦處理等算法,在基于內容的推薦算法之中,其需要對用戶與課程的信息進行確認,以此來完成新課程的推薦,但是它需求的信息是巨大的,而且很難獲取所有用戶和課程的屬性以及其他信息。相比之下,協(xié)同過濾算法是當今使用最廣泛最成功的推薦算法,更注重個性化。然而,該算法至今仍然存在諸多問題和挑戰(zhàn),例如評分矩陣的稀疏性問題,算法的可擴展性問題。針對這些問題,國內外學者進行了不同的研究,提出了不同類型的解決方法,對于數(shù)據(jù)維度的降低,主要通過主成分分析方法、奇異值分解的方法來進行分析與處理;對于協(xié)同過濾算法的稀疏性方面的問題,主要通過BP神經網絡的方法進行處理。在這些不同方法的處理之中,都需要舍棄部分的數(shù)據(jù)信息,因此總體上影響了算法推薦的準確度[8]。

      3 用戶畫像構建過程

      3.1 用戶數(shù)據(jù)預處理模塊

      在整個用戶畫像的挖掘與處理過程之中,其需要經過對用戶信息的收集、整合、規(guī)約、清理、變換等多個階段,每一個階段主要圍繞處理的目標不同,其中前幾個階段是數(shù)據(jù)信息的初始化處理階段,以此來使得整個系統(tǒng)的數(shù)據(jù)信息符合處理的要求,具體每一個階段的工作內容如下面所示:

      1) 數(shù)據(jù)的收集過程:這個階段主要的工作內容是確定整個數(shù)據(jù)信息的來源與處理,尋找合適的數(shù)據(jù)來完成相應業(yè)務的管理。在部分業(yè)務的處理過程之中,此部分有公開的數(shù)據(jù)集信息來進行下載,方便對整個業(yè)務進行實現(xiàn)。

      2) 數(shù)據(jù)的整理過程:根據(jù)業(yè)務處理的需要,對整個用戶數(shù)據(jù)信息進行初步整理,此部分主要的內容是分析與整理整個數(shù)據(jù)信息的分類與內容,若整理的數(shù)據(jù)信息不同,方便對這些數(shù)據(jù)進行整合。

      3) 數(shù)據(jù)的規(guī)約處理過程:用戶數(shù)據(jù)收集與整理過程過后需要完成整個數(shù)據(jù)信息的約定處理,目標是進一步對這些數(shù)據(jù)信息進行初步預處理,但同時需要對整個數(shù)據(jù)信息保持真實性。

      4) 數(shù)據(jù)清理完善階段:在這個階段,需要對整個規(guī)約處理的數(shù)據(jù)信息進行查看,會發(fā)現(xiàn)這些數(shù)據(jù)信息可能有些存在噪聲、有些屬性值存在問題、有些數(shù)據(jù)的一致性存在問題等,這些都需要進行清理完善,以使得這些數(shù)據(jù)信息符合算法處理的要求,也根據(jù)算法的要求來對這些數(shù)據(jù)信息進行初步的結構化處理,方便數(shù)據(jù)處理符合要求。

      5) 數(shù)據(jù)變換處理過程:相比清理完善階段,此過程采用的處理技術更為專業(yè),包括對這些數(shù)據(jù)信息進行規(guī)范化處理,可以采用概化與平滑聚集等方面的技術來對這些數(shù)據(jù)進行處理,在特定的業(yè)務場景之中也可以采用概念分層、數(shù)據(jù)離散分析等處理方式來完成整個數(shù)據(jù)挖掘處理的需要。

      6) 算法挖掘處理階段:對上述數(shù)據(jù)信息進行初步處理之中,將其輸入填充到挖掘算法之中,按照整個算法的不同步驟進行處理,以此獲取相應的處理結果,并對整個處理結果進行模式評估,判斷在數(shù)據(jù)分析挖掘算法的處理下,得到的結果的正確性有多少,以此來調整對應的算法處理過程,評估整個算法處理的性能。針對整個算法處理的結果進行知識評估與分析,將整個算法處理的結果通過用戶能夠理解的語言進行可視化的處理,方便用戶獲取此結果信息。

      在整個用戶畫像構建過程中,第一步需要完成整個數(shù)據(jù)信息的預處理操作,以此獲得滿足算法處理需要的內容,具體這些數(shù)據(jù)信息的預處理操作示意圖如圖1所示。

      本文實驗將對采用的數(shù)據(jù)集中的用戶畫像數(shù)據(jù)、課程數(shù)據(jù)以及用戶行為數(shù)據(jù)進行數(shù)據(jù)預處理,對內容進行提取,過濾冗余的數(shù)據(jù),另外,對缺失值和關鍵詞信息進行處理,提高數(shù)據(jù)質量。將處理后的結果放在字典里面,key為foodid,value為用戶信息。

      3.2 行為提取和分析模塊

      在整個用戶畫像構建之中,行為提取與分析模塊主要的作用是確定用戶的行為偏好,用戶行為特征樹狀模型之中,主要敘述具體用戶行為偏好的建模過程,采用的模型為樹狀網絡模型,每一次對模型的構建都可能影響最后的推薦結果。用戶分為多個行為偏好類型,在每一個行為偏好類型之中,其可能包括多個課程類型,每一個課程對應著相應的權重信息。在這個用戶行為特征樹狀模型之中,首層地位主要是用戶為主體,在確定用戶這個主體之中,第二層主要對行為偏好進行分析,最后完成用戶畫像的構建。

      3.3 用戶畫像構建

      行為提取與分析之后,完成用戶偏好信息的獲取,之后進行整個用戶數(shù)據(jù)整理,將這些數(shù)據(jù)信息推薦完成,確定整個用戶的歷史數(shù)據(jù)信息。

      在整個用戶畫像模型的設計之中,第一步的任務工作重點是獲取用戶的偏好,這個偏好能夠完成用戶畫像模型的建模,之后采用推薦算法將整個用戶的模型與課程信息結合處理,以此進行課程推薦算法的處理。如圖2所示。

      從圖2 課程推薦模型之中能夠看出,對于用戶而言進行建模首先需要獲取這些用戶自身的信息,以此方便來完成用戶模型的創(chuàng)建,后期對推薦處理之中對模型進行更新,同時記錄每一次推薦的結果內容,將這些推薦結果展示在頁面之中,方便用戶進行查看。

      3.4 課程推薦算法

      協(xié)同過濾推薦算法首先對于用戶目錄中的用戶C1,得到該用戶評價高的課程I1,然后找到同樣喜歡I1的用戶C2,記錄用戶C2,并計算用戶C1和C2的相似度,接著按照相似度從大到小進行排序,選擇最相似的N個鄰居用戶,最后根據(jù)鄰居用戶喜歡的課程,選擇用戶C1沒有評價過的課程進行推薦。

      在整個課程推薦算法進行處理的時候,第一步需要獲取用戶畫像,記錄這些用戶在進行搜索時候的關鍵字,對這些數(shù)據(jù)信息進行封裝,獲取用戶相關的數(shù)據(jù)信息。為了提升算法使用的便利性,對于用戶使用頻率高的數(shù)據(jù)信息,需要將這些數(shù)據(jù)信息添加到詞匯庫之中,后期用戶在檢索的時候能夠快速顯示處理結果信息。根據(jù)整個數(shù)據(jù)信息處理的變化,通過算法來完成使用者興趣模型的更新處理,為用戶提供更為便利的推薦處理服務。對于推薦算法而言,其需要良好的數(shù)據(jù)信息處理能力,獲取用戶關鍵信息,在用戶進行檢索時候快速反饋處理結果,有效保障數(shù)據(jù)信息處理的效率與安全性。在整個推薦算法待處理之中,具體包括以下內容:

      1) 推薦算法的預處理模塊:此功能主要作用是對算法的數(shù)據(jù)信息進行預處理,使得處理的數(shù)據(jù)信息符合算法處理的需要,同時去除不合適的數(shù)據(jù)信息。

      2) 算法模型建模:在數(shù)據(jù)信息預處理之后,后續(xù)需要對整個算法的模型進行建模,此模型主要的作用是完成用戶興趣建模。對不同時刻或者不同用戶的興趣進行分析與記錄,在整個用戶對應興趣模型出現(xiàn)變化時候,對應進行整個模型的處理。

      3) 完成算法模型建模之后,后續(xù)主要對輸入的預處理數(shù)據(jù)信息進行分析與處理,將不同的用戶分類進行聚類,以此提升算法處理的準確度。同時為了提升算法的準確性,需要將不同用戶之間的距離盡可能變大,同時減小相似用戶之間的距離,以此降低整個處理的相似空間。

      4) 推薦處理結果展示:在整個算法模型處理完成之后,輸出處理結果,這些結果信息通過TopN的方式來進行排名,用戶能夠查詢到這些推薦結果的可視化平明,后續(xù)需要對這些結果進行過濾評估,以此確定更合適的推薦目標。

      猜你喜歡
      用戶畫像協(xié)同過濾開放教育
      把聲音的魅力發(fā)揮到極致
      中國廣播(2017年1期)2017-02-21 13:40:10
      基于鏈式存儲結構的協(xié)同過濾推薦算法設計與實現(xiàn)
      軟件導刊(2016年11期)2016-12-22 21:40:40
      基于相似傳播和情景聚類的網絡協(xié)同過濾推薦算法研究
      基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
      移動用戶畫像構建研究
      混合推薦算法在電影推薦中的研究與評述
      開放教育會計學??茖嵺`教學解析
      基于微博的大數(shù)據(jù)用戶畫像與精準營銷
      電大開放教育學生流失原因及對策分析
      移動互聯(lián)網下手機用戶使用行為特征的研究
      定边县| 望奎县| 深州市| 临城县| 保康县| 萨迦县| 齐齐哈尔市| 宝坻区| 咸宁市| 观塘区| 茌平县| 布拖县| 泽普县| 溧阳市| 凌云县| 台湾省| 东海县| 德州市| 湛江市| 贵州省| 贡觉县| 海原县| 塘沽区| 荔浦县| 浪卡子县| 丁青县| 安宁市| 儋州市| 梅州市| 广州市| 项城市| 武城县| 嵊州市| 土默特右旗| 双辽市| 伊通| 专栏| 丰都县| 烟台市| 朝阳区| 孝感市|