• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      引入用戶情感的高階奇異值分解推薦算法研究

      2018-03-26 09:19:12李仁德劉建國(guó)
      關(guān)鍵詞:社刊三階張量

      郭 強(qiáng),岳 強(qiáng),李仁德,劉建國(guó)

      (1.上海理工大學(xué)復(fù)雜系統(tǒng)科學(xué)研究中心,上海 200093;2.上海財(cái)經(jīng)大學(xué)金融科技研究院,上海 200433)

      0 引言

      1 情感計(jì)算

      本文使用某在線互聯(lián)網(wǎng)教育中用戶評(píng)論的數(shù)據(jù)集來(lái)評(píng)估所提出算法的性能。該數(shù)據(jù)集包含2017年1月至3月間的一共1 324 501條用戶評(píng)論記錄,其中用戶評(píng)論是指用戶在選擇過(guò)的某一社團(tuán)刊物(下文簡(jiǎn)稱為社刊)上發(fā)表評(píng)論,一個(gè)用戶可以對(duì)某一社刊進(jìn)行多次評(píng)論。本文定義上述實(shí)證數(shù)據(jù)為原始數(shù)據(jù),在原始數(shù)據(jù)中不難發(fā)現(xiàn)用戶會(huì)在社刊上發(fā)表帶有emoji表情的評(píng)論,其中單個(gè)社刊中含有emoji表情的評(píng)論記錄數(shù)的概率分布如圖1所示,其中表示單個(gè)社刊中含有emoji表情的評(píng)論記錄的數(shù)量,表示的概率分布函數(shù)。

      圖1 社刊-emoji表情概率分布圖

      結(jié)合圖1,經(jīng)統(tǒng)計(jì)可知,即有emoji表情評(píng)論記錄的社刊占所有全部社刊數(shù)量的89%,也就是絕大部分社刊中都有用戶發(fā)表包含emoji表情的評(píng)論記錄。

      1.1 emoji表情提取

      在計(jì)算用戶情感之前,需要對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和emoji表情提取。首先刪除不含emoji表情的評(píng)論記錄。其次,結(jié)合圖2主圖可知,用戶通常在評(píng)論中發(fā)表的不同的emoji表情的數(shù)量不大于3種,為了防止用戶灌水即在一條評(píng)論中發(fā)很多不同的emoji表情,刪除表情種類數(shù)大于3種的記錄。接下來(lái),結(jié)合圖2子圖可知,極小部分的社刊擁有的用戶數(shù)小于3個(gè),其中擁有用戶數(shù)為1的社刊,那唯一一個(gè)用戶是社刊的創(chuàng)刊者,故考慮到社刊的品質(zhì),刪除擁有用戶數(shù)小于3個(gè)的社刊記錄。

      圖2 原始數(shù)據(jù)統(tǒng)計(jì)直方圖

      本文定義原始數(shù)據(jù)在經(jīng)過(guò)上述3個(gè)步驟后,保留下來(lái)的數(shù)據(jù)稱為篩選數(shù)據(jù)。為了獲得更稠密的數(shù)據(jù),本文在篩選數(shù)據(jù)上構(gòu)造了如圖3所示的投影網(wǎng)絡(luò)[22],即把某一用戶評(píng)論過(guò)某一社刊視作一個(gè)新單元節(jié)點(diǎn),若與其他單元節(jié)點(diǎn)存在相同的用戶或者社刊則產(chǎn)生連邊。

      如圖3所示,用戶a在社刊1上評(píng)論過(guò),將這條記錄看作一個(gè)單元節(jié)點(diǎn),用A表示,即A中既包含用戶也包含社刊信息。相應(yīng)的,將用戶b和社刊1看作一個(gè)單元節(jié)點(diǎn)B。因?yàn)閱卧?jié)點(diǎn)A和B中包含同樣的社刊1,則A與B之間存在一條連邊。以此類推,單元節(jié)點(diǎn)之間依靠是否擁有同樣的用戶或者社刊信息而建立連邊,這樣便構(gòu)成了本文使用的投影網(wǎng)絡(luò)。最后,在投影網(wǎng)絡(luò)上應(yīng)用k核分解[23]。實(shí)驗(yàn)中k取最大值3 442,便可得到最核心的單元節(jié)點(diǎn)。

      圖3 投影網(wǎng)絡(luò)構(gòu)建示意圖

      圖4 數(shù)據(jù)清洗流程圖

      表1 實(shí)驗(yàn)數(shù)據(jù)與原始數(shù)據(jù)對(duì)照表

      從上述k值最大所對(duì)應(yīng)的單元節(jié)點(diǎn)中,保留用戶和社刊信息,并定義這部分用戶與社刊為核心用戶與社刊。再?gòu)暮Y選數(shù)據(jù)中篩選出包含這部分核心用戶與社刊的評(píng)論數(shù)據(jù)即篩選后的評(píng)論數(shù)據(jù)是由核心用戶對(duì)核心社刊所發(fā)表的包含emoji表情的評(píng)論數(shù)據(jù),本文定義這部分篩選后的數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)。至此,數(shù)據(jù)清洗及emoji表情提取工作全部結(jié)束,總體流程圖如圖4所示,其中原始數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)兩者的核心字段變化對(duì)比如表1所示。

      1.2 情感計(jì)算

      在本文中,根據(jù)用戶在相應(yīng)社刊評(píng)論中emoji表情數(shù)據(jù)提煉出用戶情感。大致過(guò)程為:首先將emoji表情分成3類,分別是:積極、中立和消極;檢驗(yàn)分類結(jié)果的一致性;之后給積極、中立和消極分別賦值權(quán)重為:1、0和-1,再結(jié)合每條記錄中3類表情各自出現(xiàn)的頻次,如此便可得到某個(gè)用戶對(duì)其選擇過(guò)的某個(gè)社刊的情感。詳細(xì)用戶情感計(jì)算過(guò)程如下:

      經(jīng)過(guò)數(shù)據(jù)清洗,得到15 370條記錄的數(shù)據(jù)。在這些記錄中一共提取出126種emoji表情,并由7名志愿者主觀的對(duì)這126種emoji表情分成3類,分別是:積極、中立和消極。為了檢驗(yàn)志愿者主觀分類的結(jié)果的一致性,避免出現(xiàn)某個(gè)志愿者胡亂分類的情況,本文對(duì)分類結(jié)果進(jìn)行了Krippendorff’s alpha檢驗(yàn)[24],檢驗(yàn)結(jié)果如表2所示。

      表2 emoji表情分類部分結(jié)果

      當(dāng)Alpha值大于基準(zhǔn)值0.6時(shí),則表明不同志愿者的分類結(jié)果之間的差異是可以被接受的[24]。文中實(shí)驗(yàn)的Alpha值為0.706 9大于基準(zhǔn)值0.6,所以志愿者的分類結(jié)果是可取的。之后,對(duì)7名志愿者的分類結(jié)果取眾數(shù)即獲得相應(yīng)emoji表情的所屬分類。部分emoji表情分類結(jié)果如表2所示。

      表情分類結(jié)束后,本文根據(jù)式(1)來(lái)計(jì)算用戶在某條記錄表達(dá)對(duì)社刊的情感:

      (1)

      綜合某一用戶對(duì)某一社刊的所有記錄,根據(jù)式(2)即可得到,總體上用戶對(duì)社刊的情感:

      (2)

      其中,n2為用戶u對(duì)社刊m的所有評(píng)論記錄數(shù)。由式(1)和式(2)可知,用戶u對(duì)社刊m的情感eum的取值范圍是(-1,1),其中eum=1,即表示用戶u對(duì)社刊m的評(píng)論中全部是積極的emoji表情,透露出用戶u對(duì)社刊m的稱贊、喜愛(ài)的情感;反之,eum=-1即表示用戶u對(duì)社刊m的厭惡的情感。

      2 引入用戶情感的三階HOSVD分解算法

      本節(jié)通過(guò)一個(gè)實(shí)例闡述整個(gè)引入用戶情感的三階HOSVD分解算法(下文簡(jiǎn)稱HOSVD(uem)分解算法)流程。實(shí)例中用戶、社刊以及用戶對(duì)社刊的情感三者之間的關(guān)系如圖5所示,其中用戶u1和u2對(duì)社刊m1的情感為e1,用戶u2對(duì)社刊m2的情感為e2,用戶u3對(duì)社刊m2和社刊m3的情感為e3。

      2.1 構(gòu)造初始張量

      通過(guò)實(shí)例中用戶、社刊以及用戶對(duì)社刊的情感三者關(guān)系來(lái)構(gòu)造一個(gè)三階張量A∈R3×3×3,并將某個(gè)用戶對(duì)某個(gè)社刊的情感這一條記錄出現(xiàn)的權(quán)重作為張量A的元素。為了避免高維張量導(dǎo)致算法具有高階時(shí)間復(fù)雜度,Symeonidis[14]定義了一個(gè)稀疏張量即將圖5中出現(xiàn)的5條記錄的權(quán)重全部初始化為1,如表3所示。相應(yīng)地,圖5中沒(méi)出現(xiàn)的記錄的權(quán)重全部為0。

      圖5 實(shí)例數(shù)據(jù)關(guān)系圖

      表3 通過(guò)實(shí)例中數(shù)據(jù)構(gòu)造的初始張量A

      圖6 實(shí)例中的初始張量AFig.6 Original tensor A of instance data

      由表3可知,初始張量A中的元素分別是:a111=a211=a222=a332=a333,其余元素的值全部為0。其中,a111=1對(duì)應(yīng)表3中的第一條記錄,即u1用戶對(duì)社刊m1的情感為e1;相反的,以a112=0為例,a112表示用戶u1對(duì)社刊m2的情感為e1,而這條記錄并沒(méi)有出現(xiàn)在表3中,則a112=0。為了更形象的表示三階張量A,將張量A寫成三維矩陣的形式,如圖6所示。

      2.2 初始張量n-模展開(kāi)

      為了在三階張量A上應(yīng)用奇異值分解(下文簡(jiǎn)稱SVD分解),首先需要將張量A進(jìn)行矩陣展開(kāi),即將張量A按照n-模重新排列成一個(gè)矩陣。三階張量A的n-模展開(kāi)示意圖如圖7所示,其中I1、I2、I3表示三階張量的三個(gè)維度,并且A1∈RI1×I2I3,A2∈RI2×I1I3,A3∈RI1I2×I3。

      實(shí)例中初始張量A的1-模、2-模和3-模展開(kāi)的矩陣A1、A2、A3分別表示為

      圖7 三階張量A的n-模展開(kāi)示意圖Fig.7 n-mode unfolding of 3rd-tensor

      2.3 SVD分解

      (3)

      SVD分解過(guò)程中需要對(duì)S矩陣進(jìn)行調(diào)整,以便于過(guò)濾掉原始矩陣中的噪聲信息。在本文中,將保留原始矩陣中信息量多少定義為信息量閾值σ,即信息量閾值不大于為對(duì)角矩陣S中前k大奇異值的和與所有奇異值和的比例。設(shè)對(duì)角矩陣前k大奇異值的和為pk,所有奇異值和為p,則信息量閾值計(jì)算如式(4)所示。

      (4)

      本文中,為了取得最佳的實(shí)驗(yàn)結(jié)果,經(jīng)過(guò)多次實(shí)驗(yàn),最終確定在A1、A2、A3上進(jìn)行SVD分解所取的信息量閾值σ分別是:0.5,0.9,0.5。信息量閾值確定后就可以求k的值。k是滿足式(4)的最小整數(shù)值。當(dāng)k值確定后,從對(duì)角矩陣S中取出前k大奇異值組建成新的對(duì)角矩陣Sk;從U和V中選取相應(yīng)的前k個(gè)左右奇異向量,分別組建成新的Uk和Vk,則降噪后的A1、A2、A3如式(5)所示。

      (5)

      2.4 計(jì)算核心張量

      (6)

      圖8 實(shí)例中近似核心張量

      2.5 計(jì)算近似張量

      (7)

      為了方便生成推薦列表,將圖9中的三維矩陣寫成表4的形式。

      圖9 實(shí)例中近似張量

      表4 實(shí)例中計(jì)算出的近似張量

      2.6 生成推薦列表

      3 實(shí)驗(yàn)設(shè)置與結(jié)果

      3.1 實(shí)驗(yàn)設(shè)置

      (8)

      其中,di(k)表示用戶ui在測(cè)試集中記錄同時(shí)出現(xiàn)在推薦列表中前k個(gè)位置的記錄個(gè)數(shù);召回率是出現(xiàn)在在測(cè)試集中記錄的同時(shí)也位于推薦列表前k個(gè)位置的記錄個(gè)數(shù)與測(cè)試集中所有記錄個(gè)數(shù)Ci的比值。平均所有用戶的召回率,得到數(shù)據(jù)集上所有用戶的平均召回率,即為:

      (9)

      F1值是一種統(tǒng)一準(zhǔn)確率和召回率的系統(tǒng)性能評(píng)估標(biāo)準(zhǔn),定義為

      (10)

      3.2 實(shí)驗(yàn)結(jié)果

      圖10 各算法F1值、準(zhǔn)確率和召回率結(jié)果對(duì)比圖

      表5 各算法F1值的Top1~5的平均值

      4 結(jié)語(yǔ)

      emoji表情已經(jīng)成為互聯(lián)網(wǎng)時(shí)代必不可少的元素之一,是人們表達(dá)情感的重要載體。通過(guò)分析海量的emoji表情信息,可以了解用戶的情緒狀況、對(duì)某個(gè)社會(huì)的現(xiàn)象的觀點(diǎn)、對(duì)某款產(chǎn)品的喜好等,意義非凡。目前國(guó)內(nèi)外學(xué)術(shù)界關(guān)于emoji表情的研究尚處于起步階段,但隨著emoji表情的蔓延式發(fā)展,可以肯定的是對(duì)emoji表情的分析與研究是未來(lái)的大趨勢(shì)。對(duì)emoji表情的分析不僅可以對(duì)人機(jī)交互、市場(chǎng)營(yíng)銷等領(lǐng)域產(chǎn)生重要影響,具有十分可觀的商業(yè)價(jià)值;還可以用來(lái)分析用戶心理、態(tài)度等,對(duì)維護(hù)社會(huì)穩(wěn)定有所幫助。本文只是從用戶情感的角度入手,將emoji表情引入到推薦算法中。但因涉及到三階張量,本文提出的算法的時(shí)間復(fù)雜度較高,不適用于大規(guī)模網(wǎng)絡(luò)。同時(shí)該方法推薦效果依賴評(píng)論中emoji表情轉(zhuǎn)化成用戶情感的準(zhǔn)確性,因此未來(lái)的工作可以進(jìn)一步將文中emoji表情的分類分的更細(xì)致,使提煉出的用戶情感更精確,從而提高推薦的效果。

      猜你喜歡
      社刊三階張量
      花雨文學(xué)社
      美文(2023年8期)2023-04-26 03:22:42
      三階非線性微分方程周期解的非退化和存在唯一性
      杭州師范大學(xué)名賢篆刻錄:樂(lè)石社社刊《樂(lè)石第二集》篆刻選刊:陳兼善/邱志貞/陳偉(1914年)
      偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
      四元數(shù)張量方程A*NX=B 的通解
      高校文學(xué)社團(tuán)生存現(xiàn)狀調(diào)研
      擴(kuò)散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
      二月文學(xué)社簡(jiǎn)介
      三類可降階的三階非線性微分方程
      三階微分方程理論
      筠连县| 横峰县| 盐津县| 昌乐县| 罗平县| 霍城县| 萨嘎县| 宜君县| 云林县| 辽阳市| 温泉县| 巍山| 皋兰县| 庆城县| 达孜县| 岑溪市| 丹阳市| 苏尼特右旗| 蒙城县| 宝清县| 长岭县| 阳泉市| 潢川县| 盐池县| 合阳县| 收藏| 德昌县| 华蓥市| 鄂尔多斯市| 外汇| 左权县| 仁布县| 高碑店市| 河东区| 桐柏县| 石河子市| 宝丰县| 临城县| 衡阳市| 邳州市| 商城县|