• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于用戶生成文本的圖書(shū)標(biāo)簽關(guān)聯(lián)規(guī)則識(shí)別方法

      2021-11-22 13:04:10張勁松
      情報(bào)雜志 2021年11期
      關(guān)鍵詞:關(guān)聯(lián)標(biāo)簽閾值

      張勁松

      (山東管理學(xué)院圖書(shū)館 濟(jì)南 250357)

      0 引 言

      大數(shù)據(jù)背景下,海量用戶文本為數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)提供了豐富的語(yǔ)料來(lái)源。用戶圍繞圖書(shū)、影視等網(wǎng)絡(luò)資源,進(jìn)行標(biāo)簽標(biāo)注、在線評(píng)論、社會(huì)交往等活動(dòng),逐漸形成各類在線用戶社區(qū)(Online User Community)[1]。研究如何從在線用戶社區(qū)中,識(shí)別用戶的動(dòng)態(tài)興趣特征,刻畫(huà)其情感傾向,對(duì)實(shí)現(xiàn)用戶個(gè)性化推薦,完善商品營(yíng)銷策略等具有重要的研究?jī)r(jià)值。

      當(dāng)前,推薦算法可分為基于用戶的協(xié)同過(guò)濾(Collaborative Filtering)[2]以及基于文本的內(nèi)容發(fā)現(xiàn)方法(Context-Based Recommendation)[3]?;谟脩舻膮f(xié)同過(guò)濾方法通過(guò)識(shí)別用戶對(duì)興趣項(xiàng)目的評(píng)分,獲取最小近鄰偏好矩陣,并以此為基礎(chǔ)計(jì)算用戶之間、用戶與項(xiàng)目之間的相似度。如汪圳[4]等提出一種基于用戶情景感知的圖書(shū)協(xié)同過(guò)濾方法,該方法通過(guò)構(gòu)建包含用戶屬性要素特征、圖書(shū)使用行為、圖書(shū)需求場(chǎng)景等的多維特征矩陣,實(shí)現(xiàn)用戶圖書(shū)需求的多項(xiàng)目協(xié)同過(guò)濾推薦。胡代平[5]等將用戶借閱行為與圖書(shū)標(biāo)簽相融合,提出一種基于動(dòng)態(tài)用戶閱讀偏好的高校圖書(shū)推薦方法,該方法通過(guò)識(shí)別讀者偏好屬性,實(shí)現(xiàn)平滑時(shí)間維下偏好特征的在線計(jì)算?;谟脩舻膮f(xié)同過(guò)濾方法適合數(shù)據(jù)規(guī)模較少且特征區(qū)分度較高的圖書(shū)項(xiàng)目,缺點(diǎn)是在用戶數(shù)據(jù)稀疏時(shí)用戶標(biāo)簽屬性建模存在冷啟動(dòng)問(wèn)題?;谖谋镜膬?nèi)容發(fā)現(xiàn)方法通過(guò)分析用戶的文本信息,以用戶畫(huà)像、興趣標(biāo)簽標(biāo)注等形式識(shí)別用戶的興趣特征,最終實(shí)現(xiàn)用戶與項(xiàng)目資源間的語(yǔ)義匹配。如李曉敏[6]等提出一種基于用戶畫(huà)像的圖書(shū)推薦方法,該方法通過(guò)抽取用戶的多維屬性特征,實(shí)現(xiàn)用戶綜合畫(huà)像,并通過(guò)相似度計(jì)算推薦相似讀者與相似圖書(shū)。張彬[7]等提出一種基于多源標(biāo)簽的興趣融合方法,該方法首先將讀者與項(xiàng)目劃分成不同的層次,并對(duì)相鄰域進(jìn)行標(biāo)簽權(quán)重計(jì)算,最終得到讀者的綜合興趣標(biāo)簽集。

      隨著社交網(wǎng)絡(luò)技術(shù)的快速發(fā)展,包含大量用戶行為、興趣、主題等的用戶生成文本(User Generated Content)越來(lái)越受到關(guān)注[8-9]。面向用戶生成文本的圖書(shū)推薦發(fā)現(xiàn),能夠識(shí)別讀者的興趣熱點(diǎn),實(shí)現(xiàn)讀者與圖書(shū)間的內(nèi)在關(guān)聯(lián)挖掘,從而精準(zhǔn)定位讀者需求?;谟脩羯晌谋镜耐扑]方法與基于文本的內(nèi)容發(fā)現(xiàn)方法相類似,不同之處在于,前者突出與用戶評(píng)論相關(guān)的文本感知與情感描述,通過(guò)概率計(jì)算、主題分析等方法,刻畫(huà)讀者的內(nèi)在圖書(shū)需求。如顏端武[10]提出面向知識(shí)服務(wù)的推薦方法,該方法以用戶生成文本為數(shù)據(jù)來(lái)源,通過(guò)挖掘用戶的興趣特征,建立用戶興趣方法,再?gòu)呐d趣資源建模的角度,構(gòu)建基于領(lǐng)域本體的圖書(shū)可視化平臺(tái),最終利用文本相似性刻畫(huà)用戶與資源間的關(guān)聯(lián)關(guān)系。武雅利[11]基于情感詞典提出面向用戶生成內(nèi)容的個(gè)性化情感分析方法,該方法通過(guò)定量分析用戶對(duì)文本的情感值,實(shí)現(xiàn)了用戶對(duì)商品資源的有效推薦。此外,考慮到用戶生成文本的文法隨意、結(jié)構(gòu)不規(guī)范等特點(diǎn),其質(zhì)量會(huì)影響對(duì)用戶的興趣偏好識(shí)別以及標(biāo)簽標(biāo)注,因而也有學(xué)者針對(duì)面向推薦的用戶生成文本質(zhì)量進(jìn)行研究,如鐘將等提出一種基于主題特征格的用戶生成文本質(zhì)量評(píng)估方法[12],該方法通過(guò)定義文本質(zhì)量評(píng)估函數(shù),基于主題模型構(gòu)建商品分類體系,最終以概念格的形式生成具有強(qiáng)關(guān)聯(lián)關(guān)系的評(píng)論特征格。多數(shù)基于用戶生成文本的圖書(shū)推薦方法無(wú)法有效融合讀者的情感特征與圖書(shū)資源的主題特征,缺乏對(duì)用戶間聚類關(guān)系的概念級(jí)多粒度表示能力。

      針對(duì)以上問(wèn)題,本文通過(guò)挖掘用戶標(biāo)簽隱藏的主題依賴關(guān)系,將模糊關(guān)聯(lián)規(guī)則引入圖書(shū)標(biāo)簽挖掘方法中,提出一種基于用戶生成文本的模糊關(guān)聯(lián)規(guī)則識(shí)別方法,該方法首先通過(guò)識(shí)別用戶書(shū)評(píng)文本的主題特征,建立圖書(shū)標(biāo)簽特征矩陣,實(shí)現(xiàn)圖書(shū)的主題聚類。其次,通過(guò)計(jì)算不同用戶間的主題相似度,獲取候選用戶集,再利用文本情感分析,得到用戶對(duì)標(biāo)簽的情感評(píng)分,并以此為基礎(chǔ),建立標(biāo)簽?zāi):问奖尘?。最后,基于?biāo)簽?zāi):拍罡?,定義模糊關(guān)聯(lián)規(guī)則,利用隸屬度置信閾值、隸屬度期望等參數(shù)刻畫(huà)圖書(shū)標(biāo)簽間的模糊依賴關(guān)系,獲取圖書(shū)資源間的蘊(yùn)含依賴關(guān)系,最終實(shí)現(xiàn)圖書(shū)標(biāo)簽關(guān)聯(lián)規(guī)則識(shí)別。

      1 圖書(shū)標(biāo)簽關(guān)聯(lián)規(guī)則識(shí)別

      RFAR方法首先將用戶對(duì)圖書(shū)的評(píng)論數(shù)據(jù)作為目標(biāo)數(shù)據(jù)集,經(jīng)過(guò)預(yù)處理等操作后,通過(guò)識(shí)別圖書(shū)標(biāo)簽的主題特征,建立圖書(shū)-主題分布矩陣;其次,通過(guò)計(jì)算不同用戶的圖書(shū)標(biāo)簽特征矩陣的余弦相似度,構(gòu)建目標(biāo)用戶對(duì)象集,同時(shí)采用基于情感詞典的文本情感分析,計(jì)算用戶對(duì)不同標(biāo)簽屬性的情感評(píng)分,據(jù)此建立用戶對(duì)象與標(biāo)簽屬性間的模糊關(guān)系映射,得到標(biāo)簽?zāi):问奖尘埃蛔詈?,依?jù)模糊概念格生成算法,構(gòu)建標(biāo)簽?zāi):拍罡?,并結(jié)合定義的模糊關(guān)聯(lián)規(guī)則,從模糊概念層面挖掘主題特征間的模糊依賴關(guān)系。

      1.1研究框架本研究框架如圖1所示。

      圖1 研究框架

      標(biāo)簽?zāi):问奖尘皩⒂脩魳?biāo)注的標(biāo)簽集表示成一組內(nèi)涵模糊屬性集,便于從標(biāo)簽的文本信息中獲取用戶對(duì)圖書(shū)的情感傾向,從而實(shí)現(xiàn)基于情感分析的多粒度關(guān)聯(lián)分析。

      定義2 (標(biāo)簽?zāi):拍?:對(duì)標(biāo)簽?zāi):问奖尘癒f=(O,A,I)上的二元組(U,V),對(duì)任意子集U∈O,V∈A,均存在公式(1)、公式(2)映射關(guān)系,則稱該二元組是滿足隸屬度置信閾值λ下的一組標(biāo)簽?zāi):拍?,記為Cf(U,V)。

      (1)

      (2)

      通過(guò)調(diào)節(jié)隸屬度置信閾值λ,能夠調(diào)整標(biāo)簽?zāi):拍钪袑?duì)象的數(shù)量,根據(jù)需要構(gòu)建具有實(shí)際意義的內(nèi)涵模糊概念,從而將對(duì)象與屬性間的模糊二元關(guān)系轉(zhuǎn)化成標(biāo)簽?zāi):拍畹牧6缺硎尽?/p>

      (3)

      1.3標(biāo)簽主題建模RFAR方法主要針對(duì)在線圖書(shū)社區(qū)的用戶文檔進(jìn)行主題建模,多數(shù)用戶通常是以書(shū)評(píng)的形式發(fā)表包含創(chuàng)作、學(xué)術(shù)以及情感評(píng)價(jià)等短文本。本文通過(guò)分詞、去停用詞等文本清洗操作后,采集到的有效用戶評(píng)論文本的平均長(zhǎng)度為120。但由于LDA主題模型通常不適合挖掘短文本數(shù)據(jù)[13],同時(shí)無(wú)法有效解決高頻無(wú)效詞對(duì)主題概率分布的影響,因此,首先引入TF-IDF算法獲取文本特征詞的統(tǒng)計(jì)信息,提高文檔主題分析的可解釋性,然后采用BTM(Biterm Topic Model)短文本主題模型實(shí)現(xiàn)主題聚類,改善數(shù)據(jù)稀疏文檔的主題識(shí)別能力。

      1.3.1 圖書(shū)標(biāo)簽提取 TF-IDF(Term Frequency-Inverse Document Frequency)算法是一種計(jì)算文本詞頻的統(tǒng)計(jì)方法,可用于評(píng)估語(yǔ)料庫(kù)中具體詞匯在所有文檔中的重要程度[14]。因此,本文基于TF-IDF計(jì)算文檔評(píng)估短語(yǔ)的詞頻特征,具體計(jì)算過(guò)程如下:首先統(tǒng)計(jì)文本中每個(gè)詞匯的出現(xiàn)頻率(TF值),同時(shí)計(jì)算相應(yīng)詞匯的逆向文檔詞頻(IDF值),再通過(guò)計(jì)算TF與IDF的乘積,得到文檔詞匯的TF-IDF詞頻。其計(jì)算方法如公式(4)所示。

      (4)

      1.3.2 BTM主題聚類 BTM主題模型是一種面向短文本的主題學(xué)習(xí)模型[15],該模型基于離散詞共現(xiàn)的基本思想,將文檔表示成若干話題的概率集合,將話題表示成若干詞匯的概率集合,并通過(guò)構(gòu)建“文檔-主題-詞匯”的三層Bayes概率模型,實(shí)現(xiàn)文本的主題聚類。

      本文將BTM主題模型的文檔視為圖書(shū)標(biāo)簽集合,文檔詞匯視為用戶標(biāo)簽,識(shí)別標(biāo)簽的主題信息,具體計(jì)算流程如下:

      1.4標(biāo)簽情感挖掘

      1.4.1 主題相似度計(jì)算 以用戶-主題概率矩陣為基礎(chǔ),計(jì)算不同用戶間的主題相關(guān)性。采用余弦相似度計(jì)算用戶間的主題相似距離,得到候選目標(biāo)用戶集U(u1,u2,…,un),計(jì)算如公式(5)所示。

      (5)

      式(5)中,pmj與pnj分別表示用戶u1,u2對(duì)主題的標(biāo)注概率;m,n分別表示用戶u1,u2標(biāo)注的主題數(shù);r=max(m,n)。

      1.4.2 文本情感分析 用戶通過(guò)描述型、情感型書(shū)評(píng)表達(dá)與原創(chuàng)作者在情感上的共鳴或差異,從而顯露出對(duì)不同標(biāo)簽的情感傾向[18]。挖掘用戶間的相似情感,能夠最大限度地還原用戶對(duì)不同標(biāo)簽主題的情感評(píng)價(jià),從而在標(biāo)簽主題聚類的基礎(chǔ)上,增加對(duì)標(biāo)簽情感的程度刻畫(huà)。本文基于WordNet情感字典[19]識(shí)別隱含在用戶標(biāo)簽中的正負(fù)情感傾向,并將其量化成用戶對(duì)標(biāo)簽屬性的情感評(píng)分,實(shí)現(xiàn)用戶與標(biāo)簽間的模糊關(guān)系映射。具體實(shí)現(xiàn)過(guò)程如下:首先從用戶文本中抽取標(biāo)簽及其評(píng)論文本,分別建立標(biāo)簽-評(píng)論文本矩陣,再?gòu)脑u(píng)論文本中抽取情感詞,計(jì)算用戶對(duì)標(biāo)簽的情感值,計(jì)算如公式(6)所示。

      (6)

      式(6)中,|D|表示用戶文本中標(biāo)簽數(shù)量;d表示D中所含的標(biāo)簽;sd(u)表示文本d中用戶的情感值,計(jì)算如公式(7)所示。

      (7)

      式(7)中,m,n分別表示情感字典中正、負(fù)情感詞數(shù);pwi,nwj分別表示情感字典中的正、負(fù)情感詞;SimPos(w,pwi),SimNeg(w,nwj)分別表示正、負(fù)情感相似度。

      1.4.3 標(biāo)簽?zāi):问奖尘皹?gòu)建 通過(guò)識(shí)別用戶對(duì)標(biāo)簽的情感傾向,經(jīng)過(guò)歸一化處理后,得到用戶-標(biāo)簽情感評(píng)分矩陣,以此作為用戶與標(biāo)注標(biāo)簽間的模糊關(guān)系,從而構(gòu)建標(biāo)簽?zāi):问奖尘埃唧w流程描述如下:a.對(duì)于給定的用戶ui,帶入公式(4)計(jì)算主題相似度,得到目標(biāo)用戶對(duì)象集U(u1,u2,…,un);b.遍歷用戶對(duì)象集,從用戶-標(biāo)簽矩陣Mu,l(i,j)中選取標(biāo)簽l的TF-IDF詞頻排名靠前的top-n,并分別將其映射到屬性集A(a1,a2,…,am);c.抽取包含標(biāo)簽l的四元組<句子,屬性,情感詞,情感評(píng)分>,其中情感評(píng)分由公式(5)和公式(6)計(jì)算得到;d.整合用戶關(guān)于標(biāo)簽l的所有句子評(píng)價(jià)信息,得到用戶對(duì)標(biāo)簽屬性的綜合情感評(píng)分,并以此作為用戶u關(guān)于標(biāo)簽l的模糊關(guān)系值。重復(fù)上述步驟,最終實(shí)現(xiàn)標(biāo)簽?zāi):问奖尘暗臉?gòu)建。

      1.5模糊關(guān)聯(lián)規(guī)則分析基于模糊概念格的關(guān)聯(lián)規(guī)則分析,通過(guò)將模糊概念的內(nèi)涵屬性映射到模糊關(guān)系集中,挖掘滿足支持度和置信度的頻繁項(xiàng)集,從而發(fā)現(xiàn)概念節(jié)點(diǎn)之間的強(qiáng)關(guān)聯(lián)關(guān)系,并通過(guò)調(diào)整支持度與可信度閾值參數(shù),從模糊依賴關(guān)系角度強(qiáng)化了標(biāo)簽?zāi):拍畹牧6刃畔ⅰ楸阌谧R(shí)別模糊關(guān)聯(lián)規(guī)則,參考文獻(xiàn)[20]在模糊概念的數(shù)據(jù)結(jié)構(gòu)中添加屬性的統(tǒng)計(jì)特征,利用概念節(jié)點(diǎn)間的偏序關(guān)系,實(shí)現(xiàn)頻繁項(xiàng)集的動(dòng)態(tài)提取。相關(guān)定義如下:

      通過(guò)構(gòu)造標(biāo)簽統(tǒng)計(jì)模糊概念,并基于定義5提取頻繁概念節(jié)點(diǎn)及其偏序關(guān)系,構(gòu)造滿足模糊依賴關(guān)系的模糊關(guān)聯(lián)規(guī)則格[22]。本文首先更新標(biāo)簽?zāi):拍?,添加用戶?duì)標(biāo)簽的隸屬度,構(gòu)建標(biāo)簽?zāi):拍罡?;再?gòu)母窠Y(jié)構(gòu)約束中,提取模糊關(guān)聯(lián)規(guī)則。限于篇幅,關(guān)于模糊概念格的構(gòu)造過(guò)程,可參見(jiàn)文獻(xiàn)[23]。模糊關(guān)聯(lián)規(guī)則的提取過(guò)程算法如下:

      Input:(FC(Kf),≤),隸屬度置信閾值λ,隸屬度期望閾值δ,隸屬度方差閾值ω,支持度閾值ψ,置信度閾值ζ。Output:頻繁概念節(jié)點(diǎn)集F,模糊關(guān)聯(lián)規(guī)則集AR,二元概念組BR,支持度Sup(R),可信度Con(R)。GetFC(Kf) from (FC(Kf),≤) //抽取標(biāo)簽?zāi):拍罴?For i=1 toN // ComputeE(Vi), σ(Vi) UpdateC'i=(Ui,Vi,E(Vi),σ(Vi),parent,children) //更新模糊概念節(jié)點(diǎn) AddC'i to FC'(Kf) For j=1 toM IfE(Vi)>δ and σ(Vi)<ω For eachC'i≥C'j?Vi?VjSup(R)=E(Vj) //計(jì)算支持度Con(R)=Normalized(σ(Vj)) //計(jì)算可信度F=F∪C'i Endfor IfC'i.parent or C'i.children∈ F BR= BR∪{C'i.parent∪C'i.children} //遍歷頻繁概念節(jié)點(diǎn)父類與子類節(jié)點(diǎn)信息 Endif Endif Endfor If λ≤C'1.μv1u1≤C'2.μv2u2 //利用置信閾值抽取模糊概念Choose R:V1?V2-V1 from BR //提取模糊關(guān)聯(lián)規(guī)則 IfSupR >ψ and ConR >ζ //調(diào)整閾值,得到強(qiáng)關(guān)聯(lián)規(guī)則 GetAR= AR ∪{R, Sup(R), Con(R)} Endif EndifEndfor

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1實(shí)驗(yàn)來(lái)源實(shí)驗(yàn)數(shù)據(jù)來(lái)源于知乎讀書(shū)會(huì)社區(qū),選取2021年3月10日-5月10日內(nèi)評(píng)論數(shù)排名靠前的1 000本圖書(shū),涵蓋讀者46 732人,有效書(shū)評(píng)文本數(shù)123 062份。首先使用中科院的ICTCLAS軟件對(duì)書(shū)評(píng)文本進(jìn)行分詞,得到(用戶,詞匯)矩陣,再基于TF-IDF模型計(jì)算用戶文檔詞的詞頻數(shù)值,選取用戶文本中的高頻詞作為圖書(shū)的標(biāo)簽集,建立(用戶,標(biāo)簽)關(guān)系矩陣,其中矩陣元素表示用戶標(biāo)簽的tf-idf值,表1是部分用戶標(biāo)簽的tf-idf值。

      表1 用戶-標(biāo)簽的tf-idf值(部分)

      2.2實(shí)驗(yàn)結(jié)果

      2.2.1 標(biāo)簽主題建模 將用戶的標(biāo)簽矩陣作為子文檔集,對(duì)標(biāo)簽進(jìn)行編碼表示。使用Pathon編寫(xiě)程序進(jìn)行BTM模型訓(xùn)練。其中,文檔在不同主題數(shù)下的困惑度,如圖2所示。由圖2可知,在主題數(shù)K=40時(shí),困惑度取到最小值(0.934),此時(shí)方法性能最佳,因此設(shè)置主題數(shù)為40,經(jīng)過(guò)1000次抽樣迭代后得到不同用戶的標(biāo)簽-主題概率矩陣,如表2所示。將用戶-標(biāo)簽矩陣與標(biāo)簽-主題概率矩陣進(jìn)行內(nèi)積計(jì)算,構(gòu)建用戶-主題概率矩陣,如表3所示。

      圖2 不同主題數(shù)下的困惑度取值

      表2 用戶的標(biāo)簽-主題概率矩陣(部分)

      表3 用戶-主題概率矩陣(部分)

      2.2.2 標(biāo)簽情感挖掘 通過(guò)分析用戶在主題上的相關(guān)性,得到其在不同主題上的相似度距離。RFAR方法采用余弦相似度計(jì)算用戶間的主題相似度。以用戶“彼得潘飛俠”為例,得到與其存在主題相似性的候選目標(biāo)用戶集。相似度較高的Top10用戶如表4所示。

      表4 “彼得潘飛俠”的主題相似用戶

      通過(guò)計(jì)算用戶間的主題相似性,構(gòu)建用戶對(duì)象集合?;谇楦凶值渥R(shí)別標(biāo)簽所屬文本的情感詞,分析隱含在用戶標(biāo)簽中的情感傾向,利用公式(6)和公式(7)計(jì)算用戶對(duì)標(biāo)簽屬性的情感評(píng)分,并以此作為標(biāo)簽?zāi):问奖尘爸袑?duì)象與屬性間的模糊關(guān)系。然后依據(jù)1.4.3節(jié)的描述過(guò)程,構(gòu)建標(biāo)簽?zāi):问奖尘?,結(jié)果如表5所示,表中數(shù)值表示用戶對(duì)標(biāo)簽的情感評(píng)分,其中負(fù)值表示用戶對(duì)該標(biāo)簽具有負(fù)向情感。

      表5 標(biāo)簽?zāi):问奖尘?部分)

      2.2.3 參數(shù)分析 本文通過(guò)融合讀者標(biāo)簽的主題特征與情感評(píng)分,建立標(biāo)簽?zāi):拍罡?,誘導(dǎo)出圖書(shū)標(biāo)簽的模糊關(guān)聯(lián)規(guī)則,實(shí)現(xiàn)圖書(shū)標(biāo)簽的語(yǔ)義發(fā)現(xiàn)。參數(shù)閾值對(duì)標(biāo)簽關(guān)聯(lián)規(guī)則的影響,分析如下:

      a.隸屬度置信閾值通過(guò)調(diào)整滿足用戶對(duì)象與標(biāo)簽屬性的概念數(shù),達(dá)到影響標(biāo)簽?zāi):拍钌梢?guī)模的目的。為了得到具有實(shí)際意義的標(biāo)簽?zāi):拍?,?shí)驗(yàn)選取不同的隸屬度置信閾值λ,觀測(cè)實(shí)際獲取的標(biāo)簽?zāi):拍顢?shù),結(jié)果如圖3所示。由圖3可知,伴隨著λ取值的逐漸增大,獲得的有效標(biāo)簽?zāi):拍顢?shù)逐漸減少。在λ取值0.32時(shí),標(biāo)簽?zāi):拍顢?shù)取到均值865。

      圖3 隸屬度置信閾值對(duì)標(biāo)簽?zāi):拍畹挠绊?/p>

      b.隸屬度期望表示標(biāo)簽統(tǒng)計(jì)模糊概念所含有的平均屬性數(shù),體現(xiàn)了概念本身的屬性模糊度。通過(guò)調(diào)整閾值δ,能夠控制標(biāo)簽統(tǒng)計(jì)模糊概念所含的屬性規(guī)模。在λ=0.32時(shí),通過(guò)計(jì)算每個(gè)概念的內(nèi)涵標(biāo)簽屬性數(shù),取其均值0.36作為隸屬度期望閾值δ的取值。隸屬度方差則反映了用戶對(duì)象對(duì)標(biāo)簽屬性的情感評(píng)價(jià)偏離程度。閾值ω設(shè)置為所有標(biāo)簽統(tǒng)計(jì)模糊概念中隸屬度方差的均值,取值0.0126。

      c.通過(guò)調(diào)整支持度閾值與置信度閾值,能夠控制模糊關(guān)聯(lián)規(guī)則的數(shù)量。RFAR方法按照步長(zhǎng)0.2分別對(duì)ψ,ζ賦值,提取到的關(guān)聯(lián)規(guī)則數(shù)如表6所示。分析表6可知,當(dāng)ψ=0.4,ζ=0.8時(shí),獲得的關(guān)聯(lián)規(guī)則數(shù)最接近平均值。

      表6 支持度與置信度閾值對(duì)生成關(guān)聯(lián)規(guī)則數(shù)的影響

      2.2.4 模糊關(guān)聯(lián)規(guī)則挖掘 首先采用Godin[24]漸進(jìn)式算法,基于標(biāo)簽?zāi):问奖尘皹?gòu)造模糊概念格(λ=0.32)。然后依據(jù)定義3計(jì)算模糊概念屬性的統(tǒng)計(jì)特征,并將結(jié)果加入候選頻繁概念節(jié)點(diǎn)集,將標(biāo)簽?zāi):拍罡褶D(zhuǎn)換成標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格,結(jié)果如圖4所示。統(tǒng)計(jì)模糊概念信息如表7所示。

      圖4中的標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格共包括26個(gè)統(tǒng)計(jì)模糊概念節(jié)點(diǎn),依據(jù)模糊概念節(jié)點(diǎn)間的上下位關(guān)系,可以分成7個(gè)層級(jí)。節(jié)點(diǎn)所在層級(jí)越高,其包含的對(duì)象就越多,內(nèi)涵模糊屬性則越少,如表7中節(jié)點(diǎn)2-節(jié)點(diǎn)4,含有5個(gè)對(duì)象,1個(gè)屬性。隨著層級(jí)的不斷增加,節(jié)點(diǎn)所含的對(duì)象逐漸較少,最終縮減成僅含有一個(gè)對(duì)象的概念節(jié)點(diǎn),如圖4中灰色節(jié)點(diǎn)表示僅含有1個(gè)用戶的統(tǒng)計(jì)模糊概念節(jié)點(diǎn)。針對(duì)此類節(jié)點(diǎn)展開(kāi)分析,能夠?qū)崿F(xiàn)用戶的個(gè)性化閱讀興趣分析。

      圖4 標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格

      表7 統(tǒng)計(jì)模糊概念信息

      此外,分析表7可知,統(tǒng)計(jì)模糊概念的隸屬度期望并未隨著節(jié)點(diǎn)所含屬性的增加而增加,而是呈現(xiàn)出數(shù)值波動(dòng)的變化特點(diǎn),此結(jié)論表明標(biāo)簽的平均模糊程度不僅取決于其概念節(jié)點(diǎn)所含的屬性個(gè)數(shù),還與讀者對(duì)其的情感評(píng)價(jià)有關(guān)。另一方面,數(shù)值較大的隸屬度方差主要集中在標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格的較低層級(jí)(L4,L5),體現(xiàn)出讀者對(duì)標(biāo)簽的評(píng)價(jià)偏差較大。

      采用定義5的方法標(biāo)記頻繁概念節(jié)點(diǎn)及其偏序關(guān)系,分別計(jì)算其支持度與可信度;再?gòu)母窠Y(jié)構(gòu)中檢索出滿足參數(shù)閾值的統(tǒng)計(jì)模糊概念及其父子關(guān)系節(jié)點(diǎn),提取模糊關(guān)聯(lián)規(guī)則。依據(jù)2.2.3節(jié)的閾值參數(shù)設(shè)置方法,由表7生成的部分模糊關(guān)聯(lián)規(guī)則如表8所示,為便于說(shuō)明,將表7中標(biāo)簽屬性還原成具體的標(biāo)簽內(nèi)容。

      表8 模糊關(guān)聯(lián)規(guī)則

      2.2.5 圖書(shū)標(biāo)簽推薦 a.基于模糊概念的用戶發(fā)現(xiàn)。由于標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格中,模糊概念體現(xiàn)了外延對(duì)象與內(nèi)涵屬性間的模糊伽羅瓦連接,所以在一定程度上,表達(dá)了不同用戶群對(duì)圖書(shū)標(biāo)簽的情感評(píng)價(jià)程度。如表7中的概念15,體現(xiàn)了用戶u3,u6對(duì)標(biāo)簽l4,l5,l6的情感評(píng)價(jià)程度。

      此外,在滿足閾值的條件下,模糊概念格的概念節(jié)點(diǎn)之間具有偏序關(guān)系,層級(jí)越高,其聚類的用戶對(duì)象越少,相應(yīng)地標(biāo)簽屬性的數(shù)量則越多,反之亦然。利用模糊概念格的上述特性,可以從兩個(gè)方面進(jìn)行用戶或標(biāo)簽推薦:一方面,若想推薦與用戶u1具有類似興趣的用戶群,可以先定位到僅含有對(duì)象u1的概念節(jié)點(diǎn)(編號(hào)24),再向上檢索其父類節(jié)點(diǎn)(編號(hào)16,17,20)及其感興趣的標(biāo)簽屬性(l1,l3,l4,l5,l6),實(shí)現(xiàn)“以書(shū)會(huì)友,以文化人”的朋友圈推薦。另一方面,通過(guò)查詢模糊概念格中層級(jí)較高的概念節(jié)點(diǎn),如檢索僅含有l(wèi)1標(biāo)簽的概念節(jié)點(diǎn)(編號(hào)4),通過(guò)關(guān)聯(lián)與其相關(guān)的圖書(shū)信息,可以實(shí)現(xiàn)滿足用戶多樣化需求的圖書(shū)推薦。

      b.基于模糊關(guān)聯(lián)規(guī)則的標(biāo)簽發(fā)現(xiàn)。由于模糊關(guān)聯(lián)規(guī)則格是在標(biāo)簽主題聚類的基礎(chǔ)上,增加用戶對(duì)標(biāo)簽情感的程度刻畫(huà)。由此生成的模糊關(guān)聯(lián)規(guī)則不僅僅能夠反映標(biāo)簽間的主題相關(guān)度,更能夠體現(xiàn)用戶對(duì)不同標(biāo)簽的情感關(guān)聯(lián)度,從而在標(biāo)簽的情感維度上建立起可以量化的關(guān)聯(lián)關(guān)系,如規(guī)則1反映出在置信度為0.95811,支持度為0.51342時(shí),批判類作品與包含力量,啟示及思考內(nèi)容的作品間的模糊關(guān)聯(lián)關(guān)系。

      另外,考慮到用戶生成文本的語(yǔ)言特點(diǎn),大量的用戶評(píng)價(jià)是以信息缺省的方式存在,利用模糊關(guān)聯(lián)規(guī)則能夠?qū)崿F(xiàn)一定程度的知識(shí)推理,從而實(shí)現(xiàn)非完備形式背景的知識(shí)填充。如用戶“就是希望”發(fā)表的評(píng)論:“挺喜歡看當(dāng)代題材的,但有時(shí)往往讀起來(lái)比較傷感”。此時(shí)基于規(guī)則8,可知該用戶也可能不喜歡情節(jié)類與批判類的書(shū)籍,從而有選擇性地推薦其感興趣的圖書(shū)資源。

      3 結(jié) 語(yǔ)

      本文通過(guò)識(shí)別用戶生成文本的主題特征與情感特征,提出一種基于用戶生成文本的模糊關(guān)聯(lián)規(guī)則識(shí)別方法,該方法通過(guò)計(jì)算不同用戶間的主題相似度,實(shí)現(xiàn)用戶間興趣的主題聚類,再利用文本情感分析,建立用戶對(duì)標(biāo)簽的情感模糊關(guān)系映射?;跇?biāo)簽?zāi):问奖尘埃瑯?gòu)建標(biāo)簽?zāi):拍罡瘛W詈髮?biāo)簽屬性的統(tǒng)計(jì)特征引入模糊關(guān)聯(lián)規(guī)則的定義中,量化標(biāo)簽間的蘊(yùn)含依賴關(guān)系,實(shí)現(xiàn)多粒度的模糊關(guān)聯(lián)規(guī)則識(shí)別。未來(lái)的研究可以將文本主題識(shí)別與粗糙概念格[25]、三支概念格[26]等理論相結(jié)合,提升方法在模糊知識(shí)建模上的魯棒性。

      猜你喜歡
      關(guān)聯(lián)標(biāo)簽閾值
      小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      奇趣搭配
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      室內(nèi)表面平均氡析出率閾值探討
      標(biāo)簽化傷害了誰(shuí)
      宝兴县| 集安市| 大埔区| 鄯善县| 渝中区| 大石桥市| 和平区| 沁阳市| 上蔡县| 陆川县| 城固县| 商城县| 读书| 海宁市| 普宁市| 镇坪县| 哈密市| 革吉县| 丰顺县| 林州市| 页游| 沈阳市| 光泽县| 道真| 梓潼县| 泗洪县| 宁国市| 清河县| 平邑县| 开阳县| 田阳县| 子洲县| 屏东市| 突泉县| 峡江县| 托克逊县| 寿阳县| 长兴县| 开远市| 肃宁县| 瓮安县|