潘旭偉, 曾雪梅, 李 濤
(浙江理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,浙江 杭州 310018)
社會(huì)化標(biāo)簽是用戶為自己感興趣的資源定義的一個(gè)或多個(gè)標(biāo)簽,且在系統(tǒng)中其他用戶可見。社會(huì)化標(biāo)簽發(fā)揮了用戶的集體智慧,改變了原有基于少數(shù)專家的分類體系,是一種開放、靈活、有趣的信息分類組織方式[1]。用戶自定義的社會(huì)化標(biāo)簽刻畫了用戶的行為和偏好,作為一種有價(jià)值的資源已用于解決大數(shù)據(jù)時(shí)代信息過載的鏈路預(yù)測(cè)與個(gè)性推薦中[2]。在利用社會(huì)化標(biāo)簽進(jìn)行鏈路預(yù)測(cè)和個(gè)性化推薦過程中,首先要進(jìn)行標(biāo)簽的相似性評(píng)估,構(gòu)建能夠準(zhǔn)確刻畫社會(huì)化標(biāo)簽相似性的度量指標(biāo)就顯得尤為重要。
到目前為止,對(duì)標(biāo)簽相似性度量方法的研究主要是利用向量空間矩陣和基于圖或網(wǎng)絡(luò)的標(biāo)簽共現(xiàn)關(guān)系來度量標(biāo)簽之間的相似度。這些標(biāo)簽相似性度量方法將用戶-資源-標(biāo)簽三元標(biāo)注關(guān)系轉(zhuǎn)化為向量空間或圖/網(wǎng)絡(luò),在這個(gè)轉(zhuǎn)化過程中存在語義丟失、標(biāo)簽內(nèi)含信息減弱等問題。如何準(zhǔn)確刻畫社會(huì)化標(biāo)注過程中形成的用戶-資源-標(biāo)簽三元關(guān)系并保持它們內(nèi)在關(guān)聯(lián)信息而不割裂這種聯(lián)系,成為標(biāo)簽相似性指標(biāo)構(gòu)建過程中迫切需要解決的問題。
超圖和超網(wǎng)絡(luò)理論[3]的出現(xiàn),為更好地認(rèn)識(shí)和理解大量現(xiàn)實(shí)復(fù)雜系統(tǒng)提供了新思路。在超圖和超網(wǎng)絡(luò)中,一條超邊可以連接若干相同或不同的節(jié)點(diǎn)。在社會(huì)化標(biāo)注中,可以利用超邊聯(lián)系用戶一次標(biāo)注活動(dòng)中的用戶、資源和標(biāo)簽,從而保持用戶-資源-標(biāo)簽的三元結(jié)構(gòu)之間的內(nèi)在聯(lián)系信息。為此提出基于超網(wǎng)絡(luò)的標(biāo)簽相似性度量方法,在構(gòu)建社會(huì)化標(biāo)簽超網(wǎng)絡(luò)基礎(chǔ)上,建立刻畫標(biāo)簽相似性的度量指標(biāo),并利用鏈路預(yù)測(cè)的AUC和Precision評(píng)價(jià)方法對(duì)構(gòu)建的相似性指標(biāo)的有效性展開實(shí)驗(yàn)驗(yàn)證研究。
自社會(huì)化標(biāo)簽出現(xiàn)以來,因其為信息資源的組織、共享和推薦提供了新思路和新維度,基于標(biāo)簽的鏈路預(yù)測(cè)和推薦的研究和應(yīng)用也隨即展開,主要形成了基于向量或張量[4]、基于圖或網(wǎng)絡(luò)[5]和基于主題[6]等方法。標(biāo)簽相似性度量是對(duì)標(biāo)簽之間共同語義特征的量化表示,一種常見的方法是將用戶-資源-標(biāo)簽的三元關(guān)系映射轉(zhuǎn)化為向量空間,通過采用如余弦相似度等指標(biāo)計(jì)算標(biāo)簽向量間的相似性[7]。結(jié)合頻率和用戶評(píng)分[8]、考慮標(biāo)簽時(shí)序特征[2]等其他要素的方法也得到了探討。基于向量空間模型的標(biāo)簽相似性度量需要將用戶-資源-標(biāo)簽三元關(guān)系映射轉(zhuǎn)化為向量空間,容易造成用戶-資源-標(biāo)簽三元關(guān)系的語義丟失和向量空間高維、稀疏問題。為解決這些問題,可將張量應(yīng)用于社會(huì)化標(biāo)注中,利用基于多元關(guān)系的張量分解方法進(jìn)行標(biāo)簽相似性評(píng)估與預(yù)測(cè)[9]。
社會(huì)化標(biāo)注形成的用戶-資源-標(biāo)簽三元關(guān)系可抽象表示為二部圖或三部圖模型,所以基于二部圖/三部圖的物質(zhì)擴(kuò)散模型成為了另一種標(biāo)簽相似度度量及鏈路預(yù)測(cè)和推薦的重要方法,如ZHANG等[5]將物質(zhì)擴(kuò)散原理分別運(yùn)用于用戶-資源和資源-標(biāo)簽兩個(gè)二部圖中獲得了比單一的二部圖更好的推薦效果。社會(huì)化標(biāo)簽的三部圖模型中存在用戶、資源、標(biāo)簽三種不同類節(jié)點(diǎn),其邊僅存在于不同類節(jié)點(diǎn)之間,割裂了同類節(jié)點(diǎn)之間的共現(xiàn)關(guān)系。針對(duì)這一問題,張昌利等[10]、吳小蘭和章成志[11]在社會(huì)化標(biāo)簽三部圖基礎(chǔ)上構(gòu)建了標(biāo)簽共現(xiàn)網(wǎng)絡(luò)G(T,E),其中T為點(diǎn)集,代表了系統(tǒng)中所有的標(biāo)簽,E∈T×T為邊集,連接了具有共現(xiàn)關(guān)系的標(biāo)簽。該網(wǎng)絡(luò)是一種典型的復(fù)雜網(wǎng)絡(luò),其拓?fù)浣Y(jié)構(gòu)刻畫了標(biāo)簽的語義關(guān)聯(lián)關(guān)系。研究表明,標(biāo)簽共現(xiàn)網(wǎng)絡(luò)對(duì)標(biāo)簽語義相似度的影響主要體現(xiàn)于局部拓?fù)浣Y(jié)構(gòu)[10],因此根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)相似性理論[12],可定義如表1所示的基于標(biāo)簽共現(xiàn)網(wǎng)絡(luò)局部信息的標(biāo)簽相似性度量指標(biāo)。
表1 基于標(biāo)簽共現(xiàn)網(wǎng)絡(luò)局部信息的標(biāo)簽相似性度量指標(biāo)
表1中,Γ(x)為連接節(jié)點(diǎn)x所有邊集合,即節(jié)點(diǎn)x的鄰居節(jié)點(diǎn)集合,k(x)=|Γ(x)| 表示節(jié)點(diǎn)x連接邊的數(shù)量或鄰居節(jié)點(diǎn)數(shù)量,稱為節(jié)點(diǎn)x的度。其中CN指標(biāo)為基礎(chǔ)指標(biāo),表示節(jié)點(diǎn)x和y之間共有邊(鄰居)的數(shù)量,表達(dá)了共同鄰居特征。依據(jù)社會(huì)網(wǎng)絡(luò)分析中的三元閉包原理,認(rèn)為節(jié)點(diǎn)間共有鄰居越多則這兩個(gè)節(jié)點(diǎn)越相似。Sa,Ja,So,HPI和HDI這五個(gè)指標(biāo)在CN基礎(chǔ)上,采用不同方式考慮了節(jié)點(diǎn)x或/和y節(jié)點(diǎn)度的反向作用,即節(jié)點(diǎn)x或/和y的鄰居數(shù)越多,那么在節(jié)點(diǎn)x和y之間共有鄰居數(shù)量相同的情況下,它們之間越不相似。RA和AA指標(biāo)根據(jù)節(jié)點(diǎn)x和y共有鄰居節(jié)點(diǎn)的度構(gòu)建相似性指標(biāo),表示它們共有鄰居節(jié)點(diǎn)的度越大,那么節(jié)點(diǎn)x和y之間的相似性越低,RA直接采用x和y共有鄰居節(jié)點(diǎn)的度為分母,AA通過對(duì)數(shù)弱化直接取節(jié)點(diǎn)度的影響。表1中的指標(biāo)分別從標(biāo)簽共現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的不同側(cè)面刻畫了標(biāo)簽相似性指標(biāo),這些指標(biāo)在不同的情景下有不同表現(xiàn),復(fù)雜網(wǎng)絡(luò)的實(shí)驗(yàn)表明CN,AA,RA等指標(biāo)通常具有更好的表現(xiàn)[12]。
在社會(huì)化標(biāo)簽系統(tǒng)中,用戶U通過標(biāo)簽T標(biāo)注資源I,這種聯(lián)系可抽象表示為三部圖模型F(U,I,T,Y),其中U、I、T分別表示用戶、資源和標(biāo)簽的有限集,Y為三者之間標(biāo)注關(guān)系的集合[7]。對(duì)于任意的(u,i,t) 三元組,如果三者之間滿足標(biāo)注關(guān)系則Y(u,i,t)=1,否則Y(u,i,t)=0。基于上述概念構(gòu)建社會(huì)化標(biāo)簽超網(wǎng)絡(luò)模型。
設(shè)對(duì)于一個(gè)以標(biāo)簽為節(jié)點(diǎn)的超網(wǎng)絡(luò)H=(E,V),其中V表示標(biāo)簽節(jié)點(diǎn)集合,E表示超邊,代表一次標(biāo)注活動(dòng),若:(1)E={E(u,i)|(u,i)∈U×I∩au,i=1},(2)E(u,i)={vt|t∈T∩Y(u,i,t)=1},則超網(wǎng)絡(luò)H=(E,V)定義為社會(huì)化標(biāo)簽超網(wǎng)絡(luò)。由上述定義可知,該超網(wǎng)絡(luò)的節(jié)點(diǎn)為用戶標(biāo)注的標(biāo)簽,超邊為用戶的每次標(biāo)注活動(dòng),其中E={E(u,i)|(u,i)∈U×I∩au,i=1}代表了標(biāo)注活動(dòng)中由用戶-資源二元組(u,i)所組成的邊集,而在邊集E中的每一條超邊E(u,i)={vt|t∈T∩Y(u,i,t)=1}都連接了在一次標(biāo)注活動(dòng)中用戶標(biāo)注資源所使用的標(biāo)簽。
在社會(huì)化標(biāo)簽超網(wǎng)絡(luò)中,用戶和資源被組合起來形成了超邊,一條超邊對(duì)應(yīng)于一個(gè)用戶對(duì)一個(gè)資源的標(biāo)注,標(biāo)簽是具體標(biāo)注的結(jié)果。在標(biāo)注過程中,對(duì)同一資源而言,其內(nèi)容范疇通常是一定的,代表對(duì)資源描述的不同標(biāo)簽在語義和內(nèi)容上很可能具有一定的相似性;同樣,對(duì)同一用戶而言,在標(biāo)注中使用詞匯的習(xí)慣以及對(duì)資源的理解也是相對(duì)穩(wěn)定的,那么被頻繁用于標(biāo)注一個(gè)資源的標(biāo)簽之間也很可能是相似的。在社會(huì)化標(biāo)簽超網(wǎng)絡(luò)中就對(duì)應(yīng)為:同一個(gè)超邊連接兩個(gè)標(biāo)簽節(jié)點(diǎn)的次數(shù)越多,這兩個(gè)標(biāo)簽就越可能相似。此外,在社會(huì)化標(biāo)簽系統(tǒng)中用戶可以使用多個(gè)標(biāo)簽對(duì)資源進(jìn)行標(biāo)注,如果資源難以描述或者資源涵蓋內(nèi)容范圍比較大,那么用戶為求更準(zhǔn)確的描述就會(huì)傾向于使用多個(gè)標(biāo)簽進(jìn)行標(biāo)注,此時(shí)標(biāo)簽描述的跨度就會(huì)更大,標(biāo)簽之間的聯(lián)系不那么緊密。社交網(wǎng)絡(luò)中存在類似現(xiàn)象,如果一個(gè)人交際十分廣泛,那么他可能與大多數(shù)朋友都只是泛泛之交。因此可認(rèn)為,在每次標(biāo)注過程中,用戶使用更多的標(biāo)簽標(biāo)注資源,那么這些標(biāo)簽之間的相似性可能就會(huì)變?nèi)酢?/p>
基于上述對(duì)用戶標(biāo)注過程中使用的標(biāo)簽相似性的分析,結(jié)合基于對(duì)象關(guān)系刻畫對(duì)象聯(lián)系與相近程度的鄰近聯(lián)系法則與三元閉包原理,根據(jù)社會(huì)化標(biāo)簽超網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),提出了基于超網(wǎng)絡(luò)的構(gòu)建社會(huì)化標(biāo)簽相似性度量指標(biāo)的兩個(gè)基本原則。(1)共超邊原則:兩個(gè)標(biāo)簽節(jié)點(diǎn)存在的共有超邊數(shù)越多,那么這兩個(gè)標(biāo)簽節(jié)點(diǎn)就越相似,即兩個(gè)標(biāo)簽被用戶共同使用來標(biāo)注資源的頻率越高,這兩個(gè)標(biāo)簽越相似。(2)超邊包含節(jié)點(diǎn)數(shù)原則:一條超邊所連接(包含)的標(biāo)簽節(jié)點(diǎn)數(shù)越少,那么這些標(biāo)簽節(jié)點(diǎn)就越相似,即用戶在標(biāo)注一個(gè)資源時(shí),使用的標(biāo)簽數(shù)量越少,這些標(biāo)簽間的相似性就越高。借鑒復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)間相似性指標(biāo)構(gòu)建的基本邏輯,建立了基于超網(wǎng)絡(luò)的社會(huì)化標(biāo)簽相似性度量指標(biāo),如表2所示。
表2中,B(x)表示給定社會(huì)化標(biāo)簽超網(wǎng)絡(luò)中的標(biāo)簽節(jié)點(diǎn)x的超邊集合,B(x)={E(u,i)|(u,i)∈U×I×Y(u,I,t)=1},|B(x)|為包括標(biāo)簽節(jié)點(diǎn)x的超邊數(shù)量,稱為節(jié)點(diǎn)的超度;z∈B(x)∩B(y),表示同時(shí)連接兩個(gè)標(biāo)簽節(jié)點(diǎn)x,y的一條超邊,k(z)=|z|表示被超邊z連接的標(biāo)簽節(jié)點(diǎn)個(gè)數(shù)。
為驗(yàn)證構(gòu)建的基于超網(wǎng)絡(luò)的社會(huì)化標(biāo)簽相似性度量指標(biāo)的有效性,實(shí)驗(yàn)選取來自Delicious和Last.fm這兩個(gè)具有代表性社會(huì)化標(biāo)簽應(yīng)用平臺(tái)的數(shù)據(jù)。數(shù)據(jù)集中每條記錄由用戶、資源、標(biāo)簽和標(biāo)注時(shí)間4個(gè)字段構(gòu)成,若多個(gè)標(biāo)簽用于用戶的一次標(biāo)注,則由多條記錄進(jìn)行表示。表3和表4為數(shù)據(jù)示例和數(shù)據(jù)集統(tǒng)計(jì)信息。
表3 原始數(shù)據(jù)集數(shù)據(jù)樣例
表4 實(shí)驗(yàn)研究的數(shù)據(jù)集基本信息
本文采用網(wǎng)絡(luò)的鏈路預(yù)測(cè)實(shí)驗(yàn)方法開展實(shí)驗(yàn)設(shè)計(jì),通過客觀的鏈路預(yù)測(cè)指標(biāo)AUC和Precision對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。AUC指標(biāo)從整體上衡量相似性指標(biāo)的準(zhǔn)確性,表示測(cè)試集中的邊的分?jǐn)?shù)值比隨機(jī)選擇的一個(gè)不存在的邊分?jǐn)?shù)值高的概率,即每次隨機(jī)從測(cè)試集中選一條邊與隨機(jī)選取的不存在的邊進(jìn)行比較,如果測(cè)試集中邊的分?jǐn)?shù)值大,則加1分,如果兩分?jǐn)?shù)值相等加0.5分,若實(shí)驗(yàn)獨(dú)立比較n次,其中n′次得1分,n″次得0.5分,則AUC=(n′+0.5n″)/n。AUC的大小代表了整體預(yù)測(cè)結(jié)果的準(zhǔn)確性,AUC越大表示相似度指標(biāo)越準(zhǔn)確。Precision則只考慮排在前L位的邊預(yù)測(cè)是否準(zhǔn)確,如果排在前L位的邊中有m個(gè)在測(cè)試集中則Precision=m/L。Precision代表相似性較高的節(jié)點(diǎn)對(duì)的預(yù)測(cè)準(zhǔn)確性,其值越大預(yù)測(cè)越準(zhǔn)確(本實(shí)驗(yàn)研究中L=100)。為更客觀地進(jìn)行實(shí)驗(yàn)評(píng)估,利用K折交叉驗(yàn)證將基于超網(wǎng)絡(luò)構(gòu)建的社會(huì)化標(biāo)簽相似性度量指標(biāo)與基于標(biāo)簽共現(xiàn)網(wǎng)絡(luò)構(gòu)建的指標(biāo)進(jìn)行對(duì)比評(píng)估。
基于標(biāo)簽超網(wǎng)絡(luò)和基于標(biāo)簽共現(xiàn)網(wǎng)絡(luò)的標(biāo)簽相似性指標(biāo)在Delicious和Last.fm兩個(gè)數(shù)據(jù)集上鏈路預(yù)測(cè)實(shí)驗(yàn)得到的AUC和Precision結(jié)果如圖1-圖4所示。
圖1 Delicious數(shù)據(jù)集超網(wǎng)絡(luò)與共現(xiàn)復(fù)雜網(wǎng)絡(luò)各指標(biāo)的AUC結(jié)果
圖2 Delicious數(shù)據(jù)集超網(wǎng)絡(luò)與共現(xiàn)復(fù)雜網(wǎng)絡(luò)各指標(biāo)的Precision結(jié)果
圖3 Last.fm數(shù)據(jù)集超網(wǎng)絡(luò)與共現(xiàn)復(fù)雜網(wǎng)絡(luò)各指標(biāo)的AUC結(jié)果
圖4 Last.fm數(shù)據(jù)集超網(wǎng)絡(luò)與共現(xiàn)復(fù)雜網(wǎng)絡(luò)各指標(biāo)的Precision結(jié)果
對(duì)于基于標(biāo)簽超網(wǎng)絡(luò)的系列標(biāo)簽相似性指標(biāo),直接計(jì)算共有超邊數(shù)量的c-CN指標(biāo)在兩個(gè)數(shù)據(jù)集中的AUC和Precision評(píng)估均具有較好表現(xiàn),明顯優(yōu)于考慮其不同規(guī)范化的c-Sa,c-Ja,c-So,c-HPI和c-HDI等指標(biāo),特別是對(duì)于Precision的評(píng)估表現(xiàn)。同時(shí)在共有超邊基礎(chǔ)上加入對(duì)超邊中元素個(gè)數(shù)的考慮后得到的c-AA,c-RA,c-min和c-max指標(biāo)表現(xiàn)與c-CN各有優(yōu)劣,預(yù)測(cè)準(zhǔn)確度均較高。因此由實(shí)驗(yàn)結(jié)果可表明:在基于超網(wǎng)絡(luò)模型構(gòu)建的標(biāo)簽相似度指標(biāo),共有超邊越多的標(biāo)簽越相似,同時(shí)連接標(biāo)簽節(jié)點(diǎn)的超邊中所包含的節(jié)點(diǎn)數(shù)越多則標(biāo)簽的相似度減弱。需要特別指出的是,在共有超邊的基礎(chǔ)上加入節(jié)點(diǎn)超度不同規(guī)范化形式所派生的指標(biāo)表現(xiàn)較差,表明加入節(jié)點(diǎn)超度要素對(duì)標(biāo)簽相似性評(píng)估帶來一定的負(fù)向影響。
通過圖1-圖4對(duì)比不難發(fā)現(xiàn),在基于標(biāo)簽超網(wǎng)絡(luò)的系列相似性指標(biāo)中表現(xiàn)較為一致且比較好的c-CN,c-AA,c-RA,c-min和c-max這五個(gè)度量指標(biāo)相較于基于標(biāo)簽共現(xiàn)網(wǎng)絡(luò)的度量指標(biāo)在鏈路預(yù)測(cè)的準(zhǔn)確性上總體都有提升,相對(duì)而言,AUC評(píng)價(jià)的提升幅度要小于Precision評(píng)價(jià)的提升幅度。從評(píng)價(jià)指標(biāo)的內(nèi)在邏輯來看,AUC側(cè)重于相似性指標(biāo)整體預(yù)測(cè)準(zhǔn)確性的評(píng)價(jià),而Precision則側(cè)重于對(duì)相似性較高的標(biāo)簽對(duì)的預(yù)測(cè)準(zhǔn)確性評(píng)價(jià)。標(biāo)簽相似性的度量主要是為個(gè)性化推薦提供服務(wù)的,在基于標(biāo)簽的個(gè)性化推薦過程中,其推薦列表的項(xiàng)數(shù)是有限的,主要考慮的就是Top-N項(xiàng),因而以Precision評(píng)價(jià)的預(yù)測(cè)準(zhǔn)確性就顯得更為重要。因此,從標(biāo)簽相似性度量的實(shí)踐適用性角度看,這五個(gè)標(biāo)簽相似性度量指標(biāo)在鏈路預(yù)測(cè)Precision評(píng)價(jià)方面的明顯改進(jìn)提升,對(duì)于個(gè)性化推薦的具體應(yīng)用實(shí)踐更具積極價(jià)值。
同時(shí)從圖1-圖4可以發(fā)現(xiàn),基于標(biāo)簽超網(wǎng)絡(luò)共超邊原則構(gòu)建的相似性指標(biāo)中,加入節(jié)點(diǎn)超度要素進(jìn)行規(guī)范化后的c-Sa,c-Ja,c-So,c-HPI和c-HDI這五個(gè)指標(biāo)表現(xiàn)不佳,并且總體表現(xiàn)還不如與之相對(duì)應(yīng)的基于標(biāo)簽共現(xiàn)網(wǎng)絡(luò)的指標(biāo)??梢詮倪@些指標(biāo)加入節(jié)點(diǎn)超度的負(fù)向影響和網(wǎng)絡(luò)結(jié)構(gòu)特征差異兩方面進(jìn)行初步解析。一般認(rèn)為標(biāo)簽節(jié)點(diǎn)度或超度越大,表示其鄰居數(shù)越多或被用來標(biāo)注次數(shù)越多,那么它對(duì)標(biāo)簽之間的相似性帶來負(fù)向影響,會(huì)弱化直接鄰居或共超邊的作用。這從標(biāo)簽共現(xiàn)網(wǎng)絡(luò)的AA和RA指標(biāo)比較中可以進(jìn)一步證實(shí),AA指標(biāo)對(duì)節(jié)點(diǎn)度取對(duì)數(shù)作為權(quán)重進(jìn)行規(guī)范化,削弱了節(jié)點(diǎn)度對(duì)指標(biāo)的影響,所以在同一網(wǎng)絡(luò)中比不取對(duì)數(shù)的RA指標(biāo)獲得更佳的結(jié)果。對(duì)于標(biāo)簽超網(wǎng)絡(luò)和標(biāo)簽共現(xiàn)網(wǎng)絡(luò),由于節(jié)點(diǎn)超度和節(jié)點(diǎn)度在物理含義上的差異,其作用機(jī)制也不一樣,造成了它們間的不同結(jié)果。此外,網(wǎng)絡(luò)結(jié)構(gòu)特征差異也是一個(gè)重要因素。在對(duì)Delicious和Last.fm的網(wǎng)絡(luò)結(jié)構(gòu)深入分析中發(fā)現(xiàn),Last.fm中資源主要是音樂,內(nèi)容相對(duì)比較集聚,因而標(biāo)注的標(biāo)簽覆蓋的范圍也較小,對(duì)應(yīng)的標(biāo)簽網(wǎng)絡(luò)的緊密度就較高;而Delicious中資源是各類網(wǎng)站鏈接,涉及范圍廣,對(duì)應(yīng)的標(biāo)簽網(wǎng)絡(luò)的緊密度就不高。相關(guān)研究表明基于共有關(guān)系構(gòu)建的節(jié)點(diǎn)相似性指標(biāo)對(duì)稀疏網(wǎng)絡(luò)具有更好的效果[17]。相對(duì)于Delicious而言,Last.fm標(biāo)簽網(wǎng)絡(luò)密度較大,這也可能是在Last.fm數(shù)據(jù)集中,不管是基于標(biāo)簽超網(wǎng)絡(luò)還是標(biāo)簽共現(xiàn)網(wǎng)絡(luò)的相似性指標(biāo),其Precision評(píng)價(jià)都有多個(gè)指標(biāo)的評(píng)價(jià)結(jié)果為0的一個(gè)重要原因。
社會(huì)化標(biāo)簽作為Web 2.0的重要應(yīng)用之一,構(gòu)建起了用戶與資源之間連接紐帶。針對(duì)現(xiàn)有基于向量空間矩陣、二部圖、三部圖和標(biāo)簽共現(xiàn)網(wǎng)絡(luò)等方法在標(biāo)簽相似性評(píng)估和標(biāo)簽鏈路預(yù)測(cè)與推薦中將用戶-資源-標(biāo)簽三元內(nèi)在關(guān)系進(jìn)行轉(zhuǎn)化映射造成不同程度標(biāo)簽語義聯(lián)系丟失的問題,本文創(chuàng)新性地引入超網(wǎng)絡(luò)模型以系統(tǒng)性地刻畫用戶-資源-標(biāo)簽三元內(nèi)在關(guān)系,提出基于超網(wǎng)絡(luò)的社會(huì)化標(biāo)簽相似性評(píng)估方法。該方法聚焦于用戶的標(biāo)注行為,以標(biāo)簽為節(jié)點(diǎn),以用戶標(biāo)注活動(dòng)為超邊,通過超邊連接標(biāo)注活動(dòng)中的用戶、資源和標(biāo)簽,構(gòu)建社會(huì)化標(biāo)簽超網(wǎng)絡(luò),從而準(zhǔn)確真實(shí)地刻畫出用戶的標(biāo)注行為,并保持了用戶-資源-標(biāo)簽三元關(guān)系的內(nèi)在語義聯(lián)系信息。建立基于超網(wǎng)絡(luò)的社會(huì)化標(biāo)簽相似性度量的兩個(gè)基本原則:共有超邊原則和超邊包含節(jié)點(diǎn)數(shù)原則,并據(jù)此構(gòu)建系列的基于超網(wǎng)絡(luò)的社會(huì)化標(biāo)簽相似性度量指標(biāo)。選取來自Delicious和Last.fm兩個(gè)代表性社會(huì)化標(biāo)簽應(yīng)用的數(shù)據(jù)集,利用鏈路預(yù)測(cè)的AUC和Precision評(píng)價(jià)準(zhǔn)則開展實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,基于單純共超邊原則以及綜合共超邊與超邊包含節(jié)點(diǎn)數(shù)原則構(gòu)建的基于超網(wǎng)絡(luò)的標(biāo)簽相似性指標(biāo)表現(xiàn)良好,與基于標(biāo)簽共現(xiàn)網(wǎng)絡(luò)構(gòu)建的標(biāo)簽相似性度量指標(biāo)相比提升明顯,對(duì)于基于標(biāo)簽的鏈路預(yù)測(cè)和個(gè)性化推薦具有較高的實(shí)踐應(yīng)用價(jià)值。
從現(xiàn)有實(shí)驗(yàn)結(jié)果來看,與標(biāo)簽共現(xiàn)網(wǎng)絡(luò)相比,本文提出的基于標(biāo)簽超網(wǎng)絡(luò)的標(biāo)簽相似性度量方法,在反映Top N預(yù)測(cè)的Precision評(píng)價(jià)結(jié)果有較大改進(jìn),而反映整體預(yù)測(cè)效果的AUC評(píng)價(jià)結(jié)果改進(jìn)相對(duì)不顯著。提出的基于超網(wǎng)絡(luò)的社會(huì)化標(biāo)簽相似性度量指標(biāo),主要是基于標(biāo)簽節(jié)點(diǎn)共有超邊和共有超邊包含的節(jié)點(diǎn)數(shù)這兩個(gè)基本的網(wǎng)絡(luò)結(jié)構(gòu)特征構(gòu)建的,但標(biāo)簽語義相似度的影響情況是比較復(fù)雜的,比如在網(wǎng)絡(luò)中有“弱連接效應(yīng)”[18]的現(xiàn)象,這可能會(huì)影響以共超邊這種反映強(qiáng)連接關(guān)系的預(yù)測(cè)效果,從而影響了反映整體預(yù)測(cè)效果的AUC評(píng)價(jià)結(jié)果,而目前在這方面還沒有成熟的研究結(jié)論可供借鑒[3],后期在這方面值得探究。此外社會(huì)化標(biāo)簽超網(wǎng)絡(luò)的其他一些拓?fù)浣Y(jié)構(gòu)特征,如節(jié)點(diǎn)間的路徑及其距離,下一步也可進(jìn)一步挖掘這些拓?fù)浣Y(jié)構(gòu)特征與標(biāo)簽節(jié)點(diǎn)相似性之間的關(guān)系,進(jìn)而優(yōu)化改進(jìn)社會(huì)化標(biāo)簽相似性度量指標(biāo)。