郭曉溪 譚益陽
關(guān)鍵詞:網(wǎng)絡(luò)信息;信息發(fā)現(xiàn);標(biāo)簽
摘要:文章對(duì)標(biāo)簽、分眾分類法及標(biāo)簽云進(jìn)行了概述,分析了標(biāo)簽在網(wǎng)絡(luò)信息發(fā)現(xiàn)中的作用,并指出了標(biāo)簽存在的問題,提出了面向網(wǎng)絡(luò)信息發(fā)現(xiàn)的標(biāo)簽發(fā)展建議。
中圖分類號(hào):G254文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2014)08-0128-03
收稿日期:2014-07-11
作者簡(jiǎn)介:郭曉溪(1992-),中山大學(xué)資訊管理學(xué)院本科生;譚益陽(1988-),中山大學(xué)資訊管理學(xué)院碩士生。1標(biāo)簽、分眾分類法與標(biāo)簽云
1.1標(biāo)簽及分眾分類法
標(biāo)簽是用戶為方便自己再次發(fā)現(xiàn)和使用資源而為資源賦予的別名,是將資源和用戶頭腦中的某個(gè)概念聯(lián)系起來的一個(gè)紐帶。標(biāo)簽最初來源于2003年出現(xiàn)的社會(huì)性書簽工具,如Delicious(美味書簽)使用標(biāo)簽對(duì)網(wǎng)絡(luò)資源鏈接進(jìn)行標(biāo)注。而后,F(xiàn)lickr(閃亮圖片)、豆瓣等網(wǎng)站使用標(biāo)簽標(biāo)注實(shí)體資源并得到迅速的推廣和應(yīng)用,進(jìn)而引發(fā)了分眾分類法的出現(xiàn)和流行?!癋olksonomy”一詞是由信息構(gòu)建專家Thomas Vander Wal在2004年提出的,并被解釋為“是個(gè)人用戶為滿足自身檢索的需要,對(duì)信息或?qū)ο笞杂商砑訕?biāo)簽的結(jié)果,用戶添加標(biāo)簽的行為是在一個(gè)社會(huì)化的環(huán)境中進(jìn)行,即這個(gè)環(huán)境是開放的、共享的”。
分眾分類法也被稱為大眾標(biāo)注法(collaborative tagging)、社會(huì)分類法(social classification)、社會(huì)標(biāo)引法(social indexing)或社會(huì)標(biāo)注法(social tagging),是一種“自下而上的社會(huì)化分類方法”。國內(nèi)許多研究將標(biāo)簽和分眾分類法等同,但實(shí)際上二者有一定的區(qū)別。分眾分類法是基于大量標(biāo)簽的協(xié)作而產(chǎn)生的對(duì)網(wǎng)絡(luò)資源分類的信息組織方法,而標(biāo)簽是用戶對(duì)網(wǎng)絡(luò)資源的一種標(biāo)識(shí)。
1.2標(biāo)簽云
標(biāo)簽云(Tag Cloud)是標(biāo)簽集合的一種展示方式,其根據(jù)每位用戶提交的標(biāo)簽及每個(gè)標(biāo)簽的使用頻率或被關(guān)注度等指標(biāo)為權(quán)重,定量地計(jì)算每個(gè)標(biāo)簽的權(quán)值,然后用不同顏色或不同字體以及不同標(biāo)簽位置等表示每個(gè)標(biāo)簽的權(quán)值,并形象、直觀地在頁面上展示給用戶。通過標(biāo)簽云,用戶可以靈活地依照字序或熱門程度來檢索一個(gè)標(biāo)簽,而大多數(shù)標(biāo)簽本身就是超鏈接,直接指向與標(biāo)簽相關(guān)聯(lián)的一系列條目。標(biāo)簽云按照應(yīng)用主體可分為個(gè)人標(biāo)簽云、社群標(biāo)簽云、網(wǎng)站標(biāo)簽云、系統(tǒng)標(biāo)簽云等。標(biāo)簽云的產(chǎn)生通常借助一定生成工具,如tagcrowd、wordpress等。標(biāo)簽云在其產(chǎn)生開始就具有簡(jiǎn)單、高效、方便、靈活等特性。標(biāo)簽云率先被應(yīng)用于Flickr網(wǎng)站,而后隨著Delicious、Technorati等網(wǎng)站對(duì)其的使用而得到不斷推廣,并迅速成為當(dāng)前流行的Web2.0應(yīng)用之一。
2標(biāo)簽在網(wǎng)絡(luò)信息發(fā)現(xiàn)中的作用
2.1標(biāo)簽描述網(wǎng)絡(luò)信息,引發(fā)基于標(biāo)簽的信息檢索
在海量的網(wǎng)絡(luò)信息中,要找到所需信息,則需要對(duì)信息進(jìn)行關(guān)鍵詞檢索,而標(biāo)簽本身就是關(guān)鍵詞。同時(shí),標(biāo)簽?zāi)軌驗(yàn)榫W(wǎng)絡(luò)信息提供多維度的描述,如一張圖片的標(biāo)簽,既可以是圖片的內(nèi)容,也可以是圖片的顏色,還可以是圖片產(chǎn)生的時(shí)間、地點(diǎn)等,提高了該信息被檢索到的機(jī)率。目前,大部分網(wǎng)站提供標(biāo)簽檢索功能,以方便用戶快速尋找標(biāo)簽,進(jìn)而找到對(duì)應(yīng)的網(wǎng)絡(luò)信息,國外還推出了基于標(biāo)簽系統(tǒng)的搜索引擎,如Mnemonmap、Ouintura、Technorati 等。標(biāo)簽系統(tǒng)可以通過添加語義詞典或本體控制標(biāo)簽語義等手段解決檢索過程中標(biāo)簽的語義問題和推薦問題,進(jìn)而降低用戶檢索的難度。此外,用戶標(biāo)簽質(zhì)量的提高也會(huì)極大地提高檢索效果,因?yàn)闃?biāo)簽是由用戶創(chuàng)造的,與權(quán)威的受控詞表不同,它能夠更準(zhǔn)確地反映用戶對(duì)信息資源的概念模式,從而能更貼近用戶的認(rèn)知,增強(qiáng)用戶的體驗(yàn),節(jié)省用戶檢索的時(shí)間。這些都使得基于標(biāo)簽的網(wǎng)絡(luò)信息檢索成為用戶發(fā)現(xiàn)信息的重要方法,也成了當(dāng)下研究和探索的方向,將在一定程度上彌補(bǔ)當(dāng)前搜索引擎檢準(zhǔn)效果不佳的缺陷。
2.2標(biāo)簽催生分眾分類法,促進(jìn)網(wǎng)絡(luò)信息的分類、組織和導(dǎo)航
標(biāo)簽的趨同性和穩(wěn)定性在標(biāo)簽的長期使用和數(shù)量不斷增加的條件下得到了體現(xiàn)。Adam Maths提出,大量標(biāo)簽遵循負(fù)冪分布,即少量的標(biāo)簽(一般為熱門標(biāo)簽)被大量使用,大量標(biāo)簽只有少數(shù)人使用,更大多數(shù)的標(biāo)簽只有一到兩個(gè)人使用。被大量使用的“少數(shù)標(biāo)簽”積累下來,變形成核心詞匯(即高頻標(biāo)簽),這些核心詞匯自然地構(gòu)成了一個(gè)分類體系,因此產(chǎn)生了新的網(wǎng)絡(luò)信息分類法——分眾分類法。與傳統(tǒng)的分類體系不同,分眾分類法因?yàn)闃?biāo)簽沒有層級(jí)之分而呈現(xiàn)出平面性、非結(jié)構(gòu)化的特點(diǎn)。然而,在不同的網(wǎng)絡(luò)信息系統(tǒng)中,可能會(huì)產(chǎn)生不同的分眾分類法,這主要取決于網(wǎng)絡(luò)社區(qū)的性質(zhì)以及該社區(qū)用戶的興趣、愛好、文化層次、語言習(xí)慣和認(rèn)知水平等因素。通過分眾分類法,網(wǎng)絡(luò)信息便可形成不同的類別,能使用戶更快地發(fā)現(xiàn)信息。同時(shí),通過分眾分類法,還可以將擁有相同或相似標(biāo)簽的網(wǎng)絡(luò)信息進(jìn)行聚類形成不同類別,達(dá)到網(wǎng)絡(luò)信息的分類、組織和導(dǎo)航的作用,有利于網(wǎng)絡(luò)信息的發(fā)現(xiàn)。但標(biāo)簽的隨意性和自由性可能會(huì)導(dǎo)致同類信息不集中,因此部分網(wǎng)站把傳統(tǒng)分類法與分眾分類法進(jìn)行融合,把基于標(biāo)簽的分眾分類置于傳統(tǒng)分類之下,起到相互補(bǔ)充的作用。
2.3標(biāo)簽建立關(guān)聯(lián)網(wǎng)絡(luò),實(shí)現(xiàn)個(gè)性化信息推薦,拓寬信息發(fā)現(xiàn)的渠道
郭曉溪,譚益陽:面向網(wǎng)絡(luò)信息發(fā)現(xiàn)的標(biāo)簽研究郭曉溪,譚益陽:面向網(wǎng)絡(luò)信息發(fā)現(xiàn)的標(biāo)簽研究在Web2.0的信息環(huán)境中,用戶不僅強(qiáng)調(diào)個(gè)性化信息服務(wù)推薦機(jī)制,希望能夠快速地獲取信息反饋,并在反饋的過程中使結(jié)果更趨向于自身需求;同時(shí)也希望通過信息共享的社會(huì)網(wǎng)絡(luò)平臺(tái)來拓寬自身的信息獲取渠道。標(biāo)簽將原來的<用戶、資源>二元組變成了<用戶、標(biāo)簽、資源>三元組,不僅使用戶和信息資源對(duì)象建立了聯(lián)系,還在用戶集合、標(biāo)簽集合以及信息資源集合間形成了一個(gè)關(guān)聯(lián)網(wǎng)絡(luò)。在這一關(guān)聯(lián)網(wǎng)絡(luò)中,用戶可以通過相同或相似的標(biāo)簽找到不同的用戶和資源,也可以通過相同或相似的資源找到不同的用戶和標(biāo)簽,因而,系統(tǒng)在向用戶進(jìn)行個(gè)性化信息推薦時(shí)可以向用戶推薦資源、標(biāo)簽或者是其他用戶[1]?;谶@種關(guān)聯(lián)性,具有相同興趣愛好的用戶聚集在一起形成了虛擬社區(qū),用戶可以在這樣的虛擬社區(qū)中交流和溝通,促進(jìn)了信息的共享,也能將個(gè)人智慧有效地上升為集體智慧,再轉(zhuǎn)化為個(gè)人智慧,從而提高個(gè)人、組織的學(xué)習(xí)、工作效率,使社區(qū)內(nèi)的知識(shí)管理成為可能,拓寬了用戶發(fā)現(xiàn)信息的渠道。
2.4標(biāo)簽云可視化,挖掘知識(shí)、完善個(gè)性化信息推薦
隨著標(biāo)簽云的漸漸普及,標(biāo)簽云的作用和影響引起了研究人員的關(guān)注,成為了國內(nèi)外研究的熱點(diǎn)之一。沈奎林等人認(rèn)為,標(biāo)簽云對(duì)學(xué)術(shù)資源的揭示有重要作用,能夠提供一種新的檢索和導(dǎo)航方式[2];倪娟提出了標(biāo)簽云對(duì)學(xué)科知識(shí)服務(wù)的作用[3];劉斌和楊帆利用關(guān)聯(lián)分析和聚類算法,將標(biāo)簽云與地理信息導(dǎo)航結(jié)合在一起研究,實(shí)現(xiàn)了基于用戶偏好的移動(dòng)餐廳推薦系統(tǒng);而國外學(xué)者Sinclair和Cardew-Hall通過實(shí)驗(yàn)認(rèn)為,標(biāo)簽云雖不能完全替代信息搜索任務(wù),但可以用于擴(kuò)大用戶檢索過程[4]。對(duì)于信息發(fā)現(xiàn)而言,更重要的是標(biāo)簽云能夠通過標(biāo)簽或用戶的聚類算法來挖掘知識(shí)。通過對(duì)一個(gè)學(xué)科領(lǐng)域在不同時(shí)間的標(biāo)簽云進(jìn)行比較,用戶可以直觀地了解到該領(lǐng)域知識(shí)的新發(fā)展。動(dòng)態(tài)的標(biāo)簽云在用戶瀏覽過程中還可以使用戶發(fā)現(xiàn)位于邊緣的標(biāo)簽,這可能使用戶意外地發(fā)現(xiàn)信息,增加了信息偶遇的情況。此外,將標(biāo)簽云嵌入個(gè)性化推薦機(jī)制中,對(duì)用戶或虛擬社區(qū)的標(biāo)簽進(jìn)行實(shí)時(shí)抓取和分類,并采用詞頻統(tǒng)計(jì)的方法進(jìn)行分類,有利于推薦系統(tǒng)準(zhǔn)確了解用戶或社區(qū)的知識(shí)需求,更有針對(duì)性地找出與用戶、社區(qū)需求相匹配的知識(shí)信息,消除推薦結(jié)果的偏差,完善個(gè)性化信息推薦。
3面向網(wǎng)絡(luò)信息發(fā)現(xiàn)的標(biāo)簽問題及發(fā)展建議
3.1標(biāo)簽存在的主要缺陷
3.1.1標(biāo)簽多樣性與模糊性。分眾分類是基于標(biāo)簽語法層次的簡(jiǎn)單聚合分類,不同標(biāo)簽可能是近義詞,它們能夠表達(dá)同一語義,如“電腦”和“計(jì)算機(jī)”兩個(gè)不同的詞指示同一事物。這種標(biāo)簽的多樣性會(huì)影響到信息的聚合分類。用戶所標(biāo)注的標(biāo)簽往往會(huì)出現(xiàn)一詞多義的現(xiàn)象,在缺乏語境的情況下,標(biāo)簽所表達(dá)的語義是模糊的,如“杜鵑”既可以指鳥,也可以指花。標(biāo)簽的模糊性會(huì)降低信息組織的清晰度,進(jìn)而降低信息檢索的準(zhǔn)確度。
3.1.2標(biāo)簽隨意性與平面性。雖然標(biāo)簽的隨意性體現(xiàn)了信息組織的人性化,但隨意性可能會(huì)使標(biāo)簽產(chǎn)生混亂和無序,也會(huì)增加“垃圾標(biāo)簽”的產(chǎn)生,如:對(duì)一張內(nèi)容為動(dòng)物的照片標(biāo)記為人物后,對(duì)其他用戶而言,其是無意義的。標(biāo)簽的平面性使得網(wǎng)絡(luò)信息不以傳統(tǒng)的樹狀分類,給用戶帶來了方便。但標(biāo)簽類目的平面非等級(jí)結(jié)構(gòu)也造成了主次不分、重要信息被隱藏等問題,同時(shí)也使用戶在進(jìn)行標(biāo)簽檢索時(shí),難以確定標(biāo)簽的主次,重要的信息就可能不被檢索到,從而影響用戶的檢索效率[5]。
3.1.3可視化標(biāo)簽云的實(shí)用性。用戶對(duì)標(biāo)簽云的使用一般是瀏覽而非閱讀,且不會(huì)注意到云圖中的所有標(biāo)簽。因而,標(biāo)簽云圖的可視化屬性(吸引用戶的注意)和性能(用戶通過標(biāo)簽云圖滿足自己的需求)決定了標(biāo)簽云的實(shí)用性。目前,普遍的標(biāo)簽云的字體、顏色、大小等屬性并不能吸引用戶的注意,云圖中標(biāo)簽的排序算法也較為單一,不能提供基于不同算法的標(biāo)簽云圖之間的轉(zhuǎn)換,同時(shí),其也缺乏與用戶的互動(dòng),無法讓用戶獲得意外的信息發(fā)現(xiàn)。
3.2標(biāo)簽發(fā)展建議
3.2.1融合傳統(tǒng)的網(wǎng)絡(luò)信息組織方法,增加標(biāo)簽系統(tǒng)推薦功能。將傳統(tǒng)的主題詞表、分類目錄等嵌入標(biāo)簽系統(tǒng)中,同時(shí)結(jié)合相應(yīng)的信息抽取技術(shù)、數(shù)據(jù)挖掘技術(shù)等對(duì)用戶即將標(biāo)注的對(duì)象進(jìn)行分析,當(dāng)用戶需要進(jìn)行標(biāo)注時(shí),系統(tǒng)則可為用戶推薦基于內(nèi)容或用戶時(shí)間、空間、社會(huì)背景或者相關(guān)社會(huì)網(wǎng)絡(luò)內(nèi)群體知識(shí)的標(biāo)簽,從而從標(biāo)簽的產(chǎn)生開始就對(duì)標(biāo)簽進(jìn)行規(guī)范,以減少標(biāo)簽的隨意性帶來的噪音和垃圾,提高標(biāo)簽的質(zhì)量,還可使網(wǎng)絡(luò)信息分類更準(zhǔn)確。而在用戶使用標(biāo)簽進(jìn)行檢索時(shí),也可提供建議的標(biāo)簽,從而保證使用的標(biāo)簽關(guān)鍵詞能與系統(tǒng)標(biāo)簽最大限度地匹配,提高檢索的準(zhǔn)確性。
3.2.2優(yōu)化顯示效果,改進(jìn)排序方法,完善標(biāo)簽云。利用JavaScript、Flash、Css等網(wǎng)頁顯示技術(shù)優(yōu)化標(biāo)簽云的顯示效果,將標(biāo)簽云設(shè)計(jì)成動(dòng)態(tài)、3D、可縮放的效果[6],當(dāng)用戶需要查看處于云邊緣或較小字體的標(biāo)簽時(shí),可以隨意拖動(dòng)或縮放標(biāo)簽云,既可以吸引用戶的眼球,還能增強(qiáng)用戶體驗(yàn)。同時(shí),改進(jìn)云中標(biāo)簽排序算法,采用標(biāo)簽共現(xiàn)或語義分析的標(biāo)簽聚類算法,可以增強(qiáng)云圖中標(biāo)簽的語義關(guān)系,增加時(shí)間軸控制功能[7]。此外,提供字序、語義關(guān)聯(lián)、標(biāo)簽頻度等云圖之間的轉(zhuǎn)換功能,可以使用戶通過不同類型標(biāo)簽云的瀏覽發(fā)現(xiàn)更多信息。
4結(jié)語
Web2.0時(shí)代的網(wǎng)絡(luò)已經(jīng)遠(yuǎn)遠(yuǎn)超越了其最初的形態(tài),網(wǎng)絡(luò)信息發(fā)現(xiàn)也越來越艱難。 標(biāo)簽的出現(xiàn)適應(yīng)了時(shí)代需求,催生了網(wǎng)絡(luò)信息的新的分類組織方法,推動(dòng)了網(wǎng)絡(luò)信息自組織的發(fā)展,也為用戶更快更準(zhǔn)地發(fā)現(xiàn)信息提供了便利。未來,在網(wǎng)絡(luò)信息發(fā)現(xiàn)的過程中,標(biāo)簽仍是必不可少的工具,在不斷克服缺陷的探索完善過程中,其將發(fā)揮更大的效用。
參考文獻(xiàn):
[1]曾子明,張振.社會(huì)化標(biāo)注系統(tǒng)中基于社區(qū)標(biāo)簽云的個(gè)性化推薦研究[J].情報(bào)雜志,2011(10):128-133.
[2]沈奎林,邵波,盧明.標(biāo)簽云在學(xué)術(shù)資源解釋中的研究與應(yīng)用——以中國知網(wǎng)數(shù)據(jù)庫中圖書情報(bào)類核心期刊論文關(guān)鍵詞為例[J].圖書館論壇,2013(3):36-42.
[3]倪娟.論標(biāo)簽云在高校圖書館學(xué)科知識(shí)服務(wù)中的作用[J].圖書館,2013(6):18-20.
[4]Sinclair J, Cardew-Hall M.The Folksonomy Tag Cloud:When is it useful[J].Journal of Information Science,2008(1):15-29.
[5]金燕,陳玉.基于本體的標(biāo)簽控制方法研究[J].圖書館理論與實(shí)踐,2010(7):26-29.
[6]黎邦群.相關(guān)關(guān)鍵詞與相關(guān)圖書標(biāo)簽云[J].圖書館建設(shè),2013(8):11-15.
[7]曹紅兵,胡昌文.一種帶時(shí)間軸的熱門關(guān)鍵詞云圖的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書情報(bào)工作,2012(12):107-112,95.
(編校:嚴(yán)真)