• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本體的標簽控制方法研究

      2010-03-23 13:31:04鄭州大學信息管理系鄭州450001
      圖書館理論與實踐 2010年7期
      關鍵詞:本體檢索標簽

      ●金 燕,陳 玉(鄭州大學 信息管理系,鄭州 450001)

      Web2.0環(huán)境下新興的網(wǎng)絡信息組織方式——分眾分類借助于標簽(Tag) 對網(wǎng)絡信息資源進行標識和分類,是對網(wǎng)絡信息組織的一種新嘗試。標簽是人們在互聯(lián)網(wǎng)上用自己熟悉的語詞標識相關信息的標記,類似于主題詞中的關鍵詞,但比關鍵詞更自由、更個性化。標簽不需要遵循固定的模式和標準,用戶在標記信息資源時可以不需要具備任何專業(yè)背景知識;標簽可以信手拈來,而不必按照詞表標注;標簽可以只反映信息的一小片內容,而不必反映信息的核心內涵;標簽可以是用戶的主觀感受,而不必是信息的客觀反應;標簽甚至可以使用傳統(tǒng)意義上無意義的詞,只要它對創(chuàng)造它的用戶有意義。[1]可以說,個性化、簡單易用是標簽的一大特征,在滿足用戶的個性化需求,匯聚和傳播用戶的個性化信息方面,標簽比關鍵詞的作用更突出。與傳統(tǒng)分類法中類目的設置不同,標簽在組織網(wǎng)絡信息資源時突破了元數(shù)據(jù)和關鍵詞的局限,具有自由性、平面性、社會性等優(yōu)點,因而在互聯(lián)網(wǎng)上得到了廣泛應用。但任何事物都有兩面性,標簽一樣存在許多缺點,例如,標簽并不是描述和獲得結構化信息的最有效方式,標簽的自由性也給信息的組織與檢索帶來了很多困擾等。

      1 標簽控制的必要性

      1.1 標簽組織網(wǎng)絡信息資源的缺陷

      (1)標簽的無控性。雖然標簽的自由性使得信息組織進一步人性化,但伴隨著標簽的隨意性而來的是標簽的混亂和無序,即標簽的無控性。與傳統(tǒng)分類有著嚴格的分類章法不同,用戶在提交標簽時是沒有任何限制的,如用戶可以將一張草莓的照片標記為“西瓜”,這樣的標簽并不能反映所標識的信息的內容,是沒有任何實際意義的。對于其他群體用戶而言,這樣的標簽就是“垃圾標簽”。[2]

      (2)標簽的平面性。標簽的平面性改變了傳統(tǒng)分類法的樹狀分類結構,給用戶帶來了極大的方便,但標簽類目的平面非等級結構也造成主次不分、重要信息被隱藏、不便瀏覽等問題。分眾分類不像傳統(tǒng)分類法那樣具有等級結構,不存在根結點,標識信息的標簽是以標簽云圖的形式顯示在頁面上的,盡管重要的、點擊頻次高的標簽通過特殊顏色或字體等被突出顯示,但也仍然難免被浩如煙海的信息所淹沒。[1]同時,用戶在進行標簽檢索時,很難確定主要標簽和次要標簽,很多重要信息可能會檢索不到,從而影響用戶的檢索效率。

      (3)標簽的分散性。當有多個標簽可以表達同一事物或同一內涵時,表達同一對象或內容的多個標簽就會呈現(xiàn)出分散的狀態(tài),給檢索帶來不便。如單復數(shù)、同義詞、縮寫詞、語種及語義認知的差別等都是標簽分散性的表現(xiàn)。[1]例如,“book”與“books”都是指書,是單復數(shù)造成的詞形區(qū)別;“電腦”和“計算機”兩個不同的詞指示同一種事物,是一義多詞造成的分散;又如,“中國”是“中華人民共和國”的簡稱,是縮寫詞造成的分散;再如,不同的語言環(huán)境下,“人民”“people”都表達人的意思,是語種的分散;還有語義認知的差異,也會導致標簽的分散,比如“大夫”可以指醫(yī)生,也可指古代官職,“杜鵑”可表示鳥也可表示花等。這種分散會嚴重影響重要標簽的聚類和檢索的效果。

      1.2 標簽控制的必要性

      雖然標簽具有容易使用、用戶參與性強、利用集體智慧等優(yōu)點,但其無控性、平面性、分散性等缺點在一定程度上限制了其作用的發(fā)揮。目前提供標簽共享與服務的網(wǎng)絡信息資源還不多,僅為一些典型的Web2.0應用網(wǎng)站,如Delicious、YouTube、Wikipedia等,而大部分網(wǎng)站并不提供標簽功能。究其本質原因,就是因為標簽的不規(guī)范給信息組織和檢索帶來了不便:標簽的無控性導致信息的分散與混亂,有悖于信息組織序化信息資源的初衷;標簽的過度分散影響檢全率、檢準率,最終影響用戶使用標簽的積極性。

      標簽的創(chuàng)造者最初的目的是希望幫助用戶標識和找到有用的信息。但是,由于標簽的自由分散性而導致的結構性差,用戶很難弄清楚哪些標簽之間存在聯(lián)系,標簽描述了哪些資源,描述了資源的哪些屬性。此外,標簽的多重語義也給用戶使用標簽帶來困難,這是因為同一標簽在不同的語境下可能描述不同的信息對象,同一信息對象也可能會有多個不同的標簽來標記。例如,我們將一張有關建筑物的照片標記為“old”,這可能表示照片中的建筑物年代很久遠,也可能表示這張照片拍攝的時間很長了,或者兩者都是。諸如這種沒有控制而產(chǎn)生歧義的現(xiàn)象在標簽使用過程中隨處可見,給標簽的使用帶來了很大的不便,因此,我們認為,對標簽進行規(guī)范和控制已經(jīng)成為一個亟待解決的問題。

      2 利用本體進行標簽控制的可行性

      2.1 本體

      本體(Ontology)這個術語來自于哲學,是對自然存在的一種描述,表示抽象的概念,研究客觀事物存在的本質和組成。作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具,本體這個概念已被引入到計算機科學等多個領域。關于其定義,目前比較認同的是1993年Gruber提出的“本體是共享概念模型的明確的形式化的規(guī)范說明”。它包含了本體的四層含義:[3]① 概念模型(Conceptualization),指通過抽象出客觀世界中一些現(xiàn)象的相關概念而得到的模型;②明確(Explicit),指所使用的概念及概念的約束都有明確的定義;③形式化(Formal),指本體是計算機可讀的(即能被計算機處理的);④ 共享(Share),指本體中體現(xiàn)的是相關領域共同認可的知識。

      本體被認為是一種知識結構或數(shù)據(jù)結構,這種專門構建的結構體系列出了一個領域里所有的概念及其之間的關系,從而能夠很詳細地描述某一領域范圍內的知識以及它們之間的關系。建立本體的目的就是通過對相關領域概念及其關系的形式化描述,確定該領域內共同認可的詞匯,提供對該領域知識的共同理解,達到知識的共享和重用,使該領域內不同系統(tǒng)、不同模型間能夠進行互操作。

      2.2 借助本體進行標簽控制

      通常而言,為了獲得信息的明確的語義,用戶必須提供更多的說明性信息,如語境等。但在互聯(lián)網(wǎng)上,要求信息的創(chuàng)建者提供標記說明等對創(chuàng)建者和使用者而言都是既復雜又浪費時間的。因此,我們設想,能否借助一種方法,在保持標簽的易用性和簡單性的同時,又能給標簽賦予精確的語義呢?本體就是能夠實現(xiàn)這種功能的方法??梢越柚诒倔w的形式化規(guī)范模式,把用戶使用的自由標簽和本體關聯(lián)起來,建立起自由標簽的語義控制體系和語義網(wǎng)絡。這種方法最大的好處就是為用戶提供了一種控制自由標簽的能力,給標簽賦予了精確的語義信息,能夠改進標簽的搜索機制和瀏覽體驗。[4]例如,通過建立起標簽“飯館”“餐廳”和標簽“建筑物”“酒吧”等的聯(lián)系,可以很容易地從一張有關“餐廳”的圖片鏈接到其他有關酒吧或建筑物或特色餐館的圖片上。

      本體作為標簽控制的工具,其可行性和作用體現(xiàn)在:① 本體中所定義的概念和屬性可用于對標簽的標識,從而在概念上對標簽進行控制,減少標簽歧義和垃圾標簽的出現(xiàn)。同所有事物的概念一樣,標簽是通過一定的字、詞或短語等描述元素反映客觀事物的某種特征的。但是,當用戶使用標簽標識信息時,存在多個標簽表達同一概念的情況,即一義多詞,如前面提到的“電腦”和“計算機”;而且,由于同一標簽在不同的語境中也可以表示不同的概念,一詞多義現(xiàn)象也大量存在,如“杜鵑”(既可表示一種花的名稱,也可表示一種鳥的名稱)等。標簽在組織信息資源時碰到的這些問題,可以借助于本體解決。本體通過對概念的明確定義以及對概念間關系的揭示,可以在不同形式的詞匯間建立起關聯(lián)。借助于本體的這個功能,可以實現(xiàn)對自由標簽的詞匯控制——能夠選擇一個明確的概念來約束和控制不同標簽的語義,從而盡可能地消除標簽歧義現(xiàn)象。② 由于本體建立了概念間的語義網(wǎng)絡和推理規(guī)則,可以借助本體的這種功能構建自由標簽的語義網(wǎng)絡。任何概念都不是孤立存在的,概念與概念之間必然存在著一定的關系,如種屬關系、同義關系、反義關系等,概念本身、概念之間的關系共同構成了概念空間。本體通過對概念的明確定義和對概念間關聯(lián)關系的揭示,建立起一個領域的語義網(wǎng)絡,實現(xiàn)對該領域中概念及概念間關系的控制。自由標簽雖然不是嚴格的概念,但其本身也具有一定的語義,自由標簽之間也存在著同義、種屬、反義等語義關聯(lián)。因此,可以借助于本體的這種功能,對自由標簽進行語義控制和揭示,通過概念間的多種關系及其緊密度來反映標簽對象的語義關聯(lián)。標簽語義關聯(lián)主要體現(xiàn)在內容關聯(lián)和結構關聯(lián)兩個方面。[5]借助于本體對自由標簽語義關聯(lián)關系的揭示,有助于構建自由標簽的語義網(wǎng)絡。只有建立起這種具有推理規(guī)則語義網(wǎng)絡,標簽用于網(wǎng)絡信息資源組織和檢索的作用才能充分發(fā)揮。

      3 標簽本體(TagOntology)—— 一種基于本體的標簽控制工具

      3.1 標簽本體的概念

      標簽本體(TagOntology)是標簽和本體技術的結合,是描述標簽語義的一種工具。也就是利用本體的語義控制功能在語義層次上組織和構建標簽語義網(wǎng)絡,對用戶的標記行為(賦標簽的行為)進行標識和控制,以實現(xiàn)對“標簽泛濫的限制、垃圾標簽的過濾和歧義標簽的規(guī)范”。[6]

      3.2 標簽本體的標注規(guī)則[6-8]

      標簽本體借用了本體的形式。同本體一樣,標簽本體也具有概念模型、明確、形式化、共享等含義。標簽本體通過建立起標注者、資源和標簽之間的關系模型,同時關聯(lián)資源出處和標記日期等信息來規(guī)范控制標簽,達到共享標簽的目的。因而,標簽本體的標注實際上是借用了本體的理念來規(guī)范描述標簽和控制標簽的應用。

      (1)標簽本體的簡單標注結構——二元組結構。標簽本體的核心概念是標注(Tagging),標注是指用戶使用一個或一組標簽對其創(chuàng)造或瀏覽的信息內容進行描述的過程,因此構建標簽本體時,首先需要揭示這個二元組關系,即:Tagging(object,tag)。其中,Object表示被描述的資源對象,Tag即標記某個對象所使用的標簽,指能夠被人和計算機所認知的、能夠描述信息對象的單詞或詞組。這個二元組是標簽本體最簡單的標注規(guī)則,適用于范圍較小、標簽較少的情況。

      (2)標簽本體的基本標注結構——三元組結構。由于標簽是一種隨意的行為,因而不同用戶會使用不同的標簽標識同一信息對象,也會用同一標簽來標記不同的信息對象。為了明確區(qū)分這些標簽,在二元組標注中增加標注者的信息,建立起標簽本體的基本標注模型,即三元組關系:Tagging(object,tag,tagger)。三元組中,Tagger表示使用標簽進行標記的人,如應用程序的用戶,博客的作者等。通過這樣的三元組建立起來的標簽本體的基本標注結構,描述了標注者、資源和標簽三者之間的基本關系。這種結構的描述,從格式上對標簽進行了規(guī)范控制,不僅規(guī)范了標簽的表達,也規(guī)范了用戶的行為,能夠減少無意義的標簽出現(xiàn)。

      (3)標簽的多元組標注??紤]到標簽的共享問題,需要增加標簽的來源和標注的時間,因而可以在三元組關系的基礎上再增加兩層關系,即:Tagging(object,tag,tagger,source,date)。此處 Source 表示標簽的來源,可以用命名空間或者URI來表示,date表示信息對象被標記的日期,通過年月日的形式表現(xiàn)。這樣的標注規(guī)則可以用來描述和控制用戶的標注行為,避免對信息對象的隨意標注以及大量垃圾標簽的出現(xiàn)。如對一幅手表的照片,我們可以這樣標注:Tagging:=(手表,watch,張三,http://en.wikipedia.org/wiki/Watch,2007-02-28)。這個標注就揭示了“watch”這個標簽的描述對象、標注者、資源出處和標注時間,也便于標簽數(shù)據(jù)的規(guī)范化理解和其他用戶共享該標簽。

      引入標簽本體后,當我們使用某一標簽對某個系統(tǒng)中的資源進行標注時,就能夠發(fā)現(xiàn)與其他標簽之間的關聯(lián),也有助于判斷同一標簽在不同系統(tǒng)中的具體涵義??梢哉f,標簽本體的引入增加了對知識的描述,增加了機器處理的描述,不僅能夠對原有的信息對象進行標注,還可以從語義層面上描述各個標簽元素之間的關聯(lián),使得信息共享變得更加便利。同時,形如people的標記語言,能夠同時被用戶和機器理解,從而使得計算機對標簽進行自動處理成為可能。

      3.3 標簽本體實例——SCOT

      SCOT即SocialSemantic Cloud ofTags,可理解為標簽的社會性語義云圖,是標簽本體模型的一個典型應用。其目標是在語義層次上為標簽提供一個機器可理解的框架,在語義網(wǎng)絡中為標注活動所描述的信息對象的概念和屬性(如用戶、標簽、資源等)提供一個表示模型,為標簽數(shù)據(jù)的共享和重用提供便利。[9]

      SCOT主要的特點就是能夠描述標注活動并展示在線虛擬社區(qū)中的各個元素之間的關系,即描述被標記的信息對象的結構和語義,并提供一種社會互操作性——為了共享和重用標簽數(shù)據(jù)以及描述來自于不同資源的用戶之間的關系。[9]為了達到這一目標,SCOT采用現(xiàn)有的計算機可理解的語言如RDF/OWL來定義詞匯,以便計算機更好地處理。SCOT詞表的核心要素是標簽云,SCOT不僅能夠識別一個標簽云本身,同時還反映了標簽與其他元素和屬性之間的聯(lián)系。[9]

      如在SCOT模型中,scot:tagging Activity描述了scot:TagCloud 和 tags:Tagging 之間的關系,scot:contains描述了scot:TagCloud和scot:Tag之間的關系。此外,scot:hasUsergroup則指出了有哪些成員使用SIOC(Semantically-Interlinked Online Communities) 參與了標注活動,scot:usedBy定義誰進行了標注,scot:Tag指在標注活動中使用了哪些標簽,scot:tagOf則指出標注活動是在哪里發(fā)生的,如博客。通過這樣的描述,就能對用戶的標注活動進行約束和限制,從而很容易地找到標簽間的聯(lián)系。

      在SCOT中,將多個標簽聚合到一起形成一個標簽云圖,從用戶組、標簽、資源三個角度建立一個語義關聯(lián)圖,這些聚合到一起的標簽具有同類屬性,如在Delicious中,有關Webdesign一類的標簽有design、logo、 logos、 webdesign、 designer、 dreamweaver、 templates、best、good等。因此,將SCOT用于分眾分類法的標簽控制中是非常合理的。

      4 結論

      引入標簽本體后,對用戶的標注過程采用Tagging(object,tag,tagger,source,date) 多元組機制來描述,可以反映出標簽、資源、標注者、標注對象和日期之間的關聯(lián)。同樣,類似的多元組機制也可以用來描述標簽聚集的結果——分眾分類標識,如采用多元組 Folksonomy:= (Tagset,User Group,Source,Tagging,Occurences)進行。這樣,還可以將有聯(lián)系的標簽通過呈現(xiàn)的方式關聯(lián)起來,有利于從語義的角度將具有同類屬性的標簽聚合到一起,實現(xiàn)分眾分類,對信息進行序化組織。當然,在利用標簽進行信息檢索時,也避免了過去盲目地輸入標簽進行檢索的弊端,可以從多個角度檢索,同時由于對標簽進行了規(guī)范,能夠提高用戶的檢索效率??梢赃@樣說,引入標簽本體,一方面可以對標簽進行語義控制,提高標簽的可用性;另一方面,為機器自動描述標簽提供了有益的探索,增強標簽的功能和實用性,有利于網(wǎng)絡信息組織與檢索的改善。鑒于現(xiàn)有的一些標簽本體模型尚不能很好地支持計算機的自動描述和處理,因此還需要廣大用戶和各領域專家以及技術開發(fā)人員的共同努力和合作,共同關注標簽控制工具——標簽本體的建設。

      [1]圖書館2.0工作室.圖書館2.0:升級你的服務[M].北京:北京圖書館出版社,2008:161-191.

      [2]馬然,陳樹年.網(wǎng)絡信息分類組織的新星——Folksonomy[J].新世紀圖書館,2006(4):37-39.

      [3]曹樹金,馬利霞.論本體與本體語言及其在信息檢索領域的應用[J].情報理論與實踐,2004(6):632-637.

      [4]KeesvanderSluijs,Geert-JanHouben.RelatingUser Tags to Ontological Information[EB/OL].[2008-10-27].http://wwwis.win.tue.nl/~ksluijs/papers/UbiqU M08/sluijs_UbiqUM08.pdf.

      [5]王翠波,等.基于語義網(wǎng)的信息組織與智能導航研究[J].中國圖書館學報,2006(3):32-36.

      [6]T Gruber.Ontology of folksonomy:A Mash-up of Apples and Oranges[EB/OL].[2008-11-03].http://www.metadata-semantics.org/.

      [7]Tag ontologydesign[EB/OL].[2008-10-25]http://www.holygoat.co.uk/projects/tags/.

      [8]TGruber.Tag Ontology—awaytoagree on the semanticsof tagging data[EB/OL].[2005-10-29].http://tomgruber.org/writing/tagontology.htm.

      [9]SCOT Ontology Specification[EB/OL].[2008-11-03].http://scot-project.org/scot/index.html/.

      猜你喜歡
      本體檢索標簽
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      2019年第4-6期便捷檢索目錄
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      標簽化傷害了誰
      《我應該感到自豪才對》的本體性教學內容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      马山县| 黄龙县| 江都市| 许昌市| 赞皇县| 盐城市| 监利县| 隆化县| 新建县| 南宁市| 南郑县| 清苑县| 富锦市| 龙川县| 甘谷县| 九龙坡区| 通海县| 晋中市| 佳木斯市| 邳州市| 南丰县| 资阳市| 丹寨县| 五峰| 高台县| 新宾| 江达县| 都江堰市| 咸阳市| 彭山县| 平度市| 漳平市| 永顺县| 海门市| 余庆县| 昌黎县| 德江县| 巴林左旗| 游戏| 台南县| 东平县|