• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于分眾分類法的圖書館書目本體構(gòu)建研究

      2016-02-12 18:49:37黃美
      圖書館學刊 2016年11期
      關(guān)鍵詞:分類法本體書籍

      黃美

      (廣東工程職業(yè)技術(shù)學院圖書館,廣東 廣州 510520)

      基于分眾分類法的圖書館書目本體構(gòu)建研究

      黃美

      (廣東工程職業(yè)技術(shù)學院圖書館,廣東 廣州 510520)

      分析了分眾分類法與本體結(jié)合的必要性和可行性,介紹了本體的構(gòu)建原則、方法和工具。在此基礎(chǔ)上構(gòu)建了圖書館書目本體模型,并重點闡述了書籍本體模型構(gòu)建思路、標簽及定義類的體系等。

      分眾分類法 圖書館書目 本體構(gòu)建

      隨著網(wǎng)絡(luò)時代的到來,分眾分類法已經(jīng)開始廣泛應(yīng)用于很多領(lǐng)域,但是這種方法本身也存在一定的局限性。相對來說,網(wǎng)絡(luò)信息資源冗雜繁復,所以分眾分類法在一定情況下局限了現(xiàn)代化信息組織的進一步發(fā)展[1]。在網(wǎng)絡(luò)環(huán)境下,使用的分類系統(tǒng)需要具備直觀明確、精致有序、具有動態(tài)性特征、有一定語義控制能力以及抽象概括能力等特點,唯此才能更好地滿足網(wǎng)絡(luò)信息組織、信息檢索以及信息分類的需求。

      本體可以對資源語義之間的關(guān)系進行確認,并通過一定的形式對信息資源的概念和相互間關(guān)系進行表達,確保構(gòu)造的模型能被計算機識別。在分眾分類法中運用本體,可以使網(wǎng)絡(luò)標簽的本體化變?yōu)楝F(xiàn)實。在分眾分類法模型的基礎(chǔ)上構(gòu)建的本體有助于標簽本體的構(gòu)建。筆者首先分析和探討了分眾分類法和本體研究的體系、內(nèi)容和應(yīng)用狀況,研究了分眾分類法與本體結(jié)合的可行性和必要性,并在此基礎(chǔ)上提出可以借由本體對分眾分類法標簽的特性進行約束。

      1 分眾分類法與本體的結(jié)合

      1.1 分眾分類法與本體結(jié)合的必要性

      標簽數(shù)量伴隨不斷增加的網(wǎng)絡(luò)用戶而呈現(xiàn)出迅速增長的態(tài)勢,結(jié)合了分眾分類法的標簽表現(xiàn)出了模糊性、多樣性以及扁平化組織等特點,增加了系統(tǒng)的檢索難度[2]。所以目前亟待解決的問題是如何使分眾分類法的語義性得到增強,以有效提升檢索效率。用戶在檢索過程中使用的分眾分類法標注系統(tǒng)只能以查找關(guān)鍵詞作為檢索標簽,這樣對資源進行檢索具有較高的漏檢率,將導致檢索結(jié)果的混亂,表現(xiàn)出了相應(yīng)的局限性。

      在概念與概念之間,本體能明確提供語義關(guān)系,并在分眾分類法標注系統(tǒng)中進行應(yīng)用,達到語義檢索的目的。本體的使用能有效彌補在檢索方面分眾分類法標注系統(tǒng)體現(xiàn)出的不足[3]:有利于分享知識,作為自上而下的分類法,分眾分類法是用戶基于自身理解通過自然語言完成分類和標注,本體卻是通過相關(guān)領(lǐng)域的專家通過大量的分析和研究完成的分類,兩種分類方法之間的結(jié)合不僅使得信息組織方式更加專業(yè),同時以用戶為中心的分類法更有利于共享知識;有利于向用戶提供個性化信息。兩種分類法的結(jié)合可以對用戶信息進行深度挖掘,然后根據(jù)用戶的標注活動、習慣喜好以及瀏覽歷史等為用戶自動推薦個性化信息資源;有利于檢索效率的提升,用戶把需要檢索的關(guān)鍵字在系統(tǒng)中輸入之后,利用本體可以實現(xiàn)擴展查詢,輸入的單一關(guān)鍵詞可以向語義相關(guān)的關(guān)鍵詞擴展,使檢索的查全率得到有效提升。

      1.2 分眾分類法與本體結(jié)合的可行性

      綜合本體和分眾分類法,可以把控制自由標簽的能力提供給用戶,把精確的語義信息賦予到標簽上,對標簽的瀏覽體驗和檢索機制進行改進。在分眾分類法系統(tǒng)中加入本體應(yīng)用可以更好地控制標簽。筆者通過以下兩方面具體闡述其可行性。

      1.2.1 借助本體規(guī)范標簽

      通過本體的使用可以達到規(guī)范標簽的目的。從概念上對標簽進行控制,對歧義、同義和模糊標簽進行規(guī)范,使標簽的多樣性和模糊性得到有效消除,防止垃圾標簽的出現(xiàn)[4]。在分眾分類系統(tǒng)中,用戶的知識量、專業(yè)性、表達能力以及目的都有所不同,會導致多個標簽表達的概念完全相同的情況;即便是同一個標簽,當語境不同時,其表達的概念也有所不同。比如“蘋果”這個標簽,在計算機領(lǐng)域指的是計算機或者手機品牌,在水果店就是可食用的水果。借助本體可以解決這一問題,本體是規(guī)范化描述某一領(lǐng)域知識,可以對概念之間的關(guān)系、概念的定義進行再明確,并且以多樣化的形式把概念之間的關(guān)聯(lián)連接起來,對不同標簽的語義進行約束和控制,使標簽歧義的現(xiàn)象得以消除。

      1.2.2 借助本體建立標簽間的語義關(guān)系

      用戶可以依據(jù)本身需求,在分眾分類法系統(tǒng)中,使用相似或相同的標簽對相關(guān)資源進行描述,這些標簽具有可見性和共享性的特征。有學者在研究過程中以標簽使用頻率為切入點,通過語義浮出和類聚等方法把用戶使用頻率相對較高的詞匯集合成表。這些詞匯之間都存在著一定的同義、近義、反義或者上下級關(guān)系等關(guān)聯(lián)。本體說明是概念化的,具有共享性,是用戶對事物的共識,其詞匯表中的詞匯都是具有明確定義的。其實本體和分眾分類法標簽還是存在一定共性的,本體概念和部分標簽是可以重合的,通過本體的使用可以便于我們控制和揭示自由標簽的語義,把標簽之間的語義關(guān)聯(lián)揭示出來。針對分眾分類法標簽來說,有助于語義網(wǎng)絡(luò)的構(gòu)建。本體可以通過兩種方式優(yōu)化分眾分類法體系:一種是整理分析標簽,構(gòu)建出標簽語義模型;另一種是通過控制標注過程,對標簽之間的語義關(guān)系進行再明確。圖1給出了本體和分眾分類法的具體結(jié)合機制。

      2 本體的構(gòu)建

      2.1 本體構(gòu)建準則

      本體隨著多樣化的研究角度、發(fā)展壯大的研究隊伍以及不斷拓寬的研究領(lǐng)域,不管是在多樣性方面還是在數(shù)量上都有了顯著的提升[5]。對于大多數(shù)本體來說,都是用戶根據(jù)個性化需求對某個研究項目或者自己的研究領(lǐng)域?qū)iT設(shè)立的,這是本體多樣化構(gòu)建過程的形成原因。目前本體構(gòu)建方法還不規(guī)范,用戶都是基于自身需求和本體構(gòu)建目的提出本體的構(gòu)建標準。一般而言,本體構(gòu)建需要遵循以下規(guī)則:一致性、客觀性和明確性、最小承諾、編碼編號程度最小以及最大單調(diào)可擴展性。筆者依據(jù)以上規(guī)則,基于構(gòu)建目標需求,提出分類法領(lǐng)域本體構(gòu)建的具體方法。

      首先是一致性,也即是要求不管是本體的邏輯關(guān)系還是本體的概念都要確保前后一致,進而保障概念及邏輯關(guān)系的一致性。其次是客觀性和明確性,在分類法分類規(guī)則的基礎(chǔ)上對本體概念進行定義,把常用詞和規(guī)范詞之間的關(guān)聯(lián)關(guān)系建立起來,發(fā)揮本體概念的實用價值;第三是完全性,是指在本體的構(gòu)建過程中,要盡可能完整表述本體定義,確保能把所描述的事物完全表達出來。當然在這一過程中,知識表達方式呈現(xiàn)出了多樣化的特征;第四是最小承諾,對于用戶來說,本體是為了支持用戶的檢索查詢需求,所以在建模過程中,要盡可能少地約束建模對象,只需要實現(xiàn)概念的語義知識,滿足用戶的特定需求即可;最后是可擴展性。用戶在本體提供的共享詞匯中,在不改變該詞匯原有概念的基礎(chǔ)上可以對新的術(shù)語進行定義;在對詞匯定義的本體擴展中,可以采用局部構(gòu)建法。但是局部構(gòu)建法自身也存在著一定的局限性,在進行本體擴展之后要在已有本體中嵌入詞匯的擴展部分,對兩者的沖突情況進行檢測,確保原本體與本體擴展部分的一致性。

      分類法本體構(gòu)建的過程中,由于本體構(gòu)建原則并不統(tǒng)一,而且還不成熟,所以離不開專家的協(xié)作和參與。在本體的實際構(gòu)建中,由于本體具有復雜的結(jié)構(gòu),所以本體構(gòu)建方法還實現(xiàn)不了,而且在短期內(nèi)也達不到完全自動化。

      2.2 本體構(gòu)建方法

      構(gòu)建本體多是面向特定領(lǐng)域進行的,通常具有較強的目的性,所以在本體構(gòu)建過程中,選擇構(gòu)建方法至關(guān)重要。國際上比較權(quán)威的有TOVE法、METHONTOLOGY法、骨架法以及七步法等本體構(gòu)建方法[6]。有很多專家和學者都針對廣泛應(yīng)用的本體構(gòu)建方法進行了分析和研究,概括了各種方法的優(yōu)劣,還有一些學者按照自身需求,結(jié)合不同方法的優(yōu)點,提出適宜特定領(lǐng)域的分類法本體構(gòu)建方法。

      2.3 本體構(gòu)建工具

      相關(guān)統(tǒng)計數(shù)字顯示,截至2002年12月,已經(jīng)存在52種本體構(gòu)建工具。在此基礎(chǔ)上,中科院的李景博士又找到12種新的本體構(gòu)建方法。到了2004年下半年,僅在互聯(lián)網(wǎng)上就可以找到高達64種本體編輯工具[7]。但是到了實際操作中,并不是所有的本體編輯工具都能得到切實的應(yīng)用。其中常用的本體合并工具為ONIONS,常用的本體評價工具是Onto Clean;在本體基礎(chǔ)上拓展的標引工具是Onto Aimotate,本體還有一種合并和集成的Chimaera工具,Ontosaunrus常常被用于本體的轉(zhuǎn)換器、服務(wù)器和瀏覽器。通過研究發(fā)現(xiàn),在以上提及的數(shù)十種本體編輯工具中,存在著一定的共同點:首先,用戶界面兼容性較強,易操作,穩(wěn)定清晰;其次,本體構(gòu)建工具可以對指令含義進行解釋,提供給用戶幫助;第三,本體構(gòu)建工具都提供有本體文庫;第四,本體構(gòu)建工具的驗證機制是統(tǒng)一的;最后,本體構(gòu)建工具可以對文庫中的已有本體重復使用。

      3 圖書館書目本體模型的構(gòu)建

      3.1 書籍本體模型構(gòu)建思路

      筆者已經(jīng)分析和探討了構(gòu)建本體的原則、方法和使用的工具,并在此基礎(chǔ)上與書籍本體的相關(guān)研究成果、書籍本體的特性以及構(gòu)建書籍本體的目的相結(jié)合,使用分眾分類法構(gòu)建了書籍本體模型。具體建模過程如下。

      首先是收集和整理書籍標簽。根據(jù)構(gòu)建本體的目的以及書籍的特性,對分眾分類法網(wǎng)站進行比較分析,從中選擇滿足研究要求以及可以展示出書籍標簽特性的網(wǎng)站,并在這些網(wǎng)站中對書籍的相關(guān)標簽資源進行搜集。書籍標簽搜集完成之后,根據(jù)研究的具體要求和標簽整理原則,規(guī)范整理這些標簽,如去重、清洗等,確保獲取的標簽是規(guī)范和有效的;其次是重要術(shù)語,重要術(shù)語其實主要是指語料,這些語料是與構(gòu)建書籍本體相關(guān)的概念、關(guān)鍵詞以及術(shù)語等。在該步驟中主要是把重要術(shù)語從規(guī)范化的標簽中整理出來。值得注意的是,還要與其他學者研究的相關(guān)性較高的書籍本體比較,不僅可以參考具體的本體研究成果,還可以分析本體模型的可復制性,對現(xiàn)有數(shù)據(jù)本體提供參考和復用可行性分析,達到基于現(xiàn)有標簽,進一步充實書籍本體模型語義關(guān)系的目的,進而使書籍本體專業(yè)功能得到有效提升。第三,對書籍本體的結(jié)構(gòu)體系進行定義,該體系結(jié)構(gòu)其實就是書籍本體模型的概念化,是在書籍重要術(shù)語基礎(chǔ)上對概念化書籍描述體系進行定義。具體內(nèi)容包括一級、二級以及三級類目等專業(yè)術(shù)語。對本體類結(jié)構(gòu)體系定義是為了更加有效地構(gòu)建書籍本體;第四,對類的屬性進行定義,在第三步中,在同級類之間,語義關(guān)系還較為匱乏。通過類的屬性定義,可以在不同級別不同類或者是相同級別不同類之間建立語義關(guān)系,書籍本體屬性的功能包括推理和判斷等,它有助于對書籍信息的高效檢索,能實現(xiàn)構(gòu)建書籍本體的目的;第五是添加個體;最后是模型特征。

      3.2 標簽

      在構(gòu)建本次書籍本體中,最主要的信息資源是在分眾分類法網(wǎng)絡(luò)上的相關(guān)書籍標簽。標簽質(zhì)量的高低與研究結(jié)果的有效性和客觀性是直接相關(guān)的。筆者根據(jù)研究要求和目的,進行了嚴謹?shù)谋容^和分析,發(fā)現(xiàn)豆瓣網(wǎng)是采用分眾分類法較早的網(wǎng)站之一,而且主要涉及的網(wǎng)站資源是書籍,在該網(wǎng)絡(luò)上不僅有大量的書籍標簽和信息資源,還匯集了海量的書籍信息用戶,與研究需求相吻合。所以,在構(gòu)建本次書籍本體過程中,選用豆瓣網(wǎng)作為標簽來源網(wǎng)站。

      3.2.1 標簽收集

      筆者根據(jù)檢索和研究的需求,與分眾分類法充分結(jié)合,選用了“書”“書籍”“文學”“小說”“讀書”“生活”“文化”“穿越”“經(jīng)濟”科技”等20個近期的熱門詞匯和標簽,并以這些關(guān)鍵詞為入口,通過摘錄和檢索等標簽收集活動在豆瓣網(wǎng)中進行標簽的采集。

      3.2.2 標簽初次整理

      通過以上步驟采集到的標簽只是簡單匯集了豆瓣網(wǎng)上的相關(guān)書籍資源標簽,還存在很多的標簽集合問題,不能拿過來直接應(yīng)用在研究中,還需要進一步的規(guī)范化整理。首先是標簽去重,這種處理主要是去除標簽集合的冗余,主要思路是在集合中相同的標簽只能出現(xiàn)一次。以“文學”標簽為例,在搜集到的標簽集合中,該標簽一共出現(xiàn)了6次。根據(jù)標簽去重的原則只要保留一個“文學”標簽即可;其次是清洗標簽,清洗的對象主要包括容易帶給信息檢索者歧義以及不能把書籍信息知識準確反映出來的標簽,比如匯集的標簽集合中存在的歧義標簽或是無效標簽。由于自身包含的語義并不能對書籍的信息資源進行有效揭示,所以可以將類似標簽直接清除。通過去重、清洗等整理之后,得到的標簽集合是規(guī)范化的,可以在研究中直接應(yīng)用。

      3.2.3 重要術(shù)語

      可以從多渠道獲取書籍相關(guān)的重要術(shù)語。筆者主要參照了主題詞表、元數(shù)據(jù)詞表、敘詞表以及其他本體的重要術(shù)語。在分眾分類法基礎(chǔ)上構(gòu)建書籍本體,其實就是將用戶進行分眾分類法處理之后,利用書籍信息資源標簽對書籍本體進行構(gòu)建,充分發(fā)揮系統(tǒng)化概念的優(yōu)勢,使標簽與標簽之間的語義關(guān)系建立起來,進而實現(xiàn)用戶對所需資源的檢索。構(gòu)建書籍本體語義關(guān)系的基礎(chǔ)是豐富的領(lǐng)域術(shù)語。筆者為了使書籍本體的構(gòu)建更加高效,對前人的研究成果進行了分析,參考了相關(guān)的構(gòu)建信息,使書籍本體的語義功能得到進一步增強。

      3.3 定義類的體系

      在書籍的描述過程中,本體類是術(shù)語的概念抽象化,概念化描述了眾多書籍的個體共性。類根據(jù)描述范圍和對象的區(qū)別,可以分為3種:同級、上位和下位類。這3種類具有一定等級結(jié)構(gòu)和層級關(guān)系,是一個關(guān)系分明、結(jié)構(gòu)明確的體系結(jié)構(gòu)。本體這3個類層級等級的區(qū)分與確定,關(guān)系到書籍本體類間的語義聯(lián)系和層次聚類。筆者參考分眾分類法對用戶標簽的定義、語義的搜索及挖掘方法來對書籍本體進行分類。這種本體類間層次關(guān)系相對比較簡單,而且容易區(qū)分,故本研究擬利用Top-Down方式來構(gòu)建基于分眾分類法的圖書館書目本體。圖2就是筆者使用Top-Down方式構(gòu)建的書目本體類層體系圖。

      G250.7

      猜你喜歡
      分類法本體書籍
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      魯迅與“書籍代購”
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      分類法在高中化學中的應(yīng)用
      AOS在書籍編寫的應(yīng)用
      書籍
      K 近鄰分類法在巖屑數(shù)字圖像巖性分析中的應(yīng)用
      錄井工程(2017年1期)2017-07-31 17:44:42
      書籍是如何改變我們的
      《我應(yīng)該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      基于貝葉斯分類法的股票選擇模型的研究
      太原市| 通江县| 达日县| 大余县| 靖西县| 阳信县| 西乡县| 津南区| 上栗县| 麻江县| 崇左市| 准格尔旗| 宁乡县| 家居| 工布江达县| 泸定县| 和平县| 千阳县| 正安县| 阿拉尔市| 临安市| 稷山县| 湛江市| 兴化市| 措美县| 孟州市| 临泽县| 当雄县| 云南省| 固阳县| 伊通| 本溪| 五华县| 安阳县| 理塘县| 南阳市| 和政县| 吴江市| 巴中市| 吴堡县| 翁牛特旗|