白 華(鄭州大學信息管理學院 河南 鄭州 450001)
?
從用戶標注中抽取本體框架與知識組織系統(tǒng)創(chuàng)新研究*
白 華(鄭州大學信息管理學院河南鄭州450001)
針對用戶標注的弱點,在標簽的基礎(chǔ)上構(gòu)建本體框架并賦予標簽豐富的語義,有助于進一步改善知識組織系統(tǒng)的性能。在大量標簽數(shù)據(jù)的支持下,提取知識框架是一種建立本體框架的有效方法,提取方法主要采用特征或?qū)傩愿爬ǚ?,即針對一類標簽集合的共同特征抽取它們的上位概念,并根?jù)這些上位概念的關(guān)系建立知識框架。對基于兩種系統(tǒng)的語義分析而構(gòu)建的可以整合標簽和概念本體的兼容本體進行分析可知,它吸取了用戶標注的靈活、多元、表達性強大的特征,提高了知識組織系統(tǒng)的組織能力和標引功能;同時,也改進了用戶標注系統(tǒng)的語義能力,使之具有豐富的結(jié)構(gòu)和語義表達功能。
用戶標注 本體框架抽取 知識組織系統(tǒng)
目前,大多數(shù)知識體系或資源組織系統(tǒng)都采用概念劃分方式展開體系,劃分意味著區(qū)分和關(guān)聯(lián),即每個概念都是其他概念的“關(guān)系”概念,這是人們構(gòu)建知識世界的普遍規(guī)則。寬泛地說,本體就是一種按任務(wù)或目標用語義技術(shù)構(gòu)建知識體系的方法,它不限于一般的學科概念或知識框架,可以構(gòu)建不同任務(wù)與目標的本體。大眾分類的出現(xiàn)只有10年左右,它創(chuàng)造了一種新的分類“體系”,大眾詞匯、非規(guī)范性的表達、多樣化的分組、概念的模糊性或獨特性、平面化的結(jié)構(gòu)等構(gòu)成了大眾分類的主要特征[1]。也就是說,它為分類展現(xiàn)了新的視角或樣式。大眾分類在結(jié)構(gòu)、觀念、應用上都體現(xiàn)了“草根”化的民俗(folk)特征,這些特征將成為新型本體的養(yǎng)料。
大眾分類首先是具有民俗性,這在觀念上形成了大眾的視角:對資源的選取、表達資源詞匯的選取、獨到的感受和表達符號等都顛覆了原來的專家視角和觀念,使知識體系的表達出現(xiàn)了全新的價值和方法。它也許不是最好的,然而卻是最有用的,這在大眾時代是對專家式知識觀和資源觀的顛覆或重新改寫。然而這種顛覆,不是要否定其他知識體系,而是要創(chuàng)造一種新的知識組織方式,即大眾分類的意義在于它的創(chuàng)舉而不是否定。大眾分類實質(zhì)上是由“小眾”(組群)組成的,不僅因為它的資源是個人或“小眾”(組群)的,它的描述資源的符號也是由分群形成的“小眾”,即在一個交流圈中流行的術(shù)語,即使表面上與一般詞匯相同的符號,在不同組群中也可能代表不盡相同的意思。這樣就產(chǎn)生了問題,即怎樣在一般知識系統(tǒng)中表達“個人化”的知識結(jié)構(gòu),而又不失其本意?這就需要創(chuàng)新,需要在一般知識系統(tǒng)中添加必要的大眾分類的個性化方法或技術(shù)。
1.1大眾語言
“民俗”化的表達是大眾分類最突出的特色,這些表達選取的符號,并非僅僅是追求詞語的新奇,而是追求獨特的用戶感受和大眾的資源需要,或許這些符號只是流行的泡沫,然而它在知識的發(fā)展中留下了抹不去的痕跡,因而具有價值上的正當性。網(wǎng)絡(luò)熱詞的出現(xiàn),總是伴隨著某些資源或觀念的誕生,這就是它的價值。如果這些資源是有價值的,被許多人關(guān)注的,它就必須成為知識體系的一個節(jié)點。
1.2大眾關(guān)注的資源選擇
用戶標注是以用戶個人創(chuàng)作或閱讀的資源為對象,這顛覆了過去分類法或敘詞表等的資源選擇,并直接影響到知識表達系統(tǒng)。在表達的用戶看來,大眾分類資源選取的用戶立場不但使資源保障成為不言自明的內(nèi)在規(guī)則,而且使符號對資源的表達性更為“真確”。由于表達的個別性(各個用戶分別表達),個性化的標簽使表達的符號體系呈現(xiàn)出獨有的特點,而且這些特點可以用資源本身來定義。這就是大眾分類本體“浮出語義”方法的支柱。
表達符號的多樣性,并非一定會導致混亂或不清晰,這種“混亂”可能是建構(gòu)新的知識秩序的原料[2]。例如,在分布式環(huán)境中,數(shù)字資源的多樣表達幾乎是不可避免的,而語義本體就是為這樣的異構(gòu)數(shù)據(jù)與分布環(huán)境建立橋梁。同類資源的多樣表達(多種符號)不僅為用戶保留了多樣化的尋找資源的渠道,而且為本體增加了豐富的表達手段或語義。例如,OWL(Web Ontology Language,網(wǎng)絡(luò)本體語言)本體的Equivalent Classes 與SKOS (Simple Knowledge Organization System,簡單知識組織系統(tǒng))PrefLabel、AltLabel、HiddenLabel語句,都可以關(guān)聯(lián)不同形式的標簽,從而使本體語義更為豐富[3]。正如人們總是不斷變換表達事物的詞匯一樣,知識體系也在不斷地變換詞匯符號,用變化的概念表達變化的觀念或事物。
1.3資源多元語義與多向關(guān)聯(lián)本體
由于用戶標注資源時通常使用多個標簽描述資源,使資源可以關(guān)聯(lián)多個類,同時多元語義關(guān)聯(lián)可以方便用戶從多個角度(詞匯或其他符號)查找到相同資源。多元關(guān)系是資源多種特征的體現(xiàn),因為資源研究的事物的屬性是多方面、多角度的。多元語義可以多方面地表達事物對象(即資源)的多方面特征,也可以反映用戶對事物的多方面、多角度的認識;這些認知是用戶標記和查詢資源的依據(jù),所以多元語義應是本體技術(shù)滿足用戶查詢和標注工作的一個策略。一種用戶標注的標簽有時使用了大量寬泛的上位詞,這使資源分組形成了普遍的“不合法”或不嚴謹?shù)臓顟B(tài),創(chuàng)造了一種大眾時代的寬泛甚或模糊的分類“規(guī)則”。這種方法,在早期的關(guān)鍵詞索引時代就存在了,但是真正使之普遍化的是20世紀80年代以后的“超文本時代”,網(wǎng)絡(luò)資源多元成組技術(shù)成為突破線性組織體系的一個數(shù)字時代的創(chuàng)舉。但是真正具有“分類法則”意義的是大眾分類時代,它使檢索和歸類實現(xiàn)了真正意義上的多元組織,即真正成為一種普遍的方法體系或方法變革的樣例。
本體和語義網(wǎng)的核心思想是在分布式數(shù)據(jù)環(huán)境中,如何實現(xiàn)大量異構(gòu)數(shù)據(jù)的語義關(guān)聯(lián),所以本體對準、本體映射、本體集成技術(shù)從不同角度探索了如何疊加不同的概念框架,并連接或轉(zhuǎn)換不同的表達形式[4]。在另一層面,語義網(wǎng)與本體語言在一個本體系統(tǒng)內(nèi)部,也致力于各種類別、個體概念的關(guān)聯(lián)、重用和轉(zhuǎn)換,即把不同的表達符號集成到一起,以便實現(xiàn)信息聚合[5]。例如,在OWL2中,Equivalent Class、Equivalent Property 、Same Individual這些本體建構(gòu)語句形成了構(gòu)造不同概念、不同個體和不同屬性的強有力的語法工具[5]。
然而,本體關(guān)聯(lián)不僅是實體之間顯性語義關(guān)系的聯(lián)系,更多的是一種隱在的語義關(guān)聯(lián),如明顯的屬性描述中隱含的間接語義關(guān)系以及父類賦予子類和實體的邏輯關(guān)系。這些關(guān)聯(lián)并非一定是一種類似傳統(tǒng)分類的“歸入”關(guān)系,而是一種特征表達,這些特征被推理器推導出來,成為本體最重要的語義類型。隱含關(guān)系可能推導出人們從未發(fā)現(xiàn)的新知識或新信息,從而為本體知識庫添加新的知識類型,幫助語義網(wǎng)實現(xiàn)智能咨詢和檢索[6]。例如,相交類(in te rs ec tion c la ss es)一般就是創(chuàng)造一個匿名類(anonymous class),如“美國∩懸疑∩電影”就是創(chuàng)造了一個隱匿的類——“美國懸疑電影”,這個匿名類實際上是由本體中的3個初級類(primary class)即“美國”“懸疑”“電影”的交集組成,或可以解析為“美國電影∩懸疑電影”的交集。然而本體類在同一層級(父類)是兩兩不相交的類(disjoint classes),這意味著,相交類通常是不同父類之間的子類或個體相交;所以,匿名類實際上是由屬性關(guān)聯(lián)起來的、具有本體語言規(guī)定的某些給定條件的隱在的類,它可以把大量具有某些同樣特征的類,以匿名形式表達為一個新的個體知識集合,這極大地豐富了本體的語義能力。
大眾分類的創(chuàng)新并不完美,然而它為新型分類本體提供了革新的“原料”。此外,大眾分類代表的知識本體的使用群體是龐大、復雜的,這個因素也是本體創(chuàng)建要考慮的核心因素之一。
2.1語言選擇
本體語言的選擇需要基于很多方面的考量,首先是資源表達的標記符號發(fā)生了變化,大眾標記不過是一種表現(xiàn)。除此之外,近十幾年來,圖書研究的內(nèi)容發(fā)生了變化,越來越多的作者從多種角度研究同一個對象,傳統(tǒng)的資源描述符號已經(jīng)難以適應當前知識的復雜情況。其次,多學科視角的研究規(guī)范已經(jīng)建立,多學科研究使單線性的知識結(jié)構(gòu)無法適應現(xiàn)實的著述情況,因為資源放在一個位置顯然是不夠的。因此,當前的資源內(nèi)容需要多元化的表達符號和表達形式。
首先,本體的語言選擇已經(jīng)完全不同于傳統(tǒng)分類法和敘詞表的一般化概念,而是更強調(diào)本體底層的個體和屬性的表達,以便推出細節(jié)性知識;其次,本體語言的大量關(guān)系構(gòu)造語句致力于描述不同語言、不同表達形成的映射關(guān)聯(lián)。例如,在SKOS中,正式標簽(PrefLabel)、替代標簽(AltLabel)、隱藏標簽(HiddenLabel)、語種標記(以@language表示)表明了本體語言對多樣化的自然語言表達形式的關(guān)注和集成多種語種資源的意向[7]。這說明,本體的語言選擇雖然重視正式術(shù)語概念,但也同樣重視自然語言的多樣表達。因為多樣化的表達是分布式數(shù)據(jù)環(huán)境的普遍現(xiàn)象。要建立一個表達能力強大的本體,必須考慮資源或知識多樣化背后的語言或表達符號的多樣化。所以本體的語言選擇至少應把科學術(shù)語和自然語言、大眾標記同等看待。
2.2用戶資源需求的變化與本體形成的原則
大眾分類是在資源形成同時或之后形成標記符號的用戶的資源需求必須得到最充分的滿足。這種狀態(tài)為本體和知識系統(tǒng)的構(gòu)建開啟了新的視域。
(1)非學科性分類需求。大眾標注形成了一種新的分類需求,即非學科性分類需求。它追求的不一定是一個知識系統(tǒng),也許是一個日常的知識片斷或節(jié)點,這符合一般群體的知識需求。因為用戶群不可能是知識系統(tǒng)專家,他們熟悉的是某些或某個知識點。本體構(gòu)建雖然也是一個體系式的知識框架或系統(tǒng),然而不少本體的大部分用語是非學科的,即它可以構(gòu)建事務(wù)性的體系,或圍繞某一對象形成小型知識體系。所以,大部分本體可以滿足某個知識節(jié)點的細節(jié)性知識。例如,一個人及其朋友群,一個事物的關(guān)聯(lián)體,這使知識系統(tǒng)更加細化和具有日常性,從而能夠滿足人們工作性、事務(wù)性的需求。
(2)以達成用戶需求的目標為宗旨。用戶標注是資源形成的一部分,即標簽是為了完成用戶表達個人觀點的這種視角使表達系統(tǒng)更貼近資源本身,成為資源的一部分。本體表達符號也應該服從重視用戶表達的需求,使本體成為用戶群體樂意分享的概念和表達概念的工具。
(3)注重實用。用戶標注主要是圍繞個人關(guān)注的事物或觀念對資源進行標記,即它是為了表達和描述對象而建立的知識體系,所以注重個人實用是他們創(chuàng)建資源和標簽的目的。本體形成原則也應以實用為目標,注重用戶關(guān)注和用戶應用,以用戶組群的應用為建模目標。
(4)任務(wù)保障。用戶標注是為了完成表達個人資源參閱和利用同類資源的任務(wù)而參與標注活動的,用標簽表達個人的資源集,并聚合相關(guān)用戶的資源集,以實現(xiàn)任務(wù)因為用戶已經(jīng)擁有了個人的資源集合了。本體構(gòu)造的原則,也應圍繞領(lǐng)域任務(wù)進行。按此原則,領(lǐng)域詞匯的選擇及資源考察,應該成為建立本體的前提條件。在建立本體時,類概念的選取、劃分符號的粒度(粗細或大?。┻x擇等,都要考慮是否有利于完成某個領(lǐng)域用戶的任務(wù)。
2.3多元語義表達
用戶標注通常采用一件資源、多個標簽的方式,多方面表達用戶對資源的觀點。而在用戶組中,同一資源,標注的符號也可能完全不同。標簽過濾雖然以趨同為目標然而多用戶標注的結(jié)果是一件資源一般都有數(shù)個甚至十余個標簽(要依過濾后選取標準而定)。這意味著,多元表達是大眾分類的常態(tài)現(xiàn)象。多元表達也是分布式系統(tǒng)的基本特點,語義網(wǎng)就是針對多元表達提出的解決方案之一,分類法和敘詞表也是為了解決多元歧義而產(chǎn)生的。不過,傳統(tǒng)分類采取了“以一元代多元”的方案。敘詞法雖然把非敘詞關(guān)聯(lián)起來,但它的自然語言概念是“非用詞”,即一個沒有資源的“空集”。本體采取的是不同概念體系的關(guān)聯(lián)方法,即對于多元表達,本體技術(shù)采取了映射、集成、重用等方法,把異構(gòu)數(shù)據(jù)集成到一個目標本體內(nèi)。這種集成實現(xiàn)了不同概念或資源的平等共享,而不是代替。例如,在細節(jié)上,OWL2本體語言采用了注釋(annotation)屬性、聲明(declaration)、擴展等技術(shù),允許用戶添加自己的語義[8];SKOS除了擴展外,還允許用戶建立自己的分類體系。這些支持多元表達的技術(shù)可以讓應用軟件在處理時,構(gòu)建具有語義集成功能的數(shù)據(jù)集。本體的多元語義是基于海量分布式數(shù)據(jù)大量存在的現(xiàn)實而產(chǎn)生的,這為處理大規(guī)模分布式數(shù)據(jù)集、為用戶找到內(nèi)容上關(guān)聯(lián)的有用資源建立了有利條件。多元表達在大眾分類中的優(yōu)勢,是它能夠以平面結(jié)構(gòu)展示大量的概念路徑或查詢窗口,而在本體中,這應成為一種集成概念或關(guān)聯(lián)資源的技術(shù)。
基于大眾分類的本體,在某種意義上是一種新型本體,因為它是基于用戶創(chuàng)新的需求。也就是說,以大眾分類為基礎(chǔ)的分類本體需求要體現(xiàn)用戶標注的某些新特征。大眾分類本體模型采用“浮出語義”方法,盡可能地保留用戶資源和標記,只是在資源集、用戶組、標簽集、標注頻率等之間添加語義,在本體模型基礎(chǔ)上方便資源共享。新型分類本體也要保留用戶標注的某些特征,采用用戶語言并加以提煉和“修正”,以便本體保留更多民俗特征或大眾分類的功能,同時又具有一般知識本體的特征,以便與一般知識系統(tǒng)實現(xiàn)語義連接。
3.1基于用戶標注的詞語處理
(1)標簽的概念抽取。用戶標注的詞語有許多優(yōu)勢,首先是語義豐富,關(guān)聯(lián)的資源多;其次是語料多樣,表達全面。所以分類本體應在語言上擺脫過于學術(shù)化的傾向,盡量選取用戶標簽又不拘于用戶標簽,在原則上把用戶標簽當作抽取概念或類的“原料”。同時,標簽作為聯(lián)結(jié)資源的符號,要盡可能與概念聯(lián)系起來,這樣,類概念作為一個知識窗口,除了作為本體的一個知識實體(entitle)或節(jié)點(node)外,還可以是代表類資源的符號。
下頁圖1是豆瓣網(wǎng)上的一個經(jīng)過處理的標簽云(tag cloud)頁面[9],筆者以此為例討論用戶標簽的概念抽取問題。首先,筆者對圖1用戶標注的標簽進行了處理,把此頁面上截取的部分標簽分為三大類:加波浪線的標簽代表人名標簽,可以抽取為“藝術(shù)家”的概念類;斜體字的標簽代表“地區(qū)”或空間(spatial)類;加下劃線的標簽代表類型或題材類。此外,我們在標簽云頁面中,未截取的時間(temporality)標簽也要被考慮作為立類的一個面(facet)。最后,還要考慮用戶對電影的標記、介紹和評論資源,為此設(shè)一個類。這樣每部電影作為個體或本體類的一個實例,都具有空間、時間、題材(類型)、創(chuàng)作者、評論等屬性。這些屬性不但建構(gòu)了一部電影與各類概念的關(guān)系,而且全面描述了每部電影的拍攝國家、年代、演員和導演、題材(類型),這樣這個電影本體就全方位介紹了每部電影的全面知識。例如,《七宗罪》是大衛(wèi)·芬奇導演的作品,1995年上線,主要演員有布拉德·皮特、摩根·弗里曼、凱文·史派西、格溫妮斯·帕特洛、李·厄米、查爾斯·達頓,是美國制作的懸疑、驚悚、犯罪題材的經(jīng)典電影。不僅如此,每部電影根據(jù)題材可以歸入每個類型中,也可以集成到導演和明星名下,可以按國家、年代集成。這樣用戶無論從哪個角度查找,都可以找到想要的電影,而且都可以集成資源。這種優(yōu)勢是傳統(tǒng)分類技術(shù)無法比擬的。
由圖1可以觀察到:多元分類從查詢角度看,是為用戶開啟了多個查詢窗口;從本體來看,多元表達是一種多方面特征的語義表達,它不但為實體增加了多方面的、豐富的屬性關(guān)系,構(gòu)造了每個實體的集成資源,而且為每個實體添加了多方面的語義;應用軟件在處理時,會把語義描述的多方面資源集成到每個實體下。例如,每個導演實體,都集成了個人導演的作品;每個明星演員,都集成了他/她表演的個人作品。這在圖書分類時代幾乎是很難實現(xiàn)的,除非編制龐大的個人索引才能做到。而使用本體技術(shù),只要添加一些語義連接就可以實現(xiàn)大規(guī)模的知識集成[10]。
(2)標簽細化處理。除了抽取概念類,用戶標簽還需要歸并、規(guī)范或添加語義,使標簽概念明晰化和規(guī)范化。
圖1 用戶標注的“電影”標簽資料的處理
①標簽歸并。大量的用戶標簽和標簽組成的標簽云(一個大眾分類檢索窗口)是按照標注頻率選取出來的,有些標簽是重復的,有一個意思多種標記的,這就需要整合和歸并。例如,“動畫、動畫片、動畫短片、動漫、卡通”“同志、同性”“童話、童年”“日劇、日本、日本電影、日本動畫、日本動漫、日劇、日影”等,都只能歸并為一個規(guī)范詞,其他詞作為同義詞關(guān)聯(lián)起來(因為每個標簽都有資源)標簽;兼有地區(qū)和題材特征的標簽,一般要改變一下,使其既作為空間詞用,又作為題材(類型)用,如“美國動畫”,就是既屬于地區(qū)類,又屬于題材類。
②標簽規(guī)范并添加語義。標簽規(guī)范即為有歧義或為某些縮寫的標簽定義,或為標簽補足語義,有的還需要轉(zhuǎn)換概念。例如,“同性”指的“同性戀電影”,它與“同志”“gay”等同義又略有區(qū)別,“同志”“gay”均指男同性戀,但作為電影類型,區(qū)分不宜再細。再如,“3D”指“3D電影”或立體影片,“西部”特指美國的“西部電影”或以牛仔故事為題材的影片。某些簡稱需要在本體注釋(annotation)中添加定義,如“l(fā)es”是英文Lesbian的簡稱,即女同性戀;BBC是英國廣播公司拍攝的電影;OVA是原創(chuàng)動畫錄影帶(Original Video Animation)的簡稱,一般指通過DVD、藍光碟等影碟發(fā)行方式為主的劇集;HBO是Home Box Office的縮寫(直譯為家庭票房),是一家美國的付費有線和衛(wèi)星聯(lián)播網(wǎng),為時代華納公司所擁有并由Home Box Office公司負責營運。這些資料都要在本體注釋中說明,以幫助用戶和機器識別。
標簽處理后,形成了類(包括子類)、個體和屬性(屬性即類、子類和個體間的關(guān)系)。處理結(jié)果如圖2所示。
圖2 標簽處理后的類、個體和屬性
3.2本體框架與集成語法和語義
圖3是本體的基本框架及語義片斷。這個片斷的前三級表示等級關(guān)系,用“owl:subClassOf”語法描述子類和父類的關(guān)系,個體與類關(guān)系也可以用“owl:subClassOf”語法描述,不過Proé軟件允許在屬性中使用“type”語句將個體歸入父類;此外,對于個體與個體關(guān)系,用戶可以在Proté軟件的“objectProperty”中定義個體間的屬性關(guān)系。例如,在圖3中,“大衛(wèi)·芬奇”和“李安”分別導演(directs)了電影《七宗罪》和《色·戒》,“directs”就是關(guān)聯(lián)導演與其作品的屬性;我們還可以用“directed by”的“逆函數(shù)”(inverseOf)屬性把每部電影和它的導演聯(lián)系起來。同樣,每部電影可以關(guān)聯(lián)到“電影類型”中分別按地區(qū)、年代、題材劃分的類。這意味著,關(guān)于每部電影的制作地區(qū)、年代、類型、導演、演員、劇情等知識,都集中在每部電影名下,推理器可以方便地推出這些知識,這就是本體的作用之一,即它可以向用戶提供一個實體的全面知識[11]。另一方面,導演和演員也可以用屬性語法把每個人的電影作品集成到一起。同時,由于電影作品個體(每部電影)可以分別描述地區(qū)、年代、題材(類型)等類型特征,這意味著在本體中,每部電影可以在語義工具中從多個角度實現(xiàn)語義聚類和查詢,為從不同角度理解一部電影作品的用戶提供了在不同檢索途徑中聚類的窗口。
此外,大量的用戶標簽(見圖1)特別是同義和相關(guān)標簽,在本體中可以在多個方面聯(lián)系起來:一是同義標簽代表相同或同類的資源,可以用本體語法聯(lián)系起來。這種語義集成的最終目標是實現(xiàn)資源集成,這意味著,用戶不但可以查詢和共享自己的資源,而且可以分享別人標注的同類資源。二是同義標簽可以與本體概念類關(guān)聯(lián)起來,以便在本體類下集成標簽代表的用戶資源。例如,圖1中的“日劇”“日劇”“日本”“日本電影”“日影”都是同類或相近標簽,其中的“日劇”和“日劇”是中文繁簡體的不同表達,標注的資源是日本在電視上播放的電影,而“日本”指的是“日本電影”,與“日影”等是同義標簽。
圖3 電影本體語義圖
3.3類、個體和資源多元集成
在大眾分類法中,每個標簽都是一個查詢窗口,即每個標簽都是一次劃分標準。例如,當用戶給《七宗罪》標注了“懸疑”“犯罪”“驚悚”等標簽,這部作品就歸入了3個類型,即個體可以有多個“類”特征。而在本體中,雖然強調(diào)本體在概念上具有不同(difference)、清晰的特征,仍然定義了“等于類(equivalent classes)”“相同的個體(same individuals)”等語法,因為本體的重要任務(wù)是要在分布式數(shù)據(jù)集這樣的復雜環(huán)境中,關(guān)聯(lián)不同形式的概念和實例(instance),把它們代表的資源集成起來,實現(xiàn)共享和重用。對于大眾分類這樣的高度分布式環(huán)境,語義集成尤其重要,其有利于在語義意義上集成用戶標注這樣的大規(guī)模分布式數(shù)據(jù)集,而語義關(guān)聯(lián)是主要方法。
在W3C的“酒本體”文件中,“wine(果酒)”這個概念在不同類中設(shè)立,而且出現(xiàn)了“wine=wine”這樣的類名;同時,“酒本體”出現(xiàn)了許多邏輯交類[12]。這些例子說明,多元關(guān)聯(lián)是一種重要的本體技術(shù),如“美國電影”這個概念就是“美國”這個地區(qū)類與“電影”這個類的交集,即相交類(intersectional classes),這種相交語義可以組配成許多相關(guān)的類,如“美國懸疑電影”“美國導演”“美國演員”等具有多種語義的類概念。多語義或多特征的子類或個體,不是要為多特征的實體分組,而是為了給實體賦予更多的語義特征性知識。更重要的是,要為一個實體集成各種特征,而這些特征關(guān)聯(lián)到不同的個體,并不違背不相交類(disjoint class)的建模原理,因為關(guān)聯(lián)的是對象(個體或其他實體)的屬性,而并非使實體歸到其他類。OWL等本體語言描述的公理(axiom),可以使之成為語義工具的處理對象,并非在本體中成為另一類的對象[13]。
大眾分類對知識組織系統(tǒng)和其他本體的影響體現(xiàn)在許多方面,而最深遠的影響表現(xiàn)在3個方面:一是資源決定體系,即圍繞已有資源形成本體,數(shù)據(jù)狀態(tài)和數(shù)量以及本體任務(wù)、目標等因素將全面支配本體的類型、大小和結(jié)構(gòu),也就是說,服務(wù)資源決定本體。過去“文獻保證原則”實際上難以做到,因為大型知識體系是對學科和研究領(lǐng)域的粗略評估,很難全面貫徹這個原則。二是用戶因素,用戶將確定分類法、敘詞表等本體的類型和大小,因為本體主要是為特定用戶服務(wù)的,所以自然語言、用戶標注將成為知識組織的重要詞匯[14]。三是分布式資源和用戶標注造成的語義難題,使語義聚合和集成變得越來越重要,成為處理分布數(shù)據(jù)和多樣表達的關(guān)鍵技術(shù);所以在本體中關(guān)聯(lián)不同標簽,從而實現(xiàn)按語義規(guī)則聚合內(nèi)容成為關(guān)鍵的手段,而語義技術(shù)將成為新一代知識框架能夠?qū)崿F(xiàn)目標的有力工具,它將改變知識組織系統(tǒng)的結(jié)構(gòu)、表達能力和規(guī)則,從而為它的創(chuàng)新奠定堅實基礎(chǔ)。
[1]Subasi I, Berend B. Topical Structure Discovery in Folksonomies [EB/OL].[2015-06-08].http://www.kde.cs.uni-kassel.de/ws/ wbbtmine2008/pdf/3.pdf.
[2]王真星, 但唐仁, 葉長青, 等.本體集成研究[J].計算機工程, 2007, 33(2):4-5,33.
[3]陳 遙, 李 珊, 厲 浩. 一種基于ontology的數(shù)據(jù)集成系統(tǒng)[J].計算機工程, 2007,33(23):90-93,64.
[4]W3C. SKOS Simple Knowledge Organization System Reference [EB/OL]. [2014-10-23].http://www.w3.org/TR/2009/REC-skos-reference-20090818/.
[5]John H, Matthew F, Ryan B, et al . Web3.0與Semantic Web編程[M]. 唐富年, 唐榮年, 譯. 北京:清華大學出版社, 2010:292-296, 298-306.
[6]W3C. OWL2 Web Ontology Language New Features and Rationale [EB/OL]. [2014-09-13]. http://www.w3.org/TR/2009/ REC-owl2-new-features-20091027.
[7]W3C. OWL2 Web Ontology Language Primer [EB/OL]. [2014-11-18]. http://www.w3.org/TR/2009/REC-owl2-primer-20091027/.
[8]W3C. SKOS Simple Knowledge Organization System Reference [EB/OL].[2014-06-09]. http://www.w3.org/TR/2009/REC-skos-refrence-20090818/.
[9]豆瓣網(wǎng). 電影標簽云[EB/OL].[2015-07-21]. http://movie. douban.com/tag/?view=cloud.
[10]高小龍, 朱信忠, 趙建民,等. 電影本體的構(gòu)建與一致性分析[J].計算機應用, 2014,34(8):2192-2196, 2201.
[11]Bouquet P, Serafini L, Zanobini S. Semantic Coordination: A New Approach and an Application[C]. Sanibel Island,Florida, USA:In Proceedings of ISWC, 2003:130-145.
[12]W3C.Wine Ontology[EB/OL].[2015-05-12].http://www.w3.org/ TR/2003/PR-owl-guide-20031209/wine/.
[13]薛春香, 喬曉東, 朱禮軍. 基于集成的領(lǐng)域知識組織系統(tǒng)構(gòu)建初探[J]. 現(xiàn)代圖書情報技術(shù), 2009(11):29-33.
[14]毛 軍. 基于RDF的敘詞表研究[J]. 情報學報, 2003(4): 163-168.
白 華 男,1955年生,博士,鄭州大學信息管理學院教授,主要研究方向為信息語義組織與本體。
Innovation Research on Ontology Framework and Knowledge Organization System Extracting from the User Tagging
In view of user tagging's weakness, constructing ontology framework and endowing lable with rich semantic based on the label, could help to improve the performance of knowledge organization system. With the support of a large number of tag data, the extraction of knowledge framework is an effective method to build ontology framework. The extraction methods mainly take the method of characteristic or attribute generalization. That is, in view of common features of a class of label extracting their upper concepts, and according to the relationship among the upper concepts the knowledge frame is established. Through analyzing compatible ontology which constructs based on the semantic analysis of the two systems and integrating labels and concept ontology, we could find that it absorbs characteristics of the user tagging of flexiblity, diversity and strong expression, improves organization skills and indexing functions of the knowledge organization system; meanwhile, it also improves the semantic ability of user tagging system which make it with rich structure and semantic expressive function.
User tagging; Ontology framework extracting; Knowledge organization system
G254.29
A
2015-08-06 ]
*本文系國家社會科學基金項目“大眾分類法本體構(gòu)建與集成映射研究”的成果之一,項目編號:10BTQ017。