衛(wèi)宇輝
網(wǎng)絡(luò)文獻(xiàn)作為各類文章的載體,聚集了許多關(guān)聯(lián)度較低的學(xué)術(shù)信息資源,利用傳統(tǒng)的數(shù)字化手段無法形成規(guī)范化的知識(shí)系統(tǒng),導(dǎo)致學(xué)術(shù)信息檢索困難、精確度不高[1]。隨著網(wǎng)絡(luò)信息資源的快速更新、文獻(xiàn)實(shí)體內(nèi)容的不斷變更以及文獻(xiàn)數(shù)據(jù)庫(kù)的逐漸豐富,如果缺乏對(duì)文獻(xiàn)編目數(shù)據(jù)的及時(shí)更新,則會(huì)直接影響文獻(xiàn)檢索的精準(zhǔn)度。書目關(guān)系是一種能夠描述信息資源形態(tài)特征和內(nèi)容特征的書目記錄間關(guān)系,是促進(jìn)信息資源內(nèi)容深化、結(jié)構(gòu)序化的主要途徑[2]。因此,建立規(guī)范化的書目數(shù)據(jù)、挖掘書目之間的關(guān)系是實(shí)現(xiàn)文獻(xiàn)書目自動(dòng)更新的重要基礎(chǔ),對(duì)于文獻(xiàn)資源檢索、讀者服務(wù)、文獻(xiàn)資源建設(shè)具有重大意義。
目前,信息資源聚合作為知識(shí)服務(wù)領(lǐng)域中的重要基礎(chǔ),已成為國(guó)內(nèi)外信息組織與檢索領(lǐng)域探討的熱門話題,國(guó)內(nèi)外學(xué)者開展了大量相關(guān)研究并取得了顯著成果,例如信息資源聚合的概念及相關(guān)理論[3,4]、信息資源聚合的效果評(píng)估[5,6]、信息資源聚合手段和技術(shù)[7,8]、信息資源聚合的應(yīng)用[9,10]等。而實(shí)現(xiàn)網(wǎng)絡(luò)信息資源聚合的關(guān)鍵問題在于從細(xì)粒度層面深入挖掘信息資源之間的關(guān)聯(lián)及特征,現(xiàn)有的細(xì)粒度網(wǎng)絡(luò)學(xué)術(shù)資源研究主要集中在關(guān)聯(lián)數(shù)據(jù)[11-13]、知識(shí)元[14,15]、粒度劃分[16,17]等層面,這些研究為細(xì)粒度網(wǎng)絡(luò)學(xué)術(shù)資源的抽取、識(shí)別與關(guān)聯(lián)分析奠定了理論基礎(chǔ)。但關(guān)于細(xì)粒度網(wǎng)絡(luò)學(xué)術(shù)資源的劃分研究側(cè)重于從形式結(jié)構(gòu)的角度出發(fā)來構(gòu)建元數(shù)據(jù)框架[18],基于邏輯結(jié)構(gòu)劃分細(xì)粒度網(wǎng)絡(luò)學(xué)術(shù)資源的研究較少,同時(shí)也缺乏相應(yīng)的元數(shù)據(jù)描述標(biāo)準(zhǔn)。在專題數(shù)據(jù)庫(kù)開發(fā)中,書目的著錄會(huì)以資源類別(比如圖書以種類區(qū)分、期刊以刊名區(qū)分)為最小單元,無法充分揭示書目的內(nèi)容特征、學(xué)術(shù)價(jià)值和發(fā)揮專題數(shù)據(jù)庫(kù)的文獻(xiàn)整合利用功能,易于造成數(shù)據(jù)冗余。而基于邏輯結(jié)構(gòu)劃分細(xì)粒度的網(wǎng)絡(luò)學(xué)術(shù)資源,則會(huì)遵循“有利于檢索發(fā)現(xiàn),有利于讀者使用,有利于提高開發(fā)效率”原則,根據(jù)實(shí)際情況選擇 “章節(jié)”或者“篇”為最小著錄單元,然后再以邏輯關(guān)系進(jìn)行組配,實(shí)現(xiàn)細(xì)粒度書目數(shù)據(jù)的自動(dòng)化整合。因此,本文對(duì)以下問題進(jìn)行了探索:(1)如何基于邏輯結(jié)構(gòu)和形式結(jié)構(gòu)劃分細(xì)粒度聚合單元;(2)如何構(gòu)建反映多類型網(wǎng)絡(luò)文獻(xiàn)資源信息單元層級(jí)的信息組織框架;(3)如何定義信息組織框架中的知識(shí)概念、關(guān)系,揭示聚合單元與實(shí)體之間的關(guān)聯(lián);(4)細(xì)粒度網(wǎng)絡(luò)資源聚合模式下的檢索效果如何。針對(duì)這些問題,本文通過設(shè)計(jì)細(xì)粒度聚合單元元數(shù)據(jù)框架,建立了聚合單元元數(shù)據(jù)框架下的細(xì)粒度信息組織模型并基于元數(shù)據(jù)框架構(gòu)建了書目擴(kuò)展關(guān)系的映射方案,實(shí)現(xiàn)細(xì)粒度書目數(shù)據(jù)的聚合,通過設(shè)計(jì)檢索任務(wù)檢驗(yàn)效果,為細(xì)粒度聚合單元環(huán)境下的書目分析提供了一定的理論基礎(chǔ)。
目前,大多數(shù)元數(shù)據(jù)方案主要基于書目關(guān)系來實(shí)現(xiàn)對(duì)文獻(xiàn)資源的聚合與檢索,集中于對(duì)可檢索書目資源的揭示與關(guān)聯(lián),較少關(guān)注文獻(xiàn)資源實(shí)體及其內(nèi)容組織結(jié)構(gòu)。結(jié)合文獻(xiàn)資源的內(nèi)容組織與知識(shí)單元,本文以文獻(xiàn)資源的邏輯結(jié)構(gòu)、形式結(jié)構(gòu)及不同知識(shí)單元之間的關(guān)系為依據(jù),劃分出不同層級(jí)的聚合單元,拓展元數(shù)據(jù)設(shè)計(jì)方案,豐富書目資源聚合與檢索方式,從而實(shí)現(xiàn)基于書目關(guān)系與文獻(xiàn)知識(shí)單元的書目資源聚合功能。
(1)節(jié)段單元
節(jié)段單元是指根據(jù)文獻(xiàn)框架與邏輯思路對(duì)文章內(nèi)容進(jìn)行劃分得到的結(jié)果[19]。劃分文獻(xiàn)節(jié)段單元的價(jià)值體現(xiàn)在三個(gè)方面:(1)讓讀者能夠根據(jù)文獻(xiàn)各級(jí)標(biāo)題了解全文的組織結(jié)構(gòu),從而判斷該文獻(xiàn)與自身實(shí)際需求是否相符;(2)幫助讀者快速檢索所需的段落內(nèi)容并進(jìn)行精確定位,節(jié)省信息資源查找時(shí)間;(3)用文獻(xiàn)各級(jí)標(biāo)題的關(guān)鍵詞來描述節(jié)段單元主題,有利于文獻(xiàn)主題聚合功能的實(shí)現(xiàn)。
(2)句群?jiǎn)卧?/p>
句群?jiǎn)卧獎(jiǎng)t是指具備修辭目的的語(yǔ)篇結(jié)構(gòu)。信息資源句群?jiǎn)卧膭澐忠泽w裁和體裁分析為主要依據(jù),體裁是指社會(huì)交際活動(dòng)的分類,例如學(xué)術(shù)論文、新聞報(bào)道、法律文件等;體裁分析是指從體裁角度出發(fā),通過深層解析特定語(yǔ)篇的微觀結(jié)構(gòu)和宏觀結(jié)構(gòu)來掌握語(yǔ)篇的特定認(rèn)知結(jié)構(gòu)。由于不同類型文獻(xiàn)體裁的分析結(jié)果各不相同,必須綜合語(yǔ)篇的交際功能與話語(yǔ)意圖進(jìn)行體裁分析。本文選取開源期刊論文進(jìn)行體裁分析,以CARS模型為基礎(chǔ)[20],進(jìn)行句群?jiǎn)卧獎(jiǎng)澐?。Swales在1990年提出引言結(jié)構(gòu)分析模型,即CARS(Create a Research Space)模型,包括確定研究領(lǐng)域、確定研究定位、把握研究契機(jī)3個(gè)語(yǔ)步(move),以及相應(yīng)語(yǔ)步的步驟(step)。語(yǔ)步是作者寫作目的的總體概況,步驟是為實(shí)現(xiàn)語(yǔ)步目的的詳細(xì)描述。以《結(jié)合地理信息的引文分析研究現(xiàn)狀》(魯超、劉清,《情報(bào)科學(xué)》2011年第2期)為例,該文屬于非實(shí)證型,論文組件包括介紹、理論分析、論證及結(jié)論,介紹部分的語(yǔ)輪/語(yǔ)步劃分結(jié)果如表 1 所示。
表1 語(yǔ)輪/語(yǔ)步劃分結(jié)果
文獻(xiàn)的形式結(jié)構(gòu)包括摘要、圖標(biāo)、正文及參考文獻(xiàn)等組成要素。本研究通過分析文獻(xiàn)的形式結(jié)構(gòu)對(duì)不同組成要素進(jìn)行拆分,并將反映文獻(xiàn)外部特征的要素(摘要、標(biāo)題、作者、關(guān)鍵詞、機(jī)構(gòu)、參考文獻(xiàn)等)作為文獻(xiàn)元數(shù)據(jù)信息,通過解析論文正文部分,對(duì)圖表、句群進(jìn)行抽取,經(jīng)過邏輯結(jié)構(gòu)分析后得到由句群?jiǎn)卧?、?jié)段單元組成的細(xì)粒度聚合單元。文獻(xiàn)中的圖表通常概括了全文的重點(diǎn)研究?jī)?nèi)容,是對(duì)文獻(xiàn)主要觀點(diǎn)的形象描述,圖表的提取對(duì)于文獻(xiàn)資源聚合及檢索具有重要作用。但對(duì)圖表單元必須給予相應(yīng)的描述以便于用戶理解,可以將主題明顯的、能夠解釋圖表的句群?jiǎn)卧c圖表單元標(biāo)題進(jìn)行關(guān)聯(lián)匹配,從而為圖表提供相應(yīng)的情境信息。
綜合文獻(xiàn)的邏輯分析及形式分析結(jié)果可知,語(yǔ)篇單元、句群?jiǎn)卧?、圖表單元及節(jié)段單元共同構(gòu)成了細(xì)粒度網(wǎng)絡(luò)文獻(xiàn)資源的聚合單元,這些分布于不同層級(jí)的聚合單元之間均存在一定關(guān)系[21],篇章單元包含圖表單元、節(jié)段單元和功能單元,且都是一對(duì)多的關(guān)系:圖表單元需要篇章單元和具有相對(duì)完整意義的相關(guān)句群?jiǎn)卧M(jìn)行解釋。因此,圖表單元需要與提及該圖或表的句群?jiǎn)卧嚓P(guān)聯(lián),由于可能存在不止一個(gè)句群?jiǎn)卧峒皥D或表的情況,句群?jiǎn)卧部赡懿恢惶岬揭粋€(gè)圖或表,所以圖表單元與功能單元是多對(duì)多的關(guān)系:從形式結(jié)構(gòu)上看,句群?jiǎn)卧诠?jié)段單元之中。節(jié)段單元與句群?jiǎn)卧且粚?duì)多的關(guān)系,節(jié)段單元可以指示句群?jiǎn)卧诘奈锢砗瓦壿嫿Y(jié)構(gòu)位置。如圖1所示。
本研究中聚合單元屬性特征及其包含的元素分別有復(fù)用DC元數(shù)據(jù)元素、LOM元數(shù)據(jù)元素以及新增元素:(1)復(fù)用LOM元數(shù)據(jù)。LOM元數(shù)據(jù)中的粗粒度聚合單元能夠重新組合、復(fù)用,符合本文的元數(shù)據(jù)研究目的。(2)復(fù)用DC元數(shù)據(jù)。本研究包括細(xì)粒度聚合單元和粗粒度聚合單元,復(fù)用DC元數(shù)據(jù)具備較好的可移植性和訪問屬性。(3)新增元素。為充分描述聚合單元的屬性特征還應(yīng)對(duì)特征獨(dú)特的新增元素進(jìn)行分析。語(yǔ)篇單元的新增元素包括“體裁類型”“相關(guān)信息”,期刊論文按照理論、實(shí)證、綜述進(jìn)行分類能夠幫助用戶查找其所需的文獻(xiàn)資料,因此需要增加“體裁類型”元素。另外,新增“聚合層級(jí)”元素來描述句群?jiǎn)卧c節(jié)段單元所處的層級(jí)位置,以揭示不同細(xì)粒度聚合單元之間的關(guān)聯(lián),從而實(shí)現(xiàn)細(xì)粒度元數(shù)據(jù)聚合。
圖1 不同層級(jí)聚合單元的關(guān)系
圖2 細(xì)粒度聚合單元元數(shù)據(jù)框架
語(yǔ)義元數(shù)據(jù)、訪問元數(shù)據(jù)及物理元數(shù)據(jù)共同組成元數(shù)據(jù)框架(見圖2),分別描述聚合單元的內(nèi)容特征、外部特征及物理形態(tài)。訪問元數(shù)據(jù)核心元素包括來源、標(biāo)識(shí)、關(guān)鍵詞,語(yǔ)篇單元特定元素包括作者、時(shí)間、分類、語(yǔ)言類型、資源類型、相關(guān)信息、體裁類型,圖表單元特定元素為描述,資源類核心元素為標(biāo)題;語(yǔ)義元數(shù)據(jù)資源類核心元素為話語(yǔ)意圖,句群?jiǎn)卧囟ㄔ貫檎Z(yǔ)義功能;物理元數(shù)據(jù)核心元素包括存儲(chǔ)位置、聚合層次,圖表單元特定元素為圖表類型,節(jié)段單元特定元素為節(jié)段單元層級(jí)。
下面以各類元數(shù)據(jù)的具體某一元素為例介紹其對(duì)應(yīng)的著錄方式,具體內(nèi)容如表2所示。
表2 元數(shù)據(jù)著錄方式
本文基于支持知識(shí)發(fā)現(xiàn)的聚合單元元數(shù)據(jù)框架設(shè)計(jì)了細(xì)粒度信息聚合的知識(shí)組織框架,如圖3所示。該模型主要包括五個(gè)步驟:(1)資源采集與預(yù)處理。采集信息資源的主題及非主題特征并對(duì)其進(jìn)行規(guī)范性描述。(2)識(shí)別主題與聚合單元。識(shí)別不同粒度聚合單元的主題,根據(jù)體裁分析結(jié)果劃分聚合單元。(3)構(gòu)建聚合單元本體。構(gòu)建用于聚合處理和語(yǔ)義描述的知識(shí)體系。(4)資源描述。根據(jù)聚合單元本體識(shí)別聚合單元語(yǔ)義并進(jìn)行標(biāo)注,形成多維復(fù)合的語(yǔ)義概念。(5)聚合與呈現(xiàn)。將與用戶需求語(yǔ)義相匹配的聚合單元進(jìn)行重組,進(jìn)行可視化呈現(xiàn),實(shí)現(xiàn)交互功能。
圖3 基于聚合單元元數(shù)據(jù)框架的知識(shí)組織模型
在細(xì)粒度聚合單元元數(shù)據(jù)框架下,聚合單元元數(shù)據(jù)是信息組織的基本單元。在細(xì)粒度聚合過程中,元數(shù)據(jù)是描述各層級(jí)聚合單元、關(guān)聯(lián)聚合單元、揭示文檔粒度屬性的重要工具,對(duì)聚合單元元數(shù)據(jù)進(jìn)行標(biāo)注是實(shí)現(xiàn)細(xì)粒度信息聚合的重要基礎(chǔ)[22]。在對(duì)不同層級(jí)聚合單元進(jìn)行標(biāo)注時(shí),根據(jù)細(xì)粒度聚合單元本體所屬層級(jí)構(gòu)建數(shù)據(jù)庫(kù)表,并結(jié)合語(yǔ)義元數(shù)據(jù)、物理元數(shù)據(jù)以及訪問元數(shù)據(jù)的屬性特征設(shè)置相應(yīng)的字段。同時(shí)結(jié)合語(yǔ)篇單元、句群?jiǎn)卧⒐?jié)段單元對(duì)應(yīng)數(shù)據(jù)庫(kù)表之間的關(guān)聯(lián),確定表與表之間的關(guān)系,如圖4所示。
圖4 不同層級(jí)聚合單元標(biāo)注與索引數(shù)據(jù)表
聚合單元元數(shù)據(jù)通常采用XML技術(shù)進(jìn)行標(biāo)注,利用由陳述、資源、屬性組成的RDF數(shù)據(jù)模型來描述元數(shù)據(jù)信息,RDF數(shù)據(jù)模型除了具備語(yǔ)義互操作功能外,還能在與元數(shù)據(jù)交換過程中保持其語(yǔ)義不變[23]。在劃分不同層級(jí)的細(xì)粒度聚合單元后,本文根據(jù)聚合單元本體實(shí)現(xiàn)語(yǔ)義標(biāo)注,按照聚合單元層級(jí)組織相互關(guān)聯(lián)的細(xì)粒度元數(shù)據(jù)來形成知識(shí)體系,為文檔檢索奠定基礎(chǔ)。
圖5 基于聚合單元元數(shù)據(jù)框架的細(xì)粒度信息語(yǔ)義組織模型
基于聚合單元元數(shù)據(jù)框架及其知識(shí)組織模型,以及細(xì)粒度聚合環(huán)境下聚合本體的語(yǔ)義聚合原理,本文構(gòu)建了細(xì)粒度信息語(yǔ)義組織模型,如圖5所示。在細(xì)粒度信息語(yǔ)義組織模型中,將網(wǎng)絡(luò)信息資源劃分為不同層級(jí)的聚合單元后,通過聚合單元屬性提取、元數(shù)據(jù)標(biāo)注及索引來構(gòu)建細(xì)粒度聚合本體,將具有語(yǔ)義關(guān)聯(lián)的單元聚合在一起,形成豐富的復(fù)合本體,為用戶提供實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián)的網(wǎng)絡(luò)信息資源。
(1)基于元數(shù)據(jù)的書目關(guān)系擴(kuò)展
為解決現(xiàn)有元數(shù)據(jù)方案在書目關(guān)系擴(kuò)展上的局限性,本文將實(shí)體資源劃分為資源、主題、人、機(jī)構(gòu)以及地點(diǎn)等類別,各個(gè)實(shí)體均具有自身屬性和屬性值,例如人的屬性包括性別、姓名、出生日期、國(guó)籍、所屬機(jī)構(gòu)、作品等;地點(diǎn)的屬性包括城鎮(zhèn)、地區(qū)、國(guó)家等;機(jī)構(gòu)的屬性包括地區(qū)、作品、員工等;書目資源的屬性包括標(biāo)題、名稱、出版社、類型、責(zé)任者、語(yǔ)言、版權(quán)、標(biāo)識(shí)號(hào)、來源等;主題的屬性包括責(zé)任者、概念外鏈、上/下位主題等。對(duì)實(shí)體及其屬性的劃分有利于區(qū)分各類資源的表現(xiàn)形式,實(shí)現(xiàn)具有相同屬性的實(shí)體之間的關(guān)聯(lián)。
根據(jù)書目關(guān)系中的實(shí)體及其屬性,可建立基于聚合單元元數(shù)據(jù)的書目關(guān)系擴(kuò)展框架。通過對(duì)實(shí)體關(guān)系進(jìn)行擴(kuò)展,發(fā)現(xiàn)各個(gè)實(shí)體之間、實(shí)體屬性之間、實(shí)體與實(shí)體屬性之間均存在一定的關(guān)聯(lián),即不同層次的書目關(guān)系?;谠獢?shù)據(jù)的書目關(guān)系分類體系(如表3所示)反映了各實(shí)體之間的關(guān)聯(lián),該關(guān)聯(lián)是擴(kuò)展書目關(guān)系的重要基礎(chǔ),有利于實(shí)現(xiàn)對(duì)實(shí)體與屬性之間、實(shí)體屬性之間的關(guān)系擴(kuò)展,從而在書目檢索過程中關(guān)聯(lián)更多與檢索條目相關(guān)的實(shí)體和屬性。
(2)基于元數(shù)據(jù)的書目關(guān)系擴(kuò)展映射
根據(jù)元數(shù)據(jù)框架擴(kuò)展元數(shù)據(jù)書目關(guān)系后,需要設(shè)計(jì)相應(yīng)的映射方案,以直觀地呈現(xiàn)以關(guān)系為主線的資源描述結(jié)果。鑒于目前圖書館采用的書目編目方案以MARC格式為主,本文以CNMARC為例分析其擴(kuò)展書目關(guān)系與字段的映射情況,表4介紹了部分實(shí)體之間的關(guān)系,反映了書目與機(jī)構(gòu)、人、書目、地點(diǎn)、主題等實(shí)體之間的關(guān)系和字段對(duì)應(yīng)情況。
表3 基于元數(shù)據(jù)的書目關(guān)系分類體系
表4 基于CNMARC的擴(kuò)展書目關(guān)系及字段映射方案
(3)實(shí)例分析
本文以MARC記錄為例(如圖6所示),根據(jù)CNMARC的擴(kuò)展書目關(guān)系及字段映射方案分析其關(guān)系的層次與構(gòu)成。通過解析MARC記錄發(fā)現(xiàn)存在兩個(gè)層級(jí)關(guān)系,分別為實(shí)體與屬性之間的關(guān)系和實(shí)體與實(shí)體之間的關(guān)系。其中,“信息組織”的出版日期為“20040928”,該書目的標(biāo)識(shí)符為“413頁(yè)”“7-04-015340-8”,分別體現(xiàn)了200$a與010$a、200$d之間、200$a與210$d之間的關(guān)系,反映了實(shí)體與實(shí)體屬性間的關(guān)系;“高等教育出版社”與“信息組織”、“戴維民”與“信息組織”分別存在出版關(guān)系和創(chuàng)作關(guān)系,“高等學(xué)?!弊鳛椤靶畔⒐芾怼钡南挛恢黝},分別體現(xiàn)了200$a與200$f、200$a與210$c、690$a與690$x之間的關(guān)系。
圖6 MARC記錄
書目數(shù)據(jù)聚合涉及信息層、數(shù)據(jù)層和知識(shí)層,書目數(shù)據(jù)的聚合機(jī)制反映了文獻(xiàn)的內(nèi)部特征及外部聯(lián)系。從內(nèi)部特征來看,不僅包括文獻(xiàn)的題名及基本內(nèi)容信息,還包括文獻(xiàn)的轉(zhuǎn)載信息、出版信息、收錄情況等;從外部組織關(guān)系來看,反映了文獻(xiàn)資源之間的從屬關(guān)系、引用關(guān)系以及作者、機(jī)構(gòu)、標(biāo)題、內(nèi)部主題和發(fā)行卷期等概念性內(nèi)在關(guān)系。
細(xì)粒度聚合環(huán)境下,數(shù)據(jù)層實(shí)現(xiàn)對(duì)多源異構(gòu)書目數(shù)據(jù)的整合,參考相關(guān)標(biāo)準(zhǔn)對(duì)文獻(xiàn)元數(shù)據(jù)進(jìn)行設(shè)置、著錄、標(biāo)注和審校,從內(nèi)部信息及外部關(guān)系來揭示文獻(xiàn)特征,搜集期刊的影響因子、刊物信息描述、期刊收錄情況、投稿指南、期刊分類信息等數(shù)據(jù)作為聚合的數(shù)據(jù)基礎(chǔ);信息層實(shí)現(xiàn)對(duì)書目數(shù)據(jù)的序化,通過建立元數(shù)據(jù)方案對(duì)信息資源進(jìn)行規(guī)范化描述,揭示數(shù)據(jù)的外在關(guān)聯(lián)及內(nèi)部特征,該過程需要利用聚合本體或RDA、MARC、DC、LOM等元數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注,實(shí)現(xiàn)書目數(shù)據(jù)的語(yǔ)義關(guān)聯(lián);知識(shí)層利用基于聚合單元元數(shù)據(jù)的細(xì)粒度知識(shí)組織體系來揭示實(shí)體之間的聯(lián)系及本質(zhì)特征。
在書目數(shù)據(jù)聚合過程中,首先利用分類法與敘詞表劃分期刊文獻(xiàn)的細(xì)粒度聚合單元,建立基于聚合單元的元數(shù)據(jù)框架;然后,采用語(yǔ)義網(wǎng)技術(shù)對(duì)邏輯關(guān)系進(jìn)行定義,根據(jù)不同層級(jí)聚合單元之間的邏輯關(guān)系深入描述元數(shù)據(jù)屬性并進(jìn)行語(yǔ)義規(guī)范;最后,結(jié)合關(guān)聯(lián)數(shù)據(jù)建立文獻(xiàn)關(guān)聯(lián),實(shí)現(xiàn)細(xì)粒度信息聚合。該過程實(shí)現(xiàn)了數(shù)據(jù)層、信息層與知識(shí)層的有效聚合,形成了發(fā)現(xiàn)知識(shí)的聚合本體,從而為文獻(xiàn)資源的關(guān)聯(lián)發(fā)現(xiàn)、語(yǔ)義檢索及導(dǎo)航檢索奠定了基礎(chǔ)。
聚合單元元數(shù)據(jù)框架下細(xì)粒度信息語(yǔ)義組織模型通過以下結(jié)構(gòu)層次來實(shí)現(xiàn)書目數(shù)據(jù)聚合,如圖7所示。該聚合機(jī)制的原理在于:利用書目數(shù)據(jù)對(duì)期刊資源核心元素進(jìn)行附注,比較分析期刊資源間的關(guān)聯(lián)度與內(nèi)部特征,從而實(shí)現(xiàn)期刊資源在不同信息層面的聚合。在現(xiàn)實(shí)應(yīng)用中,可借助元數(shù)據(jù)關(guān)聯(lián)技術(shù)實(shí)現(xiàn)多層級(jí)知識(shí)檢索系統(tǒng)的設(shè)計(jì)與開發(fā),這有利于資源獲取與知識(shí)的自動(dòng)發(fā)現(xiàn),能夠?yàn)樾畔z索與利用提供更便捷、快速的途徑。
圖7 書目聚合層次與書目框架實(shí)體的關(guān)聯(lián)
該聚合機(jī)制中包含兩個(gè)層級(jí)結(jié)構(gòu):(1)基于細(xì)粒度信息單元屬性及語(yǔ)義關(guān)聯(lián)建立文獻(xiàn)資源數(shù)據(jù)。在實(shí)體-屬性書目關(guān)系體系下,根據(jù)實(shí)體之間的關(guān)聯(lián)及其自身屬性來組織文獻(xiàn)資源編目數(shù)據(jù),對(duì)不同層級(jí)聚合單元的核心元素進(jìn)行語(yǔ)義描述,建立規(guī)范化書目數(shù)據(jù)。期刊書目編目過程中,對(duì)編目工作涉及的主題標(biāo)引、版本項(xiàng)、發(fā)行項(xiàng)、附注項(xiàng)、文獻(xiàn)題名、標(biāo)準(zhǔn)編號(hào)、載體形態(tài)項(xiàng)以及獲得方式項(xiàng)進(jìn)行描述與著錄,重新編排書目數(shù)據(jù),再根據(jù)這些內(nèi)容分析期刊資源的再版、改名、流傳等情況。(2)利用書目數(shù)據(jù)聚合文獻(xiàn)資源。一是運(yùn)用資源表征描述實(shí)現(xiàn)資源的數(shù)據(jù)層聚合,將書目數(shù)據(jù)置于更加廣泛的網(wǎng)絡(luò)環(huán)境中,使不同語(yǔ)言形式和包裝形式的書目元數(shù)據(jù)都能在國(guó)際范圍內(nèi)展現(xiàn),從而形成具有較強(qiáng)關(guān)聯(lián)的元數(shù)據(jù)系統(tǒng),為增強(qiáng)資源學(xué)科分類屬性、促進(jìn)信息層關(guān)聯(lián)聚合奠定基礎(chǔ)。二是借助元數(shù)據(jù)本體實(shí)現(xiàn)資源的信息層聚合,結(jié)合用戶任務(wù)建立核心元素集合,從而提供目次表跳轉(zhuǎn)、關(guān)鍵詞檢索以及跟隨鏈接等服務(wù)。三是利用標(biāo)準(zhǔn)詞表實(shí)現(xiàn)資源的知識(shí)層聚合,運(yùn)用學(xué)科內(nèi)容定制、學(xué)科知識(shí)索引、資源推薦與導(dǎo)航等元素,促進(jìn)期刊資源在知識(shí)層面上的聚合,為用戶提供語(yǔ)義檢索、關(guān)聯(lián)發(fā)現(xiàn)、文獻(xiàn)索引等知識(shí)服務(wù)。
在傳統(tǒng)的粗粒度文獻(xiàn)檢索模式下,由于書目資源之間的關(guān)聯(lián)度較低,且內(nèi)在內(nèi)容邏輯聯(lián)系分散,導(dǎo)致書目資源無序排列在文獻(xiàn)中,檢索主要通過選擇對(duì)應(yīng)類型的數(shù)據(jù)庫(kù)來獲取部分?jǐn)?shù)據(jù);而在細(xì)粒度聚合環(huán)境下,通過書目資源的關(guān)聯(lián)聚合就能實(shí)現(xiàn)語(yǔ)義檢索,精確獲取目標(biāo)數(shù)據(jù)。因此,在書目資源細(xì)粒度聚合模式下信息檢索流程可細(xì)化為以下五步:
第一步,確定檢索詞匯。用戶根據(jù)其所需資源選取適當(dāng)?shù)臋z索詞匯,表達(dá)檢索對(duì)象的主題、作者、標(biāo)題、類型等信息。本文以“愛迪生”為檢索詞,分析細(xì)粒度信息聚合機(jī)制下的信息檢索途徑。第二步,識(shí)別檢索點(diǎn)。該過程通過構(gòu)建基于細(xì)粒度聚合單元的元數(shù)據(jù)標(biāo)準(zhǔn),提高識(shí)別書目資源的可視化程度,對(duì)檢索實(shí)體進(jìn)行識(shí)別,篩選出具有相似特征的實(shí)體。由“愛迪生”確定檢索實(shí)體為“Thomas Alva Edison”,中文名為托馬斯·阿爾瓦·愛迪生,發(fā)明家、企業(yè)家,擁有四大發(fā)明。根據(jù)該描述實(shí)體,識(shí)別出“愛迪生的發(fā)明”“愛迪生人物故事介紹”“愛迪生發(fā)明與專利介紹”等類型的文章。第三步,選擇目標(biāo)源。根據(jù)用戶需求選取載體、內(nèi)容、來源均能符合其需求的資源。在細(xì)粒度信息聚合模式下,書目檢索資源包含各種載體形式、出版形式的信息資源,因此對(duì)于“愛迪生”這一檢索詞,目標(biāo)源可以設(shè)置為報(bào)紙、增刊、正刊、會(huì)議集等形式。第四步,獲取資源。通過細(xì)粒度信息聚合模式實(shí)現(xiàn)書目數(shù)據(jù)的初步篩選,呈現(xiàn)相同或相似內(nèi)容的所有資源,利用載體類型、出版社、發(fā)表時(shí)間、語(yǔ)言類型等檢索條件縮小檢索范圍,實(shí)現(xiàn)書目資源的精確檢索。第五步,瀏覽檢索結(jié)果集。序化檢索選定的書目資源,建立檢索結(jié)果集中各實(shí)體之間的關(guān)聯(lián)。例如,根據(jù)介紹“愛迪生”人物事跡的文章,關(guān)聯(lián)出其他相關(guān)的書目及文章,由初始檢索目標(biāo)關(guān)聯(lián)查找到書目1,由書目1關(guān)聯(lián)查找到人物2,再由人物2關(guān)聯(lián)查找到其他書目或文章,經(jīng)過多次關(guān)聯(lián)積累更多書目資源,擴(kuò)展檢索結(jié)果集的范圍,為用戶提供更全面、詳實(shí)的信息資源。
針對(duì)網(wǎng)絡(luò)文獻(xiàn)資源的細(xì)粒度聚合問題,本文根據(jù)邏輯結(jié)構(gòu)和形式結(jié)構(gòu)對(duì)聚合單元進(jìn)行了細(xì)粒度劃分,根據(jù)不同層級(jí)聚合單元的屬性及關(guān)系特征建立了細(xì)粒度元數(shù)據(jù)方案,在此基礎(chǔ)上對(duì)元數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注和規(guī)范化著錄,構(gòu)建了聚合單元元數(shù)據(jù)框架下的細(xì)粒度信息語(yǔ)義組織模型。該模型通過對(duì)書目資源各類實(shí)體與數(shù)據(jù)層、信息層、知識(shí)層的聚合來實(shí)現(xiàn)對(duì)信息資源的分解、重組,從而實(shí)現(xiàn)檢索系統(tǒng)的知識(shí)發(fā)現(xiàn)、語(yǔ)義檢索等功能;通過深入挖掘并擴(kuò)展書目資源之間的關(guān)聯(lián)關(guān)系,為用戶提供更全面、高效、便捷的知識(shí)服務(wù)。