徐 燁,肖 明
《中國(guó)圖書(shū)館分類(lèi)法》 (Chinese Library Classification,CLC)是我國(guó)圖情單位普遍使用的綜合性分類(lèi)法;《美國(guó)國(guó)會(huì)圖書(shū)館分類(lèi)法》(Libraryof Congress Classification,LCC)是美國(guó)國(guó)會(huì)圖書(shū)館編制的綜合性等級(jí)列舉式圖書(shū)分類(lèi)法,也是世界上最重要的分類(lèi)法之一。隨著國(guó)內(nèi)各圖書(shū)館不斷購(gòu)置大量的英文圖書(shū),如果對(duì)這些英文圖書(shū)進(jìn)行分類(lèi)時(shí)僅依靠人工判斷,將會(huì)花費(fèi)大量的人工成本,且工作效率很低。因此,實(shí)現(xiàn)中文詞表與英文詞表之間的互操作,將是解決有效檢索和利用英文圖書(shū)的重要途徑。
詞表間的互操作主要通過(guò)建立類(lèi)表之間的映射來(lái)實(shí)現(xiàn),可細(xì)分為3種類(lèi)型:直接映射、間接映射和同現(xiàn)映射[1]。直接映射是指直接在不同的受控詞表之間建立語(yǔ)詞和分類(lèi)號(hào)的匹配關(guān)系,主要依靠人工來(lái)判斷類(lèi)目之間的映射關(guān)系;間接映射是指利用計(jì)算機(jī)計(jì)算類(lèi)目語(yǔ)義相關(guān)度來(lái)確定匹配類(lèi)型;同現(xiàn)映射是基于書(shū)目數(shù)據(jù)庫(kù)的映射,是指通過(guò)統(tǒng)計(jì)同一元數(shù)據(jù)集中表達(dá)不同主題的語(yǔ)詞或分類(lèi)號(hào)同現(xiàn)頻次,計(jì)算語(yǔ)詞和分類(lèi)號(hào)之間的相關(guān)度,從而實(shí)現(xiàn)類(lèi)目匹配。目前國(guó)內(nèi)外對(duì)詞表之間的映射研究都有一定探究[2-3]。
國(guó)外對(duì)詞表之間映射的研究開(kāi)展得早一些。1987年瑞典皇家圖書(shū)館通過(guò)直接映射實(shí)現(xiàn)《瑞典圖書(shū)分類(lèi)法》(SAB)和《杜威十進(jìn)分類(lèi)法》(DDC)的映射[4],主要是將DDC中的部分表翻譯成瑞典語(yǔ),再人工將其進(jìn)行關(guān)聯(lián),并保存在數(shù)據(jù)庫(kù)中,以實(shí)現(xiàn)二者之間的映射。1995年,紐約州立大學(xué)設(shè)計(jì)一種面向?qū)ο蠛突诳蚣芊治龅膶?zhuān)家系統(tǒng),將美國(guó)《數(shù)學(xué)主題分類(lèi)表》(MSC)和DDC進(jìn)行了映射[5],并將映射關(guān)系細(xì)分為8種類(lèi)型:精確匹配、不匹配、專(zhuān)指到泛指、泛指到專(zhuān)指、多對(duì)一、循環(huán)映射、上位映射、下位映射。2001年歐盟發(fā)起Renardus項(xiàng)目[6],實(shí)現(xiàn)DDC與各國(guó)分類(lèi)法及專(zhuān)業(yè)分類(lèi)法之間的映射。用戶(hù)可以通過(guò)Renardus對(duì)各國(guó)門(mén)戶(hù)網(wǎng)站進(jìn)行檢索,再根據(jù)映射結(jié)果來(lái)實(shí)現(xiàn)各國(guó)信息門(mén)戶(hù)按DDC 類(lèi)目進(jìn)行顯示。
國(guó)內(nèi)對(duì)詞表之間映射的研究集中在DDC 與CLC之間,以及《國(guó)際專(zhuān)利分類(lèi)法》(IPC)與CLC之間的映射上。其中,針對(duì)DDC與CLC之間的映射研究開(kāi)展得更早一些。戴劍波等[7]分析了DDC 與CLC 之間相互映射的可行性、映射實(shí)現(xiàn)模式、自動(dòng)映射的實(shí)現(xiàn)原理,并且對(duì)比分析DDC與CLC之間的差異,提出實(shí)現(xiàn)間接映射的原理及可行性。楊眉等[8]采用直接映射和同現(xiàn)映射相結(jié)合的方法,對(duì)DDC與CLC中的化學(xué)工業(yè)領(lǐng)域類(lèi)目進(jìn)行研究分析,總結(jié)出映射過(guò)程中所存在的問(wèn)題,并且提出了相應(yīng)的解決方案。趙冬梅[9]運(yùn)用統(tǒng)計(jì)學(xué)的方法對(duì)DDC與CLC中的數(shù)學(xué)類(lèi)目進(jìn)行了差異性分析。賈君枝等[10-11]提出了DDC與CLC之間的類(lèi)目映射原理與方法,并對(duì)類(lèi)目自動(dòng)映射進(jìn)行了較為系統(tǒng)的研究,提出了實(shí)現(xiàn)自動(dòng)映射的各種算法。李珂等[12]采用直接映射的方法對(duì)DDC與CLC之間的農(nóng)業(yè)科學(xué)領(lǐng)域類(lèi)目進(jìn)行映射研究,并對(duì)映射結(jié)果進(jìn)行統(tǒng)計(jì)分析。國(guó)內(nèi)研究人員針對(duì)IPC與CLC之間的映射研究相對(duì)較少一些。周林志等[13]提出基于詞匯相似度建立IPC與CLC之間映射的方法,其主要目標(biāo)是要解決專(zhuān)利數(shù)據(jù)庫(kù)使用率低和降低專(zhuān)利數(shù)據(jù)的孤立程度。
綜上所述,國(guó)內(nèi)針對(duì)詞表之間互操作的研究集中在DDC與CLC之間的映射上;在映射方法研究方面則主要采用直接映射法?;诖耍疚氖紫确治鯟LC 與LCC 類(lèi)目映射的可行性,然后以圖情領(lǐng)域?yàn)槔捎靡环N基于書(shū)目記錄的CLC與LCC類(lèi)目同現(xiàn)映射方法來(lái)實(shí)現(xiàn)類(lèi)目間的映射,并分析該方法的優(yōu)缺點(diǎn),最后對(duì)映射結(jié)果中一對(duì)多的映射關(guān)系進(jìn)行討論。
《中國(guó)圖書(shū)館分類(lèi)法》(CLC)是由國(guó)家圖書(shū)館《中國(guó)圖書(shū)館分類(lèi)法》編輯委員會(huì)編制的綜合性分類(lèi)法[14]。CLC以馬克思列寧主義、毛澤東思想為指導(dǎo)思想,以辯證唯物主義和歷史唯物主義為編制依據(jù),以學(xué)科分類(lèi)和知識(shí)分類(lèi)為基礎(chǔ),強(qiáng)調(diào)類(lèi)目的完整性、類(lèi)目體系的平衡性,以及知識(shí)覆蓋的全面性。如果從宏觀結(jié)構(gòu)上分析,則CLC是由編制說(shuō)明、基本大類(lèi)表、基本類(lèi)目表(簡(jiǎn)表)、主表、附表(通用復(fù)分表),以及字順?biāo)饕⑹褂檬謨?cè)等部分組成;如果從微觀上分析,則CLC的類(lèi)目是由類(lèi)號(hào)、類(lèi)名、類(lèi)級(jí)、注釋、參照等部分組成。除主表外,CLC宏觀結(jié)構(gòu)還包括附表、索引、使用手冊(cè)等組成部分,其微觀結(jié)構(gòu)則包括類(lèi)號(hào)、類(lèi)名、類(lèi)級(jí)、注釋、參照等組成部分。CLC力求簡(jiǎn)明,易懂易記,不僅適應(yīng)了我國(guó)圖書(shū)資料分類(lèi)實(shí)踐的需要,而且為我國(guó)圖書(shū)資料統(tǒng)一分類(lèi)編目創(chuàng)造了便利條件。
《美國(guó)國(guó)會(huì)圖書(shū)館分類(lèi)法》(LCC)是美國(guó)國(guó)會(huì)圖書(shū)館在其館長(zhǎng)普特南(G.H.Putnam,1861-1955)主持下,根據(jù)該館藏書(shū)所編制的一部綜合性等級(jí)列舉式分類(lèi)法[15-16],主要有7 大特點(diǎn):第一,實(shí)用性強(qiáng)。它專(zhuān)門(mén)為美國(guó)國(guó)會(huì)圖書(shū)館排架使用而編制,從類(lèi)目安排到號(hào)碼配置,都處處考慮了該館藏書(shū)的實(shí)際需要。第二,類(lèi)目詳盡,多達(dá)20多萬(wàn)個(gè),是世界上類(lèi)目最多、篇幅最大的分類(lèi)法。第三,它不僅可以適用于綜合性圖書(shū)館,而且適用于專(zhuān)業(yè)圖書(shū)館。第四,它及時(shí)反映了新學(xué)科和新主題情況。美國(guó)國(guó)會(huì)圖書(shū)館設(shè)有專(zhuān)門(mén)部門(mén)來(lái)管理LCC,根據(jù)館藏變化來(lái)及時(shí)修訂類(lèi)表,并且按季度編印發(fā)行《LCC的補(bǔ)充和修改》,及時(shí)報(bào)道LCC類(lèi)號(hào)的修訂信息。第五,其各大類(lèi)分別獨(dú)立編制,出版時(shí)間和版本并不統(tǒng)一,也沒(méi)有統(tǒng)一的編制體例以及通用復(fù)分表和總索引。第六,它基本上采用的是順序標(biāo)記制,故其類(lèi)號(hào)簡(jiǎn)短,但類(lèi)號(hào)不能表達(dá)類(lèi)目之間的等級(jí)關(guān)系,且助記性較差。第七,應(yīng)用廣泛。目前,LCC號(hào)碼已被應(yīng)用到美國(guó)國(guó)會(huì)圖書(shū)館發(fā)行的印刷卡片和機(jī)讀目錄,以及美、英等國(guó)出版的圖書(shū)在版編目數(shù)據(jù)中。除了美國(guó)國(guó)會(huì)圖書(shū)館以外,LCC還被美國(guó)許多高等學(xué)校圖書(shū)館、專(zhuān)門(mén)圖書(shū)館以及美國(guó)以外的一些國(guó)家的圖書(shū)館所采用。
CLC和LCC在圖情領(lǐng)域的類(lèi)目設(shè)置方面存在很大差異,如表1所示。
表1 CLC與LCC在圖情領(lǐng)域的類(lèi)目設(shè)置比較
由于篇幅所限,表1中只羅列出這兩部分類(lèi)法中的部分類(lèi)目。在圖書(shū)館學(xué)領(lǐng)域,CLC羅列到四級(jí)類(lèi)目,LCC只羅列到三級(jí)類(lèi)目;在目錄學(xué)領(lǐng)域,LCC只羅列到二級(jí)類(lèi)目。從表1中還可以看出,CLC與LCC在圖情領(lǐng)域上的類(lèi)目設(shè)置有很大不同。例如,在CLC中,“圖書(shū)館事業(yè)、信息事業(yè)”是G大類(lèi)下的三級(jí)類(lèi)目,而應(yīng)該與之對(duì)應(yīng)的“Bibliography.Library Science.Information Resources”則是Z 大類(lèi),屬于一級(jí)類(lèi)目。CLC與LCC在類(lèi)目設(shè)置上的差異性是巨大的,從而為實(shí)現(xiàn)二者之間的映射帶來(lái)了較大挑戰(zhàn)。從整體上分析,造成這種差異性的主要原因是中外文化上的差異。CLC的類(lèi)目設(shè)置相對(duì)側(cè)重于圖書(shū)整理;LCC則相對(duì)偏重于圖書(shū)館的社會(huì)性,即更側(cè)重于圖書(shū)館的利用。如果單從圖情領(lǐng)域的類(lèi)目設(shè)置上來(lái)分析,則這種差異性主要體現(xiàn)在兩個(gè)方面。
一是對(duì)圖情學(xué)科理解的差異性。例如,LCC中的“General Bibliography”“National Bibliography”“Subject Bibliography”和“Personal Bibliography”雖然與CLC中的“G257 目錄學(xué)”有一定的關(guān)系,但是主要還是對(duì)應(yīng)到CLC中“Z8 圖書(shū)報(bào)刊目錄、文摘、索引”二級(jí)類(lèi)目下的“Z81/86 各種圖書(shū)目錄”“Z81 國(guó)家總目錄”“Z88專(zhuān)科目錄”“Z86個(gè)人著作目錄”等三級(jí)類(lèi)目中。
二是設(shè)置類(lèi)目等級(jí)體系的差異性。在整體結(jié)構(gòu)上看,CLC將整個(gè)圖情學(xué)科設(shè)置在“G2 信息與知識(shí)傳播”之下,并將“圖書(shū)館事業(yè)、信息事業(yè)”與“新聞事業(yè)”“博物館事業(yè)”“檔案事業(yè)”等并列起來(lái);LCC 則將“Bibliography.Library Science.Information Resources”單獨(dú)設(shè)置成Z大類(lèi)。此外,CLC將“圖書(shū)館學(xué)”“情報(bào)學(xué)”“文獻(xiàn)學(xué)”“目錄學(xué)”等均設(shè)置為“圖書(shū)館事業(yè)、信息事業(yè)”的下位類(lèi),而將“圖書(shū)館學(xué)、情報(bào)學(xué)”與“目錄學(xué)”視作同位類(lèi);LCC 則將“Libraries”與“General Bibliography”設(shè)置為二級(jí)類(lèi)目,并將兩者視為同位類(lèi),且將“Library Science.Information Science”設(shè)置為“Libraries”的下位類(lèi)。
在圖情領(lǐng)域類(lèi)目設(shè)置上,CLC與LCC存在明顯的差異,具體類(lèi)目分布情況見(jiàn)表2。從表2中發(fā)現(xiàn),在圖情領(lǐng)域,CLC共有186個(gè)類(lèi)目,從三級(jí)類(lèi)目橫跨到七級(jí)類(lèi)目。其中,五級(jí)類(lèi)目和六級(jí)類(lèi)目共占類(lèi)目總數(shù)約78%;LCC共計(jì)有72個(gè)類(lèi)目,從一級(jí)類(lèi)目橫跨到五級(jí)類(lèi)目。其中,三級(jí)類(lèi)目、四級(jí)類(lèi)目、五級(jí)類(lèi)目共占類(lèi)目總數(shù)約91.7%。CLC類(lèi)目設(shè)置更多,而LCC的類(lèi)名則相對(duì)較長(zhǎng)一些,它通常會(huì)使用兩個(gè)及兩個(gè)以上的詞語(yǔ)組合作為類(lèi)名。
表2 CLC與LCC在圖情領(lǐng)域的類(lèi)目分布差異
中美兩國(guó)在文化環(huán)境、分類(lèi)原則、分類(lèi)等級(jí)等方面存在諸多差異,導(dǎo)致CLC 與LCC 在類(lèi)目設(shè)置上存在著明顯的差異性。如果采取直接映射方法,則需要人工判斷類(lèi)目的語(yǔ)義、功用等不同層面,將會(huì)耗費(fèi)大量的人力成本。目前,國(guó)內(nèi)外在映射方法研究方面大多集中在間接映射方法上,但間接映射方法往往忽略類(lèi)目本身的復(fù)雜語(yǔ)義,從而導(dǎo)致其映射效果不佳。本文提出了一種同現(xiàn)映射方法,該方法主要是利用已經(jīng)由國(guó)家圖書(shū)館工作人員標(biāo)注好的中英文圖書(shū)的書(shū)目數(shù)據(jù),較好地實(shí)現(xiàn)了CLC與LCC的類(lèi)目映射。
同現(xiàn)映射是以書(shū)目數(shù)據(jù)庫(kù)中的書(shū)目記錄作為基礎(chǔ),通過(guò)統(tǒng)計(jì)同一元數(shù)據(jù)集中表達(dá)不同主題的語(yǔ)詞或分類(lèi)號(hào)的同現(xiàn)頻次來(lái)計(jì)算語(yǔ)詞和分類(lèi)號(hào)之間的相似度,從而實(shí)現(xiàn)類(lèi)目映射。在本文中,筆者首先選用圖情領(lǐng)域中英文圖書(shū)的書(shū)目數(shù)據(jù)作為數(shù)據(jù)源,共計(jì)包括2506條書(shū)目記錄;然后根據(jù)這些書(shū)目記錄計(jì)算CLC 下的某一類(lèi)目與LCC 下的某一類(lèi)目的相似度,實(shí)現(xiàn)了CLC 與LCC 的類(lèi)目映射。
2.2.1 相似度的計(jì)算
鄭麗萍給出了如下類(lèi)目相似度定義[17]:
其中,Sim(A,B)表示類(lèi)目A與類(lèi)目B的相關(guān)程度,其取值范圍在0和1之間;d1和d2均表示類(lèi)目下的書(shū)目記錄;O1和O2均表示需要映射的分類(lèi)法。當(dāng)Sim(A,B)=0時(shí),表示類(lèi)目A與類(lèi)目B是完全不相關(guān)的;當(dāng)Sim(A,B)=1時(shí),表示類(lèi)目A與類(lèi)目B是完全相同的。
具體計(jì)算相似度的方法有很多,在需要映射的兩個(gè)分類(lèi)法中,利用類(lèi)目下的具體書(shū)目記錄對(duì)類(lèi)目間的相似度進(jìn)行計(jì)算。筆者采用Jaccard系數(shù)來(lái)計(jì)算相似度。該系數(shù)的計(jì)算公式為:
2.2.2 算法步驟
根據(jù)上述計(jì)算類(lèi)目間相似度的公式,可以用分類(lèi)法中類(lèi)目A和類(lèi)目B的具體書(shū)目記錄來(lái)計(jì)算其中,P(A,B)表示一條書(shū)目記錄既屬于類(lèi)目A又屬于類(lèi)目B的概率;表示一條書(shū)目記錄屬于類(lèi)目A但不屬于類(lèi)目B的概率;表示一條書(shū)目記錄不屬于類(lèi)目A卻屬于類(lèi)目B的概率。
以計(jì)算P(A,B)為例,基于書(shū)目記錄的類(lèi)目同現(xiàn)映射相似度計(jì)算方法如圖1所示。
圖1 基于書(shū)目記錄的類(lèi)目同現(xiàn)映射相似度計(jì)算方法
具體算法主要包括6個(gè)步驟。(1)將分類(lèi)法O1的書(shū)目記錄數(shù)據(jù)集U1,分成屬于類(lèi)目A的數(shù)據(jù)集和不屬于類(lèi)目A的數(shù)據(jù)集(2)將這兩個(gè)數(shù)據(jù)集中的書(shū)目記錄分別作為正反樣本,采用機(jī)器學(xué)習(xí)方法來(lái)進(jìn)行訓(xùn)練,最終得到關(guān)于類(lèi)目A的學(xué)習(xí)器L。(3)將分類(lèi)法O2的書(shū)目記錄數(shù)據(jù)集U2,分成屬于類(lèi)目B的數(shù)據(jù)集和不屬于類(lèi)目B的數(shù)據(jù)集(4)使用學(xué)習(xí)器L對(duì)數(shù)據(jù)集中的書(shū)目記錄進(jìn)行分類(lèi),分成兩個(gè)數(shù)據(jù)集同樣地,將數(shù)據(jù)集分成數(shù)據(jù)集(5)將分類(lèi)法O1和分類(lèi)法O2的位置調(diào)換,重復(fù)上述步驟,同樣可以分成數(shù)據(jù)集和(6)根據(jù)上述結(jié)果,分別計(jì)算P(A,B),的值:
根據(jù)上述Sim(A,B)的公式,即:
計(jì)算得出類(lèi)目A與類(lèi)目B的相似度,再根據(jù)相似度的取值,判斷類(lèi)目A與類(lèi)目B能否建立映射,從而實(shí)現(xiàn)CLC與LCC之間的類(lèi)目映射。
筆者根據(jù)上述方法,將CLC 與LCC 這兩部分類(lèi)法中有關(guān)圖情領(lǐng)域的類(lèi)目進(jìn)行了映射。下面以CLC中的“G252.6 參考咨詢(xún)”類(lèi)目和LCC 的“Z711-711.95 Public Services.Reference Services”類(lèi)目的相似度計(jì)算為例來(lái)加以說(shuō)明。首先,對(duì)CLC 中“G252.6 參考咨詢(xún)”類(lèi)目的書(shū)目記錄進(jìn)行樣本訓(xùn)練。由書(shū)目記錄可以計(jì)算得到:再對(duì)LCC 中的“Z711-711.95 Public Services.Reference Services”類(lèi)目進(jìn)行分類(lèi),同樣可以計(jì)算得到:同理,可以計(jì)算得出的值。由于本例中CLC與LCC下的書(shū)目記錄個(gè)數(shù)是相同的,故N(U1)=N(U2),計(jì)算得出的值是相同的。最后,根據(jù)前文提及的相關(guān)公式,計(jì)算得到Sim(A,B)的值:
同理,可計(jì)算出其他類(lèi)目之間的相似度,見(jiàn)表3和表4(按從高到低進(jìn)行排序)。
從表3和表4看出,相似度的值存在兩極分化現(xiàn)象。在表3中,類(lèi)目“G252.6參考咨詢(xún)”與類(lèi)目“Z711-711.95 Public Services.Reference Services”之間相似度的值要明顯高于類(lèi)目“G252.6”與其他LCC類(lèi)目之間相似度的值;在表4中,類(lèi)目“Z711-711.95”與類(lèi)目“G252.6”及類(lèi)目“G252”之間相似度的值要明顯高于類(lèi)目“Z711-711.95”與其他CLC類(lèi)目之間相似度的值。因此,LCC中的類(lèi)目“Z711-711.95”,可與CLC中的類(lèi)目“G252.6”和“G252”進(jìn)行映射,并形成一對(duì)多的映射關(guān)系。從直接映射角度來(lái)看,LCC中的“Z711-711.95 Public Services.Reference Services”類(lèi)目的類(lèi)目名為組合類(lèi)目,可將其翻譯為“公共服務(wù)和參考咨詢(xún)服務(wù)”,它可以與CLC中的“G252.6 參考咨詢(xún)”類(lèi)目和“G252 信息資源服務(wù)”類(lèi)目確定映射關(guān)系。通過(guò)比較“Z711-711.95”類(lèi)目與“G252.0”類(lèi)目、“G252.1”類(lèi)目、“G252.6”類(lèi)目之間的相似度大小,就可以發(fā)現(xiàn)相鄰?fù)活?lèi)類(lèi)目之間的相似度存在著明顯的區(qū)分度。因此,上述基于書(shū)目記錄來(lái)實(shí)現(xiàn)類(lèi)目同現(xiàn)映射的方法是可行的,也與直接映射的結(jié)果關(guān)聯(lián)起來(lái),映射效果較好。
表3 CLC“參考咨詢(xún)”類(lèi)目與LCC部分類(lèi)目間的相似度
表4 LCC“Public Services.Reference Services”類(lèi)目與CLC部分類(lèi)目間的相似度
雖然相似度的值存在著明顯的兩極分化現(xiàn)象,區(qū)分度較大,但是計(jì)算得出的相似度的值并不高。其主要原因有以下3 點(diǎn):(1)正如上文所述,CLC與LCC類(lèi)目結(jié)構(gòu)的差異性較大,所以在書(shū)目記錄中,同屬于CLC 類(lèi)目與LCC 類(lèi)目的書(shū)目記錄數(shù)量與屬于CLC 類(lèi)目但不屬于LCC 類(lèi)目(或者不屬于CLC類(lèi)目但屬于LCC類(lèi)目)相比,相對(duì)較少;(2)類(lèi)目間存在一對(duì)多的映射情況,LCC的類(lèi)目名經(jīng)常由多個(gè)詞組成,導(dǎo)致其映射到CLC的類(lèi)目上時(shí),種類(lèi)較多;(3)書(shū)目記錄中存在一些分類(lèi)不合理的書(shū)目記錄,例如,將關(guān)于圖情領(lǐng)域的國(guó)外書(shū)籍直接分到“G259 世界各國(guó)圖書(shū)館事業(yè)、信息事業(yè)”類(lèi)目下,并未對(duì)其按內(nèi)容進(jìn)行分類(lèi),盡管這批書(shū)目記錄數(shù)量較小,但也在一定程度上影響了相似度的計(jì)算。
采用上述方法對(duì)CLC 與LCC 中圖情領(lǐng)域的類(lèi)目進(jìn)行同現(xiàn)映射,最終得到的部分同現(xiàn)映射結(jié)果(存在一對(duì)多的情況)如表5所示。
從表5看出,映射結(jié)果存在一部分一對(duì)多的映射情況。從實(shí)驗(yàn)結(jié)果分析可知,LCC 中的“Z711-711.95 Public Services.Reference Services”類(lèi)目與CLC中的“G252信息資源服務(wù)”“G252.6 參考咨詢(xún)”類(lèi)目的相似度較高,且與其他CLC類(lèi)目的相似度存在明顯的區(qū)分,所以判定其為一對(duì)多的映射關(guān)系。從類(lèi)目名稱(chēng)分析,LCC中的“Z711-711.95 Public Services.Reference Services”類(lèi)目是由多個(gè)詞組成的組合類(lèi)目,所以極有可能是一對(duì)多的映射關(guān)系,這與實(shí)驗(yàn)結(jié)果符合。但也存在實(shí)驗(yàn)結(jié)果與類(lèi)目名稱(chēng)分析結(jié)果不相符的情況,例如,“G255.72 微縮資料”從類(lèi)目名稱(chēng)分析結(jié)果上看,應(yīng)與“Z691-692 Special Classes of Materials Including Manuscripts,Maps,Microforms,Serials”類(lèi)目產(chǎn)生映射,但從實(shí)驗(yàn)結(jié)果看并沒(méi)有(見(jiàn)表5),原因是“G255.72 微縮資料”的書(shū)目記錄僅有4 條,相似度較小。所以,判斷一對(duì)多的映射結(jié)果時(shí),除了依據(jù)相似度的大小,也應(yīng)對(duì)類(lèi)目名稱(chēng)進(jìn)行分析,尤其要注意由多個(gè)詞組成的組合類(lèi)目。
表5 CLC與LCC中圖情領(lǐng)域類(lèi)目同現(xiàn)映射的結(jié)果(部分)
如果從類(lèi)目名稱(chēng)進(jìn)行分析,并且采用人工翻譯方法來(lái)完成直接映射,則其結(jié)果與表5所示的同現(xiàn)映射結(jié)果相差不大。但是,其中的少部分映射結(jié)果會(huì)存在以下3種不足:第一,部分類(lèi)目無(wú)映射,其主要原因是該類(lèi)目下書(shū)目記錄數(shù)較少。例如,表5中的“Z662-664”類(lèi)目下書(shū)目記錄數(shù)僅為8條;第二,部分類(lèi)目映射不全,其主要原因是該類(lèi)目下的書(shū)目記錄分布不均勻。例如,表5中的“Z691-692”類(lèi)目,該類(lèi)目下與“G255.75”類(lèi)目相關(guān)聯(lián)的類(lèi)目較多,而與“G255.72”類(lèi)目相關(guān)聯(lián)的類(lèi)目較少;第三,部分類(lèi)目映射存在錯(cuò)誤,主要是因?yàn)閲?guó)內(nèi)圖書(shū)館在對(duì)國(guó)外圖書(shū)進(jìn)行分類(lèi)時(shí),本身就存在著錯(cuò)誤分類(lèi)的情況。
綜上所述,從本次實(shí)驗(yàn)的整體情況來(lái)看,基于書(shū)目記錄的類(lèi)目同現(xiàn)映射方法可以為實(shí)現(xiàn)CLC與LCC之間的互操作提供依據(jù),還會(huì)對(duì)實(shí)現(xiàn)分類(lèi)法之間的自動(dòng)映射有所幫助。但是,需要特別注意的是,同現(xiàn)映射結(jié)果的好壞會(huì)嚴(yán)重依賴(lài)于書(shū)目記錄的數(shù)量和質(zhì)量。
鑒于CLC與LCC這兩部分類(lèi)法在分類(lèi)角度、整體結(jié)構(gòu)等方面存在著明顯的差異性,所以國(guó)內(nèi)鮮有研究CLC 與LCC 之間的映射。筆者在本文中提出了一種基于書(shū)目記錄的類(lèi)目同現(xiàn)映射方法,從而實(shí)現(xiàn)了CLC 與LCC 之間的類(lèi)目映射。與直接映射法相比較,筆者提出的方法不僅更加節(jié)約人工判斷所引發(fā)的成本,而且映射效果相對(duì)更好一些,可供CLC 與LCC 之間互操作的實(shí)現(xiàn)參考借鑒。同時(shí),需要特別注意的是,該方法仍然存在兩個(gè)不足:第一,該方法依賴(lài)于書(shū)目記錄。書(shū)目記錄越多,則類(lèi)目映射的效果就會(huì)越好;第二,該方法忽略了類(lèi)目之間本身可能存在的語(yǔ)義關(guān)系,僅通過(guò)相似度來(lái)定義映射關(guān)系,顯得比較片面。因此,筆者下一步的研究打算從類(lèi)目的語(yǔ)義層面、功用層面、書(shū)目記錄等其他多個(gè)角度出發(fā),綜合考慮類(lèi)目之間的映射關(guān)系,最終建立起更加合理、更加完善的類(lèi)目映射規(guī)則。