陶 艷 董 克
(1.南京航空航天大學(xué)圖書館,江蘇 南京 210007;2.武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072)
?
基于計(jì)量的圖書情報(bào)領(lǐng)域元數(shù)據(jù)研究現(xiàn)狀分析
陶艷1董克2
(1.南京航空航天大學(xué)圖書館,江蘇 南京 210007;2.武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072)
[摘要]利用社會(huì)網(wǎng)絡(luò)分析法中的路徑方法和文獻(xiàn)計(jì)量中的共現(xiàn)分析方法,對(duì)Web of Science數(shù)據(jù)庫中圖書情報(bào)學(xué)領(lǐng)域(LIS)元數(shù)據(jù)研究論文進(jìn)行了定量分析,旨在明確圖書情報(bào)領(lǐng)域元數(shù)據(jù)研究的發(fā)展過程及研究結(jié)構(gòu)。從定量統(tǒng)計(jì)的結(jié)果來看,美國(guó)在相關(guān)研究中處于絕對(duì)主導(dǎo)地位;相關(guān)研究的技術(shù)應(yīng)用傾向明顯;引文路徑分析結(jié)果表明LIS領(lǐng)域metadata研究相對(duì)成熟,主要集中在信息檢索、知識(shí)組織和數(shù)字圖書館中;metadata在醫(yī)學(xué)信息學(xué)以及傳統(tǒng)的圖書館編目方面已經(jīng)獲得的研究成果價(jià)值也十分重要。
[關(guān)鍵詞]元數(shù)據(jù)社會(huì)網(wǎng)絡(luò)分析文獻(xiàn)計(jì)量主路徑分析
元數(shù)據(jù)(Metadata)一詞最早出現(xiàn)在美國(guó)計(jì)算機(jī)專家Philip Bagley1968年出版的著作《Extension of programming language concepts》中,他第一次使用了metadata這個(gè)詞來描述“關(guān)于數(shù)據(jù)容器的數(shù)據(jù)”這一概念[1]。在此之前,圖書館的編目中已經(jīng)存在類似的概念,如“關(guān)于數(shù)據(jù)內(nèi)容的單個(gè)實(shí)例內(nèi)容”或者“元內(nèi)容”,但這樣的表述相對(duì)模糊,而Philip Bagley明確定義了數(shù)據(jù)描述。從那時(shí)起,圖書情報(bào)領(lǐng)域逐漸開始廣泛接受元數(shù)據(jù)這個(gè)詞。目前對(duì)于元數(shù)據(jù)最廣為人接受的定義為“關(guān)于數(shù)據(jù)的數(shù)據(jù)”[2]。
在圖書情報(bào)領(lǐng)域,元數(shù)據(jù)是數(shù)字化時(shí)代信息組織和處理的基本工具,元數(shù)據(jù)能為各種形態(tài)的數(shù)字化信息單元和資源集合提供規(guī)范、普遍的描述基準(zhǔn)和方法[3]。目前,元數(shù)據(jù)基本功能已經(jīng)發(fā)生了明顯轉(zhuǎn)變,信息組織已經(jīng)從利用元數(shù)據(jù)描述資源進(jìn)一步發(fā)展到通過元數(shù)據(jù)描述信息體系的各個(gè)內(nèi)容層次,元數(shù)據(jù)正成為連接、協(xié)調(diào)整個(gè)信息服務(wù)體系的工具和紐帶,成為分布、開放的信息服務(wù)體系的基礎(chǔ);針對(duì)不同的對(duì)象和目的的元數(shù)據(jù)大量涌現(xiàn),人們開始普遍要求元數(shù)據(jù)遵循一定的規(guī)范,使其能夠交換、復(fù)用、轉(zhuǎn)換和整合,從而支持集成環(huán)境下的工作[4]。在這一背景下,筆者通過計(jì)量學(xué)的方法對(duì)目前圖書情報(bào)領(lǐng)域的元數(shù)據(jù)研究論文進(jìn)行研究,分析元數(shù)據(jù)研究的歷史和目前的進(jìn)展。
2.1數(shù)據(jù)來源及檢索策略
筆者選用Thomson Reuters公司提供的Web of Science平臺(tái)[5],Web of Science是美國(guó)Thomson Scientific(湯姆森科技信息集團(tuán))基于Web開發(fā)的產(chǎn)品,是大型綜合性、多學(xué)科、核心期刊引文索引數(shù)據(jù)庫,共包括數(shù)千種世界范圍內(nèi)最有影響力的、經(jīng)過同行專家評(píng)審的高質(zhì)量的期刊,該數(shù)據(jù)庫每周更新。在Web of Science核心合集數(shù)據(jù)庫中,利用TI=(“metadata”O(jiān)R“metadata”O(jiān)R“meta data”)檢索,選擇SCI-EXPANDED,SSCI,A&HCI,CPCI-S和CPCI-SSH等數(shù)據(jù)庫,不限定論文發(fā)表年份,在系統(tǒng)返回結(jié)果中選擇學(xué)科領(lǐng)域?yàn)椤癐NFORMATION SCIENCE&LIBRARY SCIENCE”,共獲得科學(xué)文獻(xiàn)1743篇,檢索時(shí)間為2015年9月15日。
2.2分析工具
在分析工具的選取上,數(shù)據(jù)分析及清洗主要利用湯姆森數(shù)據(jù)分析器(Thomson Data Analyzer,簡(jiǎn)稱TDA);TDA是基于VantagePoint開發(fā)的專門針對(duì)湯姆森路透集團(tuán)相關(guān)數(shù)據(jù)庫提供的文獻(xiàn)、專利資源進(jìn)行分析的軟件,功能十分強(qiáng)大。在網(wǎng)絡(luò)數(shù)據(jù)的分析及可視化方面,主要利用社會(huì)網(wǎng)絡(luò)分析軟件Pajek進(jìn)行;Pajek是有斯洛文尼亞盧布爾雅那大學(xué)的研究小組開發(fā)的開源社會(huì)網(wǎng)絡(luò)分析軟件,集成了目前絕大多數(shù)社會(huì)網(wǎng)絡(luò)分析算法,數(shù)據(jù)處理量及運(yùn)算速度在目前社會(huì)網(wǎng)絡(luò)分析的軟件中具有明顯優(yōu)勢(shì)。
3.1時(shí)間及類型分布
Web of Science數(shù)據(jù)庫收錄的文章中,最早的文獻(xiàn)發(fā)表于1982年的《Drexel圖書館季刊》,題為《應(yīng)用于數(shù)值型數(shù)據(jù)文件綜合接入的元數(shù)據(jù)系統(tǒng)》;其后第二篇文獻(xiàn)發(fā)表于1992年,作者為荷蘭地理學(xué)家BURROUGH PA,文章的主要內(nèi)容為智能地理信息系統(tǒng)開發(fā),其中討論了元數(shù)據(jù)對(duì)提升信息組織效率的作用,目前被引已經(jīng)達(dá)到47次。文獻(xiàn)發(fā)表的時(shí)間分布如圖1所示,從中可以發(fā)現(xiàn),1996年以前圖情領(lǐng)域研究元數(shù)據(jù)的成果較少,僅有10篇,此后,論文數(shù)量整體上逐年增多,發(fā)文最多的年份為2007年,共166篇。
圖1 文獻(xiàn)發(fā)表的時(shí)間分布
從圖1中我們可以發(fā)現(xiàn),總體上來講,至2007年為止,論文的數(shù)量呈現(xiàn)出明顯的上升趨勢(shì),且數(shù)量增長(zhǎng)相對(duì)較快,說明圖書情報(bào)領(lǐng)域?qū)τ谠獢?shù)據(jù)的研究處于不斷的深化過程中。2007年之后,相關(guān)研究成果的數(shù)量出現(xiàn)了一定的回落趨勢(shì),從2010年開始,論文的數(shù)量趨于穩(wěn)定,每年約100篇左右,2015年的文獻(xiàn)數(shù)量較少主要是受到數(shù)據(jù)檢索時(shí)間的影響;從生長(zhǎng)周期的角度來看,文獻(xiàn)數(shù)量的減少并趨于平穩(wěn)從一個(gè)側(cè)面表明圖書情報(bào)領(lǐng)域的元數(shù)據(jù)的研究逐漸成熟。
1743篇文獻(xiàn)的類型如表1所示,其中期刊論文及會(huì)議論文占到了總數(shù)的97%左右。在一般的文獻(xiàn)類型中,會(huì)議論文一般發(fā)表的周期最快,其次是期刊論文,因此,結(jié)合時(shí)間分布與文獻(xiàn)的類型分布可以發(fā)現(xiàn)圖書情報(bào)領(lǐng)域?qū)υ獢?shù)據(jù)的研究雖然逐步走向成熟,同時(shí)也在不斷開拓新的研究?jī)?nèi)容。此外,書評(píng)、會(huì)議摘要和綜述等文獻(xiàn)類型也有一定的數(shù)量。其他文獻(xiàn)類型主要包括編者按、勘誤和新聞報(bào)道等。
表1 文獻(xiàn)類型
3.2地區(qū)與機(jī)構(gòu)分析
表2 文獻(xiàn)地區(qū)分布
對(duì)檢出的1743篇文獻(xiàn)進(jìn)行國(guó)家/地區(qū)分析,得到文獻(xiàn)數(shù)量排名前10位的國(guó)家或地區(qū)如表2所示。通過分析發(fā)現(xiàn),文獻(xiàn)的地區(qū)集中極為明顯,美國(guó)、英國(guó)和德國(guó)的發(fā)文數(shù)量占到了全世界的一半;排在第一位的美國(guó)文獻(xiàn)發(fā)文數(shù)量為700篇,占到了全部論文的40.161%,而第二位的英國(guó)占總量的比例僅為6.7%,說明美國(guó)的圖書情報(bào)界在全世界的元數(shù)據(jù)研究中起到了絕對(duì)的核心作用,目前世界上最有影響力的元數(shù)據(jù)格式DC就是1995年由美國(guó)的圖書情報(bào)專家牽頭召開確定的。從排名中同時(shí)可以發(fā)現(xiàn),中國(guó)大陸地區(qū)圖書情報(bào)界對(duì)元數(shù)據(jù)的研究在目前世界上也同樣名列前茅。
圖2 發(fā)文10篇以上國(guó)家的合作情況
圖2是發(fā)文在10次以上的國(guó)家之間的合作情況。國(guó)際合作是目前科學(xué)研究的大趨勢(shì),在圖情領(lǐng)域的元數(shù)據(jù)研究中,大多數(shù)國(guó)家之間存在合作關(guān)系,發(fā)文數(shù)量較多的國(guó)家,如美國(guó)、英國(guó)、德國(guó)、西班牙等,均與多個(gè)國(guó)家開展了合作研究。亞洲國(guó)家進(jìn)行國(guó)際合作研究的情況普遍較少,如日本、韓國(guó)、新加坡、中國(guó)等均只與很少的其他國(guó)家之間開展合作。進(jìn)一步對(duì)發(fā)文數(shù)量較多的機(jī)構(gòu)進(jìn)行分析發(fā)現(xiàn),發(fā)文數(shù)量在10篇以上的機(jī)構(gòu)共有28個(gè),從數(shù)量上來看,絕大多數(shù)為美國(guó)高校,發(fā)文數(shù)量前十個(gè)機(jī)構(gòu)中僅有加拿大麥吉爾大學(xué)為非美國(guó)的科研機(jī)構(gòu)。發(fā)文數(shù)量前5的機(jī)構(gòu)分別為北卡羅來納大學(xué)教堂山分校,伊利諾伊州立大學(xué)香檳分校,雪城大學(xué),德雷克塞爾大學(xué)和印第安納大學(xué)伯明頓分校;發(fā)文15篇以上的12個(gè)機(jī)構(gòu)中,僅有美國(guó)國(guó)會(huì)圖書館為非大學(xué)機(jī)構(gòu),說明相關(guān)的研究主要集中在高校中。發(fā)文量較大的高校基本上都是歷年的USNews美國(guó)大學(xué)排名信息與圖書館學(xué)領(lǐng)域中排名最靠前的幾所高校,說明其研究實(shí)力均較強(qiáng)。
3.3作者合作分析
1743篇文獻(xiàn)共有3335位作者,其中第一作者1429人,平均每篇文章有作者1.91個(gè)作者,說明合作已經(jīng)成為圖情領(lǐng)域元數(shù)據(jù)研究的主要趨勢(shì)。所有作者中,發(fā)文10篇以上的作者共10位;以第一作者發(fā)文5篇以上的作者共9位;同時(shí)位于這兩個(gè)列表的研究成果較為突出的學(xué)者共有4位,里斯本大學(xué)的學(xué)者Borbinha J,他共發(fā)表了14篇研究論文,其中第一作者論文7篇;英國(guó)盧瑟福實(shí)驗(yàn)室的Jeffery K G發(fā)表了12篇文獻(xiàn),其中11篇為第一作者;美國(guó)德雷克塞爾大學(xué)的Park JR發(fā)表了12篇文獻(xiàn),其中8篇為第一作者;加拿大麥吉爾大學(xué)的Park EG共發(fā)表了10篇文獻(xiàn),其中也有8篇為第一作者。這些學(xué)者在高產(chǎn)的同時(shí),也在其自身所在的研究隊(duì)伍中起到非常重要的引領(lǐng)作用,例如Borbinha J長(zhǎng)期參與葡萄牙國(guó)家數(shù)字圖書館的建設(shè),對(duì)數(shù)字圖書館系統(tǒng)設(shè)計(jì)和資源的信息組織進(jìn)行了深入的研究,并取得了許多重要的研究成果;Jeffery KG長(zhǎng)期從事商業(yè)信息系統(tǒng)和數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)研究,發(fā)表了大量的研究論文;Park EG的大量研究都是國(guó)家層面的元數(shù)據(jù)框架及元數(shù)據(jù)評(píng)估;Park JR則在元數(shù)據(jù)的語義化方面取得了十分重要的研究成果。
通過作者的合作網(wǎng)絡(luò),我們可以進(jìn)一步分析圖書情報(bào)領(lǐng)域元數(shù)據(jù)研究的主要內(nèi)容分布。在所有的作者中,發(fā)文量在兩篇以上的作者共569人,3篇以上的192人。我們以發(fā)文3篇以上的作者群體為研究樣本進(jìn)行作者合作網(wǎng)絡(luò)構(gòu)建與分析發(fā)現(xiàn),192名作者共發(fā)生了394次合作關(guān)系,其中未與其他作者發(fā)生合作關(guān)系的有43個(gè)。作者合作關(guān)系強(qiáng)度中,合作強(qiáng)度最頻繁的為1,共有130個(gè)作者對(duì);絕大多數(shù)作者之間的合作次數(shù)在2-5次之間,合作強(qiáng)度在5以上的共38個(gè)作者對(duì),其中強(qiáng)度最大的1個(gè)作者對(duì)合作強(qiáng)度達(dá)到了10次。
圖3 合作數(shù)量≥5的作者合作子網(wǎng)
為了使可視化的結(jié)果更為清晰可讀,選擇人數(shù)大于等于4的8個(gè)子網(wǎng)絡(luò)進(jìn)行可視化結(jié)果如圖3所示。圖中,各節(jié)點(diǎn)以作者名稱進(jìn)行標(biāo)記,作者名稱前括號(hào)內(nèi)的數(shù)字為子網(wǎng)編號(hào)。通過分析發(fā)現(xiàn),各個(gè)團(tuán)體的研究側(cè)重點(diǎn)均有不同。以左上方規(guī)模最大的合作子網(wǎng)3為例,其雖然是一個(gè)聯(lián)通的合作網(wǎng)絡(luò),但內(nèi)部各部分之間的研究重點(diǎn)也有不同,其中包含了以“信息檢索系統(tǒng)中的元數(shù)據(jù)應(yīng)用”“商業(yè)信息系統(tǒng)建設(shè)”和“網(wǎng)絡(luò)開放文檔中的元數(shù)據(jù)標(biāo)注”等研究主題。右上角的合作子網(wǎng)2中,核心作者為弗吉尼亞理工大學(xué)的學(xué)者Fox E A 和GoncalvesM A,該群體的研究主題主要與數(shù)字圖書館建設(shè)有關(guān)。合作子網(wǎng)8位于圖3左側(cè)中部,該子網(wǎng)共包含了7為學(xué)者,研究主題為生物醫(yī)學(xué)數(shù)據(jù)庫及數(shù)據(jù)模型;圖3中部的子網(wǎng)5共包含6位學(xué)者,研究主題主要為Web資源共享中的互操作問題;位于中部右側(cè)的子網(wǎng)1包含6名學(xué)者,其核心人物為Borbinha J,研究?jī)?nèi)容主要集中在數(shù)字圖書館中的資源組織;圖3下部左側(cè)的子網(wǎng)6包含5位學(xué)者,研究主題為元數(shù)據(jù)質(zhì)量控制與評(píng)價(jià);下方中部的子網(wǎng)7的研究主題主要為元數(shù)據(jù)采集與收割;最后的子網(wǎng)4包含8位作者,研究?jī)?nèi)容主要集中在不同領(lǐng)域如農(nóng)業(yè)、商業(yè)中的元數(shù)據(jù)應(yīng)用。大量的合作者聚類中均存在一些聯(lián)系局部的核心作者,這些作者在跨學(xué)科或跨研究?jī)?nèi)容的合作中,起到了重要的媒介作用。
3.4載文期刊及被引期刊分析
1743篇論文共刊載于218種出版物,載文量在40篇以上的共10種,如表3所示。由于檢索中我們并沒有排除圖書,因此載文數(shù)量最多的是計(jì)算機(jī)領(lǐng)域的著名叢書《Lecture Notes In Computer Science》,共有170篇研究論文;排在第二位的是由Emerald公司出版的期刊《Electronic Library》載文70篇;排名第三的期刊為《Journal of the American Society for Information Science and Technology》(JASIST,2001年之前該期刊的名稱為《Journalof the American Society for Information Science》)??傮w而言,載文數(shù)量較多的期刊絕大多數(shù)是技術(shù)傾向明顯的期刊。
表3 載文量≥40的出版物
在被引出版物中,排名第一的為《JASIST》,共被引了772次(包含以JASIS和JASIST兩種名稱被引),該期刊由ASIS&T出版,是圖書情報(bào)學(xué)領(lǐng)域最為出名的期刊之一。排名第二的是《D-Lib Magazine》,該刊有美國(guó)國(guó)防部先進(jìn)研究項(xiàng)目局和美國(guó)國(guó)家科學(xué)基金會(huì)支持的電子出版物,重點(diǎn)關(guān)注數(shù)字圖書館研究與開發(fā),新技術(shù)的應(yīng)用及其產(chǎn)生的經(jīng)濟(jì)和社會(huì)效應(yīng)等研究?jī)?nèi)容。同樣可以發(fā)現(xiàn),被引次數(shù)較多的期刊依舊為圖情領(lǐng)域偏技術(shù)類的出版物和計(jì)算機(jī)領(lǐng)域的出版物。期刊共被引分析的可視化結(jié)果如圖5所示。從整個(gè)期刊的被引網(wǎng)絡(luò)上來看,以這兩種期刊為核心的為一般的LIS期刊陣營(yíng),其中大量的被引文獻(xiàn)包括知識(shí)組織與編目就;此外還有一個(gè)相對(duì)獨(dú)立的陣營(yíng)是由醫(yī)學(xué)信息管理領(lǐng)域的期刊組成的,被引文獻(xiàn)大多數(shù)論述元數(shù)據(jù)在醫(yī)學(xué)信息管理中的應(yīng)用兩部分的期刊主要通過JASIST聯(lián)系在一起,說明JASIST是整個(gè)共被引網(wǎng)絡(luò)的中心和銜接者,其研究?jī)?nèi)容廣泛而富有深度,對(duì)LIS領(lǐng)域元數(shù)據(jù)研究的發(fā)展做出了重要的支撐。
圖4 期刊共被引網(wǎng)絡(luò)
3.5引文路徑分析
被引是衡量文獻(xiàn)質(zhì)量的重要依據(jù)。1743篇文獻(xiàn)中,被引次數(shù)最多的論文是由美國(guó)惠普實(shí)驗(yàn)室的研究人員Golder SA和Huberman BA撰寫的名為《Usage patterns of collaborative tagging systems》的文章,文中詳細(xì)分析了目前已經(jīng)比較廣泛的網(wǎng)絡(luò)資源合作標(biāo)簽和分眾分類法問題,該文章到2015年9月已經(jīng)被引590多次。被引次數(shù)最靠前的文獻(xiàn)所研究的主題相對(duì)多樣,但特點(diǎn)也比較明顯,2000年以前發(fā)表的論文大多數(shù)集中在圖書館資源組織領(lǐng)域元數(shù)據(jù)的應(yīng)用,而2000年之后發(fā)表的文獻(xiàn)則更多關(guān)注網(wǎng)絡(luò)資源組織中的元數(shù)據(jù)應(yīng)用。
進(jìn)一步構(gòu)建所有文獻(xiàn)的引文網(wǎng)絡(luò)后發(fā)現(xiàn),1743篇文獻(xiàn)之間的引用網(wǎng)絡(luò)中,絕大多數(shù)文獻(xiàn)之間沒有引文關(guān)系,引文網(wǎng)絡(luò)中存在一個(gè)十分明顯的子網(wǎng),說明在整個(gè)論文網(wǎng)絡(luò)中,存在明顯的研究核心論文群體,其他大多數(shù)則為零散的節(jié)點(diǎn)。利用社會(huì)網(wǎng)絡(luò)分析法中的main path analysis(MPA,主路徑分析),可以從由科學(xué)文獻(xiàn)所構(gòu)成的引文網(wǎng)絡(luò)中計(jì)算每篇文章對(duì)于整個(gè)科學(xué)發(fā)展過程起到的貢獻(xiàn),并進(jìn)一步篩選其中最關(guān)鍵的文獻(xiàn),描述主題發(fā)展的主干[6]。主路徑分析的基本思想是,將某個(gè)領(lǐng)域最早發(fā)表的論文當(dāng)做知識(shí)源,這些知識(shí)源所包含的知識(shí)內(nèi)容依據(jù)引文關(guān)系進(jìn)行傳承,在從最初發(fā)表的文獻(xiàn)到最新發(fā)表的文獻(xiàn)所構(gòu)成的引文鏈代表了知識(shí)傳承的通道,經(jīng)過某個(gè)論文或引文關(guān)系的知識(shí)通道數(shù)量越多,那么這個(gè)文獻(xiàn)節(jié)點(diǎn)或引文關(guān)系對(duì)的重要程度就越大。主路徑分析的具體運(yùn)算過程可參見相關(guān)文獻(xiàn)[7]。
主路徑分析運(yùn)算結(jié)果如表4所示,權(quán)重位于0.0013-0.0097之間的引文關(guān)系占了總量的90.18%,即大多數(shù)引文對(duì)于整個(gè)知識(shí)體系而言意義不大。權(quán)重最大的為0.0685,位于0.0433-0.0517之間的引文有3個(gè)。將權(quán)重最高的引文及構(gòu)成引文的節(jié)點(diǎn)連成一個(gè)主路徑結(jié)果如圖5所示。
表4 主路徑分析結(jié)果
根據(jù)圖5可以看出,1996年和1997年發(fā)表的大量文獻(xiàn)均是作為圖情領(lǐng)域元數(shù)據(jù)研究的知識(shí)源存在。根據(jù)文獻(xiàn)數(shù)量的時(shí)間分布,從1996年左右開始,圖情領(lǐng)域?qū)υ獢?shù)據(jù)的研究逐步得到越來越多的重視,兩者結(jié)論較為一致。主路徑中最早的一篇文獻(xiàn)為Heery R于1996年發(fā)表的關(guān)于元數(shù)據(jù)格式的綜述性研究,該文章系統(tǒng)回顧了當(dāng)時(shí)已經(jīng)存在大量元數(shù)據(jù)記錄形式,為后來的研究提供了大量的參考資源[8]。主路徑上1997年發(fā)表的論文有5篇,美國(guó)羅格斯大學(xué)的Ng K B等學(xué)者分析了電子圖書館環(huán)境下的元數(shù)據(jù)schemes的控制與管理問題;美國(guó)俄亥俄州立大學(xué)的Yonger JA分析了數(shù)字時(shí)代的資源描述方式[9];加拿大學(xué)者DesaiB C則對(duì)虛擬圖書館中資源索引與檢索進(jìn)行了分析,討論了Dublin核心元數(shù)據(jù)在其中的作用[10];Vellucci SL分析了多種元數(shù)據(jù)描述方式在數(shù)字資源組織與描述中的綜合利用[11];雪城大學(xué)的Sutton SA等學(xué)者則分析了在教育領(lǐng)域中如何利用元數(shù)據(jù)加強(qiáng)因特網(wǎng)環(huán)境下信息檢索效率,提升教育水平和教學(xué)能力的問題[12]。第36號(hào)文獻(xiàn)在整個(gè)主路徑上的銜接作用十分突出,它是由VellucciSL1998年在《美國(guó)信息科學(xué)與技術(shù)年度回顧》上發(fā)表的一篇關(guān)于元數(shù)據(jù)的綜述,該文系統(tǒng)總結(jié)了至1998年為止元數(shù)據(jù)的發(fā)展歷史和進(jìn)展[13]。
銜接早期研究和2010年以后研究的文獻(xiàn)為第665號(hào)文獻(xiàn),該文由Mohamed K A F發(fā)表于2006年的《Online Information Review》上,文中詳細(xì)分析了元數(shù)據(jù)在網(wǎng)絡(luò)資源發(fā)現(xiàn)中的作用,特別是元數(shù)據(jù)對(duì)網(wǎng)頁資源索引的作用[14]。Farajpahlou A H等學(xué)者在2011年發(fā)表的編號(hào)為1314的文獻(xiàn)中,系統(tǒng)研究了動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下,類似于Google和Yahoo等通用搜索引擎對(duì)于包含Marc 21和Dublin核心元數(shù)據(jù)信息的XML資源的索引效率,并討論了搜索引擎對(duì)這類資源的排序效果問題,研究發(fā)現(xiàn)Google能夠很好的發(fā)現(xiàn)并排序這些資源[15]。出現(xiàn)在主路徑上的最新的兩篇文獻(xiàn)發(fā)表于2014年,均由伊朗學(xué)者Taheri SM團(tuán)隊(duì)撰寫;編號(hào)為1648的文獻(xiàn)中,Taheri S M等利用數(shù)據(jù)島方法創(chuàng)建元數(shù)據(jù)記錄,并使之能夠被通用的網(wǎng)絡(luò)搜索引擎所索引;在編號(hào)為1702的文獻(xiàn)中,TaheiSM等學(xué)者進(jìn)一步對(duì)搜索引擎、XML和元數(shù)據(jù)相關(guān)內(nèi)容進(jìn)行了研究,發(fā)現(xiàn)綜合性搜索引擎能有效索引XML格式資源的元數(shù)據(jù)標(biāo)簽名[16]。從引文主路徑可以看出,圖情領(lǐng)域元數(shù)據(jù)研究的主題轉(zhuǎn)變相對(duì)明顯,相關(guān)研究從早期的初級(jí)問題如元數(shù)據(jù)描述格式、規(guī)范等內(nèi)容進(jìn)一步發(fā)展到對(duì)搜索引擎及知識(shí)組織的研究,逐步深入。
圖5 元數(shù)據(jù)研究的主干
筆者主要利用計(jì)量學(xué)的方法,從文獻(xiàn)發(fā)表時(shí)間、地區(qū)和機(jī)構(gòu)分布、作者群體、出版載體和引文網(wǎng)絡(luò)的角度對(duì)目前圖書情報(bào)領(lǐng)域的元數(shù)據(jù)研究進(jìn)行了分析。從文獻(xiàn)發(fā)表的時(shí)間來看,1996年開始,圖情領(lǐng)域?qū)υ獢?shù)據(jù)的研究逐漸增多,到2007年達(dá)到高峰,其后研究逐漸走向成熟。從地區(qū)、機(jī)構(gòu)和作者的角度來看,美國(guó)在相關(guān)研究中處于絕對(duì)領(lǐng)先地位,偏技術(shù)應(yīng)用研究的團(tuán)體為圖情領(lǐng)域研究的核心團(tuán)體;出版物分析的結(jié)果進(jìn)一步支撐了上述結(jié)論,大量相關(guān)的論文發(fā)表于技術(shù)傾向明顯或計(jì)算機(jī)類的出版物上。引文路徑分析的結(jié)果表明,圖書情報(bào)領(lǐng)域?qū)υ獢?shù)據(jù)的早期研究主要針對(duì)元數(shù)據(jù)本身,以及傳統(tǒng)圖書館資源組織和數(shù)字圖書館中的應(yīng)用;隨著研究的進(jìn)一步深入,對(duì)于元數(shù)據(jù)的研究逐漸拓展到知識(shí)組織和信息檢索領(lǐng)域;整體上看,圖書情報(bào)領(lǐng)域元數(shù)據(jù)研究相對(duì)成熟,且內(nèi)部的科學(xué)結(jié)構(gòu)和發(fā)展主干十分清晰。
參考文獻(xiàn):
[1] Bagley,Philip.Extension of programming language concepts[M].Philadelphia:University City Science Center,1968.
[2] NISO.Understanding Metadata[EB/OL].http://www.niso. org/standards/resources/UnderstandingMetadata.pdf.[2012 -06-20].
[3] National Archives of Australia.AGLSMetadata Element Set-Part 2:Usage Guide-A non-technical guide to using AGLSmetadata for describing resources[EB/OL]. http://www.naa.gov.au/Images/AGLS%20Metadata%20Stan dard%20Part%202%20%20Usage%20Guide_tcm16-47011.pdf.[2012-06-23].
[4]張曉林.元數(shù)據(jù)應(yīng)用與研究[M].北京:北京圖書館出版社,2002.
[5] Web of Knowledge.http://webofknowledge.com/WOS[EB/ OL].[2012-06-23].
[6]董克,等.基于主路徑分析的HistCite結(jié)果改進(jìn)研究[J].情報(bào)理論與實(shí)踐,2011(3):113-116.
[7]董克,劉德洪.基于HITS與MPA算法結(jié)合的關(guān)鍵文獻(xiàn)確定方法研究[J].圖書情報(bào)工作,2011(3):77-82.
[8] Heery R.Review Of Metadata Formats[J].Program Electronic Library&Information Systems,1996(4):345-373.
[9] Younger JA.Resources Description in the Digital Age.[J]. Library Trends,1997,45.
[10]Desai,B C.Supporting Discovery in Virtual Libraries.[J]. Journal of the American Society for Information Science,1997(3):190-204.
[11]Vellucci,SL.Options for Organizing Electronic Resources:The CoexistenceofMetadata[J].Bulletin of the American Society for Information Science&Technology,1997 (1):14-17.
[12]Sutton Stuart A,Oh Sam G.GEM:Using Metadata to Enhance Internet Retrieval by K-12 Teachers[J].Bulletin of the American Society for Information Science&Technology,1997(1):21-24.
[13]Vellucci,SL.Metadata[J].Annual Review of Information Science and Technology,1998(33):187-222.
[14]Mohamed K A F.The impactofmetadata in web resources discovering[J].Online Information Review,2000(2):155-167.
[15] Farajpahlou A H,Tabatabai F.How are XML-based Marc 21 and Dublin Core records indexed and ranked by generalsearchenginesindynam iconlineenvironments?[J]. Aslib Proceedings,2011(6):586-592.
[16]Taheri SM,HaririN,F(xiàn)attahi SR.Does discarding XML declarations and changing file extensions improve the indexability and visibility of metadata tag names in web search engines?[J].Journalof Information Science,2014 (40):796-805.
陶艷女,1980年生。碩士,助理館員,研究方向:情報(bào)分析與信息計(jì)量。
董克男,1985年生。講師,博士后。研究方向:信息計(jì)量與科學(xué)計(jì)量。
[分類號(hào)]G350
收稿日期:(2016-03-14;責(zé)編:王天泥。)