嚴(yán)建新
摘要:在SSCI的文獻(xiàn)數(shù)據(jù)中,同一專(zhuān)著或文集類(lèi)在被引用時(shí)題名、版本年份及作者名拼寫(xiě)存在著不一致的情況,為了使其具有一致性,本文提出了對(duì)引文數(shù)據(jù)進(jìn)行預(yù)處理的方法。對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行文獻(xiàn)和作者共被引分析,分別獲得重要文獻(xiàn)和作者的列表;對(duì)文獻(xiàn)名和作者名按字母排序,找出同一文獻(xiàn)不同的題名和出版年份以及同一作者名的不同拼寫(xiě),利用“搜索”和“替換”功能對(duì)引文數(shù)據(jù)進(jìn)行修改。經(jīng)過(guò)對(duì)引文數(shù)據(jù)的預(yù)處理,共被引網(wǎng)絡(luò)中的重要節(jié)點(diǎn)及其被引次數(shù),以及共被引連線明顯增多。對(duì)于著作和文集類(lèi)被引文獻(xiàn)占較大比例的社會(huì)科學(xué)研究領(lǐng)域,進(jìn)行引文數(shù)據(jù)預(yù)處理有助于獲得更客觀的計(jì)量分析結(jié)果。
關(guān)鍵詞:引文數(shù)據(jù);預(yù)處理;SSCI;共被引分析
中圖分類(lèi)號(hào):G353.1文獻(xiàn)標(biāo)識(shí)碼: ADOI:10.3969/j.issn.1003-8256.2020.01.006
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
基金項(xiàng)目:廣西高??蒲兄攸c(diǎn)項(xiàng)目(ZD2014009)
《科學(xué)引文索引》(Science Citation Index,SCI)是對(duì)自然科學(xué)研究成果進(jìn)行文獻(xiàn)計(jì)量分析常用的數(shù)據(jù)源之一,針對(duì)其數(shù)據(jù)結(jié)構(gòu),已開(kāi)發(fā)出多種計(jì)量分析工具[1]。1973年,美國(guó)科學(xué)情報(bào)研究所(Institute for Scientific Information)按照SCI的模式又創(chuàng)立了社會(huì)科學(xué)引文索引(Social Science Citation Index,SSCI)。這兩個(gè)數(shù)據(jù)庫(kù)的文獻(xiàn)數(shù)據(jù)結(jié)構(gòu)相同,文獻(xiàn)的引文數(shù)據(jù)的格式也相同。因此,基于SCI文獻(xiàn)數(shù)據(jù)結(jié)構(gòu)開(kāi)發(fā)的計(jì)量分析工具也同樣可用于分析SSCI的文獻(xiàn)數(shù)據(jù)。然而,筆者發(fā)現(xiàn),社會(huì)科學(xué)的許多學(xué)科領(lǐng)域有其自身的特點(diǎn),專(zhuān)著、文集類(lèi)文獻(xiàn)在被引文獻(xiàn)中占有較大的比例。這類(lèi)文獻(xiàn)的題名拼寫(xiě)和版本年份往往存在不一致的問(wèn)題。為了獲得更為客觀的分析結(jié)果,有必要在計(jì)量分析前對(duì)這些領(lǐng)域的引文數(shù)據(jù)進(jìn)行預(yù)處理。
2010年,董琳[2]探討了SCI文獻(xiàn)數(shù)據(jù)中機(jī)構(gòu)名和國(guó)名的處理問(wèn)題,孫源[3],張晉輝和劉清[4]分別提出了針對(duì)SCI文獻(xiàn)數(shù)據(jù)中地址字段的處理方案。但筆者未能檢索到有關(guān)處理著作題名和版本年份的研究文獻(xiàn)。
1期刊文獻(xiàn)在被引文獻(xiàn)中的比例
為了比較被引文獻(xiàn)中期刊文獻(xiàn)所占的比例,筆者在SSCI和SCI數(shù)據(jù)庫(kù)中選擇了若干期刊:
(1)根據(jù)SSCI數(shù)據(jù)庫(kù)對(duì)期刊的分類(lèi),在各類(lèi)別中分別選擇1種有代表性的期刊,共計(jì)57種;
(2)在SSCI數(shù)據(jù)庫(kù)中,以“Marx*”為檢索詞進(jìn)行主題檢索,選擇載文數(shù)量最多的前8種期刊;
(3)除選擇Nature和Science外,在SCI數(shù)據(jù)庫(kù)按數(shù)學(xué)、物理、化學(xué)、天文、生物和地質(zhì)6個(gè)一級(jí)學(xué)科各選擇1種有代表性的期刊,共計(jì)8種。
以表格格式(win)分別下載上述期刊2017年最后一期的論文(article)數(shù)據(jù)。利用Excel軟件分別打開(kāi)上述數(shù)據(jù)文件,從中各提取20篇論文的引文信息。通過(guò)人工粗略甄別,統(tǒng)計(jì)出被引期刊文獻(xiàn)在全部被引文獻(xiàn)中的百分比。
從表1中可以看到,SCI數(shù)據(jù)庫(kù)中6個(gè)一級(jí)學(xué)科的代表性期刊,以及Nature和Science的被引期刊文獻(xiàn)在全部被引文獻(xiàn)中的百分比都相當(dāng)高,有7種期刊在90%以上,最低的Biological Reviews也接近90%。該百分比在這8種期刊中的平均值為92.5%。
SSCI數(shù)據(jù)庫(kù)按研究領(lǐng)域?qū)⑹珍浧诳瘎澐譃?7個(gè)類(lèi)別,表2為各類(lèi)別的代表性期刊的被引期刊文獻(xiàn)在全部被引文獻(xiàn)中的百分比。這一比例在不同類(lèi)別中存在較大的差異,其中百分比較高的是與自然科學(xué)有相同或相近研究范式的學(xué)科領(lǐng)域,如精神病學(xué)(Psychiatry)、心理學(xué)(Psychology)、管理學(xué)等學(xué)科。而歷史學(xué)、社會(huì)學(xué)、文化學(xué)等學(xué)科則因研究范式的不同,這一比例就比較低,其中AmericanHistoricalReview只有28.0%。
表3列出的是2017年刊載馬克思主義研究成果最多的前8種期刊,被引期刊文獻(xiàn)在全部被引文獻(xiàn)中所占的百分比都比較低,最高的Antipode不到50%,而最低的Historical Materialism Research in Critical Marxist Theory僅有20%。這8種期刊的平均數(shù)為34.8%。
2專(zhuān)著和文集類(lèi)引文帶來(lái)的問(wèn)題
期刊論文的引文主要為兩大類(lèi)型,一是期刊類(lèi)文獻(xiàn),二是專(zhuān)著和文集類(lèi)文獻(xiàn)。其他類(lèi)型的被引文獻(xiàn),如新聞報(bào)道、年鑒、報(bào)告等,在全部引文中所占的比例低較。
運(yùn)用計(jì)量學(xué)軟件對(duì)SCI和SSCI的文獻(xiàn)數(shù)據(jù)進(jìn)行作者共被引和文獻(xiàn)共被引分析時(shí),對(duì)于期刊類(lèi)被引文獻(xiàn)而言,主要涉及被引文獻(xiàn)第一作者名、出版年號(hào)、期刊名、卷號(hào)等信息;對(duì)專(zhuān)著和文集類(lèi)文獻(xiàn)而言,則主要涉及被引文獻(xiàn)第一作者名、出版年號(hào)、專(zhuān)著或文集題名、卷號(hào)等信息。如今,期刊名已實(shí)現(xiàn)了標(biāo)準(zhǔn)化,但專(zhuān)著和文集的題名則未進(jìn)行標(biāo)準(zhǔn)化。當(dāng)同一部專(zhuān)著或同一本文集中的同一文獻(xiàn)被不同學(xué)者引用時(shí),題名的拼寫(xiě)就有可能會(huì)出現(xiàn)不一致。如果該專(zhuān)著或文集被再版,或被翻譯成其他語(yǔ)種出版,就會(huì)出現(xiàn)版本年份的不一致。這導(dǎo)致軟件將其判定為不同的文獻(xiàn),在共被引網(wǎng)絡(luò)中同一被引文獻(xiàn)就會(huì)分裂成多個(gè)節(jié)點(diǎn)。一般而言,越是經(jīng)典的專(zhuān)著,節(jié)點(diǎn)分裂的現(xiàn)象越是普遍。因此,對(duì)引文數(shù)據(jù)的預(yù)處理是文獻(xiàn)計(jì)量分析的基礎(chǔ)工作之一,它直接決定分析結(jié)果的客觀性[5]。
以“Marx*”為條件,對(duì)1998—2017年SSCI收錄的論文進(jìn)行主題檢索,獲得4034條文獻(xiàn)數(shù)據(jù)。在運(yùn)用CiteSpace[6]做文獻(xiàn)共被引分析時(shí)發(fā)現(xiàn),馬克思的經(jīng)典著作《政治經(jīng)濟(jì)學(xué)批判大綱》由于題名縮寫(xiě)和版本年份的不同(表4),這一文獻(xiàn)在共被引網(wǎng)絡(luò)中分裂成許多節(jié)點(diǎn)。類(lèi)似地,《資本論》《哥達(dá)綱領(lǐng)批判》《共產(chǎn)黨宣言》《德意志意識(shí)形態(tài)》《1844年經(jīng)濟(jì)學(xué)哲學(xué)手稿》,以及葛蘭西的《獄中札記》、亞當(dāng)·斯密的《國(guó)富論》、哈維的《資本的極限》等經(jīng)典著作都存在節(jié)點(diǎn)分裂現(xiàn)象。
在文獻(xiàn)共被引和作者共被引網(wǎng)絡(luò)中的節(jié)點(diǎn)分裂,有可能使分析結(jié)果無(wú)法真實(shí)反映文獻(xiàn)和作者對(duì)特定研究領(lǐng)域所產(chǎn)生的影響和作用。因此,對(duì)于著作和文集類(lèi)被引文獻(xiàn)占較大比例的研究領(lǐng)域,在計(jì)量分析前有必要對(duì)原始的引文數(shù)據(jù)進(jìn)行預(yù)處理,盡量消除上述的不一致現(xiàn)象。
3引文數(shù)據(jù)的預(yù)處理
引文數(shù)據(jù)的預(yù)處理是將原始數(shù)據(jù)中同一著作或文集的題名、同一作者的姓名縮寫(xiě)統(tǒng)一起來(lái),并將同一著作或文集的版本年份統(tǒng)一起來(lái)。根據(jù)筆者的經(jīng)驗(yàn),可通過(guò)以下步驟完成這一工作:
(1)合并文獻(xiàn)數(shù)據(jù)。SSCI每次可下載500條文獻(xiàn)數(shù)據(jù),如數(shù)據(jù)量超過(guò)500條,將會(huì)得到2個(gè)以上的數(shù)據(jù)文件。為了便于預(yù)處理,需要將所有的數(shù)據(jù)文件合并為1個(gè),在合并前應(yīng)先備份全部數(shù)據(jù)文件。
用鼠標(biāo)右擊數(shù)據(jù)文件,在“打開(kāi)方式”中選擇“寫(xiě)字板”。每一條文獻(xiàn)數(shù)據(jù)均以“PT”開(kāi)始,并以“ER”結(jié)束。打開(kāi)第一個(gè)數(shù)據(jù)文件后再打開(kāi)第二個(gè)數(shù)據(jù)文件,將第二個(gè)文件中從第一個(gè)“PT”到最后一個(gè)“ER”的部分復(fù)制到第一個(gè)文件末尾的“ER”和“EF”之間。重復(fù)上述過(guò)程,直到將所有數(shù)據(jù)文件的內(nèi)容全都復(fù)制到第一個(gè)數(shù)據(jù)文件中,以完成文獻(xiàn)數(shù)據(jù)的合并。合并后,應(yīng)更改文件名并做備份。
(2)獲取作者和文獻(xiàn)的信息,找出不同的拼寫(xiě)和版本年份。運(yùn)用CiteSpace軟件,設(shè)置適當(dāng)?shù)拈撝祵?duì)合并后的文獻(xiàn)數(shù)據(jù)分別進(jìn)行作者共被引和文獻(xiàn)共被引分析,從而獲得滿足閾值的作者列表和文獻(xiàn)列表。閾值越低,越有利于發(fā)現(xiàn)分裂開(kāi)的小節(jié)點(diǎn),但閾值的設(shè)置必須兼顧電腦的運(yùn)算能力。
將作者列表復(fù)制到Word文件中,并按作者名排序,找出同一作者名的不同拼寫(xiě)。將文獻(xiàn)列表復(fù)制到Word文件后,先將表格轉(zhuǎn)換為文本,再以逗號(hào)為分隔符將文本轉(zhuǎn)換為表格,然后分別按文獻(xiàn)名和作者名進(jìn)行排序,分別找出同一文獻(xiàn)名的不同拼寫(xiě)、不同版本年份和同一作者名的不同拼寫(xiě)。
(3)修改引文數(shù)據(jù),統(tǒng)一拼寫(xiě)及版本年份。用寫(xiě)字板打開(kāi)合并后的數(shù)據(jù)文件,利用“查找”和“替換”功能,將同一作者名、同一文獻(xiàn)的題名和同一文獻(xiàn)的版本年份分別統(tǒng)一起來(lái)。例如,將《政治經(jīng)濟(jì)學(xué)批判大綱》的作者名統(tǒng)一為“Marx K”,題名和版本年份分別統(tǒng)一為“GRUNDRISSE”和“1857”。
(4)復(fù)查。設(shè)置適當(dāng)?shù)拈撝祵?duì)處理后的數(shù)據(jù)分別進(jìn)行作者共被引和文獻(xiàn)共被引分析,按步驟(2)對(duì)獲得的作者和文獻(xiàn)列表進(jìn)行復(fù)查,如同一作者名、同一文獻(xiàn)題名和同一文獻(xiàn)的版本年號(hào)仍有不一致的情況,則應(yīng)按步驟(3)進(jìn)行修改。
在上述的步驟(2)中,如遇到作者和文獻(xiàn)的一致性無(wú)法直接判定的情況,應(yīng)充分利用搜索引擎、百度學(xué)術(shù)、多語(yǔ)種電子詞典、DOI代碼等工具進(jìn)行交叉印證。
4結(jié)果與討論
筆者對(duì)上述4034條馬克思主義研究的引文數(shù)據(jù)進(jìn)行多輪預(yù)處理后,獲得文獻(xiàn)共被引圖譜(圖1),圖中包含123個(gè)文獻(xiàn)節(jié)點(diǎn),364條共被引連線。采用相同閾值對(duì)預(yù)處理前的數(shù)據(jù)進(jìn)行文獻(xiàn)共被引分析,所得圖譜只包含72個(gè)文獻(xiàn)節(jié)點(diǎn),僅有188條共被引連線(圖2)。相比較而言,預(yù)處理后滿足閾值的節(jié)點(diǎn)增加了約71%,共被引連線增加了約94%。就節(jié)點(diǎn)《政治經(jīng)濟(jì)學(xué)批判大綱》而言,預(yù)處理后其被引次數(shù)由353次增加到425次,增加了20%。在預(yù)處理前、后的文獻(xiàn)共被引網(wǎng)絡(luò)中,被引文獻(xiàn)的排序(表5)和被引作者的排序也相應(yīng)發(fā)生了變化,這表明,經(jīng)過(guò)上述的預(yù)處理,可有效地減少節(jié)點(diǎn)的分裂現(xiàn)象。
文獻(xiàn)的共被引分析有助發(fā)現(xiàn)對(duì)一個(gè)研究領(lǐng)域的發(fā)展產(chǎn)生較大影響的研究成果,也有助于揭示該領(lǐng)域的研究熱點(diǎn)和前沿,而作者的共被引分析則有助于評(píng)價(jià)學(xué)者對(duì)該領(lǐng)域的研究所做的貢獻(xiàn)。由于著作和文集類(lèi)被引文獻(xiàn)在題名拼寫(xiě)、版本年份和作者名拼寫(xiě)上存在不一致,當(dāng)這類(lèi)文獻(xiàn)在引文中占有較大比重時(shí),就有可能會(huì)對(duì)分析結(jié)果產(chǎn)生不利的影響。實(shí)踐表明,對(duì)引文數(shù)據(jù)進(jìn)行預(yù)處理雖不能完全消除但能有效地減少節(jié)點(diǎn)的分裂現(xiàn)象,有助于提高計(jì)量分析的客觀性。然而,這類(lèi)文獻(xiàn)占多大的比例就必須進(jìn)行預(yù)處理,這一問(wèn)題還有待開(kāi)展進(jìn)一步的實(shí)證研究。
參考文獻(xiàn):
[1]李艷,張悅,曾可,等.文獻(xiàn)信息分析工具的比較[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志, 2015, 24(11): 41-47.
[2]董琳.學(xué)科評(píng)價(jià)之文獻(xiàn)計(jì)量數(shù)據(jù)準(zhǔn)備[J].情報(bào)理論與實(shí)踐, 2010, 33(6): 49-52.
[3]孫源.基于Word2Vec的SCI地址字段數(shù)據(jù)清洗方法研究[J].情報(bào)雜志, 2019, 38 (2): 195-200.
[4]張晉輝,劉清.基于推理機(jī)的SCI地址字段數(shù)據(jù)清洗方法設(shè)計(jì)[J].情報(bào)科學(xué), 2010, 28(5): 741-746.
[5]閆雪,歐陽(yáng)海鷹,曾首英,等.文獻(xiàn)計(jì)量數(shù)據(jù)準(zhǔn)備之?dāng)?shù)據(jù)采集與清洗:以中國(guó)水產(chǎn)科學(xué)研究院中文期刊論文分析為例[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊, 2014, 26(4): 36-40.
[6]Chen, C. CiteSpaceⅡ: Detecting and visualizing emerging trends and transient patterns in scientific literature [J]. Journal of the American Society for Information Science and Technology, 2006, 57(3): 359-377.
The Citation Data Pre-Processing for SSCI Literature Data: A Case Study of Marxism Research
YAN Jianxin
(1.SchoolofMarxism,GuangxiUniversity,Nanning530004,China;2WISELab&ScienceofScienceand ManagementofScienceandTechnologyResearchInstitute,DalianUniversityofTechnology,Dalian116024,China)
Abstract: In SSCI literature data, a book or collected works sometimes is cited in different spellings in title and authors name, and in different publishing years due to different versions, this article proposes a way of citation data pre-processing in order to make them uniform.Obtain the title list of important cited literatures and name list of important author by cocitation analyses, rank the lists alphabetically and find out the different spellings and different publishing years, and then, make them uniform by searching and replacing.After the pre-processing of citation data, the important nodes and their citation frequency, as well as the co-cited links increase obviously in the co-citation networks. For the social research fields with high percentage of cited books or collected works, citation data pre-processing is helpful to make the bibliometric analysis more objective.
Keywords: citation data;pre-processing;SSCI;co-citation analysis