,
SinoMed由中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所/圖書館開發(fā)的生物醫(yī)學(xué)領(lǐng)域重要的檢索工具,也是醫(yī)學(xué)信息檢索教學(xué)和醫(yī)藥衛(wèi)生查新中最常用的中文數(shù)據(jù)庫。它整合了包括中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(CBM)、西文生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(WBM)、北京協(xié)和醫(yī)學(xué)院博碩士學(xué)位論文數(shù)據(jù)庫等8種資源,學(xué)科范圍廣泛、年代跨度大,更新及時。其中使用最廣泛的CBM收錄了1978年至今1 800余種中國生物醫(yī)學(xué)期刊以及匯編、會議論文,目前文獻(xiàn)題錄達(dá)820余萬篇[1]。
SinoMed平臺上的中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫是該平臺使用范圍最廣的二次檢索數(shù)據(jù)庫,其檢索功能比較強(qiáng)大,除了常見的快速檢索、高級檢索和主題詞檢索外,還具有智能檢索、分類檢索和截詞檢索等功能。
截詞檢索,也稱詞干檢索或字符屏蔽檢索,是指用給定的詞干做檢索詞,查找含有該詞干的全部檢索詞的記錄,可以起到擴(kuò)大檢索范圍、提高查全率、減少檢索詞的輸入量、節(jié)省檢索時間等作用[2]。簡單來講,截詞檢索是在檢索標(biāo)識中保留相同的部分,用截詞符代替可變化的部分,即通配符檢索[3]。檢索時,系統(tǒng)會將所有含有相同部分標(biāo)識的記錄全部檢索出來。通配符可以置于檢索詞首、中間或詞尾,分別對應(yīng)后方一致檢索、前后方一致檢索和前方一致檢索。
與單字通配符“?”類似,任意通配符“%”在檢索中文單詞或短語時也常用于前后方一致檢索,如輸入“肝炎%疫苗”可以檢索出含有肝炎疫苗、肝炎病毒基因疫苗、肝炎減毒活疫苗、肝炎滅活疫苗等的文獻(xiàn)[1]?!?”置于中文檢索詞的詞首或詞尾進(jìn)行檢索,使用價值不大?!?”在檢索包含英文字母或阿拉伯?dāng)?shù)字的目標(biāo)詞時,除了置于檢索詞中間,前置或后置可以擴(kuò)大檢索范圍。如輸入“CCL%”可以檢索出“CCL”后有任意多個英文字母、阿拉伯?dāng)?shù)字等的結(jié)果。
“包含檢索”,即直接用目標(biāo)詞的一部分作為檢索詞進(jìn)行檢索,是SinoMed支持的一種與截詞檢索類似的檢索功能。與截詞檢索相同的是在檢索標(biāo)識中保留相同的部分,唯一的區(qū)別是不使用通配符。
理論上認(rèn)為,從數(shù)據(jù)庫里檢索到一條與檢索提問式相匹配的記錄即為命中[2],這也是數(shù)據(jù)庫檢索最基本的原理。以前的CBM檢索中,對不加通配符的“任意字符串”(包括漢字單字或詞組、英文單詞或縮略語、西文字母加阿拉伯?dāng)?shù)字的組合形式等)檢索都采取了全字段全文本匹配檢索技術(shù)[4]。
在SinoMed中進(jìn)行中文字符串檢索時,SinoMed默認(rèn)采用了任意通配符,只要出現(xiàn)中文檢索詞的文獻(xiàn)都會出現(xiàn)在檢索結(jié)果中。如輸入“噬細(xì)胞”,可以檢索出“噬細(xì)胞”、“巨噬細(xì)胞”、“吞噬細(xì)胞”、“自噬細(xì)胞”等檢索結(jié)果。
當(dāng)需要檢索中文字符串后連接英文字母、阿拉伯?dāng)?shù)字或特殊符號的目標(biāo)詞時,省略通配符直接用相應(yīng)的中文字符串進(jìn)行檢索,亦不會造成漏檢。如輸入“白細(xì)胞介素”時,“白細(xì)胞介素1”、“白細(xì)胞介素IL-1”、“白細(xì)胞介素-1”、“白細(xì)胞介素(IL)-1”等都會在檢索結(jié)果中出現(xiàn)(表1)。
表1 中文字符串后省略通配符的檢索結(jié)果
“包含檢索”功能用來檢索中文字符串時,能夠出色地完成檢索要求,但對ASCII字符組成的字符串(英文字符串或由英文字母、阿拉伯?dāng)?shù)字、特殊符號組成的字符串)進(jìn)行檢索時,經(jīng)常會出現(xiàn)漏檢的情況。
在SinoMed鏡像版中,省略通配符僅以英文字符串作為檢索詞進(jìn)行檢索,會漏檢英文字符串后連接數(shù)字的目標(biāo)詞[5],但不會漏檢英文字符串后連接“-”、“/”、“^”、“)”等特殊符號的目標(biāo)詞。例如,在SinoMed中輸入“MDR”,會漏檢“MDR1”,但可以檢索出“MDR-1”、“MDR-TB”、“MDR-PTB”、“MDR/P-gp”、“MDR/XDRAB”等英文字符串后連接特殊字符的檢索結(jié)果。網(wǎng)絡(luò)版SinoMed經(jīng)過升級,已對這一問題進(jìn)行了完善。即在省略通配符的情況下,僅以英文字符串作為檢索詞進(jìn)行檢索,不會漏檢英文字符串前或后連接數(shù)字的目標(biāo)詞。
目前在SinoMed中,對英文字符串(英文單詞、英文縮略語等)進(jìn)行“包含”檢索,仍然會出現(xiàn)漏檢情況。若僅以英文字符串的一部分作為檢索詞,會漏檢檢索詞前或檢索詞后連接英文字符的目標(biāo)詞,但不會漏檢檢索詞前或檢索詞后連接特殊符號的目標(biāo)詞(表2)。
表2 英文字符串前或后省略通配符的檢索結(jié)果
總之,在SinoMed中,檢索中文字符串后連接英文字母、阿拉伯?dāng)?shù)字或特殊符號的目標(biāo)詞時,省略通配符而僅用中文字符串進(jìn)行檢索,均不會造成漏檢;檢索英文字符串前或后連接特殊符號再連接字母或數(shù)字的目標(biāo)詞時,亦不會造成漏檢。但對于由英文單詞或英文縮略語等組成的英文字符串目標(biāo)詞,直接用英文字符串的一部分作為檢索詞進(jìn)行檢索時,則會造成漏檢。可見,SinoMed系統(tǒng)對英文字符采取了精確匹配的索引技術(shù),省略通配符而直接用目標(biāo)詞的局部進(jìn)行檢索,會造成漏檢。但對于“-”等特殊符號,SinoMed系統(tǒng)采取模糊匹配原則,省略通配符而直接用目標(biāo)詞的局部進(jìn)行檢索,不容易造成漏檢。
3.1.1 百分?jǐn)?shù)“數(shù)字+%+漢字”的檢索
CBM中使用“*”作為任意通配符,而SinoMed中用“%”取代“*”作為任意通配符。眾所周知,在檢索時作為通配符的符號無法直接被檢索出,而“%”在醫(yī)學(xué)文獻(xiàn)中經(jīng)常出現(xiàn),遇到特殊的情況需要檢索“數(shù)字+%”時,SinoMed系統(tǒng)就可能會存在一定的不足。
例如,筆者在查新中遇到過檢索百分?jǐn)?shù)的情況,需要檢索“50%有效劑量”。如果直接用“50%有效劑量”進(jìn)行檢索,僅可以檢索出1篇包含“50有效劑量”的文獻(xiàn)(表3),而并非“50%有效劑量”。
表3 百分?jǐn)?shù)“數(shù)字+%+漢字”的檢索結(jié)果
從表3可見,“%”直接置于阿拉伯?dāng)?shù)字與漢字之間進(jìn)行“前后方一致”檢索,無法按正常步驟檢索出同時包含“%”前后內(nèi)容的文獻(xiàn)。如果在“%”后加一個空格,用“50% 有效劑量”進(jìn)行檢索,系統(tǒng)則會按“50%AND 有效劑量”進(jìn)行檢索。其中的“%”默認(rèn)為通配符,檢索結(jié)果為同時包含“50”和“有效劑量”,且二者之間間隔任意個(≥0)字符的文獻(xiàn),包括了“50”后直接連接“%”、“-”、“.”等特殊符號、英文字母、阿拉伯?dāng)?shù)字或漢字等各種字符的文獻(xiàn)。如果在“%”前面加一個空格,用“50%有效劑量”進(jìn)行檢索,系統(tǒng)會按“50 AND %有效劑量”進(jìn)行檢索,可以檢索出同時含有“50”和“有效劑量”的文獻(xiàn)。如前所述,通配符“%”置于漢字之前與省略通配符的檢索結(jié)果相同,因此這種檢索方法與使用“50有效劑量”的檢索結(jié)果完全相同?!?0有效劑量”與“50% 有效劑量”相比,前者50后面缺少了通配符“%”導(dǎo)致檢索結(jié)果較少,減少的結(jié)果主要是50后面連接小數(shù)點、英文字母和數(shù)字的文獻(xiàn),但“50 有效劑量”卻可以檢索出50后面連接其他特殊符號(如“%”、“-”、“)”、“、”“:”等)、空格、希臘字母和漢字等的結(jié)果。因此針對“50%有效劑量”的檢索要求,用“50有效劑量”檢索最為簡潔和準(zhǔn)確。
以上結(jié)果說明,“%”作為通配符無法準(zhǔn)確地被系統(tǒng)檢索出,這直接導(dǎo)致系統(tǒng)對百分?jǐn)?shù)檢索的重大缺陷。“%”可以置于阿拉伯?dāng)?shù)字之后進(jìn)行“前方一致”檢索,但用于檢索百分?jǐn)?shù)時檢索結(jié)果噪聲較大,檢索結(jié)果包括檢索詞后連接特殊符號、英文字母、阿拉伯?dāng)?shù)字以及漢字等各種情況的文獻(xiàn)。
3.1.2 “數(shù)字+特殊符號+漢字”的檢索
由上述百分?jǐn)?shù)的檢索結(jié)果來看,通配符“%”無法準(zhǔn)確檢索出數(shù)字與漢字之間有百分號的檢索結(jié)果,那么“%”是否可以檢索出數(shù)字與漢字之間有特殊符號的檢索結(jié)果呢?
舉例來講,如果需要檢索2型糖尿病的各種表達(dá)方式,根據(jù)任意通配符“%”的檢索功能,理論上可以用“2%糖尿病”進(jìn)行檢索,但使用“2%糖尿病”的檢索結(jié)果為0,無法檢索出“2型糖尿病”、“2-糖尿病”、“2-型糖尿病”等目標(biāo)詞。
檢索白介素12時,使用“白介素%12”作為檢索詞,可以檢索出“白介素12”,卻無法檢索出“白介素-12”等目標(biāo)詞;使用“鈷%60”檢索鈷60的相關(guān)文獻(xiàn)時,可以檢索出“鈷60”、“鈷DT60”等結(jié)果,但無法檢索出“鈷-60” (表4)。
從以上檢索試驗可以看出,通配符“%”用于數(shù)字和漢字之間,無法檢索出數(shù)字和漢字之間有特殊符號的目標(biāo)詞,這是通配符“%”存在的一個缺陷。
表4 “數(shù)字+特殊符號+漢字”的檢索結(jié)果
3.1.3 “英文字母+特殊符號+漢字”的檢索
由上述3.1.2的檢索情況,筆者不禁聯(lián)想到同屬于ASCII字符的英文字母與漢字中間有特殊符號的目標(biāo)詞。當(dāng)筆者使用通配符“%”檢索“英文字母+特殊符號+漢字”或“漢字+特殊符號+英文字母”形式的目標(biāo)詞時,同樣出現(xiàn)了漏檢情況。例如,當(dāng)檢索K+通道的各種形式(檢索試驗并未對“鉀離子通道”等中文表達(dá)方式進(jìn)行檢索)時,用“K%通道”進(jìn)行檢索,可以檢索出KAPT通道、KV通道、KCa通道、K通道等結(jié)果,卻檢索不出K+通道和K離子通道(表5)。
表5 “英文字母+特殊符號+漢字”的檢索結(jié)果
同樣,檢索“漢字+特殊符號+英文字母”形式的目標(biāo)詞時,將通配符“%”置于檢索詞中間進(jìn)行檢索,如使用“血管內(nèi)皮生長因子%A”進(jìn)行檢索時,可以檢索出“血管內(nèi)皮生長因子A”,但卻無法檢索出"血管內(nèi)皮生長因子-A"等目標(biāo)詞。
從以上的檢索情況可以看出,在Sinomed中,通配符“%”用于英文字母與漢字之間,無法檢索出英文字母與漢字之間有特殊符號的目標(biāo)詞,這是通配符“%”檢索存在的又一缺陷。
3.1.4 “英文字母+特殊符號+數(shù)字”的檢索
與上述特殊符號連接數(shù)字/英文和漢字形式的目標(biāo)詞的檢索結(jié)果情況類似,通配符“%”對英文字母與數(shù)字之間有特殊符號的目標(biāo)詞也存在漏檢情況。
例如,用“Co%60”作為檢索詞,可檢索出“Co+英文字母/阿拉伯?dāng)?shù)字+60”形式的結(jié)果以及“Co60”,卻無法檢索出Co^60和Co-60這類英文字母和阿拉伯?dāng)?shù)字中間有特殊符號的目標(biāo)詞。同樣的,“60%Co”可檢索出“60Co”,卻無法檢索出60^Co和60-Co(表6)。
表6 “英文字母+特殊符號+漢字”的檢索結(jié)果
通過以上的檢索試驗可以看出,英文字母與阿拉伯?dāng)?shù)字組成的字符串,用通配符“%”進(jìn)行檢索時,不會出現(xiàn)漏檢情況;但英文字母與阿拉伯?dāng)?shù)字之間有特殊符號的目標(biāo)詞,用通配符“%”進(jìn)行檢索,則會出現(xiàn)漏檢。
3.1.5 “英文字母+特殊符號+英文字母”的檢索
還有一種比較常見的組合是“英文字母+特殊符號+英文字母”的形式,通配符“%”對特殊符號前后連接英文字母的目標(biāo)詞進(jìn)行檢索時,也常會出現(xiàn)漏檢。
以“RT%PCR”為例進(jìn)行檢索,可檢索出“RT+英文字母+PCR”以及“RTPCR”的結(jié)果,但卻檢索不出“RT-PCR”等英文字母之間有特殊符號的結(jié)果,情況與上述ASCII字符之間有特殊符號的檢索情況類似。
綜上所述,通配符“%”用于同類字符中間進(jìn)行前后方一致檢索,一般不會造成漏檢。例如,漢字與漢字之間、英文字母與英文字母之間及英文字母與阿拉伯?dāng)?shù)字之間。但通配符“%”在檢索百分?jǐn)?shù)時具有先天的缺陷,并且用于不同類型字符中間進(jìn)行前后方一致檢索時,會造成漏檢,如“數(shù)字、特殊符號、漢字”的組合、“英文字母、特殊符號、漢字”的組合、“英文字母、特殊符號、數(shù)字”的組合以及“英文字母、特殊符號、英文字母”的組合等。
SinoMed數(shù)據(jù)庫中,單字通配符“?”在檢索中可替代任意一個字符。但筆者在檢索時發(fā)現(xiàn),單字通配符“?”在檢索包含特殊符號的目標(biāo)詞時,也常常出現(xiàn)漏檢,情況與任意通配符“%”的漏檢情況類似。
由此可見,單字通配符“?”通常替代一個同類字符,因此與任意通配符“%”相比,在檢索中出現(xiàn)漏檢的情況更多,用于檢索目標(biāo)詞為英文字母(或數(shù)字)、特殊符號和漢字等非同類字符的組合字符串時,均會造成漏檢。
SinoMed是生物醫(yī)學(xué)領(lǐng)域非常重要的檢索工具,其收錄資源豐富,檢索功能強(qiáng)大。對于專業(yè)檢索人員而言,截詞檢索不僅可以簡化檢索策略式,又可以提高檢索效率。SinoMed提供的截詞檢索功能比較全面,對于常規(guī)的檢索任務(wù)表現(xiàn)出色,但依然存在很多有待完善之處。例如,使用通配符“%”和“?”檢索由英文字符(數(shù)字)、特殊符號及漢字組成的混合字符串時,經(jīng)常出現(xiàn)漏檢情況,這是SinoMed檢索系統(tǒng)亟待完善的重要問題。截詞檢索并不是萬能的,專業(yè)檢索人員在檢索SinoMed時,應(yīng)根據(jù)檢索目的和SinoMed的具體功能合理制定檢索策略,不可僅根據(jù)基本的檢索理論一概而論。