文玉鋒 盧潔妤 魏志鵬 楊克虎
(1.西北師范大學(xué)商學(xué)院 甘肅蘭州 730070)
(2.蘭州大學(xué)基礎(chǔ)醫(yī)學(xué)院循證醫(yī)學(xué)中心 甘肅蘭州 730000)
(3.蘭州大學(xué)循證社會(huì)科學(xué)研究中心 甘肅蘭州 730000)
文獻(xiàn)證據(jù)檢索的全面性和可靠性是研究者有效整合科學(xué)研究結(jié)果(research synthesis)的基石,也是衡量系統(tǒng)評(píng)價(jià)(systematic review)與元分析(metaanalysis)科學(xué)性的主要標(biāo)尺。然而,由于各種因素的制約,通過(guò)文獻(xiàn)數(shù)據(jù)庫(kù)所提供的不同題錄項(xiàng)展開(kāi)實(shí)際檢索時(shí),常常存在遺漏相關(guān)文獻(xiàn)的問(wèn)題,從而潛在地造成了系統(tǒng)評(píng)價(jià)與元分析的偏倚。 由此可見(jiàn),對(duì)文獻(xiàn)證據(jù)的檢索質(zhì)量和效率予以評(píng)價(jià)對(duì)于開(kāi)展規(guī)范的循證社會(huì)科學(xué)研究意義重大。
在傳統(tǒng)的文獻(xiàn)檢索效率相關(guān)研究中,研究者一般通過(guò)查全率、查準(zhǔn)率等指標(biāo)對(duì)檢索效率和質(zhì)量加以評(píng)價(jià)。 然而,由于查全率、查準(zhǔn)率等傳統(tǒng)文獻(xiàn)檢索效率評(píng)價(jià)指標(biāo)通常以“全部相關(guān)文獻(xiàn)”為預(yù)設(shè)前提,因此,在實(shí)際應(yīng)用中往往存在著極大的局限性。 為此,研究者需要立足于對(duì)傳統(tǒng)查全率和查準(zhǔn)率指標(biāo)的進(jìn)一步完善,發(fā)展出一些新的評(píng)價(jià)方法。文獻(xiàn)檢索敏感性正是一種植根于查全率和查準(zhǔn)率但卻與之有著一定差別的評(píng)價(jià)指標(biāo)。
關(guān)于檢索的敏感性(sensitivity),諸多研究者已給予了一定關(guān)注。 如Cooper把敏感度等同于查全率,將其定義為“通過(guò)搜索策略從數(shù)據(jù)庫(kù)檢索到的相關(guān)記錄的比例”,即檢索到的相關(guān)記錄數(shù)除以相關(guān)記錄總數(shù)。 與此類似,Cooper 進(jìn)一步對(duì)檢索的精確性(precision)定義為“通過(guò)特定搜索策略檢索到的所有記錄中相關(guān)記錄的比例”,即檢索到的相關(guān)記錄除以檢索到的所有記錄。 事實(shí)上,Cooper 所定義的精確性恰恰對(duì)應(yīng)著查準(zhǔn)率。 Cooper 對(duì)于敏感度(查全率)和精確性(查準(zhǔn)率)的定義,從一定程度上為研究者合理評(píng)估檢索的科學(xué)性提供了思路。然而,計(jì)算查全率需要得到“相關(guān)記錄總數(shù)”,但通常情況下,檢索者對(duì)這一數(shù)據(jù)并不可知;同樣,為計(jì)算查準(zhǔn)率需要事先知道所檢索到的記錄哪些是相關(guān)記錄,這通常也并不可行。為此,查全率和查準(zhǔn)率作為一對(duì)相互支撐的指標(biāo),由于在評(píng)價(jià)中都需要滿足一定的預(yù)設(shè)前提,在實(shí)際操作中存在諸多困難。
由于檢索結(jié)果的穩(wěn)健性和不確定性會(huì)對(duì)系統(tǒng)評(píng)價(jià)和元分析的質(zhì)量產(chǎn)生顯而易見(jiàn)的影響,因此一直受到相關(guān)領(lǐng)域研究者的關(guān)注。 事實(shí)上,早在1977 年,Smith and Glass就在心理治療研究中,試圖將穩(wěn)健性和不確定性相結(jié)合,從而界定一個(gè)有區(qū)別于查全率和查準(zhǔn)率的敏感性指標(biāo),以便將其作為科學(xué)結(jié)果整合的必要前提。 圍繞敏感性評(píng)價(jià),Glass 發(fā)展了三點(diǎn)量表,但受到了廣泛的批評(píng)(如Eyesenck,1978),最終沒(méi)能形成敏感性評(píng)價(jià)的公認(rèn)工具。
回顧本領(lǐng)域的研究可以看出,檢索敏感性問(wèn)題雖然受到了循證社會(huì)科學(xué)領(lǐng)域研究者的關(guān)注,但迄今為止還沒(méi)有完整的評(píng)估方法與結(jié)果。 正是基于這種研究的薄弱點(diǎn),本研究將通過(guò)構(gòu)建新的敏感性評(píng)價(jià)方法,并基于一組實(shí)證數(shù)據(jù),對(duì)不同檢索類型檢索方式的敏感性做出評(píng)價(jià), 以便為系統(tǒng)評(píng)價(jià)和元分析領(lǐng)域的研究者科學(xué)開(kāi)展研究結(jié)果整合工作提供參照。
系統(tǒng)評(píng)價(jià)試圖通過(guò)盡可能多的找到相關(guān)研究來(lái)減少證據(jù)整合的偏倚,同時(shí)盡量減少搜索結(jié)果中需要處理的無(wú)關(guān)數(shù)據(jù)的數(shù)量。這就意味著循證社會(huì)科學(xué)文獻(xiàn)證據(jù)的搜索策略傾向于強(qiáng)調(diào)敏感度。本文所指敏感度與Cooper 的定義有所不同,我們將數(shù)據(jù)集中的所有文獻(xiàn)進(jìn)行抽樣,在不同樣本覆蓋度下,分析特定檢索項(xiàng)目的查全率和查準(zhǔn)率。 應(yīng)用主題、篇名、關(guān)鍵詞、摘要和全文的單項(xiàng)檢索與組合檢索的不同抽樣水平的數(shù)據(jù)與總數(shù)據(jù)中高相關(guān)組和中相關(guān)組進(jìn)行匹配,計(jì)算高相關(guān)組的匹配比例與中相關(guān)組匹配比例。數(shù)據(jù)指標(biāo)用檢索結(jié)果與總數(shù)據(jù)集的匹配比例來(lái)評(píng)估:
式(1)中,X 表示檢索結(jié)果與總數(shù)據(jù)集的匹配篇數(shù),Y 表示總數(shù)據(jù)集中高相關(guān)(或中相關(guān))的文獻(xiàn)總數(shù),i 表述不同檢索項(xiàng)(如主題單項(xiàng)檢索,或主題和篇名的組合檢索等),m 表示每10%抽樣水平的差值(10%到90%)。
式(2)中,X 表述不同檢索項(xiàng)(如主題單項(xiàng)檢索,或主題和篇名的組合檢索等),p 表示每10%抽樣水平的差值(10%到90%)N 為樣本量(本數(shù)據(jù)集中數(shù)值為8),S 為針對(duì)每種檢索方式計(jì)算的標(biāo)準(zhǔn)差系數(shù),用來(lái)衡量敏感度。 在敏感度的分析中,如果S 越大,說(shuō)明不同抽樣水平下的匹配比例離散程度越大,所匹配數(shù)據(jù)的敏感性越大。
(1)總體數(shù)據(jù)集。本研究以CNKI 數(shù)據(jù)庫(kù)為研究對(duì)象,選擇文獻(xiàn)數(shù)量適中、社會(huì)科學(xué)領(lǐng)域特定的研究議題——“社會(huì)認(rèn)識(shí)論”為檢索詞,采用檢索式:(主題=社會(huì)認(rèn)識(shí)論)OR(全文=社會(huì)認(rèn)識(shí)論)OR(篇名=社會(huì)認(rèn)識(shí)論)OR(關(guān)鍵詞=社會(huì)認(rèn)識(shí)論)OR(摘要=社會(huì)認(rèn)識(shí)論),使用具有擴(kuò)檢意義的or 連接CNKI 中各種檢索方式進(jìn)行第一步基礎(chǔ)檢索。為了達(dá)到相關(guān)原始學(xué)術(shù)文獻(xiàn)系統(tǒng)性檢索的目的,對(duì)上一步得到的數(shù)據(jù)集進(jìn)行深入分析、擴(kuò)充,運(yùn)用滾雪球方法對(duì)于參考文獻(xiàn)進(jìn)行迭代,進(jìn)行6 輪滾雪球后,補(bǔ)充文獻(xiàn)273 篇;再改變檢索方式,使用“社會(huì)認(rèn)識(shí)論”代表作者檢索進(jìn)行文獻(xiàn)補(bǔ)充,添加文獻(xiàn)77 篇。 當(dāng)不再有新的文獻(xiàn)被納入時(shí),下載了發(fā)表于2010 年1 月1 號(hào)至2020 年1月1 號(hào)之間的中文文獻(xiàn)的篇名、摘要和關(guān)鍵詞等題錄信息,通過(guò)數(shù)據(jù)清洗,剔除了其中有重復(fù)收錄問(wèn)題等數(shù)據(jù),總體數(shù)據(jù)集共收錄文獻(xiàn)題錄數(shù)據(jù)1856 條。
(2)文獻(xiàn)相關(guān)性的分類。 總文獻(xiàn)數(shù)據(jù)集中既包括改變各種檢索方式檢索到的文獻(xiàn),也包括和社會(huì)認(rèn)識(shí)論有關(guān)的相關(guān)文獻(xiàn),因此,總文獻(xiàn)數(shù)據(jù)集中文獻(xiàn)與檢索詞之間的相關(guān)程度必然有高低之分。 研究者依據(jù)分級(jí)標(biāo)準(zhǔn),判斷總文獻(xiàn)數(shù)據(jù)集中全部文獻(xiàn)與“社會(huì)認(rèn)識(shí)論”的相關(guān)度,如文獻(xiàn)以“社會(huì)認(rèn)識(shí)論”“社會(huì)認(rèn)識(shí)層次論”“社會(huì)認(rèn)識(shí)方法論”“社會(huì)知識(shí)論” 等為主題,則判定為高度相關(guān);如果文獻(xiàn)與“女性主義認(rèn)識(shí)論”“馬克思主義認(rèn)識(shí)論”“哲學(xué)認(rèn)識(shí)論”等內(nèi)容有關(guān),則判定為中度相關(guān);其它文章則為低度相關(guān)。 具體分級(jí)過(guò)程如下:
首先兩名研究者依照分級(jí)標(biāo)準(zhǔn)背對(duì)背閱讀標(biāo)題、摘要及全文判定文獻(xiàn)與“社會(huì)認(rèn)識(shí)論”的相關(guān)度,兩人共同判定一致的文獻(xiàn)有1559 篇。剩下298 篇判斷不一致的文獻(xiàn),兩人進(jìn)行討論重新判定后,確定250 篇文獻(xiàn)的相關(guān)程度。剩下48 篇不能夠確定,邀請(qǐng)本領(lǐng)域?qū)<疫M(jìn)行第三次討論,確定剩下的48 篇的相關(guān)程度。分級(jí)完成后,總文獻(xiàn)數(shù)據(jù)集中共確定與“社會(huì)認(rèn)識(shí)論”高度相關(guān)文獻(xiàn)有103 篇,269 篇中相關(guān)文獻(xiàn),1484 篇低相關(guān)文獻(xiàn)。
本研究的基本分析過(guò)程為:
第一步,在CNKI 數(shù)據(jù)庫(kù)中,以“社會(huì)認(rèn)識(shí)論”為檢索詞,采用主題、篇名、關(guān)鍵詞、摘要、全文這五種檢索方式進(jìn)行單項(xiàng)檢索后,選擇邏輯運(yùn)算符and 和or 連接上述五種不同的檢索方式,分別進(jìn)行二項(xiàng)、三項(xiàng)、四項(xiàng)、五項(xiàng)組合檢索。 將每種檢索方式檢索到的發(fā)表于2010 年1 月1 日至2020 年1 月1 日之間的中文文獻(xiàn)的篇名、摘要和關(guān)鍵詞等題錄信息下載,為下一步數(shù)據(jù)抽樣、匹配、評(píng)價(jià)敏感性提供基礎(chǔ)。
第二步,針對(duì)每種檢索結(jié)果,使用Python3.7 對(duì)第一步所下載中文文獻(xiàn)的題錄信息進(jìn)行數(shù)據(jù)歸一化處理,并且將處理后的數(shù)據(jù)采用隨機(jī)抽樣的方法,依次隨機(jī)抽取出每種檢索結(jié)果在10%,20%,30%,40%,50%,60%,70%,80%,90%等不同抽樣水平下的文獻(xiàn)數(shù)據(jù)。
第三步,以Python 為工具,將每種檢索結(jié)果在不同抽樣水平的文獻(xiàn)篇名信息視為來(lái)源集, 將總數(shù)據(jù)集中高相關(guān)和中相關(guān)文獻(xiàn)數(shù)據(jù)的篇名信息視為目標(biāo)集。如果來(lái)源集中篇名信息與目標(biāo)集中篇名信息相同則匹配成功,計(jì)數(shù)為1,反之則匹配失敗,逐條索引計(jì)數(shù),由此可得到不同檢索結(jié)果在不同抽樣水平下的文獻(xiàn),與總數(shù)據(jù)集中的高度及中度相關(guān)文獻(xiàn)的重合數(shù),以確定每種檢索方式在不同抽樣水平上的差別。
第四步,對(duì)每種檢索方式的敏感度做出評(píng)價(jià)。得到上一步的匹配數(shù)據(jù)后,針對(duì)每種檢索方式,計(jì)算每10%抽樣水平的匹配比例差值,再統(tǒng)計(jì)其方差和標(biāo)準(zhǔn)差系數(shù)。 通過(guò)對(duì)標(biāo)準(zhǔn)差和方差結(jié)果進(jìn)行比較排序,如果特定的檢索方式值都很小,證明在不同抽樣水平上數(shù)據(jù)離散程度小,結(jié)果不敏感,也證明檢索方式是穩(wěn)健的。根據(jù)上述系數(shù)之間的比較,對(duì)不同檢索方式的敏感性做出評(píng)價(jià)。
單項(xiàng)檢索的數(shù)據(jù)總體來(lái)看,不同檢索方式在每一抽樣水平上的匹配比例總體呈現(xiàn)上升趨勢(shì)(見(jiàn)表1)。通過(guò)每10%抽樣水平的匹配比例之差,計(jì)算不同檢索方式的方差與標(biāo)準(zhǔn)差發(fā)現(xiàn), 在與高相關(guān)的文獻(xiàn)匹配度中,篇名檢索的標(biāo)準(zhǔn)差值最小,約為0,全文檢索的標(biāo)準(zhǔn)差最大,由此看來(lái),篇名單項(xiàng)檢索時(shí),無(wú)論隨機(jī)抽樣樣本量有多少,在高相關(guān)數(shù)據(jù)集中的結(jié)果都比較穩(wěn)定,敏感度較低;而全文檢索最敏感,受抽樣樣本量的影響較大。 同理,在中相關(guān)數(shù)據(jù)集,由于篇名項(xiàng)檢索不到與主題詞中度相關(guān)文獻(xiàn), 因此每一水平的數(shù)據(jù)都顯示為0。 除去篇名之外,標(biāo)準(zhǔn)差大小顯示,摘要檢索為最穩(wěn)定、敏感度最低的方式,全文檢索同樣敏感性較高。
表1 單項(xiàng)檢索在不同抽樣水平上的飽和度
組合檢索本文選擇了同樣的方式, 通過(guò)不同抽樣水平與高相關(guān)、中相關(guān)數(shù)據(jù)集的匹配比例,計(jì)算其標(biāo)準(zhǔn)差與方差。通過(guò)匯總二項(xiàng)、三項(xiàng)、四項(xiàng)、五項(xiàng)組合方式的標(biāo)準(zhǔn)差系數(shù)(見(jiàn)表2),來(lái)代表不同檢索項(xiàng)的數(shù)據(jù)結(jié)果的敏感程度。
由表2 可見(jiàn),組合檢索項(xiàng)的標(biāo)準(zhǔn)差分布在0-9.063%之間,“and”連接符的組合項(xiàng)敏感度明顯要低于“or”連接的檢索式。 首先,高相關(guān)數(shù)據(jù)集的檢索項(xiàng)標(biāo)準(zhǔn)差系數(shù),最小的組合項(xiàng)標(biāo)準(zhǔn)差為0,為出現(xiàn)“篇名and”項(xiàng)的多項(xiàng)式檢索,最大標(biāo)準(zhǔn)差為“主題or 關(guān)鍵詞or 全文”(9.063%);其次,中相關(guān)數(shù)據(jù)集的標(biāo)準(zhǔn)差系數(shù)范圍在0.192-4.217%之間, 最不敏感的為“主題and 關(guān)鍵詞and 摘要and 全文”, 最敏感的組合式為“主題or 篇名or 全文”(4.217%)。對(duì)于各個(gè)組合檢索項(xiàng)敏感度具體分析如下:
表2 組合檢索隨機(jī)抽樣匹配比例的標(biāo)準(zhǔn)差
(1)二項(xiàng)組合檢索的敏感度分析(見(jiàn)文后附錄1)。在特定檢索方式的檢索結(jié)果與高相關(guān)文獻(xiàn)匹配度時(shí),如果使用“and”運(yùn)算符,凡是出現(xiàn)“篇名”選項(xiàng),標(biāo)準(zhǔn)差系數(shù)和方差都趨于0。 如“主題and 篇名”“篇名and 關(guān)鍵詞”“篇名and 全文”和“篇名and 摘要”的標(biāo)準(zhǔn)差為0.005,與單項(xiàng)檢索結(jié)果一致;離散程度最大、敏感性最高的檢索方式是“主題and 關(guān)鍵詞”。 使用“or”運(yùn)算符,敏感度最低是“篇名or 摘要”,最高為“關(guān)鍵詞or 全文”且有“全文”選項(xiàng)的二項(xiàng)檢索式敏感度都偏大。
附錄1 二項(xiàng)組合檢索在不同抽樣水平的敏感度數(shù)據(jù)
在檢索與中相關(guān)文獻(xiàn)匹配度時(shí)(見(jiàn)文后附錄2),依據(jù)標(biāo)準(zhǔn)差系數(shù)排序,分兩種運(yùn)算符可以選擇的最優(yōu)檢索方式:“關(guān)鍵詞and 摘要”(0.341%),“篇名or關(guān)鍵詞”(0.476%),相反最不可取的是:“主題or 全文”“摘要and 全文”。
附錄2 三項(xiàng)組合檢索在不同抽樣水平的敏感度數(shù)據(jù)
(2)三項(xiàng)組合檢索的敏感度分析。高相關(guān)文獻(xiàn)匹配度的敏感性結(jié)論與二項(xiàng)組合檢索相似,使用and運(yùn)算符連接“篇名and”選項(xiàng)會(huì)降低數(shù)據(jù)的敏感度,標(biāo)準(zhǔn)差系數(shù)趨于0。使用or 運(yùn)算符時(shí),“主題or 篇名or關(guān)鍵詞”的標(biāo)準(zhǔn)差為or 運(yùn)算結(jié)果中最小的。另外,主題、關(guān)鍵詞、全文,三項(xiàng)連接的檢索式,無(wú)論用哪種運(yùn)算符,敏感度都較高。
在中相關(guān)的數(shù)據(jù)集中,使用“and”運(yùn)算符連接“篇名”檢索項(xiàng)時(shí),會(huì)縮小檢索范圍至只有篇名單項(xiàng)檢索的結(jié)果,導(dǎo)致沒(méi)有與之匹配的中相關(guān)文獻(xiàn),使得標(biāo)準(zhǔn)差為零;“主題and 關(guān)鍵詞and 全文” 這一檢索項(xiàng)相較而言敏感度最高,但也僅有0.728%,“主題and 關(guān)鍵詞and 摘要”“主題and 摘要and 全文”“關(guān)鍵詞and 摘要and 全文”這三項(xiàng)敏感度相差不大。 使用or 運(yùn)算符連接全文為檢索項(xiàng)時(shí),擴(kuò)大檢索范圍后敏感度都會(huì)較高,其中“主題or 篇名or 全文”敏感度最高,離散程度大;“主題or 篇名or 關(guān)鍵詞”敏感度低,表現(xiàn)相較于其它檢索方式更加良好。
(3)四項(xiàng)組合檢索的敏感度分析(見(jiàn)文后附錄3)。高相關(guān)數(shù)據(jù)集中“主題、篇名、關(guān)鍵詞、全文”,用and運(yùn)算符效果較好,敏感度達(dá)到最優(yōu),用or 運(yùn)算符連接時(shí)標(biāo)準(zhǔn)差為6.806%為最大值。 相反,“主題、關(guān)鍵詞、摘要、全文”的檢索式在使用and 連接時(shí)是標(biāo)準(zhǔn)差最大的,在用or 連接卻是最小值。因此,四項(xiàng)檢索式在考慮結(jié)果的敏感程度時(shí),最優(yōu)可選擇“主題and篇名and 關(guān)鍵詞and 全文”或“主題or 關(guān)鍵詞or 摘要or 全文”。 中相關(guān)集僅有唯一可判斷敏感度的檢索式“主題and 關(guān)鍵詞and 摘要and 全文”,標(biāo)準(zhǔn)差為0.192%,數(shù)據(jù)敏感度低,結(jié)果較穩(wěn)定。
附錄3 四項(xiàng)組合檢索在不同抽樣水平的敏感度數(shù)據(jù)
(4)五項(xiàng)組合的敏感度分析(見(jiàn)文后附錄4)。 五項(xiàng)搭配檢索只有一種組合方式,不論是在高相關(guān)還是在中相關(guān)數(shù)據(jù)集中,使用and 運(yùn)算符得到的文獻(xiàn)檢索的敏感度低,離散程度較小,在各個(gè)抽樣水平上區(qū)別不大,文獻(xiàn)檢索結(jié)果穩(wěn)健,整體上優(yōu)于使用or 運(yùn)算符。
附錄4 五項(xiàng)組合檢索在不同抽樣水平的敏感度數(shù)據(jù)
本文探索了在不同檢索方式的情況下,各個(gè)檢索項(xiàng)的敏感度排序,選擇最優(yōu)的敏感度檢索式。綜合比較之后,列舉了每種組合方式的最優(yōu)選擇(見(jiàn)表3)。
表3 不同檢索方式的最優(yōu)項(xiàng)
綜合比較來(lái)看,使用“and”運(yùn)算符檢索的方差與標(biāo)準(zhǔn)差系數(shù)要比“or”運(yùn)算符的小,這與他們本身的性質(zhì)有關(guān)。 “and”縮小了結(jié)果范圍,因此抽取樣本的總體容量小,重復(fù)性會(huì)增加,敏感性比較低;“or”擴(kuò)大了檢索范圍,就會(huì)增大抽樣樣本量的范圍,數(shù)據(jù)離散程度變大,敏感性增強(qiáng)。 其它檢索方式的具體情況如下:
(1)單項(xiàng)檢索中,“篇名”檢索高相關(guān)文獻(xiàn)時(shí),敏感度最低。由于篇名檢索的內(nèi)容更加精確,本身就考慮了題目中所包含“社會(huì)認(rèn)識(shí)論”的文章,且本身檢索結(jié)果較少,在不同的抽樣水平下都可以與高相關(guān)集精確匹配,因此單項(xiàng)檢索的“篇名”項(xiàng)是敏感度最優(yōu)的選項(xiàng);另一方面,“摘要”的敏感性次之,且在中相關(guān)數(shù)據(jù)集中最優(yōu)。 這一結(jié)果出乎意料,因?yàn)橥ǔ!瓣P(guān)鍵詞”檢索會(huì)比“摘要”更精確一點(diǎn),但數(shù)據(jù)結(jié)果看來(lái)并沒(méi)有。 作者瀏覽以摘要為檢索項(xiàng)檢索到的文獻(xiàn),發(fā)現(xiàn)一部分是“篇名”為“社會(huì)認(rèn)識(shí)論”,另一部分是“關(guān)鍵詞”為“社會(huì)認(rèn)識(shí)論”,還有一部分兩者都沒(méi)有出現(xiàn),但閱讀摘要后發(fā)現(xiàn),文章中有引用到這一概念,或者以一小部分分支的形式出現(xiàn)。因此“摘要”檢索可以認(rèn)為既有篇名、關(guān)鍵詞的精確性,又有全文檢索的包容性,綜合來(lái)看結(jié)果中的中度相關(guān)的文獻(xiàn)占比較大,因此在這一數(shù)據(jù)集中表現(xiàn)最優(yōu)。
(2)無(wú)論幾項(xiàng)檢索項(xiàng)組合在一起,凡是出現(xiàn)“篇名”并且用“and”連接符連接各選項(xiàng)的檢索式,都會(huì)出現(xiàn)不同抽樣的水平下,匹配比例的離散程度趨于0 的情況。 在高相關(guān)數(shù)據(jù)集中,“篇名”不僅是最優(yōu)選項(xiàng),組合檢索更加縮小了范圍,如本篇數(shù)據(jù)檢索所使用的“社會(huì)認(rèn)識(shí)論”主題詞,“篇名”單項(xiàng)檢索出31 條以下的結(jié)果,而使用“and”連接符連接其它選項(xiàng)出現(xiàn)了23 條結(jié)果,這不僅縮小了范圍,而且結(jié)果與高相關(guān)數(shù)據(jù)集實(shí)現(xiàn)完全匹配,因此匹配比例的離散程度最小。而中相關(guān)數(shù)據(jù)集中,同樣是延續(xù)了“摘要”最穩(wěn)定的方法,但也能看出,每種最優(yōu)項(xiàng)都盡量避免與篇名的組合,由此可見(jiàn),中度相關(guān)文獻(xiàn)更要求數(shù)據(jù)的一般飽和度,即不僅要考慮檢索結(jié)果的精確,也要更加全面,因此在這種情況下,與“摘要”組合,多項(xiàng)式再連接“關(guān)鍵詞and 摘要”會(huì)是更明確的選擇。
(3)單項(xiàng)檢索和組合檢索的最優(yōu)結(jié)果有很大的相似性,高相關(guān)中單項(xiàng)檢索的“篇名”選項(xiàng)敏感度最低,因此在后續(xù)組合檢索,如果使用“and”連接符縮小范圍,組合檢索式的敏感程度同樣趨于0,而在中相關(guān)集中“摘要”檢索也是同理。 這一結(jié)果可能也與我們所選擇的“社會(huì)認(rèn)識(shí)論”為搜索詞有關(guān),本身該領(lǐng)域的研究者以及成果數(shù)量較少, 搜索結(jié)果也不會(huì)很多。盡管我們想要盡可能多的檢索相關(guān)文獻(xiàn),但本身受到文獻(xiàn)研究量以及數(shù)據(jù)庫(kù)的限制,越是增加條件的檢索項(xiàng),結(jié)果就會(huì)越相近。
續(xù) 附錄1
續(xù) 附錄2
首先,本文發(fā)現(xiàn)不同連接符的使用會(huì)大大影響敏感度。 總體來(lái)看,“and”運(yùn)算符連接的組合項(xiàng)會(huì)比“or”檢索的結(jié)果敏感度更低,離散程度更小,這與他們本身的性質(zhì)有關(guān),因此考慮到檢索結(jié)果的敏感程度,需優(yōu)先選擇“and”運(yùn)算符的組合方式。
其次,在檢索高度相關(guān)和中度相關(guān)文獻(xiàn)時(shí),也需要考慮不同的檢索方式,高度相關(guān)文獻(xiàn)基于“篇名”檢索得到的結(jié)果敏感度更低,中度相關(guān)文獻(xiàn)優(yōu)先考慮基于“摘要”項(xiàng)的檢索方式。
再次,根據(jù)整體數(shù)據(jù)集的標(biāo)準(zhǔn)差系數(shù)比較,除去高相關(guān)文獻(xiàn)中連接“篇名and”的檢索式,標(biāo)準(zhǔn)差趨于0 以外,凡是使用“and”連接并同時(shí)出現(xiàn)“篇名、關(guān)鍵詞、摘要”這三項(xiàng)時(shí),檢索項(xiàng)標(biāo)準(zhǔn)差較低,表現(xiàn)良好,文獻(xiàn)檢索的穩(wěn)健性也比較強(qiáng);除去中相關(guān)文獻(xiàn)匹配數(shù)量為0 的情況,“主題and 關(guān)鍵詞and 摘要and 全文”在檢索時(shí),敏感度最優(yōu)。
本文提出并發(fā)展了敏感性這一新的文獻(xiàn)證據(jù)檢索質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),并據(jù)此基于一個(gè)窮盡檢索的文獻(xiàn)數(shù)據(jù)集,對(duì)不同檢索方式的檢索質(zhì)量進(jìn)行了評(píng)價(jià)。本文所獲得的研究發(fā)現(xiàn)將與本專題前后其他研究一起,為構(gòu)建科學(xué)、全面的文獻(xiàn)證據(jù)檢索評(píng)價(jià)指標(biāo)體系,從而有效提升循證社會(huì)科學(xué)的研究質(zhì)量奠定基礎(chǔ)。