張?jiān)?1.東北電力大學(xué)信息工程學(xué)院,吉林 吉林 132001;2.吉林醫(yī)藥學(xué)院,吉林吉林 132013)
醫(yī)學(xué)白色文獻(xiàn)知識(shí)元標(biāo)引實(shí)踐探討
張?jiān)?,2(1.東北電力大學(xué)信息工程學(xué)院,吉林 吉林 132001;2.吉林醫(yī)藥學(xué)院,吉林吉林 132013)
醫(yī)學(xué)白色文獻(xiàn);知識(shí)元
醫(yī)學(xué)文獻(xiàn)資源根據(jù)信息來(lái)源的不同,可分為黑色、灰色和白色文獻(xiàn)三種。醫(yī)學(xué)白色文獻(xiàn)指經(jīng)過(guò)正式出版的、并在社會(huì)中公開(kāi)流通的文獻(xiàn),包括圖書(shū)、報(bào)紙、期刊等;灰色文獻(xiàn)尚屬于一種新型信息源,指非公開(kāi)出版的文獻(xiàn),包括非公開(kāi)出版的政府文獻(xiàn)、學(xué)位論文、會(huì)議文獻(xiàn)、科技報(bào)告、技術(shù)檔案、內(nèi)部刊物、交換資料、試驗(yàn)數(shù)據(jù)等;黑色文獻(xiàn)是指非公開(kāi)出版發(fā)行或者發(fā)行范圍狹窄、內(nèi)容保密的文獻(xiàn)[1-3]。其中醫(yī)學(xué)白色文獻(xiàn)的內(nèi)容價(jià)值和影響力最為巨大,是醫(yī)務(wù)工作者最經(jīng)常使用的文獻(xiàn)種類(lèi),本文對(duì)此加以論述。
醫(yī)學(xué)文獻(xiàn)知識(shí)的組織方法與文獻(xiàn)載體是同步發(fā)展的,如紙質(zhì)文獻(xiàn)常用的知識(shí)組織方式為目錄組織。在電子文獻(xiàn)時(shí)代,知識(shí)的組織方式更為智能,目前主流的知識(shí)組織方式為信息元組織,如關(guān)鍵詞、作者、出版機(jī)構(gòu)、題名和摘要等均屬于信息元的組織方式。下一代的信息組織方式為知識(shí)元組織。所謂知識(shí)元,是指不可再分割的具有完備知識(shí)表達(dá)的知識(shí)單位,兩者比較,知識(shí)元組織方式具有劃時(shí)代的意義。首先知識(shí)元是顯性知識(shí)的最小可控單位,如一篇文章通過(guò)關(guān)鍵詞、作者等信息只能表現(xiàn)出該文章某一個(gè)方面,顯然不能代表文章的全部。與之比較,信息元能夠挖掘出文章更多有價(jià)值的信息;另外,知識(shí)元是具有一定結(jié)構(gòu)的,通過(guò)對(duì)知識(shí)元結(jié)構(gòu)人工或自動(dòng)分析,可以導(dǎo)致知識(shí)價(jià)值的增值,甚至是催生新的知識(shí),可見(jiàn)醫(yī)學(xué)文獻(xiàn)的知識(shí)元組織是目前最佳的知識(shí)方式,而對(duì)醫(yī)學(xué)文獻(xiàn)知識(shí)元的提取和標(biāo)引,是實(shí)現(xiàn)知識(shí)元組織的基礎(chǔ)和前提。
中文文獻(xiàn)在正常情況下文獻(xiàn)的邏輯意義由句子表示,分詞的目的就是將以句為單位轉(zhuǎn)化為以詞為單位,縮小文獻(xiàn)的知識(shí)組織粒度,便于對(duì)文獻(xiàn)內(nèi)容進(jìn)行深入的數(shù)據(jù)挖掘。目前常用的分詞算法主要包括基于理解的分詞方法、基于詞頻統(tǒng)計(jì)的分詞方法和基于字符串匹配的分詞方法三種,作者選擇字符串匹配算法實(shí)現(xiàn)醫(yī)學(xué)白色文獻(xiàn)的分詞,其原因在于:一方面醫(yī)學(xué)白色文獻(xiàn)的種類(lèi)和數(shù)量非常龐大,字符串匹配算法是首選的分詞方法。另一方面從專(zhuān)業(yè)字典構(gòu)建的難易程度分析,白色文獻(xiàn)從編寫(xiě)至文獻(xiàn)出版單位的審核、發(fā)表均經(jīng)過(guò)作者和編審仔細(xì)的閱讀和修改過(guò)程,基本保證了用詞規(guī)范和準(zhǔn)確,這極大降低了專(zhuān)業(yè)字典的構(gòu)建難度。
分詞后,由詞語(yǔ)直接作為文獻(xiàn)組織的基本單位仍然不是十分理想,主要缺陷為文獻(xiàn)組織粒度過(guò)于細(xì)小,如一篇1萬(wàn)字的醫(yī)學(xué)白色文獻(xiàn),可能劃分為三千個(gè)詞語(yǔ),若100萬(wàn)篇這樣的文獻(xiàn),將會(huì)出現(xiàn)30億個(gè)詞,再由此產(chǎn)生的知識(shí)鏈接數(shù)量是不可想象的;最主要的是并不是每一個(gè)詞語(yǔ)均能表述文獻(xiàn)表述的重點(diǎn),相應(yīng)的也就沒(méi)知識(shí)鏈接的價(jià)值和意義。因此需要從已有的分詞中找出關(guān)鍵詞,濃縮文獻(xiàn)有價(jià)值的信息。
向量空間模型(Vector Space Mode,VSM)是于20世紀(jì)70年代由Salton等人提出的一種模型,是文獻(xiàn)資源的另一種表示方法,并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)[4]。VSM能夠?qū)⑽墨I(xiàn)內(nèi)容進(jìn)行處理,簡(jiǎn)化為向量空間中的向量運(yùn)算。并且它以空間上的相似度表達(dá)語(yǔ)義的相似度,直觀易懂。VSM模型由以下幾部分組成,分別為:一、文檔。文檔就是文獻(xiàn)內(nèi)容的本身,如本論文就是一個(gè)文檔。二、特征項(xiàng)。特征項(xiàng)是表示文檔的語(yǔ)言單位,如上文的研究過(guò)程,將以句子作為醫(yī)學(xué)白色文獻(xiàn)的基本單位調(diào)整為詞語(yǔ),每一個(gè)詞語(yǔ)就是一個(gè)特征項(xiàng)。三、特征項(xiàng)權(quán)重。特征權(quán)重項(xiàng)標(biāo)識(shí)特征項(xiàng)的重要程度,用來(lái)在眾多的特征項(xiàng)中,找到有價(jià)值有意義的特征項(xiàng)。實(shí)質(zhì)上就是從詞語(yǔ)中提取關(guān)鍵詞的過(guò)程。
特征項(xiàng)權(quán)重的計(jì)算方法。特征項(xiàng)權(quán)重的主要的計(jì)算方法包括布爾權(quán)重、特征頻率和TFIDF等幾種。其中布爾權(quán)重和TF權(quán)重計(jì)算機(jī)方法具有一定的局限性,如僅考慮了特征項(xiàng)在文檔出現(xiàn)的情況;TFIDF算法要優(yōu)于前兩者,卻忽略了詞語(yǔ)在文中位置所提供的參考價(jià)值,如不同的詞語(yǔ)出現(xiàn)在標(biāo)題、關(guān)鍵詞和正文等處,所內(nèi)涵的價(jià)值信息是不等的,因此對(duì)TFIDF算法進(jìn)行修改,即在傳統(tǒng)TFIDF算法的基礎(chǔ)上,增加了詞語(yǔ)的位置權(quán)值系統(tǒng)K值[5-6],若同一詞語(yǔ)出現(xiàn)在多個(gè)位置上,按最大值計(jì)算。
提取關(guān)鍵詞后,接下的工作就是將關(guān)鍵詞還原回文獻(xiàn)中所在的句子中,然后對(duì)句子進(jìn)行特征分析,如判斷句子是否完整等等,得到句子即為關(guān)鍵句,至此實(shí)質(zhì)上意味著知識(shí)元提取的步驟已經(jīng)完成,知識(shí)元就包括在關(guān)鍵句中。最后按著知識(shí)元的結(jié)構(gòu)對(duì)關(guān)鍵句進(jìn)行描述就完成了整個(gè)知識(shí)元標(biāo)引的過(guò)程。
知識(shí)元標(biāo)引完成后,實(shí)現(xiàn)了醫(yī)學(xué)白色文獻(xiàn)的知識(shí)元層面組織,降低了知識(shí)組織的粒度,但這并不是知識(shí)元標(biāo)引的終點(diǎn),如以CNKI數(shù)據(jù)庫(kù)為例,筆者以HBV為檢索詞進(jìn)行主題檢索,總計(jì)得到47 517個(gè)結(jié)果,若在知識(shí)元的組織情況下進(jìn)行知識(shí)元檢索,必將得到更多的結(jié)果,醫(yī)護(hù)人員在海量的信息面前更將無(wú)從下手。因此在未來(lái)的工作中,設(shè)計(jì)合理醫(yī)學(xué)白色文獻(xiàn)知識(shí)元描述框架和知識(shí)元鏈接框架,為醫(yī)護(hù)人員信息的檢索和獲取提供便捷。
[1]梅玲.公共圖書(shū)館灰色文獻(xiàn)收集實(shí)踐與思考——以貴州省圖書(shū)館為例[J].圖書(shū)館學(xué)研究,2014(3):33-35.
[2]楊國(guó)華.灰色文獻(xiàn)的探索與研究[J].河南圖書(shū)館學(xué)刊,2002,22(4):6-8.
[3]楊振力,趙躍亮.灰色文獻(xiàn)數(shù)字化建設(shè)思考[J].四川圖書(shū)館學(xué)報(bào),2012(1):44-47.
[4]曲立平.基于向量空間模型的方面挖掘方法研究[D].哈爾濱:哈爾濱工程大學(xué),2013.
[5]付蕾.知識(shí)元標(biāo)引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].上海:華中師范大學(xué),2009.
[6]王春利.護(hù)理學(xué)理論和實(shí)踐知識(shí)的組織與映射研究[J].中國(guó)農(nóng)村衛(wèi)生事業(yè)管理,2014,34(8):1001-1003.
G254
B
10.13845/j.cnki.issn1673-2995.2015.04.015
1673-2995(2015)04-0270-02
張?jiān)?1981-),男(漢族),館員,碩士在讀.
2014-10-26)