• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)清洗“DEAN”流程的健康信息領域研究熱點探測

      2018-12-08 11:17:26潘瑋鄭鵬黃錦泉
      現(xiàn)代情報 2018年10期
      關鍵詞:研究熱點

      潘瑋 鄭鵬 黃錦泉

      〔摘 要〕[目的/意義]了解我國健康信息領域研究熱點,提升研究熱點識別的準確性。[方法/過程]論文首先構建了數(shù)據(jù)清洗“DEAN”流程,在此基礎上以CNKI和萬方數(shù)據(jù)庫收錄的2004-2017年健康信息領域文獻數(shù)據(jù)為研究對象,運用Citespace Ⅴ軟件對健康信息領域的研究熱點進行識別。[結(jié)果/結(jié)論]研究共探測出我國健康信息領域六大研究熱點,并對是否運用“DEAN”流程識別出的研究熱點結(jié)果進行對比分析,發(fā)現(xiàn)運用“DEAN”流程能夠提升研究熱點識別的準確性。

      〔關鍵詞〕數(shù)據(jù)清洗;DEAN;健康信息;研究熱點

      DOI:10.3969/j.issn.1008-0821.2018.10.011

      〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2018)10-0073-05

      〔Abstract〕[Purpose/Significance]The purpose of this paper was to understand the research hotspots of the health information researches.[Method/Process]The Data cleaning process named“DEAN”was constructed firstly,and published articles on health information during 2004-2017,which were recorded in the database of CNKI and WanFang,were chosen to be analyzed in this paper.[Result/Conclusion]By applying the software of Citesapce Ⅴ,the paper found Six research hotspots on the areas of health information.Meanwhile the paper compared the results of two cases that applied“DEAN”process or not,and found“DEAN”process could improve the accuracy of research hotspot identification.

      〔Key words〕data clean;DEAN;health information;research hotpot

      健康信息指與公眾、患者及其家屬有關的醫(yī)學和健康相關信息[1]。健康信息的來源較為復雜,可源自專業(yè)人士(如醫(yī)生)、非專業(yè)人士(如家庭成員或朋友)和媒體(如網(wǎng)絡、電視等)[2]。隨著網(wǎng)絡技術的發(fā)展,健康信息在互聯(lián)網(wǎng)上的快速增殖,使得患者趨向于首先通過網(wǎng)絡獲取自身狀況的健康信息,而不是第一時間尋求專業(yè)人士的幫助[3]。2016年10月發(fā)布的《中國網(wǎng)民科普需求搜索行為報告》顯示:健康與醫(yī)療主題占百度搜索所有主題的57%,成為最受關注的科普主題[4]。由此可見健康信息對優(yōu)化公眾健康管理及改善公眾健康意識意義重大[5]。因此全面把握健康信息領域研究熱點,對健康信息的深入研究至關重要。

      目前已有學者進行了健康信息領域研究熱點識別的相關研究,如吳浩等對網(wǎng)絡健康信息的研究熱點進行了分析[6]。陳娟等對國內(nèi)外健康信息領域的演進路徑和研究熱點進行了比較研究[7]。Wang Y等對6個國家的區(qū)域健康信息網(wǎng)絡的研究熱點和演進路徑進行了比較分析[8]。上述研究均是以國內(nèi)外文獻數(shù)據(jù)庫健康信息研究相關文獻為數(shù)據(jù)源,通過關鍵詞頻次分析及共現(xiàn)分析,識別國內(nèi)外健康信息研究領域或其子領域的研究熱點,具有較好的實用價值,但是與大多數(shù)利用關鍵詞共現(xiàn)方法識別領域研究熱點的研究類似,上述研究對于研究熱點識別過程中數(shù)據(jù)清洗過程的描述不夠全面系統(tǒng),而數(shù)據(jù)清洗的效果將直接決定研究熱點識別的準確性?;诖耍P者首先構建數(shù)據(jù)清洗的“DEAN”流程,對關鍵詞數(shù)據(jù)進行全面系統(tǒng)的清洗,在此基礎上對健康信息領域研究熱點進行識別,以提升結(jié)果準確性。

      1 數(shù)據(jù)清洗的“DEAN”流程

      1.1 基本環(huán)節(jié)

      數(shù)據(jù)清洗的“DEAN”流程的基本環(huán)節(jié)如圖1的所示。

      “DEAN”源自數(shù)據(jù)清洗的4類對象,即重復記錄(Duplicates)、錯誤記錄(Errors)、同義關鍵詞(Alias)和干擾關鍵詞(Noises)的英文首字母組合。關鍵詞的準確性和頻次是影響關鍵詞共現(xiàn)方法識別領域研究熱點結(jié)果準確性的兩個重要因素。“DEAN”4類對象及其對關鍵詞準確性和頻次產(chǎn)生影響的具體機理為:

      1)Duplicates

      Duplicates指數(shù)據(jù)庫中所有字段均相同,或有些字段不同,但題名且關鍵詞字段相同,或存在包含關系的文獻記錄。主要包括:①數(shù)據(jù)庫內(nèi)的重復記錄,可由于數(shù)據(jù)庫更新、維護失誤所致,或是題名及關鍵詞字段相同的論文被兩種以上期刊同時收錄所致。②多數(shù)據(jù)庫重復記錄,多見于使用多數(shù)據(jù)庫作為數(shù)據(jù)來源時,由不同數(shù)據(jù)庫收錄相同文獻所致。Duplicates可增加關鍵詞的頻次,可能導致本不是研究熱點的關鍵詞被識別為研究熱點。

      2)Errors

      Errors指不符合檢索需求的記錄。主要包括:①文獻類型錯誤,如檢索出的會議通知、編者按及廣告等不符合檢索需求的類型的記錄。②由檢索策略導致的錯誤,如檢索出的不相關的記錄。Errors可降低關鍵詞的準確性,可能降低聚類的準確性,進而影響研究熱點的歸納和整合。

      3)Alias

      Alias指表示相同概念的關鍵詞。主要包括:①語法異構,如英文單詞的大小寫及單復數(shù)。②語義異構,如全稱與縮寫及同義詞。Alias可降低表示同一概念的關鍵詞的頻次,可能導致本該作為研究熱點被識別的主題最終未被識別。

      4)Noises

      Noises指干擾研究熱點識別結(jié)果的關鍵詞。主要包括:①子網(wǎng)絡(Subnetwork)。構建關鍵詞共現(xiàn)網(wǎng)絡時可能會出現(xiàn)多個子網(wǎng)絡。受聚類算法所限,每次只能選取規(guī)模最大的子網(wǎng)絡進行聚類[9]。其它子網(wǎng)絡所包含的關鍵詞則被視為干擾關鍵詞。②低頻關鍵詞。高于某一閾值的關鍵詞將作為研究熱點被識別,低于該閾值的關鍵詞則被視為干擾關鍵詞。Noises可分散研究人員注意力,可能干擾核心關鍵詞的歸納和整合。

      1.2 實現(xiàn)方案

      針對“DEAN”流程的基本環(huán)節(jié),擬定各環(huán)節(jié)的實現(xiàn)方案,各環(huán)節(jié)需要運用的軟件及其功能如表1所示。

      2 數(shù)據(jù)來源與方法

      2.1 數(shù)據(jù)檢索與清洗

      選擇CNKI和萬方期刊數(shù)據(jù)庫作為數(shù)據(jù)來源,通過專家咨詢制定相應的檢索策略。CNKI期刊數(shù)據(jù)庫的檢索策略為:((關鍵詞=健康信息)(模糊))OR((題名=健康信息)(精確)),期刊來源類別選擇“核心期刊”和“CSSCI”,檢索時間截至2017年11月,共檢索文獻173篇。萬方期刊數(shù)據(jù)庫的檢索策略為:題名或關鍵詞為“健康信息”,檢索時間截至2017年11月,以“北大核心”為限定條件,共檢索文獻200篇,以CSSCI為限定條件,共檢索文獻73篇。將檢索出的446文獻以Refworks格式導出,作為原始研究的原始數(shù)據(jù)。按照表1的數(shù)據(jù)清洗方案對原始數(shù)據(jù)進行清洗,得到研究所需的樣本數(shù)據(jù),供進一步分析使用。

      2.2 方法與工具

      運用關鍵詞共現(xiàn)方法識別健康信息領域研究熱點。共同出現(xiàn)在一篇文獻中的兩個關鍵詞之間存在一定的內(nèi)在聯(lián)系,且共同出現(xiàn)的次數(shù)越多,則聯(lián)系越緊密。由于關鍵詞是對文獻內(nèi)容的濃縮和精煉,因此在對共現(xiàn)關鍵詞進行聚類的基礎上,對核心關鍵詞之間的關系進行梳理和整合,能夠識別出特定領域的研究熱點[10]。

      Citespace Ⅴ軟件是陳超美博士開發(fā)的文獻信息分析及可視化軟件,能夠?qū)崿F(xiàn)運用關鍵詞共現(xiàn)方法識別特定領域的研究熱點[11]。具體步驟為:1)將清洗后得到的樣本數(shù)據(jù)導入Citespace Ⅴ軟件;2)“Time Slicing”設置為2004-2017年,“Years Per Slice”設置為1年,“Term Source”選擇Keywords Plus,“Node Types”選擇Keyword,“Selection Criteria”選擇“Top N Per Slice”,設置為200,“Pruning”選擇Pathfinder;3)運行Citespace Ⅴ軟件,得到可視化圖譜;4)選擇“聚類”功能,得到研究熱點圖譜。

      3 結(jié) 果

      3.1 數(shù)據(jù)清洗結(jié)果

      依據(jù)“DEAN”流程數(shù)據(jù)清洗方案對原始數(shù)據(jù)進行清洗的結(jié)果如表2所示。

      3.2 研究熱點識別結(jié)果

      得到健康信息領域研究熱點圖譜,如圖2所示。在圖2中,相互獨立的幾何圖形為應用聚類算法得到的不同類團,可以表示健康信息研究領域的不同子領域。節(jié)點和標簽字體的大小與關鍵詞的頻次成正比,且只顯示頻次≥4的關鍵詞的標簽。

      由圖2可知,健康信息領域的研究熱點包括以下幾個方面:第一,健康信息素養(yǎng)研究,主要包括健康信息素養(yǎng)的影響因素,老年人、糖尿病患者健康信息素養(yǎng)狀況,圖書館在提升公共健康信息素養(yǎng)中的功能和作用,健康信息素養(yǎng)現(xiàn)狀下的信息服務等研究。第二,健康信息搜尋研究,主要包括網(wǎng)絡健康信息搜尋行為研究,用戶個性化健康信息搜尋等研究。第三,新媒體環(huán)境下的健康信息傳播研究,主要包括新媒體環(huán)境下健康信息的獲取、利用及效果評價等研究。第四,健康信息管理研究,包括運用信息系統(tǒng)及現(xiàn)代信息技術對用戶健康信息進行存儲、分析及利用等研究。第五,大數(shù)據(jù)環(huán)境下的健康信息分析與應用,包括互聯(lián)網(wǎng)、社交媒體健康信息分析與應用,健康信息隱私管理等研究。第六,健康教育研究,主要包括農(nóng)村居民、孕產(chǎn)婦等群體的健康信息需求調(diào)查基礎上的健康教育策略研究。

      4 討 論

      本研究運用Citespace Ⅴ軟件,對未使用“DEAN”數(shù)據(jù)清洗流程情況下的健康信息領域研究熱點進行識別,如圖3所示,所有參數(shù)與使用“DEAN”流程時保持一致。

      對比研究熱點的識別效果可知,圖2比圖3的優(yōu)勢體現(xiàn)在以下4個方面:

      1)研究熱點地位更加均衡

      圖3中代表“健康信息”的節(jié)點和標簽地位過于突出,而圖2中代表各研究熱點的節(jié)點和文字標簽總體上看較為均衡,究其原因在于原始數(shù)據(jù)中過多的重復記錄造成了頻次靠前研究熱點的放大效應,以“健康信息”為例,在原始數(shù)據(jù)中其頻次達到了140次,而經(jīng)過Remove Duplicates環(huán)節(jié)后,其頻次降到了83次。因此“去重”可以有效地降低偏倚,改善識別效果。

      2)研究熱點識別結(jié)果更加準確

      圖3顯示了“山東省”、“優(yōu)秀期刊”和“綜合質(zhì)量”這3個研究熱點,明顯與健康信息研究領域相關性較低,究其原因在于原始數(shù)據(jù)內(nèi)有一條以“綜合質(zhì)量、優(yōu)秀期刊、山東省、健康信息”等為關鍵詞的某期刊獲獎通知文獻記錄,且該通知在該期刊的不同期次重復刊登,使得“山東省”、“優(yōu)秀期刊”和“綜合質(zhì)量”這3個關鍵詞累積頻次達到23次、23次和22次,從而被識別為研究熱點,而經(jīng)過Erase Errors環(huán)節(jié)后,上述記錄被作為錯誤記錄予以刪除,在圖2中不再被展示出來。因此“勘誤”能夠去除錯誤研究熱點,改善識別效果。

      3)新研究熱點的涌現(xiàn)

      圖2中涌現(xiàn)了“新媒體”、“用戶”和“公共”等新研究熱點,究其原因在于對原始數(shù)據(jù)中不一致的關鍵詞進行了合并。經(jīng)過“Merge Alias”環(huán)節(jié)后,一方面增加了新的關鍵詞,如將“QQ”、“微信”和“朋友圈”整合為“新媒體”等;另一方面某些關鍵詞的頻次得到了增加,如通過將“在線健康信息”整合為“網(wǎng)絡健康信息”使后者的頻次從5次增加到8次。因此“合并”可以發(fā)掘潛在的研究熱點,改善識別效果。

      4)研究熱點識別結(jié)果更加清晰

      與圖3相比,圖2展示的研究熱點結(jié)果更加清晰,究其原因在于對原始數(shù)據(jù)進行了降噪處理。經(jīng)過“Reduce Noises”環(huán)節(jié),對關鍵詞頻次小于4次的關鍵詞標簽進行了隱藏。因此“降噪”能夠去除造成干擾的噪聲關鍵詞,改善識別效果。

      5 結(jié) 論

      目前,共詞分析方法已廣泛應用于領域研究熱點的識別研究,但是對運用該方法所識別的研究熱點的準確性和有效性進行驗證方面存在著明顯的薄弱[12]。本研究提出的“DEAN”數(shù)據(jù)清洗流程能夠提升研究熱點識別的準確性和有效性,具體體現(xiàn)在研究熱點地位更加均衡;研究熱點識別結(jié)果更加準確;新研究熱點的涌現(xiàn);研究熱點識別結(jié)果更加清晰4個方面。在運用“DEAN”數(shù)據(jù)清洗流程的基礎上,識別出健康信息領域的6大研究熱點,包括:健康信息素養(yǎng)研究;健康信息搜尋研究;新媒體環(huán)境下的健康信息傳播研究;健康信息管理研究;大數(shù)據(jù)環(huán)境下的健康信息分析與應用;健康教育研究。

      參考文獻

      [1]National Network of Libraries of Medicine.Consumer Health Information:A Workshop for Librarians Providing Health Information to the Public[EB/OL].http://nnlm.gov/priorities/topics/consumer-health,2017-12-30.

      [2]Rose I D,F(xiàn)riedman D B.We Need Health Information Too:A Systematic Review of Studies Examining the Health Information Seeking and Communication Practices of Sexual Minority Youth[J].Health Education Journal,2013,72(4):417-430.

      [3]Tan S L,Goonawardene N.Internet Health Information Seeking and the Patient-Physician Relationship:A Systematic Review[J].Journal of Medical Internet Research,2017,19(1):e9.

      [4]科普中國.中國網(wǎng)民科普需求搜索行為報告(2016年第二季度)[EB/OL].http:/ /www.kepuchina.cn /notice /201611 /t20161103_43467.shtml,2016-11-03.

      [5]付少雄,胡媛.大學生健康信息行為對實際健康水平的影響研究——基于健康素養(yǎng)與健康信息搜尋視角[J].現(xiàn)代情報,2018,38(2):84-90.

      [6]吳浩,涂嘉玲,趙文龍.網(wǎng)絡健康信息研究熱點分析[J].現(xiàn)代預防醫(yī)學,2015,42(5):847-851.

      [7]陳娟,石習敏,楊均雪,等.國內(nèi)外健康信息領域演進路徑、熱點前沿比較研究——基于科學知識圖譜的可視化分析[J].現(xiàn)代預防醫(yī)學,2017,44(1):110-115.

      [8]Wang Y,Zheng J,Zhang A,et al.Visualization Maps for the Evolution of Research Hotspots in the Field of Regional Health Information Networks[J].Inform Health Soc Care,2017,43(56):1-21.

      [9]Barirani A,Agard B,Beaudry C.Competence Maps Using Agglomerative Hierarchical Clustering[J].Journal of Intelligent Manufacturing,2013,24(2):373-384.

      [10]邱均平,溫芳芳.近五年來圖書情報學研究熱點與前沿的可視化分析——基于13種高影響力外文源刊的計量研究[J].中國圖書館學報,2011,37(2):51-60.

      [11]Chen C.CiteSpace Ⅱ:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].Journal of the Association for Information Science & Technology,2009,57(3):359-377.

      [12]楊麗,張彤彤,周文杰.共詞分析識別研究熱點的效標關聯(lián)效度研究:基于自然語言處理[J].圖書與情報,2018,(1):15-19.

      (責任編輯:陳 媛)

      猜你喜歡
      研究熱點
      我國職業(yè)教育師資研究熱點可視化分析
      職教論壇(2016年26期)2017-01-06 19:04:59
      近五年我國職業(yè)教育研究熱點綜析及未來展望
      職教論壇(2016年27期)2017-01-05 16:59:31
      基于CNKI的智慧旅游研究文獻分析
      基于知識圖譜的智慧教育研究熱點與趨勢分析
      自閉癥譜系障礙兒童的教育干預
      考試周刊(2016年85期)2016-11-11 02:33:22
      基于社會網(wǎng)絡分析的我國微課研究探析
      中國電子檔案袋研究熱點及發(fā)展趨勢
      大學教育(2016年6期)2016-07-06 00:07:27
      會計學者在研究什么
      會計之友(2016年12期)2016-06-21 15:06:55
      國內(nèi)移動用戶行為研究熱點與前沿
      商(2016年3期)2016-03-11 12:43:03
      光纖通信技術現(xiàn)狀及研究熱點分析
      上栗县| 岳普湖县| 聂拉木县| 韶关市| 砀山县| 南木林县| 平阳县| 安阳市| 古蔺县| 敦煌市| 延庆县| 台北县| 鄯善县| 东丽区| 岳普湖县| 张家界市| 罗山县| 景德镇市| 南平市| 五常市| 承德市| 乌鲁木齐县| 北川| 府谷县| 盐亭县| 綦江县| 从化市| 布拖县| 庆云县| 榕江县| 合肥市| 开远市| 井冈山市| 黔江区| 杭州市| 石屏县| 兴城市| 合川市| 盐亭县| 祥云县| 伊春市|