• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于知識(shí)單元視角的健康領(lǐng)域知識(shí)需求分析與組織優(yōu)化研究

      2021-11-03 01:54王文韜滕文倩李建禮張震
      現(xiàn)代情報(bào) 2021年11期

      王文韜 滕文倩 李建禮 張震

      關(guān)鍵詞:知識(shí)單元;健康領(lǐng)域;糖尿病話題;知識(shí)需求;知識(shí)鏈接;解構(gòu)重構(gòu);知識(shí)組織

      隨著互聯(lián)網(wǎng)飛速發(fā)展和人們對(duì)健康愈加重視,健康類(lèi)網(wǎng)站、論壇、APP、公眾號(hào)等應(yīng)用急劇增多。據(jù)第47次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2020年12月,我國(guó)在線醫(yī)療用戶規(guī)模達(dá)2??15億,占網(wǎng)民整體的21??7%[1],可見(jiàn)在線健康信息搜尋成為人們獲取健康知識(shí)的重要途徑。同時(shí),專(zhuān)業(yè)化健康網(wǎng)站因其可以使用自然語(yǔ)言提問(wèn),有專(zhuān)業(yè)醫(yī)生提供針對(duì)性解答,形成了相對(duì)自由的專(zhuān)業(yè)化健康社交論壇,備受廣大用戶青睞。以39健康網(wǎng)為例,該平臺(tái)擁有醫(yī)院級(jí)企業(yè)會(huì)員3600多家,注冊(cè)醫(yī)生人數(shù)20000多人,據(jù)CNNIC統(tǒng)計(jì),2001年5月39健康網(wǎng)日均下載量已達(dá)到400萬(wàn),此后以平均每年2倍的速度遞增[2]。在健康知識(shí)需求者對(duì)知識(shí)的渴求以及健康知識(shí)貢獻(xiàn)者積極奉獻(xiàn)的循環(huán)下,網(wǎng)絡(luò)健康知識(shí)數(shù)量呈爆炸式增長(zhǎng),這也導(dǎo)致網(wǎng)絡(luò)健康領(lǐng)域知識(shí)良莠不齊且存在冗、多、雜的現(xiàn)象。用戶無(wú)法從海量健康知識(shí)中快速篩選以供自己所需,稀有的高質(zhì)量回答也埋藏于海量問(wèn)答貼中?,F(xiàn)有的網(wǎng)絡(luò)知識(shí)組織以Web作為知識(shí)展示的窗口,通過(guò)HTML網(wǎng)頁(yè)提供基本的瀏覽和查詢(xún)功能,這是目前網(wǎng)絡(luò)知識(shí)組織表現(xiàn)的主要方式。但其缺乏可引導(dǎo)用戶挖掘知識(shí)的知識(shí)鏈接跳轉(zhuǎn)及從用戶需求出發(fā)的檢索方式,現(xiàn)有的健康領(lǐng)域知識(shí)組織體系已不能滿足用戶高效精準(zhǔn)的需求。

      知識(shí)單元作為知識(shí)的最小單位,可以描述問(wèn)題驅(qū)動(dòng)的知識(shí)組織方法及其特征[3],問(wèn)題驅(qū)動(dòng)的知識(shí)組織方法有效避免傳統(tǒng)先組式知識(shí)組織解決問(wèn)題的局限性,增強(qiáng)問(wèn)題解決的針對(duì)性與高效性[4]。為更加高效進(jìn)行健康領(lǐng)域知識(shí)組織,本文以用戶健康領(lǐng)域知識(shí)需求為切入點(diǎn),搜集39健康網(wǎng)上以“糖尿病”為話題的問(wèn)答貼,對(duì)健康領(lǐng)域知識(shí)進(jìn)行以知識(shí)單元為基準(zhǔn)的解構(gòu)與知識(shí)鏈接的重構(gòu),尋求現(xiàn)有健康領(lǐng)域知識(shí)組織體系與用戶需求的矛盾點(diǎn),為構(gòu)建更具針對(duì)性、高效性的健康領(lǐng)域知識(shí)組織體系提供參考。

      1相關(guān)概念

      1.1知識(shí)單元

      隨著知識(shí)管理和知識(shí)經(jīng)濟(jì)的興起,作為直接控制和管理知識(shí)本身的知識(shí)單元逐漸進(jìn)入研究學(xué)者的視角。1981年印度情報(bào)學(xué)家斯·科·森在“思想基因”的基礎(chǔ)上提出了“情報(bào)基因”概念[5],其建議從基本概念、情報(bào)基因圖譜開(kāi)始重建知識(shí)組織體系。我國(guó)學(xué)者劉植惠也在思想基因、情報(bào)基因的啟發(fā)下提出了“知識(shí)基因”理論,他認(rèn)為知識(shí)基因理論主要由知識(shí)基因、公式法則、知識(shí)細(xì)胞、理論體系、遺傳方式、變異方式6個(gè)方面組成[6]。國(guó)外對(duì)知識(shí)單元的概念、類(lèi)型等特征的研究主要集中在文獻(xiàn)知識(shí)單元領(lǐng)域。例如,AlaniH等對(duì)文獻(xiàn)知識(shí)單元的細(xì)粒度抽取進(jìn)行研究,通過(guò)引入詞匯語(yǔ)義數(shù)據(jù)從而提高從文本中抽取知識(shí)的有效性,比較知識(shí)單元的不同技術(shù)算法,分析從不同的細(xì)粒度層面出發(fā)抽取知識(shí)單元存在的質(zhì)量上的差別[7]。國(guó)內(nèi)對(duì)知識(shí)單元的研究主要建立在概念及與之對(duì)應(yīng)的關(guān)鍵詞或主題詞上。化柏林綜述了知識(shí)單元研究現(xiàn)狀,對(duì)知識(shí)單元的概念、特征、類(lèi)型等進(jìn)行了總結(jié)[8]。劉植惠認(rèn)為知識(shí)單元包含了量化概念和非量化概念,是知識(shí)管理中不可分的最基本單位[9]。王知津等認(rèn)為知識(shí)單元是任何知識(shí)組織的構(gòu)建因素,知識(shí)單元是不可分割的概念[10]。廣義上的知識(shí)單元泛指知識(shí)的任何一種相對(duì)獨(dú)立的單元內(nèi)容和形式,如1篇文獻(xiàn)、1本圖書(shū)等。狹義上的知識(shí)單元指知識(shí)在內(nèi)容上不能再分解的基本單位,是構(gòu)成系統(tǒng)知識(shí)的最小、最基本的組成因素[8]。

      通過(guò)對(duì)國(guó)內(nèi)外文獻(xiàn)的梳理發(fā)現(xiàn),多數(shù)學(xué)者認(rèn)為知識(shí)單元是知識(shí)管理和知識(shí)組織的單位,都是以知識(shí)單元作為知識(shí)組織的起點(diǎn),但以用戶知識(shí)需求為源點(diǎn)將知識(shí)單元進(jìn)行解構(gòu)溯源從而指導(dǎo)現(xiàn)有知識(shí)組織體系的研究還很少。從以人為本的信息系統(tǒng)服務(wù)理念來(lái)看,一個(gè)不了解用戶需求的健康知識(shí)系統(tǒng)平臺(tái)如何能夠?yàn)橛脩籼峁└哚槍?duì)性、更有效的服務(wù)呢?因此,本文立足用戶需求,用關(guān)鍵詞法將健康領(lǐng)域用戶知識(shí)需求解構(gòu)成對(duì)應(yīng)知識(shí)單元,并以此為健康領(lǐng)域的知識(shí)組織優(yōu)化提供建議。

      1.2知識(shí)解構(gòu)與重構(gòu)

      知識(shí)的解構(gòu)和重構(gòu)的研究主要集中在數(shù)字資源的知識(shí)解構(gòu)與重構(gòu)上。有學(xué)者認(rèn)為數(shù)字資源的知識(shí)解構(gòu)與重構(gòu),是指按照一定方法,將數(shù)字資源解構(gòu)成知識(shí)單元以及知識(shí)單元之間的關(guān)聯(lián)關(guān)系,通過(guò)受控標(biāo)引重新組織知識(shí)單元,然后以聚類(lèi)組織實(shí)現(xiàn)知識(shí)重構(gòu)的過(guò)程[11]。目前關(guān)于知識(shí)解構(gòu)的研究還比較少,主要集中在教育學(xué)領(lǐng)域。為了提高教學(xué)效率,教育學(xué)領(lǐng)域的學(xué)者提出了知識(shí)解構(gòu)法,指通過(guò)解構(gòu)知識(shí)點(diǎn)從而高效有序地獲取學(xué)習(xí)材料中知識(shí)的方法[12]。知識(shí)解構(gòu)在圖情領(lǐng)域已有相關(guān)研究,例如,周穎為了清楚地說(shuō)明以知識(shí)單元為單位的知識(shí)檢索過(guò)程,設(shè)立基于文獻(xiàn)數(shù)字資源的知識(shí)解構(gòu)和重構(gòu)系統(tǒng),并指出數(shù)字資源解構(gòu)的目的是化整為零,被解構(gòu)成知識(shí)單元及知識(shí)單元之間的關(guān)聯(lián)關(guān)系[11]。張成昱從理論的角度出發(fā),將解構(gòu)定義為把存儲(chǔ)在文獻(xiàn)中靜止的知識(shí)解析成具有足夠顆粒度的知識(shí)要素,還指出知識(shí)單元關(guān)聯(lián)關(guān)系是知識(shí)解構(gòu)過(guò)程中必須保留的各種相關(guān)關(guān)聯(lián)關(guān)系,這是知識(shí)單元在檢索中相互之間的位置、因果關(guān)系的依據(jù)[13]。

      綜上可見(jiàn),研究學(xué)者們大多認(rèn)為知識(shí)解構(gòu)是文獻(xiàn)數(shù)字資源的細(xì)粒度解析,包括將其解構(gòu)成知識(shí)單元或者其他要素及其之間的關(guān)聯(lián)關(guān)系,同時(shí)知識(shí)解構(gòu)還應(yīng)當(dāng)包括解構(gòu)的逆過(guò)程,即知識(shí)的重構(gòu)。但目前圖情領(lǐng)域關(guān)于知識(shí)解構(gòu)的研究重點(diǎn)集中在文獻(xiàn)數(shù)字資源領(lǐng)域,針對(duì)某一具體領(lǐng)域的知識(shí)解構(gòu)研究較少。因此,本文以用戶需求為源點(diǎn),在“健康中國(guó)”政策背景下,聚焦健康領(lǐng)域,將健康領(lǐng)域知識(shí)需求以知識(shí)單元及其關(guān)系為基準(zhǔn)進(jìn)行解構(gòu)。

      1.3知識(shí)組織與健康領(lǐng)域知識(shí)搜尋

      知識(shí)組織于1929年由美國(guó)圖書(shū)館學(xué)家布利斯提出,被認(rèn)作是一種行為或過(guò)程,主要包括知識(shí)單元(包括隱性和顯性)的序化以及知識(shí)關(guān)聯(lián)的挖掘。圖情領(lǐng)域的知識(shí)組織以網(wǎng)絡(luò)化知識(shí)組織系統(tǒng)(NetworkedKnowledgeOrganizationSystem,NKOS)為重點(diǎn)研究方向[14]。BudinG認(rèn)為知識(shí)組織主要功能為組織和保存大量文獻(xiàn)、信息系統(tǒng)的組成等[15]。ZengML認(rèn)為知識(shí)組織可以建造領(lǐng)域內(nèi)知識(shí)模型,并可提供語(yǔ)義、導(dǎo)航和關(guān)聯(lián),可以幫助用戶檢索和發(fā)現(xiàn)知識(shí)[16]。SmithT等研究者在傳統(tǒng)的知識(shí)組織基礎(chǔ)上,構(gòu)建了特殊領(lǐng)域的針對(duì)性知識(shí)組織模型,并用可視化工具將其表示[17]。國(guó)內(nèi)關(guān)于知識(shí)組織的研究主要集中在服務(wù)方面,王曰芬等研究了個(gè)性化的知識(shí)組織,提出了知識(shí)源、知識(shí)獲取、知識(shí)重組等個(gè)性化知識(shí)組織過(guò)程[18]。夏立新等為加強(qiáng)信息服務(wù)平臺(tái)服務(wù)質(zhì)量,從政府角度出發(fā),提出了構(gòu)建用戶層、服務(wù)層、系統(tǒng)層、數(shù)據(jù)層4層結(jié)構(gòu)挖掘知識(shí),進(jìn)行知識(shí)組織,實(shí)現(xiàn)知識(shí)共享[19]。王蘭成等提出了由知識(shí)定義、元數(shù)據(jù)管理、知識(shí)挖掘和知識(shí)存儲(chǔ)組成的知識(shí)組織框架,為文獻(xiàn)型異構(gòu)數(shù)字信息群以及個(gè)性化服務(wù)提供了理論基礎(chǔ)[20]。

      醫(yī)學(xué)與信息學(xué)的發(fā)展及融合促進(jìn)了當(dāng)代醫(yī)療環(huán)境和醫(yī)療模式的轉(zhuǎn)變,非醫(yī)學(xué)人士成為醫(yī)療信息的主要消費(fèi)者[21]。根據(jù)醫(yī)學(xué)圖書(shū)館協(xié)會(huì)(MedicalLibraryAssociation,MLA)消費(fèi)者和病人健康信息部門(mén)(ConsumerandPatientHealthInformationSec?tion)的定義,消費(fèi)者健康信息(ConsumerandPa?tientHealthInformation,CHI)是與大眾、病患及其家屬有關(guān)的健康和醫(yī)學(xué)信息,它還指出消費(fèi)者健康信息不僅包括描述疾病的癥狀、確診和治療的信息,還包括促進(jìn)健康、預(yù)防性醫(yī)藥、影響健康的關(guān)鍵因素和訪問(wèn)健康醫(yī)療系統(tǒng)等多方面的信息。在美國(guó),“皮尤網(wǎng)絡(luò)與美國(guó)生活項(xiàng)目”的“健康搜尋者”(HealthSeekers)系列研究是關(guān)于在線健康信息的用戶研究中較為著名的研究之一,他們?cè)?000年首次提出“健康搜尋者”的概念,調(diào)查發(fā)現(xiàn)有5000多萬(wàn)美國(guó)“健康搜尋者”認(rèn)為他們?cè)谝蛱鼐W(wǎng)上所查到的健康信息對(duì)自己的醫(yī)療保健決策有直接影響,甚至改變了他們與醫(yī)生的溝通方式[22]。在國(guó)內(nèi),對(duì)健康信息搜尋行為的研究較為豐富,主要集中在大學(xué)生[23]和中老年人群體[24]。

      通過(guò)以上研究發(fā)現(xiàn),國(guó)內(nèi)外學(xué)者從知識(shí)組織的概念、機(jī)制等理論對(duì)知識(shí)組織個(gè)性化服務(wù)、知識(shí)挖掘與知識(shí)可視化等進(jìn)行了研究,并形成了較為通用的知識(shí)組織系統(tǒng)與方法。但在大數(shù)據(jù)時(shí)代,為了追求兼具高效性、人性化與實(shí)用性的服務(wù),對(duì)特定領(lǐng)域,如健康領(lǐng)域的知識(shí)組織的研究還很少,因此,本文從現(xiàn)有健康知識(shí)組織體系入手,在知識(shí)單元視閾下,以用戶需求為源點(diǎn),從基層設(shè)計(jì)健康領(lǐng)域知識(shí)組織過(guò)程,以期提高健康領(lǐng)域知識(shí)組織優(yōu)化的針對(duì)性和有效性。

      2研究設(shè)計(jì)

      本文的目的是構(gòu)建需求驅(qū)動(dòng)下的健康領(lǐng)域知識(shí)需求的知識(shí)鏈接,據(jù)此對(duì)健康領(lǐng)域知識(shí)的解構(gòu)與組織優(yōu)化提出建議?;谥R(shí)單元解構(gòu)的可操作性和嚴(yán)謹(jǐn)性,研究界定的知識(shí)單元為廣義的知識(shí)單元,即泛指知識(shí)的任何一種相對(duì)獨(dú)立的單元內(nèi)容和形式。根據(jù)文庭孝提出的知識(shí)鏈接構(gòu)建方法[5],本研究主要分為3步:①知識(shí)單元及其屬性的抽取;②找尋各個(gè)知識(shí)單元間的相關(guān)關(guān)系;③鏈接具有相關(guān)關(guān)系的知識(shí)單元,形成知識(shí)單元鏈接圖,完成從知識(shí)單元到知識(shí)資源的鏈接轉(zhuǎn)換。

      2.1數(shù)據(jù)收集

      研究首先要在大量數(shù)據(jù)中抽取知識(shí)單元與特征詞。39健康網(wǎng)作為國(guó)內(nèi)最專(zhuān)業(yè)、最大的健康門(mén)戶網(wǎng)站,其具有用戶多、醫(yī)生多、病癥全面、問(wèn)答貼多且以用戶需求為導(dǎo)向等特點(diǎn),為了保證構(gòu)建的知識(shí)單元和知識(shí)鏈接具有代表性和專(zhuān)業(yè)性,本文以39健康網(wǎng)作為研究的數(shù)據(jù)獲取來(lái)源;在疾病選擇方面,由于糖尿病的患者群龐大、年齡跨度較大。該病分為Ⅰ型和Ⅱ型、可預(yù)防和不可預(yù)防兩種,具有病因病理復(fù)雜、術(shù)后護(hù)理時(shí)間較長(zhǎng)等特點(diǎn),且自2019年起,全球糖尿病患病人數(shù)不斷上升,平均增長(zhǎng)率為51%,目前僅中國(guó)大陸糖尿病患者數(shù)就有約1??298億[25],因此,本文選擇糖尿病為研究切入點(diǎn)。雖然39健康網(wǎng)具有相對(duì)專(zhuān)業(yè)性、交互性強(qiáng)、數(shù)據(jù)繁多且豐富等特點(diǎn),但是它是以醫(yī)生與患者間、患者與患者間借創(chuàng)建問(wèn)答貼進(jìn)行互動(dòng),存在數(shù)據(jù)分散的問(wèn)題。

      綜上,為確保數(shù)據(jù)檢索的查全率與查準(zhǔn)率,本研究分兩步進(jìn)行數(shù)據(jù)采集:①在39健康網(wǎng)的“糖尿病”子版塊導(dǎo)航下搜尋,找到糖尿病專(zhuān)欄17期內(nèi)容,共85個(gè)專(zhuān)欄推送,糖尿病專(zhuān)題中共103個(gè)專(zhuān)題貼;②采用站內(nèi)檢索方式,以“糖尿病”為關(guān)鍵詞進(jìn)行檢索,排除兩種搜尋方式下交叉的重復(fù)問(wèn)答數(shù)據(jù),共檢索到100個(gè)問(wèn)答貼數(shù)據(jù)文本,兩種搜尋方式均采用Python作為爬蟲(chóng)工具。

      截至2020年11月,共抓取3657個(gè)問(wèn)答貼數(shù)據(jù),根據(jù)問(wèn)答貼標(biāo)題、內(nèi)容、回答評(píng)論是否與糖尿病相關(guān),手動(dòng)篩查出數(shù)據(jù)中存在的類(lèi)似“抱歉,我也不知道”“沙發(fā)”“蓋樓”等無(wú)效數(shù)據(jù)1104條,最后得到有效研究樣本2553條。

      2.2特征詞和知識(shí)單元抽取

      2.2.1健康領(lǐng)域知識(shí)需求的特征詞抽取

      特征詞抽取是基于收集的網(wǎng)頁(yè)信息,根據(jù)一定要求和規(guī)則提取一定量的特征詞,形成所需的特征詞集[26]。特征詞抽取有諸多要點(diǎn),包括可區(qū)分文本內(nèi)容、特征詞在類(lèi)目中頻繁出現(xiàn)、具有可與其他數(shù)據(jù)區(qū)分的能力、數(shù)目適中等。本文是從用戶問(wèn)答貼中篩選文本數(shù)據(jù),基于用戶提問(wèn)的問(wèn)題,本文采用關(guān)鍵詞法抽取特征詞。TFIDF是一種特征抽取的加權(quán)技術(shù),它常用于信息檢索和信息挖掘中的關(guān)鍵詞提取,該技術(shù)有兩層含義,一是詞頻(TermFrequency,TF);二是逆文檔頻率(InverseDocu?mentFrequency,IDF)[27]。詞頻(TermFrequency,TF)指某一給定詞語(yǔ)在該文件中出現(xiàn)的頻率,TFx=詞條x出現(xiàn)的次數(shù)/該類(lèi)中所有的詞條數(shù)目,詞頻越高,表示該詞權(quán)重越大且越重要。如癥狀類(lèi)目提取的特征詞共100個(gè),其中口渴出現(xiàn)3次,多尿出現(xiàn)15次,那么TF口渴=3/100=0??03,TF多尿=15/100=0??15,則TF多尿>TF口渴;逆向文件頻率(In?verseDocumentFrequency,IDF)是詞語(yǔ)普遍重要性度量,如果包含詞條t的文檔越少,IDF越大,則說(shuō)明詞條t具有很好的類(lèi)別區(qū)分能力。

      IKAnalyzer是輕量級(jí)中文分詞工具包,包括細(xì)粒度和智能分詞兩種方法??紤]到研究是基于粒度原理對(duì)健康領(lǐng)域知識(shí)需求解構(gòu),所以本文使用IKAnalyzer并加以人工干預(yù)對(duì)所收集的文本數(shù)據(jù)進(jìn)行中文分詞。結(jié)合Sogou詞庫(kù)的結(jié)構(gòu),首先將搜集的數(shù)據(jù)進(jìn)行編碼,方便文本詞性提取,生成{詞項(xiàng),TF,IDF}的詞項(xiàng)集合,完成詞性標(biāo)注過(guò)程,包括名詞(N)、動(dòng)詞(V)、形容詞(ADJ)、副詞(ADV)等,然后用特征詞計(jì)算器計(jì)算詞項(xiàng)TFIDF值,確定詞項(xiàng)的權(quán)重,把結(jié)果按照權(quán)重排序。本研究對(duì)2553個(gè)問(wèn)答貼進(jìn)行特征詞提取,共提取特征詞204個(gè),篩查刪除數(shù)據(jù)文本中“嚴(yán)重”“特殊”“嗎”“一些”等缺乏實(shí)際意義的詞,共取前124個(gè)具有較高代表性的特征詞,如飲食、胰島素等,占總提取詞的60??78%,具體如表1所示。

      2.2.2健康領(lǐng)域知識(shí)需求的知識(shí)單元抽取

      知識(shí)單元具有相互獨(dú)立、代表性強(qiáng)、數(shù)量較少等特點(diǎn),本文是將收集的文本數(shù)據(jù)分類(lèi)歸入不同類(lèi)目下,生成健康領(lǐng)域知識(shí)需求的知識(shí)單元。在前文編碼過(guò)程中,使用劃分式聚類(lèi)方法結(jié)合用戶需求,將2553個(gè)數(shù)據(jù)文本歸類(lèi),根據(jù)《醫(yī)學(xué)詞典》中的名詞劃分界定,將數(shù)據(jù)分為“病因病理”“預(yù)防知識(shí)”等12個(gè)大類(lèi)。分類(lèi)標(biāo)準(zhǔn)是首先將數(shù)據(jù)去中心化,根據(jù)聚類(lèi)的可伸縮性、領(lǐng)域最小化、高維性等特性按用戶健康知識(shí)需求進(jìn)行分類(lèi)。如談及如何預(yù)防則歸類(lèi)到“預(yù)防知識(shí)”類(lèi),涉及患病后如何生活、工作則歸為“生活工作影響”類(lèi),上述類(lèi)目即解構(gòu)用戶健康領(lǐng)域知識(shí)需求的知識(shí)單元,如表1所示。需要指出的是,同一特征詞可在不同類(lèi)目下同時(shí)出現(xiàn),例如“胰島素”一詞,它在“病因病理”類(lèi)目里代表的是胰島素分泌受損,在“治療”類(lèi)目里表示治療糖尿病的胰島素藥物,二者并不矛盾。

      2.3需求驅(qū)動(dòng)下健康領(lǐng)域知識(shí)單元之間共現(xiàn)關(guān)系分析

      2.3.1知識(shí)單元頻次分析

      在知識(shí)單元的可視化即構(gòu)建知識(shí)鏈接中,知識(shí)單元出現(xiàn)的頻次決定知識(shí)單元的大小,知識(shí)單元之間是否存在關(guān)聯(lián)關(guān)系決定知識(shí)單元之間是否有線條鏈接[5]。分析知識(shí)單元的頻次與知識(shí)單元之間的共現(xiàn)關(guān)系是為了知識(shí)鏈接的構(gòu)建。在編碼過(guò)程中,將健康主題類(lèi)目抽取出來(lái),確定知識(shí)單元頻次數(shù)量及所占總類(lèi)目的比例,結(jié)果如表2所示。

      2.3.2知識(shí)單元共現(xiàn)關(guān)系分析

      知識(shí)單元間的關(guān)系叫作知識(shí)關(guān)聯(lián),在建立知識(shí)鏈接的時(shí)候通過(guò)確定知識(shí)單元間是否有聯(lián)系來(lái)確定鏈接[5]。不同知識(shí)單元間存在著或強(qiáng)或弱的關(guān)系,它們通過(guò)特征詞的共現(xiàn)聯(lián)系起來(lái)。

      知識(shí)單元的關(guān)聯(lián)是知識(shí)鏈接構(gòu)建的前提,因此,本文在對(duì)所收集文本數(shù)據(jù)編碼的基礎(chǔ)上,計(jì)算特征詞共現(xiàn)頻次,統(tǒng)計(jì)完成后將特征詞間共現(xiàn)關(guān)系分屬到健康領(lǐng)域知識(shí)需求類(lèi)目下。如用戶提問(wèn)了“胰島素注射頻次”和“注射完胰島素之后應(yīng)當(dāng)注意的飲食”,這就是“治療”知識(shí)單元和“日常護(hù)理”知識(shí)單元的共現(xiàn)。對(duì)于12個(gè)類(lèi)目分別進(jìn)行共現(xiàn)頻次統(tǒng)計(jì),共占總共現(xiàn)詞對(duì)的85??93%,將其按照從大到小的方式排序??紤]到共現(xiàn)詞對(duì)的可視化效果,選取了前12組知識(shí)單元對(duì)進(jìn)行研究,如表3所示。

      2.4健康領(lǐng)域知識(shí)需求的知識(shí)鏈接構(gòu)建

      隨著信息導(dǎo)向向知識(shí)導(dǎo)向的轉(zhuǎn)變,以文獻(xiàn)單元為基礎(chǔ)的信息鏈接方式和以超文本為基礎(chǔ)的參考鏈接方式已不能滿足高效進(jìn)行知識(shí)管理、知識(shí)組織的需要。在圖情領(lǐng)域,傳統(tǒng)信息組織方式、信息管理正逐步向知識(shí)組織、知識(shí)管理、知識(shí)可視化方向發(fā)展。知識(shí)鏈接能更為高效、靈活地抽取知識(shí)單元并對(duì)其進(jìn)行可視化、規(guī)范化處理,揭示知識(shí)單元間的本質(zhì)聯(lián)系,幫助用戶從一個(gè)知識(shí)單元精準(zhǔn)地鏈接到與其相關(guān)的其他單元。因此,知識(shí)鏈接成為知識(shí)組織與知識(shí)管理的新趨勢(shì)。

      知識(shí)鏈接是基于知識(shí)單元的邏輯性及相關(guān)性關(guān)系,通過(guò)知識(shí)關(guān)聯(lián)將具有相關(guān)關(guān)系的知識(shí)單元有序地組到一起,將知識(shí)單元及其關(guān)系有序可視化的行為[5]。Neo4j軟件是基于數(shù)學(xué)和計(jì)算機(jī)的“圖論”,其建立的圖模型可更加準(zhǔn)確靈活地進(jìn)行可視化展示,并可提供近似與數(shù)據(jù)規(guī)模無(wú)關(guān)的查詢(xún)可能,輸入特定查詢(xún)語(yǔ)言可快速精準(zhǔn)地查詢(xún)到各知識(shí)單元的屬性及各知識(shí)單元間的鏈接關(guān)系。

      本文在前文對(duì)知識(shí)單元頻次以及知識(shí)單元共現(xiàn)關(guān)系探究的基礎(chǔ)上,采用Neo4j軟件繪制健康領(lǐng)域知識(shí)需求的知識(shí)鏈接,并對(duì)其進(jìn)行分析。具體繪制過(guò)程如下:首先,將不同的知識(shí)單元的編碼導(dǎo)入到??CSV文件中,構(gòu)建知識(shí)單元內(nèi)的特征詞和各知識(shí)單元之間的共現(xiàn)關(guān)系,構(gòu)建節(jié)點(diǎn)的代碼命令為Cre?ate(:知識(shí)單元名稱(chēng){name:″特征詞″});構(gòu)建知識(shí)單元之間共現(xiàn)關(guān)系的代碼命令為Match(p1:′知識(shí)單元′),(p2:′特征詞′)create(p1)-[r:特征詞]->(p2)。以“并發(fā)癥”知識(shí)單元和“預(yù)防”知識(shí)單元下“飲食”特征詞的創(chuàng)建過(guò)程為例,分別如圖1和圖2所示:

      共構(gòu)建節(jié)點(diǎn)136個(gè),關(guān)系鏈接138個(gè),結(jié)果如圖5所示。圖3是在Neo4j數(shù)據(jù)庫(kù)中通過(guò)match語(yǔ)句查詢(xún)“診斷”知識(shí)單元所得到的關(guān)系示例;圖4是查詢(xún)“病因病理”知識(shí)單元所得到的關(guān)系示例,其中,不同節(jié)點(diǎn)代表不同類(lèi)別的實(shí)體,如以診斷為中心的代表“診斷知識(shí)單元”,其指向的節(jié)點(diǎn)代表“診斷特征詞”;同樣地,以病因病理為中心的代表“病因病理知識(shí)單元”,其指向的代表“病因病理特征詞”。

      在圖5中,“檢查”知識(shí)單元與“治療”知識(shí)單元存在著強(qiáng)性共現(xiàn)關(guān)系,表示用戶在搜尋信息時(shí)檢查類(lèi)信息與治療類(lèi)信息之間存在著較多的跳轉(zhuǎn),即多數(shù)用戶在搜尋“檢查”類(lèi)信息時(shí)存在著“治療”類(lèi)信息搜尋的需要。所以在用Neo4j軟件構(gòu)建知識(shí)鏈接時(shí),將“檢查”知識(shí)單元與“治療”知識(shí)單元用線條鏈接起來(lái),通過(guò)知識(shí)鏈接的可視化,可清晰簡(jiǎn)明地看到實(shí)體之間的聯(lián)系。

      3研究總結(jié)與建議

      本文研究的是健康領(lǐng)域知識(shí)需求的知識(shí)單元解構(gòu)與知識(shí)鏈接重構(gòu),因此,研究總結(jié)將從知識(shí)單元與特征詞的抽取、知識(shí)單元共現(xiàn)關(guān)系分析、知識(shí)鏈接構(gòu)建3個(gè)步驟中提煉,并對(duì)健康領(lǐng)域知識(shí)需求的知識(shí)單元抽取和知識(shí)鏈接構(gòu)建過(guò)程中的同一性與特異性進(jìn)行分析。

      3.1健康領(lǐng)域知識(shí)需求的知識(shí)單元抽取要以用戶需求為導(dǎo)向

      在知識(shí)單元的探討中,大多數(shù)學(xué)者從知識(shí)單元本體出發(fā),提出知識(shí)單元具有多維性、分合性、重組性、再生性的特點(diǎn)[28]。本研究也正是基于這些特點(diǎn)抽取健康領(lǐng)域知識(shí)需求的知識(shí)單元,在文本數(shù)據(jù)編碼分析、特征詞以及知識(shí)單元的抽取過(guò)程中,發(fā)現(xiàn)健康領(lǐng)域知識(shí)需求的知識(shí)單元具有領(lǐng)域的特異性。

      健康知識(shí)領(lǐng)域不同于其他領(lǐng)域,在該領(lǐng)域中,大多數(shù)用戶都是從自身需求出發(fā),對(duì)健康知識(shí)進(jìn)行搜尋、存儲(chǔ)、利用,以此來(lái)解決他們的健康問(wèn)題,提高健康素養(yǎng)。在收集的文本數(shù)據(jù)中,可以發(fā)現(xiàn)健康用戶存在以下問(wèn)題:第一,39健康網(wǎng)是醫(yī)患共存、相對(duì)自由的健康知識(shí)交流平臺(tái),多數(shù)用戶無(wú)論是發(fā)起問(wèn)答貼還是回復(fù)問(wèn)答貼都是以需求滿足為目的導(dǎo)向,比如“β細(xì)胞是否可以再生?”或者“Ⅰ型糖尿病如何預(yù)防”等。第二,用戶的健康素養(yǎng)普遍不高,從表2中可以看出,預(yù)防知識(shí)單元占2.98%,治療知識(shí)單元卻占到22.44%。從糖尿病的病因病理來(lái)看,Ⅱ型糖尿病是可以預(yù)防的,但是從用戶的問(wèn)答貼來(lái)看,對(duì)于糖尿病還是屬于“治療大于預(yù)防”的態(tài)度。

      因此,為了方便用戶可以更加精準(zhǔn)地找到自己所需要的信息,結(jié)合用戶現(xiàn)有的健康素養(yǎng)水平,在抽取健康領(lǐng)域知識(shí)單元的時(shí)候應(yīng)當(dāng)從滿足用戶健康知識(shí)需求的角度出發(fā),抽取的知識(shí)單元應(yīng)具有需求導(dǎo)向性,以提高知識(shí)服務(wù)針對(duì)性與效率。

      3.2基于知識(shí)單元間關(guān)聯(lián)關(guān)系來(lái)構(gòu)建健康領(lǐng)域知識(shí)需求的知識(shí)服務(wù)系統(tǒng)

      知識(shí)鏈接是通過(guò)知識(shí)關(guān)聯(lián)將知識(shí)單元整合,是對(duì)知識(shí)單元的重組與優(yōu)化。在知識(shí)單元構(gòu)成的知識(shí)庫(kù)中,將知識(shí)單元有序地連接起來(lái),構(gòu)成知識(shí)網(wǎng)絡(luò)。在知識(shí)網(wǎng)絡(luò)中,如用戶需查詢(xún)某特定知識(shí)單元,知識(shí)鏈接就可以幫助用戶跳轉(zhuǎn)到與原知識(shí)單元存在相關(guān)關(guān)系的其他知識(shí)單元,實(shí)現(xiàn)知識(shí)的附加增值。

      在本文研究中,據(jù)表3可以看出,共現(xiàn)次數(shù)最多的知識(shí)單元對(duì)為“檢查—治療”(23.42%)與“日常護(hù)理—并發(fā)癥”(12.73%),即多數(shù)用戶在搜尋“檢查”知識(shí)單元的時(shí)候會(huì)有想獲取“治療”知識(shí)單元的需要,但是在39健康網(wǎng)上只有對(duì)“糖尿病”“心血管疾病”等病癥的分類(lèi)導(dǎo)航,還沒(méi)有對(duì)知識(shí)單元之間的鏈接進(jìn)行構(gòu)建,這就使用戶在健康知識(shí)獲取時(shí)只能找到當(dāng)前的特定知識(shí),無(wú)法打包獲取與健康知識(shí)查找對(duì)象相關(guān)的知識(shí)群,現(xiàn)有的健康網(wǎng)站的知識(shí)組織中尚不能提供知識(shí)單元之間的鏈接與跳轉(zhuǎn)。

      知識(shí)單元的共現(xiàn)關(guān)系,表明了用戶在搜尋完原知識(shí)單元之后極有可能會(huì)搜尋下一有關(guān)的知識(shí)單元。因此,在為用戶提供知識(shí)服務(wù)中,可以以健康領(lǐng)域知識(shí)需求的知識(shí)鏈接為參考,根據(jù)知識(shí)網(wǎng)中的知識(shí)單元本體與共現(xiàn)關(guān)聯(lián)建立知識(shí)導(dǎo)航欄。比如,在用戶搜尋“檢查”知識(shí)單元的時(shí)候,可以在該導(dǎo)航欄中提供跳轉(zhuǎn)到“治療”知識(shí)單元的鏈接,這樣就拓寬了用戶獲取知識(shí)的渠道,擴(kuò)展和延伸了知識(shí)管理與知識(shí)服務(wù)的空間與范圍。

      3.3結(jié)合健康領(lǐng)域知識(shí)需求的知識(shí)鏈接來(lái)促進(jìn)群眾健康素養(yǎng)的提高

      Neo4j軟件可以實(shí)現(xiàn)知識(shí)單元的知識(shí)鏈接繪制,將知識(shí)單元可視化表示,在最終繪制成的知識(shí)鏈接中,知識(shí)單元的節(jié)點(diǎn)、知識(shí)單元之間的鏈接關(guān)系、知識(shí)單元的屬性等都可以拖動(dòng)并可對(duì)其查詢(xún)。通過(guò)圖5可以看出,健康領(lǐng)域知識(shí)需求的知識(shí)鏈接呈現(xiàn)“病情內(nèi)沿知識(shí)單元鏈接緊密,病情外延知識(shí)單元鏈接稀疏”的趨勢(shì)。中心的知識(shí)單元為“治療”“檢查”“日常護(hù)理”“并發(fā)癥”等,這些知識(shí)單元分別與其他知識(shí)單元存在較強(qiáng)的共現(xiàn)關(guān)系;處在邊緣的知識(shí)單元為“情感心理”和“教育科研”,這兩個(gè)知識(shí)單元與其他知識(shí)單元的鏈接比較少。

      結(jié)合在數(shù)據(jù)文本處理過(guò)程中專(zhuān)業(yè)詞匯用量較少、用戶對(duì)治療的態(tài)度大于預(yù)防的情況,可以發(fā)現(xiàn)用戶的健康素養(yǎng)普遍不高,這在知識(shí)鏈接圖中可以究其原因,結(jié)合表2和圖5:首先,多數(shù)用戶的搜尋局限在“治療”(22.44%)、“檢查”(11.44%)、“日常護(hù)理”(24.29%)、“生活工作影響”(14.10%)等知識(shí)單元,也就是知識(shí)鏈接圖中的中心部位,卻對(duì)“情感心理”(9.44%)、“教育科研”(1.80%)等知識(shí)單元的搜尋較少;很少用戶會(huì)先去搜尋預(yù)防病癥,只有在通過(guò)搜尋“日常護(hù)理”和“病因病理”知識(shí)單元的時(shí)候才會(huì)出現(xiàn)“預(yù)防知識(shí)”知識(shí)單元的共現(xiàn)。這表明多數(shù)用戶對(duì)健康知識(shí)的需求只是為了解決已經(jīng)存在的病癥問(wèn)題,對(duì)于疾病的“預(yù)防知識(shí)”“教育科研”知識(shí)單元專(zhuān)注較少。其次,“情感心理”“教育科研”這兩類(lèi)知識(shí)單元與其他知識(shí)單元的鏈接不大,這表明搜尋這兩類(lèi)知識(shí)單元的用戶并不是為了解決健康問(wèn)題,只是為了了解專(zhuān)業(yè)性相關(guān)知識(shí),對(duì)“糖尿病”的相關(guān)知識(shí)與心理情感進(jìn)行研究,那么這些人可能是醫(yī)護(hù)人員、研究人員或者學(xué)者,從數(shù)據(jù)的分布情況來(lái)看,大部分的專(zhuān)業(yè)健康知識(shí)掌握在極少數(shù)用戶手中,可見(jiàn),對(duì)大眾用戶的健康知識(shí)科普與健康素養(yǎng)的提高有待加強(qiáng)。

      基于以上分析,從健康領(lǐng)域知識(shí)服務(wù)的角度出發(fā),用戶個(gè)人要從微觀上加強(qiáng)健康知識(shí)的學(xué)習(xí),提高健康素養(yǎng);知識(shí)服務(wù)提供方要從中觀上構(gòu)建基于知識(shí)鏈接的健康知識(shí)服務(wù)體系;政府與社會(huì)組織則要從宏觀上營(yíng)造解決病患問(wèn)題與提升用戶健康素養(yǎng)相適應(yīng)的環(huán)境。

      4結(jié)語(yǔ)

      本文以中國(guó)最大的健康門(mén)戶網(wǎng)站39健康網(wǎng)作為數(shù)據(jù)收集來(lái)源,在知識(shí)單元抽取中根據(jù)粒度原理將健康領(lǐng)域需求知識(shí)解構(gòu)成不同知識(shí)單元,結(jié)合文本挖掘與可視化技術(shù)繪制以“糖尿病”為代表的健康領(lǐng)域知識(shí)需求的知識(shí)鏈接;對(duì)健康領(lǐng)域知識(shí)需求的知識(shí)單元頻次、知識(shí)單元關(guān)聯(lián)、知識(shí)鏈接進(jìn)行分析并得出結(jié)論,對(duì)健康領(lǐng)域的知識(shí)組織提出建議。研究健康領(lǐng)域知識(shí)需求的解構(gòu)和重構(gòu),有助于了解用戶的健康知識(shí)需求偏好,為健康領(lǐng)域進(jìn)行高效知識(shí)組織提供借鑒和參考。本文以“糖尿病”為例,雖在疾病的年齡層、病因病理復(fù)雜性上具有一定代表性,但難以涵蓋所有健康知識(shí)需求,對(duì)用戶的健康領(lǐng)域知識(shí)需求仍需借助更多具有代表性的疾病進(jìn)行拓展與探究。

      巴塘县| 双城市| 娄烦县| 东兴市| 威信县| 横峰县| 海淀区| 邯郸县| 海阳市| 锡林浩特市| 姜堰市| 丹棱县| 兰溪市| 扎囊县| 彰化县| 奉化市| 阳谷县| 大同县| 闽侯县| 张家川| 永州市| 蒙山县| 洛阳市| 安龙县| 江源县| 雅江县| 确山县| 灵璧县| 汨罗市| 祥云县| 新民市| 井研县| 石柱| 墨竹工卡县| 合川市| 乐山市| 榆社县| 合阳县| 肇州县| 奈曼旗| 同德县|