• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于TF-IDF和互信息的推薦算法研究

      2019-12-23 07:24:21張?jiān)萍?/span>
      計(jì)算機(jī)時(shí)代 2019年12期
      關(guān)鍵詞:推薦算法互信息

      張?jiān)萍?/p>

      摘? 要: 本文提出一種基于TF-IDF和互信息的方劑推薦算法。其核心思想是根據(jù)TF-IDF算法的原理,確定核心藥物;再計(jì)算核心藥物和方劑間的互信息來(lái)確定二者相關(guān)性,以此確定最有效的方劑。對(duì)名老中醫(yī)治療肺癌的542首方劑,共計(jì)342味藥物進(jìn)行數(shù)據(jù)挖掘,通過(guò)該算法獲得核心藥物71味,推薦方劑126首。采用該算法獲得名老中醫(yī)治療肺癌的核心方劑的結(jié)果表明,該算法通用性強(qiáng),效率高。由于不僅探索了藥物層面的規(guī)律,還挖掘了方劑層面的信息,故該算法有較高的實(shí)用價(jià)值。

      關(guān)鍵詞: TF–IDF; 有向含權(quán)網(wǎng)絡(luò); 互信息; 推薦算法; 權(quán)重影響因子

      中圖分類(lèi)號(hào):TP311? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)12-42-05

      Research on recommendation algorithm based on TF-IDF and Mutual-information

      Zhang Yunchun

      (School of Computer Science and Engineering, Nanjing university of Science and Technology, Nanjing, Jiangsu 210094, China)

      Abstract: This paper proposes a prescription recommendation algorithm based on TF-IDF (Term Frequency-Inverse Document Frequency) and Mutual-information. The core idea is to determine the core drug according to the principle of TF-IDF algorithm. Then, the Mutual-information between the core drug and the prescription is calculated to determine the correlation between the two, so as to determine the most effective prescription. Through the data mining of 542 prescriptions of TCM treatment for lung cancer, a total of 342 drugs, 71 core drugs and 126 recommended prescriptions were obtained by this algorithm. The result of obtaining the core prescription of famous herbalist doctors in the treatment of lung cancer with this algorithm shows that the algorithm has strong universality and high efficiency. The algorithm is of high practical value because it not only explores the law of drug level, but also excavates the information of prescription level.

      Key words: TF-IDF; directed weighted network; mutual-information; recommendation algorithm; weight factor

      0 引言

      在自然語(yǔ)言處理中,常見(jiàn)的文本向量化方法為詞頻-逆向文件頻率(term frequency–inverse document frequency,簡(jiǎn)稱(chēng)TF - IDF)方法。TF - IDF方法的核心思想是:一個(gè)詞是否是核心詞匯,需要從該詞匯出現(xiàn)的次數(shù)和該詞匯在整個(gè)文檔集合中的代表性這兩方面來(lái)考慮。在中醫(yī)領(lǐng)域,方劑和藥物的關(guān)系與自然語(yǔ)言處理領(lǐng)域中文檔和詞匯的關(guān)系十分類(lèi)似,同樣,要確定某一味藥是否是核心藥物,也需要同時(shí)滿(mǎn)足兩個(gè)條件:⑴該藥物是否出現(xiàn)頻率足夠多;⑵該藥物是否僅在某些方劑中出現(xiàn)較多,而在其他方劑中出現(xiàn)較少。

      有數(shù)據(jù)顯示,中國(guó)癌癥新發(fā)病例占世界的20%,肺癌位居中國(guó)癌癥發(fā)病率、死亡率的第一位,已與發(fā)達(dá)國(guó)家水平相當(dāng)[1-2]。針對(duì)肺癌的中醫(yī)方劑有成千上萬(wàn)條,其中起到主要作用的藥物數(shù)量雖然少,但是對(duì)治療效果起著決定性的作用。如果能夠指出方劑中起到主要作用的藥物,并依據(jù)此推薦方劑,則可有效推動(dòng)中醫(yī)的發(fā)展。然而,中醫(yī)醫(yī)案數(shù)據(jù)具有數(shù)據(jù)量大、隱含信息量大、數(shù)據(jù)非結(jié)構(gòu)化等特性,僅靠人工提取核心藥物,不僅效率低下,準(zhǔn)確度也不高。因此,學(xué)界多采用數(shù)據(jù)挖掘與復(fù)雜網(wǎng)絡(luò)結(jié)合的方式提取核心藥物并依此推薦方劑。

      復(fù)雜網(wǎng)絡(luò)(Complex Network),是指具有自組織、自相似、吸引子、小世界、無(wú)標(biāo)度中部分或全部性質(zhì)的網(wǎng)絡(luò)[3]。近年來(lái),復(fù)雜網(wǎng)絡(luò)廣泛應(yīng)用于社交、自然語(yǔ)言處理及交通領(lǐng)域等。復(fù)雜網(wǎng)絡(luò)在中醫(yī)藥研究領(lǐng)域的應(yīng)用也十分普遍,常見(jiàn)的有挖掘藥物和癥候之間的關(guān)系,探索藥物配伍之間的規(guī)律,發(fā)現(xiàn)相似的方劑組成等。如Zhou [4]等人利用方劑間的相似度,建立方劑的復(fù)雜網(wǎng)絡(luò),然后通過(guò)網(wǎng)絡(luò)中節(jié)點(diǎn)的度數(shù)分析,提取出度數(shù)最高的幾種方劑,再研究這些方劑中藥物的配伍關(guān)系。陳澈[5]等利用復(fù)雜網(wǎng)絡(luò)對(duì)2型糖尿病的用藥規(guī)律進(jìn)行了研究,進(jìn)而發(fā)現(xiàn)了治療該病的核心藥物。韓楠[6]等根據(jù)中藥方劑特性構(gòu)建TCM模型,結(jié)合TCM網(wǎng)絡(luò)的小世界特性提出TCM網(wǎng)絡(luò)的局部適應(yīng)度模型,分析TCM網(wǎng)絡(luò)的特性并挖掘TCM網(wǎng)絡(luò)中配伍關(guān)系緊密、相似度較大的藥物群。圖模型作為復(fù)雜網(wǎng)絡(luò)模型的抽象,也極具研究?jī)r(jià)值。在中醫(yī)領(lǐng)域,通過(guò)構(gòu)建網(wǎng)絡(luò)模型,能夠揭示藥物之間的結(jié)構(gòu)關(guān)系,進(jìn)而更深層次地分析方劑與病癥的關(guān)聯(lián)。

      基于上述原理,本文提出一種基于TF-IDF和互信息的方劑推薦算法(Prescription recommendation algorithm based on TF-IDF and Mutual-information,簡(jiǎn)稱(chēng)PRTM)。首先構(gòu)建有向含權(quán)方劑-藥物網(wǎng)絡(luò)模型(Directed Weighted Prescription-Drug Network,簡(jiǎn)稱(chēng)[DWPDN]);其次,基于TF-IDF的原理,衡量藥物的重要性;再利用互信息來(lái)衡量核心藥物與方劑的關(guān)系,推薦出最具價(jià)值的方劑。本研究所采用的數(shù)據(jù)主要包括來(lái)自于中醫(yī)科研機(jī)構(gòu)、中醫(yī)院等的臨床數(shù)據(jù)及其內(nèi)部信息平臺(tái)上的案例數(shù)據(jù),及部分中醫(yī)藥網(wǎng)站的經(jīng)典醫(yī)案數(shù)據(jù),共計(jì)542首。本算法的優(yōu)點(diǎn)在于:①不僅僅確定了核心藥物,還基于互信息的概念,根據(jù)核心藥物進(jìn)而確定推薦方劑;②具有較強(qiáng)的通用性,對(duì)于任何疾病可采用該模型得到對(duì)應(yīng)的推薦方劑;③算法時(shí)間、空間復(fù)雜度相對(duì)較低,執(zhí)行效率高。

      1 數(shù)據(jù)預(yù)處理

      錯(cuò)誤的輸入會(huì)導(dǎo)致錯(cuò)誤的輸出,如果數(shù)據(jù)集多源異構(gòu),且數(shù)據(jù)集中的數(shù)據(jù)存在名稱(chēng)不規(guī)范、方劑冗余度大等問(wèn)題,將直接影響結(jié)果的準(zhǔn)確性。因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘中一個(gè)很重要的步驟。本節(jié)將對(duì)上述問(wèn)題提出解決方案。

      1.1 多源異構(gòu)數(shù)據(jù)集的采集

      中醫(yī)肺癌醫(yī)案數(shù)據(jù)的多源異構(gòu)型主要是指數(shù)據(jù)具有以下特點(diǎn):⑴來(lái)源廣,來(lái)自不同的中醫(yī)高等院校、科研機(jī)構(gòu)、中醫(yī)院、權(quán)威中醫(yī)藥網(wǎng)站等;⑵格式復(fù)雜且相互之間不兼容,主要的格式有sql、xls、txt、html等。如何從多源異構(gòu)數(shù)據(jù)集中抽取實(shí)體關(guān)系是重要的研究課題。

      針對(duì)上述類(lèi)型的文本,其中,sql、xls文本的結(jié)構(gòu)化程度高,通過(guò)簡(jiǎn)單的數(shù)據(jù)清洗以及對(duì)缺省值的補(bǔ)充和舍去,可達(dá)到實(shí)體關(guān)系抽取的目的。txt通常是非結(jié)構(gòu)化文本,但考慮到此類(lèi)數(shù)據(jù)通常數(shù)據(jù)量不是很大,可采用人工處理和添加特殊符號(hào)進(jìn)行切分的方法來(lái)得到實(shí)體之間的關(guān)系。較txt文本數(shù)據(jù)、excel和sql,html文件兼有數(shù)據(jù)量大和非結(jié)構(gòu)化兩個(gè)特性,如何得到網(wǎng)頁(yè)數(shù)據(jù)也是本項(xiàng)研究的核心工作之一。

      本研究獲取中醫(yī)藥網(wǎng)站信息的流程如圖1所示。

      1.2 藥物名稱(chēng)規(guī)范化

      部分專(zhuān)家使用的方劑中存在著藥物名稱(chēng)不規(guī)范的問(wèn)題,比如板藍(lán)根會(huì)被寫(xiě)作板蘭根等。本文根據(jù)《中華本草》中的標(biāo)準(zhǔn)名稱(chēng),來(lái)對(duì)中藥的名稱(chēng)做了規(guī)范化的處理。

      考慮其工作量不是很大,此處采用人工查找替換的模式進(jìn)行。

      1.3 方劑聚類(lèi)

      針對(duì)同一疾病,不同專(zhuān)家開(kāi)出的藥方可能完全不同,但也存在著幾首方劑中大部分藥物相同,只有一兩味藥不同的情況,亦有專(zhuān)家直接在某藥方的基礎(chǔ)上標(biāo)記加減藥物。重復(fù)方劑會(huì)導(dǎo)致算法執(zhí)行效率低,因此,此處考慮采用計(jì)算JACCARD相似度的方式,將相似度值大于0.85的方劑作為同一類(lèi)方劑,其計(jì)算公式如式⑴所示:

      式中的X和Y均表示方劑,分子表示兩首方劑中重疊的藥物味數(shù),分母表示兩首方劑中總共出現(xiàn)的藥物味數(shù)。

      2 研究方法

      PRTM算法分三個(gè)步驟。第一步,構(gòu)建有向含權(quán)方劑-藥物網(wǎng)絡(luò)模型[DWPDN];第二步,使用基于改進(jìn)的TF-IDF方法發(fā)現(xiàn)核心藥物;第三步,在[DWPDN]中根據(jù)點(diǎn)互信息對(duì)上一步發(fā)現(xiàn)的核心藥物推薦方劑。

      2.1 [DWPDN]模型的構(gòu)建

      方劑學(xué)是研究中藥方劑的組成、變化和臨床運(yùn)用規(guī)律的一門(mén)學(xué)科,主要包括方劑組成的原則、使用及變化等[7]。方劑藥物網(wǎng)絡(luò)的構(gòu)建主要有藥物-藥物網(wǎng)絡(luò)(Drug-Drug Network,簡(jiǎn)稱(chēng)[DDN])、方劑-藥物網(wǎng)絡(luò)(Prescription-Drug Network,簡(jiǎn)稱(chēng)[PDN])及方劑-方劑網(wǎng)絡(luò)(Prescription-Prescription Network,簡(jiǎn)稱(chēng)[PPN])三種。

      [PDN]模型可以表示方劑-藥物關(guān)系。具體地,從某個(gè)方劑出發(fā),畫(huà)出一條有向邊指向某味藥物,即可以表示該方劑與該藥物之間的包含關(guān)系。然而,傳統(tǒng)的[PDN]模型并不能較為完整的表示這種模糊關(guān)系[8]。譬如,用[PDN]模型表示知識(shí)“茯神和黨參是治療肺癌的方劑1中的兩味藥藥物”見(jiàn)圖2。從圖2中可見(jiàn),茯神和黨參都是方劑中的藥物,至于藥物之間的重要程度卻不得而知,這就使得在具體判斷哪味藥更有效果時(shí)帶來(lái)不便。顯然,[PDN]模型不能表示出同一方劑與不同藥物之間的模糊對(duì)應(yīng)關(guān)系。

      針對(duì)這些不足,本文引入權(quán)值因子(weight factor,簡(jiǎn)稱(chēng)[WF])來(lái)度量方劑和藥物關(guān)系的模糊性。將傳統(tǒng)的[PDN]模型改進(jìn)為[DWPDN]模型。將上文的兩條知識(shí)用[DWPDN]進(jìn)行表示,如圖3所示。

      本文根據(jù)方劑中藥物的位置情況以及方劑和藥物之間的指向關(guān)系來(lái)確定[WF],[WF]的定義詳見(jiàn)下一小節(jié)。

      2.2 改進(jìn)的TF-IDF的核心藥物發(fā)現(xiàn)算法

      本算法基于結(jié)合TF-IDF的原理,將其類(lèi)比于中藥領(lǐng)域的方劑-藥物關(guān)系上,提出一種衡量藥物有效性(Drug Efficacy,簡(jiǎn)稱(chēng)[DE])的標(biāo)準(zhǔn),其中[DE(dg)]表示藥物[dg]在治療疾病時(shí)的有效性,具體公式如式⑵所示。

      式⑵中,[ps[i]]表示第[i]首方劑,[ps_set]表示所有方劑形成的集合,[lenps_set]表示所有方劑的個(gè)數(shù),[ps[j]∈ps_setcount(dg∈ps[j])]表示包含[dg]藥物的方劑個(gè)數(shù)。需要指明的是,該小節(jié)計(jì)算的[DE]值即3.1中方劑與邊之間的權(quán)重[WF]。

      該公式的含義在于,所確定的藥物的有效性從兩個(gè)層面來(lái)衡量,即如果一味藥物是核心藥物,不僅需要確保它在方劑中出現(xiàn)的頻次高,還需要保證它不是一味在每首方劑中都會(huì)出現(xiàn)的輔佐藥物。例如,假設(shè)藥物A作為甜味劑出現(xiàn)在每首方劑中,則式⑵中[log]部分的值為0,整體的值亦為0,也就是說(shuō)盡管藥物A的頻次很高,卻是一味十分普通的輔佐藥物,不能作為核心藥物。

      算法將藥物有效性大于平均值藥物有效性[aveg_de]的藥物作為核心藥物,具體實(shí)現(xiàn)流程如下:

      2.3 方劑推薦算法

      盡管通過(guò)上一步中基于改進(jìn)的TF-IDF核心藥物發(fā)現(xiàn)算法,已經(jīng)確定了淺層知識(shí),即治療肺癌的核心藥物。核心藥物分配在各首方劑之中,如何判斷哪些方劑才是最有效的也是亟待解決的問(wèn)題。

      本文利用上一步得到的核心藥物,從中挖掘一些深層知識(shí),即計(jì)算其與方劑的互信息,以確定推薦的方劑。

      基于此考慮,本文借鑒互信息的算法思想,將方劑與核心藥物的關(guān)系的強(qiáng)度用互信息[9-11]([Mutual] [Information],簡(jiǎn)記為[MI])衡量?;バ畔⑵鋵?shí)就是點(diǎn)互信息[PMI]([Mutual][Pointwise][Information],簡(jiǎn)記為[PMI])的加權(quán)和。其中,點(diǎn)互信息的定義如式⑶所示:

      其中,[p(x,y)]表示的是[x,y]同時(shí)出現(xiàn)的概率,[p(x)和p(y)]分別表示單獨(dú)出現(xiàn)[x]和[y]的概率。在本文中,[x]表示某味核心藥物,[y]表示某首方劑。[p(x)]為某一味核心藥物[x]的在所有方劑中的[WF]值,[p(y)]表示方劑[y]中所有藥物的[WF]之和,[p(x,y)]表示方劑[y]中出現(xiàn)核心藥物[x]的[WF]值。則互信息的表示如式⑷所示:

      其中,[X]表示核心藥物的集合,[Y]表示方劑集合。根據(jù)求得的[PMI]值來(lái)確定方劑的推薦結(jié)果。

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      本研究所采用的數(shù)據(jù)主共計(jì)542首方劑。通過(guò)PRTM算法獲取核心藥物71味,獲得推薦方劑126個(gè)。

      3.2 實(shí)驗(yàn)結(jié)果與討論

      根據(jù)核心藥物發(fā)現(xiàn)算法,在342味中藥中,平均藥物有效性的值為65.5878,超過(guò)該平均值的藥物共有140味。其藥物有效性情況如圖4所示。

      圖4顯示,藥物有效性最高近200,最低在65左右。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)藥物數(shù)量大于71,有效性的值變化趨勢(shì)減緩,因此,實(shí)驗(yàn)選取前71味有效性最高的藥物作為下一步核心方劑發(fā)現(xiàn)算法的輸入值。限于篇幅,表1僅展示了有效性最高的前30味藥及其有效性。

      根據(jù)得到的核心藥物,進(jìn)行基于互信息的核心方劑發(fā)現(xiàn)算法,得到不同方劑的[PMI]值。542首方劑的[PMI]值如圖5所示。

      圖5顯示,[PMI]值最高可達(dá)到1,即該首方劑中的藥物均為核心藥物。根據(jù)導(dǎo)數(shù)變化情況來(lái)看,126首方劑后的[PMI]變化速度減緩。選取前126首方劑作為推薦方劑。限于篇幅,表2僅展示了[PMI]值最高的前5%首(即前6首)方劑的組成。

      本算法的時(shí)間、空間復(fù)雜度不高,542首方劑在實(shí)驗(yàn)平臺(tái)上實(shí)際運(yùn)行時(shí)間為58.372秒。算法通用性強(qiáng),針對(duì)其他疾病的臨床或醫(yī)案數(shù)據(jù),亦能夠采取該種方法得到核心藥物并挖掘核心方劑。

      對(duì)實(shí)驗(yàn)結(jié)果分析可以發(fā)現(xiàn):

      ⑴ 基于TF-IDF的原理,對(duì)方劑中藥物的權(quán)重進(jìn)行調(diào)整,確保藥物的有效性同時(shí)與藥物出現(xiàn)頻次和代表性相關(guān),可以更準(zhǔn)確地發(fā)現(xiàn)核心藥物;

      ⑵ 在傳統(tǒng)的藥物方劑網(wǎng)絡(luò)中增加了[WF]后,推薦方劑中所包含的核心藥物的味數(shù)增加了,即所推薦方劑的效果更加完善;

      ⑶ 使用互信息的思想可以有效地發(fā)現(xiàn)與核心藥物關(guān)聯(lián)性大的方劑。

      4 結(jié)束語(yǔ)

      本文提出的PRTM算法從中醫(yī)方劑中確定核心藥物,再根據(jù)核心藥物來(lái)推薦方劑,是由淺層知識(shí)發(fā)現(xiàn)的層面進(jìn)入到深層知識(shí)發(fā)現(xiàn)的層面的過(guò)程,這提升了研究層次。需要承認(rèn)的是,中藥方劑中發(fā)揮作用的因素較多,今后的研究應(yīng)該進(jìn)一步考慮多種影響因子的復(fù)合作用來(lái)設(shè)置復(fù)合權(quán)重。

      參考文獻(xiàn)(References):

      [1] 本刊編輯部. 2017年中國(guó)最新癌癥數(shù)據(jù)[J]. 中國(guó)腫瘤臨床與康復(fù),2017.5:68.

      [2] Rebecca L,Siegel M P H,Kimberly D,et al.Cancer statistics[J].CA Cancer J Clin,2018,68(1):7-30

      [3] S.Boccaletti,V. Latora, Y.Moreno,M.Chavez, D.-U. Hwang.Complex networks:Structure and dynamics[J]. Physics Reports,2006.4.

      [4] Zhou X, Liu B.Network analysis system for traditional Chinese medicine clinical data[C]Biomedical Engineering and Informatics,2009.BMEI09. 2nd International Conference on,IEEE,2009:1-5

      [5] 陳澈. 基于復(fù)雜網(wǎng)絡(luò)的2型糖尿病中醫(yī)核心用藥挖掘及其機(jī)制研究[D].北京中醫(yī)藥大學(xué),2018.

      [6] Han nan,Qiao Shaojie, Li Tianrui,et al. Algorithm for mining the compatibility law of traditional Chinese medicine prescriptions for complex networks[J].Computer science and exploration,2017.11(7):1159-1165

      [7] Luo J,Xu h,Zhou x z, et al. Study on the compatibility and application rules of unstable angina pectoris based on complex network[J].Chinese journal of integrated traditional Chinese and western medicine,2014,34(12):1420-1424. (in Chinese with English abstract)

      [8] Li Xin,Wang Tianfang,Xue Xiaolin,et al. Application of complex network to analyze the drug law of traditional Chinese medicine in the treatment of hepatitis cirrhosis [J].Chinese journal of traditional Chinese medicine,2013. 28(5):1495-1499

      [9] 韓楠,喬少杰,李天瑞,等.面向復(fù)雜網(wǎng)絡(luò)的中藥方劑配伍規(guī)律挖掘算法[J].計(jì)算機(jī)科學(xué)與探索,2017.11(7):1159-1165

      [10] 羅靜,徐浩,周雪忠,等.基于復(fù)雜網(wǎng)絡(luò)的不穩(wěn)定型心絞痛中藥配伍應(yīng)用規(guī)律研究[J].中國(guó)中西醫(yī)結(jié)合雜志,2014.34(12): 1420-1424

      [11] Eirola,e.,Lendasse,a.,Karhunen,J.Variable selection for regression problems using Gaussian mixture models to estimate mutual information[P].Neural Networks (IJCNN), 2014 International Joint Conference on,2014.

      猜你喜歡
      推薦算法互信息
      基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
      校園社交平臺(tái)中標(biāo)簽系統(tǒng)的研究
      基于相似傳播和情景聚類(lèi)的網(wǎng)絡(luò)協(xié)同過(guò)濾推薦算法研究
      社交網(wǎng)絡(luò)推薦系統(tǒng)
      混合推薦算法在電影推薦中的研究與評(píng)述
      一種改進(jìn)的基于位置的推薦算法
      采用目標(biāo)區(qū)域互信息的星空?qǐng)D像配準(zhǔn)
      基于情景感知的高校移動(dòng)社交網(wǎng)絡(luò)平臺(tái)設(shè)計(jì)與開(kāi)發(fā)
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      磴口县| 通渭县| 县级市| 白银市| 高阳县| 澄江县| 龙山县| 平潭县| 金平| 札达县| 郴州市| 砚山县| 马边| 新源县| 宁安市| 彰化县| 开封市| 长沙市| 柳江县| 日照市| 阳信县| 利辛县| 淮北市| 泸西县| 习水县| 稻城县| 长沙市| 南投县| 木兰县| 红河县| 伊金霍洛旗| 和顺县| 襄汾县| 北碚区| 沙田区| 沐川县| 广宗县| 雷州市| 密云县| 启东市| 武宣县|