曦錸
[本刊訊]中國(guó)科學(xué)院上海生命科學(xué)研究院生物化學(xué)與細(xì)胞生物學(xué)研究所系統(tǒng)生物學(xué)重點(diǎn)實(shí)驗(yàn)室陳洛南研究組報(bào)道了題為“建立量化網(wǎng)絡(luò)中直接關(guān)聯(lián)性的‘部分互信息新方法”(Part mutual information for quantifying direct associations in networks)的最新研究成果。該成果首次提出“部分互信息”的新概念和理論,通過(guò)“部分互信息”量化網(wǎng)絡(luò)中節(jié)點(diǎn)之間的直接關(guān)聯(lián)性,可實(shí)現(xiàn)由觀測(cè)數(shù)據(jù)直接構(gòu)建網(wǎng)絡(luò)或變量間因果關(guān)系。相關(guān)論文2016年4月18日在線發(fā)表于Proceedings of the National Academy Of Sciences Of the United States Of America。
數(shù)據(jù)分析中,定量的標(biāo)識(shí)變量間的直接依賴性是一件非常重要的事情,特別對(duì)于科學(xué)和工程中各種類型的網(wǎng)絡(luò)重構(gòu)和因果推斷問(wèn)題,都需要高精度的理論和方法。應(yīng)用最廣泛的方法之一是偏相關(guān)性系數(shù)(partial correlation),但是偏相關(guān)性系數(shù)只能量化線性變量或節(jié)點(diǎn)之間的相關(guān)性和關(guān)聯(lián)性,忽略非線性的關(guān)聯(lián)性。然而,基于“條件獨(dú)立性”(conditional independency)的“條件互信息”(conditional mutual information。CMI)可以從數(shù)據(jù)中觀察變量之間非線性的直接關(guān)聯(lián)性,優(yōu)于線性的方法,所以廣泛應(yīng)用于各個(gè)領(lǐng)域。但是,條件互信息存在著過(guò)低估計(jì)的問(wèn)題,嚴(yán)重限制了它的應(yīng)用,特別是在變量或節(jié)點(diǎn)間有強(qiáng)相關(guān)的網(wǎng)絡(luò)中,這個(gè)問(wèn)題更加嚴(yán)重。
基于此,研究組提出了“偏獨(dú)立性”(partial independency)以及新的度量方法,又稱作“部分互信息”(part mutual information,PMI),不僅能夠克服條件互信息的缺點(diǎn),同時(shí)還能保持互信息和條件互信息的性質(zhì)。研究組首先定義了部分互信息用于量化變量之間直接關(guān)聯(lián)性,然后從理論上給出部分互信息與互信息,以及條件互信息之間的內(nèi)在聯(lián)系。通過(guò)數(shù)值實(shí)驗(yàn),證明了部分互信息的性質(zhì)和優(yōu)點(diǎn),接著通過(guò)用大腸桿菌和酵母的基因表達(dá)數(shù)據(jù)重構(gòu)其基因調(diào)控網(wǎng)絡(luò),進(jìn)一步驗(yàn)證了部分互信息在量化網(wǎng)絡(luò)中非線性的直接關(guān)聯(lián)性的優(yōu)越性。從計(jì)算的角度,“部分互信息”可取代“條件互信息”,該工作為大數(shù)據(jù)網(wǎng)絡(luò)研究提供了全新的概念和理論,具有重要理論和應(yīng)用價(jià)值?;谟^測(cè)數(shù)據(jù),“部分互信息”不僅可用于生物分子網(wǎng)絡(luò)的高精度構(gòu)建,而且可以應(yīng)用于其他工程和科學(xué)領(lǐng)域中各種復(fù)雜網(wǎng)絡(luò)和因素的因果關(guān)系推斷。