張永卓, 高 穎, 牛春艷, 傅博強(qiáng), 王 晶
(中國(guó)計(jì)量科學(xué)研究院, 北京 100029)
人類(lèi)對(duì)生命的認(rèn)知是從宏觀到微觀,再?gòu)奈⒂^到宏觀,最終回歸本源。對(duì)生物的了解也是先通過(guò)《植物名實(shí)圖考》、《伯杰氏手冊(cè)》等生物外部特征的描,再到《物種起源》、“孟德?tīng)栠z傳定律”等宏觀規(guī)律, 探索認(rèn)識(shí)生物生命本質(zhì)。隨著近代科技的進(jìn)步,人類(lèi)對(duì)生物內(nèi)在機(jī)理的研究也愈發(fā)深入,先后提出了進(jìn)化論、DNA雙螺旋、中心法則等。科學(xué)家們?cè)噲D通過(guò)探索其機(jī)理的改變,解析特定的生物學(xué)表觀現(xiàn)象[1]。隨著遺傳信息研究的逐步深入,學(xué)者們愈發(fā)認(rèn)識(shí)到生物表型特征和性狀對(duì)認(rèn)識(shí)生物生命的重要性;建立生物表型與遺傳信息的關(guān)聯(lián)性,將是生物學(xué)研究的一個(gè)重要命題[2]。但由于缺乏標(biāo)準(zhǔn)和規(guī)范,雖然表型相關(guān)的數(shù)據(jù)眾多,依然無(wú)法準(zhǔn)確地理解基因和環(huán)境因素對(duì)生物體的復(fù)雜影響[3]。直到二十世紀(jì)末期,“生物表型”的概念才被正式提出[4],同時(shí)遺傳學(xué)家們提出“表型為王,基因?yàn)楹蟆钡挠^點(diǎn),這也從另一面驗(yàn)證了表型研究的重要性。
隨著高通量測(cè)序等現(xiàn)代分析技術(shù)的不斷進(jìn)步,各種組學(xué)研究蓬勃發(fā)展[5~7],帶動(dòng)了生物表型中的表型組發(fā)展。“人類(lèi)基因組計(jì)劃”、“人類(lèi)微生物組學(xué)計(jì)劃”等大型組學(xué)研究的相繼完成[8],使得人們對(duì)生命科學(xué)有了全局、系統(tǒng)化的認(rèn)知,生命科學(xué)進(jìn)入“后基因組時(shí)代”[9]。但是從內(nèi)在機(jī)理的研究向表型結(jié)果的轉(zhuǎn)化過(guò)程卻參差不齊,很多數(shù)據(jù)或者結(jié)果無(wú)法得以有效解釋。而將多種表型分析技術(shù)和系統(tǒng)的表型信息結(jié)合在一起的表型組毫無(wú)疑問(wèn)將是聯(lián)系生物體基因和表型的橋梁,其可為功能基因組學(xué)的研究提供有效支撐[10]。結(jié)合組學(xué)、高通量分析技術(shù)、人工智能和大數(shù)據(jù)分析的表型組發(fā)展迅速,同時(shí)必將產(chǎn)生大量異質(zhì)性、多維度的表型數(shù)據(jù),由于標(biāo)準(zhǔn)的缺失勢(shì)必導(dǎo)致數(shù)據(jù)的準(zhǔn)確性、可比性和可融合性受到影響,共享和合作創(chuàng)新受阻,最終延緩生物產(chǎn)業(yè)的進(jìn)步和升級(jí)。
本文從標(biāo)準(zhǔn)化的角度,對(duì)生物表型相關(guān)概念、發(fā)展以及生物表型組標(biāo)準(zhǔn)化面臨的問(wèn)題進(jìn)行思考與展望,以期為生物表型組標(biāo)準(zhǔn)化的發(fā)展提供借鑒進(jìn)而帶動(dòng)生物計(jì)量標(biāo)準(zhǔn)的發(fā)展。
在早期的研究中,由于欠缺分子生物學(xué)技術(shù),無(wú)法從基因水平上進(jìn)行探索,因此將生物及其后代的性狀作為影響因素的指標(biāo),這時(shí)表型的概念還僅限于外在形象。而隨著研究的不斷發(fā)展,“表型”出現(xiàn)的頻率也逐步升高。但由于其包含范圍很廣,生物表型及生物表型組的概念至今仍沒(méi)有一個(gè)明確的定義。
基于現(xiàn)有研究,生物表型是指具有特定基因型的生物體(植物、動(dòng)物、微生物等)受基因和環(huán)境共同影響,表現(xiàn)出來(lái)的可觀測(cè)的性狀特征[11,12]。對(duì)于一個(gè)生物而言,表型表示某一特定的物理外觀或化學(xué)組成,如植物莖節(jié)高度、人的血型、微生物厭氧等[13]。表型主要受生物的基因和環(huán)境共同影響,以動(dòng)物為例,如形態(tài)和習(xí)性這類(lèi)表型容易受環(huán)境因素影響;而毛發(fā)顏色和瞳孔顏色則受基因影響,且很少會(huì)被環(huán)境改變。表型由微觀到宏觀還可以分為分子表型、細(xì)胞表型、組織表型、器官表型以及整體表型。而生物表型組是指在遺傳和環(huán)境因素的影響下,形成生物體全部特征信息的集合,包括外部形態(tài)、內(nèi)在生理、心理行為和分子構(gòu)成等各種特征集合[14]。表型組學(xué)(phenomics)最早是在1996年被提出,隨后在動(dòng)物、植物、微生物以及人等相關(guān)領(lǐng)域不斷擴(kuò)展[15]。由此發(fā)展,生物表型同時(shí)涵蓋了表型組數(shù)據(jù)信息。生物表型為在遺傳和環(huán)境因素的影響下,生物表現(xiàn)出來(lái)的可觀測(cè)的性狀特征,形成生物體(全部)特征信息及組學(xué)的集合,包括細(xì)胞、形態(tài)、分子水平、空間行為等生物表型的數(shù)據(jù)集合,以表征生物特性及生物體質(zhì)量的關(guān)系。
生物表型組包含眾多研究方向。其中動(dòng)物表型中人類(lèi)表型組最為重要[16],植物表型組的發(fā)展最為完善[17]。植物表型組作為術(shù)語(yǔ)定義提出較早,且容易被監(jiān)測(cè),已進(jìn)入大面積產(chǎn)業(yè)化應(yīng)用,向著規(guī)?;⒆詣?dòng)化方向發(fā)展[18];同時(shí)涌現(xiàn)出多個(gè)可以進(jìn)行大量植物性狀評(píng)價(jià)的高通量技術(shù)平臺(tái),為植物研究、作物培育等產(chǎn)業(yè)提供了豐富的數(shù)據(jù)支持[12,19,20]。關(guān)于動(dòng)物表型組研究,我國(guó)早在“十二五”規(guī)劃中就開(kāi)展以靈長(zhǎng)動(dòng)物和豬為模型的表型與遺傳研究,通過(guò)描述表型、遺傳型及其在環(huán)境中的響應(yīng),闡明生命表型的形成規(guī)律和調(diào)節(jié)方式。而作為生命健康的核心,人類(lèi)表型組的發(fā)展最為詳盡、系統(tǒng),包含了人類(lèi)“生老病死”的全過(guò)程,融合疾病、臨床、行為等生物表征,通過(guò)不同的研究方法,從宏觀到微觀對(duì)人體的所有生物學(xué)性狀進(jìn)行系統(tǒng)測(cè)量和分析[21]。其中,電子病歷就是一種綜合利用表型資源服務(wù)健康醫(yī)療的模式,儲(chǔ)存在電子病歷中的臨床表型特征一方面有利于加深人們對(duì)疾病基因基礎(chǔ)的理解,另一方面可以驗(yàn)證過(guò)去發(fā)現(xiàn)的遺傳表征是否與特定疾病、基因具有顯著相關(guān)性。同時(shí)在日常生活中同樣產(chǎn)生了大量的表型數(shù)據(jù),如手機(jī)、運(yùn)動(dòng)手表等便攜式設(shè)備對(duì)生理指標(biāo)的采集,Health Kit、Research Kit等信息綜合平臺(tái)的發(fā)展以及通過(guò)表型藥物篩選平臺(tái)發(fā)現(xiàn)的新藥數(shù)量逐年升高[22],這些都說(shuō)明隨著表型數(shù)據(jù)的積累,生物表型組的作用越來(lái)越大,表型及其應(yīng)用將對(duì)日常生活、醫(yī)療衛(wèi)生、科學(xué)研究以及生命規(guī)律等產(chǎn)生重要影響[23,24]。
同時(shí),生物表型組也是多維度的。利用宏測(cè)量技術(shù)(高通量的表型分析技術(shù))結(jié)合數(shù)據(jù)挖掘方法,從微觀到宏觀對(duì)生物體的物理、化學(xué)和生物表征進(jìn)行系統(tǒng)性測(cè)量,進(jìn)而描繪基因、環(huán)境與表型之間多尺度的關(guān)系,構(gòu)建生物表型組跨尺度、高度復(fù)雜、動(dòng)態(tài)的系統(tǒng)框架。同時(shí),表型組學(xué)的研究在逐步深入化,分為深度表型(deep phenotyping)和表型組分析(phenomic analysis)兩部分[25,26]:深度表型指基于個(gè)體表型描述的全面精確深入表型分析;表型組分析意指利用聚類(lèi)分析等分析方法從復(fù)雜多維數(shù)據(jù)中提取數(shù)據(jù)子集之間的潛在關(guān)系,并利用文本挖掘、通路分析等策略進(jìn)一步細(xì)化基因和表型的關(guān)聯(lián),即一方面在單獨(dú)表型特征上進(jìn)行精準(zhǔn)研究[27],另一方面將各個(gè)表型同基因形成連鎖分析[28]。
測(cè)序成本的不斷下降,各種組學(xué)數(shù)據(jù)的日益積累,表型數(shù)據(jù)和組學(xué)數(shù)據(jù)的融合已成為大數(shù)據(jù)領(lǐng)域不可阻擋的趨勢(shì)之一,表型組的發(fā)展也面臨多融合、精準(zhǔn)應(yīng)用的挑戰(zhàn)。根據(jù)基因組及表型組等多層次信息,抽提組學(xué)特征,形成一套完善的知識(shí)圖譜尤為重要。而隨著表型組的發(fā)展,也出現(xiàn)了更多高通量、多維度以及智能化的技術(shù)。例如在特性表型數(shù)據(jù)采集中出現(xiàn)一些專(zhuān)門(mén)為葉面積、株型開(kāi)發(fā)的自動(dòng)化圖像分析技術(shù),如三維三光彩色成像、熒光成像、熱成像、成像光譜[29~31]等。同時(shí)還演化出多維度的檢測(cè)生物表征的手段,如質(zhì)譜、核磁共振、表型微陣列技術(shù)等。而在高通量的大數(shù)據(jù)處理方面,產(chǎn)生如自動(dòng)表型分析平臺(tái)、高通量高光譜成像系統(tǒng)、高通量葉評(píng)分儀[32]、水稻產(chǎn)量性狀評(píng)分儀、高通量水稻表型設(shè)施[33]等自動(dòng)平臺(tái)。從測(cè)量方法到數(shù)據(jù)處理,技術(shù)的進(jìn)步也推動(dòng)生物表型組從外部物理數(shù)據(jù)向內(nèi)部生理生化指標(biāo),從低水平到高通量,從人工采集到智能獲取的過(guò)程發(fā)展。
前期的生命科學(xué)研究通常以基因?qū)用孢M(jìn)行,而現(xiàn)階段由于缺少對(duì)表型標(biāo)準(zhǔn)化的定義導(dǎo)致表型數(shù)據(jù)雜亂,基因型和表型的連接存在障礙,限制了表型組數(shù)據(jù)的應(yīng)用。雖然現(xiàn)在表型組逐漸受到關(guān)注,但現(xiàn)有的技術(shù)和方法無(wú)法滿(mǎn)足高通量和高質(zhì)量分析的數(shù)據(jù)一致性和規(guī)范性的需求,在各種各樣的平臺(tái)進(jìn)行數(shù)據(jù)的采集和積累的同時(shí)也暴露著巨大的不互認(rèn)問(wèn)題,而最先體現(xiàn)的是定義不統(tǒng)一問(wèn)題。
3.2.1 基礎(chǔ)性術(shù)語(yǔ)定義缺乏標(biāo)準(zhǔn)化
從表型組的發(fā)展不難看出,其涉及領(lǐng)域眾多且跨多學(xué)科。但是正是由于這一特征,導(dǎo)致從一開(kāi)始很多術(shù)語(yǔ)定義及數(shù)據(jù)處理都是基于各個(gè)學(xué)科建立的,缺乏統(tǒng)一標(biāo)準(zhǔn)的術(shù)語(yǔ)定義。而基礎(chǔ)術(shù)語(yǔ)定義是標(biāo)準(zhǔn)化工作的基礎(chǔ),沒(méi)有統(tǒng)一的語(yǔ)言、共識(shí)的定義,無(wú)法推動(dòng)表型組高效有序發(fā)展。
以人類(lèi)科學(xué)為例,其表型定義具有復(fù)雜性和模糊性特點(diǎn),原因在于不同時(shí)期表型特征的適用范圍不同,或隨著科技及檢測(cè)手段的提升,很多表型定義的指標(biāo)和含義也有所改變,而基礎(chǔ)信息和數(shù)據(jù)來(lái)源的多樣性,也極大的增加了不確定性(圖1)。在臨床方面,健康人群及患者基因數(shù)據(jù)的積累,最終會(huì)形成參考數(shù)據(jù)庫(kù),而準(zhǔn)確可靠的臨床表型定義至關(guān)重要,因此,需要找到共同語(yǔ)言來(lái)建立相應(yīng)的連接。一個(gè)典型的例子,就是根據(jù)不同類(lèi)別確定糖尿病隊(duì)列,分類(lèi)標(biāo)準(zhǔn)包括診斷標(biāo)準(zhǔn)、實(shí)驗(yàn)室標(biāo)準(zhǔn)和藥物治療標(biāo)準(zhǔn),在一共24 520名患者中,完全符合3種標(biāo)準(zhǔn)的僅占38.50%,還有36.17%的患者只占3種分類(lèi)標(biāo)準(zhǔn)的1種[34]。這種不同定義標(biāo)準(zhǔn)導(dǎo)致很多患者無(wú)法準(zhǔn)確確診,同時(shí)也會(huì)導(dǎo)致后期數(shù)據(jù)分析和表型統(tǒng)計(jì)時(shí)的資源交叉以及數(shù)據(jù)重復(fù)問(wèn)題。
圖1 表型的不同術(shù)語(yǔ)定義Fig.1 Different definitions of terms for the phenotype
生物表型的定義直接會(huì)影響生物表型組的發(fā)展。因此如何基于不同領(lǐng)域、不同檢測(cè)方法,特異性地建立表型特征的術(shù)語(yǔ)定義集,將是表型組發(fā)展的基石。
3.2.2 特征數(shù)據(jù)采集缺乏標(biāo)準(zhǔn)化流程
由于表型范圍涵蓋廣、特征信息不明,導(dǎo)致描述表型的數(shù)據(jù)大量堆積。雖然科技進(jìn)步降低了采集成本,但表型特征的測(cè)量依然落后[12,35],生物特征的復(fù)雜性和多維性也對(duì)表型測(cè)量、分析提出了挑戰(zhàn)。很多個(gè)體表型信息多樣、模糊,真實(shí)完整的特征包含了比實(shí)際測(cè)量更多的表現(xiàn)型,即使對(duì)于特定的性狀,也無(wú)法確認(rèn)待測(cè)特征的最有效子集。同時(shí)特征采集方面更是缺乏國(guó)際統(tǒng)一標(biāo)準(zhǔn),沒(méi)有明確的指標(biāo),部分表型數(shù)據(jù)的質(zhì)量還受人工主觀因素影響[36],無(wú)法實(shí)現(xiàn)連續(xù)測(cè)量。如何提高特征采集的準(zhǔn)確性,如何定義采集參數(shù),精確進(jìn)行表型分類(lèi)以及質(zhì)量評(píng)價(jià),已成為制約生物表型組發(fā)展亟待解決的問(wèn)題。從表型到表型組,表型特征數(shù)據(jù)采集標(biāo)準(zhǔn)化將直接影響表型組數(shù)據(jù)的分析和應(yīng)用。
3.2.3 大數(shù)據(jù)信息分析急需標(biāo)準(zhǔn)化
無(wú)論是植物表型的大面積信息采集[37],還是模式動(dòng)物生物特征的收集都產(chǎn)生了大規(guī)模的數(shù)據(jù)。與傳統(tǒng)人工獲取數(shù)據(jù)不同,現(xiàn)在的表型組研究通過(guò)機(jī)器人、智能AI、自動(dòng)化、遙感等技術(shù)手段,極大地提高了數(shù)據(jù)的通量[35],使得表型組學(xué)進(jìn)入了數(shù)字化時(shí)代[38]。而多維度的數(shù)據(jù)在大大豐富了表型研究?jī)?nèi)容的同時(shí)也增加了數(shù)據(jù)整合的難度。面對(duì)如此巨大的數(shù)據(jù)積累,數(shù)據(jù)的有效性、數(shù)據(jù)類(lèi)型的共享和通用性、數(shù)據(jù)分析和利用的統(tǒng)一性,將是生物表型組發(fā)展面臨的嚴(yán)峻挑戰(zhàn)。早期基因組研究發(fā)展的如火如荼,而面對(duì)指數(shù)級(jí)增長(zhǎng)的資源導(dǎo)致很多數(shù)據(jù)無(wú)法共享及分析,最終導(dǎo)致了極大資源浪費(fèi)。在2019年,國(guó)際標(biāo)準(zhǔn)化組織ISO/TC215“健康信息學(xué)技術(shù)委員會(huì)”緊急成立了“基因組學(xué)”分技術(shù)委員會(huì)(SC1),意在推動(dòng)各組學(xué)標(biāo)準(zhǔn)化,制定包括基因組序列變異標(biāo)記語(yǔ)言、組學(xué)標(biāo)記語(yǔ)言、二代測(cè)序臨床基因組數(shù)據(jù)共享規(guī)范、DNA測(cè)序質(zhì)量控制等標(biāo)準(zhǔn)。因此,針對(duì)數(shù)量級(jí)更大的生物表型組,構(gòu)建或提出針對(duì)不同領(lǐng)域的特異化數(shù)據(jù)庫(kù)的數(shù)據(jù)處理規(guī)范,提高數(shù)據(jù)共享和利用率將是之后標(biāo)準(zhǔn)化工作的重點(diǎn)之一。
3.2.4 數(shù)據(jù)融合與產(chǎn)出應(yīng)用需要標(biāo)準(zhǔn)化
表型組學(xué)的研究才剛剛開(kāi)始,且表型復(fù)雜的特征信息也伴隨著很多問(wèn)題。表型信息與基因之間的關(guān)聯(lián)和連鎖研究日益活躍,同時(shí)在數(shù)據(jù)融合的時(shí)代表型組的研究將推動(dòng)更多產(chǎn)業(yè)的應(yīng)用,因此在數(shù)據(jù)處理、特征精度和準(zhǔn)確性方面的需求更加強(qiáng)烈[39]。而多源數(shù)據(jù)融合涉及兩個(gè)層面:一方面,研究者需將同一檢測(cè)特征在不同時(shí)期獲取的數(shù)據(jù)進(jìn)行融合,從而實(shí)現(xiàn)全生育期性狀或全周期的動(dòng)態(tài)監(jiān)測(cè)和分析;另一方面,針對(duì)多源表型信息,如何進(jìn)行不同維度、不同尺度的數(shù)據(jù)融合,尤其是在環(huán)境因素易變,缺失參照標(biāo)準(zhǔn)的多源數(shù)據(jù),則是研究者進(jìn)行從形態(tài)到生理乃至機(jī)理的綜合型研究所面臨的難題之一。特別在統(tǒng)計(jì)學(xué)里“大p小n”(Large phenome number and Small sample number,LpSn)和“高維數(shù),小樣本”(High dimensional and Small sample number,HdSn)的問(wèn)題[40]在表型組中特別嚴(yán)重。多數(shù)據(jù)導(dǎo)致高維度,而傳統(tǒng)的降維分析又導(dǎo)致很多信息失真[41]。
如何將表型組數(shù)據(jù)和其他組學(xué)數(shù)據(jù)進(jìn)行融合,對(duì)生產(chǎn)應(yīng)用提供指導(dǎo),一是需要標(biāo)準(zhǔn)化的規(guī)范指導(dǎo),二是需要結(jié)合標(biāo)準(zhǔn)物質(zhì)/標(biāo)準(zhǔn)樣品的精確數(shù)據(jù)。正是在大標(biāo)準(zhǔn)體系下才能為推動(dòng)生物表型組更好、更快發(fā)展的提供重要驅(qū)動(dòng)力。
基于以上因素,不難發(fā)現(xiàn)在生物表型組發(fā)展、推廣和實(shí)際探究中仍存在很多問(wèn)題,缺少術(shù)語(yǔ)定義、特征采集參數(shù)、數(shù)據(jù)處理分析標(biāo)準(zhǔn)、檢索記錄規(guī)范等,這導(dǎo)致數(shù)據(jù)無(wú)法共享、互認(rèn)的同時(shí)也制約了生物表型相關(guān)產(chǎn)業(yè)的發(fā)展。例如果蠅翅膀表型采集數(shù)據(jù)處理的過(guò)程中,不同的分類(lèi)算法、測(cè)量方法,如顯微鏡和用于捕捉圖像的軟件,提取坐標(biāo)信息以及放大參數(shù)設(shè)置等的變化都直接影響了最終的結(jié)果統(tǒng)計(jì)。更重要的是,由于缺乏統(tǒng)一的規(guī)范和質(zhì)控,表型信息碎片化嚴(yán)重,無(wú)法進(jìn)行大規(guī)模標(biāo)準(zhǔn)化的衡量和評(píng)定。因此要想促進(jìn)生物表型組向更有序、更高效的方向發(fā)展,系統(tǒng)化的標(biāo)準(zhǔn)就顯得尤為重要。
現(xiàn)有標(biāo)準(zhǔn)化技術(shù)委員會(huì)以及生物相關(guān)標(biāo)準(zhǔn)只針對(duì)生物樣本、生化分析、體外診斷產(chǎn)品等方面,目前還沒(méi)有能夠針對(duì)生物表型(組)領(lǐng)域的標(biāo)準(zhǔn)化機(jī)構(gòu)和技術(shù)委員會(huì),但國(guó)際上多個(gè)領(lǐng)域已經(jīng)開(kāi)展了表型(組)相關(guān)標(biāo)準(zhǔn)化工作及本體系統(tǒng)的建立工作(表1)。如以大量集成術(shù)語(yǔ)系統(tǒng)為主的UMLS和BioPortal;以表型術(shù)語(yǔ)的整理和完善為主的通用集成系統(tǒng)人類(lèi),包括表型本體論(human phenotype ontology,HPO)[42]、哺乳動(dòng)物表型本體論(mammalian phenotype ontology,MP)、蠕蟲(chóng)表型本體論(worm phenotype ontology,WPO)[43]、酵母表型本體論(yeast phenotype ontology, APO)[44]和果蠅表型本體論(fly phenotype ontology,FPO)等。而在臨床表型術(shù)語(yǔ)標(biāo)準(zhǔn)方面,有醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(yǔ)(SNOMED-CT)、觀測(cè)指標(biāo)標(biāo)識(shí)符邏輯命名與編碼系統(tǒng)(LOINC)、RALDEX影像學(xué)結(jié)構(gòu)化報(bào)告、國(guó)際疾病分類(lèi)(ICD)等。通過(guò)分析發(fā)現(xiàn),雖然表型本體眾多,但本體分類(lèi)不明確,其包含術(shù)語(yǔ)數(shù)量懸殊,語(yǔ)義交互性存在缺陷,映射困難、術(shù)語(yǔ)表達(dá)不統(tǒng)一的問(wèn)題。如HPO映射到UMLS中的術(shù)語(yǔ)占71.2%,而MP僅占11%。同時(shí)語(yǔ)義類(lèi)別不清,有的為癥狀表型,有的為理化指標(biāo)、醫(yī)學(xué)表型。因此在分析各類(lèi)表型本體數(shù)據(jù)的基礎(chǔ)上,加以整理和歸納表型本體內(nèi)容并實(shí)現(xiàn)共識(shí)的基礎(chǔ)標(biāo)準(zhǔn)化工作非常重要。
表1 部分術(shù)語(yǔ)本體庫(kù)基本信息Tab.1 Basic Information of Ontology Databases
在我國(guó),以HPO為框架,聯(lián)合相關(guān)領(lǐng)域?qū)I(yè)人士,逐步建立中文臨床表型術(shù)語(yǔ)標(biāo)準(zhǔn)平臺(tái)(CHPO),并讓其指導(dǎo)、服務(wù)于中文使用者的臨床和科研工作。表型組相關(guān)標(biāo)準(zhǔn)化工作也在不斷推進(jìn),2018年“人類(lèi)表型組計(jì)劃國(guó)際協(xié)作組”(International Human Phenome Consortium,IHPC)成立,促進(jìn)了標(biāo)準(zhǔn)化工作組的成立。2018年,中國(guó)計(jì)量科學(xué)研究院向國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)提交了成立全國(guó)生物表型標(biāo)準(zhǔn)化技術(shù)委員會(huì)的申請(qǐng),2022年,國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)對(duì)全國(guó)生物表型標(biāo)準(zhǔn)化工作組的籌建進(jìn)行了公示。與此同時(shí),中國(guó)也在大力推動(dòng)國(guó)際標(biāo)準(zhǔn)化工作,提交成立ISO表型委員會(huì)的建議,如在2019年中國(guó)計(jì)量科學(xué)研究院聯(lián)合復(fù)旦大學(xué)等單位,通過(guò)國(guó)家標(biāo)準(zhǔn)化委員會(huì)在ISO提出成立國(guó)際“人類(lèi)表型組標(biāo)準(zhǔn)化技術(shù)委員會(huì)”(ISO TS/P 277),獲得了包括法國(guó)、德國(guó)、意大利、西班牙等18個(gè)國(guó)家支持。在推動(dòng)“人類(lèi)表型組標(biāo)準(zhǔn)化技術(shù)委員會(huì)”的過(guò)程中,各國(guó)普遍認(rèn)為人類(lèi)表型組標(biāo)準(zhǔn)化工作非常重要,這將促進(jìn)全球數(shù)據(jù)的整合、共享及挖掘,加速此領(lǐng)域的發(fā)展及應(yīng)用;同時(shí)表型組學(xué)涉及多學(xué)科,與納米技術(shù)、生物技術(shù)、計(jì)算機(jī)科學(xué)及認(rèn)知科學(xué)相關(guān),代表生命疾病和機(jī)理研究的新方向,對(duì)這些技術(shù)進(jìn)行術(shù)語(yǔ)定義很重要。另外,產(chǎn)生高質(zhì)量及一致性數(shù)據(jù)對(duì)于元數(shù)據(jù)應(yīng)用于人工智能很重要,其標(biāo)準(zhǔn)機(jī)構(gòu)涉及了國(guó)家層面的利益相關(guān)方。
生物表型組的發(fā)展離不開(kāi)行之有效的標(biāo)準(zhǔn)化工作進(jìn)行配合。搭建術(shù)語(yǔ)分類(lèi)、表型測(cè)量和表征參數(shù)、數(shù)據(jù)以及跨尺度關(guān)聯(lián)分析等相關(guān)標(biāo)準(zhǔn),將基因組和表型組有效、準(zhǔn)確地連接起來(lái),形成一個(gè)表型、基因、環(huán)境關(guān)系的知識(shí)圖譜。在統(tǒng)一的標(biāo)尺和標(biāo)準(zhǔn)化體系框架下,將有利于生物表型組數(shù)據(jù)的安全、可靠、共享,具有巨大的市場(chǎng)和應(yīng)用前景。
生物表型組的發(fā)展才剛剛開(kāi)始,但其對(duì)科研及應(yīng)用已產(chǎn)生了十分深遠(yuǎn)的影響[45]。隨著大數(shù)據(jù)、高通量、多組學(xué)的信息不斷擴(kuò)展,生物表型(組)的標(biāo)準(zhǔn)化工作已提到議事日程,需要從如下幾個(gè)方面進(jìn)行:(1)建立分層次的生物表型組標(biāo)準(zhǔn)化體系。一是術(shù)語(yǔ)定義及分類(lèi)標(biāo)準(zhǔn),本體、特征參數(shù)等;二是方法及手段標(biāo)準(zhǔn),如隊(duì)列設(shè)計(jì)、采集手段、表征方法、分析工具等;三是數(shù)據(jù)結(jié)果分析標(biāo)準(zhǔn),遵守最小信息(minimum information,MI)、數(shù)據(jù)格式(data format)等要求;四是數(shù)據(jù)融合共享應(yīng)用的標(biāo)準(zhǔn)促進(jìn)數(shù)據(jù)共享并集成“云技術(shù)”。最終解決有效存儲(chǔ)、管理和檢索等問(wèn)題。進(jìn)行高效、快速表型分析的前提依然是表型語(yǔ)義的統(tǒng)一、信息采集的一致以及數(shù)據(jù)處理的標(biāo)準(zhǔn)化。(2)建立生物表型組數(shù)據(jù)質(zhì)量控制的標(biāo)準(zhǔn)化流程,以期提高數(shù)據(jù)質(zhì)量,保證數(shù)據(jù)的高精準(zhǔn)。表型的觀測(cè)和分析不僅要有明確、固定和量化的測(cè)量標(biāo)準(zhǔn)要求,更重要的是準(zhǔn)確性和精度。針對(duì)種類(lèi)繁多、特征各異的表型信息,進(jìn)行特定參數(shù)的設(shè)定。精準(zhǔn)的信息采集才可最大程度減少冗余數(shù)據(jù)的積累,最高效利用和整合數(shù)據(jù)資源以期將表型、基因和環(huán)境形成準(zhǔn)確的對(duì)應(yīng)關(guān)系。(3)建立多維質(zhì)控標(biāo)準(zhǔn)。由于生物表型組包含關(guān)鍵點(diǎn)眾多,更應(yīng)增加多維度質(zhì)量控制的標(biāo)準(zhǔn)化工作,包括表型采集質(zhì)控、數(shù)據(jù)處理及分析質(zhì)控等,其中數(shù)據(jù)質(zhì)控是表型測(cè)量與表征的核心內(nèi)容。因此需設(shè)立質(zhì)控點(diǎn)、關(guān)鍵參數(shù)以及開(kāi)展質(zhì)控評(píng)定,進(jìn)而對(duì)生物表型的發(fā)展提供有力保障。只有在對(duì)表型數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化采集、處理、分析、應(yīng)用的基礎(chǔ)上,同時(shí)對(duì)過(guò)程進(jìn)行多維質(zhì)量控制,才能更加準(zhǔn)確、系統(tǒng)、高效地對(duì)生物表型組進(jìn)行研究。因此未來(lái)生物表型(組)標(biāo)準(zhǔn)化的研究制定將成為生物表型(組)領(lǐng)域發(fā)展必不可少的重要方向之一。