郭輝 孔夢園
【摘要】大規(guī)模的血液檢測問題,可采用分組檢測的方法,恰當?shù)胤纸M可以減少檢測次數(shù),進而降低檢測成本.本文基于相關的概率論知識,對分組檢測的問題進行深入的討論,給出了一次分組檢測模型以及二次分組檢測模型,通過軟件python對一次分組模型以及二次分組模型進行模擬,發(fā)現(xiàn)血液檢測呈現(xiàn)陽性反應的概率越小,二次分組檢測方式越優(yōu)于一次分組檢測.本文所研究的分組檢測模型不僅可以用于醫(yī)學上的疾病檢測,還可以用于計算機和通信領域中的信號檢測.本文對分組檢測應用方面的學習和相關概率論知識的教學都具有一定的參考價值.
【關鍵詞】分組檢測;數(shù)學期望;最優(yōu)分組
【基金項目】河南工業(yè)大學本科教育教學改革研究與實踐項目(JXYJ-K201943);2020年河南工業(yè)大學理學院高等教育教學改革研究項目;河南工業(yè)大學高層次人才科研啟動項目(31401221)
一、引 言
對于大規(guī)模的血液檢測問題,可采取分組檢測的形式,恰當?shù)胤纸M可減少檢測次數(shù),進而降低檢測所耗費的成本.已有的研究成果表明,分組檢測并不是每組人數(shù)越多越好,也不是每組人數(shù)越少越好,當血樣陽性率在某一確定范圍時,可以通過恰當?shù)姆纸M,降低檢測次數(shù),且血樣陽性概率越小,平均檢測次數(shù)降低率越高[1].
高煥江在文獻[2]中對血液分組檢測模型進行了詳細的研究,提出了求解二次分組化驗模型的簡捷算法——數(shù)據(jù)關聯(lián)法,并對血液檢測分組模型解的結構進行了說明.張樂成等在文獻[3]中對血液檢測分組模型,給出了分組檢測模型中求解值的簡單且精確的計算方法以及二次分組檢測方法中每個人平均檢測次數(shù)的計算公式.在二戰(zhàn)期間,學者Dorfman正式提出分組檢測的想法,并將其運用在軍隊中士兵是否感染梅毒的檢測,大大提高了檢測效率.2017年,Shaul K.Bar-Lev等人在文獻[4]中基于分組檢測模型提出了“循環(huán)不完整識別程序(RIIP)”并應用于血庫中血液的檢測,極大地降低了對于血液篩選時所花費的時間以及成本.
本文在無錯誤檢測的前提下,對于分組檢測的問題進行深入分析,首先進行一次分組檢測、二次分組檢測模型的建立,尋找求解二次分組檢測模型的方法,然后對二次分組檢測的最優(yōu)分組中每個樣本的平均檢測次數(shù)與一次分組檢測中每個樣本的平均檢測次數(shù)進行比較,并對不同的發(fā)病率下的模型進行綜合分析.
本文所研究的分組檢測模型可以用于醫(yī)學上的疾病檢測,例如對于此次新型冠狀病毒肺炎的檢測,若能快速并高效地檢測出患者,并對其采取隔離等措施,在疾病的傳染階段,病情可以得到有效的控制,降低損失;用于計算機和通信領域中的信號檢測,可對寬帶私接的現(xiàn)象采取有效的防范措施,促進互聯(lián)網(wǎng)市場健康高效的發(fā)展;還可用于對工業(yè)產(chǎn)品的性能進行檢測.例如,對于剛出廠的燈泡是否可以正常使用的檢測,利用分組檢測的思想,將大量的燈泡進行分組,形成串聯(lián)電路.根據(jù)串聯(lián)電路的特點,只要有一個燈泡無法正常使用,那么整個串聯(lián)電路都是不通的,從而達到檢測的目的.
二、基本概念及理論
根據(jù)文獻[3][5][6]研究發(fā)現(xiàn)目前關于血液檢測的方法可以分為兩種:分別檢測和分組檢測,其中分組檢測又可分為一次分組檢測和二次分組檢測.
分別檢測是將需要檢測的血液進行逐一檢測.檢測發(fā)病率較高的疾病或需要檢測人數(shù)較少時,使用此方法具有顯著的優(yōu)勢.
分組檢測是在血液之間不會發(fā)生交互作用的前提下,可以把n個樣本分為k組,再進行以組別為單位的分別檢測.
一次分組檢測是每組有k1個樣本,把k1個樣本中抽取適量的血液混合在一起進行檢測.如果混合血液呈現(xiàn)陰性反應,就說明這k1個樣本的血液呈陰性反應,這樣此組的k1個樣本只需檢測一次即可;如呈陽性,則再對此組的k1個樣本的血液分別再進行逐一檢測,這樣此樣本組k1個樣本總共需要進行(k1+1)次的檢測.
二次分組檢測是在一次分組檢測的基礎上,把呈現(xiàn)陽性反應的樣本組中每個樣本再取出來一部分進行混合,再繼續(xù)進行分組檢測,每組k2個樣本,并且選擇適當?shù)膋2值可能會使每個樣本的平均檢測次數(shù)降低,如果這混合血液呈現(xiàn)陰性反應,就說明這k2個樣本的血液呈陰性反應,這樣此組的k2個樣本只需檢測一次即可;如呈陽性,則再對此組的k2個樣本的血液分別再進行逐一檢測.
定義2.1 設離散隨機變量X的分布列為p(xi)=P(X=xi),i=1,2,…,n,…,如果
∑∞i=1|xi|p(xi)<∞,
則稱E(X)=∑∞i=1xip(xi)為隨機變量X的數(shù)學期望.
三、一次分組檢測模型
設需要檢測的人口總數(shù)為n,血液檢測呈現(xiàn)陽性的概率為p(0<p<1),則呈現(xiàn)陰性的概率為q=1-p.在血液之間不會發(fā)生交互作用的前提下,把n個樣本分為k組,每組有k0個樣本,把k0個樣本中抽取適量的血液混合在一起進行檢測,此樣本組呈現(xiàn)陰性的概率為qk0,此時k0個樣本只需檢測一次即可;呈現(xiàn)陽性反應的概率為1-qk0,則再對此組的k0個樣本的血液分別再進行一次檢測,這樣此樣本組k0個樣本總共需要進行(k0+1)次的檢測.記k0個樣本需要的檢測次數(shù)X是一個隨機變量,其分布律為
經(jīng)計算可得到每個樣本的平均檢測次數(shù)為
N1(k0)=1+1k0-qk0,
所需討論的是對給定的呈現(xiàn)陽性的概率p值,討論分組人數(shù)k0取何值,N(k0)即每個樣本的檢測次數(shù)達到最小值,并且與分別檢測法比較,每個樣本的檢測次數(shù)需要滿足以下條件
N1(k0)=1+1k0-qk0<1,
此時分組檢測才有意義[7].
經(jīng)計算,得到下述結論:(1)當呈現(xiàn)陽性的概率p滿足p≥0.3時,進行檢測時應當選擇逐一檢測;(2)當呈現(xiàn)陽性的概率p滿足p<0.3時,進行檢測時應當選擇分組檢測.
四、二次分組檢測模型
當采取二次分組檢測時,設每個大樣本組分為s個小樣本組,每個小樣本組為t個樣本,此時,大樣本組的檢測呈現(xiàn)陰性反應的概率為qst,此時st個樣本需要檢測1次即可;若大樣本組呈現(xiàn)陽性反應,則再分別檢測各個小樣本組的混合樣本,檢驗結果呈現(xiàn)陰性反應的小組,為全部正常,若檢驗結果呈現(xiàn)陽性反應,則該小樣本組需要進行逐一檢測.若s個小樣本組中,有一個樣本組的混合樣本呈現(xiàn)陽性反應,其余皆為陰性反應,此時st個樣本需要檢測(1+s+t)次;有兩個樣本組的混合樣本呈現(xiàn)陽性反應,其余皆為陰性反應,概率為C1s(qt)s-1pt,此時st個樣本需要檢測(1+s+2t)次……記每個大樣本組需要檢測的次數(shù)Y是一個隨機變量,其分布律為
對上式進行化簡得到
N2(s,t)=1st+1t(1-qst)+(1-qt).
其中s,t皆為正整數(shù)[2].
當選擇進行二次分組檢測時,即認為二次分組檢測是優(yōu)于分別檢測的,否則將選擇一次分組檢測.在得到二次分組檢測中每個樣本的平均檢測次數(shù)N2(s,t)后,將其與一次分組檢測中每個樣本的平均檢測次數(shù)N1(k0)比較大小,較小的即為最優(yōu)分組方式.
五、分組模型的最優(yōu)組大小模擬
下面,在假定需要檢測的樣本數(shù)固定、檢測過程中不考慮其他影響因素以及檢測結果完全正確的前提下,將給定不同的患病概率p值,得到對應患病概率p值下的最優(yōu)組大小.
(一)一次分組模型的最優(yōu)組大小模擬
運用python模擬計算得到不同患病概率p值下的最優(yōu)組數(shù)大小,下述曲線圖反映了在給定一個患病概率p值的前提下,所對應的分組組數(shù)k0變化的趨勢,如圖1所示
圖1 不同p值下的最優(yōu)組數(shù)大小
從圖1中,選取一組特定的患病概率p值,并將其對應k0值,代入到一次分組檢測中每個樣本的平均檢測次數(shù)N1(k0)中,經(jīng)計算可得到每個樣本的平均檢測次數(shù)N1(k0),具體的數(shù)值對比,如表1所示
由表1可以看出,隨著患病概率p值的增大,最優(yōu)組中包含的樣本量不斷減小,因此,當患病概率p值越大時,所選擇的最優(yōu)分組組數(shù)隨之增大.
(二)二次分組模型的最優(yōu)組大小模擬
對二次分組模型進行模式時,設每個大樣本組分為s個小樣本組,每個小樣本組為t個樣本,記大樣本組的樣本個數(shù)為k1=st,小樣本組的樣本個數(shù)為k2=t,此時二次分組檢測每個樣本的平均檢測次數(shù)為
N2(k1,k2)=1+1k2-qk2-1k2-1k1qk1+1-qk1k1,
其中q=1-p,p為呈現(xiàn)陽性反應的概率.當p值很小時,N2(k1,k2)由
1+1k2-qk2-1k2-1k1qk1,
確定,記為
F2(k1,k2)=1+1k2-qk2-1k2-1k1qk1,
不加以證明,應用以下幾個結論:
(1)當k2一定時,F(xiàn)2(x,k2)有最小值(要求x>0),此時
x=2ln q+(ln q)2-4k2ln q,
記作x0.
(2)當q>1ee時,如果x>-1ln q,那么F2(k1,x)>F2k1,-1ln q.
(3)在q>1ee的條件下,二次分組檢測的最優(yōu)組k2的值小于1-ln q+1,k1與k2的關系是k1=[x0]或k1=[x0+1],([]為取整)[3].
根據(jù)以上分析進行二次分組檢測的模擬,設置p值分別取0.00001、0.0001、0.0005、0.001、0.005、0.01、0.05、0.1,得到對應概率下最佳k1與k2值及每個樣本的平均檢測次數(shù)N2(k1,k2),如表2所示.
由表2可以看出,隨著p值的增大,最優(yōu)組中包含的樣本量不斷減小,因此,當p值越大時,所選擇的最優(yōu)分組組數(shù)隨之增大.
(三)模型的對比
根據(jù)一次分組檢測模擬以及二次分組檢測模擬,我們發(fā)現(xiàn)在呈現(xiàn)陽性反應的概率p確定的情況下,一次分組、二次分組兩種分組檢測方法的最優(yōu)組大小逐漸增大,對比如表3所示
從上表中的數(shù)據(jù)我們得知,隨著呈現(xiàn)陽性反應的概率p不斷增大,兩種分組檢測的最優(yōu)組中包含樣本量的個數(shù)在不斷減少,即所選擇的最優(yōu)組組數(shù)在不斷增大.
將一次分組模型與二次分組模型,在呈現(xiàn)陽性反應概率p相同情況下,每個樣本的平均檢測次數(shù)N1(k0)、N2(k1,k2)進行對比,如表4所示
由表4可知,在相同的p值下,二次分組模型的平均檢測次數(shù)小于一次模型的平均檢測次數(shù),即二次分組模型的檢測效率較高,但隨著p值的增大,兩種分組檢測中每個樣本的平均檢測次數(shù)逐漸接近.
六、模型的改進及結論
本文對分組檢測模型進行了理論分析以及軟件模擬,說明了該模型的可行性,但是本文仍然有需要進一步改進之處.
(一)競爭模型
本文所設計的分組檢測,是在已知呈現(xiàn)陽性的概率p值的前提下所進行的,但在實際生活中進行樣本檢測時,我們大多時候都無法得知患病概率p值的大小,即我們沒有關于N個樣本中壞樣本個數(shù)的任何信息,此時我們可以對以上模型進行改進.
針對以上問題時,堵丁柱和黃光明提出基于二叉樹進行檢測,例如,當所需檢測的樣本數(shù)N=12時,此時共有23個待檢測組.當所有的樣本都呈現(xiàn)陰性反應時,只需要檢測一次,即檢測第一組;然而,當所有的樣本都是呈現(xiàn)陽性反應時,需要檢測23次,即檢測每個待檢測組,此時分組檢測的次數(shù)遠遠大于逐一檢測的次數(shù).
針對模型有效性的驗證,堵丁柱和黃光明給出定理 MB(d|N)≤2M(d,N)+5,其中(d,N)表示在N個樣本中有d個壞樣本,MB(d|N)是指事先不知道d的值時所需要的檢測次數(shù),M(d,N)是指事先知道d的值時所需要的檢測次數(shù),即事先不知道d的值所需要的檢測次數(shù)不超過事先知道d的值所需要的檢測次數(shù)的2倍.
(二)容錯模型
本文所設計的分組檢測,是在假設檢測結果完全正確的前提下進行的.但在實際的檢測過程中,會出現(xiàn)由于操作或者儀器等因素的影響導致錯誤的檢測結果:對于本應是呈現(xiàn)陰性反應的樣本組做檢測,結果呈現(xiàn)陽性反應;本應是呈現(xiàn)陽性反應的樣本組做檢測,結果呈現(xiàn)陰性反應.
針對此問題,可以進行重復檢測法,即按照已有的方法進行檢測,針對每一個待檢測的樣本進行重復多次的檢測,若檢測結果不一致,則說明檢測結果出現(xiàn)錯誤,假如每次檢測出現(xiàn)錯誤的概率很小,重復檢測法是可以準確無誤地檢測出所有的壞樣本.
(三)結論
在血液檢測的過程中,我們通過使用分組檢測的方法可以有效提高檢測效率、節(jié)省檢測成本.若選取分組檢測的最優(yōu)分組,進行樣本的檢測,則可以使效率得到進一步的提高.
本文通過使用python對一次分組模型以及二次分組模型進行模擬,驗證了一次分組檢測、二次分組檢測最優(yōu)組大小的存在性,并簡要分析了患病概率p值對于分組檢測最優(yōu)組大小變化的影響,得到以下結論:(1) 當呈現(xiàn)陽性反應的概率p<0.3且需要檢測的人數(shù)比較大時,分組檢測的效率高于逐一檢測,否則可以直接使用逐一檢測;(2) 隨著患病概率p值的減小,二次分組檢測的效率比一次分組檢測的效率提高;反之,隨著患病概率p值的增長,二次分組檢測中每個樣本的平均檢測次數(shù)逐漸向一次分組檢測的次數(shù)接近.
在目前已有的文獻中,國內外學者對于分組檢測最優(yōu)組大小求解大多是基于理論的推導,本文將分組模型建立的理論基礎轉化為程序代碼,基于python進行模型的模擬,減少了理論推導的工作量,并且最優(yōu)組的大小可直觀得到.
【參考文獻】
[1] 高煥江.血液分組化驗模型的優(yōu)化研究課題研究報告[J].數(shù)理醫(yī)藥學雜志,2015,28(11): 1581 -1584.
[2] 高煥江.血液化驗二次分組模型的簡捷算法[J].數(shù)學的實踐與認識,2013,43(4): 53-59.
[3]張樂成,馬躍,趙旭.血液分組化驗問題二次分組化驗法最佳分組方式的算法[J].數(shù)學的實踐與認識,2011,41(1):78-84.
[4] Shaul K.Bar-Lev,Onno Boxma,Igor Kleiner,DavidPerry,Wolfgang Stadje.Recycled incomplet identification procedures for blood screening[J].European Journal of Operational Research,2017,259(1):330-343.
[5] 許建強,盧磊.二分法在血液分組檢驗中的應用[J].數(shù)學的實踐與認識,2018,48 (1):139-142.
[6] 熊文俊,丁娟,李啟寨.分組檢測方法綜述[J].數(shù)理統(tǒng)計與管理,2016,35(5): 838- 855.
[7] 王為.分組檢驗成立的條件及最佳分組方法[J].新疆工學院學報,1996(1): 19-23.