譚世偉 丁兆鵬 陳思睿
摘要:當(dāng)前隨著信息化的大力發(fā)展,數(shù)據(jù)量的鋸齒狀的增長(zhǎng),越來(lái)越需要大容量的存儲(chǔ)設(shè)備,而存儲(chǔ)服務(wù)器,存儲(chǔ)Jbod的大力發(fā)展一方面滿足了大容量數(shù)據(jù)的存儲(chǔ)需求,另一方面為數(shù)據(jù)量的爆炸式增長(zhǎng)提供了便捷的存儲(chǔ)方式。存儲(chǔ)Jbod設(shè)計(jì)上需要突出的地方也越來(lái)越多,設(shè)計(jì)需求也越來(lái)越復(fù)雜,對(duì)測(cè)試驗(yàn)證的要求也越來(lái)越高。本文章通過(guò)結(jié)合具體客戶的應(yīng)用場(chǎng)景提出存儲(chǔ)Jbod重點(diǎn)測(cè)試要點(diǎn)和方法論。
關(guān)鍵詞:存儲(chǔ)Jbod;測(cè)試規(guī)范;方法論;測(cè)試驗(yàn)證
中圖分類(lèi)號(hào):TP319 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)15-0260-02
鑒于數(shù)據(jù)成倍的增長(zhǎng),存儲(chǔ)服務(wù)器需求量越來(lái)越大,1U32,3U48,4U60,4U106,4U108以及4U120類(lèi)型的存儲(chǔ)服務(wù)器,存儲(chǔ)Jbod Jbof大量應(yīng)用到市場(chǎng)端,設(shè)計(jì)越來(lái)越復(fù)雜,對(duì)存儲(chǔ)服務(wù)器測(cè)試驗(yàn)收提高到越來(lái)越高要求的驗(yàn)收標(biāo)準(zhǔn)。本文重點(diǎn)探討研究存儲(chǔ)服務(wù)器,存儲(chǔ)Jbod,存儲(chǔ)Jbof的測(cè)試驗(yàn)收規(guī)范。
1存儲(chǔ)Jbod測(cè)試故障
分布式存儲(chǔ)Jbod測(cè)試中經(jīng)常會(huì)遇到各種各樣的問(wèn)題,掉盤(pán),背板壓降低等等導(dǎo)致耽誤大量的人力和時(shí)間去分析問(wèn)題。實(shí)際測(cè)試工作中,更換線纜后掉帶寬問(wèn)題,測(cè)試復(fù)現(xiàn)超過(guò)2周才完成問(wèn)題定位;整塊Expander硬盤(pán)背板掉盤(pán),交叉分析驗(yàn)證超過(guò)2周才發(fā)現(xiàn)根因。人力的投入,時(shí)間的耽誤導(dǎo)致產(chǎn)品上市時(shí)間一直往后延期。
針對(duì)存儲(chǔ)Jbod測(cè)試,由于缺少測(cè)試流程和測(cè)試手法需要投入大量人力和時(shí)間去分析定位問(wèn)題,導(dǎo)致項(xiàng)目一直延期。
2存儲(chǔ)Jbod測(cè)試規(guī)范
現(xiàn)針對(duì)存儲(chǔ)Jbod測(cè)試,提出如下實(shí)際測(cè)試總結(jié)的測(cè)試規(guī)范和大綱,方便后期測(cè)試人員便利。Jbod測(cè)試中,遇到的第一個(gè)問(wèn)題就是機(jī)頭SAS卡選擇類(lèi)型。實(shí)際中應(yīng)以Jbod使用的芯片決定機(jī)頭Server SAS卡的型號(hào)。比如Jbod使用的Expander芯片是LSI的,機(jī)頭的SAS卡必須也是LSI的;Jbod的Expander芯片是PMC的,機(jī)頭的SAS卡必須也是PMC的卡子。否則兩者兼容性測(cè)試會(huì)出現(xiàn)各種各樣想不到的故障。
其次,針對(duì)Jbod測(cè)試需要在測(cè)試之前收集一下信息作為測(cè)試開(kāi)展工作的前提首選。
針對(duì)Jbod測(cè)試,機(jī)頭SAS卡FW選擇,SAS卡NVDATA參數(shù)設(shè)置非常重要。如果機(jī)頭Server端BMC不支持監(jiān)控功能,SAS卡就必須要設(shè)置成不支持監(jiān)控功能。Jbod硬盤(pán)數(shù)量超過(guò)40塊,SAS卡配置參數(shù)一般需要設(shè)置成不掃描后端硬盤(pán)的配置參數(shù),否則實(shí)際測(cè)試中將會(huì)遇到無(wú)法pxe啟動(dòng),機(jī)頭掃描SAS卡缺失等故障。
Jbod在測(cè)試之前,使用Expander芯片廠商提供的工具檢測(cè)一下誤碼率,防止沒(méi)有檢查誤碼率的情況下進(jìn)行開(kāi)展大量測(cè)試;一般Expander芯片廠商均會(huì)提供芯片的治具來(lái)能夠直接查看誤碼率和帶寬。如下是LSI芯片查看常用的指令:
#cli phyinfo
#cli
Jbod在測(cè)試之前,檢查SAS端口速率情況,非正常帶寬情況不開(kāi)展測(cè)試,必須達(dá)到相應(yīng)的規(guī)格帶寬,比如12G防止測(cè)試前帶寬不滿足測(cè)試要求。硬盤(pán)速率協(xié)商正常滿足Spec要求。
針對(duì)Jbod測(cè)試,測(cè)試硬盤(pán)選擇,需要選用Jbod能夠支持的功耗最大的機(jī)械盤(pán)進(jìn)行測(cè)試,比如空氣盤(pán),比如氦氣盤(pán),比如SAS SSD等;
針對(duì)Jbod測(cè)試,對(duì)最大功耗的硬盤(pán)進(jìn)行壓測(cè)時(shí),認(rèn)真參考此款硬盤(pán)的功耗說(shuō)明書(shū),檢查一下硬盤(pán)在哪種模式下功耗最高,大多數(shù)機(jī)械硬盤(pán),在隨機(jī)讀寫(xiě)時(shí)功耗最高,測(cè)試腳本需要優(yōu)先使用此模式進(jìn)行測(cè)試。如下兩種模式是壓測(cè)功耗比較大的配置參數(shù):隨機(jī)寫(xiě)4K小塊(Random RW 4KB Qd=8)(randomread 4K16Q)。
壓測(cè)工程中為了達(dá)到最大功耗壓測(cè),需要把CPU的能力完全發(fā)揮出來(lái),CPU支持48核心,硬盤(pán)壓測(cè)將48核心全部使用上。
針對(duì)Jbod測(cè)試,在進(jìn)行滿配最大支持的功耗硬盤(pán)進(jìn)行最大壓測(cè)時(shí),要進(jìn)行拔掉一塊PSU測(cè)試。單PSU'情況下,PSU輸出壓降會(huì)變大,故障率會(huì)比較高。實(shí)時(shí)查看單PSU供電的情況下壓測(cè)是否存在硬盤(pán)或者硬盤(pán)背板電壓降低的告警和故障。
3存儲(chǔ)Jbod供電線纜
針對(duì)Jbod測(cè)試,重點(diǎn)關(guān)注背板OCP點(diǎn),PDB供電板最大輸出功率,線纜壓降等;需要進(jìn)行全鏈路壓降測(cè)試。針對(duì)通過(guò)線纜給硬盤(pán)背板供電的Jbod,重點(diǎn)關(guān)注供電線纜的壓降情況。
支持12W空氣盤(pán),DC關(guān)注點(diǎn)
硬盤(pán)背板線纜壓降:
線纜總體壓降要求:硬盤(pán)背板的單個(gè)背板通流30A,電源和GND線的總體線纜壓降在450mV以下,線纜溫升后,壓降在500mV以下。
硬盤(pán)背板OCP保護(hù)點(diǎn)修改:
單個(gè)硬盤(pán)背板電流約30A,OCP保護(hù)點(diǎn)需要調(diào)整到50A以上,對(duì)應(yīng)的修改只需要修改OCP電阻值
支持14.5W空氣盤(pán),DC關(guān)注點(diǎn):
硬盤(pán)背板線纜壓降(需要線纜和機(jī)構(gòu)一起修改):
線纜總體壓降要求:硬盤(pán)背板的單個(gè)背板通流37A,電源和GND線的總體線纜壓降在350mV以下,線纜溫升后,壓降在380mV以下。
硬盤(pán)背板OCP保護(hù)點(diǎn)修改:
單個(gè)硬盤(pán)背板電流約37A,OCP保護(hù)點(diǎn)需要調(diào)整到55A以上,對(duì)應(yīng)的修改只需要修改OCP電阻值
PSU連接器需要升級(jí)到支持更大電流:
當(dāng)前PSU電源連接器單個(gè)無(wú)法支持到2000W以上功率,需要更換到2200W以上電源連接器,需要修改PDB板的線路和Layout。
4結(jié)論
以上測(cè)試主要要點(diǎn)和方法不分先后順序,但是針對(duì)Jbod和存儲(chǔ)服務(wù)器測(cè)試驗(yàn)證,以上內(nèi)容大大減少測(cè)試時(shí)間和交叉驗(yàn)證的時(shí)間對(duì)存儲(chǔ)服務(wù)器和Jbod SIT驗(yàn)證問(wèn)題和發(fā)現(xiàn)問(wèn)題保證產(chǎn)品質(zhì)量提升起到很大的效果。