雷達,沈益明
(1.東華大學計算機科學與技術(shù)學院,上海200051;2.建信期貨有限責任公司,上海200122)
我國期貨市場自創(chuàng)立以來,一直采用電子化交易方式,交易系統(tǒng)一直是期貨公司的核心技術(shù)系統(tǒng)。目前客戶普遍使用的期貨交易系統(tǒng)在設(shè)計時,核心考慮的是系統(tǒng)的并發(fā)性、可用性、系統(tǒng)容量等,低延時并不是最優(yōu)先考慮的。但近年來,國內(nèi)期貨市場發(fā)展迅速,期貨新品種源源不斷上線,期權(quán)、以人民幣計價的原油期貨等新業(yè)務(wù)也陸續(xù)推出,期貨市場的交易方式和市場功能不斷豐富,各類投資者尤其是機構(gòu)投資者參與各類投資產(chǎn)品、參與多市場多品種間的套利熱情日益高漲。這些投資者造成了資金流動性和交易量的急劇增加,因此對期貨交易系統(tǒng)提出了更為明確的要求,主要體現(xiàn)在提高交易速度和提供程序化交易支持等功能。為了在競爭激烈的行業(yè)中脫穎而出,期貨公司迫切需要低延時系統(tǒng)的優(yōu)化解決方案,從而為速度敏感的客戶提供更為優(yōu)質(zhì)的服務(wù)。
交易系統(tǒng)的低延時意味著投資者做出投資決策到委托獲得執(zhí)行和確認的時間間隔必須盡可能短。對于某些交易,如高頻交易,交易速度是影響投資效果的最重要因素之一。此時,衡量交易系統(tǒng)績效最重要的指標之一就是系統(tǒng)延時。一些高頻投資策略可以在系統(tǒng)延時較低的情況下獲得可觀的正收益。
如圖1 所示,期貨交易是一個雙向往返的過程。廣義上的交易延時是指由委托等交易指令從市場參與者系統(tǒng)發(fā)出,到交易系統(tǒng)接受、處理,并返回處理結(jié)果的時間開銷。而狹義上的交易延時是指交易指令從進入交易系統(tǒng)接入點之后到處理結(jié)果返回接入點之間的時間開銷[1]。對于期貨公司這種集中式的交易系統(tǒng)來說,客戶系統(tǒng)和交易所撮合等外部延時因素不可控,因此低延時期貨交易系統(tǒng)的構(gòu)建主要基于后者進行討論。
對于期貨交易系統(tǒng),根據(jù)經(jīng)過的處理環(huán)節(jié),交易延時可細分為以下幾類:
消息處理延時:消息傳輸過程中消息格式轉(zhuǎn)換的應(yīng)用,以及消息可用性機制相關(guān)的時間開銷;通信處理延時:主機協(xié)議棧處理開銷;調(diào)度延時:主機請求到處理開始的時間開銷;發(fā)送/接收延時:主機向網(wǎng)絡(luò)發(fā)送或接收協(xié)議包的開銷;傳播時延:傳播介質(zhì)上傳輸?shù)臅r間開銷,主要與傳輸距離和傳輸介質(zhì)有關(guān)[2]。影響延時的因素分布在硬件、網(wǎng)絡(luò)、操作系統(tǒng)、中間件和應(yīng)用程序等不同層次上。其中,根據(jù)文獻[3],對于高性能、低延時期貨交易環(huán)境的系統(tǒng)來說,這些因素相互作用,在構(gòu)建低延時期貨交易系統(tǒng)的時候,尤其需要對這些延時影響因素進行分析,盡量避免或降低延時影響因素,從而降低交易延時。
圖1 期貨交易系統(tǒng)結(jié)構(gòu)
在系統(tǒng)優(yōu)化之前,需要收集延時參數(shù)和數(shù)據(jù)作為基線,知道“正?!钡南到y(tǒng)延時數(shù)據(jù)。然后查找潛在的性能問題并進行參數(shù)調(diào)優(yōu)來修復(fù)。觀察這些調(diào)整對系統(tǒng)的影響并決定是否確認保持這種調(diào)整或者恢復(fù)到調(diào)整前的狀態(tài)。系統(tǒng)需要定期檢閱,以發(fā)現(xiàn)系統(tǒng)異常變化引起的延時抖動。
優(yōu)化的步驟如下:
(1)收集數(shù)據(jù),建立基線。
(2)對系統(tǒng)進行選擇合理的參數(shù)。
(3)觀察統(tǒng)計數(shù)據(jù),確認所做的調(diào)整是否正確,提交更改或回滾恢復(fù)。
(4)確定潛在的性能問題。
(5)調(diào)整優(yōu)化參數(shù)。
(6)重復(fù)步驟(3)。
(1)服務(wù)器優(yōu)化
低延時期貨交易系統(tǒng)選配的服務(wù)器盡量高主頻、大內(nèi)存,以HP DL380 服務(wù)器為例,在優(yōu)化前記錄系統(tǒng)參數(shù)配置,以便在調(diào)優(yōu)過程中跟蹤變化。根據(jù)HP 推薦,在BIOS 調(diào)優(yōu)前需先升級至相應(yīng)BIOS 和Firmware固件版本,有助于提升系統(tǒng)延時性能。
服務(wù)器出廠時硬件參數(shù)默認設(shè)置為通用節(jié)能模式,調(diào)整BIOS 參數(shù),降低主機延時,使主機發(fā)揮最大性能,從而達到降級延時中的關(guān)鍵一環(huán)。BIOS 參數(shù)超頻,虛擬化,超線程均會產(chǎn)生潛在延時抖動風險,需要關(guān)閉這些功能,關(guān)鍵優(yōu)化參數(shù)描述如表1。
表1 BIOS 優(yōu)化參數(shù)表
(2)Linux 系統(tǒng)優(yōu)化
調(diào)整/boot/grub/grub.conf 參數(shù),增加“idle=poll nosoftlockup mce=ignore_ce intel_idle.max_cstate=0 "參數(shù)到kernel。
idle=poll 參數(shù)與“intel_idle.max_cstate=0”一起使用時,“idle=poll”使處理核心保持在C0 狀態(tài);nosoftlockup參數(shù)使高優(yōu)先級線程在內(nèi)核上連續(xù)執(zhí)行超過軟鎖定閾值時,防止內(nèi)核記錄事件;intel_idle.max_cstate=0 防止內(nèi)核重寫B(tài)IOS C-state 設(shè)置;mce=ignore_ce 防止Linux在機器檢查庫中每五分鐘啟動一次輪詢,檢查是否存在可糾正的錯誤。這些參數(shù)調(diào)整有助于降低通信處理延時、調(diào)度延時和發(fā)送接收延時。
(3)網(wǎng)絡(luò)優(yōu)化
在低延時系統(tǒng)中我們配置Sloarflare 的低延時網(wǎng)卡,停止中斷分配服務(wù),將網(wǎng)卡口的中斷手工配置至網(wǎng)卡PCI 插槽對應(yīng)的NUMA 所屬的CPU 核。運行如下指令并將命令添加至rc.local,設(shè)置為開機啟動加載,有助于降低傳播延時。
網(wǎng)卡中斷親和性優(yōu)化:
/usr/sbin/sfcaffinity_config-c 1,2,6,7 auto ethX
網(wǎng)卡吞吐量優(yōu)化:
/usr/sbin/ethtool-G ethX rx 4096 tx 2048
/usr/sbin/ethtool-X ethX equal 2
/usr/sbin/ifconfig ethX mtu 9000 txqueuelen 10000
(4)交易線程綁核
期貨交易系統(tǒng)的交易核心是多線程,操作系統(tǒng)調(diào)度算法使線程均勻的分布在CPU 核心上,線程之間需要進行通信、共享資源,所以這些資源必須從CPU 的一個核心被復(fù)制到另外一個核心,這會造成額外的開銷。
為了讓程序擁有更好的性能和更低的延時,將交易核心線程綁定到特定的CPU,這樣可以減少調(diào)度的開銷和保護關(guān)鍵線程。綁定后交易核心線程就會一直在綁定的核上運行,不會再被操作系統(tǒng)調(diào)度到其他核上,但綁定的核上還是可能會被調(diào)度運行其他應(yīng)用程序的。因此,需要隔離被交易核心綁定的核。綁核代碼如下:
bind_ttrade_cpu()
{
ttrade_threads=`ps-eLF|grep ttrade|grep-v grep|awk'{print
$4}'`
cpucore=(6 7 8 9 10 11)
index=0
for i in$ttrade_threads;do
if![[-z$i]];then
taskset-pc${cpucore[$index]}$i
fi
index=`expr$index+1`
done
}
bind_ttrade_cpu
(1)測試準備
試驗環(huán)境為萬兆以太網(wǎng),交換機Arista 7140,兩臺HP DL380 G9 服務(wù)器(12 核3.40GHz,64G 內(nèi)存),配置2 塊Solarflare 8522 萬兆網(wǎng)卡和光纖模塊。
(2)RTT 延時測試:
此外,卷積神經(jīng)網(wǎng)絡(luò)還涉及到多層次的輸出類別以及輸入圖像類別。針對不同種類的輸出與輸入圖像而言,通常都需將其分成相應(yīng)的隱含層,然后將其連接于整個卷積網(wǎng)絡(luò)。在這其中,圖像隱含層能夠容納某些中間信息,且可以用來顯示圖片中的邊緣點以及特征點。由此可見,卷積神經(jīng)網(wǎng)絡(luò)具備的核心價值就在于開展全方位的邏輯判斷,其在本質(zhì)上很近似人腦固有的性能,同時也涉及到多層次的技術(shù)細節(jié)。
兩臺服務(wù)器使用光纖back-to-back 直連,避免交換機產(chǎn)生的延時影響,RTT 測試結(jié)果如下:
優(yōu)化前:
rtt min/avg/max/mdev=0.036/0.084/0.109/0.014 ms
服務(wù)器優(yōu)化:
rtt min/avg/max/mdev=0.035/0.041/0.056/0.011 ms
Linux 系統(tǒng)優(yōu)化:
rtt min/avg/max/mdev=0.027/0.031/0.049/0.007 ms
網(wǎng)絡(luò)優(yōu)化:
rtt min/avg/max/mdev=0.006/0.008/0.017/0.002 ms
從結(jié)果看出前述調(diào)優(yōu)方法效果非常明顯,但要注意的時,RTT 不可能無限降低,當降到某個穩(wěn)定值時,我們認為此時調(diào)整的參數(shù)有效,如果無限制的追求最低,那延時抖動所帶來的風險對期貨交易來說是致命的。
(3)Onload 加速中間件測試
測試主要使用了sfnettest 開源工具來對比使用Onload 和Kernel 的差別。pingpong 測試1/2RTT 平均延時數(shù)據(jù)(單位:微秒)如圖2。
圖2 1/2RTT 平均延時
從圖2 中可以看出Onload 中間件的加速功能比Kernel 低2/3,對延時的提升是巨大的,當一個應(yīng)用程序調(diào)用操作系統(tǒng)內(nèi)核來發(fā)送和接收數(shù)據(jù),從應(yīng)用程序到內(nèi)核是一項開銷很大的操作,當應(yīng)用程序使用Onload 中間件發(fā)送或接收數(shù)據(jù),它利用了kernel bypass 技術(shù),中間件直接訪問網(wǎng)卡上的一個虛擬區(qū)來達到與網(wǎng)卡的直接通訊。因此系統(tǒng)的開銷越小,延時就越低。
(4)期貨交易實盤測試
期貨公司更多關(guān)注的是交易系統(tǒng)自身內(nèi)部延時,對系統(tǒng)設(shè)置4 個采樣點T1,T2,T3,T4[4]。其中T1 為報單錄入應(yīng)答,當客戶端發(fā)出報單錄入請求指令后,交易系統(tǒng)返回響應(yīng)時;T2 為交易系統(tǒng)接受到報單錄入請求后向交易所前置發(fā)送報單錄入請求;T3 為交易系統(tǒng)接受到請求后發(fā)給交易所,交易所收到后返回的請求;T4為返回給終端交易所報單狀態(tài)。
圖3 中可知,交易系統(tǒng)內(nèi)部延時為Inner=(T2-T1)+(T4-T3)。
圖3 延時指標定義
使用API 在內(nèi)網(wǎng)用接近市價報單并迅速撤單,下單頻率為50 筆/秒,內(nèi)部處理時間(包含上行和下行的總處理時間)平均為27us,99%的報單延時在35us 以下。報單延時分布如圖4。
圖4 交易系統(tǒng)報單延時
從圖4 看出系統(tǒng)的內(nèi)部延時較為穩(wěn)定,系統(tǒng)內(nèi)部平均延時27us,那么每秒能處理的訂單量約為1000000/27=37037。如果以用戶量來說明的話,能處理3 萬7 千筆的報單相當于能接受375 個用戶每秒按100 筆(上期所流控)來報單而不會出現(xiàn)積壓。
在系統(tǒng)上減少或消除抖動是獲得最佳性能的關(guān)鍵,然而抖動的原因從而導致低劣的性能很難定義和很難補救,特別是在當前交易環(huán)境中,期貨公司更多關(guān)注于自身環(huán)境的內(nèi)部延時,從交易所線路接入到期貨公司機房,從服務(wù)器、網(wǎng)卡到操作系統(tǒng)等,要設(shè)計好每一個環(huán)節(jié)。
期貨交易系統(tǒng)是個多因素相互作用的復(fù)雜系統(tǒng),僅改進系統(tǒng)的一部分并不一定會帶來總體性能的提高和延時的下降。因此,構(gòu)建低延時交易系統(tǒng)必須把握均衡原則,在把握關(guān)鍵因素的同時,必須從系統(tǒng)整體作考慮,認真分析各因素之間的相互作用和與周邊系統(tǒng)的相互聯(lián)系,并根據(jù)實際情況不斷調(diào)整和優(yōu)化。