低延時期貨交易系統(tǒng)的優(yōu)化與測試

2020-04-25 07:53:06雷達沈益明

現(xiàn)代計算機 2020年9期

雷達，沈益明

（1.東華大學計算機科學與技術(shù)學院，上海200051；2.建信期貨有限責任公司，上海200122)

0 引言

我國期貨市場自創(chuàng)立以來，一直采用電子化交易方式，交易系統(tǒng)一直是期貨公司的核心技術(shù)系統(tǒng)。目前客戶普遍使用的期貨交易系統(tǒng)在設(shè)計時，核心考慮的是系統(tǒng)的并發(fā)性、可用性、系統(tǒng)容量等，低延時并不是最優(yōu)先考慮的。但近年來，國內(nèi)期貨市場發(fā)展迅速，期貨新品種源源不斷上線，期權(quán)、以人民幣計價的原油期貨等新業(yè)務(wù)也陸續(xù)推出，期貨市場的交易方式和市場功能不斷豐富，各類投資者尤其是機構(gòu)投資者參與各類投資產(chǎn)品、參與多市場多品種間的套利熱情日益高漲。這些投資者造成了資金流動性和交易量的急劇增加，因此對期貨交易系統(tǒng)提出了更為明確的要求，主要體現(xiàn)在提高交易速度和提供程序化交易支持等功能。為了在競爭激烈的行業(yè)中脫穎而出，期貨公司迫切需要低延時系統(tǒng)的優(yōu)化解決方案，從而為速度敏感的客戶提供更為優(yōu)質(zhì)的服務(wù)。

交易系統(tǒng)的低延時意味著投資者做出投資決策到委托獲得執(zhí)行和確認的時間間隔必須盡可能短。對于某些交易，如高頻交易，交易速度是影響投資效果的最重要因素之一。此時，衡量交易系統(tǒng)績效最重要的指標之一就是系統(tǒng)延時。一些高頻投資策略可以在系統(tǒng)延時較低的情況下獲得可觀的正收益。

1 期貨交易系統(tǒng)延時框架

如圖1 所示，期貨交易是一個雙向往返的過程。廣義上的交易延時是指由委托等交易指令從市場參與者系統(tǒng)發(fā)出，到交易系統(tǒng)接受、處理，并返回處理結(jié)果的時間開銷。而狹義上的交易延時是指交易指令從進入交易系統(tǒng)接入點之后到處理結(jié)果返回接入點之間的時間開銷[1]。對于期貨公司這種集中式的交易系統(tǒng)來說，客戶系統(tǒng)和交易所撮合等外部延時因素不可控，因此低延時期貨交易系統(tǒng)的構(gòu)建主要基于后者進行討論。

對于期貨交易系統(tǒng)，根據(jù)經(jīng)過的處理環(huán)節(jié)，交易延時可細分為以下幾類：

消息處理延時：消息傳輸過程中消息格式轉(zhuǎn)換的應(yīng)用，以及消息可用性機制相關(guān)的時間開銷；通信處理延時：主機協(xié)議棧處理開銷；調(diào)度延時：主機請求到處理開始的時間開銷；發(fā)送/接收延時：主機向網(wǎng)絡(luò)發(fā)送或接收協(xié)議包的開銷；傳播時延：傳播介質(zhì)上傳輸?shù)臅r間開銷，主要與傳輸距離和傳輸介質(zhì)有關(guān)[2]。影響延時的因素分布在硬件、網(wǎng)絡(luò)、操作系統(tǒng)、中間件和應(yīng)用程序等不同層次上。其中，根據(jù)文獻[3]，對于高性能、低延時期貨交易環(huán)境的系統(tǒng)來說，這些因素相互作用，在構(gòu)建低延時期貨交易系統(tǒng)的時候，尤其需要對這些延時影響因素進行分析，盡量避免或降低延時影響因素，從而降低交易延時。

圖1 期貨交易系統(tǒng)結(jié)構(gòu)

2 低延時期貨交易系統(tǒng)的優(yōu)化

2.1 優(yōu)化步驟

在系統(tǒng)優(yōu)化之前，需要收集延時參數(shù)和數(shù)據(jù)作為基線，知道“正?！钡南到y(tǒng)延時數(shù)據(jù)。然后查找潛在的性能問題并進行參數(shù)調(diào)優(yōu)來修復(fù)。觀察這些調(diào)整對系統(tǒng)的影響并決定是否確認保持這種調(diào)整或者恢復(fù)到調(diào)整前的狀態(tài)。系統(tǒng)需要定期檢閱，以發(fā)現(xiàn)系統(tǒng)異常變化引起的延時抖動。

優(yōu)化的步驟如下：

（1）收集數(shù)據(jù)，建立基線。

（2）對系統(tǒng)進行選擇合理的參數(shù)。

（3）觀察統(tǒng)計數(shù)據(jù)，確認所做的調(diào)整是否正確，提交更改或回滾恢復(fù)。

（4）確定潛在的性能問題。

（5）調(diào)整優(yōu)化參數(shù)。

（6）重復(fù)步驟（3）。

2.2 優(yōu)化內(nèi)容

（1）服務(wù)器優(yōu)化

低延時期貨交易系統(tǒng)選配的服務(wù)器盡量高主頻、大內(nèi)存，以HP DL380 服務(wù)器為例，在優(yōu)化前記錄系統(tǒng)參數(shù)配置，以便在調(diào)優(yōu)過程中跟蹤變化。根據(jù)HP 推薦，在BIOS 調(diào)優(yōu)前需先升級至相應(yīng)BIOS 和Firmware固件版本，有助于提升系統(tǒng)延時性能。

服務(wù)器出廠時硬件參數(shù)默認設(shè)置為通用節(jié)能模式，調(diào)整BIOS 參數(shù)，降低主機延時，使主機發(fā)揮最大性能，從而達到降級延時中的關(guān)鍵一環(huán)。BIOS 參數(shù)超頻，虛擬化，超線程均會產(chǎn)生潛在延時抖動風險，需要關(guān)閉這些功能，關(guān)鍵優(yōu)化參數(shù)描述如表1。

表1 BIOS 優(yōu)化參數(shù)表

（2）Linux 系統(tǒng)優(yōu)化

調(diào)整/boot/grub/grub.conf 參數(shù)，增加“idle=poll nosoftlockup mce=ignore_ce intel_idle.max_cstate=0 "參數(shù)到kernel。

idle=poll 參數(shù)與“intel_idle.max_cstate=0”一起使用時，“idle=poll”使處理核心保持在C0 狀態(tài)；nosoftlockup參數(shù)使高優(yōu)先級線程在內(nèi)核上連續(xù)執(zhí)行超過軟鎖定閾值時，防止內(nèi)核記錄事件；intel_idle.max_cstate=0 防止內(nèi)核重寫B(tài)IOS C-state 設(shè)置；mce=ignore_ce 防止Linux在機器檢查庫中每五分鐘啟動一次輪詢，檢查是否存在可糾正的錯誤。這些參數(shù)調(diào)整有助于降低通信處理延時、調(diào)度延時和發(fā)送接收延時。

（3）網(wǎng)絡(luò)優(yōu)化

在低延時系統(tǒng)中我們配置Sloarflare 的低延時網(wǎng)卡，停止中斷分配服務(wù)，將網(wǎng)卡口的中斷手工配置至網(wǎng)卡PCI 插槽對應(yīng)的NUMA 所屬的CPU 核。運行如下指令并將命令添加至rc.local，設(shè)置為開機啟動加載，有助于降低傳播延時。

網(wǎng)卡中斷親和性優(yōu)化：

/usr/sbin/sfcaffinity_config-c 1,2,6,7 auto ethX

網(wǎng)卡吞吐量優(yōu)化：

/usr/sbin/ethtool-G ethX rx 4096 tx 2048

/usr/sbin/ethtool-X ethX equal 2

/usr/sbin/ifconfig ethX mtu 9000 txqueuelen 10000

（4）交易線程綁核

期貨交易系統(tǒng)的交易核心是多線程，操作系統(tǒng)調(diào)度算法使線程均勻的分布在CPU 核心上，線程之間需要進行通信、共享資源，所以這些資源必須從CPU 的一個核心被復(fù)制到另外一個核心，這會造成額外的開銷。

為了讓程序擁有更好的性能和更低的延時，將交易核心線程綁定到特定的CPU，這樣可以減少調(diào)度的開銷和保護關(guān)鍵線程。綁定后交易核心線程就會一直在綁定的核上運行，不會再被操作系統(tǒng)調(diào)度到其他核上，但綁定的核上還是可能會被調(diào)度運行其他應(yīng)用程序的。因此，需要隔離被交易核心綁定的核。綁核代碼如下：

bind_ttrade_cpu（）

{

ttrade_threads=`ps-eLF|grep ttrade|grep-v grep|awk'{print

$4}'`

cpucore=（6 7 8 9 10 11）

index=0

for i in$ttrade_threads;do

if![[-z$i]];then

taskset-pc${cpucore[$index]}$i

index=`expr$index+1`

done

}

bind_ttrade_cpu

3 低延時期貨交易系統(tǒng)的測試

（1）測試準備

試驗環(huán)境為萬兆以太網(wǎng)，交換機Arista 7140，兩臺HP DL380 G9 服務(wù)器（12 核3.40GHz，64G 內(nèi)存），配置2 塊Solarflare 8522 萬兆網(wǎng)卡和光纖模塊。

（2）RTT 延時測試：

此外，卷積神經(jīng)網(wǎng)絡(luò)還涉及到多層次的輸出類別以及輸入圖像類別。針對不同種類的輸出與輸入圖像而言，通常都需將其分成相應(yīng)的隱含層，然后將其連接于整個卷積網(wǎng)絡(luò)。在這其中，圖像隱含層能夠容納某些中間信息，且可以用來顯示圖片中的邊緣點以及特征點。由此可見，卷積神經(jīng)網(wǎng)絡(luò)具備的核心價值就在于開展全方位的邏輯判斷，其在本質(zhì)上很近似人腦固有的性能，同時也涉及到多層次的技術(shù)細節(jié)。

兩臺服務(wù)器使用光纖back-to-back 直連，避免交換機產(chǎn)生的延時影響，RTT 測試結(jié)果如下：

優(yōu)化前：

rtt min/avg/max/mdev=0.036/0.084/0.109/0.014 ms

服務(wù)器優(yōu)化：

rtt min/avg/max/mdev=0.035/0.041/0.056/0.011 ms

Linux 系統(tǒng)優(yōu)化：

rtt min/avg/max/mdev=0.027/0.031/0.049/0.007 ms

網(wǎng)絡(luò)優(yōu)化：

rtt min/avg/max/mdev=0.006/0.008/0.017/0.002 ms

從結(jié)果看出前述調(diào)優(yōu)方法效果非常明顯，但要注意的時，RTT 不可能無限降低，當降到某個穩(wěn)定值時，我們認為此時調(diào)整的參數(shù)有效，如果無限制的追求最低，那延時抖動所帶來的風險對期貨交易來說是致命的。

（3）Onload 加速中間件測試

測試主要使用了sfnettest 開源工具來對比使用Onload 和Kernel 的差別。pingpong 測試1/2RTT 平均延時數(shù)據(jù)（單位：微秒）如圖2。

圖2 1/2RTT 平均延時

從圖2 中可以看出Onload 中間件的加速功能比Kernel 低2/3，對延時的提升是巨大的，當一個應(yīng)用程序調(diào)用操作系統(tǒng)內(nèi)核來發(fā)送和接收數(shù)據(jù)，從應(yīng)用程序到內(nèi)核是一項開銷很大的操作，當應(yīng)用程序使用Onload 中間件發(fā)送或接收數(shù)據(jù),它利用了kernel bypass 技術(shù)，中間件直接訪問網(wǎng)卡上的一個虛擬區(qū)來達到與網(wǎng)卡的直接通訊。因此系統(tǒng)的開銷越小，延時就越低。

（4）期貨交易實盤測試

期貨公司更多關(guān)注的是交易系統(tǒng)自身內(nèi)部延時，對系統(tǒng)設(shè)置4 個采樣點T1，T2，T3，T4[4]。其中T1 為報單錄入應(yīng)答，當客戶端發(fā)出報單錄入請求指令后，交易系統(tǒng)返回響應(yīng)時；T2 為交易系統(tǒng)接受到報單錄入請求后向交易所前置發(fā)送報單錄入請求；T3 為交易系統(tǒng)接受到請求后發(fā)給交易所，交易所收到后返回的請求；T4為返回給終端交易所報單狀態(tài)。

圖3 中可知，交易系統(tǒng)內(nèi)部延時為Inner=（T2-T1）+（T4-T3）。

圖3 延時指標定義

使用API 在內(nèi)網(wǎng)用接近市價報單并迅速撤單，下單頻率為50 筆/秒，內(nèi)部處理時間（包含上行和下行的總處理時間）平均為27us，99%的報單延時在35us 以下。報單延時分布如圖4。

圖4 交易系統(tǒng)報單延時

從圖4 看出系統(tǒng)的內(nèi)部延時較為穩(wěn)定，系統(tǒng)內(nèi)部平均延時27us，那么每秒能處理的訂單量約為1000000/27=37037。如果以用戶量來說明的話，能處理3 萬7 千筆的報單相當于能接受375 個用戶每秒按100 筆（上期所流控）來報單而不會出現(xiàn)積壓。

4 結(jié)語

在系統(tǒng)上減少或消除抖動是獲得最佳性能的關(guān)鍵，然而抖動的原因從而導致低劣的性能很難定義和很難補救，特別是在當前交易環(huán)境中，期貨公司更多關(guān)注于自身環(huán)境的內(nèi)部延時，從交易所線路接入到期貨公司機房，從服務(wù)器、網(wǎng)卡到操作系統(tǒng)等，要設(shè)計好每一個環(huán)節(jié)。

期貨交易系統(tǒng)是個多因素相互作用的復(fù)雜系統(tǒng)，僅改進系統(tǒng)的一部分并不一定會帶來總體性能的提高和延時的下降。因此，構(gòu)建低延時交易系統(tǒng)必須把握均衡原則，在把握關(guān)鍵因素的同時，必須從系統(tǒng)整體作考慮，認真分析各因素之間的相互作用和與周邊系統(tǒng)的相互聯(lián)系，并根據(jù)實際情況不斷調(diào)整和優(yōu)化。