柴艷娜
(長安大學(xué)信息與網(wǎng)絡(luò)管理處,陜西西安 710064)
計算機是現(xiàn)代日常生活的一種必需品,其高效可靠的運行需要依賴于一套穩(wěn)健無缺陷(Bug-free)的操作系統(tǒng)?,F(xiàn)代操作系統(tǒng)都會使用內(nèi)核(Kernel)來對硬件進行管理,因此,可以說內(nèi)核的安全穩(wěn)定決定了人們與計算機相處的體驗。內(nèi)核中的缺陷(Bug)將可能使用戶的應(yīng)用程序甚至操作系統(tǒng)本身變得不可靠[1]。
大多數(shù)成熟的操作系統(tǒng)內(nèi)核都是用C 語言實現(xiàn)的,C 語言因其允許高度自由控制內(nèi)存使用等諸多低級程序操作特性,從而成為最受歡迎的的內(nèi)核開發(fā)語言[2]。這種高度的自由也會帶來一些代價,比如內(nèi)存釋放兩遍的錯誤、數(shù)組越界的錯誤以及死鎖[3]。同時它也不能防止數(shù)據(jù)類型的錯誤解析,保證不了類型的安全性。C 語言也無法方便高效地使用現(xiàn)代多核處理器的全部性能。
如果用Go 等高級語言來開發(fā)內(nèi)核,則可能規(guī)避掉很多上述問題。為此,該文用Go 語言實現(xiàn)了內(nèi)核網(wǎng)絡(luò)堆棧子系統(tǒng),進行了可行性研究,并設(shè)計實驗進行驗證。
Linux 的網(wǎng)絡(luò)堆棧(Network Stack)是其內(nèi)核的一個子模塊,如果在源代碼基礎(chǔ)上從零開始編譯Linux內(nèi)核,可以通過menuconfig 對該模塊進行選擇和修改配置。位于Linux/net 目錄的源代碼是Linux 官方自帶的默認網(wǎng)絡(luò)堆棧實現(xiàn)[4]。
Linux 網(wǎng)絡(luò)堆棧模型如圖1 所示。
圖1 Linux網(wǎng)絡(luò)堆棧
網(wǎng)絡(luò)堆棧共分為6 層,每一層都分別執(zhí)行不同的處理任務(wù),對于流入、流出數(shù)據(jù)都會進行處理。最頂層的應(yīng)用層是操作系統(tǒng)用戶空間(User Space)的一部分,用戶常駐使用的應(yīng)用程序如瀏覽器、IM 軟件等便工作在這一層。
中間4 層是內(nèi)核空間(Kernel Space),以內(nèi)核模塊(Module)形式工作,最底層則是物理層,處理真實的物理媒介數(shù)據(jù)傳送和接收的真實物理設(shè)備,如網(wǎng)卡、交換機及路由器等。
Socket 接口層是創(chuàng)建Socket 以及提供API 接口給應(yīng)用層進行調(diào)用的地方,也叫系統(tǒng)調(diào)用接口(System Call Interface)[3]。
協(xié)議層則實現(xiàn)各種網(wǎng)絡(luò)協(xié)議的解析,是數(shù)據(jù)正確發(fā)送與接收的核心。
網(wǎng)絡(luò)設(shè)備驅(qū)動接口及驅(qū)動層,則是提供了操作實際物理設(shè)備的手段,同時也提供了相應(yīng)的監(jiān)控和調(diào)優(yōu)手段,方便調(diào)整實際物理設(shè)備的工作狀態(tài)和性能。
完整地實現(xiàn)一個操作系統(tǒng)內(nèi)核是一項工作量巨大的工程,得益于Linux內(nèi)核的良好分層模型,替換某些模塊便可進行研究和對比,因此,該文代之以實現(xiàn)一個內(nèi)核子系統(tǒng),即網(wǎng)絡(luò)堆棧,從而方便下一步的研究工作。
該文用Go 語言實現(xiàn)一個Linux 內(nèi)核網(wǎng)絡(luò)堆棧,用于演示用高級語言開發(fā)內(nèi)核的相對優(yōu)勢。之所以選擇Go 是因為語言本身自帶優(yōu)秀的CSP 并發(fā)模型(Concurrent Sequential Processes)[5-6]。CSP 模型將 復(fù)雜任務(wù)解構(gòu)成更小的、更加可管理的子任務(wù)。這些子任務(wù)都能被單個進程所處理,進程之間彼此保持通信,共同完成原始的復(fù)雜任務(wù)。
CSP 模型的目標是幫助程序員設(shè)計、實現(xiàn)和驗證復(fù)雜的計算機系統(tǒng),十分重要,特別是要設(shè)計一個如內(nèi)核般復(fù)雜的軟件。Go 提供了線程安全(Thread-safe)方式的CSP 模型,Go 語言的線程即協(xié)程(Goroutines),同步的通信構(gòu)造即通道(Channel)[7]。Go 語言運行時自動根據(jù)計算機的物理內(nèi)核數(shù)量來管理調(diào)度協(xié)程。CSP 模型能讓人很容易地使用計算機的所有內(nèi)核,同時改善代碼的可讀性,進行更簡單的調(diào)試和減少產(chǎn)生缺陷。網(wǎng)絡(luò)堆棧很自然地可以被劃分成多個子任務(wù)去運行,可以充分利用Go 協(xié)程去動態(tài)調(diào)度,高效利用所有可用物理內(nèi)核[8]。
CSP 模型只在垃圾回收語言里有可行性,Go 提供了必要的垃圾回收。Go 是一門強類型語言,能減少一大類錯誤,包括錯誤類型轉(zhuǎn)換,內(nèi)存釋放兩遍,對象釋放后再使用等。Go的延遲聲明(Defer Statement)允許在函數(shù)結(jié)束時更方便地清理,減少那些疏于管理的資源導(dǎo)致死鎖的可能性。
文中實現(xiàn)的獨立網(wǎng)絡(luò)堆棧(下文以項目代號NStack 稱呼之)是建立在Tap 虛擬網(wǎng)卡基礎(chǔ)上,所有基礎(chǔ)網(wǎng)絡(luò)協(xié)議,包括以太網(wǎng)(Ethernet)、ARP、IPv4、ICMP、UDP 和TCP,都能被實現(xiàn)。為確保性能不受影響,延遲(Latency)和吞吐量(Through-out)會被測試,并與C 語言實現(xiàn)的網(wǎng)絡(luò)堆棧Tapip 進行比較。
Tap 接口即一種虛擬網(wǎng)絡(luò)接口(虛擬網(wǎng)卡),它用軟件來模仿實際硬件。NStack 會將Tap 接口當作正常物理接口一樣讀寫[9]。Tap 接口會關(guān)聯(lián)一橋接接口,就好像一個路由器作為主機的一個子網(wǎng)接入其中,這樣可以允許NStack 能使用它自己的MAC 地址和IP 地址,連接到外部網(wǎng)絡(luò)。
NStack 會實現(xiàn)數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層和傳輸層的協(xié)議,每一層獨立運行自己的協(xié)議,如圖2 所示。分層模型可以增加并行,在高負載下提供高效服務(wù)[10]。
圖2 分層協(xié)議棧
每一個協(xié)議的實現(xiàn)都使用了類似結(jié)構(gòu)的包處理器(Packet Dealer)。IP 包處理器如圖3 所示。包處理器從低層級讀取數(shù)據(jù)包,并通過通道傳輸。通道以箭頭表示在圖2、3中。IP包處理器將數(shù)據(jù)包發(fā)給不同的IP Reader 協(xié)程,如圖3 所示,IP Reader 處理完接收到的數(shù)據(jù)包后,將處理結(jié)果轉(zhuǎn)發(fā)給下一層的包處理器。
圖3 IPv4包處理器
NStack會與Tapip進行性能比較。Tapip是一個C語言開發(fā)的多線程網(wǎng)絡(luò)堆棧。這個比較允許評估用高級語言開發(fā)網(wǎng)絡(luò)堆棧的優(yōu)點和缺點。兩個網(wǎng)絡(luò)堆棧都實現(xiàn)了相似的協(xié)議,都在用戶空間(User Space)操作,都使用Tap 虛擬接口。測試機器是Ubuntu 14.04/Linux 3.13.0,16 GB 內(nèi)存,Intel Xeon Quad Core Dual Socket 處理器。
2.3.1 延 遲
為測試延遲,將取50 次ping 響應(yīng)時間的平均值作比較。測試環(huán)境的一臺Linux 虛擬機將運行兩個網(wǎng)絡(luò)堆棧,ping 請求從該虛擬機發(fā)出。為判斷堆棧在負載增加情況下的性能,多個ping 會被同時并發(fā)發(fā)送。從1 個增加到1 000 個并發(fā)ping“連接”來模擬網(wǎng)絡(luò)堆??赡芙邮艿呢撦d。為保證對兩個網(wǎng)絡(luò)堆棧公平,其他的變量都將保持不變,包括每個ping“連接”發(fā)送的ping 請求數(shù),ICMP 接受緩沖區(qū)大小以及ping請求數(shù)據(jù)包大小。
2.3.2 吞吐量
第二個將要評估的性能指標便是吞吐量。一個堆棧的吞吐量是在給定時間內(nèi),它能發(fā)送或接收的數(shù)據(jù)量大小[11]。以下步驟將用來測量兩個堆棧的吞吐量:
1)初始化一個TCP 服務(wù)端。
2)初始化一個TCP 客戶端,連接會在local 網(wǎng)絡(luò)(localhost)中建立,以排除Tap虛擬網(wǎng)卡導(dǎo)致的開銷。
3)客戶端發(fā)送4 kB 數(shù)據(jù)給服務(wù)端。
4)計算堆棧完成上述過程的總時間,該時間和發(fā)送的數(shù)據(jù)量將用來計算吞吐量。
為測量堆棧的相對擴展能力,將會逐步增加客戶端數(shù)來測量性能[12],最大測試到100個并發(fā)客戶端。
有許多預(yù)防措施將用于保證吞吐量的準確測量,比如所有可比較的緩沖區(qū)大小都一致[13]。在Tapip 中,每個客戶端和服務(wù)端連接都運行在各自的線程里,NStack 類似,但是用的是Go 的協(xié)程而不是線程。另外,也會確保所有連接完成且連接的負載被完整傳輸之后再停止運行網(wǎng)絡(luò)堆棧[14-15]。
NStack 的代碼與Tapip 比較類似,但是從結(jié)果來看,性能上包括延遲和吞吐量,相比之下NStack 出色得多。
NStack 和Tapip 都能準確地運行協(xié)議,這可以通過分別測試兩個協(xié)議棧與一臺Linux 終端的連接來進行判斷[16-18]。測試中發(fā)現(xiàn)Tapip 有內(nèi)存泄漏的情況。這是因為Tapip 會開辟緩存區(qū)存儲數(shù)據(jù)包,在某些情況下這些緩存區(qū)不會被釋放或者重復(fù)釋放。當緩存區(qū)被重復(fù)釋放時,Tapip 會奔潰或者導(dǎo)致異常行為。當緩存區(qū)不會被釋放時,Tapip 會不斷侵占內(nèi)存,直至系統(tǒng)奔潰。Go 則由于有內(nèi)置的垃圾回收,可以很好地避免這種情況的發(fā)生。
雖然很難量化地評估編寫Go 語言相比較C 語言的優(yōu)點,但是一些代碼片段的比較還是可以看出高級語言的某些優(yōu)勢。以下以IP 報文分片重組的處理代碼舉例說明。
當添加分片到重組隊列時,Tapip 的C 語言代碼如下:
Go 可以用協(xié)程處理IP 報文分片,因此它可以簡單的將分片轉(zhuǎn)發(fā)給對應(yīng)的協(xié)程處理,同時可以緊接著處理后續(xù)數(shù)據(jù)包。
在清理分片時,C 語言的Tapip 需要顯性地釋放每一個內(nèi)存緩存區(qū),代碼如下:
而Go 語言只需跟蹤通道即可:
delete(ipr.fragBuf,bufID)
Go 語言的簡潔、友好、可讀,由此可見一斑。
延遲測試結(jié)果如圖4 所示。1 個ping 請求時,Tapip 的延遲為0.074 ms,優(yōu)于NStack 的0.234 ms,但是隨著并發(fā)請求的增加,當1 000 個ping 請求時,NStack的延遲為0.717 ms,差不多比Tapip的3.279 ms高4 倍。NStack 在連接數(shù)為600 時,開始領(lǐng)先于Tapip。NStack 延遲的增加是線性的,而Tapip 是指數(shù)型的。NStack 的延遲趨勢是優(yōu)于Tapip 的,因為在請求數(shù)很少時,兩者之間延遲的差距很小,但是在大量并發(fā)ping 時,差異就明顯變大。
圖4 延遲測試結(jié)果
吞吐量測試結(jié)果如圖5 所示。1 個并發(fā)連接時,NStack的吞吐量達到7.3 Mbit/s,對比Tapip的4.6 Mbit/s。當100 個并發(fā)連接時,NStack 達到了284.9 Mbit/s,而Tapip 則只有195 Mbit/s。并且,NStack 的吞吐量增加速度比Tapip 快得多。這表明NStack 可以繼續(xù)在更大量的并發(fā)情況下擴展吞吐量,而Tapip 則很可能處理不了這種負載。
圖5 吞吐量測試結(jié)果
由該實驗可以得出,用Go 開發(fā)內(nèi)核子系統(tǒng)可以改善代碼的可讀性和可靠性,結(jié)構(gòu)模塊清晰,具有良好的并發(fā)能力和穩(wěn)定性,同時又對性能沒有重大不良影響。結(jié)果表明,對于內(nèi)核開發(fā)來說,Go 語言可以是一個重要的C 語言替代者。