內(nèi)核網(wǎng)絡(luò)堆棧的Go 語言實現(xiàn)與分析

2021-07-11 08:16:10柴艷娜

電子設(shè)計工程 2021年13期

柴艷娜

（長安大學(xué)信息與網(wǎng)絡(luò)管理處，陜西西安 710064）

計算機是現(xiàn)代日常生活的一種必需品，其高效可靠的運行需要依賴于一套穩(wěn)健無缺陷(Bug-free)的操作系統(tǒng)?，F(xiàn)代操作系統(tǒng)都會使用內(nèi)核（Kernel）來對硬件進行管理，因此，可以說內(nèi)核的安全穩(wěn)定決定了人們與計算機相處的體驗。內(nèi)核中的缺陷(Bug)將可能使用戶的應(yīng)用程序甚至操作系統(tǒng)本身變得不可靠[1]。

大多數(shù)成熟的操作系統(tǒng)內(nèi)核都是用C 語言實現(xiàn)的，C 語言因其允許高度自由控制內(nèi)存使用等諸多低級程序操作特性，從而成為最受歡迎的的內(nèi)核開發(fā)語言[2]。這種高度的自由也會帶來一些代價，比如內(nèi)存釋放兩遍的錯誤、數(shù)組越界的錯誤以及死鎖[3]。同時它也不能防止數(shù)據(jù)類型的錯誤解析，保證不了類型的安全性。C 語言也無法方便高效地使用現(xiàn)代多核處理器的全部性能。

如果用Go 等高級語言來開發(fā)內(nèi)核，則可能規(guī)避掉很多上述問題。為此，該文用Go 語言實現(xiàn)了內(nèi)核網(wǎng)絡(luò)堆棧子系統(tǒng)，進行了可行性研究，并設(shè)計實驗進行驗證。

1 Linux系統(tǒng)網(wǎng)絡(luò)堆棧

Linux 的網(wǎng)絡(luò)堆棧（Network Stack）是其內(nèi)核的一個子模塊，如果在源代碼基礎(chǔ)上從零開始編譯Linux內(nèi)核，可以通過menuconfig 對該模塊進行選擇和修改配置。位于Linux/net 目錄的源代碼是Linux 官方自帶的默認網(wǎng)絡(luò)堆棧實現(xiàn)[4]。

Linux 網(wǎng)絡(luò)堆棧模型如圖1 所示。

圖1 Linux網(wǎng)絡(luò)堆棧

網(wǎng)絡(luò)堆棧共分為6 層，每一層都分別執(zhí)行不同的處理任務(wù)，對于流入、流出數(shù)據(jù)都會進行處理。最頂層的應(yīng)用層是操作系統(tǒng)用戶空間（User Space）的一部分，用戶常駐使用的應(yīng)用程序如瀏覽器、IM 軟件等便工作在這一層。

中間4 層是內(nèi)核空間（Kernel Space），以內(nèi)核模塊（Module）形式工作，最底層則是物理層，處理真實的物理媒介數(shù)據(jù)傳送和接收的真實物理設(shè)備，如網(wǎng)卡、交換機及路由器等。

Socket 接口層是創(chuàng)建Socket 以及提供API 接口給應(yīng)用層進行調(diào)用的地方，也叫系統(tǒng)調(diào)用接口（System Call Interface）[3]。

協(xié)議層則實現(xiàn)各種網(wǎng)絡(luò)協(xié)議的解析，是數(shù)據(jù)正確發(fā)送與接收的核心。

網(wǎng)絡(luò)設(shè)備驅(qū)動接口及驅(qū)動層，則是提供了操作實際物理設(shè)備的手段，同時也提供了相應(yīng)的監(jiān)控和調(diào)優(yōu)手段，方便調(diào)整實際物理設(shè)備的工作狀態(tài)和性能。

完整地實現(xiàn)一個操作系統(tǒng)內(nèi)核是一項工作量巨大的工程，得益于Linux內(nèi)核的良好分層模型，替換某些模塊便可進行研究和對比，因此，該文代之以實現(xiàn)一個內(nèi)核子系統(tǒng)，即網(wǎng)絡(luò)堆棧，從而方便下一步的研究工作。

該文用Go 語言實現(xiàn)一個Linux 內(nèi)核網(wǎng)絡(luò)堆棧，用于演示用高級語言開發(fā)內(nèi)核的相對優(yōu)勢。之所以選擇Go 是因為語言本身自帶優(yōu)秀的CSP 并發(fā)模型（Concurrent Sequential Processes）[5-6]。CSP 模型將復(fù)雜任務(wù)解構(gòu)成更小的、更加可管理的子任務(wù)。這些子任務(wù)都能被單個進程所處理，進程之間彼此保持通信，共同完成原始的復(fù)雜任務(wù)。

CSP 模型的目標是幫助程序員設(shè)計、實現(xiàn)和驗證復(fù)雜的計算機系統(tǒng)，十分重要，特別是要設(shè)計一個如內(nèi)核般復(fù)雜的軟件。Go 提供了線程安全（Thread-safe）方式的CSP 模型，Go 語言的線程即協(xié)程（Goroutines），同步的通信構(gòu)造即通道（Channel）[7]。Go 語言運行時自動根據(jù)計算機的物理內(nèi)核數(shù)量來管理調(diào)度協(xié)程。CSP 模型能讓人很容易地使用計算機的所有內(nèi)核，同時改善代碼的可讀性，進行更簡單的調(diào)試和減少產(chǎn)生缺陷。網(wǎng)絡(luò)堆棧很自然地可以被劃分成多個子任務(wù)去運行，可以充分利用Go 協(xié)程去動態(tài)調(diào)度，高效利用所有可用物理內(nèi)核[8]。

CSP 模型只在垃圾回收語言里有可行性，Go 提供了必要的垃圾回收。Go 是一門強類型語言，能減少一大類錯誤，包括錯誤類型轉(zhuǎn)換，內(nèi)存釋放兩遍，對象釋放后再使用等。Go的延遲聲明（Defer Statement）允許在函數(shù)結(jié)束時更方便地清理，減少那些疏于管理的資源導(dǎo)致死鎖的可能性。

2 實現(xiàn)

文中實現(xiàn)的獨立網(wǎng)絡(luò)堆棧（下文以項目代號NStack 稱呼之）是建立在Tap 虛擬網(wǎng)卡基礎(chǔ)上，所有基礎(chǔ)網(wǎng)絡(luò)協(xié)議，包括以太網(wǎng)（Ethernet）、ARP、IPv4、ICMP、UDP 和TCP，都能被實現(xiàn)。為確保性能不受影響，延遲（Latency）和吞吐量（Through-out）會被測試，并與C 語言實現(xiàn)的網(wǎng)絡(luò)堆棧Tapip 進行比較。

2.1 Tap接口

Tap 接口即一種虛擬網(wǎng)絡(luò)接口（虛擬網(wǎng)卡），它用軟件來模仿實際硬件。NStack 會將Tap 接口當作正常物理接口一樣讀寫[9]。Tap 接口會關(guān)聯(lián)一橋接接口，就好像一個路由器作為主機的一個子網(wǎng)接入其中，這樣可以允許NStack 能使用它自己的MAC 地址和IP 地址，連接到外部網(wǎng)絡(luò)。

2.2 協(xié)議實現(xiàn)

NStack 會實現(xiàn)數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層和傳輸層的協(xié)議，每一層獨立運行自己的協(xié)議，如圖2 所示。分層模型可以增加并行，在高負載下提供高效服務(wù)[10]。

圖2 分層協(xié)議棧

每一個協(xié)議的實現(xiàn)都使用了類似結(jié)構(gòu)的包處理器（Packet Dealer）。IP 包處理器如圖3 所示。包處理器從低層級讀取數(shù)據(jù)包，并通過通道傳輸。通道以箭頭表示在圖2、3中。IP包處理器將數(shù)據(jù)包發(fā)給不同的IP Reader 協(xié)程，如圖3 所示，IP Reader 處理完接收到的數(shù)據(jù)包后，將處理結(jié)果轉(zhuǎn)發(fā)給下一層的包處理器。

圖3 IPv4包處理器

2.3 性能測試

NStack會與Tapip進行性能比較。Tapip是一個C語言開發(fā)的多線程網(wǎng)絡(luò)堆棧。這個比較允許評估用高級語言開發(fā)網(wǎng)絡(luò)堆棧的優(yōu)點和缺點。兩個網(wǎng)絡(luò)堆棧都實現(xiàn)了相似的協(xié)議，都在用戶空間（User Space）操作，都使用Tap 虛擬接口。測試機器是Ubuntu 14.04/Linux 3.13.0，16 GB 內(nèi)存，Intel Xeon Quad Core Dual Socket 處理器。

2.3.1 延遲

為測試延遲，將取50 次ping 響應(yīng)時間的平均值作比較。測試環(huán)境的一臺Linux 虛擬機將運行兩個網(wǎng)絡(luò)堆棧，ping 請求從該虛擬機發(fā)出。為判斷堆棧在負載增加情況下的性能，多個ping 會被同時并發(fā)發(fā)送。從1 個增加到1 000 個并發(fā)ping“連接”來模擬網(wǎng)絡(luò)堆?？赡芙邮艿呢撦d。為保證對兩個網(wǎng)絡(luò)堆棧公平，其他的變量都將保持不變，包括每個ping“連接”發(fā)送的ping 請求數(shù)，ICMP 接受緩沖區(qū)大小以及ping請求數(shù)據(jù)包大小。

2.3.2 吞吐量

第二個將要評估的性能指標便是吞吐量。一個堆棧的吞吐量是在給定時間內(nèi)，它能發(fā)送或接收的數(shù)據(jù)量大小[11]。以下步驟將用來測量兩個堆棧的吞吐量：

1）初始化一個TCP 服務(wù)端。

2）初始化一個TCP 客戶端，連接會在local 網(wǎng)絡(luò)（localhost）中建立，以排除Tap虛擬網(wǎng)卡導(dǎo)致的開銷。

3）客戶端發(fā)送4 kB 數(shù)據(jù)給服務(wù)端。

4）計算堆棧完成上述過程的總時間，該時間和發(fā)送的數(shù)據(jù)量將用來計算吞吐量。

為測量堆棧的相對擴展能力，將會逐步增加客戶端數(shù)來測量性能[12]，最大測試到100個并發(fā)客戶端。

有許多預(yù)防措施將用于保證吞吐量的準確測量，比如所有可比較的緩沖區(qū)大小都一致[13]。在Tapip 中，每個客戶端和服務(wù)端連接都運行在各自的線程里，NStack 類似，但是用的是Go 的協(xié)程而不是線程。另外，也會確保所有連接完成且連接的負載被完整傳輸之后再停止運行網(wǎng)絡(luò)堆棧[14-15]。

3 結(jié)果分析

NStack 的代碼與Tapip 比較類似，但是從結(jié)果來看，性能上包括延遲和吞吐量，相比之下NStack 出色得多。

3.1 準確性

NStack 和Tapip 都能準確地運行協(xié)議，這可以通過分別測試兩個協(xié)議棧與一臺Linux 終端的連接來進行判斷[16-18]。測試中發(fā)現(xiàn)Tapip 有內(nèi)存泄漏的情況。這是因為Tapip 會開辟緩存區(qū)存儲數(shù)據(jù)包，在某些情況下這些緩存區(qū)不會被釋放或者重復(fù)釋放。當緩存區(qū)被重復(fù)釋放時，Tapip 會奔潰或者導(dǎo)致異常行為。當緩存區(qū)不會被釋放時，Tapip 會不斷侵占內(nèi)存，直至系統(tǒng)奔潰。Go 則由于有內(nèi)置的垃圾回收，可以很好地避免這種情況的發(fā)生。

3.2 代碼比較

雖然很難量化地評估編寫Go 語言相比較C 語言的優(yōu)點，但是一些代碼片段的比較還是可以看出高級語言的某些優(yōu)勢。以下以IP 報文分片重組的處理代碼舉例說明。

當添加分片到重組隊列時，Tapip 的C 語言代碼如下：

Go 可以用協(xié)程處理IP 報文分片，因此它可以簡單的將分片轉(zhuǎn)發(fā)給對應(yīng)的協(xié)程處理，同時可以緊接著處理后續(xù)數(shù)據(jù)包。

在清理分片時，C 語言的Tapip 需要顯性地釋放每一個內(nèi)存緩存區(qū)，代碼如下：

而Go 語言只需跟蹤通道即可：

delete(ipr.fragBuf,bufID)

Go 語言的簡潔、友好、可讀，由此可見一斑。

3.3 延遲測試結(jié)果

延遲測試結(jié)果如圖4 所示。1 個ping 請求時，Tapip 的延遲為0.074 ms，優(yōu)于NStack 的0.234 ms，但是隨著并發(fā)請求的增加，當1 000 個ping 請求時，NStack的延遲為0.717 ms，差不多比Tapip的3.279 ms高4 倍。NStack 在連接數(shù)為600 時，開始領(lǐng)先于Tapip。NStack 延遲的增加是線性的，而Tapip 是指數(shù)型的。NStack 的延遲趨勢是優(yōu)于Tapip 的，因為在請求數(shù)很少時，兩者之間延遲的差距很小，但是在大量并發(fā)ping 時，差異就明顯變大。

圖4 延遲測試結(jié)果

3.4 吞吐量測試結(jié)果

吞吐量測試結(jié)果如圖5 所示。1 個并發(fā)連接時，NStack的吞吐量達到7.3 Mbit/s，對比Tapip的4.6 Mbit/s。當100 個并發(fā)連接時，NStack 達到了284.9 Mbit/s，而Tapip 則只有195 Mbit/s。并且，NStack 的吞吐量增加速度比Tapip 快得多。這表明NStack 可以繼續(xù)在更大量的并發(fā)情況下擴展吞吐量，而Tapip 則很可能處理不了這種負載。

圖5 吞吐量測試結(jié)果

4 結(jié)束語

由該實驗可以得出，用Go 開發(fā)內(nèi)核子系統(tǒng)可以改善代碼的可讀性和可靠性，結(jié)構(gòu)模塊清晰，具有良好的并發(fā)能力和穩(wěn)定性，同時又對性能沒有重大不良影響。結(jié)果表明，對于內(nèi)核開發(fā)來說，Go 語言可以是一個重要的C 語言替代者。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看