Infiniband——替代TCP/IP的I/O革命者
雙核以及多核技術(shù)的采用使得處理器的性能不斷提升,網(wǎng)絡(luò)帶寬也在不斷增加,但是你是否注意到了,為什么我們依然會感覺服務(wù)器不夠快?問題就在于I/O。說到I/O,有關(guān)Infiniband技術(shù)應(yīng)該引起用戶的足夠重視。身世InfiniBand是由InfiniBand行業(yè)協(xié)會(IBTA,InfiniBand Trade Association)定義的一項標(biāo)準(zhǔn),它是一種基于通道的、采用交換結(jié)構(gòu)的I/O體系。
IBTA成立于1999年8月31日,由Compaq、惠普、IBM、戴爾、英特爾、微軟和Sun七家公司牽頭,共同研究發(fā)展的高速先進(jìn)的I/O標(biāo)準(zhǔn)。最初的命名為System I/O,1999年10月,正式改名為InfiniBand。InfiniBand是一種長纜線的連接方式,具有高速、低延遲的傳輸特性。據(jù)星盈科技李泌介紹,InfiniBand用于服務(wù)器系統(tǒng)內(nèi)部,主要用于處理器/內(nèi)存與I/O(如硬盤、網(wǎng)卡等)的連接,由于InfiniBand具有長纜線連接的特性,從而使得處理核心與I/O在保持運作一致性的同時,在實際的配置上,實現(xiàn)分離的配置。據(jù)李泌介紹,星盈科技推出的超級刀片計算機(jī),就采用了類似的技術(shù)。
但是InfiniBand用于服務(wù)器系統(tǒng)內(nèi)部并沒有發(fā)展起來,原因在于英特爾和微軟在2002年就退出了IBTA。在此之前,英特爾早已另行倡議Arapahoe,亦稱為3GIO(3rd Generation I/O,第三代I/O),即今日鼎鼎大名的PCI Express(PCI-E),InfiniBand、3GIO經(jīng)過一年的并行,英特爾終究還是選擇了PCI-E。因此,現(xiàn)在應(yīng)用InfiniBand,主要是用于在服務(wù)器集群,系統(tǒng)之間的互聯(lián)。
需要說明的是,即使在系統(tǒng)之間的互聯(lián),InfiniBand也還面臨著競爭對手,這是因為自英特爾、微軟退出IBTA之后,IBM、惠普也在不久后退出,并在第二年提出RDMA(Remote Direct Memory Access,遠(yuǎn)程直接內(nèi)存存取)技術(shù),期望用10Gbps Ethernet搭配TOE(TCP/IP Offload Engine,TCP/IP負(fù)荷卸載引擎)的硬件加速設(shè)計,以更標(biāo)準(zhǔn)、低廉的方式與InfiniBand進(jìn)行競爭。此外,由Broadcom、Chelsio、惠普、NetApp和微軟等廠商推動的iWarp,一種用于遠(yuǎn)程直接內(nèi)存訪問、遠(yuǎn)程直接數(shù)據(jù)放置的保護(hù)協(xié)議,它淘汰了兩端的網(wǎng)卡,也是一種標(biāo)準(zhǔn)的協(xié)議。另外,英特爾的I/O加速技術(shù)也與InfiniBand具有一定的競爭關(guān)系。工作原理
與其他網(wǎng)絡(luò)協(xié)議(如TCP/IP)相比,InfiniBand具有更高的傳輸效率。原因在于許多網(wǎng)絡(luò)協(xié)議具有轉(zhuǎn)發(fā)損失的數(shù)據(jù)包的能力,但是由于要不斷地確認(rèn)與重發(fā),基于這些協(xié)議的通信也會因此變慢,極大地影響了性能。
需要說明的是,TCP協(xié)議是一種被大量使用的傳輸協(xié)議,從冰箱到超級計算機(jī)等各種設(shè)備上都可以看到它的身影,但是使用它必須付出高昂的代價:TCP協(xié)議極其復(fù)雜、代碼量巨大并且充滿了各種特例,而且它很難卸載(所謂卸載就是不占用CPU的運行時間)。
與之相比,InfiniBand使用基于信任的、流控制的機(jī)制來確保連接的完整性,數(shù)據(jù)包極少丟失。使用InfiniBand,除非確認(rèn)接收緩存具備足夠的空間,否則不會傳送數(shù)據(jù)。接受方在數(shù)據(jù)傳輸完畢之后, 返回信用來標(biāo)示緩存空間的可用性。通過這種辦法,InfiniBand消除了由于原數(shù)據(jù)包丟失而帶來的重發(fā)延遲,從而提升了效率和整體性能。
目前,基于InfiniBand技術(shù)的網(wǎng)卡的單端口帶寬最大可達(dá)到20Gbps,基于InfiniBand的交換機(jī)的單端口帶寬最大可達(dá)60Gbps,單交換機(jī)芯片可以支持達(dá)480Gbps的帶寬。在2005年的4月份,Cisco公司收購了InfiniBand方案提供商Topspin; 而專業(yè)存儲廠商QLogic公司也陸續(xù)收購了InfiniBand技術(shù)廠商SilverStorm公司和PathScale公司,開始進(jìn)軍InfiniBand領(lǐng)域。
據(jù)曙光公司技術(shù)支持中心袁偉介紹,目前曙光的高性能計算機(jī)全部采用InfiniBand技術(shù)進(jìn)行節(jié)點之間的互聯(lián),用InfiniBand替代了Myrinet。原因在于,Mrynet在2Gbps帶寬之后,在向10Gbps技術(shù)的發(fā)展上,路線圖不清晰,技術(shù)實現(xiàn)上也不好。與之相比,20Gbps InfiniBand技術(shù)已經(jīng)非常成熟,在價格上也具有競爭力。 #p#page_title#e#
據(jù)寶德服務(wù)器事業(yè)部經(jīng)理程佶透露, 寶德InfiniBand服務(wù)器的出貨主要集中在高性能計算領(lǐng)域,占有30%~40%的份額,其余高性能計算采用千兆以太網(wǎng)的連接方案。程佶表示,除了高性能計算領(lǐng)域之外,其他領(lǐng)域應(yīng)用InfiniBand服務(wù)器的前景并不十分看好。原因在于InfiniBand的價格還是比較高,僅InfiniBand的HCA(主通道適配器)卡就需要4000元~5000元人民幣,而性能的提升僅在10%~15%之間。因此,價格將成為InfiniBand服務(wù)器進(jìn)入企業(yè)市場的障礙。
據(jù)了解,目前IBM、惠普、戴爾、SUN等公司都對InfiniBand做出了積極的響應(yīng)。在它們的InfiniBand服務(wù)器解決方案中,有的在用標(biāo)準(zhǔn)的InfiniBand HCA, 有的在用專門設(shè)計的Mezzanine卡,有的在用標(biāo)準(zhǔn)的InfiniBand交換機(jī),有的在用專門設(shè)計的交換模塊。目前InfiniBand服務(wù)器大多采用基于PCI-E的接口,如Arima(華宇)、Tyan(泰安)、SuperMicro(超微)等,因為PCI-E比PCI-X能夠提供更高的帶寬和更低的延時。
記者日前還采訪了InfiniBand HCA卡以及交換機(jī)芯片的核心供應(yīng)商—Mellanox公司亞洲區(qū)技術(shù)總監(jiān)宋慶春。據(jù)他介紹,InfiniBand的應(yīng)用領(lǐng)域已變得越來越廣。從2005年InfiniBand開始進(jìn)入存儲市場以來,已有越來越多的存儲客戶開始使用InfiniBand技術(shù)。他預(yù)計到2008年~2009年,InfiniBand應(yīng)該成為存儲市場的主力。目前主流的存儲廠商除了EMC之外,其余廠商都宣布了InfiniBand的存儲解決方案。分析其中的原因,宋慶春認(rèn)為,在帶寬、價格方面,InfiniBand均比FC方案具有優(yōu)勢,其中InfiniBand帶寬為20Gbps,而FC只有4 Gbps,在價格上,一塊FC 網(wǎng)卡就要上萬元,遠(yuǎn)比InfiniBand HCA卡昂貴。另外,更為主要的是:InfiniBand是一種標(biāo)準(zhǔn)開放的協(xié)議,具有更多的廠商支持。因此,InfiniBand在SAN存儲應(yīng)用里的優(yōu)勢非常明顯。
對于InfiniBand而言,它所具有的整合特性,使得它在數(shù)據(jù)中心將會得到更多的應(yīng)用。宋慶春表示,InfiniBand的一個端口可以虛擬成為8個虛擬的通道,而這些虛擬的通道可以分別與數(shù)據(jù)中心中的FC SAN存儲模塊、計算模塊、管理模塊以及通信模塊進(jìn)行連接,從而實現(xiàn)基于InfiniBand的統(tǒng)一管理。推廣與應(yīng)用InfiniBand作為一種高帶寬、低延時的連接技術(shù),在數(shù)據(jù)庫集群,在金融分析、制造業(yè)、石油、氣象、生物等仿真技術(shù)領(lǐng)域正在得到越來越多的應(yīng)用,并成為市場的主流。據(jù)6月27日發(fā)布的全球HPC TOP 500排名情況來看,InfiniBand的份額實現(xiàn)了強(qiáng)有力的增長,從上屆的78套增加到了現(xiàn)在的127套。
“十一五”期間,我國將會在明年推出兩臺具有百萬億次計算能力的超級計算機(jī),一臺在中科院計算所,一臺在上海超級計算中心。據(jù)業(yè)內(nèi)人士透露,從目前實現(xiàn)百萬億次計算能力的設(shè)計方案來看,絕大多數(shù)都采用了InfiniBand的方案??梢哉f,在高性能計算領(lǐng)域,InfiniBand已經(jīng)占據(jù)了主流的地位。
上海超級計算中心副主任袁俊表示,對于InfiniBand而言,更多的考驗是在商用計算領(lǐng)域,特別是在存儲、在數(shù)據(jù)中心的應(yīng)用。據(jù)介紹,在這些應(yīng)用領(lǐng)域大多會采用一種混合計算的方案,在服務(wù)器、FC SAN存儲,以及以太網(wǎng)之間部署InfiniBand交換機(jī)來提高通信的效率以及存儲的吞吐量。此外,InfiniBand也被用于解決刀片服務(wù)器擴(kuò)展能力受限的問題,通過提供與外部PCI 擴(kuò)展模塊的連接,InfiniBand 使多個刀片服務(wù)器或機(jī)箱能夠共享原有的PCI 外部設(shè)備。這種方法不但節(jié)約了空間,而且使客戶的多個服務(wù)器能夠共用設(shè)備。編看編想 還是讓市場來回答
從1999年推出以來,InfiniBand經(jīng)歷了太多的變遷,其中很多變化并不是技術(shù)決定的,因此,不是親歷者很難說得清楚。我接觸InfiniBand是從接觸HPC開始的,當(dāng)時上海超算中心在應(yīng)用HPC過程中,連接計算節(jié)點的Myrinet網(wǎng)絡(luò),存在交換機(jī)節(jié)點作業(yè)完成不釋放的問題,為此,他們考慮采用更加可靠的互聯(lián)方式,其中就提到了InfiniBand。 #p#page_title#e#
再次接觸InfiniBand是在刀片服務(wù)器中。刀片服務(wù)器最初的用戶主要是“兩油”,也就是“石油”和“網(wǎng)游”,其中,石油是高性能計算的代表,網(wǎng)游則是電信應(yīng)用的代表。刀片服務(wù)器為滿足HPC應(yīng)用的需要,需要支持具有更高帶寬、更低延遲的InfiniBand交換機(jī)(刀片服務(wù)器中稱網(wǎng)絡(luò)模塊)。這是我目前可以看到的InfiniBand的應(yīng)用。
如今,在存儲、數(shù)據(jù)中心、網(wǎng)絡(luò)通信等領(lǐng)域,InfiniBand都有比較強(qiáng)烈的呼聲,但不知道為什么,總感覺雷聲大,雨點小。是不是InfiniBand技術(shù)有什么問題?我看不是,要知道市場不是單純由技術(shù)決定的,未來InfiniBand在市場將有怎樣的表現(xiàn),還是讓市場的發(fā)展來回答,現(xiàn)在斷言為時尚早。