浮點(diǎn)運(yùn)算誰(shuí)最強(qiáng),F(xiàn)ireStream 9250、GTX280、CSX700對(duì)比分析
隨著AMD、NVIDIA都相繼推出浮點(diǎn)運(yùn)算能力超過(guò)1TFlops的新品,處理器的浮點(diǎn)運(yùn)算能力近期成了熱議的 話題。浮點(diǎn)運(yùn)算能力實(shí)際上一直都是處理器一個(gè)很重要的指標(biāo),在科學(xué)計(jì)算方面的能力就關(guān)鍵取決于處理器的浮點(diǎn)運(yùn)算能力。
前一段時(shí)間,網(wǎng)絡(luò)上出現(xiàn)了AMD即將發(fā)布的新產(chǎn)品RV770官方資料文檔,文檔中提到RV770兩款產(chǎn)品浮點(diǎn)運(yùn)算能力都超過(guò)1TFlops,HD4850的單精度浮點(diǎn)運(yùn)算能力達(dá)到了1TFlops,而高頻版的HD4870單精度浮點(diǎn)處理能力更是高達(dá)1.2Tflops。
注意看HD4870介紹文檔的最后一行
隨后,AMD發(fā)布了新一代流處理卡FireStream 9250,由于該卡基于RV770核心,憑借著800個(gè)流處理器的計(jì)算能力,該卡浮點(diǎn)處理能力也非常高,超過(guò)了1TFlops。
再來(lái)看看NVIDIA,本月16日剛剛正式發(fā)布了全新核心G200,流處理器數(shù)量達(dá)到了240個(gè),每個(gè)流處理器在單位時(shí)間內(nèi)可以處理3條指令,這樣在Shader頻率為1400MHz的情況下,浮點(diǎn)能力就可以超過(guò)1TFlops,不過(guò)遺憾的是最高端的GTX 280 Shader頻率也不過(guò)1300MHz,浮點(diǎn)處理能力只有933GFlops,沒(méi)有超過(guò)1TFlops。
索泰推出了全球首款浮點(diǎn)能力超1TFlops的GTX 280顯卡
NVIDIA之所以沒(méi)有在GTX 280這款顯卡上突破1TFlops的浮點(diǎn)處理能力,主要是因?yàn)轱@卡的發(fā)熱量以及功耗已經(jīng)很難控制,今后可能通過(guò)提升工藝以及其他一些方法實(shí)現(xiàn)。不過(guò)顯卡廠商索泰推出了一款超頻版的GTX 280,Shader頻率設(shè)定到了1400MHz,浮點(diǎn)處理能力也就自然超過(guò)了1TFlops。
這里出現(xiàn)了一個(gè)問(wèn)題,為什么索泰的GTX 280就可以將Shader頻率超到1400MHz,而NVIDIA卻不可以。據(jù)筆者猜測(cè),NVIDIA首先是為了控制功耗與發(fā)熱量,因?yàn)閷?duì)于G200這種重量級(jí)產(chǎn)品來(lái)說(shuō),功耗與發(fā)熱量如果太大,媒體宣傳起來(lái)就讓NVIDIA很沒(méi)面子;第二大家都知道索泰是全球最大代工廠栢能旗下的自有顯卡品牌,栢能可能專門挑出了一批體質(zhì)較好的G200核心,將其頻率適當(dāng)提高,這樣顯卡的穩(wěn)定性得以了很大的保障。#p#page_title#e#
第02頁(yè):Tesla S1070發(fā)布 單精度浮點(diǎn)能力超4TFlops可以看出,G200的浮點(diǎn)處理能力還是很強(qiáng)的,只要稍微超頻,就可以使其突破1TFlops大關(guān),索泰推出超頻版GTX 280的意義也就在此。雖然公版GTX 280沒(méi)有突破1TFlops浮點(diǎn)運(yùn)算能力,但是NVIDIA推出的另一款科學(xué)計(jì)算專用產(chǎn)品——Tesla S1070卻達(dá)到了。
Tesla S1070
Tesla S1070是一個(gè)整套的科學(xué)計(jì)算解決方案,簡(jiǎn)單點(diǎn)說(shuō)就是一臺(tái)高性能的工作站。Tesla S1070里擁有4顆G200 GPU,每顆GPU的Shader頻率達(dá)到了1500MHz,根據(jù)“流處理器數(shù)量×每個(gè)流處理器同時(shí)執(zhí)行的命令數(shù)×流處理器頻率=浮點(diǎn)處理能力”的公式來(lái)計(jì)算,擁有240個(gè)流處理器且每個(gè)流處理器同時(shí)能執(zhí)行3條指令的G200 GPU,在頻率達(dá)到1500MHz的情況下,單精度浮點(diǎn)能力可以達(dá)到1080GFlops,超過(guò)了1TFlops,4顆GPU同時(shí)運(yùn)算時(shí)單精度浮點(diǎn)能力可超過(guò)4TFlops。
從外觀上看酷似一臺(tái)1U服務(wù)器
那么NVIDIA為什么在公版的GTX 280上就沒(méi)能突破1TFlops,而在Tesla S1070則可實(shí)現(xiàn)呢?實(shí)際上理解起來(lái)很簡(jiǎn)單,Tesla S1070是在一個(gè)整套的科學(xué)計(jì)算解決方案,有一個(gè)獨(dú)立的機(jī)箱,外觀上看實(shí)際上就是一個(gè)1U的服務(wù)器,只要在機(jī)箱內(nèi)空間允許的情況下,NVIDIA可以隨意使用散熱設(shè)備,況且這樣的產(chǎn)品定價(jià)肯定不低,即使用全球最頂級(jí)的散熱設(shè)備,NVIDIA也能有可觀的利潤(rùn)。,所以說(shuō),NVIDIA在這套設(shè)備上是根本不怕發(fā)熱量以及功耗的。
Tesla C1060
當(dāng)然,NVIDIA還推出了另一款Tesla系列科學(xué)計(jì)算卡,型號(hào)為Tesla C1060,由于這個(gè)是像GTX 280一樣以獨(dú)立卡的形式出現(xiàn),所以情況就和GTX 280很相似了,為了保證發(fā)熱量、功耗以及成本,Shader頻率沒(méi)有突破1400MHz,浮點(diǎn)運(yùn)算能力自然也就沒(méi)有突破1TFlops。#p#page_title#e#
第03頁(yè):CSX700雙精度浮點(diǎn)能力高達(dá)96G!功耗僅12W雖然說(shuō)NVIDIA與AMD都突破了1TFlops的浮點(diǎn)運(yùn)算能力,但是這里我們說(shuō)的都是單精度(FP32)運(yùn)算能力。不過(guò)在雙精度浮點(diǎn)處理能力方面,還是比較弱。Tesla S1070單顆GPU單精度浮點(diǎn)處理能力雖然超過(guò)了1T,但是雙精度浮點(diǎn)能力只能達(dá)到100GFlops左右,約為單精度浮點(diǎn)運(yùn)算能力的1/10;AMD的FireStream 9250稍微好點(diǎn),效率能達(dá)到Tesla S1070的兩倍,雙精度浮點(diǎn)能力能達(dá)到200GFlops。
可以看出,雙精度浮點(diǎn)運(yùn)算在GPU上效率還非常低。而日前Clearspeed發(fā)布了一款最新的處理器,雙精度浮點(diǎn)運(yùn)算能力達(dá)到了96GFlops,最令人驚奇的是這款處理器在工作時(shí)功耗僅僅為12W;而AMD的FireStream 9250雖然能達(dá)到200GFlops的浮點(diǎn)運(yùn)算能力,功耗卻高達(dá)150W;NVIDIA表現(xiàn)則更差,Tesla S1070單顆GPU的雙精度浮點(diǎn)運(yùn)算能力僅僅為100GFlops,功耗卻高達(dá)170W。
Clearspeed發(fā)布的這款處理器型號(hào)為CSX700,該款處理器代號(hào)“Callanish”(蘇格蘭巨石陣),采用90nm工藝生產(chǎn),擁有2×96個(gè)處理核心,頻率250MHz,集成256KB SRAM、糾錯(cuò)硬件模塊、DDR2內(nèi)存控制器和PCI-E界面。
CATS-700
采用CSX700處理器的有兩款加速卡,型號(hào)分別為Advance e710與Advance e720(點(diǎn)擊型號(hào)下載產(chǎn)品介紹PDF),兩款產(chǎn)品為了適應(yīng)不同的用途形式有所不同,但規(guī)格是一致的,都擁有2GB的RAM,處理器都采用的CSX700。除了這兩款加速卡之外,還有一款1U刀片服務(wù)器系統(tǒng)——CATS-700(點(diǎn)擊型號(hào)下載產(chǎn)品介紹PDF),該系統(tǒng)擁有12個(gè)e710加速卡,24G的存儲(chǔ)系統(tǒng),合計(jì)雙精度浮點(diǎn)性能高達(dá)1.152TFLops。#p#page_title#e#
第04頁(yè):延伸閱讀:看看世界十大超級(jí)計(jì)算機(jī)浮點(diǎn)性每年都會(huì)有最新的世界超級(jí)計(jì)算機(jī)500強(qiáng)統(tǒng)計(jì)出爐,最近一次的統(tǒng)計(jì)是去年9月份,筆者這里得到了一份去年9月份統(tǒng)計(jì)的全球最快的10大超級(jí)計(jì)算機(jī)資料,如下表
從最新統(tǒng)計(jì)的這個(gè)全球超級(jí)計(jì)算機(jī)Top10中可以看出,藍(lán)色巨人IBM霸占了第一名與第二名的位置。安裝在美國(guó)能源部勞倫斯-利弗摩爾國(guó)家實(shí)驗(yàn)室(LLNL)的IBM藍(lán)色基因/L系統(tǒng)已經(jīng)連續(xù)4年穩(wěn)居第一名的位置了,不過(guò)相對(duì)前一次統(tǒng)計(jì),這套系統(tǒng)的計(jì)算能力又提升了不少,從之前的280TFlops提升到了478.2TFlops,擁有212992顆處理器,看來(lái)IBM在去年為這套全球最牛超級(jí)計(jì)算機(jī)進(jìn)行過(guò)大幅度升級(jí);
第二名也是IBM推出的產(chǎn)品——藍(lán)色基因/P系統(tǒng),這是IBM去年剛剛打造的一部超級(jí)計(jì)算機(jī),安裝在德國(guó)的某個(gè)地方,具體地名筆者還沒(méi)看懂!這套系統(tǒng)擁有62536個(gè)處理器,浮點(diǎn)處理能力達(dá)167.3TFlops;
第三名是SGI公司推出的SGI Altix ICE 8200,安裝在美國(guó)新墨西哥州計(jì)算應(yīng)用中心(NMCAC),擁有14336個(gè)處理器,浮點(diǎn)運(yùn)算能力為126.9TFlops;
第四名來(lái)自惠普,這臺(tái)超級(jí)計(jì)算機(jī)被安裝在印度,擁有14240個(gè)處理器,浮點(diǎn)處理能力為117.9Tflops;
第五名也是來(lái)自惠普,安裝地點(diǎn)在瑞典,擁有13728個(gè)處理器,浮點(diǎn)處理能力為102.8TFlops;
第六名的Red Storm Cray XT3來(lái)自Sandia/Cray,擁有26569個(gè)處理器,浮點(diǎn)處理能力為102.2TFlops;
第七名Cray的一套系統(tǒng),安裝在美國(guó),擁有23016個(gè)處理器,浮點(diǎn)處理能力為101.7TFlops;
第八名又是來(lái)自IBM的產(chǎn)品,系統(tǒng)安裝在美國(guó)華盛頓,擁有40960個(gè)處理器,浮點(diǎn)能力最高可達(dá)91.3TFlops;
第九名是Cray的一套系統(tǒng),擁有19320個(gè)處理器,浮點(diǎn)處理能力為85.4TFlops,這部超級(jí)計(jì)算機(jī)在美國(guó);
第十名是又是IBM 藍(lán)色基因系列的一套產(chǎn)品,擁有36864顆處理器,浮點(diǎn)運(yùn)算能力達(dá)82.2TFlops。
實(shí)際上,在超級(jí)計(jì)算機(jī)市場(chǎng)上,行業(yè)巨頭的競(jìng)爭(zhēng)也同樣非常激烈,每一年這個(gè)表格都有很大的變化,這里給大家提供一個(gè)去年上半年統(tǒng)計(jì)的全球超級(jí)計(jì)算機(jī)TOP10,與上圖對(duì)比你就大概知道競(jìng)爭(zhēng)有多激烈了(如下表):
另外,本月17日——20日德國(guó)正在舉行ISC08大會(huì),也就是說(shuō)這幾天正在舉辦,應(yīng)該會(huì)公布最新的統(tǒng)計(jì)列表,如果有消息的話,筆者將會(huì)在第一時(shí)間為大家報(bào)道。