融聚未來 AMD全新Stream技術(shù)詳盡解析
從1998年到2008年,3D加速卡已經(jīng)經(jīng)歷了大約10年的發(fā)展歷程,從最初的3D加速卡的誕生到現(xiàn)在性能非常強(qiáng)悍的產(chǎn)品已經(jīng)經(jīng)歷了無數(shù)次的更新?lián)Q代,不過這是種逃離不掉顯卡從誕生至今的唯一功能——僅能局限于3D加速的領(lǐng)域。經(jīng)歷了大約十年的顯卡發(fā)展歷程,由最初的單純3D顯示加速到如今的并行計(jì)算,讓顯卡這一產(chǎn)品經(jīng)歷了一個(gè)十分巨大的變革。
近兩年來,由顯卡的飛速發(fā)展帶來了一個(gè)全新的問題,那就是日益增高的顯卡性能如果僅能局限于3D圖形加速,那么在非3D加速時(shí)顯卡的性能就會(huì)白白的浪費(fèi)掉。而為了更好的解決這個(gè)問題,同時(shí)也是為了讓自己有更多的出路,NVIDIA公司在去年正式發(fā)布了CUDA這項(xiàng)技術(shù),并且從GTX 280產(chǎn)品之后開始了大力宣傳CUDA這一技術(shù)。這被人們普遍認(rèn)為是一個(gè)具有重大意義的方向和領(lǐng)域,然而Nvidia的CUDA似乎并不成熟和完善。
『AMD的新Fusion即將整合顯卡與CPU于一身』
人們發(fā)現(xiàn)了AMD的Fusion這種將顯卡與CPU整合一體似乎是未來大方向。雖然整合顯卡與CPU是一種發(fā)展方向,其實(shí)獨(dú)立顯卡同樣有自己的發(fā)展道路要走。隨著顯卡的性能增強(qiáng),人們?cè)絹碓揭庾R(shí)到如此高性能的顯卡如果單純的利用在3D加速領(lǐng)域的話,會(huì)讓顯卡在大部分時(shí)間浪費(fèi)掉它的出色性能,因此并行計(jì)算便提上了顯卡未來發(fā)展路線的日程。當(dāng)然,實(shí)際上目前來看,顯卡已經(jīng)在朝著這一方向前進(jìn)了。
ATI方面早在X1950XTX時(shí)代就已經(jīng)能夠通過斯坦福大學(xué)Folding@home軟件實(shí)現(xiàn)并行加速功能,面向普通用戶的并行計(jì)算功能因?yàn)闆]有做到盡善盡美所以一直沒有露面。不過,伴隨著ATI最新的催化劑8.12,具有ATI顯卡劃時(shí)代意義的Steam通用計(jì)算技術(shù)正式登場(chǎng)了。今天,我們就詳細(xì)講解一下ATI Steam技術(shù)的特色亮點(diǎn)以及應(yīng)用領(lǐng)域方面的知識(shí)。
#p#page_title#e#
■[第一章]SIMD架構(gòu),為Stream打下基礎(chǔ)
2008年的6月20日,ATI正式發(fā)布了最新一代的Radeon HD 4850產(chǎn)品,這款產(chǎn)品發(fā)布的同時(shí),也為大家?guī)砹艘豢罡↑c(diǎn)運(yùn)算能力達(dá)到萬億次的產(chǎn)品。之所以HD4850的浮點(diǎn)運(yùn)算能力能夠達(dá)到萬億次級(jí)別,這主要還是因?yàn)锳TI在核心架構(gòu)的設(shè)計(jì)上一直保留著SIMD的設(shè)計(jì)思路,雖然在遇到分支預(yù)測(cè)時(shí),SIMD的效率會(huì)降低,但是SIMD的浮點(diǎn)運(yùn)算的優(yōu)勢(shì)確實(shí)非常大的。
『SIMD架構(gòu)讓RV770的浮點(diǎn)性能更強(qiáng)』
在HD2000系列產(chǎn)品中,我們就已經(jīng)知道ATI采用的4D+1D的SIMD設(shè)計(jì)能帶來極強(qiáng)的浮點(diǎn)運(yùn)算性能,甚至低端的HD2400的浮點(diǎn)運(yùn)算性能都要比兩顆四核CPU并行運(yùn)算的浮點(diǎn)運(yùn)算性能還要高。而RV770在基本保持R6XX架構(gòu)的設(shè)計(jì)思路上,大量的增加了流處理器數(shù)量,這使得RV770的浮點(diǎn)運(yùn)算能力又得到了飛躍式的提高。
『公版Radeon HD4850』
我們來舉一個(gè)例子:RV770核心的又有800個(gè)流處理器,每個(gè)流處理器沒有周期都可以完成800個(gè)矢量指令+800個(gè)標(biāo)量指令,也就是說每個(gè)流處理器每個(gè)周期可以同時(shí)執(zhí)行兩個(gè)命令數(shù),將流處理器的數(shù)量與每個(gè)流處理器同時(shí)執(zhí)行的命令數(shù)相乘再乘以流處理器運(yùn)行的頻率,也就是說800x2x625MHz=1T Flops??梢钥吹?,RV770依靠其800個(gè)流處理器的性能,可以達(dá)到驚人的萬億次的浮動(dòng)運(yùn)算能力。
強(qiáng)大的浮點(diǎn)運(yùn)算的性能在GPGPU(通用目的計(jì)算的GPU)上發(fā)揮很大的作用。尤其在依賴密集計(jì)算的科學(xué)運(yùn)算領(lǐng)域,GPU依靠超強(qiáng)的浮點(diǎn)運(yùn)算性能將大大超越CPU的運(yùn)算速度。
#p#page_title#e#
開放性標(biāo)準(zhǔn),更有發(fā)展前途
相對(duì)NVIDIA的CUDA技術(shù)而言,AMD采用的Stream技術(shù)是一項(xiàng)開放性的技術(shù)。實(shí)際上,最初ATI采用的流處理技術(shù)并非完全開放,而是僅針對(duì)單一的一個(gè)項(xiàng)目而研發(fā)的。 在2006年,ATI就曾經(jīng)借助非統(tǒng)一架構(gòu)設(shè)計(jì)的Radeon X1950XTX顯卡為斯坦福大學(xué)的Folding@Home (蛋白質(zhì)折疊的分布計(jì)算項(xiàng)目)項(xiàng)目進(jìn)行科學(xué)計(jì)算。而此次全新的流處理技術(shù)的改進(jìn)就是要將這一技術(shù)全面開放,能夠讓更多的開發(fā)人員參與進(jìn)來,借助HD4000系列顯卡超強(qiáng)的浮點(diǎn)運(yùn)算能力,為更多的并行計(jì)算應(yīng)用進(jìn)行加速。
『ATI已經(jīng)正式加盟Khronos組織的OpenCL陣營』
為何要將這一技術(shù)完全開放,實(shí)際上這是AMD一個(gè)非常明智之舉。我們可以回顧一下,歷史上很對(duì)不開放的相關(guān)技術(shù)都是一些怎樣的后果。這其中大家最熟悉的應(yīng)該就是早年3dfx公司的Glide圖形技術(shù)接口和Rambus這兩項(xiàng)技術(shù)了,由于技術(shù)的封閉性,讓不少廠家望而卻步,最終走向了沒落的道路。而實(shí)際上,目前NVIDIA的CUDA也有一些這樣的痕跡。而AMD方面則直接基于OpenCL這一開放性標(biāo)準(zhǔn),因此勢(shì)必會(huì)得到更多廠商的技術(shù)支持。
『OpenCL與CUDA開放型對(duì)比』
從上面的表格當(dāng)中我們可以看到,基于Khronos團(tuán)體定制的OpenCL標(biāo)準(zhǔn)確實(shí)得到了不少廠商的認(rèn)可,包括有AMD、Intel、IBM、APPLE等廠商,這其中甚至還包括了ATI的老對(duì)手NVIDIA。因此,我們也不難看出開放性標(biāo)準(zhǔn)對(duì)于一個(gè)廠商的重要性是非常有分量的。
#p#page_title#e#
■多種形式,讓軟件開發(fā)更便利
當(dāng)然,AMD也并非僅僅支持OpenCL一種API接口,同時(shí)AMD自有的Brook+、更多的高級(jí)編程語言編程工具、高級(jí)編程語言編譯器、特定應(yīng)用程序庫以及業(yè)界的OpenGL、DirectX等技術(shù)均能夠得到支持。更多的開發(fā)方式的支持,得到的結(jié)果只有一個(gè),那就是讓編程人員有更多的選擇,從而可以從自己熟悉的方式來對(duì)顯卡的更多潛能進(jìn)行開發(fā)。
『ATI為流處理技術(shù)免費(fèi)提供開發(fā)工具包』
除了提供更多的開發(fā)環(huán)境以外,ATI還未開發(fā)人員提供了一整套開發(fā)方案,并且為開發(fā)人員提供免費(fèi)的、開放的編程工具套件,以增強(qiáng)開發(fā)人員的積極性。另外,ATI開放性的舉動(dòng)也將會(huì)增加開發(fā)人員的靈活性以及賦予開發(fā)者自由編程的能力。
根據(jù)ATI的消息表示,ATI能夠讓開發(fā)人員僅進(jìn)行一次程序語言的編寫,通過內(nèi)部的代碼識(shí)別以及轉(zhuǎn)換就可以輕松的讓這些程序語言運(yùn)行在顯卡上,而無需開發(fā)人員的二次編寫更甚至從新編寫程序,這一點(diǎn)無疑也大幅度降低了開發(fā)人員的開發(fā)難度,對(duì)于我們普通用戶而言最直接的好處就是我們能夠在更短的時(shí)間內(nèi)看到采用流處理技術(shù)的應(yīng)用程序。
#p#page_title#e#
■未來Stream更新情況
根據(jù)我們目前的得到的消息來看,Brook+開發(fā)工具有效地提供了一個(gè)高級(jí)別訪問GPU的途徑,類似NV的CUDA技術(shù)。此外,ATI還有望提供從Brook+過渡到OpenCL的簡(jiǎn)單工具,不過具體細(xì)節(jié)目前尚不清楚。另外,ATI并非會(huì)拋棄Brook+開發(fā)環(huán)境,并且在未來1.3版本的Stream SDK當(dāng)中,Brook+徹底重寫以提升性能,這將讓更多用戶體驗(yàn)更高性能的Brook+。并且1.3版還會(huì)增加對(duì)FireStream 9270、Radeon HD 4600、4550、4350顯卡的支持。
『Stream1.3版功能簡(jiǎn)介』
『Stream1.4版功能簡(jiǎn)介』
在09年第一季度,ATI會(huì)繼續(xù)更新Stream SDK到1.4版,新的版本會(huì)進(jìn)一步加大軟件開發(fā)者的編程控制和易用性。另外對(duì)Brook+也將會(huì)增加更多的功能。硬件支持方面會(huì)增加目前ATI的家用頂級(jí)產(chǎn)品Radeon HD 4870 X2以及FirePro 3D系列的V3750、V7750、V7770等眾多顯卡。另外我們得到消息,在ATI Stream SDK 2.0當(dāng)中將完全支持OpenCL,并積極幫助客戶從Brook+過渡到OpenCL。
■ATI與微軟方面的合作
除了支持開放性標(biāo)準(zhǔn)OpenCL等特征外,ATI還在積極與微軟公司進(jìn)行合作。ATI將會(huì)借助微軟的DirectX圖形接口實(shí)現(xiàn)除了三維圖形游戲以外的更多應(yīng)用,例如在微軟的Windows 7當(dāng)中,將會(huì)利用顯卡的更多性能,借助DirectX11應(yīng)用程序接口支持ATI的Stream技術(shù),讓軟件開發(fā)者有能力利用這一技術(shù),是消費(fèi)者體驗(yàn)朝野視覺渲染以外的機(jī)會(huì)。
我們可以想象得到,以微軟非常強(qiáng)大的研發(fā)實(shí)力,必然會(huì)在Windows 7當(dāng)中為我們帶來更多的驚喜。
#p#page_title#e#
■[第二章]將流處理技術(shù)帶進(jìn)主流市場(chǎng)
前面我們簡(jiǎn)單了解了一下ATI的Stream技術(shù)對(duì)于軟件開發(fā)人員的優(yōu)勢(shì),那么對(duì)于我們普通用戶而言,Stream技術(shù)又會(huì)為消費(fèi)者帶來哪些益處呢?接下來的這一章節(jié)我們將會(huì)為大家詳細(xì)的闡述一下這方面的應(yīng)用。
普通用戶的三大應(yīng)用領(lǐng)域:
ATI的Stream技術(shù)對(duì)于普通用戶來說主要提供了三個(gè)方面的應(yīng)用領(lǐng)域,分別為:娛樂領(lǐng)域、工作領(lǐng)域以及游戲領(lǐng)域。
流處理技術(shù)在三個(gè)不同的應(yīng)用領(lǐng)域?qū)?huì)為我們帶來完全不同的應(yīng)用體驗(yàn),例如在娛樂領(lǐng)域當(dāng)中,Stream技術(shù)可以為我們提供視頻、音頻的編輯功能;在工作領(lǐng)域當(dāng)中為我們提供辦公軟件、制圖軟件甚至操作系統(tǒng)等軟件的加速;而在游戲當(dāng)中,ATI表示在將來也會(huì)加入對(duì)游戲AI以及物理效果加速的功能。
更多免費(fèi)的軟件:
ATI首先為軟件開發(fā)者們提供了免費(fèi)的、易用的開發(fā)工具,從而讓這些開發(fā)人員去開發(fā)相應(yīng)的軟件,讓軟件的開發(fā)成本降到最低。不僅如此,ATI也積極的為大家?guī)砀喔玫幕赟tream技術(shù)的應(yīng)用軟件,來讓用戶能夠直接免費(fèi)的獲得這些軟件,這其中最先讓消費(fèi)者體驗(yàn)到的就是伴隨催化劑8.12同時(shí)出現(xiàn)的Avivo視頻轉(zhuǎn)換器。
ATI的Avivo視頻轉(zhuǎn)換器是基于ATI的Stream技術(shù)實(shí)現(xiàn)的收個(gè)面對(duì)個(gè)人用戶的免費(fèi)軟件,它能夠讓顯卡與CPU共同加速,來一起完成以往僅有CPU參與的視頻壓縮,并且壓縮速度將會(huì)達(dá)到原有CPU轉(zhuǎn)換速度的17倍左右。作為此次催化劑8.12的重頭軟件,接下來我們用一頁的篇幅來詳細(xì)了解一下這款軟件。
■免費(fèi)贈(zèng)送,視頻轉(zhuǎn)換器詳細(xì)介紹
ATI為大家免費(fèi)提供的這款A(yù)vivo視頻轉(zhuǎn)換器從今年的12月中旬伴隨著催化劑8.12驅(qū)動(dòng)一起提供免費(fèi)下載,感興趣的用戶可以去這里進(jìn)入下載頁面:http://ati.amd.com/support/driver.html。用戶只需要根據(jù)自己的操作系統(tǒng)和使用的顯卡進(jìn)行選擇,就可以進(jìn)入下載頁面了。
Avivo視頻轉(zhuǎn)換器能夠提供非常簡(jiǎn)便的設(shè)置,而執(zhí)行效率卻是空前的。以往需要超過三個(gè)小時(shí)轉(zhuǎn)換的一小時(shí)高清視頻,現(xiàn)在只需要十二分鐘就能完成轉(zhuǎn)換。以這樣的速度來看Avivo視頻轉(zhuǎn)換器確實(shí)為我們帶來了非常不錯(cuò)的視頻轉(zhuǎn)換速度,讓我們無需在電腦前等待漫長的時(shí)間。
Avivo視頻轉(zhuǎn)換器是ATI首次將流處理技術(shù)得以實(shí)現(xiàn)的應(yīng)用軟件,它能夠支持非常多的視頻轉(zhuǎn)換格式,包括了MPEG-2、H.264等多種高清視頻格式,并可支持1080p的視頻輸出(這一技術(shù)將會(huì)在2009年第一季度實(shí)現(xiàn))。
ATI最新的Avivo視頻轉(zhuǎn)換器能夠用于目前主流的Radeon HD 4870/50以及HD4670/50幾款產(chǎn)品。目前ATI的Stream通用計(jì)算研發(fā)團(tuán)隊(duì)會(huì)將前期的工作重點(diǎn)放在HD4000產(chǎn)品上面,而隨后也會(huì)推出能夠支持HD3000/2000或者其他產(chǎn)品的驅(qū)動(dòng)和軟件。
#p#page_title#e#
■更多廠商支持,家用領(lǐng)域更廣泛
Stream流處理技術(shù)當(dāng)然并不能僅僅通過Avivo視頻轉(zhuǎn)換器這一個(gè)軟件來體現(xiàn),ATI也正在積極與一些大牌的軟件廠商進(jìn)行合作,預(yù)計(jì)將會(huì)在2009年第一季度推出不少采用ATI流處理技術(shù)的軟件產(chǎn)品,這其中就包括了CyberLink公司的PowerDirector(威力導(dǎo)演7,是一款視頻后期編輯軟件)以及ArcSoft TotalMedia公司的Theater(視頻編輯軟件)軟件。
其中,CyberLink公司的PowerDirector同樣擁有ATI的Avivo視頻轉(zhuǎn)換器的全部功能,并且PowerDirector實(shí)際上就是采用了AMD提供的核心AVT庫,并且對(duì)ATI Radeon產(chǎn)品采用AVIVO視頻編碼器來執(zhí)行轉(zhuǎn)碼的工作。在編碼完全一樣的輸入內(nèi)容和輸出目標(biāo)情況下,CyberlinkPowerDirector的性能和類似軟件的性能沒有不同。但是,Cyberlink的PowerDirector還有其他優(yōu)勢(shì),如支持更多的視頻文件存放器,支持多流轉(zhuǎn)換等多種功能,Cyberlink的PowerDirector的所有功能都打包在一個(gè)完整視頻編輯環(huán)境當(dāng)中。
另外,來自Adobe公司的不少應(yīng)用軟件(如Acrobat Reader、Photoshop4、Flash10等)也都會(huì)加入對(duì)ATI顯卡的流處理支持。ATI除了能夠支持目前Photoshop CS4當(dāng)中的旋轉(zhuǎn)、縮放的GPU加速外,目前還在與Adobe公司積極配合,準(zhǔn)備開發(fā)更多的能夠使用Stream技術(shù)的功能。
除此以外,ATI與微軟公司的合作也非常緊密,將會(huì)在未來Windows操作系統(tǒng)、Expression視頻編碼器、PowerPoint2007等不少軟件當(dāng)中提供支持。
#p#page_title#e#
■[第三章] 針對(duì)企業(yè)用戶的解決方案
接下來我們?cè)賮砜纯疵鎸?duì)企業(yè)級(jí)別的用戶,Stream流處理技術(shù)還會(huì)為我們帶來哪些特色。
首先,我們簡(jiǎn)單來說一下流處理技術(shù)在企業(yè)及用戶方面都有哪些優(yōu)勢(shì)。第一,使用流處理技術(shù)的話,能夠大幅度縮小服務(wù)器的體積,并且還能夠同時(shí)保證服務(wù)器運(yùn)行的高效率;第二,在服務(wù)器大幅度縮小后,同樣還會(huì)帶來功耗的大幅下降;第三,能夠讓服務(wù)器的整體成本大幅度下降;第四,能夠支持雙精度的浮點(diǎn)運(yùn)算能力。
『Stream相對(duì)于普通CPU計(jì)算的優(yōu)勢(shì)』
『針對(duì)企業(yè)級(jí)別的FireStream系列產(chǎn)品』
當(dāng)然,對(duì)于企業(yè)級(jí)的用戶來說,AMD自然也有相應(yīng)的產(chǎn)品解決方案,而不可能讓企業(yè)級(jí)用戶使用那些普通家用級(jí)產(chǎn)品,畢竟針對(duì)企業(yè)用戶來說,穩(wěn)定性以及可靠性才是最重要的。AMD推出的FireStream系列產(chǎn)品就是專門針對(duì)企業(yè)級(jí)用戶的解決方案,目前FireStream系列已經(jīng)有兩款產(chǎn)品亮相了,一款產(chǎn)品為FireStream9250:采用1GB GDDR3顯存容量、單插槽設(shè)計(jì)、90W功耗、單精度浮點(diǎn)運(yùn)算每秒1TFLOPS、雙精度浮點(diǎn)運(yùn)算每秒200GFLOPS。
另一款產(chǎn)品名稱為FireStream9270:采用2GB GDDR5顯存、雙插槽設(shè)計(jì)、160W功耗、單精度浮點(diǎn)運(yùn)算每秒1.2TFLOPS、雙精度浮點(diǎn)運(yùn)算每秒240GFLOPS。并且針對(duì)企業(yè)級(jí)用戶,還可以組件雙卡、四卡或更多顯卡的陣列,從而成倍提升顯卡的流處理能力,已獲得更強(qiáng)勁的性能。
另外,AMD還為用戶準(zhǔn)備了完整的4U解決方案——Aprius運(yùn)算加速系統(tǒng)。整套系統(tǒng)大小是一個(gè)標(biāo)準(zhǔn)的4U服務(wù)器機(jī)箱,運(yùn)算能力將會(huì)達(dá)到單精度浮點(diǎn)運(yùn)算9.6TFLOPS,雙精度浮點(diǎn)運(yùn)算達(dá)到1.9DP TFLOPS,并且整體顯存容量將會(huì)達(dá)到16GB。整套系統(tǒng)一共采用了8塊FireStream9270顯卡。
#p#page_title#e#
■覆蓋面廣,Stream的應(yīng)用領(lǐng)域
在我們了解了Stream技術(shù)對(duì)于企業(yè)級(jí)用戶的優(yōu)勢(shì)以及產(chǎn)品之后,下面我們?cè)賮砜纯碨tream技術(shù)對(duì)于企業(yè)當(dāng)中哪些應(yīng)用最佳適合。
實(shí)際上很多基于并行計(jì)算架構(gòu)的運(yùn)算都能夠被流處理技術(shù)支持,例如科學(xué)研究、電腦輔助工程、財(cái)務(wù)建模和風(fēng)險(xiǎn)評(píng)估、石油煤氣勘探、國防、醫(yī)學(xué)成像、影響渲染和專業(yè)視訊等領(lǐng)域都能夠被流處理技術(shù)支持,并且采用流處理技術(shù)還能夠大幅度的縮減企業(yè)開發(fā)成本等優(yōu)勢(shì)。
『HP公司也積極參與到Stream技術(shù)應(yīng)用當(dāng)中』
『更多廠商對(duì)Stream技術(shù)的評(píng)價(jià)』
AMD的Stream技術(shù)的推出,將會(huì)進(jìn)一步推動(dòng)并行計(jì)算在PC領(lǐng)域的應(yīng)用。并且,AMD公司的這一技術(shù)還將會(huì)結(jié)合CPU與GPU的所長,讓兩者無縫銜接,從而得到更好、更強(qiáng)靜的性能表現(xiàn)。