NVIDIA的2017規(guī)劃 整合"CPU到GPU中"?
10月28日 NVIDIA在中科院做了一個關(guān)于GPU計(jì)算的研討會,會上NVIDIA的CEO黃仁勛和首席科學(xué)家Bill Dally分別作了一個演講,黃仁勛的演講主要集中在GPU計(jì)算的現(xiàn)在,而Bill的演講更多地講到了GPU計(jì)算的未來可能發(fā)展的趨勢。按照Bill的說法,現(xiàn)在CPU的性能發(fā)展已經(jīng)進(jìn)入到一個瓶頸階段,而未來的處理器將會主要采用并行處理器(如GPU)進(jìn)一步提升性能。在演講后面有一個NVIDIA未來GPU的展望的一頁,里面說道在2017年ExaScale GPU的可能規(guī)模:
在300W的GPU中將整合2400個core,共有7200個FPU單元,性能將達(dá)到40T單精度浮點(diǎn)數(shù)和13T雙精度浮點(diǎn)數(shù)的量級。其實(shí)這個并不是最重要的,最重要的是這個演講顯示未來的NVIDIA的GPU中將會整合進(jìn)多個CPU 或者多個CPU核心。
當(dāng)然大家都知道NVIDIA并沒有CPU,因此其GPU會依賴于Intel和AMD的CPU以及他們的平臺。當(dāng)然,NVIDIA的說法是CPU+GPU的異構(gòu)計(jì)算系統(tǒng)才可以獲得最高的效率,但是問題沒有掌握CPU的資源就沒有掌握平臺,而且在大規(guī)模計(jì)算架構(gòu)中,也需要混合部署CPU和GPU的服務(wù)器,計(jì)算密度難以提升。失去了平臺就會處處受制于人,比如Intel和AMD也可以通過平臺的規(guī)格來限制GPU的實(shí)際計(jì)算能力的發(fā)揮,比如簡單地將PCI-E的性能提升速度降低,就可以直接限制GPU和CPU的數(shù)據(jù)傳輸能力,從而限制GPU實(shí)際能力的發(fā)揮。
Fermi這一代的GPU實(shí)際上已經(jīng)具備了相當(dāng)程度的CPU的特征,也有些人正在研究將Linux修改后直接運(yùn)行在Fermi中,但是目前看起來絕大多數(shù)基于Fermi的平臺還是會采用傳統(tǒng)的CPU+GPU的模式,這就給Intel和AMD利用平臺的優(yōu)勢限制NVIDIA GPU的機(jī)會。要解決這個問題,有人正在研究使用ARM CPU+Fermi GPU的方案。ARM CPU的能力很弱,但是Fermi的可編程能力卻很強(qiáng),因此可以讓ARM CPU的任務(wù)僅僅是跑OS、驅(qū)動程序和啟動Kernel,計(jì)算任務(wù)完全在Fermi GPU上跑,可以將很小體積的ARM系統(tǒng)直接整合到Fermi服務(wù)器中,從而獲得更高密度的部署并且解決CPU依賴的問題,ARM的低功耗還可以降低整個系統(tǒng)的功耗。不過這種方案的問題是ARM的計(jì)算和內(nèi)存等性能實(shí)在太弱,而且也沒有高性能的輸入輸出接口,PCI-E也需要專門的橋接芯片,相信這種方案僅僅適用于有限的應(yīng)用中。
從長遠(yuǎn)的角度來看,NVIDIA要解決CPU的依賴型的問題,具備自己的CPU是必然的事情。雖然在提問中我們問了Bill關(guān)于NVIDIA是否會在近期就在GPU內(nèi)整合CPU的問題,Bill用Tegra打起了太極,而且說明在現(xiàn)階段較難做到,但是并沒有否認(rèn)下一步會這樣做。我們是否可以認(rèn)為在下一代的NVIDIA GPU內(nèi)部會整合進(jìn)一個或者幾個CPU核,從而徹底解決CPU依賴的問題呢?
雖然Intel和AMD都在推CPU整合GPU的方案,但是這些方案都是一個大CPU整合一個小GPU的方案,主要是提供低成本和低功耗的低端解決方案。而在未來一段時間GPU和CPU在基本架構(gòu)上很難融合情況下,也許一個類似于Fermi這樣的大GPU整合進(jìn)一個較小的CPU(比Larrabee的標(biāo)量處理單元強(qiáng),類似于主流CPU核),是面向高端圖形和高性能計(jì)算的一個新穎的思路。我相信沒有NVIDIA主動采取這樣的措施,Intel和AMD絕難這樣做,因?yàn)楝F(xiàn)在高端的CPU才是他們的最大收入和利潤來源。我們期望NVIDIA在未來繼續(xù)在計(jì)算機(jī)架構(gòu)上進(jìn)一步創(chuàng)新,這也許會給業(yè)界帶來一輪新的變革,否則持續(xù)保持現(xiàn)有的PC架構(gòu),則NVIDIA的路會越來越艱難