作者drinkitblack (black)
看板VideoCard
标题Re: [转录] Intel:GPGPU没有未来 NVIDIA CUDA只是 …
时间Wed Jul 9 02:36:55 2008
SLI和multi GPU是不一样的
CUDA有指令可以让你选择用那一块GPU做运算
device0、device1..
理论上主机板能插几张就能跑几张,不同主机板我就不知道了
目前市面上最多好像是三张
在Programming_Guide_2.0列的最强是Tesla S1070,multi processor有4x30
我猜是装了四张GeForce GTX 280
台湾不知道有没有LAB有Tesla?
另外也不是买有支援CUDA(G80以後)的卡就好
84、85只有2颗multi processor(一颗multi processor包含8颗stream processor)
我想能加速的意义有限
因为所有CUDA的运算,都是要先从host(CPU这边)丢资料到device(GPU这边)的memory
才能运算,也就是还要扣传送的时间和memory access time
别小看这代价是很大的,频宽和memory的速度都很重要
今天在HKEPC,NV要在八月推出支援CUDA的IGP,就是两颗multi p
好奇的是IGP不也是读main memory,不知道能不能省掉传送时间
顺便提一下CUDA这玩意,我初学有一点心得,有兴趣可以看一下
基本上,把CPU和GPU一起运算比较好
首先要用GPU来运算,基本上就一定要加速,没加速就一点意义也没有
换言之你使用CUDA最在意的就是效能
因此程式设计师必须很了解GPU的硬体架构
小心翼翼的使用memory(有bank conflict、Memory Hierarchy的问题)
资料基本上都是designer要自己配到显示卡的memory(你写CPU CODE时根本不太需要管吧)
切thread时也要考虑很多硬体问题
另外debug很困难,基本上程式在GPU上跑时是无法中断、使用printf的
而且你必须自己去考虑memory Coherence & Consistency的问题
简单来说,CUDA是一种把效能、平行化的问题丢给designer的一种语言..
程式没写好的话,只会比CPU来算还慢
一些天生适合平行化的领域,如image process、矩阵运算
演算法就比较好写一些,加速能力无穷
但像video encoder,其实就不好写
目前虽然有产品出来,但似乎还不完全
提外话
前几天有看到使用PS3 cell processor 改x264 encoder,效能似乎也没有很好
我猜想是程式不够最佳化,我想multicore、multithread的时代来临
效能最关键的将是software..
最後提一个无关的
CUDA已经放出G80之後里面的硬解晶片给CUDA使用(CUDA Video Decoder API)
可以直接硬解MPEG-2/H.264
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 122.116.236.21
1F:推 Dissipate:好专业 07/09 10:08
2F:推 xcxc:看起来好像不是很友善的语言,这可能比适应新架构的问题还大 07/09 10:35
3F:推 mike0227:因为东西还算新 还有目前没这麽聪明的compiler XD 07/09 11:53
4F:推 milen:看M$要不要跳出来搞吧...不然就是NV和AMD自己争气点合作 07/09 13:11
5F:→ milen:不然现在这样子谁敢认真玩下去 07/09 13:11
6F:推 mike0227:也没那麽严重啦...该有的效果还是有出来 07/09 13:35
7F:推 milen:在顶尖领域是不管那些的..但一般使用上会很计较那个XD 07/09 15:52
8F:推 mike0227:一般使用就等高手写好的程式就好啦 :P 07/09 19:39