作者iHakka (iHakka)
看板PC_Shopping
标题Re: [情报] GTX 970 记忆体疑似只吃得到 3.5GB (官方回应)
时间Sun Jan 25 16:10:25 2015
在Fermi架构下跑出来的值会超高是因为两个原因
1.编译时编成m32的版本,没办法吃到4G以上记忆体
2.编译时编成限定kepler以上架构,导致在fermi上不能跑
所以程式会因为出错立刻结束,让执行时间超级短
以至於算出来的频宽会爆高!!
基本上我是认为程式没有问题
我帮大家编译了可以在fermi以後世代的卡上跑的程式
http://goo.gl/v7Ogq6
http://goo.gl/fKGHcp
那个因为不能上传执行档,下载後把尾巴的_去掉即可
编译环境是CUDA 7.0RC,所以需要第二个连结的dll档案一起下载下来
有漏掉什麽dll的话我在补上来
------
补上测试结果
http://i.imgur.com/1gbIaBI.png?1
当存取到末端的记忆体时L2 cache的使用量会整个掉下来
原因我就不清楚了,但底是driver还是OS或是硬体的问题
※ 引述《yummypixza (好吃的披萨)》之铭言:
: NVIDIA Responds to GTX 970 3.5GB Memory Issue | PC Perspective
: http://goo.gl/u8ZxN6
: 以下原文新闻稿, 中文有请翻译蒟蒻
: ---
: The GeForce GTX 970 is equipped with 4GB of dedicated graphics memory.
: However the 970 has a different configuration of SMs than the 980, and fewer
: crossbar resources to the memory system. To optimally manage memory traffic
: in this configuration, we segment graphics memory into a 3.5GB section and a
: 0.5GB section. The GPU has higher priority access to the 3.5GB section.
: When a game needs less than 3.5GB of video memory per draw command then it
: will only access the first partition, and 3rd party applications that measure
: memory usage will report 3.5GB of memory in use on GTX 970, but may report
: more for GTX 980 if there is more memory used by other commands. When a game
: requires more than 3.5GB of memory then we use both segments.
: We understand there have been some questions about how the GTX 970 will
: perform when it accesses the 0.5GB memory segment. The best way to test that
: is to look at game performance. Compare a GTX 980 to a 970 on a game that
: uses less than 3.5GB. Then turn up the settings so the game needs more than
: 3.5GB and compare 980 and 970 performance again.
: ---
: 官方回应出来了
: 简单来说就是他们的硬体设计执意如此
: "It's by design, not a bug"
: 虽然他们自己说实际上在存取最後0.5GB的效能递减并不严重
: 但是实际上真的会把4GB都塞到炸掉的人应该也大都不是普通人了...
: 到底最後大家买不买帐就(ry
: #ramgate
: edit: 将来源网址缩址 :P
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.114.213.123
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PC_Shopping/M.1422173437.A.9ED.html
1F:推 john0312 : 推. 有Source会更好. 01/25 16:13
※ 编辑: iHakka (140.114.213.123), 01/25/2015 16:47:20
2F:→ mayjan : 很棒 01/25 16:55
3F:推 terry6503 : 推,真的蛮好奇程式有做了哪些是,今天下午写了一个 01/25 17:15
4F:→ terry6503 : 对GPU记忆体填零的测试,结果还蛮类似的,只是效能 01/25 17:16
5F:→ terry6503 : (数字)没有他那麽好 01/25 17:16
没做什麽事情,就把资料从GPU上的记忆体搬到晶片去
只是变作者似乎要避免编译器优化掉程式码加个if,但这个if基本上不会成立
然後让GPU作一点点事情这样才能量时间,就这样
cache的那个就是重复拿原来的那个元素,他一定会再cache上所以就这样
6F:推 kagayama : push 01/25 17:23
※ 编辑: iHakka (140.114.213.123), 01/25/2015 17:30:13
8F:→ coldcolour : 原作者那个750ti跑了最後都会驱动停止回应重开 01/25 17:30
9F:→ coldcolour : 原PO这个不会 但是尾段一样会掉速 01/25 17:30
10F:→ terry6503 : 我跑两个都不会驱动停止回应 01/25 17:31
11F:→ terry6503 : 感谢原PO解释,这样能帮我了解得更快 01/25 17:33
13F:→ Nafusica : 看不懂。高手在民间。 01/25 19:54
14F:→ terry6503 : 请问楼上L大,如果不关DWM,纯用内显跑OK吗? 01/25 19:54
15F:→ terry6503 : 我找到关的方法了。因为我的显示卡平时都在算CUDA 01/25 20:05
16F:→ terry6503 : 所以可以在GPU-Z上看到执行前的ram使用量为0 01/25 20:05
18F:→ terry6503 : 另外有自己弄一个类似的程式,不过不会测L2,结果: 01/25 20:07
20F:→ terry6503 : 结果蛮类似的,都是3200MB开始降。而第二张还有测到 01/25 20:08
21F:→ terry6503 : GTX650Ti(也只用於算CUDA),结果後段速度没有降 01/25 20:10
嗯!所以我比较怀是OS的问题,在windows上已知的问题是
当GPU要计算又要显示时跑CUDA本来就会有问题
但是真正的原因是什麽我不知道
※ 编辑: iHakka (140.114.213.123), 01/25/2015 22:30:56
22F:→ terry6503 : 恩恩,又要显示又要CUDA,结果就是CUDA又慢显示lag~ 01/26 00:57
23F:→ terry6503 : 现在只能等待Nvidia公布了~ 01/26 00:57
24F:推 smart1008 : 莱特亚大大? 01/26 20:02