作者iHakka (iHakka)
看板PC_Shopping
標題Re: [情報] GTX 970 記憶體疑似只吃得到 3.5GB (官方回應)
時間Sun Jan 25 16:10:25 2015
在Fermi架構下跑出來的值會超高是因為兩個原因
1.編譯時編成m32的版本,沒辦法吃到4G以上記憶體
2.編譯時編成限定kepler以上架構,導致在fermi上不能跑
所以程式會因為出錯立刻結束,讓執行時間超級短
以至於算出來的頻寬會爆高!!
基本上我是認為程式沒有問題
我幫大家編譯了可以在fermi以後世代的卡上跑的程式
http://goo.gl/v7Ogq6
http://goo.gl/fKGHcp
那個因為不能上傳執行檔,下載後把尾巴的_去掉即可
編譯環境是CUDA 7.0RC,所以需要第二個連結的dll檔案一起下載下來
有漏掉什麼dll的話我在補上來
------
補上測試結果
http://i.imgur.com/1gbIaBI.png?1
當存取到末端的記憶體時L2 cache的使用量會整個掉下來
原因我就不清楚了,但底是driver還是OS或是硬體的問題
※ 引述《yummypixza (好吃的披薩)》之銘言:
: NVIDIA Responds to GTX 970 3.5GB Memory Issue | PC Perspective
: http://goo.gl/u8ZxN6
: 以下原文新聞稿, 中文有請翻譯蒟蒻
: ---
: The GeForce GTX 970 is equipped with 4GB of dedicated graphics memory.
: However the 970 has a different configuration of SMs than the 980, and fewer
: crossbar resources to the memory system. To optimally manage memory traffic
: in this configuration, we segment graphics memory into a 3.5GB section and a
: 0.5GB section. The GPU has higher priority access to the 3.5GB section.
: When a game needs less than 3.5GB of video memory per draw command then it
: will only access the first partition, and 3rd party applications that measure
: memory usage will report 3.5GB of memory in use on GTX 970, but may report
: more for GTX 980 if there is more memory used by other commands. When a game
: requires more than 3.5GB of memory then we use both segments.
: We understand there have been some questions about how the GTX 970 will
: perform when it accesses the 0.5GB memory segment. The best way to test that
: is to look at game performance. Compare a GTX 980 to a 970 on a game that
: uses less than 3.5GB. Then turn up the settings so the game needs more than
: 3.5GB and compare 980 and 970 performance again.
: ---
: 官方回應出來了
: 簡單來說就是他們的硬體設計執意如此
: "It's by design, not a bug"
: 雖然他們自己說實際上在存取最後0.5GB的效能遞減並不嚴重
: 但是實際上真的會把4GB都塞到炸掉的人應該也大都不是普通人了...
: 到底最後大家買不買帳就(ry
: #ramgate
: edit: 將來源網址縮址 :P
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.114.213.123
※ 文章網址: https://webptt.com/m.aspx?n=bbs/PC_Shopping/M.1422173437.A.9ED.html
1F:推 john0312 : 推. 有Source會更好. 01/25 16:13
※ 編輯: iHakka (140.114.213.123), 01/25/2015 16:47:20
2F:→ mayjan : 很棒 01/25 16:55
3F:推 terry6503 : 推,真的蠻好奇程式有做了哪些是,今天下午寫了一個 01/25 17:15
4F:→ terry6503 : 對GPU記憶體填零的測試,結果還蠻類似的,只是效能 01/25 17:16
5F:→ terry6503 : (數字)沒有他那麼好 01/25 17:16
沒做什麼事情,就把資料從GPU上的記憶體搬到晶片去
只是變作者似乎要避免編譯器優化掉程式碼加個if,但這個if基本上不會成立
然後讓GPU作一點點事情這樣才能量時間,就這樣
cache的那個就是重複拿原來的那個元素,他一定會再cache上所以就這樣
6F:推 kagayama : push 01/25 17:23
※ 編輯: iHakka (140.114.213.123), 01/25/2015 17:30:13
8F:→ coldcolour : 原作者那個750ti跑了最後都會驅動停止回應重開 01/25 17:30
9F:→ coldcolour : 原PO這個不會 但是尾段一樣會掉速 01/25 17:30
10F:→ terry6503 : 我跑兩個都不會驅動停止回應 01/25 17:31
11F:→ terry6503 : 感謝原PO解釋,這樣能幫我了解得更快 01/25 17:33
13F:→ Nafusica : 看不懂。高手在民間。 01/25 19:54
14F:→ terry6503 : 請問樓上L大,如果不關DWM,純用內顯跑OK嗎? 01/25 19:54
15F:→ terry6503 : 我找到關的方法了。因為我的顯示卡平時都在算CUDA 01/25 20:05
16F:→ terry6503 : 所以可以在GPU-Z上看到執行前的ram使用量為0 01/25 20:05
18F:→ terry6503 : 另外有自己弄一個類似的程式,不過不會測L2,結果: 01/25 20:07
20F:→ terry6503 : 結果蠻類似的,都是3200MB開始降。而第二張還有測到 01/25 20:08
21F:→ terry6503 : GTX650Ti(也只用於算CUDA),結果後段速度沒有降 01/25 20:10
嗯!所以我比較懷是OS的問題,在windows上已知的問題是
當GPU要計算又要顯示時跑CUDA本來就會有問題
但是真正的原因是什麼我不知道
※ 編輯: iHakka (140.114.213.123), 01/25/2015 22:30:56
22F:→ terry6503 : 恩恩,又要顯示又要CUDA,結果就是CUDA又慢顯示lag~ 01/26 00:57
23F:→ terry6503 : 現在只能等待Nvidia公布了~ 01/26 00:57
24F:推 smart1008 : 萊特亞大大? 01/26 20:02