作者Ninja5566 (苦味)
看板C_and_CPP
标题[问题] OpenGL Compute Shader同步不同group
时间Fri Dec 23 04:34:15 2016
开发平台(Platform): (Ex: Win10, Linux, ...)
Win10
编译器(Ex: GCC, clang, VC++...)+目标环境(跟开发平台不同的话需列出)
VS2015
额外使用到的函数库(Library Used): (Ex: OpenGL, ...)
OpenGL 4.3
问题(Question):
我想利用compute shader做一个global index array
假设我每个在 compute shader 中的 work group 有一个 shared variable, 叫做local index array,
array长度固定, 但是里面内含的有效index 数量并非固定, 例如说:
shared int array[1024]; // 每一个work group 自己具有的array
group 1: length = 3, array = 3, 4, 2, -1, -1, -1, -1.... (-1代表无效值)
group 2: length = 5, array = 1, 5, 3, 4, 6, -1, -1, -1,..
group 3: length = 1, array = 2, -1, -1, -1, -1....
因为我想要节省记忆体, 所以我想把这些group的local index array merge到
global index array, 也就是一个Shader Storage Buffer Object
, 并且让他长成以下这个样子:
global index array = 3, 4, 2, 1, 5, 3, 4, 6, 2, -1, -1, .....
此array 为group 依序将自己的 index array 接到前一个group的 array後方
我现在的问题是, 是否有办法做到这件事情? 困难点在於, group 2必须要等到
group 1贴完array(或至少要更新一个offset让group 2 知道他要从哪边开始贴)
,group 3 也要等到group 2 更新玩global index array的offset才知道要从哪里开始
但是 OpenGL 的barrier 只有同步同一个group的thread功能, 并无法同步不同
group, 所以我想请问有甚麽方法可以达到我的要求?
我原本的想法是用一块Shader Storage Buffer Object 来记录说最後一个更新
list offset group的编号是多少, 还没有轮到你的group就在一个while loop
里面等, 但是我在想这个方法是不是没甚麽效率, 会不会有比较好的解法?
请各位前辈帮忙回答一下, 感谢!
程式码(Code):(请善用置底文网页, 记得排版)
补充说明(Supplement):
其实我想实作Forward Plus Rendering, 但是一直不知道linked list
该怎麽做..
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 65.186.78.215
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/C_and_CPP/M.1482438858.A.089.html
※ 编辑: Ninja5566 (65.186.78.215), 12/23/2016 04:34:43
1F:推 Sidney0503: 为何不使用vao vbo? 12/23 08:03
2F:→ Ninja5566: compute shader完全不相容rendering pipeline 12/23 08:16
※ 编辑: Ninja5566 (65.186.78.215), 12/23/2016 09:48:19
※ 编辑: Ninja5566 (65.186.78.215), 12/23/2016 11:49:56
※ 编辑: Ninja5566 (65.186.78.215), 12/23/2016 11:51:28
3F:→ johnjohnlin: 基本上要 2-pass,用 parallel prefix sum 作 12/23 15:30
因为我不是很熟compute shader, 所以这边我是用猜的, 有错请指正
如果用两个pass, local index array势必无法宣告成shared, 因为一旦第一
个pass (算local index array)执行完, shared variable会被回收, 所以
local index array 就必须要存在 SSBO. 但是这样一来做所谓的prefix sum就
没有意义了, 因为
1. 我直接要存取的话就读local index array的SSBO就好, 何必读global index array?
2. 既然local index array都存在SSBO了, 省下记忆体的目标基本上也失败了
※ 编辑: Ninja5566 (65.186.78.215), 12/23/2016 21:58:40
4F:→ johnjohnlin: 第一个 pass 只产生 element 数量,prefix sum 之後 12/23 23:06
5F:→ johnjohnlin: 就是 offset 了,gpu 几乎不会有 global sync thread 12/23 23:07
6F:推 johnjohnlin: 如果不 care order 的话,用 atomic add 应该还行 12/23 23:10
只产生数量会造成计算浪费, 因为要得到数量前必须要先算local index array
有哪些, 所以第二阶段虽然有了正确的offset, 但是还要再算一次local index有哪些
才能update global index array
其实我这边没讲清楚是我的疏忽, 每个rendering cycle中, 每个work group所
产生的 index array 有效长度都会变动, 所以不能假设它们数量是固定的
※ 编辑: Ninja5566 (65.186.78.215), 12/23/2016 23:38:29
※ 编辑: Ninja5566 (65.186.78.215), 12/23/2016 23:41:02