作者DMFC (sole)
看板Fortran
标题Re: [问题] 效率
时间Tue Nov 12 00:43:22 2013
※ 引述《Yagyu (近在眼前)》之铭言:
: ※ 引述《DMFC (sole)》之铭言:
: : 贴一部份程式码,fortran90语法
: do i=1,nx ; do j=1,ny ; do k=1,nz
: csum=sum(coeff(1:np)*cdexp)/Vol
: csumout(i,j,k)=csum
: end do ; end do ; end do
: sum(coeff(1:np)*cdexp)
: 请问这边是要将整个 coeff(1:23000) 乘上 cdexp 再做 sum 吗?
: 会这麽问是因为我不确定你未贴上程式码部分是否还有 np 的 loop
: 如果没有 np loop, 同时 cdexp 只是个常数,不会随 nx,ny,nz 变动
: 那可以试着将这部份移出回圈外, 这样省得每次 loop 都要重算一遍
: 如果有 np loop, 那请无视我的想法
: 另外输出的部份
: do i=1,nx
: do j=1,ny
: do k=1,nz
: csumout(i,j,k)=sum(coeff(1:np)*cdexp)/Vol
: end do
: end do
: end do
: do k=1,nz
: do j=1,ny
: do i=1,nx
: csumout(i,j,k)=sum(coeff(1:np)*cdexp)/Vol
: end do
: end do
: end do
: 两者差异 请参考彭国伦先生的fortran工具书 应该是在阵列章节中的多维阵列那边
: 没记错的话 是跟记忆体存放资料方式有关 这边变动我想绝对有帮助
谢谢
没错~顺序影响很大
不过这是因为我手误
由於我没法直接贴SOURCE CODE
所以是用手KEYIN
LOOP顺序我贴错了
且~很无奈的
我那个 cdexp 是与 i,j,k 有关
cdexp 非 常数~无法提出
我再贴一次完整的CODE
do iz=0,ngrid(3)-1 ; do iy=0,ngrid(2)-1 ; do ix=0,ngrid(1)-1
xyz(1) = dble(ix)/dble(ngrid(1))
xyz(2) = dble(iy)/dble(ngrid(2))
xyz(3) = dble(iz)/dble(ngrid(3))
atmp = pi2 * (wkiG1*xyz(1) + wkiG2*xyz(2) + wkiG3*xyz(3))
csumout(ix,iy,iz) = sum(coeff(1:nplane)*cdexp(atmp(1:nplane)))/dsqrt(Vol)
end do ; end do ; end do
ngrid(1) ngrid(2) ngrid(3) 都是常数
atmp, wkiG1, wkiG2, wkiG3 都是维度23000(nplane)的大矩阵
Vol, pi2 是常数
cdexp 是 fortran 内有预设的function
意思是对 double precision 的 complex 取 exp
(atmp 是double precision 的 complex)
: : 请问一下
: : 由於资料量不算小
: : 目前测试 nx=ny=nz=47, np=23000
: : 上面贴的部份是需要最久计算的部份
: : 普通执行需要约两分钟(测试用参数)
: : 若是把第三行去掉
: : 则可以10秒内结束
: : 可是我就是要把这个资料输出
: : 才用了一个三维 ARRAY 把资料存起来
: : 然後离开这个 LOOP 後再写出
: : 如果把 WRITE 写在 LOOP 内
: : 则情况会更糟
: : 请问有什麽方法可以处理这窘境
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 148.6.26.109
1F:推 gilocustom:cdexp不是标准的内建函数,是你用的编译器有额外支援。 11/12 01:24
2F:→ DMFC:喔喔喔~~了解 11/12 07:10
3F:推 latinboy: 同样的运算在回圈内做了很多次阿 11/12 11:02
4F:→ latinboy: wkiG1*xyz(1)如果回圈执行中没有变动 应该包在第一层 11/12 11:06
5F:→ DMFC:拉丁兄~你说的没错~但那不是重点呀 11/12 16:23
6F:→ DMFC:包在那一层对整体效率的帮助不大 11/12 16:24
7F:→ DMFC:因为我目前的问题是卡在写入 csumout 11/12 16:24
8F:→ DMFC:忽然有个问题 11/12 16:38
9F:→ DMFC:gilocustom 请问为什麽他不是标准的内建函数呢 11/12 16:39
10F:→ DMFC:我用 gfortran ifort 都有 cdexp 11/12 16:40
11F:→ DMFC:或是这样问~那里可以查到"标准内建函数"? 11/12 16:40
12F:→ DMFC:因为我又做了很多测试~我觉得问题是出在 cdexp 11/12 16:41
13F:→ DMFC:请问~如果不这样写~要怎麽写才能处理 11/12 16:41
14F:→ DMFC:具有 double precision 的 complex 的 exponential 呢? 11/12 16:42
15F:→ Cypresslin:听起来有点矛盾,所以如果不要把第六行的值给到阵列里 11/12 23:03
16F:→ Cypresslin:直接给到一个变数,e.g. csum,就会变快罗? 11/12 23:03
17F:→ gilocustom:google "fortran standard document"就有很多标准书可 11/12 23:11
18F:→ gilocustom:查阅。 11/12 23:12
19F:→ gilocustom:从欧拉公式着手,用dexp与cmplx就可以兜出cdexp。 11/12 23:27
20F:推 latinboy: 有一个可能,如果你没有开csumout,compiler说不定直接 11/13 09:47
21F:→ latinboy: 跳过所有计算过程 因为你没有输出 所以把他最佳化掉了! 11/13 09:47
22F:→ latinboy: 所以产生了速度提高的错觉..... 11/13 09:48
23F:→ latinboy: 没有看到完整的code很拿抓药 只能猜测 11/13 09:49
24F:→ latinboy: 如果不介意 可以私信讨论 以前做最佳化很有心得 11/13 09:50
25F:→ MHG:coeff & atmp both are arry....cdexp & sum are a function.. 11/13 21:59
26F:→ MHG:你在函数理面再作函数运算....要丢哪里暂存得看COMPILAR而定 11/13 22:01
27F:→ MHG:会慢会慢在这儿吧.....~"~a..... 11/13 22:07
28F:→ DMFC:Cypresslin ~ 是的~所以我理解不能...... 11/14 05:00