作者DMFC (sole)
看板Fortran
標題Re: [問題] 效率
時間Tue Nov 12 00:43:22 2013
※ 引述《Yagyu (近在眼前)》之銘言:
: ※ 引述《DMFC (sole)》之銘言:
: : 貼一部份程式碼,fortran90語法
: do i=1,nx ; do j=1,ny ; do k=1,nz
: csum=sum(coeff(1:np)*cdexp)/Vol
: csumout(i,j,k)=csum
: end do ; end do ; end do
: sum(coeff(1:np)*cdexp)
: 請問這邊是要將整個 coeff(1:23000) 乘上 cdexp 再做 sum 嗎?
: 會這麼問是因為我不確定你未貼上程式碼部分是否還有 np 的 loop
: 如果沒有 np loop, 同時 cdexp 只是個常數,不會隨 nx,ny,nz 變動
: 那可以試著將這部份移出迴圈外, 這樣省得每次 loop 都要重算一遍
: 如果有 np loop, 那請無視我的想法
: 另外輸出的部份
: do i=1,nx
: do j=1,ny
: do k=1,nz
: csumout(i,j,k)=sum(coeff(1:np)*cdexp)/Vol
: end do
: end do
: end do
: do k=1,nz
: do j=1,ny
: do i=1,nx
: csumout(i,j,k)=sum(coeff(1:np)*cdexp)/Vol
: end do
: end do
: end do
: 兩者差異 請參考彭國倫先生的fortran工具書 應該是在陣列章節中的多維陣列那邊
: 沒記錯的話 是跟記憶體存放資料方式有關 這邊變動我想絕對有幫助
謝謝
沒錯~順序影響很大
不過這是因為我手誤
由於我沒法直接貼SOURCE CODE
所以是用手KEYIN
LOOP順序我貼錯了
且~很無奈的
我那個 cdexp 是與 i,j,k 有關
cdexp 非 常數~無法提出
我再貼一次完整的CODE
do iz=0,ngrid(3)-1 ; do iy=0,ngrid(2)-1 ; do ix=0,ngrid(1)-1
xyz(1) = dble(ix)/dble(ngrid(1))
xyz(2) = dble(iy)/dble(ngrid(2))
xyz(3) = dble(iz)/dble(ngrid(3))
atmp = pi2 * (wkiG1*xyz(1) + wkiG2*xyz(2) + wkiG3*xyz(3))
csumout(ix,iy,iz) = sum(coeff(1:nplane)*cdexp(atmp(1:nplane)))/dsqrt(Vol)
end do ; end do ; end do
ngrid(1) ngrid(2) ngrid(3) 都是常數
atmp, wkiG1, wkiG2, wkiG3 都是維度23000(nplane)的大矩陣
Vol, pi2 是常數
cdexp 是 fortran 內有預設的function
意思是對 double precision 的 complex 取 exp
(atmp 是double precision 的 complex)
: : 請問一下
: : 由於資料量不算小
: : 目前測試 nx=ny=nz=47, np=23000
: : 上面貼的部份是需要最久計算的部份
: : 普通執行需要約兩分鐘(測試用參數)
: : 若是把第三行去掉
: : 則可以10秒內結束
: : 可是我就是要把這個資料輸出
: : 才用了一個三維 ARRAY 把資料存起來
: : 然後離開這個 LOOP 後再寫出
: : 如果把 WRITE 寫在 LOOP 內
: : 則情況會更糟
: : 請問有什麼方法可以處理這窘境
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 148.6.26.109
1F:推 gilocustom:cdexp不是標準的內建函數,是你用的編譯器有額外支援。 11/12 01:24
2F:→ DMFC:喔喔喔~~了解 11/12 07:10
3F:推 latinboy: 同樣的運算在回圈內做了很多次阿 11/12 11:02
4F:→ latinboy: wkiG1*xyz(1)如果迴圈執行中沒有變動 應該包在第一層 11/12 11:06
5F:→ DMFC:拉丁兄~你說的沒錯~但那不是重點呀 11/12 16:23
6F:→ DMFC:包在那一層對整體效率的幫助不大 11/12 16:24
7F:→ DMFC:因為我目前的問題是卡在寫入 csumout 11/12 16:24
8F:→ DMFC:忽然有個問題 11/12 16:38
9F:→ DMFC:gilocustom 請問為什麼他不是標準的內建函數呢 11/12 16:39
10F:→ DMFC:我用 gfortran ifort 都有 cdexp 11/12 16:40
11F:→ DMFC:或是這樣問~那裡可以查到"標準內建函數"? 11/12 16:40
12F:→ DMFC:因為我又做了很多測試~我覺得問題是出在 cdexp 11/12 16:41
13F:→ DMFC:請問~如果不這樣寫~要怎麼寫才能處理 11/12 16:41
14F:→ DMFC:具有 double precision 的 complex 的 exponential 呢? 11/12 16:42
15F:→ Cypresslin:聽起來有點矛盾,所以如果不要把第六行的值給到陣列裡 11/12 23:03
16F:→ Cypresslin:直接給到一個變數,e.g. csum,就會變快囉? 11/12 23:03
17F:→ gilocustom:google "fortran standard document"就有很多標準書可 11/12 23:11
18F:→ gilocustom:查閱。 11/12 23:12
19F:→ gilocustom:從歐拉公式著手,用dexp與cmplx就可以兜出cdexp。 11/12 23:27
20F:推 latinboy: 有一個可能,如果你沒有開csumout,compiler說不定直接 11/13 09:47
21F:→ latinboy: 跳過所有計算過程 因為你沒有輸出 所以把他最佳化掉了! 11/13 09:47
22F:→ latinboy: 所以產生了速度提高的錯覺..... 11/13 09:48
23F:→ latinboy: 沒有看到完整的code很拿抓藥 只能猜測 11/13 09:49
24F:→ latinboy: 如果不介意 可以私信討論 以前做最佳化很有心得 11/13 09:50
25F:→ MHG:coeff & atmp both are arry....cdexp & sum are a function.. 11/13 21:59
26F:→ MHG:你在函數理面再作函數運算....要丟哪裡暫存得看COMPILAR而定 11/13 22:01
27F:→ MHG:會慢會慢在這兒吧.....~"~a..... 11/13 22:07
28F:→ DMFC:Cypresslin ~ 是的~所以我理解不能...... 11/14 05:00