R_Language 板


LINE

: 因此我的問題如下: : : (1) R 的迴圈為何可以慢成這樣? 我知道有研究過底層的高手理解來龍去脈,但對於 : 新手而言,有沒有什麼簡單的說法可以 give some insight? : : -- :



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.127.14.10
: ※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1438686610.A.4DE.html : → Wush978: (1) R對記憶體的使用上比較沒效率,所以用for寫的演算法 08/04 19:52 : → Wush978: 很容易寫出沒有重複利用記憶體的寫法,導致記憶體管理拖 08/04 19:53 : → Wush978: 累效能 08/04 19:53 : → celestialgod: 我看到的是要做很多直譯動作而浪費掉時間~~~ 08/04 19:56 : → celestialgod: 簡單說明就是有很多不必要的動作在迴圈中被使用 08/04 19:57 : → celestialgod: 出處:http://tinyurl.com/a7l7zyb 08/04 19:58 我覺得這邊有很多地方可以討論。 首先,我覺得大部分的狀況,直譯帶來的overhead是可以忍受的: 根據出處的例子,一個1e5的迴圈跑0.37秒: 在我的電腦,1e7大概跑4 ~ 5秒左右。 ``` system.time({ I = 0 while (I < 1e7) { 10 I = I + 1 } }) ``` 在一般的狀況下,這樣的overhead應該是可接受的。 透過compiler套件,也可以簡單改善直譯帶來的overhead ps. 直譯的意思是,把上述的R 程式碼,轉換成CPU的操作指令。 在C 等編譯式語言,程式碼會直接轉換成CPU 的操作指令後才能執行。 R 、Python、PHP等直譯式語言,則是在使用者按下Enter之後才轉換 程式碼成CPU 的操作指令,這樣的動作會導致執行的效能比較慢。 而牽涉到記憶體操作的迴圈,如: ``` x <- c() system.time({ for(i in 1:1e5) { x <- append(x, length(x)) } }) ``` 才1e5次就要12秒,而且慢的幅度是以平方的規模成長,這類的效應很容易讓你的執行 時間在迴圈次數不大的狀況下成長到數天或數星期。 最後給一個也是和記憶體相關的範例: ``` mat <- matrix(1, 100, 100) tracemem(mat) system.time({ for(i in 1:1e2) { for(j in 1:1e2) { mat[i,j] <- i + j } } }) system.time({ for(i in 1:1e2) { for(j in 1:1e2) { tmp <- mat tmp[i,j] <- i + j } } }) ``` 這段程式碼是一個顯示copy on write導致R 複製矩陣的範例。 一開始tracemem函數是讓R 告訴你說:「R 正在複製mat的內容」 第一個system.time有做write in place, 所以mat沒有被複製,執行時間只有0.01秒 而第二個system.time在對tmp做操作時會觸發copy on write,所以執行時間變成0.65秒 而這個變慢的速度和mat有關。 所以你可以想像當你處理很大的資料時,一些暫存物件 會很顯著拖慢你的迴圈! 就我個人的經驗, 通常會讓你的迴圈跑到分鐘以上,都是因為你的函數有牽涉到大量記憶體的存取。 另一個我這裡沒說明的,是演算法的複雜度。有時候我們會寫出複雜度為O(n^2)以上的 R 函數而不自知,這除了去學一點演算法,以及了解R 如何配置記憶體之外,也沒有帝 王之路了。 最後,我覺得celestialgod大大貼的連結,下面有人給的文章寫的很好: R Help Desk How Can I Avoid This Loop or Make It Faster? by Uwe Ligges and John Fox <https://www.r-project.org/doc/Rnews/Rnews_2008-1.pdf> 這兩位作者都是R 界的大大,他們給出的看法也非常非常的中肯。 文中對於Loop的看法是: Loops! > Many comments about R state that using loops is a > particularly bad idea. This is not necessarily true. In > certain cases, it is difficult to write vectorized code, > or vectorized code may consume a huge amount of > memory. Also note that it is in many instances much > better to solve a problem with a loop than to use re- > cursive function calls. 裡面許多對撰寫Loop的建議都是很棒的。 細節就麻煩你去讀原文了。 ps. 如果你有興趣的話,很歡迎翻譯或節錄重點,貼回來本版。 R 版非常歡迎版友能在這裡成長的同時,回饋你的經驗給R 版。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.60.59
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1438698401.A.A59.html ※ 編輯: Wush978 (1.34.60.59), 08/04/2015 22:27:37 ※ 編輯: Wush978 (1.34.60.59), 08/04/2015 22:28:14
1F:→ celestialgod: loops那篇在很多R速度的討論可以看到 08/04 22:35
2F:→ celestialgod: 那篇的建議非常實用! 08/04 22:35
3F:→ cywhale: 實用推 以前避寫loop 後來發現耗用大量記憶體真的沒較快 08/05 09:02







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Soft_Job站內搜尋

TOP