作者celestialgod (天)
看板R_Language
标题Re: [问题] grid生样本 避免for回圈
时间Wed Mar 27 23:56:42 2019
1. Vectorize用的mapply,其实还是回圈,而且表现更糟
2. rt没有办法直接执行原PO想要的那种方式,你可以自己用Rcpp刻一个
3. 花时间查资料,有时候不如看文件或是source code来的有效
Vectorize直接看应该不难找到重点
rt可以直接看文件
会看到df degrees of freedom (> 0, maybe non-integer). df = Inf is allowed.
这里很明显告诉你他不能用vector of degrees of freedom....
下面我比较一下几种做法:
n <- 20
theta <- seq(0, 1, len=100) + 0.001 # add small value to avoid warning
for_loop_rt <- function(n, theta) {
stopifnot(length(n) == 1, abs(n - floor(n)) < 1e-8)
X <- matrix(NA, n, length(theta))
for (i in seq_along(theta))
X[ , i] <- rt(n, theta[i])
return(X)
}
library(compiler)
for_loop_rt_compiled <- cmpfun(for_loop_rt)
rt_vectorized <- Vectorize(rt)
library(microbenchmark)
microbenchmark(
sapply = sapply(theta, function(t) rt(20, 1/t)),
vectorized = rt_vectorized(rep(n, length(theta)), theta, ncp = rep(0,
length(theta))),
for_loop = for_loop_rt(n, theta),
for_loop_cmpfun = for_loop_rt_compiled(n, theta)
)
# Unit: microseconds
# expr min lq mean median uq max neval
# sapply 556.8 576.10 597.278 584.30 594.25 1639.1 100
# vectorized 898.6 923.45 1041.179 936.45 961.45 2637.4 100
# for_loop 546.4 557.00 649.992 564.85 571.65 5844.1 100
# for_loop_cmpfun 541.9 558.65 679.358 566.45 573.85 2290.1 100
这结果,很讽刺地告诉你用Vectorize只是让事情更糟而已XDDDDDD
然後反而用for loop最快.... 这件事情其实我有在板上谈过....
matrix操作 R真的很快.... 试着相信R一下^.<
※ 引述《locka (locka)》之铭言:
: 感谢 celestialgod 版主大大提点:
: 以前以为 *apply 家族的函数就已经是向量化(vectorized)的写法了
: 查了资料才发现其实底层背後还是有 for 回圈 (觉得震撼啊...)
: 试试看这样的写法
: theta <- seq(0,1,len=100)
: df <- rep(19,len=100)
: n <- rep(20,len=100)
: vrt <- Vectorize(rt)
: x <- vrt(n=n, df=df, ncp=1/theta)
: 於是 x[,1] ... x[,100] 就是100个 n 等於20 然後对应各自 delta 值的 t 分配样本了
: (但是不知道 df, n 的预先定义有没有意义?)
: 请版上各位高手再指点~ 谢谢大家
: ======
: 补充:
: 但还是有查到 *apply function 的好处:
: 1. 程式易读性
: 2. 会 pre-allocate 向量的记忆体空间
: 2. 只影响区域变数不会改变全域变数
: ref: https://www.r-bloggers.com/vectorization-in-r-why/
: ※ 引述《ntpuisbest (阿龙)》之铭言:
: : n <- 20
: : theta=seq(0,1,len=100)
: : rt(n ,1/theta )
: : 如题
: : 我想要生100组 ,每组都是n=20的t分配样本
: : 只是这100组的theta都不一样
: : 我像上面那样打 只会回传20个样本
: : 并不是我想要的 2000个样本 请问要如何打才能要我要的结果
: : 想避免for loop
: : 用loop的话 我知道怎麽做
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 119.14.59.166
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1553702206.A.0CA.html
※ 编辑: celestialgod (119.14.59.166), 03/28/2019 00:10:33
1F:推 locka: 竟然…!(登愣XDD 03/28 00:04
2F:→ locka: 但还是想请问c大:1. 当初怎麽知道Vectorize 背後用的是 ma 03/28 00:06
3F:→ locka: pply? 03/28 00:06
乖乖在console里面输入mapply就可以看到了XD
4F:→ locka: 2. 如何判断 rt() 没办法用向量化的方式做? 03/28 00:06
5F:→ locka: 还是必须说,大大太神了 03/28 00:06
看文件,df不支援放向量
6F:推 locka: 自问自答1:help("Vectorize")就有了。 03/28 00:16
7F:→ locka: 衍生问题3:所以 Vectorize(f) 只是单纯把又臭又长的mapply 03/28 00:16
8F:→ locka: (f…)包起来,实际上跟直接用mapply比并没有差?03/28 00:16
Vectorize只是帮你用mapply包起来没错,比直接用mapply还慢
因为会有一些overhead...
建议就是直接用回圈包起来,像我上面那样做就好XD
9F:推 locka: df degrees of freedom (> 0, maybe non-integer). df = In03/28 00:26
10F:→ locka: f is allowed.03/28 00:26
11F:→ locka: 不是只是说 df 参数可以是无限大(Inf)的意思吗?还是我理解03/28 00:26
对 (Inf 就normal)
12F:→ locka: 错误?03/28 00:26
13F:→ locka: 哪里有说他不能用vector of degrees of freedom? 03/28 00:26
基本上没写可以就是不行XDD,不然像是n, prob什麽都会写可以输入vector
※ 编辑: celestialgod (119.14.59.166), 03/28/2019 00:39:10
14F:推 locka: 感谢释疑,但又有疑问了(举手) 最後一个 >"<03/28 00:46
15F:→ locka: 所以一般所谓R的向量化到底是什麽意思啊??如果*apply, Ve03/28 00:46
16F:→ locka: ctorize 都不是的话。(先谢谢版主大大一一耐心回覆!)03/28 00:46
我觉得这篇写得很好,先看这篇吧XD
http://alyssafrazee.com/2014/01/29/vectorization.html
※ 编辑: celestialgod (118.163.170.73), 03/28/2019 14:00:37
18F:→ andrew43: 量化的特徵、速度快的(多种)原因、以及何时还是用for 03/28 17:25
19F:→ andrew43: 就好。一点点资工知识应该就可以看懂。 03/28 17:26
20F:→ locka: 楼上这篇跟我上一篇贴的一样啊XD 03/28 17:55
21F:推 andrew43: 喔。XD。 03/28 18:06
22F:→ obarisk: 新版本的R应该不太需要用compiler了。 04/02 14:35
23F:→ celestialgod: 基於测试,还是加进去看看 04/02 15:27