作者filialpiety (filialpiety)
看板DataScience
标题[问题] 很多很蠢的问题?
时间Fri Apr 5 14:18:51 2019
抱歉,重新改写,前几天生病有工作,心有余了而不足,头脑有点昏又焦急,在这更新一
下,希望能帮助以後有同样困扰的人。
小弟目前正在学习资料分析,想到kaggle 练功,所以在这想请问几个问题......麻烦各
位了
首先是统计软体的问题,请问SAS、RStdio、Python可以跑多大的资料?
第二个是bigquery,如果用私服器跑资料分析,一定得用linux吗? 因为我看到RSudio s
erver只能用linux...最主要是因为前阵子有兴趣的变项很多都在biqquery,所以才想挑
战看看
第三个是linux,如果我想操作linux,是否需要把电脑重灌作业系统?
又或者是买新的一台新的电竞桌电(强的cpu、gpu、记忆体)?
因为之前用mac,结果sas不能用,今年一月才入手了一台七万多的Thinkpad,现在已经有
两台笔电了!所以很矛盾QAQ
抱歉 问题这麽多...最近真的很焦虑
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.77.79.151
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1554445133.A.05C.html
1F:推 egoweaver: 在本机上跑不需要 RStudio server,单纯使用的状况能跑04/05 14:46
2F:→ egoweaver: 的资料大小受你的记忆体大小限制。04/05 14:46
3F:→ egoweaver: 要上 Google Cloud 跑 bigquery 的话跟你本机的作业系04/05 14:47
4F:→ egoweaver: 统没有关系,Rstudio server 也是要部署在伺服器端。04/05 14:47
5F:→ egoweaver: Google 有官方文件说明怎麽在他们的主机部署 Rstudio04/05 14:49
7F:推 st1009: 其实你标题可以取跟问题本身有关一点,然後有种技术叫双系04/05 15:13
8F:推 st1009: 统,windows+linux大赞04/05 15:13
9F:推 st1009: 买新电脑CP应该不会比灌双系统高,如果你电脑容量不够,也04/05 15:16
10F:推 st1009: 可以用行动硬碟灌linux,那颗硬碟带到哪,linux就到哪04/05 15:16
11F:→ f496328mm: 第一,先把 SAS 删掉,贵又只在特定领域有用 04/05 15:47
12F:→ f496328mm: R 跟 python,超过 10gb or 上亿笔 data 都可04/05 15:48
13F:→ f496328mm: linux 好用多了,windows 简直烂04/05 15:48
14F:→ f496328mm: mac 笔电不考虑,记忆体小,cp 值超低 04/05 15:49
15F:→ nohunt: 还有个办法 用VM开Linux 04/05 20:26
16F:→ sma1033: MAC缺点好像是同价位硬体都弱一截04/05 20:59
17F:→ sma1033: 基本上只要硬体够塞,理论上没到TB等级的资料没问题04/05 20:59
18F:→ sma1033: 至少我用py自己跑几百G都还满OK的(完全看硬体等级啦)04/05 21:00
19F:→ truehero: KAGE? KAGGLE ?如果是KAGGLE就直接用KAGGLE KERNEL....04/06 00:23
20F:→ truehero: 或是上COLAB就好 ...04/06 00:23
21F:推 sunkao1035: 当然是在server或云上跑分析呀04/06 01:37
※ 编辑: filialpiety (223.138.66.254), 04/06/2019 22:02:51
22F:→ filialpiety: 感谢楼上各位大大的协助,我会努力的 04/06 22:03
23F:→ sxy67230: 如果是实验或比赛,用kernel或是Colab就好了。我自己的 04/08 10:37
24F:→ sxy67230: 经验是python中有很多批量处理的方式,像是generator或 04/08 10:37
25F:→ sxy67230: 是pandas有专门给批量处理的生成方式,相对他就只占固定 04/08 10:37
26F:→ sxy67230: 的记忆体,至於sklearn也有对应增量学习的方法,线性的s 04/08 10:37
27F:→ sxy67230: vm可以用SGD改成hinge loss,非线性的话,目前没有效的 04/08 10:37
28F:→ sxy67230: 方式处理(可以去听吴恩达教授的课,他有说明),至於DL 04/08 10:37
29F:→ sxy67230: 本身就有batch的方式处理了。软体解决的方案都考虑过, 04/08 10:37
30F:→ sxy67230: 在去处理硬体。详细的软体写法可以去python 版问 04/08 10:37
31F:→ sxy67230: 基本上,colab的cpu跟gpu都很够了,除非你的服务是要上 04/08 12:52
32F:→ sxy67230: 线的,要不然纯粹开发阶段,Colab就很爽啦,到哪都可以 04/08 12:52
33F:→ sxy67230: 开发,只要一条网路线就好了,我都在用文书机写code了 04/08 12:52
34F:→ sxy67230: 最後就是还真的记忆体不够用,记得检查哪些记忆体是可以 04/08 13:03
35F:→ sxy67230: 释放的,哪些可以重复使用,不要被高阶语言跟硬体惯坏, 04/08 13:03
36F:→ sxy67230: 系统释放跟管理系统资源是程式设计者的本分,创了一堆无 04/08 13:03
37F:→ sxy67230: 用的array当然记忆体会不够用 04/08 13:03