作者sleepwu ( )
看板DataScience
标题[问题] 为什麽大数据要取样?
时间Thu Jun 27 11:27:48 2019
小弟文组鲁宅,也不是资料科学专业,纯疑问请大大们开示
小弟的公司每个月会有几十亿笔user行为资料
也根据这些行为产出许多模型做分群与预测
但做model的同事都是以抽样的方式建模
每次他们在说模型的精准度时不禁心想,大数据的精随不是在於蒐集了母体资料吗?
选择抽样而不是母体全下去train的原因是什麽?
小弟想到的原因有下:
1.跑母体的时间太久、硬体资源太大
但能撑起这样规模的服务,硬体资源应该足够?
2.使用的工具无法胃纳母体
听过用R、python来跑的,是否工具不足以胃纳母体资料?
3.人员受训方式
是否人员一直以来都是受"要建模就先采样"的训练,所以习惯采样?
以上原因是否为真? 还有其他原因吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.26.106.109 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1561606070.A.81F.html
1F:推 thefattiger: 你真的有母体资料的话,根本不需要建模阿 06/27 11:34
2F:→ thefattiger: 大数据在大也是母体的沧海一粟 06/27 11:34
3F:→ thefattiger: *再 06/27 11:34
4F:→ sleepwu: 不好意思没说清楚 我说的母体就是公司蒐集到的全部资料 06/27 11:43
5F:→ sleepwu: 资料科学家用公司的母体再抽样去建模 06/27 11:44
7F:推 hipitcher: 你不可能拥有母体 除非你是上帝 06/27 12:25
8F:→ f496328mm: 先抽样做 demo 吧,总不可能刚开始data就全丢下去 06/27 13:28
9F:→ f496328mm: 假设10亿笔,train 一次要1小时 06/27 13:28
10F:→ f496328mm: 那当然是先拿部分 data 做模拟 06/27 13:28
11F:→ f496328mm: 最後 feature, model 都找完了,再丢所有 data 06/27 13:29
12F:→ sleepwu: f大 所以是训练时节省时间跟硬体才抽样吗 06/27 14:52
13F:→ poiuy8568: 做训练一次下去要跑很久,而且容易有overfitting。此外 06/27 17:13
14F:→ poiuy8568: 也跟资料特性有关,搞不好他们是做stratified sampling 06/27 17:13
15F:→ poiuy8568: 之类的。原因很多 06/27 17:13
16F:→ sxy67230: 全部下去一起train你怎麽知道泛化能力会如何?机器学习 06/27 20:07
17F:→ sxy67230: 是希望能尽量找到一个算法通用,全部下去train你完全不 06/27 20:07
18F:→ sxy67230: 知道之後进来的新资料会不会fit啊。 06/27 20:07
19F:→ sxy67230: 而且有可能fit你们公司全部的数据,准确度都很高,但是 06/27 20:09
20F:→ sxy67230: 实际上是overfit,连样本的错误部分机器都一起学习了, 06/27 20:09
21F:→ sxy67230: 这样机器学习完全就没意义了 06/27 20:09
22F:→ sleepwu: 原来还有过度学习的问题 06/28 00:10
23F:→ sxy67230: 对,而且还有可能你们公司的样本有不均衡的问题,随机 06/28 07:49
24F:→ sxy67230: 根据你们公司的类别抽样加上训练不同的模型做集成其实是 06/28 07:49
25F:→ sxy67230: 可以增加总体模型的鲁棒性的 06/28 07:49
26F:→ sxy67230: 一般你看到市面上成熟的产品多半都会去做集成,联合多 06/28 07:52
27F:→ sxy67230: 个模型提升效果 06/28 07:52
28F:→ sleepwu: 感恩 06/28 10:45
29F:→ GTX9487: 建议搜寻 霍金学生&组合爆炸 07/21 20:24