DataScience 板


LINE

小弟文组鲁宅,也不是资料科学专业,纯疑问请大大们开示 小弟的公司每个月会有几十亿笔user行为资料 也根据这些行为产出许多模型做分群与预测 但做model的同事都是以抽样的方式建模 每次他们在说模型的精准度时不禁心想,大数据的精随不是在於蒐集了母体资料吗? 选择抽样而不是母体全下去train的原因是什麽? 小弟想到的原因有下: 1.跑母体的时间太久、硬体资源太大 但能撑起这样规模的服务,硬体资源应该足够? 2.使用的工具无法胃纳母体 听过用R、python来跑的,是否工具不足以胃纳母体资料? 3.人员受训方式 是否人员一直以来都是受"要建模就先采样"的训练,所以习惯采样? 以上原因是否为真? 还有其他原因吗? --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.26.106.109 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1561606070.A.81F.html
1F:推 thefattiger: 你真的有母体资料的话,根本不需要建模阿 06/27 11:34
2F:→ thefattiger: 大数据在大也是母体的沧海一粟 06/27 11:34
3F:→ thefattiger: *再 06/27 11:34
4F:→ sleepwu: 不好意思没说清楚 我说的母体就是公司蒐集到的全部资料 06/27 11:43
5F:→ sleepwu: 资料科学家用公司的母体再抽样去建模 06/27 11:44
6F:推 jiyu520: 参考李宏毅教授 ml-lecture 01 https://is.gd/KrUMeH 06/27 12:25
7F:推 hipitcher: 你不可能拥有母体 除非你是上帝 06/27 12:25
8F:→ f496328mm: 先抽样做 demo 吧,总不可能刚开始data就全丢下去 06/27 13:28
9F:→ f496328mm: 假设10亿笔,train 一次要1小时 06/27 13:28
10F:→ f496328mm: 那当然是先拿部分 data 做模拟 06/27 13:28
11F:→ f496328mm: 最後 feature, model 都找完了,再丢所有 data 06/27 13:29
12F:→ sleepwu: f大 所以是训练时节省时间跟硬体才抽样吗 06/27 14:52
13F:→ poiuy8568: 做训练一次下去要跑很久,而且容易有overfitting。此外 06/27 17:13
14F:→ poiuy8568: 也跟资料特性有关,搞不好他们是做stratified sampling 06/27 17:13
15F:→ poiuy8568: 之类的。原因很多 06/27 17:13
16F:→ sxy67230: 全部下去一起train你怎麽知道泛化能力会如何?机器学习 06/27 20:07
17F:→ sxy67230: 是希望能尽量找到一个算法通用,全部下去train你完全不 06/27 20:07
18F:→ sxy67230: 知道之後进来的新资料会不会fit啊。 06/27 20:07
19F:→ sxy67230: 而且有可能fit你们公司全部的数据,准确度都很高,但是 06/27 20:09
20F:→ sxy67230: 实际上是overfit,连样本的错误部分机器都一起学习了, 06/27 20:09
21F:→ sxy67230: 这样机器学习完全就没意义了 06/27 20:09
22F:→ sleepwu: 原来还有过度学习的问题 06/28 00:10
23F:→ sxy67230: 对,而且还有可能你们公司的样本有不均衡的问题,随机 06/28 07:49
24F:→ sxy67230: 根据你们公司的类别抽样加上训练不同的模型做集成其实是 06/28 07:49
25F:→ sxy67230: 可以增加总体模型的鲁棒性的 06/28 07:49
26F:→ sxy67230: 一般你看到市面上成熟的产品多半都会去做集成,联合多 06/28 07:52
27F:→ sxy67230: 个模型提升效果 06/28 07:52
28F:→ sleepwu: 感恩 06/28 10:45
29F:→ GTX9487: 建议搜寻 霍金学生&组合爆炸 07/21 20:24







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP