作者f496328mm (123)
看板R_Language
标题[分享] Kaggle Bosch 生产线分析 74名, 前6%
时间Mon Jun 12 16:55:33 2017
给对资料分析有兴趣的朋友,一个参考的方向,
我目前还在学习中,所以分享一些过程,有错也请多多指教
----------------------------------------------------------
我的 CODE 是用 R 写的,因为使用parallel,必须在 linux 环境下才能执行
https://github.com/f496328mm/kaggle_Production_Line
问题主要是 生产线分析 需要预测该产品是 良品 or 不良品
详细过程我都写在 github 上,
由於我没有相关经验,部分方法参考 kaggle 的 kernel ,
文笔可能不够好,如果有问题可以直接寄信给我
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 134.208.26.102
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1497257737.A.19D.html
1F:推 andrew43: 感谢分享! 06/12 17:44
2F:推 jason91818: 推推 06/12 19:06
3F:推 kenny914: 感谢分享!! 06/12 23:35
4F:→ a78998042a: 有分享有推 06/13 00:57
5F:推 penolove: 推, 想问怎麽不比 正在进行的比赛呢 06/13 01:41
6F:推 zardabab: kaggle前100名,这真的很厉害~ 06/13 08:30
蛮多人问我为什麽不比真的比赛QQ
说实话 真的比赛我可能做不到这样的结果
我做这些主要是因为
1. 我先从我有兴趣的问题学习
2. 当前的比赛有时间压力,比赛时间长度大多都是2~3个月,
事实上我几乎都超过这些时间,不过多做几个问题後,速度有变快
如果大家看过我参考的kernel,应该会发现,对方的结果比我好,
那为什麽要看我的文章呢?
有几点我稍微说明:
1. 在 numeric 资料中,对方直接从900个变数中取10个,
但是并没有告知"为什麽"是这10个,而我有说明我最後如何选择
2. 在对 date 进行的 Feature Engineering (1) ,
对方是使用 all and L3 生产线资料,进行特徵工程,但是为什麽选这些?
实际上生产线有 L0 L1 L2 L3
而我是使用 all, L0, L1, L2, L3,这样感觉比较合理
主要想法是,先尽可能制造 feature,再去做 feature selection,
3. 参数部分,可能不是这麽重要,不过也稍微提一下
(1): 他 nrounds 设定为 65, why? 不过这其实不是重点
(2): 他使用 2700 当作分界点,简单来讲,他认为在 test data 中
只有 2700 个不良品,但是实际上在 train data 中,
有 6879 不良品,差异颇大,所以并不清楚为何是 2700 ,
而我是用 0.25 当作分界点,我是进行测试 0.1 -> 0.2 -> 0.25
实际上我还差得很远,就慢慢累积经验了,有些问题也要请大大多多指教
※ 编辑: f496328mm (134.208.26.105), 06/13/2017 11:17:38
7F:推 sxskr1001: 推 06/13 10:59
8F:推 Luluemiko: 推 06/13 13:30
9F:推 bobju: 路过推 06/15 23:21
10F:推 cuqote4: 推 06/27 16:26