作者ANGUS582 (ANGUS )
看板DataScience
标题Re: [问题] kaggle, featured conpetition的可信度
时间Sun May 20 00:29:24 2018
原文恕删
感谢outrunner与f496328mm两位回文,以下我会我的疑虑再打的清楚一点
久仰outrunner的大名。首先,先说声抱歉,我对wow完全没有概念= =,我的年纪还没
有这麽大,但我想我应该抓的到你要表达的意思。回到正题,我一开始的设想是,接
触这行的人,基本上来说都会有听过kaggle,而发这篇文的用意在於,收集一下从事这
行的人的想法,同时也想知道对於一个"面试官"来说,在看到面试者具有良好(top5%
或是in-prize之类的)成绩的时候,面试官会认为面试者具有什麽样的能力/优势,或是
能为他带来多少程度的加分。(其中特别想知道申请国外ms的状况,因为这就是我面临
的处境= =)
至於kaggle的问题,除了我提到的,其他较为"结构性"的大概还有发生data leakage
或是比赛课题本身根本就是lottery的状况,参赛者方面来说的还有像是用public
kernel提交、多重帐号提交、硬体差异等等所带来的影响公信力的问题,上述三个基本
状况每场比赛都有,甚至还有在比赛结束前几天发一篇超高分的public kernal来摧毁
leaderboard的这种鸟事也有。不难想像如果有人将kaggle成绩奉为圭臬,他会受到
多少质疑。
另外,我了解要做从事这行要学的东西很多是kaggle给不了你的,但我在文中其实没有
提到kaggle不需要自己做data prepocessing,那部份我指的是,官方为了维护比赛本身
所要做出的措施,像是防止data leakage之类的,这种鸟事不胜其数,WSDM2018、
talkingData第一次办的比赛等等,应该不难想像要是比赛因此被摧毁,参赛者会有多赌
烂,上次我举的corporacion favorita,那个还只是小事情而已,毕竟top10里也有很多
人忽略。
而基本上比赛提供的资料虽然都还算友善,也的确是不需要过度的处理,但还是有不少
的特例,像是:
Sberbank的NA地狱(
https://goo.gl/8wjRg7)
Zillow的一堆栏位也是有不少问题需要你一个一个慢慢弄等等(
https://goo.gl/VkfUyv)
而为了因应花时间的问题或因应主办方的要求,也有kernal-competition的出现,像
是Mercari(
https://goo.gl/gomuy3)那次,而且近期"frankenstein ensemble"式的优
胜解法也很少出现了。而关於收集资料的部份,有时官方也会允许你使用external data
我很认同"建模只是资料科学的一隅"的这观点,我有听说过一个说法是kaggle比赛就
像是做在车里游览非洲大草原,而真实世界的任务,则像是把你一个人肉身放在大草原
上求生存。但其实藉由参与其中,跟着比赛的timeline跑,真的能体会蛮多课堂学不到
的事情。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.230.110.77
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1526747366.A.81A.html
1F:→ abc2090614: 像你已经作了几个10% 5% 再纯练kaggle下去意义不大 05/20 04:00
2F:→ abc2090614: 不如去练soft skills 05/20 04:00
3F:→ abc2090614: 个人认为现实工作最难的是"要"跟"理解"资料 05/20 04:01
4F:→ abc2090614: 如果在kaggle上认识些人能讨论则不错 05/20 04:02
5F:→ abc2090614: 我觉得作kaggle有他的好处在 但所谓"优势" 其实是 05/20 04:32
6F:→ abc2090614: 要看你怎麽分配 同样是100小时 可以拿去练kaggle 05/20 04:33
7F:→ abc2090614: 可以去network 练表达能力 去练写production code 05/20 04:33
8F:→ abc2090614: 都是用法. 要跳脱出分数的思维 05/20 04:34
9F:→ abc2090614: 当然都比花100小时逛ptt或看电视滑手机好就是 05/20 04:35