作者f496328mm (123)
看板DataScience
标题Re: [问题] kaggle, featured conpetition的可信度
时间Sat May 19 12:08:55 2018
※ 引述《ANGUS582 (ANGUS )》之铭言:
: 手机发文,排版请多见谅
: 如题,想请问版上各界的大师,对於业界/学界而言,在kaggle中的featured competit
io
: n得名或是拿到top 10%/top5%/top1%/in-prize,大概能代表你的能力在哪呢,换句话
来
: 说,就是kaggle的比赛成绩,在面试(就职或读md/phd)能带给你多少优势?
: 会有这问题是因为,sjv这位kaggle的grandmaster在Corporacion的赛後有提出关於kag
gl
: e的疑虑(https://goo.gl/SwMUjC ,他的文章底部),其中有像官方的data preprocessi
ng
: 以及train/test split,而他在下面回文也有提到,好像学界跟一些研究者也不大重视
ka
: ggle上的成绩。这让我蛮困惑跟紧张的,小弟在去年加入kaggle,玩到现在也有几个to
p1
: 0%
: /top5%,虽然过程中真的有学到不少,但主要还是在思考比赛成绩能不能应用在以後的
升
: 学或职涯,如果真的完全如他所说,那还真的挺令人遗憾的。
: 不知道版上的各位大师们有什麽看法呢?
看你怎麽用kaggle,它有好有坏
就像你说的,kaggle不会接触到资料预处理过程,你不需要会资料库、资料清理、收集、
管理,不需要控制预测时间,甚至不用定义问题,上面这些kaggle都帮你处理好了
你只要『预测』,就算太花时间无法 real time analysis 作为产品上线,跟名次也无关
问题是,上面这些如果都不会, 很难跟业界接轨,只会建model做预测,是无法产品化的
,
业界你还要说服上级,你的预测是好的,不然上面很难相信你,要上线就有难度,这可不
是做做CV就好了,可惜视觉化也不会算在排名上
当然kaggle也有它的好处
kaggler乐於分享自己的作法,这点对初学者很棒,初学者完全不用考虑资料收集清理的
事,打到前面也很有成就感
如果一开始就做 data clean ,可能就没人想来这块了XD
在kaggle上,你可以接触各种问题,有非常不同的data给你玩,你进入的公司,可能只专
注在某个问题上,data比较局限
而当你把 data 收集好清理完後,可以直接参考kaggle上前几名的方法,应用在你的问题
上,可以大大减少自己去做 feature engineering、建 model 的时间
kaggle目前已经累积非常多问题的解法,在多样性方面非常棒,作为参考是个不错的平台
,可以加以修改再套用到自己的产品上
最後,回到你的问题上,对於升学或职涯,单纯只有kaggle是不够的,资料科学可不只有
建 model 做预测,你还有一大堆技能树要点
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.137.232.33
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1526702937.A.E50.html
※ 编辑: f496328mm (114.137.232.33), 05/19/2018 12:10:07
1F:推 sma1033: 这篇回文讲的很好,建Model真的只是资料科学的一小部分 05/19 16:23
2F:推 CVPR: kaggle也有脏资料啊,我打过label错的training data,跟重复 05/19 17:28
3F:→ CVPR: 的training data 05/19 17:28
4F:→ abc2090614: kaggle的资料不够脏 不过有练总能帮助思考 05/19 22:18
5F:→ baseguard: 初学者打kaggle还是可以学到很多的 05/20 17:30