作者cckk3333 (皓月)
看板DataScience
标题Re: [问题] kaggle, featured conpetition的可信度
时间Mon Dec 3 00:57:48 2018
原文恕删
关於这件事情,小弟有一点小小的想法
背景:
小弟以前在学期间有玩了一下Kaggle
之後就没有认真比过比赛
目前在业界4年的时间(两家公司)
我觉得这件事情其实非常看产业,大家想想语音辨识、电脑视觉
其实 DL 在做的事情也就是把准度提高
如果今天办了一个比赛 本来没有 DL 的技巧忽然有了
不要说 DL 就连想到 DL 的某个新技巧
那你会说比赛的意义不大 或着 第一名的价值不高吗
依照我以前的经验 像是用 GBDT 的 leaf 当作 encoding的技巧
或是一些奇奇怪怪的模型 其实都蛮有用的
另外资料其实也是蛮可贵的
虽然大部分的资料会经过一定程度的加密
不过大概知道资料的形式 跟 相关产业想要做甚麽 其实也是非常不错的
不过我所待过的两个业界 应该都是线性模型为主
而资料科学家在做的事情也远不只比预测变准
我举常见数位广告公司的 retargeting 收费模式为例
数位广告公司是以点击数、
点击所带来的订单数、
点击所带来的客单价总和的百分率来收费
---------------------------------------------------
这边我们简单用点击数来讲
感谢前人的努力跟 google rtb 的平台
每个人对於每个广告都只要预估准确的点击率,就可以有完美的最佳策略
所以预估点击率可能是全公司最重要的事情
如果你一来可以把这个预测超好可能可以解决公司一大半的问题
问题是通常不行,更通常你不知道什麽叫超好
而且不够好之前,你可能预测准度上升公司的获利没有跟着上升
做为一个 Data Scientist 你除了模型之外
还要思考串接各种没有的 feature
像是 把cookie串起来 建立资料库 或着 花钱买资料的可能性
或者你直接把cost换掉
(RTB是一个竞价输就会没有label的环境)
像这样的需求还有很多
我这边随便举
点击率 转换率 客单价 串联手机跟电脑使用者 整天的流量 这些都需要模型
今天单方面提高点击率 搞不好 转换率 客单价 的模型还会变差
整体的最佳化是非常困难的问题
但是你说如果你可以运用 Kaggle 的技术 让点击率变得超高
我想也是蛮有价值的
而且几年前也蛮多 Kaggle 的比赛是有开 offer 的
所以我想业界某种程度也是承认的
最後
我其实觉得我待过的两家公司
如果你是拿到大比赛(conference 或是相关产业)的前 5 %
我想还是会给一些credit至少面试机会一定不会少
(DataScientist DataEngineer需要完全不同的技能树)
但是如果你是那些长期摆在那边供人学习的比赛
甚至还有人把解法写在讨论区
我实在不知道写在履历上想表达什麽
其实我只是想发表一下对这个产业的牢骚而已XD
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.166.0.168
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1543769871.A.791.html
1F:推 michellehot: 推 12/04 11:38
2F:推 ANGUS582: recruiting类型跟邀请赛已经好久没出现了,还有,我想 12/15 04:56
3F:→ ANGUS582: 应该是不会有人把playground或是事後参加已经结束的比 12/15 04:56
4F:→ ANGUS582: 赛等等的写在履历上吧XD 12/15 04:56