作者lovdkkkk (dk)
看板Soft_Job
标题Re: [请益] 该点哪些技能?
时间Thu Feb 8 10:48:53 2018
个人之前研究所刚好也是念资料探勘、机器学习的,
一点看法
演算法 OS
要大概能估算运算次数、资料所需储存空间
除非公司超级有钱, 可以给你满满的记忆体
或者超级悠闲, 可以放给它跑十天半个月
不过就算这样还是不能太两光, 弄到要几 T 空间或跑上年...
Scala (for Spark)
虽然有 SparkR 可以用, 但印象中速度差很多,
要用 Spark 的话可以考虑学个 Scala
可是直上 Scala 有点虐...个人建议 JAVA -> Scala
当然若 R 效能有大跃进, 或者 R 可以很方便转 Scala 就不需要了
"资料来源" 的验证...欸?
在研究所时期, 有很多固有知名的公开资料可以拿来跑,
但出来工作後很囧的一件事情是,
资料来源 "不一定" 可靠
比方假设是要分析电商网站的 GA (Google Analytics) 资料好了,
有可能一个不小心, 攻城狮会在页面多次载入 GA,
造成所纪录的资料严重失真
也有可能本身操作流程上, 就是会写入多余的、重覆的资料
所以有必要的话, 可能得自己检查记录原始资料的过程有没有问题,
比方可能需要有透过浏览器开发者工具检查 request 有没有乱发,
或有个乾净的独立环境能让你单独操作做检验
这部份比较不算技能, 算重要的注意事项,
但是如果一开始储存的资料就有问题, 之後再怎麽处理都是浪费生命,
也是蛮重要的
相关专业或杂学
比方要大~~~数据预测股票走势或景气,
会一点总经、财会、交易心理学等等,
会比较知道怎麽 选方法 设规则 调参数 重要的属性 等等
其实个人是觉得, 假如目标是把事情 "做到好" 的话,
很难有明确的分界说什麽一定可以不用会,
有机会、有兴趣的话, 能学尽量多学, 也不会有什麽坏处
※ 引述《linkpon5566 (大将军 五六)》之铭言:
: 小弟应数出身 目前是统计硕 还没毕业
: 本身是满喜欢统计 但不看好纯统计在台湾的发展
: 再加上对资工的东西有兴趣 故想往资讯领域走
: 大概是 人工智慧.资料科学.大数据......etc.
: 这一类关键字的工作
: (长期在板上潜水,对这些关键字有一定的认知)
: 目前的技能:
: 统计相关模型.分析,程度应该还不错(毕竟是统研...)
: 机器学习 : MLP.SVN.CNN.RNN.....etc.
: 主要是用tensorflow + Keras,但也可以自己手刻、数学推导
: 有Kaggle影像辨识前10%成绩
: R语言
: python 目前主力
: C 指标.结构.记忆体都有一定的熟练度
: linux基本操作
: 目前coding能力
: 可以说 只要数学上看得懂的演算法 花时间就有把握实现
: 当然 速度跟品质还在琢磨
: 下个学期已经预定会修 资料结构&演算法
: 还剩一个学期毕业 论文也差不多了
: 想请问该点哪些技能 对求职比较有帮助??
: 目前考虑的选项:
: 离散数学.计算机组织.作业系统(资工6科)
: 资料库(完全没学过)
: Hadoop, Spark
: C++ (有物件导向观念,但没碰过C++)
: Java
: 或是其他建议也可
: 谢谢各位为大神
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.163.80.109
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1518058135.A.B00.html
1F:推 maxqq: 看你要去哪国,在台湾的话,全点 还不一定高薪 02/08 12:48
台湾薪水 不期不待 没有伤害 QQ
2F:推 ggggggh: 台湾请点C 02/08 13:46
现在还用 C 自己刻 有点屌
3F:推 Catbert: 最该点的应该是嘴炮XD 02/08 17:56
行走江湖是这样没错
4F:→ dreamnook: 最该点的就是诈欺(X 02/08 18:28
实际上 一堆拿着没验证也没清理的资料在画虎蓝的
真的跟诈骗没两样 QQ
5F:→ jerry771210: 也有pyspark啊 02/08 18:29
试论 python 与 R 的效能优劣 XD
※ 编辑: lovdkkkk (118.163.80.109), 02/08/2018 23:16:47