作者Yukirin (いい天気!)
看板R_Language
标题[分享] Coursera的Data Science课程
时间Fri Jul 12 23:01:02 2013
我想分享一下我的上课心得,
但其实不太知道发哪里好,
我想R板的成员应该属於比较新潮的使用者,
或许会对Data Science或是Big Data之类的议题较有兴趣,
就PO在这边了,如果不行的话再请告诉我我自删。
Data Science算是一个崭新的领域,
定义可能有许多种,不过整体而言用以下这句话概括应该还行:
资料的获取、整理、储存以及分析。
在传统的领域上,我会觉得比较像是Programming & 统计学的一种综合体,
当然也要包含资料所要运用领域的知识。
因为相当新,所以其实不像统计学有大量有系统性的整理教材,
之前在Coursera上看到一门新的课程,
"Introduction to Data Science",目前已经完结,不过应该还可以上去看。
课程当初的大纲大概是:
1. Data Science的来源、运用领域、展望。
2. SQL、MapReduce、Hadoop、NoSQL的介绍。
3. Machine Learning概论:
一些基础的监督\非监督学习法: 回归、k-means、随机森林、SVM等等。
4. 数据可视化。
5. Graph Analytics、Text Analytics (其实我不太懂这是什麽)
课程一共8周,当初的规划好像是要写四次作业,
用Python两次、SQL一次、R一次。
-----------------美好的愿景分隔线---------------------
之前自己学过一点Python跟R,
对於两者在Data Science上的运用,大概的印象是:
Python可以干些脏活,处理raw data,
R则在接下来的统计分析跟可视化上面很有用。
第一次作业的确就是运用Python去捞取twitter的资料,
然後将抓下来的raw data汲取资讯,
分析包含的字词啦、hash-tag的热门度啦等等,
这算是我在这门课程收获最大的部分,
一来是捞资料来分析很好玩,二来是边学边做Python很有趣。
然後我觉得这就是我收获最多的部分了。
先讲课程编排:
上面讲的大纲并没有完整的执行,Text Analytics根本没上。
数据可视化的部分非常的泛泛,聊了什麽颜色啊、形状啊哪个比较吸引人之类的,
我本来期待在可视化的部分可以用R的套件来点实作发挥,
不过没有,讲了一堆人在看东西怎样怎样的理论就没了。
机器学习的部分则是太赶,显得空泛。
先讲了基本的统计分析,但我觉得太多没必要的内容.....
会讲花时间讲统计基本,应该就是假设学的人没有很紮实的基础,
花时间去扯Publication Bias、Meta-analysis这种通常是学了一些才回头要看的东西,
我认为没什麽必要,然後讲Benford's Law或是贝式统计概念,
的确是很炫啦,但跟课程衔接不上吧。
因为同时间我有在上一样是Coursera上Machine Learning的课,
同样的范围ML那边可能用了五周,还蛮详细的说明了演算法写法跟例子,
这边只有用两三周,显得就囫囵吞枣,
也没有实作等等,就只是讲个概念而已。
我本来没有学过SQL之类的工具,SQL的部分有一个作业,
等於也就是让我们学会一些SQL的语法基础跟概念,这边还行。
MapReduce也有一次作业,这个我就没有做了,讲解概念的部分则是有点收获。
然後R的那次作业也神隐了。
这堂课本来就不是要让我们去深入Data Science的每一个工具,
而是让我们变成"进阶的初学者",每一个概念跟工具都稍微会懂一些,
有兴趣再自己去钻。--如果以这样的出发点来说,
我会觉得课程的编排广而不深没有关系,
能够清晰的理解工具的概念跟背後的思考方法也是一种助益。
只是老师Bill Howe作不到这点。
同样的课程大纲,不应该像上述的那样有些地方太快太带过,
有些地方又花时间讲无谓的东西。
他的讲课很沉闷,很容易自己讲一讲停住、不知道要说什麽,
或者是胡言乱语一阵之後又说喔这个不是重点我们回来吧,
投影片常常字超级多,但有时其实是不讲也不会怎样的东西。
相对的上Machine Learning的老师就很清晰,
虽然是华人但英文很容易听懂(比Howe好听),
上课节奏也掌握得很好、不冷场、有重点,
可以感受到每一个课程元素之间的链结。
当然Data Science本来就是相对多主题的学问,
但是可以让我每次都想快转也其实不容易......。
听起来很像抱怨,不过我想我的意见不会没有道理,
这门课还是有其用处:
推荐给:
1. 根本不知道Data Science、Machine Learning是什麽的人,
在痛苦地听完8周课之後你真的会变成"进阶的初学者"
2. 需要训练定力跟英文听力的人。
不推荐给:
1. 本来就大概知道Data Science这个领域在干嘛,
想要来学点实用工具的人。 (我大概就属於这种)
我们需要的是订阅一下R-bloggers跟Data Science 101,
http://www.r-bloggers.com/
http://datascience101.wordpress.com/
看看演算法要怎麽运用、怎麽处理资料跟作数据可视化,
都有example code就自己做做看,顺便关心一下这领域有啥新东西。
2. 已经在某个领域中精进(ML、统计、programming.....)想要多方面涉猎的人,
对你而言跳着有兴趣的课程看就够了,
但我觉得搜寻那些关键字(NoSQL、Hadoop之类的)看看网路上的介绍,
或去找本好书来看应该效率会比较高。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 123.192.239.26
1F:推 Wush978:谢谢你的心得 07/12 23:34
2F:→ Wush978:对我个人来说, 只是想学学怎麽使用AWS 和map reduce... 07/12 23:35
3F:→ Wush978:就没有仔细去听他给的lecture了 07/12 23:35
4F:推 Wush978:结果出来了 07/21 17:47
5F:→ NewSpec:Coursera的ML讲者可是大名鼎鼎的Andrew Ng啊... 07/29 13:14
6F:推 miamiasheep:我很推荐computing for data analysis,对於想学R的人 10/11 18:58
7F:推 csashac:写得太好了 10/19 01:14