作者songhome (爽轰)
看板Statistics
标题Re: [讨论] Python 有 SAS、SPSS 做不到的资料分析吗
时间Tue Feb 28 00:33:27 2017
※ 引述《backprog (back-propagation)》之铭言:
: 小弟任职单位完全用 Python/C++ 等程式语言做资料分析的工作,
: 成员都是电资相关科系/机器学习等背景,
: 但是在叙述统计的解释上经常有盲点,导致对於推论的结果不是很有信心。
: 最近想尝试找一些传统统计背景的人,但是同时懂程式设计的人不多,
: R 又难以融入现有团队,万一离职也不好找人接手。
: 因此想请教一下版上高手,在比较前卫的资料分析领域中,
: SPSS、SAS 等套装软体,是否有不及或超越 Python 之处?
小的正好R和SAS都还算熟,跟你分享一下最近的心得
先说说SAS超越python/R的地方
我觉得SAS最强的地方有两点
第一点是古典统计,SAS很早期就开始发展了
在电脑运算还没那麽强的时候,想对资料做推论的时候就需要仰赖学术上的统计方法
而SAS把这些方法都写进核心中,让使用者方便将资料套用在这些统计方法上
加上大公司背书,可以确保这些统计方法的运算是绝对正确的
(当然使用者用错统计方法是另外一回事)
R、python虽然也有很多统计检定,但除了一些比较典型的模型以外
大部分都是一些open source,而由於每个package都是不同人写的
对於资料的吃法可能也会大有不同,同一份资料要套用在不同的package时
可能会需要对资料转换花很多工夫
第二点是资料仓储
相较於R/python是每次把资料写进记忆体上来说
SAS是以类似资料库的方式来管理资料
在读入资料後可以马上定义每个变数的格式,直接产生一个实体的档案
这点在套用模型或检定方法的时候非常方便
而当资料"个数"(不是笔数)多,且结构复杂的情况下,也能比较有效率地管理
简而言之SAS强大之处在於稳健与扩张容易
较符合企业整合各个部门或团队的资料的需求
而R/python虽然没有这些优点,但少了这些限制
开发速度较快,很多近年出现的统计方法,或是某些主题需要用到的特殊演算法
只要有想法就可以马上投入实用
所以要说前卫的话,我觉得R/pytohn还比较前卫
=====================
以上是单纯就R/python和SAS的比较,接下来是关於推论的部分
事实上一般大学所教的统计都是所谓的"古典统计学"
着重的是"推论统计"而不是"叙述统计"
推论统计强调的是如何透过"随机抽样",从"小样本"里面看出"母体"的行为
并且根据数学推论,给一个客观的标准衡量样本与母体的误差
早期因为电脑不够力,或资料难以取得所以需要做这种事
但是现代资料探勘中,你计算的东西基本上就是整个母体了
虽然不知道贵公司是在处理甚麽资料
但同样的盲点你请统计背景的人来一样会有盲点
为什麽这样说呢?
举例来说,你今天把"所有"身高资料切成一段一段画长条图,发现身高愈高体重也愈高
所以你下结论,身高与体重呈正相关
你可能会担心的盲点是(以下是我从原PO文章的猜想,有错请更正)
我只是画个图这样就能下这个结论吗?如果未来新的资料进来一样适用吗?
身高与体重这样的斜率够显着吗? 诸如此类的问题
事实上对於这些问题,统计背景的人也无法回答
因为统计背景处理的问题是
抽了"一些"资料出来,这些资料所画出来的东西
跟你用"所有"资料画出来的东"一不一样"
所谓显着也只是在回答这个问题
综合以上所述,不难看出为什麽推文提到生技领域SAS独大
因为生技领域主要处理的就是古典统计的问题,这也是SAS强大的地方
所以我个人觉得SAS和R/python并没有甚麽谁好谁坏
最重要的还是回归到原本是想解决甚麽样的问题
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.248.190.222
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1488213211.A.FA8.html
※ 编辑: songhome (111.248.190.222), 02/28/2017 00:36:02
1F:→ recorriendo: 怎麽会说资料探勘的东西是"所有"资料?? 02/28 03:02
2F:→ recorriendo: 既然都提到新的资料 不就代表原来的资料不是"所有" 02/28 03:03
这边要表达的是
传统统计推论是从"一堆资料中"抽"一些资料"来推测"一堆资料"中的行为
现代资料分系是直接看"一堆资料"中的行为
而新资料这部分跟预测预测比较有关系,无论传统统计还是现代分析
都要「假设"一堆资料"和"新的资料"行为一样」
从这点来看,现代资料分析确实也是在做抽样没错
而传统统计则有一点"抽样的抽样"的味道在
因此才会说如果有盲点,请统计背景的人一样有盲点
3F:→ f496328mm: 现代资料分析 因为数据大 02/28 12:28
4F:→ f496328mm: 多数人都把它看成母体了 事实上 你一样是在做抽样 02/28 12:28
※ 编辑: songhome (111.249.23.209), 02/28/2017 13:46:29
5F:推 WTF1111: 推 03/02 11:10
6F:推 chocopie: 推 04/22 02:10