作者songhome (爽轟)
看板Statistics
標題Re: [討論] Python 有 SAS、SPSS 做不到的資料分析嗎
時間Tue Feb 28 00:33:27 2017
※ 引述《backprog (back-propagation)》之銘言:
: 小弟任職單位完全用 Python/C++ 等程式語言做資料分析的工作,
: 成員都是電資相關科系/機器學習等背景,
: 但是在敘述統計的解釋上經常有盲點,導致對於推論的結果不是很有信心。
: 最近想嘗試找一些傳統統計背景的人,但是同時懂程式設計的人不多,
: R 又難以融入現有團隊,萬一離職也不好找人接手。
: 因此想請教一下版上高手,在比較前衛的資料分析領域中,
: SPSS、SAS 等套裝軟體,是否有不及或超越 Python 之處?
小的正好R和SAS都還算熟,跟你分享一下最近的心得
先說說SAS超越python/R的地方
我覺得SAS最強的地方有兩點
第一點是古典統計,SAS很早期就開始發展了
在電腦運算還沒那麼強的時候,想對資料做推論的時候就需要仰賴學術上的統計方法
而SAS把這些方法都寫進核心中,讓使用者方便將資料套用在這些統計方法上
加上大公司背書,可以確保這些統計方法的運算是絕對正確的
(當然使用者用錯統計方法是另外一回事)
R、python雖然也有很多統計檢定,但除了一些比較典型的模型以外
大部分都是一些open source,而由於每個package都是不同人寫的
對於資料的吃法可能也會大有不同,同一份資料要套用在不同的package時
可能會需要對資料轉換花很多工夫
第二點是資料倉儲
相較於R/python是每次把資料寫進記憶體上來說
SAS是以類似資料庫的方式來管理資料
在讀入資料後可以馬上定義每個變數的格式,直接產生一個實體的檔案
這點在套用模型或檢定方法的時候非常方便
而當資料"個數"(不是筆數)多,且結構複雜的情況下,也能比較有效率地管理
簡而言之SAS強大之處在於穩健與擴張容易
較符合企業整合各個部門或團隊的資料的需求
而R/python雖然沒有這些優點,但少了這些限制
開發速度較快,很多近年出現的統計方法,或是某些主題需要用到的特殊演算法
只要有想法就可以馬上投入實用
所以要說前衛的話,我覺得R/pytohn還比較前衛
=====================
以上是單純就R/python和SAS的比較,接下來是關於推論的部分
事實上一般大學所教的統計都是所謂的"古典統計學"
著重的是"推論統計"而不是"敘述統計"
推論統計強調的是如何透過"隨機抽樣",從"小樣本"裡面看出"母體"的行為
並且根據數學推論,給一個客觀的標準衡量樣本與母體的誤差
早期因為電腦不夠力,或資料難以取得所以需要做這種事
但是現代資料探勘中,你計算的東西基本上就是整個母體了
雖然不知道貴公司是在處理甚麼資料
但同樣的盲點你請統計背景的人來一樣會有盲點
為什麼這樣說呢?
舉例來說,你今天把"所有"身高資料切成一段一段畫長條圖,發現身高愈高體重也愈高
所以你下結論,身高與體重呈正相關
你可能會擔心的盲點是(以下是我從原PO文章的猜想,有錯請更正)
我只是畫個圖這樣就能下這個結論嗎?如果未來新的資料進來一樣適用嗎?
身高與體重這樣的斜率夠顯著嗎? 諸如此類的問題
事實上對於這些問題,統計背景的人也無法回答
因為統計背景處理的問題是
抽了"一些"資料出來,這些資料所畫出來的東西
跟你用"所有"資料畫出來的東"一不一樣"
所謂顯著也只是在回答這個問題
綜合以上所述,不難看出為什麼推文提到生技領域SAS獨大
因為生技領域主要處理的就是古典統計的問題,這也是SAS強大的地方
所以我個人覺得SAS和R/python並沒有甚麼誰好誰壞
最重要的還是回歸到原本是想解決甚麼樣的問題
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.248.190.222
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1488213211.A.FA8.html
※ 編輯: songhome (111.248.190.222), 02/28/2017 00:36:02
1F:→ recorriendo: 怎麼會說資料探勘的東西是"所有"資料?? 02/28 03:02
2F:→ recorriendo: 既然都提到新的資料 不就代表原來的資料不是"所有" 02/28 03:03
這邊要表達的是
傳統統計推論是從"一堆資料中"抽"一些資料"來推測"一堆資料"中的行為
現代資料分系是直接看"一堆資料"中的行為
而新資料這部分跟預測預測比較有關係,無論傳統統計還是現代分析
都要「假設"一堆資料"和"新的資料"行為一樣」
從這點來看,現代資料分析確實也是在做抽樣沒錯
而傳統統計則有一點"抽樣的抽樣"的味道在
因此才會說如果有盲點,請統計背景的人一樣有盲點
3F:→ f496328mm: 現代資料分析 因為數據大 02/28 12:28
4F:→ f496328mm: 多數人都把它看成母體了 事實上 你一樣是在做抽樣 02/28 12:28
※ 編輯: songhome (111.249.23.209), 02/28/2017 13:46:29
5F:推 WTF1111: 推 03/02 11:10
6F:推 chocopie: 推 04/22 02:10