作者Ajax3 (鍵盤柳承敏)
看板Statistics
標題Re: [討論] Python 有 SAS、SPSS 做不到的資料分析嗎
時間Thu Mar 2 14:07:18 2017
一些不同意見。
※ 引述《songhome (爽轟)》之銘言:
: 但是現代資料探勘中,你計算的東西基本上就是整個母體了
儘管計算能力與資料存儲方式一直在進步,
受限於研究方法 (是否有能力取得母體的資料) 或實驗成本,
現今很多領域研究的對象依然是樣本而非母體。
以基因體研究為例,一個病人檢體的WGS就要數十萬,
不可能去計算母體的資料。
: 雖然不知道貴公司是在處理甚麼資料
: 但同樣的盲點你請統計背景的人來一樣會有盲點
: 為什麼這樣說呢?
: 舉例來說,你今天把"所有"身高資料切成一段一段畫長條圖,發現身高愈高體重也愈高
: 所以你下結論,身高與體重呈正相關
: 你可能會擔心的盲點是(以下是我從原PO文章的猜想,有錯請更正)
: 我只是畫個圖這樣就能下這個結論嗎?如果未來新的資料進來一樣適用嗎?
: 身高與體重這樣的斜率夠顯著嗎? 諸如此類的問題
: 事實上對於這些問題,統計背景的人也無法回答
: 因為統計背景處理的問題是
: 抽了"一些"資料出來,這些資料所畫出來的東西
: 跟你用"所有"資料畫出來的東"一不一樣"
: 所謂顯著也只是在回答這個問題
: 綜合以上所述,不難看出為什麼推文提到生技領域SAS獨大
: 因為生技領域主要處理的就是古典統計的問題,這也是SAS強大的地方
其實我覺得生技領域,或者說 -omics 領域處理的並不是只有古典統計,
重點還是在統計推論,諸不見新藥研發第三期新聞都在報 p-value?
SAS/SPSS 與 R/python 的差別,我想還是應用領域。
在美國許多統計系所畢業生的去處是製藥產業/Clincal trial,
這些產業長期以來以SAS為主,而SAS又是間大公司,也有能力處理FDA驗證的問題,
可以參考這篇
https://webptt.com/m.aspx?n=bbs/Bioindustry/M.1487842866.A.77E.html
其他跟統計相關領域很多以 R 為主,畢竟是 open source,使用者也多,
許多生統方法的論文都直接提供 R 語法。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 210.242.157.68
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1488434841.A.2F2.html
1F:→ f496328mm: SAS主要是用在生統醫學方面 因為有FDA認證 03/02 15:45
2F:→ f496328mm: 所以才賣那麼貴阿 藥廠都是砸錢下去做 03/02 15:45
3F:→ f496328mm: 一般人用 R PYTHON 比較多 03/02 15:46
5F:→ Wush978: 不過R 要取代SAS最大的困難在人, 誰沒事會想把自己跑若干 03/03 00:41
6F:→ Wush978: 年的程式從SAS換成R? 出錯誰頂? 03/03 00:41
7F:→ Wush978: 但是反過來看,新的單位就很有機會用R了,因為沒包袱 03/03 00:43
8F:→ jayfei2000: ☺ nice reply 04/03 00:20
9F:推 TsaiTao: 長知識推 07/13 00:01