Statistics 板


LINE

※ 引述《backprog (back-propagation)》之銘言: : 小弟任職單位完全用 Python/C++ 等程式語言做資料分析的工作, : 成員都是電資相關科系/機器學習等背景, : 但是在敘述統計的解釋上經常有盲點,導致對於推論的結果不是很有信心。 : 最近想嘗試找一些傳統統計背景的人,但是同時懂程式設計的人不多, : R 又難以融入現有團隊,萬一離職也不好找人接手。 : 因此想請教一下版上高手,在比較前衛的資料分析領域中, : SPSS、SAS 等套裝軟體,是否有不及或超越 Python 之處? 小的正好R和SAS都還算熟,跟你分享一下最近的心得 先說說SAS超越python/R的地方 我覺得SAS最強的地方有兩點 第一點是古典統計,SAS很早期就開始發展了 在電腦運算還沒那麼強的時候,想對資料做推論的時候就需要仰賴學術上的統計方法 而SAS把這些方法都寫進核心中,讓使用者方便將資料套用在這些統計方法上 加上大公司背書,可以確保這些統計方法的運算是絕對正確的 (當然使用者用錯統計方法是另外一回事) R、python雖然也有很多統計檢定,但除了一些比較典型的模型以外 大部分都是一些open source,而由於每個package都是不同人寫的 對於資料的吃法可能也會大有不同,同一份資料要套用在不同的package時 可能會需要對資料轉換花很多工夫 第二點是資料倉儲 相較於R/python是每次把資料寫進記憶體上來說 SAS是以類似資料庫的方式來管理資料 在讀入資料後可以馬上定義每個變數的格式,直接產生一個實體的檔案 這點在套用模型或檢定方法的時候非常方便 而當資料"個數"(不是筆數)多,且結構複雜的情況下,也能比較有效率地管理 簡而言之SAS強大之處在於穩健與擴張容易 較符合企業整合各個部門或團隊的資料的需求 而R/python雖然沒有這些優點,但少了這些限制 開發速度較快,很多近年出現的統計方法,或是某些主題需要用到的特殊演算法 只要有想法就可以馬上投入實用 所以要說前衛的話,我覺得R/pytohn還比較前衛 ===================== 以上是單純就R/python和SAS的比較,接下來是關於推論的部分 事實上一般大學所教的統計都是所謂的"古典統計學" 著重的是"推論統計"而不是"敘述統計" 推論統計強調的是如何透過"隨機抽樣",從"小樣本"裡面看出"母體"的行為 並且根據數學推論,給一個客觀的標準衡量樣本與母體的誤差 早期因為電腦不夠力,或資料難以取得所以需要做這種事 但是現代資料探勘中,你計算的東西基本上就是整個母體了 雖然不知道貴公司是在處理甚麼資料 但同樣的盲點你請統計背景的人來一樣會有盲點 為什麼這樣說呢? 舉例來說,你今天把"所有"身高資料切成一段一段畫長條圖,發現身高愈高體重也愈高 所以你下結論,身高與體重呈正相關 你可能會擔心的盲點是(以下是我從原PO文章的猜想,有錯請更正) 我只是畫個圖這樣就能下這個結論嗎?如果未來新的資料進來一樣適用嗎? 身高與體重這樣的斜率夠顯著嗎? 諸如此類的問題 事實上對於這些問題,統計背景的人也無法回答 因為統計背景處理的問題是 抽了"一些"資料出來,這些資料所畫出來的東西 跟你用"所有"資料畫出來的東"一不一樣" 所謂顯著也只是在回答這個問題 綜合以上所述,不難看出為什麼推文提到生技領域SAS獨大 因為生技領域主要處理的就是古典統計的問題,這也是SAS強大的地方 所以我個人覺得SAS和R/python並沒有甚麼誰好誰壞 最重要的還是回歸到原本是想解決甚麼樣的問題 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.248.190.222
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1488213211.A.FA8.html ※ 編輯: songhome (111.248.190.222), 02/28/2017 00:36:02
1F:→ recorriendo: 怎麼會說資料探勘的東西是"所有"資料?? 02/28 03:02
2F:→ recorriendo: 既然都提到新的資料 不就代表原來的資料不是"所有" 02/28 03:03
這邊要表達的是 傳統統計推論是從"一堆資料中"抽"一些資料"來推測"一堆資料"中的行為 現代資料分系是直接看"一堆資料"中的行為 而新資料這部分跟預測預測比較有關係,無論傳統統計還是現代分析 都要「假設"一堆資料"和"新的資料"行為一樣」 從這點來看,現代資料分析確實也是在做抽樣沒錯 而傳統統計則有一點"抽樣的抽樣"的味道在 因此才會說如果有盲點,請統計背景的人一樣有盲點
3F:→ f496328mm: 現代資料分析 因為數據大 02/28 12:28
4F:→ f496328mm: 多數人都把它看成母體了 事實上 你一樣是在做抽樣 02/28 12:28
※ 編輯: songhome (111.249.23.209), 02/28/2017 13:46:29
5F:推 WTF1111: 推 03/02 11:10
6F:推 chocopie: 推 04/22 02:10







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Tech_Job站內搜尋

TOP