R_Language 板


LINE

※ 引述《wudistan (wudistan)》之銘言: : 大家好,由於大學就讀統計系,在網路上看了許多big data的資料與一些會用到的程式如java、Hadoop、mapreduce、NoSQL與R,由於在當替代役中,雖然想去上資策會課程又無法去,想說利用有空檔時間學習相關知識,其中對R有基礎認識,想從這裡開始從頭開始學,但由於大學所學的與big data所需貌似不是很有相關… : 小弟愚笨爬了很多文但還是想請問版大們R在學習上該如何與何時進入big data這塊? 謝謝版大們~ 想要玩大資料的人,目前的主流是資工出身的同學。統計出身的人相比之下,優勢在於以 機率統計描述資料時,可以更深刻地理解模型背後代表的意義,進而在挖掘資料時找到更 深的資訊。 缺點則是對工具(電腦)的理解不夠深入,所以在工具的運用能力上要花心思,或是避開 交給專家(和資工的人合作)。 R 可以處理較大的資料,但是你要比處理小資料多知道很多R 工作的原理,尤其是記憶體 相關的議題。如果不幸,你得直接處理真正很大很大的資料(TB+),請去學Java(Hadoop) 或Scala(Spark)把資料整理(弄小)之後再交給R 做。 我個人認為大資料中,分析部分的挑戰和過去沒什麼差異,但是在工具和效能上的要求更 嚴苛。現在看起來,硬體的突破比資料量的成長慢。 要分析大資料,使用工具的能力就是第一個門檻。很遺憾,我目前不知道學校方面有沒有 提供相關的訓練。所以我建議你如果在學的話,請務必把學校教的,一般的資料的分析學 好,這部分是你可以勝過其他競爭者的地方。 之後如果你一定要親手做,那請務必自行補充資料結構和演算法的相關知識,否則會連工 具的說明都看不懂。在資料大的時候,O(N)和O(log N)是差異很大的。 # 怎麼讀資料 1. 會用工具撈資料 2. 知道工具指令對應的複雜度 如果只是讀中型大小的資料,可能到1.就夠了。但是當資料大到某個規模,2.的重要性就 出來了。 抽樣在這裡應該很有幫助,但是也要理解抽樣的計算複雜度。 ## 學習上的建議 如果是R 的話,就要知道撈資料的時候記憶體的運作機制,要學習Streaming或pipeline的 方式撈資料。 ps. 這裡給你一些key word囉 這些和你的資料源有關,所以建議等到實際遇到再學吧。每種遇到的case可能不一樣,所 以沒必要先學。遇到的時候再請教前輩或是網路上找資源吧。 # 了解效能的頻頸 1. 知道記憶體和硬體的差異。知道怎麼評估記憶體的消耗量。 2. 瞭解怎麼評估演算法複雜度,並且選擇正確的資料結構。 統計所的學生,如果照著課本的方法來讀取大資料,最常見的就是塞爆記憶體而不自知。 照著課本:`read.table("xxx.csv")` 然後記憶體就爆炸了,學生也不知道為什麼電腦死 在那邊。 資料結構選得好不好,結果就是要等一天還是數分鐘。擁有找到頻頸的能力,才能了解自 己卡在拿裡,或者是和工程師溝通。 ## 學習上的建議 找時間請自修演算法或資料結構,如果沒時間的話也至少理解何謂時間複雜度和空間複雜 度。至少要能理解:http://en.wikipedia.org/wiki/Array_data_structure 中下面的 Efficiency comparison with other data structure。你不用會寫,但是看工具說明書 的時候會用到這個知識。這我覺得是在學校可以先學的。 之後我建議直接找實際的資料來做練習,遇到瓶頸可以多和其他有興趣處理大資料的人 交流,也很歡迎來我們社群。社群中許多在公司處理大資料的朋友。(如趨勢科技) # 個人經驗談 以上是我目前處理30GB/日的資料的心得。目前的任務就是要從這些資料中做出一個好的 Logistic Regression Model。目前我是用R / C++ 作為主要的工具。 在Model Encoding上還滿辛苦的,因為R 沒有能用的工具,我要自己做。用R 做的好處是 對答案相對輕鬆,因為小資料上已經有現成工具可以做比較! 實做上,效能往往最後都卡在Optimization上,這裡我超級推台大資工林老師的libsvm和 Liblinear,他們的optimization的kernel 超猛,會C / C++ 的話可以自己抽出來用。 ps. 可以參考我之前寫的AWS + pbdMPI的文章,裡面有抽Liblinear的核心出來用。 最後Model 的調教和解釋,則和以前統計所教的差不多,就是要努力讓其他同仁可以理解 Variable Encoding 的意義,如何處理Missing Data,也常常會發現其他同仁不小心誤 解模型的意義。 統計出身的,這才是優勢,放掉的話不如念資工囉。 -- 歡迎到ptt R_Language版分享R 的相關知識 歡迎加入 Taiwan R User Group : http://www.facebook.com/Tw.R.User 聚會報名 http://www.meetup.com/Taiwan-R/ 聚會影片 https://www.youtube.com/user/TWuseRGroup --



※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 1.34.138.85 ※ 編輯: Wush978 來自: 1.34.138.85 (11/05 22:26) ※ 編輯: Wush978 來自: 1.34.138.85 (11/05 22:29) ※ 編輯: Wush978 來自: 1.34.138.85 (11/05 22:30) ※ 編輯: Wush978 來自: 1.34.138.85 (11/05 22:30) ※ 編輯: Wush978 來自: 1.34.138.85 (11/05 22:31) ※ 編輯: Wush978 來自: 1.34.138.85 (11/05 22:37) ※ 編輯: Wush978 來自: 1.34.138.85 (11/05 22:38)
1F:推 bmka:推最後一句話 11/05 23:54
2F:推 allen1985:推! 11/06 02:26
3F:推 summitstudio:推推 11/06 12:01
4F:推 maninblue:推~ 11/06 14:54
5F:推 GTBUG:推! 11/06 17:45
6F:推 skylikewater:推推 11/06 22:15
7F:推 ljta:推 11/07 09:41
8F:推 peiwinds:推 11/14 15:50
9F:推 adgjlsfhk123:推 11/16 01:47
10F:推 kenshin528:推推必看 07/24 01:52







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Gossiping站內搜尋

TOP