作者f496328mm (為什麼會流淚)
看板R_Language
標題[問題] kmeans 大數據 版本
時間Mon Aug 15 15:57:04 2016
跑kmeans出現以下訊息
Warning message:
Quick-TRANSfer stage steps exceeded maximum (= 1318974700)
看起來是 已達最大值
我的data 有2.6千萬筆
想問問看有沒有
大數據的kmeans版本
或是解決方法 或是說這是warning所以不用理他???
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.42.97.210
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1471247827.A.EB3.html
1F:→ qhair: 如果會用Spark的話可以用SparkR的kmeans 08/15 20:34
沒用過 上網查了一下 看起來一樣是R的介面 安裝Library
然後要開指令跟Spark做連結
想問問看主要的差異 特色 功能等等的
版上相關文章也不多 可能要到Spark版上找??
2F:→ celestialgod: 你沒有多台機器跑spark效益就不大了 08/15 22:36
3F:→ Wush978: Sampling? 08/15 23:56
這是什麼??
目前打算先用一些方法分群 類似手動概念 自己寫code
把data縮小後 再用kmeans套件
※ 編輯: f496328mm (114.36.53.171), 08/16/2016 13:07:09
4F:→ cywhale: 我知道biganalytics有bigkmeans這個function不過我沒用過 08/16 14:31
謝謝
我研究看看
※ 編輯: f496328mm (114.36.53.171), 08/16/2016 19:04:13
5F:→ clickhere: pmclust::pkmeans 要多大有多大, 只要機器夠多就行. 08/16 22:22