[問題] 平均分布分割測試與訓練資料

時間Wed Jun 21 17:43:40 2017

[問題類型]: 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 入門(寫過其他程式，只是對語法不熟悉) [問題敘述]: 透過logit model，用各個商品的屬性及是否閱讀商品評論，預測消費者會購買哪種商品為了實作predit()要分割資料集已知caret package的createDataPartition能將訓練與測試集的商品依比例平均分布但資料集為long format，每四列為一個單位（一個受測者產生四列資料，為四個商品）使用createDataPartition後，資料被打散了，不再是每四列為一單位該如何保持資料每四列一個單位，但訓練與測試集中的商品還是可以按比例分布呢？ ps被購買的商品比例本來就不平均，但希望訓練集與測試集的比例相同，例如10:5:2:1 [程式範例]: 共有432名受測者，1728列資料，long format資料集如圖 http://imgur.com/pWhvNCF 各商品被購買的比例大約為 HighJ HighU LowJ LowU 272 80 60 20 library(caret) Train <- createDataPartition(mydata$purchase, p=0.6, list=FALSE) training <- mydata[ Train, ] testing <- mydata[ -Train, ] 照上述程式碼跑無錯誤訊息，但是資料被打散推測可能是用來取index的mydate$purchase有問題，不知道該怎麼改才好@@ [環境敘述]: R version: 3.2.3 (2015-12-10) Platform: x86_64-w64-mingw32 Running under: Windows >= 10 [關鍵字]: --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.240.104.195 ※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1498038223.A.AC3.html

1^F：推 f496328mm: 有id就好辦了，去sample，然後 %in% 就可以抓出來了 06/21 18:06

2^F：推 f496328mm: sample(nrow(data)/4,train.amount) 06/21 18:08

3^F：→ f496328mm: 上面是取 train 的 id，之後去抓相同的id即可 06/21 18:09

4^F：推 f496328mm: data[ subject_id %in% train_id ] 06/21 18:11

感謝回覆！我試做之後好像有點錯誤，可以指正一下嗎>"< # 解讀為從1728筆中，取出260個數字當作train_id sample(nrow(mydata)/4, 260) newdata <- mydata[ "subject_id" %in% "train_id" ] 不太確定%in%的用法，google一直忽略%所以查不到...... 所以第二行還不太理解，直接照打後發現如果不加 " " 會出現下述錯誤 Error in match(x, table, nomatch = 0L) : object 'subject_id' not found 沒有error順利跑完後，newdata有1728obs. of 0 variables 請問有哪裡做錯了嗎QAQ ※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 18:35:13

5^F：→ obarisk: 我們的google不一樣？ 06/21 18:54

6^F：→ obarisk: https://www.google.com.tw/search?q=r+%25in%25&ie=utf- 06/21 18:54

7^F：→ obarisk: 8&oe=utf-8&gws_rd=cr&ei=RFBKWYHnJ4S20ATg3oz4BQ 06/21 18:54

8^F：→ obarisk: https://tinyurl.com/yapu9sbe 06/21 18:56

9^F：→ obarisk: 我貼網址的能力有問題 06/21 18:57

10^F：→ obarisk: https://stackoverflow.com/questions/10385863/the-r-in 06/21 18:57

11^F：→ obarisk: -operator 06/21 18:57

12^F：→ obarisk: ?`%in%` 06/21 18:58

抱歉我估狗%in% r，出現一堆XXX in R的資料，原來放前後順序搜尋有差，學到了！也感謝提醒?`%in%`，原來符號前後面要加`，難怪我一直出現error... 重新理解後做了修正，感覺很接近需求了，只是這次又出現一些問題 train_id <- sample(nrow(mydata)/4,260, replace = FALSE) length(train_id) #確定真的有取出260個數字做為train_id mydata$train <- mydata$subject_id %in% train_id #新增欄位放比對後的True/False traindata <- mydata[mydata$train == TRUE, ] #有train==TRUE那列放到新dataframe 正常來說，traindata應該要有260*4=1040筆但traindata只有900多筆，而且每次做數量都不同...好困惑啊再麻煩各位協助了>"< ※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 19:55:27 ※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 20:00:48 抱歉！！！上述程式沒有問題，能夠成功取出1040筆資料是我原始資料中的編號出錯，改正後已解決感謝各位的協助，讓我成功可以繼續下一步 m(_ _)m ※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 20:20:07

13^F：→ f496328mm: mydata[ "subject_id" %in% "train_id" ] 把引號拿掉 06/21 22:24

14^F：→ f496328mm: 如果會有error 那把mydata轉成data.table型態 06/21 22:30

15^F：→ shirley7483: 成功！使用data.table好快速啊，馬上筆記起來，感謝~ 06/22 08:33

※ 編輯: shirley7483 (111.240.104.195), 06/22/2017 08:34:06

16^F：→ celestialgod: 樓樓上只是少一個,所以才出錯 06/22 20:07

17^F：→ f496328mm: 原來不是引號的問題QQ 06/22 20:32

18^F：→ celestialgod: data.table可以不用,，但data.frame, matrix一定要 06/22 20:36

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

R_Language 板

[問題] 平均分布分割測試與訓練資料

熱門看板

贊助商連結