R_Language 板


LINE

感謝原原po的發問以及c大的解答 正好也遇到類似的狀況 但照著做之後, # 計算時間差,以小時表示 DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind] 這一段都會跳出error...... Error in `[.data.frame`(DT, , `:=`(diffTime, difftime(time, time[min(k, : unused argument (by = ind) 我是將自身資料擷取出來, 欄位名全都改成跟c大的資料一樣 用c大產生的資料下去跑沒問題 但內容換成我的資料就會錯誤 我的資料格式如下: ind是"character", time是"POSIXct" "POSIXt", 照理應該是符合規則, 不知卡在哪? 然後我要保留的條件與原文也有所不同 以原文為例: 個體A 2012/10/11 20:00 實驗資料OOXX 個體A 2012/10/11 23:00 實驗資料OOXX 個體A 2012/10/12 03:00 實驗資料OOXX 個體B 2012/12/11 05:00 實驗資料OOXX 個體B 2012/12/11 11:05 實驗資料OOXX 個體B 2012/12/11 13:00 實驗資料OOXX 個體B 2012/12/11 18:00 實驗資料OOXX 個體B 2012/12/11 20:00 實驗資料OOXX A個體保留第一、第三筆資料 B個體保留第一、第二、第四筆資料 我則是要保留相近時間內(與上一筆擷取的時間不超過6小時)的最後一筆 其結果會是: A個體保留第3筆, B個體保留第1、5筆 對於B個體而言 05:00 |----> 間隔大於6小時, 則保留5:00, 下一筆開始為新的區間 11:05 13:00 這幾筆彼此與前一筆間隔未超過6小時, 則視為同個區間 18:00 取最後一筆20:00 20:00 這樣又該如何調整程式呢?? 不知是否有人可以提供建議呢? 非常感謝! ※ 引述《celestialgod (天)》之銘言: : ※ 引述《anakinyen (我在台北 天氣晴)》之銘言: : : [問題類型]: : : 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) : : [軟體熟悉度]: : : 新手,只會套用package : : [問題敘述]: : : 我有一批動物研究的資料 : : 資料大致長這個樣子,共有12隻個體一萬多筆 : : 個體A 2012/10/11 20:00 實驗資料OOXX : : 個體A 2012/10/11 23:00 實驗資料OOXX : : 個體A 2012/10/12 03:00 實驗資料OOXX : : 個體B 2012/12/11 05:00 實驗資料OOXX : : 個體B 2012/12/11 11:05 實驗資料OOXX : : 個體B 2012/12/11 13:00 實驗資料OOXX : : 個體B 2012/12/11 18:00 實驗資料OOXX : : 個體B 2012/12/11 20:00 實驗資料OOXX : : 由於時間間隔過短的話,資料之間可能有相關性 : : 因此我現在想要設定6小時的閥值,間隔超過6小時的資料才會保留 : : 以上面資料為例 : : A個體保留第一、第三筆資料 : : B個體保留第一、第二、第四筆資料 : : 我的程度是新手,偶爾會拿一些package來套用 : : 請教是否有相關套件或現成code可以用在這個案例 : : 非常感謝~~ : 我用while + data.table做,若用data.frame會複製很多次,效率會不彰 : library(data.table) : # 產生資料 : numObs <- 50 : numInd <- 5 : DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)), : time = strptime("2012/12/11", "%Y/%m/%d") + : sample(86400, numObs, TRUE), : obs = rnorm(numObs)) : # 排序 : setorder(DT, ind, time, obs) : # 移除掉時間差小於六小時的 : k <- 1 : while ( TRUE ) { : # 計算時間差,以小時表示 : DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind] : # 留下自己那一組 : set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6) : # 留下時間差超過六小時的 : DT <- DT[abs(diffTime) > 6, ] : # 下一組 : k <- k + 1 : # 如果k大於全部組的最大觀測值數目就跳離迴圈 : if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup)) : break : } : # 移除diffTime這個變數 : DT[ , diffTime := NULL] : 五萬筆觀測值,一千個個體,耗時0.23秒 (平均一個個體50個觀測值) : 五十萬筆觀測值,一千個個體,耗時0.39秒 (平均一個個體500個觀測值) : 我覺得這個速度應該可以接受 : 不過我的區間只有24小時,所以可能都很快就篩選完了 : 有人可以試試看更長時間的表現 : 有問題或任何人有更好解法,歡迎提供,感謝 : Note: 間隔一百天,五十萬筆觀測值,一千個個體,耗時18.33秒 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.37.26 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1569535893.A.084.html ※ 編輯: beatnik (36.234.37.26 臺灣), 09/27/2019 06:12:17
1F:→ celestialgod: 因為你用的是data.frame 不是data.table 09/27 10:10
沒錯, 我後來有發現我耍笨了....= =" 謝謝指正!
2F:→ celestialgod: 另外 我有點看不懂你說的意思 不超過六小時的最後一 09/27 10:20
3F:→ celestialgod: 筆 A的話 不是第二筆跟第三筆嗎? 09/27 10:22
只要彼此之間不間隔超過所設定之時間(如:6小時) 則都算同一時間區間 A的話, 每一筆都與前一筆不超過6小時 所以取它們的最後一筆--第3筆 這邊用6小時舉例可能比較難想像 若是以間隔不超過10分鐘為條件, 則取連續觀測中的最後一筆 如: 13:01 13:05 13:11 v 取這筆(前3筆彼此都不間隔超過10分鐘) 14:22 --> 與前筆差10分鐘以上, 故視為新一批不同於前面的觀測值 14:25 v 取這筆 為何要取最後一筆? 是因為在本案之間隔10分鐘內的數值, 可能不具參考性 中間會一直重複測量直到正確為止 所以最後一筆才是我想要的修正後或正確的數值 10分鐘以上再出現的數值, 表示又開始測量另一個批次 在短時間內(10分鐘內)量很多次後, 一樣只抓最後一筆 抱歉有點複雜@@ ※ 編輯: beatnik (36.234.37.26 臺灣), 09/27/2019 10:52:07
4F:→ TreeMan: http://www.ideone.com/ZHFeAW 用dplyr的作法, 參考看看 09/27 15:52
5F:→ celestialgod: 樓上你只考慮了跟前一筆.... 09/27 19:05
6F:→ andrew43: 我想到針對時間做 hclust + cutree 來針對時間分群。 09/28 02:18
7F:→ andrew43: https://ideone.com/CD6sc6 09/28 02:41
8F:→ andrew43: 另外,發問者你說6小時應該說錯了,可以大E修文一下。 09/28 02:43
9F:→ andrew43: 嗯,我解錯了。後來補充說明中說了只要和前一筆比就行了 09/28 02:58
10F:→ andrew43: 若如此,我的解中 "complete" 改成 "single" 09/28 03:02
11F:→ beatnik: 感謝以上大大, 我會再來好好試著解看看 09/29 06:53







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BabyMother站內搜尋

TOP