作者xiangying (有咲控 = U =)

看板R_Language

標題

[問題] 在data frame中移除出現重複元素的 rows

時間Tue Feb 16 20:54:56 2021

假設有一個 data frame 只有兩個變數 X Y，其數值如下： X Y 1 2 1 3 2 4 2 6 3 2 3 7 . . . 那我希望能夠去除出現重複元素的 rows，所以就會剩下： X Y 1 2 3 7 . . . 目前是用 for loop，但由於資料量較大導致會花上不少時間，想請問有沒有其他方法可以更快解決？謝謝 -- 這是我老婆，如果你之前沒看過，現在再看一次 https://imgur.com/o8uCC4R --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.241.130.39 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1613480106.A.182.html

1^F：推 andrew43: unique(...) 02/16 21:05

2^F：→ xiangying: 嗯...我試過 unique, distinct 跟 duplicate，但這些滿 02/16 21:17

3^F：→ xiangying: 足不了需求，還是說有什麼參數是我沒注意到的？ 02/16 21:17

4^F：推 wenbuneatble: 兩個欄分別distinct之後再bind_cols即可 02/16 21:34

5^F：→ locka: 你的需求有順序問題，意即row1的(1,2)如果選擇留下,row2的( 02/16 21:36

6^F：→ locka: 1,3)就需排除，這種情況下自己寫loop可能是最好的方法，向 02/16 21:36

7^F：→ locka: 量化寫法比較難控制先後順序 02/16 21:36

8^F：→ wenbuneatble: distinct(df, X) %>% bind_cols(distinct(df, Y)) 02/16 21:36

9^F：→ locka: 樓上如果兩個欄位各自distinct後數量不一樣，這樣還可以bin 02/16 21:39

10^F：→ locka: d嗎？ 02/16 21:39

11^F：→ xiangying: 兩個各自distinct無法達到要的效果（以上面為例，X=2的 02/16 21:56

12^F：→ xiangying: rows不會被砍掉） 02/16 21:56

13^F：→ xiangying: 如同L大所說，想知道是不是只剩下loop這方法，不然就是 02/16 21:58

14^F：→ xiangying: 要寫一個底層的函數或是用foreach之類的來加速 02/16 21:58

15^F：→ xiangying: 補充說明一下，在考慮該row 是否要被移除，就是看該row 02/16 22:16

16^F：→ xiangying: 的每個值是否在前面的rows任意的變數中出現過 02/16 22:16

17^F：→ showfeb: 試試遞迴 https://ideone.com/h9p8Rn 02/16 22:19

18^F：推 cywhale: (2,4) or (2,6) 為什麼在預設答案中沒有一個留下? 02/16 22:30

19^F：→ xiangying: 謝謝S大的程式碼，又學了一課，是快上不少，雖然在實際 02/16 22:41

20^F：→ xiangying: 數據上還是需要數以分鐘的計算時間，但應該是目前較快 02/16 22:41

21^F：→ xiangying: 的方法 02/16 22:41

22^F：→ xiangying: C大，因為row 1的（1,2）導致後面的rows的X與Y不能出現 02/16 22:42

23^F：→ xiangying: 1或2 02/16 22:42

24^F：推 cywhale: so若先刪x,y共有重複，再刪x,y各自重複，再刪互有重複? 02/16 22:58

25^F：→ cywhale: https://ideone.com/NFdoyO 02/16 22:58

26^F：→ cywhale: 啊我沒有做一般性測試最後列可能有bug..sorry..概念參考 02/16 23:03

27^F：→ xiangying: 不會，感謝您的想法，明天來測一下真實數據能多快，謝 02/16 23:14

28^F：→ xiangying: 謝 02/16 23:14

29^F：推 locka: 感謝17樓S大提供的做法，原來有apply(df,2,"%in%"…)這種寫 02/16 23:35

30^F：推 locka: 法學習了~FUN的部分竟然能以字串的方式放pipe運算子，好神 02/16 23:35

31^F：推 locka: 奇哈哈 02/16 23:35

32^F：→ locka: C大的做法的確有bug喔(一樣也是順序的問題)，剛剛幫忙測過 02/16 23:38

33^F：→ locka: 了~遞迴寫法不好寫 S大厲害!! 02/16 23:38

34^F：推 evilove: 為什麼我完全看不懂原po的需求@@.. 02/17 13:40

35^F：→ Gjerry: 原po 希望得到一個 data.frame 裡面的每個 row 包含的x y 02/17 15:36

36^F：→ Gjerry: 都沒出現在該 row 之前的任一 row 中 02/17 15:36

37^F：→ Gjerry: 然後這些 row 都來自一個給定的 data.frame 02/17 15:37

38^F：→ andrew43: row2有y=3了為什麼預期x=3被留下來？一樣還沒看懂... 02/17 15:57

39^F：→ Gjerry: 應該說從第一列開始，記錄一個set包含出現過的 x, y，如 02/17 16:12

40^F：→ Gjerry: 果接下來的一列裡面包含此set內的值，就丟棄這列；若無就 02/17 16:12

41^F：→ Gjerry: 保留這列，然後將這列x, y放入set中。重複這個步驟到最後 02/17 16:12

42^F：→ Gjerry: 一列，然後輸出保留的列。 02/17 16:12

43^F：→ Gjerry: https://ideone.com/J1XkGl 02/17 17:36

44^F：→ andrew43: for loop的話可能可以在找到對應時馬上排除剩餘所有可能 02/17 18:34

45^F：→ andrew43: 對應的列，可以減少大量的圈數。 02/17 18:35

46^F：→ andrew43: 這可讓待比對的資料快速地變少。 02/17 18:37

47^F：推 locka: A大的做法也不失為一個好方法，效率取決於不重複資料的稀疏 02/17 18:59

48^F：推 locka: 程度~ 02/17 18:59

49^F：推 andrew43: 嗯對，太稀疏不值得嘗試。 02/17 19:02

50^F：推 kokolotl: 借用s大的程式碼當範例 https://ideone.com/0roCLw 02/19 21:20

51^F：→ kokolotl: 數字多的時候快一些，提供參考 02/19 21:21

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

R_Language 板

[問題] 在data frame中移除出現重複元素的 rows

熱門看板

贊助商連結