作者xiangying (有咲控 = U =)
看板R_Language
標題[問題] 在data frame中移除出現重複元素的 rows
時間Tue Feb 16 20:54:56 2021
假設有一個 data frame 只有兩個變數 X Y,
其數值如下:
X Y
1 2
1 3
2 4
2 6
3 2
3 7
.
.
.
那我希望能夠去除出現重複元素的 rows,
所以就會剩下:
X Y
1 2
3 7
.
.
.
目前是用 for loop,但由於資料量較大導致會花上不少時間,
想請問有沒有其他方法可以更快解決?謝謝
--
這是我老婆,如果你之前沒看過,現在再看一次
https://imgur.com/o8uCC4R
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.241.130.39 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1613480106.A.182.html
1F:推 andrew43: unique(...) 02/16 21:05
2F:→ xiangying: 嗯...我試過 unique, distinct 跟 duplicate,但這些滿 02/16 21:17
3F:→ xiangying: 足不了需求,還是說有什麼參數是我沒注意到的? 02/16 21:17
4F:推 wenbuneatble: 兩個欄分別distinct之後再bind_cols即可 02/16 21:34
5F:→ locka: 你的需求有順序問題,意即row1的(1,2)如果選擇留下,row2的( 02/16 21:36
6F:→ locka: 1,3)就需排除,這種情況下自己寫loop可能是最好的方法,向 02/16 21:36
7F:→ locka: 量化寫法比較難控制先後順序 02/16 21:36
8F:→ wenbuneatble: distinct(df, X) %>% bind_cols(distinct(df, Y)) 02/16 21:36
9F:→ locka: 樓上如果兩個欄位各自distinct後數量不一樣,這樣還可以bin 02/16 21:39
10F:→ locka: d嗎? 02/16 21:39
11F:→ xiangying: 兩個各自distinct無法達到要的效果(以上面為例,X=2的 02/16 21:56
12F:→ xiangying: rows不會被砍掉) 02/16 21:56
13F:→ xiangying: 如同L大所說,想知道是不是只剩下loop這方法,不然就是 02/16 21:58
14F:→ xiangying: 要寫一個底層的函數或是用foreach之類的來加速 02/16 21:58
15F:→ xiangying: 補充說明一下,在考慮該row 是否要被移除,就是看該row 02/16 22:16
16F:→ xiangying: 的每個值是否在前面的rows任意的變數中出現過 02/16 22:16
18F:推 cywhale: (2,4) or (2,6) 為什麼在預設答案中沒有一個留下? 02/16 22:30
19F:→ xiangying: 謝謝S大的程式碼,又學了一課,是快上不少,雖然在實際 02/16 22:41
20F:→ xiangying: 數據上還是需要數以分鐘的計算時間,但應該是目前較快 02/16 22:41
21F:→ xiangying: 的方法 02/16 22:41
22F:→ xiangying: C大,因為row 1的(1,2)導致後面的rows的X與Y不能出現 02/16 22:42
23F:→ xiangying: 1或2 02/16 22:42
24F:推 cywhale: so若先刪x,y共有重複,再刪x,y各自重複,再刪互有重複? 02/16 22:58
26F:→ cywhale: 啊我沒有做一般性測試 最後列可能有bug..sorry..概念參考 02/16 23:03
27F:→ xiangying: 不會,感謝您的想法,明天來測一下真實數據能多快,謝 02/16 23:14
28F:→ xiangying: 謝 02/16 23:14
29F:推 locka: 感謝17樓S大提供的做法,原來有apply(df,2,"%in%"…)這種寫 02/16 23:35
30F:推 locka: 法 學習了~FUN的部分竟然能以字串的方式放pipe運算子,好神 02/16 23:35
31F:推 locka: 奇 哈哈 02/16 23:35
32F:→ locka: C大的做法的確有bug喔(一樣也是順序的問題),剛剛幫忙測過 02/16 23:38
33F:→ locka: 了~遞迴寫法不好寫 S大厲害!! 02/16 23:38
34F:推 evilove: 為什麼我完全看不懂原po的需求@@.. 02/17 13:40
35F:→ Gjerry: 原po 希望得到一個 data.frame 裡面的每個 row 包含的x y 02/17 15:36
36F:→ Gjerry: 都沒出現在該 row 之前的任一 row 中 02/17 15:36
37F:→ Gjerry: 然後這些 row 都來自一個給定的 data.frame 02/17 15:37
38F:→ andrew43: row2有y=3了為什麼預期x=3被留下來? 一樣還沒看懂... 02/17 15:57
39F:→ Gjerry: 應該說從第一列開始,記錄一個set包含出現過的 x, y,如 02/17 16:12
40F:→ Gjerry: 果接下來的一列裡面包含此set內的值,就丟棄這列;若無就 02/17 16:12
41F:→ Gjerry: 保留這列,然後將這列x, y放入set中。重複這個步驟到最後 02/17 16:12
42F:→ Gjerry: 一列,然後輸出保留的列。 02/17 16:12
44F:→ andrew43: for loop的話可能可以在找到對應時馬上排除剩餘所有可能 02/17 18:34
45F:→ andrew43: 對應的列,可以減少大量的圈數。 02/17 18:35
46F:→ andrew43: 這可讓待比對的資料快速地變少。 02/17 18:37
47F:推 locka: A大的做法也不失為一個好方法,效率取決於不重複資料的稀疏 02/17 18:59
48F:推 locka: 程度~ 02/17 18:59
49F:推 andrew43: 嗯對,太稀疏不值得嘗試。 02/17 19:02
51F:→ kokolotl: 數字多的時候快一些,提供參考 02/19 21:21