作者s82237823 ()
看板Python
标题[问题] 移除重复的打卡记录
时间Thu Apr 11 05:10:58 2019
各位好
001 AAA 2019/03/19 002 10:12:32 上班
001 AAA 2019/03/19 002 10:12:45 上班
001 AAA 2019/03/19 002 10:13:10 上班
001 AAA 2019/03/19 002 20:34:53 下班
我手上有一份打卡记录如上面所示
3/19 上班有打卡的纪录三笔
但是我只需要第一笔(最早打卡成功)
请问我要怎麽在python里面移除中间的两笔?
资料用Pandas读进来的
要用什麽方法来清理这份资料?
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 70.93.230.230
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1554930661.A.E30.html
1F:→ Luluemiko: pandas.DataFrame.duplicated keep first 04/11 07:09
2F:→ s82237823: 感谢 04/11 09:32
结果实际coding之後遇到一个小麻烦
001 AAA 2019/03/19 002 10:12:32 上班
001 AAA 2019/03/19 002 10:12:45 上班
001 AAA 2019/03/19 002 10:13:10 上班
001 AAA 2019/03/19 002 20:34:53 下班
001 BBB 2019/03/19 002 10:12:32 上班
001 BBB 2019/03/19 002 10:12:45 上班
001 BBB 2019/03/19 002 10:13:10 上班
001 BBB 2019/03/19 002 20:34:53 下班
如果我用 pd.drop_duplicates(['日期'],keep='first')
会只剩下
001 AAA 2019/03/19 002 10:12:32 上班
因为日期是一样的 然後只保留第一个
请问要怎麽选择[姓名][日期][上班or下班]
然後再移除重复的
我现在想到的是 把人名用loop
但是还是需要日期/上下班两个column
请问有什麽好方法或是library可以用吗
谢谢
※ 编辑: s82237823 (134.173.253.56), 04/11/2019 10:47:57
3F:→ s82237823: 已解决 用subset可以选多个column 04/11 10:52