熊猫有每封邮件一行
问题描述:
说我有如下表,彼得和汉拿山,熊猫有每封邮件一行
Name Age occupation BillingContactEmail
Peter 44 Salesman [email protected]
Andy 43 Manager [email protected]
Halla 33 Fisherman [email protected]
如何使大熊猫包含
Name Age occupation BillingContactEmail
Peter 44 Salesman [email protected]
Halla 33 Fisherman [email protected]
,我们只包含一个实例的电子邮件? (这意味着我们将在年底不同的电子邮件)
答
使用drop_duplicates
df.drop_duplicates(subset=['BillingContactEmail'])
Name Age occupation BillingContactEmail
0 Peter 44 Salesman [email protected]
2 Halla 33 Fisherman [email protected]
寻址@ DSM的评论
你应该更具体的了解你想用什么标准决定保留哪一个。第一次看到这封电子邮件?最老的?等
默认情况下,drop_duplicates
保留找到的第一个实例。这相当于
df.drop_duplicates(subset=['BillingContactEmail'], keep='first')
但是,您也可以指定通过keep='last'
df.drop_duplicates(subset=['BillingContactEmail'], keep='last')
Name Age occupation BillingContactEmail
1 Andy 43 Manager [email protected]
2 Halla 33 Fisherman [email protected]
保持最后一个实例或者删除所有复制
df.drop_duplicates(subset=['BillingContactEmail'], keep=False)
Name Age occupation BillingContactEmail
2 Halla 33 Fisherman [email protected]
看看'remove_duplicates()'。 – DyZ
你应该更具体地说明你想用什么标准来决定保留哪一个。第一次看到这封电子邮件?最老的?等等。 – DSM