熊猫有每封邮件一行

问题描述：

说我有如下表，彼得和汉拿山，熊猫有每封邮件一行

Name Age occupation BillingContactEmail 
Peter 44 Salesman [email protected] 
Andy 43 Manager [email protected] 
Halla 33 Fisherman [email protected]

如何使大熊猫包含

Name Age occupation BillingContactEmail 
Peter 44 Salesman [email protected] 
Halla 33 Fisherman [email protected]

，我们只包含一个实例的电子邮件？（这意味着我们将在年底不同的电子邮件）

看看'remove_duplicates（）'。 – DyZ

你应该更具体地说明你想用什么标准来决定保留哪一个。第一次看到这封电子邮件？最老的？等等。 – DSM

答

使用drop_duplicates

df.drop_duplicates(subset=['BillingContactEmail']) 

    Name Age occupation BillingContactEmail 
0 Peter 44 Salesman    [email protected] 
2 Halla 33 Fisherman    [email protected]

寻址@ DSM的评论

你应该更具体的了解你想用什么标准决定保留哪一个。第一次看到这封电子邮件？最老的？等

默认情况下，drop_duplicates保留找到的第一个实例。这相当于

df.drop_duplicates(subset=['BillingContactEmail'], keep='first')

但是，您也可以指定通过keep='last'

df.drop_duplicates(subset=['BillingContactEmail'], keep='last') 

    Name Age occupation BillingContactEmail 
1 Andy 43 Manager    [email protected] 
2 Halla 33 Fisherman    [email protected]

保持最后一个实例或者删除所有复制

df.drop_duplicates(subset=['BillingContactEmail'], keep=False) 

    Name Age occupation BillingContactEmail 
2 Halla 33 Fisherman    [email protected]

熊猫有每封邮件一行

相关推荐