熊猫有每封邮件一行

问题描述:

说我有如下表,彼得和汉拿山,熊猫有每封邮件一行

Name Age occupation BillingContactEmail 
Peter 44 Salesman [email protected] 
Andy 43 Manager [email protected] 
Halla 33 Fisherman [email protected] 

如何使大熊猫包含

Name Age occupation BillingContactEmail 
Peter 44 Salesman [email protected] 
Halla 33 Fisherman [email protected] 

,我们只包含一个实例的电子邮件? (这意味着我们将在年底不同的电子邮件)

+0

看看'remove_duplicates()'。 – DyZ

+2

你应该更具体地说明你想用什么标准来决定保留哪一个。第一次看到这封电子邮件?最老的?等等。 – DSM

使用drop_duplicates

df.drop_duplicates(subset=['BillingContactEmail']) 

    Name Age occupation BillingContactEmail 
0 Peter 44 Salesman    [email protected] 
2 Halla 33 Fisherman    [email protected] 

寻址@ DSM的评论

你应该更具体的了解你想用什么标准决定保留哪一个。第一次看到这封电子邮件?最老的?等

默认情况下,drop_duplicates保留找到的第一个实例。这相当于

df.drop_duplicates(subset=['BillingContactEmail'], keep='first') 

但是,您也可以指定通过keep='last'

df.drop_duplicates(subset=['BillingContactEmail'], keep='last') 

    Name Age occupation BillingContactEmail 
1 Andy 43 Manager    [email protected] 
2 Halla 33 Fisherman    [email protected] 

保持最后一个实例或者删除所有复制

df.drop_duplicates(subset=['BillingContactEmail'], keep=False) 

    Name Age occupation BillingContactEmail 
2 Halla 33 Fisherman    [email protected]