pandas 消除重复数据

有这样一组重复数据：

pandas 消除重复数据

一、消除重复数据

使用drop_duplicates方法（DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)）

pandas 消除重复数据

subset参数：根据哪个字段进行重复筛选（多个字段就写成列表形式）

inplace参数：是否在原数据集更改

keep参数：是从头开始筛选还是从末尾数据开始筛选（{‘first’, ‘last’, False}, default ‘first’）

import pandas as pd
students = pd.read_excel("C:/Users/Administrator/Desktop/Students_Duplicates.xlsx")
students.drop_duplicates(subset="Name",inplace=True,keep="first")

二、定位重复数据

dup = students.duplicated(subset="Name")#确定是否为重复数据  bool类型
dup = dup[dup]#确定重复数据索引
print(students.iloc[dup.index])

pandas 消除重复数据

iloc根据索引定位官网参考

pandas 消除重复数据

一、消除重复数据

二、定位重复数据

相关推荐