pandas 消除重复数据

有这样一组重复数据:

pandas 消除重复数据

一、消除重复数据

使用drop_duplicates方法(DataFrame.drop_duplicates(subset=None, keep='first', inplace=False))

pandas 消除重复数据

 

subset参数:根据哪个字段进行重复筛选(多个字段就写成列表形式)

inplace参数:是否在原数据集更改

keep参数:是从头开始筛选还是从末尾数据开始筛选({‘first’, ‘last’, False}, default ‘first’)

import pandas as pd
students = pd.read_excel("C:/Users/Administrator/Desktop/Students_Duplicates.xlsx")
students.drop_duplicates(subset="Name",inplace=True,keep="first")

二、定位重复数据

dup = students.duplicated(subset="Name")#确定是否为重复数据  bool类型
dup = dup[dup]#确定重复数据索引
print(students.iloc[dup.index])

pandas 消除重复数据

iloc根据索引定位  官网参考