pandas 消除重复数据
有这样一组重复数据:
一、消除重复数据
使用drop_duplicates方法(DataFrame.
drop_duplicates
(subset=None, keep='first', inplace=False))
subset参数:根据哪个字段进行重复筛选(多个字段就写成列表形式)
inplace参数:是否在原数据集更改
keep参数:是从头开始筛选还是从末尾数据开始筛选({‘first’, ‘last’, False}, default ‘first’)
import pandas as pd
students = pd.read_excel("C:/Users/Administrator/Desktop/Students_Duplicates.xlsx")
students.drop_duplicates(subset="Name",inplace=True,keep="first")
二、定位重复数据
dup = students.duplicated(subset="Name")#确定是否为重复数据 bool类型
dup = dup[dup]#确定重复数据索引
print(students.iloc[dup.index])
iloc根据索引定位 官网参考