Excel学习笔记2-数据处理

学习资源来自:《谁说菜鸟不会数据分析(入门篇)》第4章

使用版本是MS Office 2016。

数据清洗

1重复数据处理

1.找到重复数据
1.1函数法
出现几次 =COUNTIF(整列,单元格)
第几次出现 =COUNTIF(固定列首单元格:单元格,单元格) ,(A$2:A2,A2)
1.2高级筛选法
数据-高级筛选-复制到其他位置-选择不重复记录
1.3条件格式法
开始-条件格式-突出显示单元格规则-重复值
1.4数据透视表法
插入-数据透视表-选定位置-字段拖到行标签、数值汇总
2.删除重复数据
2.1菜单操作
数据-删除重复项
2.2通过排序
按第几次出现列升序-删除重复项
2.3筛选
按第几次出现列筛选-数字筛选-自定义筛选-不等于1-删除行-结束筛选

2缺失数据处理

1.缺失值
可以接受10%以下
2.查找缺失值
2.1定位输入
Ctrl+G-定位条件-空值
2.2查找替换(以错误标识符出现)
Ctrl+F查找,Ctrl+H替换
3.缺失数据处理
3.1用样本统计量的值代替缺失值(例如平均值)
Ctrl+Enter(Ctrl选中几个格,在其中一个输入值,Ctrl+Enter全部填充)
3.2用统计模型计算出来的值代替(回归模型、判别模型),需要专业数据分析软件
3.3缺失值记录删除
3.4样本量大,缺失值不多,变量之间无相关:缺失值记录保留,在相应分析中做必要排除##

3.检查数据逻辑错误

1.利用IF函数检查错误(多选题选项个数错误)
=IF(COUNTIF(B3:H3,”<>0”)>3,”错误”,”正确”),IF(条件,真返回值,假返回值)
2.利用条件格式标记错误(录入错误)
开始-条件格式-突出显示单元格规格-其他规则-使用公式确定要设置格式的单元格=OR(B3=1,B3=0)=FLASE

数据加工

1.数据抽取

1.字段分列
1.1菜单法
数据区域-数据-数据工具-分列-分隔符号-根据需要选择-完成
1.2函数法
=LEFT(单元格,提取字符数量) ,提取字符串左部指定个数
=RIGHT(单元格,提取字符数量) ,提取字符串右部指定个数
2.字段合并
2.1逻辑与运算符
=单元格&”迟到”&单元格&”次”&TEXT(单元格,”0%”), 单元格迟到单元格次单元格%(TEXT函数转换为百分比)
2.2函数法
=CONCATENATE(单元格,”迟到”,单元格,”次”,···)
3.字段匹配
=VLOOKUP(输入单元格,参考数据,对应数据列数,0精确匹配)

2.数据计算

1.简单计算
开始-编辑-自动求和-求和(平均值、计数、最大值、最小值)
2.函数计算
2.1求和、平均值
=SUM()
=AVERAGE()
2.2日期加减法
2.2.1函数输入日期
=TODAY(),年月日
=NOW(),年月日时间
Ctrl+Shift+;,时间
2.2.2日期增减
=A1+5,加天数
=DATE(YEAR(A2)+3,MONTH(A2)+3,DAY(A2)+3)
2.3计算工龄
DATEDIF(起始时间单元格,结束时间单元格,”间隔数”),Y整年数,M整月数,D天数,MD忽略年月,YM忽略年日,YD忽略年

3.数据分组

准备1个分组对应表-=VLOOKUP(输入单元格,参考数据,对应数据列数,0精确匹配)
Excel学习笔记2-数据处理

4.数据转换

1.行列互换
粘贴-粘贴选项-转置
2.多选题录入方式转换
2.1录入选项不在同一单元格
=IF(ISNUMBER(HLOOKUP(1,A2:C2,1,0)),1,0),HLOOKUP(要查找的值,查找区域,对应区域行数,0精确匹配),IF(条件,TRUE返回1,FALSE返回0)
2.2录入选项在同一单元格
=IF(ISNUMBER(SEARCH(“1”,A11)),1,0),SEARCH(“要找的值”,查找范围)

数据抽样

1.生成随机数

RAND(),0-1均匀分布随机数
RAND()*10+60,60-70均匀分布随机数

2.数据抽样步骤

生成序号-生成随机数=INT(RAND()*6+1)-对应抽象对象=VLOOKUP(输入单元格,参考数据,对应数据列数,0精确匹配)