《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3.3 数据间逻辑的排查

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.3.3节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3.3 数据间逻辑的排查

重复值、空行(列)、缺失值这些都是比较明显的错误,而数据之间的逻辑关系则是比较隐蔽的问题。案例文件3.9给出了对啤酒饮用习惯进行调查后所记录的数据,先来看看年龄和学历这两组数据,单独看这两组数据并无可疑之处,但是考虑到逻辑关系就不尽然了。
从目前我国大学的情况看,一般本科生毕业在21~23岁,硕士生毕业在25~27岁,如果考虑学历和年龄之间的逻辑关系,再对案例文件3.9进行排查,看看情况如何。这里使用条件格式进行排查,如图3-25所示。
进行条件格式后的界面如图3-26所示。

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3.3 数据间逻辑的排查
《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3.3 数据间逻辑的排查


在图3-26中,选择自定义公式,在公示栏中输入公式:=AND(C2<=25, D2>=5),也就是当C2(年龄)小于等于25,并且学历大于等于5(5是硕士,6是博士)的时候,将编号填充为红色,结果如图3-27所示。

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3.3 数据间逻辑的排查


从图3-27可以看出,编号为11和18的,其学历和年龄之间的逻辑关系不正常,需要重点关注和纠正。
根据业务关系来排查数据的例子还很多,这需要读者结合自己的业务逻辑努力去排查判断。
此外,数据合并也是数据准备的重要内容,这将在4.1节中详细叙述,在此不再重复。