第3课:数据清洗与整理

在上节中,我们根据所需解决的数据分析问题,完成从多个数据表中拼接聚合数据的过程,在确认数据在收集前后完整而且 
准确后,我们将进入下一步,对数据质量进行变量级别的清洗与整理。

在这个阶段中,我们工作包含两个方面,一个是“清洗“,即将有问题的数据排除出去,这里主要涉及对数据缺失,异常和其 
他问题的处理;另一个则是”整理“,即将数据转化成更有助于后续分析的样式,比如将实际年龄转换成80后,90后这样有业 
务意义的分组。

数据清洗
–
数据清洗涉及数据缺失,异常和其他问题的处理
数据缺失
    缺失的信息来自于哪个数据表?在原表中它们也是缺失的吗?
    如果在原表也缺失,那么是否是有收集信息的疏漏?
    缺失信息的比例是多少?
数据异常
    数据有明显违背常识的错误
    数据的离群值
    特殊数字来标注“缺失值”

数据整理
–
对数据进行统一的格式化和命名规则处理
对某些信息进行重新编码以满足后续分析需求

我来吐槽

*

*