用python进行数据分析:杂乱字符串的处理

用python进行数据分析:杂乱字符串的处理

python:杂乱字符串的处理

数据集来自科大讯飞算法营销大赛,目的是探索各个维度与广告点击率的关系。

品牌和机型的数据清洗处理

1.让我们先来看一下原数据,清洗思路是合拼机型与品牌再做数据可视化分析。
用python进行数据分析:杂乱字符串的处理
2.来简单探索下原数据,可以看到机型与品牌都有一定的空值,同一品牌有不同的描述语句。
用python进行数据分析:杂乱字符串的处理
用python进行数据分析:杂乱字符串的处理
3.第一步选择合并两列数据,填充空值为0,并且全部大写处理,清楚空格,为后续处理做准备。
用python进行数据分析:杂乱字符串的处理
用python进行数据分析:杂乱字符串的处理
4.简单探索后,提取10个左右使用量最多的品牌,按如下语法去逐一清洗。
用python进行数据分析:杂乱字符串的处理
用python进行数据分析:杂乱字符串的处理
5.清洗完成后,分析数据,可视化结果。
用python进行数据分析:杂乱字符串的处理
用python进行数据分析:杂乱字符串的处理
用python进行数据分析:杂乱字符串的处理

用python进行数据分析:杂乱字符串的处理
用python进行数据分析:杂乱字符串的处理
6.总结:
1.使用OPPO或VIVO的用户的广告点击率较高均超过0.2,其余品牌点击率相似。