Weka之数据可视化
1、打开Explorer界面。
选择数据集(这里以iris.arff为例),点击Visualize可视化面板。如上图,这是一个5x5的二维矩阵,点击打开(petallength,sepallength)。
2、观察界面。
上方下拉框和右侧白色横条都标明了当前的x轴、y轴。
可选择下拉框选择当前的x轴、y轴,也可单击右侧白色横条改变。
注意:左键单击白色横条改变x轴,右键单击白色横条改变y轴。
底部说明了不同数据点颜色代表的鸢尾花的种类,依次为:山鸢尾,杂色鸢尾和维吉尼亚鸢尾。且可左键单击改变对应数据点颜色。
3、单击数据点,查看数据点详细信息。
翻译如下:
实例:第51个实例
花萼长:7.0
花萼宽:3.2
花瓣长:4.7
花瓣宽:1.4
类:杂色鸢尾
仔细观察,会发现此数据点里有两个实例。这是因为这两个实例的花萼长均为5.7,花瓣长均为4.2。
4、调整抖动(Jitter)。
通过调整抖动可以增加x轴、y轴上点的随机性,这样重叠的点随着抖动的增加,将不再重叠。因此,抖动越大,数据点越多。
5、清理异常数据。
选择Select Instance->Rectangle用矩形框框取异常数据,点击“clear”,即可清理。
同理,点击Save可保存框选的数据。
6、将分类结果误差可视化。
退出可视化面板,进入分类面板,选择J48分类器。
右键分类结果列表,选择**“Visualize classifier errors”。(上方下拉框及右侧白色横条仍可改变当前x轴、y轴)
点击红色方形数据点。出现三个误差数据,本应该为异色鸢尾,但错误分类为维吉尼亚鸢尾。