weka使用教程1--ARFF文件生成和使用
weka的数据格式是ARFF
1 生成ARFF文件
以要不要去沙滩的数据集为例进行说明,该数据集有三列 第一列:天气 第二列:温度 第三列:要不要去沙滩
我们把这三列数据复制到 Notepad中,ARFF还需要其他的一些信息:
a) 第1行,是关系名称,这个自己随便起,不过写的最好要有意义。
b) 第2~3行是特征列表,其中第1列是特征说明,不可缺少,第2列是特征名称,第3列是特征类型或特征取值范围。
c) @data(第5行)是数据域说明,在它下面的全是数据。其中每一行体表一条数据。
将文件保存成ARF文件的形式
2 测试
(1)选择Explorer,open file选择上边生成的ARFF文件
(2)选择Classifier为NaiveBayes,Test options选择十次交叉验证,点击start
3. 十折交叉验证的概念
10-fold cross-validation 就是十折交叉验证,用来测试精度。是常用的精度测试方法.将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证 求均值,例如10次10倍交叉验证,更精确一点。