Naive Bayerian Classification
贝叶斯假设条件:
1、每个属性同等重要。
2、每个属性在统计上都是独立的。
3、比较prefer类别型字段。预测类别形态数据。
优点
以前的数据可以丢掉,一直更新。很快的训练。
注意事项:
1、处理0的问题:每个类别加0.5。在weka中以1进行计数。
案例:预测患者的疾病。
2、若连续性数据,要离散化。
3、missing data 的处理视而不见,根据有值的部分进行预测。
4、数值型字段的处理:
用正态分布的公式处理
5、支持自增、更新的数据。在大数据中有很好的应用。
6、目标字段和每个字段都有关系。