决策树与分类算法之C4.5
一、什么是C4.5算法
C4.5算法是优化的ID3算法(什么是ID3算法)。优化点在:ID3要求每个分支点的比例相同。但是举例例子,每个人居住的城市不同,数据中某个城市的人数较多,这就会影响决策树生成。
解决办法
- 把城市上升一个等级,比如省份、华南华北、南方北方
- C4.5做法是算信息增益率。
二、举个列子
这里算水生动物的信息增利率
C4.5算法是优化的ID3算法(什么是ID3算法)。优化点在:ID3要求每个分支点的比例相同。但是举例例子,每个人居住的城市不同,数据中某个城市的人数较多,这就会影响决策树生成。
解决办法
这里算水生动物的信息增利率