决策树,C4.5,J48之间什么关系?

前言

目前正在做机器学习数据分析,遇到基于决策树的方法,但是论文中很多都提到j48,在网上找到的资料大多都是c4.5,让人很疑惑,这篇博客受启发于一篇论文,我在其中找到了答案。

c4.5

C4.5决策树算法: C4.5是一种决策树算法,是对Quinlan [17]开发的早期ID3算法的扩展。。通过基于最大化标准化信息增益的属性的选择来确定性地划分训练分区的过程来构造决策树。在添加每个拆分之后,将IF–THEN节点添加到当前决策树。树的每个分支将(训练)数据划分为子集,目的是识别具有相同标签的子集。此过程的递归应用逐步构建决策树,直到叶节点出现具有足够高的归一化信息增益为止。更详细地讲,我们注意到给定示例,训练数据中的类X的期望信息或“熵”具有以下形式:
决策树,C4.5,J48之间什么关系?

j48

J48决策树算法:J48决策树算法:由Ross Quinlan开发的ID3在C4.5决策树之前。C4.5后来在WEKA中使用Java开发为J48。他们都采用贪婪和自上而下的决策树方法。对决策树采取了贪婪和自上而下的方法。该算法用于分类,其中根据训练数据集标记新数据。决策树归纳始于数据集(训练集),该数据集在每个节点处进行分区,从而导致较小的分区,因此遵循递归的分而治之策略。下面显示了J48算法的伪代码。

决策树,C4.5,J48之间什么关系?
简要来说:
1.如果实例属于同一类,则决策树表示标记有相同类的单个叶子。否则,通过拆分每个属性来构建决策树,当子集中的所有实例都属于同一类时,拆分结束。

2.现在,通过测试每个属性来计算信息增益。

3.最后,使用具有最高信息增益值的属性进行决策。

原文链接:https://ieeexplore.ieee.org/document/9043233
https://ieeexplore.ieee.org/document/8321306