树,信息熵,信息增益,信息增益比(决策树基础知识一)

学习笔记,只是简单记录,供以后学习查阅

树的基本概念!

树的标准定义:
树(tree)是包含n(n>0)个节点的有穷集合,其中:
  (1)每个元素称为节点(node);
  (2)有一个特定的节点被称为根节点或树根(root)。
(3)除根节点之外的其余数据元素被分为m(m≥0)个互不相交的结合T1,T2,……Tm-1,其中每一个集合Ti(1<=i<=m)本身也是一棵树,被称作原树的子树(subtree)。
树具有以下特点:
(1) 每个节点有零个或多个子节点。
(2) 每个子节点只有一个父节点。
(3) 没有父节点的节点称为根节点。

关于树的一些术语
节点的度: 一个节点含有的子树的个数称为该节点的度;
叶节点或终端节点: 度为零的节点称为叶节点;
非终端节点或分支节点: 度不为零的节点;
双亲节点或父节点: 若一个结点含有子节点,则这个节点称为其子节点的父节点;
孩子节点或子节点: 一个节点含有的子树的根节点称为该节点的子节点;
兄弟节点: 具有相同父节点的节点互称为兄弟节点;
树的高度或深度: 定义一棵树的根结点层次为1(或0,不同的书可能介绍不同),其他节点的层次是其父结点层次加1。一棵树中所有结点的层次的最大值称为这棵树的深度。节点的层次:从根开始定义起,根为第1层,根的子结点为第2层,以此类推;
树的度: 一棵树中,最大的节点的度称为树的度;
节点的祖先: 从根到该节点所经分支上的所有节点;
子孙: 以某节点为根的子树中任一节点都称为该节点的子孙。
森林: 由m(m>=0)棵互不相交的树的集合称为森林;
树,信息熵,信息增益,信息增益比(决策树基础知识一)

  • 结点的度:一个结点的子树数目称为该结点的度。(例如结点1的结点的度为3,结点2的结点的度为3,结点3的结点的度为0)。
  • 树的度:所有结点度当中,度最高的一个。(上图树的度是3)。
  • 叶子结点:上图应该是:3、5、6、7、9、10
  • 分枝结点:除了叶子结点,其他的都称为分枝结点,和叶子结点构成互补的关系。(1、2、4、8)
  • 内部结点:分枝结点除了根结点以外的。(2、4、8)
  • 父结点:如5号结点就是2号结点的子结点。
  • 子结点:2号结点是5号结点的父结点。
  • 兄弟结点:5、6、7称为兄弟结点,出自同一个父亲2号结点。
  • 层次:0层、1层、2层、3层。

决策树模型

决策树概念

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶节点。内部结点表示一个特征或属性,叶节点表示一个类。(有监督学习)
树,信息熵,信息增益,信息增益比(决策树基础知识一)
建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法。

  • ID3 (J. Ross Quinlan-1975)核心:信息熵
  • C4.5—ID3的改进,核心:信息增益比
  • CART(Breiman-1984),核心:基尼指数
    树,信息熵,信息增益,信息增益比(决策树基础知识一)
    树,信息熵,信息增益,信息增益比(决策树基础知识一)

决策树与条件概率分布

将特征空间划分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布。
各叶结点(单元)上的条件概率往往偏向某一个类,即属于某一类的概率较大,决策树分类时将该结点的实例强行分到条件概率大的那一类去。

决策树学习

树,信息熵,信息增益,信息增益比(决策树基础知识一)

  • 目标:我们需要的是一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。
  • 决策树学习的损失函数:(通常是)正则化的极大似然函数。但是基于损失函数找到全局最优决策树是NP-完全问题。
  • 现实中决策树学习通常采用启发式方法,即局部最优。
  • 具体做法:每次选择feature时,都挑选择当前条件下最优的那个feature作为划分规则,即局部最优的feature。

树,信息熵,信息增益,信息增益比(决策树基础知识一)
树,信息熵,信息增益,信息增益比(决策树基础知识一)

信息熵

树,信息熵,信息增益,信息增益比(决策树基础知识一)
树,信息熵,信息增益,信息增益比(决策树基础知识一)

条件熵

树,信息熵,信息增益,信息增益比(决策树基础知识一)

信息增益

树,信息熵,信息增益,信息增益比(决策树基础知识一)
树,信息熵,信息增益,信息增益比(决策树基础知识一)
entroppy()表示信息熵

树,信息熵,信息增益,信息增益比(决策树基础知识一)
树,信息熵,信息增益,信息增益比(决策树基础知识一)
树,信息熵,信息增益,信息增益比(决策树基础知识一)

信息增益比

树,信息熵,信息增益,信息增益比(决策树基础知识一)
树,信息熵,信息增益,信息增益比(决策树基础知识一)
n是特征A取值的个数。