决策树简要介绍(一) 决策树理论基础

日期:2019-10-04编辑作者:房产

注:本文适合初学者。

决策过程中提出的每个判定问题都是对某个属性的测试
每个测试的结果:
1)导出结论
2)导出进一步判定的问题

基本概念

彩世界官网 1

     决策树学习是一种采用树状结构的有监督机器学习方法。决策树是一个预测模型,表示对象特征和对象值之间的一种映射。其不需要学习者有多少相关领域知识,是一种非常直观易于理解的算法。


     例,预测贷款用户是否具有偿还贷款的能力的决策树:

决策树的关键是选择最优划分属性,即分支结点所包含的样本尽可能属于同一类别,结点纯度越来越高

     彩世界官网 2

信息熵(information entropy):度量样本集合纯度的常用指标 (越小纯度越高)
假定样本集合D中第k类样本所占比例为p_k,则D的信息熵定义为:

    每个用户(样本)有三个属性(特征):是否拥有房产,是否已婚,年收入。现在给定一个用户A(无房产,单身,年收入55K),那么根据上面决策树,按照蓝色虚线路径可以预测该用户没有偿还贷款能力。

彩世界官网 3

    可以看出,决策树的每个非叶子节点存储的是用于分类的特征,其分支代表这个特征在某个值上的输出,而每个叶子节点存储的就是最终的类别信息。

信息增益(information gain): 用属性a对样本集D进行划分 (信息增益越大,则纯度提升越大)
a有V个可能取值,即产生V个分支结点,D_v为属性取值为a_v的样本,赋概率为权重

    简而言之,利用决策树进行预测的过程就是从根节点开始,根据样本的特征属性选择不同的分支,直到到达叶子结点,得出预测结果的过程。

彩世界官网 4

    决策树优点:1).决策树模型可以读性好,具有描述性,有助于人工分析;2).效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度(特征均为离散特征)。

如 ID3决策树学习算法 以信息增益为准则 选择增益大的为划分属性

 

如把编号作为属性,每个分支结点只包含一个样本,纯度已为最大,但这种决策树不具有泛化能力,无法对新样本进行有效预测

构造决策树

信息增益准则对可取值数目较多的属性有所偏好
为减少这种偏好带来的影响,用增益率来选择最优划分

 

彩世界官网 5

     构造决策树就是根据现有样本数据生成一个树结构,现在考虑一种最简单的情况,即样本数据特征均为离散的,如下。

IV(a)为属性a的固有值,a的可能取值数目越多,固有值通常越大
增益率对可取值数目较少的属性有所偏好

ID

拥有房产

是否已婚

年收入>80K?

有能力偿还债务

1

2

3

4

5

6

7

8

9

10


 

基尼指数(Gini Index): 从数据集中随机抽取两个样本,其类别标记不一致的概率,Gini越小,纯度越高

    假设我们有如上样本,如何从根节点开始一步步得到一个决策树呢?

彩世界官网 6

    第一步:确定一个分裂属性(即以样本数据的哪个特征进行划分)。

属性a的基尼指数:(选取划分后基尼指数小的 --- min)

    此处确定最优划分特征的方法是整个决策树的关键部分。最优划分特征的选择基于一个目标:使得分裂后各个节点数据的“纯度”最高。即尽量使得通过该特征进行分类后的分支节点所包含的样本属于同一类别。选择一个合适的特征作为判断节点,可以快速的分类,减少决策树的深度。

彩世界官网 7

    如何量化这种“纯度”?


    1.信息增益

剪枝(pruning)是对付过拟合的主要手段

    给出一个信息熵的定义,假设样本用D表示,

  • 预剪枝
    • 彩世界官网 ,结点在划分前,先分析是否可以提升泛化性能,若不能则停止划分,标记为叶节点
    • 很多分支没有展开,降低了过拟合风险,训练和测试时间开销低
    • 有些分支当前无法提高泛化性能,但基于其的后续划分可能会有泛化性能的显著提高。基于“贪心”,可能会欠拟合
  • 后剪枝
    • 先生成完整的决策树,然后自底向上对非叶节点进行考察,若将子树替换为叶节点能提升泛化性能,则替换
    • 欠拟合风险小,泛化性能优于预剪枝
    • 训练时间开销比 未剪枝 和 预剪枝 大的多

彩世界官网 8

判断泛化性能是否提升:

  1. 用留出法,选取测试集&验证集
  2. 分析划分前后验证集精度

    


    其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。M为类别数,上例中是、否有能力偿还贷款,m=2。

连续值:离散化技术

    熵表示样本的混乱程度,样本数据越无序,越混乱,熵就越大。可以考虑通过比较划分特征前后样本数据熵的变化,来确定样本的纯度变化。

  1. 对连续属性a,考察包含n-1个元素的候选划分点:

    定义信息增益:

![](https://upload-images.jianshu.io/upload_images/6575351-bc8384a2eb205673.png)

彩世界官网 9

  1. 选取最优的划分点:

 

![](https://upload-images.jianshu.io/upload_images/6575351-ec4589c8ea6fd155.png)

    

与离散属性不同,连续属性可重复使用,可作为其后代结点的划分属性

    其中,a代表划分的特征,特征a有V个可能的取值(a1,a2,…aV),D中在特征a^(v)上取值为的所有样本定义为D^(v),|D|表示D中样本个数。

缺失值

    可以认为,信息增益越大,则意味着以特征a来进行划分,所获得的“纯度提升越大”。因此可以遍历所有特征,选取使得信息增益最大的特征作为当前结点的分裂特征。

  1. 属性值缺失,如何进行划分属性选择?

    需要知道的是信息增益准则对可取值数目较多的特征有所偏好,如果将表1中的ID列也作为特征,可以计算其信息增益,是所有特征里面最大的,因为其将原始样本分成10个分支,且每个分支都只有一个样本,纯度自然是最高的,但这并没有泛化能力。

  • 用 无缺失样本所占比例 为权值
  • 考虑 无缺失样本中的增益

    

![](https://upload-images.jianshu.io/upload_images/6575351-27fc527969c99109.png)

    2.增益率

  1. 给定划分属性,若值缺失,如何对样本进行划分

    增益率是在信息增益偏向多取值特征的特性上做出的改进,减少了该偏向可能带来的不利影响。具体定义为:

  • 调整样本权值,让同一样本以不同概率划入到不同子节点中

 


彩世界官网 10

决策树形成的分类边界是轴平行,当在真实分类边界比较复杂时,决策树需要进行大量的属性测试,开销大。

     

彩世界官网 11

    该公式利用IV(a),表示特征a的一个特性,特征的取值数目越多,则IV的值通常会越大,可以达到消除多取值特征带来的不利影响。

若使用斜的边界划分,则模型将大为简化。

本文由彩世界发布于房产,转载请注明出处:决策树简要介绍(一) 决策树理论基础

关键词:

福布斯:全美应对经济衰退表现最差和最佳10座城

当然,相关性不等于因果性。当我们发现A与B同时出现的时候,不一定就可以得出结论说A是B的原因。也有可能,B是...

详细>>

小结一下app提交审核不通过的经验

审核被拒原因有很多,其中遇到过的: 1.崩溃问题。当时用的是beeframework的框架,苹果开始必须支持64位。 2.抽奖活动...

详细>>

高收入,都以睡出来的

“我一生只想做一件事:边睡觉,边赚钱。”   “呵呵,我也想。”   很多人说一个人能不能成功,取决于他是否有...

详细>>

2012新的发端,介绍一下AgileEAS.NET平台在新的一年

三、关于创业 因为2008年在内蒙把胃给伤坏了,身体一下子差了很多,在2009年吃了一年的中药,到现在我不赶吃太过...

详细>>