决策树知识思考 旧城等待, 2022-04-22 02:58 140阅读 0赞 #### 1、决策树的模型策略和算法 #### 模型:决策树的学习本质上就是从训练数据集中归纳出一组分类规则,使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度看,学习也是基于训练数据集估计条件概率模型。 策略:决策树的损失函数通常是正则化的极大似然函数,学习的**策略**是以损失函数为目标函数的最小化。 算法:由于这个最小化问题是一个NP完全问题,现实中,我们通常采用启发式算法来近似求解这一最优化问题,因此得到的决策树是次最优的。该启发式算法可分为三步:特征选择、模型生成、决策树的剪枝 #### 2、决策树的损失函数理解 #### 对于决策树的模型和算法,都还好理解,但策略中的损失函数,有点奇怪 ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Nvbmd5dW5saTExMTE_size_16_color_FFFFFF_t_70] 右边第一项表示模型对训练数据的预测误差大小,第二项表示模型的复杂度,也就是用叶节点表示,防止过拟化。 ![在这里插入图片描述][20181101192340987.png] 该问题参考:[https://blog.csdn.net/wjc1182511338/article/details/76793598][https_blog.csdn.net_wjc1182511338_article_details_76793598] 我的理解: 因为如果一个叶子节点下的所有样本都是一个类别,那说明它的预测就没有偏差,对应的熵为0,而如果有不一样类别的样本,说明预测是有偏差的,这个误差就可以用熵来表示,但熵只考虑概率,不考虑样本的个数,因此乘上样本数为该节点的总误差。 #### 3、信息增益和信息增益比 #### 信息增益的问题:偏向于选择取值多的特征 信息增益比的问题:信息增益比通过加一个惩罚系数来克服信息增益的不足,但也带来了相反的问题,那就是它会偏向于选择取值少的特征,可以计算一下,当一个特征只有一个取值的时候,信息增益比的分母为0,信息增益比会无穷大,则一定会选它,但这样的选择也没有任何意义。 基于以上两者的缺点,实际的应用并不是直接选择信息增益比最大的特征,而是现在候选特征中找出信息增益高于平均水平的特征,然后在这些特征中再选择信息增益比最高的特征,去避免偏向于取值多或少的特征。 #### 4、决策树算法比较 #### ID3和C4.5构建的不一定是二叉树,但CART一定是二叉树。 ID3和C4.5只能用于分类,CART可用于分类与回归。这应该也是为什么CART要是二叉树的原因(之一),因为如果是多叉树,那对于连续特征的划分就要切2刀以上,搜索复杂度很很高。 ID3,C4.5都是特征用过一次后就不再用了,因为它可以根据特征的取值个数构造对应的多叉树,而对于CART只能构造二叉树,因此一个特征可能使用多次。 [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Nvbmd5dW5saTExMTE_size_16_color_FFFFFF_t_70]: /images/20220422/da7e5eb7e1c448dc998c9b6100484e91.png [20181101192340987.png]: /images/20220422/ef59955001b14369965e2656a63988ea.png [https_blog.csdn.net_wjc1182511338_article_details_76793598]: https://blog.csdn.net/wjc1182511338/article/details/76793598
相关 决策树 [https://www.cnblogs.com/lovephysics/p/7231294.html][https_www.cnblogs.com_lovephysics_p 今天药忘吃喽~/ 2022年12月20日 02:22/ 0 赞/ 10 阅读
相关 决策树 决策树是基于树结构来进行决策,这恰是人类在面临决策问题时一种很自然的处理机制。例如,我们要对“这是好瓜吗?”这样的问题进行决策时,通常会进行一系列的判断或“子决策”:我们先看“ 旧城等待,/ 2022年05月25日 05:39/ 0 赞/ 348 阅读
相关 决策树 一、 决策树简介 决策树是一种特殊的树形结构,一般由节点和有向边组成。其中,节点表示特征、属性或者一个类。而有向边包含有判断条件。如图所示,决策树从根节点开始延伸,经过不 骑猪看日落/ 2022年05月17日 00:55/ 0 赞/ 315 阅读
相关 决策树 决策树:决策树是一个树形结构,每个非叶节点表示一个特征树形的测试,每个分支代表这个特征属性在某个值域上的输出,而叶节点存放一个类别。 使用决策树进行决策的原理就是: 从根 淩亂°似流年/ 2022年05月13日 08:50/ 0 赞/ 253 阅读
相关 决策树 1 认识决策树 如何高效的进行决策? 特征的先后顺序(哪个特征先看,哪个特征后看) 2 决策树分类原理详解(看哪个特征能筛掉更多的数据,尽可能通过少 小咪咪/ 2022年04月23日 01:16/ 0 赞/ 243 阅读
相关 决策树知识思考 1、决策树的模型策略和算法 模型:决策树的学习本质上就是从训练数据集中归纳出一组分类规则,使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度看,学习也是基于训练 旧城等待,/ 2022年04月22日 02:58/ 0 赞/ 141 阅读
相关 决策树 决策树 声明 本文是来自网络文档和书本(周老师)的结合。 概述 决策树(Decision Tree)是在已知各种情况发生概率的[基础][Link 1]上,通 青旅半醒/ 2022年01月30日 06:49/ 0 赞/ 480 阅读
相关 决策树 决策树对实例进行分类的树形结构,由节点和有向边组成。其实很像平时画的流程图。 学习决策树之前要搞懂几个概念: 熵:表示随机变量不确定性的度量,定义:H(p)=-![1409 冷不防/ 2021年09月30日 04:16/ 0 赞/ 510 阅读
相关 决策树 熵的定义 ![5057999-5702853710d12e87.png][] 计算给定数据集的熵 def calcShannonEnt(dataSet): 客官°小女子只卖身不卖艺/ 2021年09月15日 06:34/ 0 赞/ 454 阅读
还没有评论,来说两句吧...