File tree 1 file changed +5
-3
lines changed
1 file changed +5
-3
lines changed Original file line number Diff line number Diff line change 4
4
5
5
## 1. 简单介绍随机森林
6
6
7
+ 一种基于树模型的Bagging的优化版本,一棵树的生成肯定还是不如多棵树,因此就有了随机森林,解决决策树泛化能力弱的特点。
8
+
7
9
** 多次随机取样,多次随机取属性,选取最优分割点,构建多个(CART)分类器,投票表决**
8
10
9
11
** 算法流程:**
45
47
46
48
## 7. RF为什么比Bagging效率高?
47
49
48
- Bagging无随机特征,使得训练决策树时效率更低
50
+ 因为在个体决策树的构建过程中,Bagging使用的是“确定型”决策树,bagging在选择划分属性时要对每棵树是对所有特征进行考察;而随机森林仅仅考虑一个特征子集。
49
51
50
52
## 8. 你已经建了一个有10000棵树的随机森林模型。在得到0.00的训练误差后,你非常高兴。但是,验证错误是34.23。到底是怎么回事?你还没有训练好你的模型吗?
51
53
- 模型过拟合十分严重
@@ -95,7 +97,7 @@ Bagging无随机特征,使得训练决策树时效率更低
95
97
- 在训练后,可以给出各个特征对于输出的重要性
96
98
- 由于采用了随机采样,训练出的模型的方差小,泛化能力强。
97
99
- 相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。
98
- - 对部分特征缺失不敏感。
100
+ - 对部分特征缺失不敏感,如果有很大一部分的特征遗失,仍可以维持准确度 。
99
101
- 缺点
100
102
101
103
- 在某些噪音比较大的样本集上,RF模型容易陷入过拟合。
@@ -140,4 +142,4 @@ Adaboost算法利用同一种基分类器(弱分类器),基于分类器的
140
142
* Adaboost是基于Boosting的算法,随机森林是基于Bagging的算法。
141
143
* Adaboost后面树的训练,其在变量抽样选取的时候,对于上一棵树分错的样本,抽中的概率会加大。
142
144
* 随机森林在训练每一棵树的时候,随机挑选了部分特征作为拆分特征,而不是所有的特征都去作为拆分特征。
143
- * 在预测新数据时,Adaboost中所有的树加权投票来决定因变量的预测值,每棵树的权重和错误率有关;随机森林按照所有树中少数服从多数树的分类值来决定因变量的预测值(或者求取树预测的平均值)。
145
+ * 在预测新数据时,Adaboost中所有的树加权投票来决定因变量的预测值,每棵树的权重和错误率有关;随机森林按照所有树中少数服从多数树的分类值来决定因变量的预测值(或者求取树预测的平均值)。
You can’t perform that action at this time.
0 commit comments