1. CART决策树
CART:Classification And Regression Tree
最小二乘回归树
1.1. 回归树模型
f(x)=m=1∑MCmI(x∈Rm)
所设CART树分成了M个叶子结点,每个叶子结点对应的输出标签为Cm
即:
f(x)=Cm,ifx∈Rm
1.2. 划分
选择第j个特征x(j)和它的取值s:
R1(j,s)={x∣x(j)≤s}R2(j,s)={x∣x(j)>s}
1.3. 策略
寻找最优变量j, s使得R1、R2的平方误差之和最小
1.4. CART和ID3、C4.5的区别
ID3、C4.5 |
CART |
基于feature划分 |
基于(feature, value)划分 |
该特征可以有几个取值,就划分成多少个子树 |
2叉树 |
该特征的每一个取值对应一个子树 |
分为X[:,feature]<=value和X[:,feature]>value |