问:线性回归或者不同阶数的多项式回归,每个模型假设空间中都存在一个最好的f*
,哪个f*
才是最好的?
答:
(1)理论上
从数学公式可以看出,线性回归或者不同阶数的多项式回归的假设空间的关系为:
高阶多项式回归模型的假设空间 包含 低阶多项式回归模型的假设空间
低阶多项式回归模型的假设空间 包含 线性回归模型的假设空间
所以阶数越高(越复杂)的假设空间,越有可能得到最好的f
而且数据上看,复杂模型的`f在训练集上的error确实更低。
(2)实际上
在某个假设空间中选择
f是基于训练集上的error
但在多个假设空间的
f中选择最好的
f`,基于的是测试集上的error。
于是会发现,理论不成立,并非模型的假设空间越复杂,它的f就一定越好。
过于复杂的模型,训练集上error很低,但测试集上的error极高,这种情况称为过拟合。
为什么训练数据上score最小的f在测试数据上score并不小?怎么解决?
测试集上的误差来自哪里?为什么分析测试集上的误差?
模型训练出来的f本质上是什么?与真实的映射是什么关系?
f*是真实f的一个估计值。
什么是偏差和方差?
具有高偏差或者高方差的函数,具体表现是什么?
怎么判断一个f的误差来自哪里?
怎么解决f上的误差?
总结:训练集上的好不一定是真的好