问:线性回归或者不同阶数的多项式回归,每个模型假设空间中都存在一个最好的f*,哪个f*才是最好的?
答:
(1)理论上
从数学公式可以看出,线性回归或者不同阶数的多项式回归的假设空间的关系为:
高阶多项式回归模型的假设空间 包含 低阶多项式回归模型的假设空间
低阶多项式回归模型的假设空间 包含 线性回归模型的假设空间
所以阶数越高(越复杂)的假设空间,越有可能得到最好的f
而且数据上看,复杂模型的`f
在训练集上的error确实更低。 (2)实际上 在某个假设空间中选择f是基于训练集上的error 但在多个假设空间的f中选择最好的f`,基于的是测试集上的error。
于是会发现,理论不成立,并非模型的假设空间越复杂,它的f
就一定越好。
过于复杂的模型,训练集上error很低,但测试集上的error极高,这种情况称为过拟合。

为什么训练数据上score最小的f在测试数据上score并不小?怎么解决?

测试集上的误差来自哪里?为什么分析测试集上的误差?

模型训练出来的f本质上是什么?与真实的映射是什么关系?
f*是真实f的一个估计值。

什么是偏差和方差?

具有高偏差或者高方差的函数,具体表现是什么?

怎么判断一个f的误差来自哪里?

怎么解决f上的误差?

总结:训练集上的好不一定是真的好

results matching ""

    No results matching ""