1. 什么是线性单元

一种简单的输出单元是基于仿射变换的输出单元,仿射变换不具有非线性。 这些单元往往被直接称为线性单元。

[success]仿射函数

给定特征hh,线性输出单元层产生一个向量y^=Wh+b\hat{y} = W^\top h+b

2. 特点1:生产高斯分布的均值

线性输出层经常被用来产生条件高斯分布的均值:

p(yx)=N(y;y^,I) p(y\mid x) = N(y; \hat{y}, I )

[success] 问:什么叫“被用来产生条件高斯分布的均值”?
答:这句话看起来有点拗口,我是这么理解的。
如果向unit输入x,得到输出y^\hat y。那么认为p(y|x)符合均值为y^\hat y标准差为I的高斯分布。

  

[warning] 公式p(y|x)是怎么推导出来的?

3. 特点2: 其交叉熵代价函数等价于MSE代价函数

最大化其对数似然此时等价于最小化均方误差。

[success] 当p(y|x)符合高斯分布时,交叉熵代价函数等价于MSE代价函数(二次代价函数),这在5.5.1和6.2.1.1中已经证明过了。

linear unit + cross entropy

4. 特点3:协方差

最大似然框架也使得学习高斯分布的协方差矩阵更加容易,或更容易地使高斯分布的协方差矩阵作为输入的函数。

[warning] [?] 这一段看不懂

然而,对于所有输入,协方差矩阵都必须被限定成一个正定矩阵。

[warning] [?] 这一段看不懂

线性输出层很难满足这种限定,所以通常使用其他的输出单元来对协方差参数化。 对协方差建模的方法将在第6.2.2.4节中简要介绍。

[warning] [?] 这一段看不懂

5. 特点4:不会饱和

因为线性模型不会饱和,所以它们易于采用基于梯度的优化算法,甚至可以使用其他多种优化算法。

[success] 问:为什么线性模型不会饱和?
答:线性模型的激活函数为f(x)=x,导数始终为1,因此不会出现饱和的情况。

results matching ""

    No results matching ""