Introduction
第6章 深度前馈网络
6.1 例子:学习XOR
6.2 基于梯度的学习
6.2.1 代价函数
6.2.1.1 使用最大似然学习条件分布
6.2.1.2 学习条件统计量
6.2.2 输出单元
6.2.2.1 用于高斯输出分布的线性神单元
6.2.2.2 用于Bernoulli输出分布的sigmoid单元
6.2.2.3 用于Multinoulli输出分布的softmax单元
6.3 隐藏单元
6.3.1 ReLU及其扩展
6.3.2 logistic sigmoid与双曲正切函数
6.3.3 其他隐藏单元
李宏毅补充 SELU
6.4 架构设计
6.5 反向传播和其他的微分算法
6.5.1 计算图
6.5.2 微积分中的链式法则
6.5.3 递归地使用链式法则来实现反向传播
6.5.4 全连接MLP中的反向传播计算
6.5.5 符号到符号的导数
6.5.6 一般化的反向传播
6.5.7 实例:用于MLP 训练的反向传播
6.5.8 复杂化
第7章 深度学习中的正则化
7.1 参数范数惩罚
7.1.1 L2参数正则化
7.1.2 L1参数正则化
7.2 作为约束的范数惩罚
7.3 正则化和欠约束问题
7.4 数据集增强
7.5 噪声鲁棒性
7.6 半监督学习
7.7 多任务学习
7.8 提前终止
7.9 参数绑定和参数共享
7.10 稀疏表示
7.11 Bagging 和其他集成方法
7.12 Dropout
7.13 对抗训练
7.14 切面距离、正切传播和流形正切分类器
Ag补充 一些能用于提升比赛成绩的方法
第8章 深度模型中的优化
8.1 学习和纯优化有什么不同
8.1.1 经验风险最小化
8.1.2 代理损失函数和提前终止
8.1.3 批量算法和小批量算法
8.2 神经网络优化中的挑战
8.2.1 病态
8.2.2 局部极小值
8.2.3 8.2.3 高原、鞍点和其他平坦区域
8.2.4 悬崖和梯度爆炸
8.2.5 长期依赖
8.2.6 非精确梯度
8.3 基本算法
8.3.1 随机梯度下降
8.3.2 动量
8.3.3 Nesterov 动量
8.4 参数初始化策略
8.5 自适应学习率算法
8.5.1 AdaGrad
8.5.2 RMSProp
8.5.3 Adam
8.5.4 选择正确的优化算法
8.6 二阶近似方法
8.6.1 牛顿法
8.6.2 共轭梯度
8.6.3 BFGS
8.7 优化策略和元算法
8.7.1 批标准化
8.7.2 坐标下降
8.7.3 Polyak 平均
8.7.4 监督预训练
8.7.5 设计有助于优化的模型
第9章 卷积网络
9.1 卷积运算
9.2 动机
9.3 池化
9.4 卷积与池化作为一种无限强的先验
9.5 基本卷积函数的变体
9.6 结构化输出
9.7 数据类型
第10章 序列建模:循环和递归网络
10.1 展开计算图
10.2 循环神经网络
10.2.1 导师驱动过程和输出循环网络
10.2.2 计算循环神经网络的梯度
10.2.3 作为有向图模型的循环网络
10.2.4 基于上下文的RNN序列建模
10.3 双向RNN
10.4 基于编码 - 解码的序列到序列架构
10.5 深度循环网络
10.6 递归神经网络
10.7 长期依赖的挑战
10.9 渗漏单元和其他多时间尺度的策略
10.10 长短期记忆和其他门控RNN
10.10.1 LSTM
10.10.2 其他门控RNN
10.11 优化长期依赖
10.11.1 梯度截断
10.11.2 引导信息流的正则化
10.12 外显记忆
第11章 实践方法论
11.1 性能度量
11.2 默认的基准模型
11.3 决定是否收集更多数据
11.4 选择超参数
11.4.1 手动选择超参数
11.4.3 网络搜索
11.4.4 随机搜索
11.5 调试策略
Published with GitBook
第7章 深度学习中的正则化
正则化:对学习算法的修改——旨在减少泛化误差而不是训练误差。
向机器学习模型添加限制参数值的额外约束。
向目标函数增加额外项来对参数值进行软约束。
结合多个假说来解释训练数据。
[success]
训练集上效果不好时,使用第8章的方法。
训练集上效果好而测试集上效果不好时,使用第7章的方法。
results matching "
"
No results matching "
"