1. 预处理

音频数据的常见预处理步骤：

生成声谱图
伪空白输出

2. 音位 phonemes

音位是语言学家定义的发音的基本单位。
在以前语音识别模型中：
音频片段 --> 音位 --> transcript
在现在的语音识别模型（end-to-end）中：
音频片段 --> transcript

3. 注意力模型做语音识别

4. CTC cost做语音识别

CTC = Connectionist Temporal Classification
basic rule: 将空白符之间的重复字符折叠起来。

用于计算语音识别的cost

[Graves et. al., 2006 Connectionist Temporal Classification: Labelling unsegmented sequence data with recurrent neural networks]

输入音频“the quick fox”
构造一个双向LSTM/GRU，Tx=Ty且非常大
生成的输出可能是这样的：

ttt_h_eee___ ___qqq__

其中_代表空白，代表空格

将空白_之间的重叠字符折叠起来

results matching ""

No results matching ""