1. 声学建模(Acoustic Modeling)
将音频信号转换为**语音单元(如音素)**的概率分布。
典型技术:
1)深度神经网络(DNN)
深度神经网络(DNN, Deep Neural Network)是一种由多层神经元组成的人工神经网络,是现代人工智能(尤其是深度学习)的核心技术之一,广泛应用于语音识别、图像识别、自然语言处理等任务。
2)卷积神经网络(CNN)
卷积神经网络(CNN,Convolutional Neural Network)是一类特别适合处理图像和语音等具有空间结构数据的深度神经网络模型。它广泛应用于计算机视觉、语音识别、医学图像分析、视频理解等领域。
3)循环神经网络(RNN、LSTM、GRU)
循环神经网络(RNN,Recurrent Neural Network)是一种擅长处理序列数据的深度学习模型,广泛应用于语音识别、语言建模、文本生成、机器翻译、时间序列预测等领域。
2. 语言建模(Language Modeling)
预测语音中下一个词或字符的概率,提高语音识别准确率。
典型技术:
1)传统N-gram语言模型
传统的 N-gram语言模型 是自然语言处理中最基础、最经典的一种语言建模方法,它通过统计词与词之间的共现频率,来估算一个词序列出现的概率。它在语音识别、文本生成、拼写校正等任务中曾长期占据主导地位。
2)神经语言模型(RNN-LM、Transformer-LM、BERT、GPT)
神经语言模型(Neural Language Model, NLM)是一类利用神经网络来构建语言模型的技术,目的是:更准确地建模语言序列的上下文语义和预测下一个词的概率。它已经完全取代了传统的 N-gram 模型,成为语音识别、机器翻译、对话生成、自动摘要等任务的核心。
3. 声码器/特征提取(Frontend/Feature Extraction)
将原始语音信号转换为声学特征,常用:
1)MFCC(梅尔频率倒谱系数)
MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)是一种广泛使用的语音特征提取方法,几乎是语音识别、说话人识别、情感识别、语音合成等任务的标准输入特征之一。它的作用是:将原始语音信号转换成能反映人耳听觉特性、适合机器学习的低维特征向量。
2)FBANK(梅尔滤波器组特征)
FBANK(Filter Bank Features,梅尔滤波器组特征)是一种比 MFCC 更“原始”、保留更多信息的语音特征表示方法,在现代语音识别中越来越常用,尤其是在使用深度神经网络(DNN、CNN、Transformer)**进行端到端建模时。
3)Spectrogram(频谱图)
Spectrogram(频谱图) 是一种将音频信号在时间-频率域上可视化的方式,展示了音频信号的频率随时间的变化情况,是语音识别、音乐分析、语音合成等任务中常见的基础特征表示。
4)PLP(感知线性预测特征)
PLP(Perceptual Linear Prediction,感知线性预测特征) 是一种模仿人耳听觉机制来提取语音特征的方法,它在传统语音识别系统中被广泛应用,特别是在 HMM-GMM 架构下,是 MFCC 的常见替代方案之一。
4. 解码器(Decoder)
1)将声学模型输出 + 语言模型输出结合,解码为文字。
”是 语音识别系统中的解码(Decoding)过程,也称为 联合解码 或 解码器推理。这是将声学模型(Acoustic Model, AM)和语言模型(Language Model, LM)的概率信息结合起来,最终输出文本的关键步骤。
2)Beam Search(束搜索)是常见的推理算法。
是自然语言处理和语音识别等序列生成任务中非常常用的一种启发式搜索算法,它在解码阶段用来从庞大的输出空间中高效地寻找最优(或近似最优)的序列。