发明 一种基于深度卷积和注意力机制的唇语识别方法【特价】
计算机视觉 人工智能 人机交互 语音识别 图像处理 计算机视觉 人工智能 人机交互 语音识别 图像处理 【计算机视觉 人工智能 人机交互 语音识别 图像处理】 1人
G06V40/16 G06V10/44 G06V10/82 G06N3/04 G06N3/08
摘要:本发明公开了一种基于深度卷积和注意力机制的唇语识别方法,包括步骤:S1)对大型唇读数据集进行预处理,获取唇部识别图像;S2)将唇部识别图像批量输入到3D卷积网络模型,进行时空特征提取;S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型,进行局部和全局的空间特征提取;S4)将提取的空间特征输入到双向门控循环单元,进行长短期特征序列提取;S5)将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数;S6)基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值。本发明在卷积网络的基础上加入注意力机制模型,并改善其结构,提高了唇语识别率并减小了计算开支。