人工智能深入研究

文件大小：1.2MB
浏览次数：
发布时间：2020-04-06

文件介绍：

本资料包含doc文件1个，下载需要10积分

人工智能深入研究

嘴唇识别是通过捕捉人们说话时嘴唇的运动来分析他们所说的话。它在人机交互、语音识别、视频监控等领域具有广阔的应用前景。传统的唇形识别系统主要包括三个部分：唇形检测与定位、唇形区域特征提取和唇形识别。然而，由于图像预处理过程复杂，人工设计耗时、经验丰富、不完全，分类器训练困难等特点，传统的唇形识别方法发展缓慢，难以满足实际应用的要求。
近年来，深度学习引起了越来越多的研究者的关注，并在图像识别、人体运动识别、语音识别和自然语言处理等领域取得了突破性进展。深度学习可以直接从原始数据中逐层学习更多的抽象特征，避免了传统的人工特征选择和高性能分类器设计过程，能够真正实现端到端的完整识别系统。摘要研究了深度学习在唇形识别中的应用，提出了一种卷积神经网络
（CNN）和递归神经网络（RNN）。整个唇形识别的研究可分为以下四个部分：
首先，对本文使用的数据库进行预处理。它可以分为两部分：首先，采用随机抽样的方法从视频中提取固定帧数的帧。然后定位并提取唇部区域。采用AdaBoost算法对人脸区域进行检测，并利用Dlib库对人脸68个关键点进行进一步标定。通过提取描述嘴唇的5个关键点，准确地得到了本文的研究对象，即嘴唇区域。
然后利用CNN直接提取静态唇部图像的空间特征。本文对Alex网络模型进行了预训练，利用其8层网络结构将局部特征融合到全局特征中，提取fc7层的空间特征向量来描述唇部区域的图像。提取的空间特征具有鲁棒性和容错性。
因为在视频中，除了视频帧中的静态图像信息外，帧之间还有时序信息。因此在CNN的基础上，加入RNN结构来提取序列间的时间特征。为了解决传统RNN序列较长时的梯度消失和梯度爆炸问题，选择改进的RNN长-短期记忆（LSTM）来捕捉嘴唇运动序列之间的时间特性。

文件列表

正在加载...请等待或刷新页面...

发表评论

更多..相关推荐

更多..最近更新