热门关键词:

人工智能深入研究

  • 该文件为docx格式
  • 文件大小:1.2MB
  • 浏览次数
  • 发布时间:2020-04-06
文件介绍:

本资料包含doc文件1个,下载需要10积分

人工智能深入研究

嘴唇识别是通过捕捉人们说话时嘴唇的运动来分析他们所说的话。它在人机交互、语音识别、视频监控等领域具有广阔的应用前景。传统的唇形识别系统主要包括三个部分:唇形检测与定位、唇形区域特征提取和唇形识别。然而,由于图像预处理过程复杂,人工设计耗时、经验丰富、不完全,分类器训练困难等特点,传统的唇形识别方法发展缓慢,难以满足实际应用的要求。
近年来,深度学习引起了越来越多的研究者的关注,并在图像识别、人体运动识别、语音识别和自然语言处理等领域取得了突破性进展。深度学习可以直接从原始数据中逐层学习更多的抽象特征,避免了传统的人工特征选择和高性能分类器设计过程,能够真正实现端到端的完整识别系统。摘要研究了深度学习在唇形识别中的应用,提出了一种卷积神经网络
(CNN)和递归神经网络(RNN)。整个唇形识别的研究可分为以下四个部分:
首先,对本文使用的数据库进行预处理。它可以分为两部分:首先,采用随机抽样的方法从视频中提取固定帧数的帧。然后定位并提取唇部区域。采用AdaBoost算法对人脸区域进行检测,并利用Dlib库对人脸68个关键点进行进一步标定。通过提取描述嘴唇的5个关键点,准确地得到了本文的研究对象,即嘴唇区域。
然后利用CNN直接提取静态唇部图像的空间特征。本文对Alex网络模型进行了预训练,利用其8层网络结构将局部特征融合到全局特征中,提取fc7层的空间特征向量来描述唇部区域的图像。提取的空间特征具有鲁棒性和容错性。
因为在视频中,除了视频帧中的静态图像信息外,帧之间还有时序信息。因此在CNN的基础上,加入RNN结构来提取序列间的时间特征。为了解决传统RNN序列较长时的梯度消失和梯度爆炸问题,选择改进的RNN长-短期记忆(LSTM)来捕捉嘴唇运动序列之间的时间特性。

正在加载...请等待或刷新页面...
发表评论
验证码 验证码加载失败