设置主页 加入收藏 保存到桌面
当前位置首页论文计算机论文基于隐马尔可夫模型的动作识别的研究与实现

基于隐马尔可夫模型的动作识别的研究与实现

偷天围观:℉更新时间:2021-12-18 13:04:41

基于隐马尔可夫模型的动作识别的研究与实现

第 1章 绪论

人体动作识别的基本任务是通过提取能够充分表述运动序列图像信息的特征,运用一定的方法来判断人的动作范畴,最终为行为理解奠定基础,其具有广泛的实用价值。近些年来,该问题引起了学术界、科研机构、安全机构等机构研究者的广泛关注,逐渐成为计算机视觉热点研究方向之一,正在为人们的生活带来全新的变革。

1.1 论文的研究背景及意义

如今在人们的日常生活中,对计算机的需要越来越强,而且产生了各种各样数量巨大的数据需求,如何对这些数据进行区分处理已经是摆在我们面前的一个棘手问题。其中视频和照片的信息量巨大,并且是一种可以直接拍摄获取、信息量丰富的一种信息媒介,我们应该通过怎样的手段让计算机像我们人类一样,可以感知甚至是主动判断外界的信息,对我们人类提供有用的帮助,已经成为当下最热点的课题。

由于火车站、飞机场等公共场所安全需要逐步提升,视频监控系统的需求量也不断增长,而且识别细致的需求程度也不断提高,因此对智能监控系统中的运动物体动作识别已经成为该领域最有价值的研究方向之一。

动作识别主要是分析视频图像,处理其中的动作序列,让计算机理解图像的动作,最终的目的就是可以让其对图像中的目标进行检测、跟踪、识别动作。我们可以很容易分辨出一段视频中的动作类型,更可能推测出接下来的动作,但是这种分辨能力和预判对于计算机来说却是一项挑战。人类就此问题展开了大量研究,可是因为很多不利因素的掣肘,使得目前这项技术的发展并没有预想的迅速。从如今研究情况来看,对于动作识别的技术只能在人们预先设定的背景环境或者是一些不利因素影响较小的背景下提取人体轮廓,从中得到我们感兴趣的信息与特征,最后利用一定的方法进行最后的动作识别。根据时下新技术的发展,很多新兴技术和产品已经应用到生活中,主要包括:

(1)智能视频监控:这是一个对我们最为重要的技术,目前很难看到在我们经常去的公众场地会有不存在监控设备的地方,所以说其需求是十分的广泛,通过安装摄像机获取周围环境中的视频数据,利用计算机视觉的原理实现对环境中人体的动作捕获,然后对获取的数据进行分析,从而达到二十四小时实时监控的目的,以此来捕获异常的行为并采取相应措施。这样既能够及时的阻止悲剧的发生,而且能够节省大量的人力和物力。

1.2 国内外研究现状

近年来,国内外学者也都在动作识别领域中积极参加研究。在国际上,Carnegie Mellon 大学、Massachusetts 学院等高校对 VSAM(Visual Sveillanee And Monitoring)工程做出了巨大的贡献。其主要工作是对自动视频理解技术进行研究,目前应用在战场和普遍民间场景中。IBM 与 Microsoft 等公司在商业领域中展开竞争,将很多计算机视觉的产品投入市场,目前基于视觉的手势识别接口运用广泛,比较受到认可。在 2021年,acinto 等人利用了更为先进的矢量场技术,对于识别人数较多的人群的动作有了不错的效果。

在国内,众多大学与科研机构如北京大学,中科院研究所参与了这一课题的研究,虽然接触时间较国外晚,但也做了许多关键与深入的研究。中科院的模式识别国家重点实验室NLPR(National Laboratory of Pattern Recognition)视觉研究小组,从1987 年成立至今,在国内计算机模式识别地域处于领先地位,收获了丰硕的科研成果。

1.2.1 特征提取研究现状

目前基于动作识别的研究主要有四个不同方面的特征应用,本文主要介绍最为流行且效果很好的两类特征:静态特征、动态特征,以及两者的组合。

静态特征主要是指在动作识别中,利用人体尺寸、颜色、边缘轮廓、姿态或区域颜色等外观形状来描述人体动作静态姿势,然后将静态姿态序列进行动作识别的描述。其中,姿态矩特征因为可以描述人体细节特征而被广泛应用。在我们的周围的很多学者中,研究了许多利用该特征进行识别可能,有的用到了形状,有的用到了颜色,有的用到了矩等。Davis等人采用矩作为特征向量用于识别阶段的模板匹配,识别率较高。但他们只到三阶Hu矩,虽然计算简易,但图像信息没有充分提取,并且Hu矩是非正交的,具有信息冗余性。苏开娜等人提出了一种基于伪Zernie 矩的识别的方法,提取的矩特征具有正交性,减少了信息。Cho和Roland比较了几何矩、Legendre矩、Zernie矩、pesudo-Zernie矩、Fourier-Mellin矩、旋转矩以及复数矩的优缺点,从综合考虑来讲,Zernie矩是所有矩特征中最好的。虽然它能通过高阶矩更全面表述图像信息,但计算复杂,同时Zernie矩对位于单位圆区域边沿的目标形状很敏感。

虽然我们利用静态特征获取了运动图像序列中很多重要信息,但是当场景比较复杂的时候,很多静态信息并不容易获得,鉴于此种情况,很多学者不在从繁琐的人体检测、跟踪分割入手,而是直接提取动态特征。

第 2章 HMM原理及相关理论

隐马尔可夫模型(Hidden Marov Models 简称 HMM)是一种统计学习学习的模型,最适宜用来做标注的问题,其讲述了隐马尔科夫两条随机链中的那个隐藏的链条所随机生成的观察值顺序流程的过程,属于生成式分布,是一种我们需要的模型。首先引出模型,接下来介绍模型的定义和数学背景知识,然后对于隐马尔科夫的三个问题,突出三个解决方案。最后详细叙述隐马尔科夫模型不同角度的分类。

2.1 HMM 的定义

隐马尔可夫模型(Hidden Marov Model),HMM 通过表观现实让我们推测接下来最可能的情况,被广泛应用语音识别、人工智能领域。在动作识别中,此种模型也可以很好地得到应用。但是由于开始时候,大家并不熟悉该模型,所以其使用不是很广泛。近些年来,才逐渐被利用于图像领域。

隐马尔科夫模型具有是由五个参数组成的,一般由五元组来表示,也可由三元组表示。五元组的时候有初始概率矩阵、现实转移矩阵以及观察值概率矩阵、现实数目、每个现实对应的观察值数目五个元素来确定。三元组表示时,就是去掉后两点,由最主要的前面三个点来表示我们的这个模型。

2.2 HMM 的三个基本问题及算法

本节中,论文将会分析 HMM之中的核心问题,分别对 HMM可以解决的三个问题及其算法进行描述。

2.2.1 三个基本问题

上一节论文给出了HMM 的定义,如果要将HMM应用在动作识别中,必须解决好三个基本问题:概率计算问题、学习问题、预测问题。

混淆矩阵是 HMM 三要素之一,是影响训练结果最重要的参数模型,根据其输出的不同大致有三种类型,有离散型、连续型、本连续型。他们的主要区别是根据 B矩阵输出的不同,上文描述的 HMM模型都属于离散模型,因为 B是以矩阵形式输出的;而当它以概率密度输出时,就是连续型;而其隐含现实数目超多时,半连续就可以很好地被利用了。因此,综上所述,一般 HMM 主要分为以上三种类型,具体使用各有特点,需要对于具体地情况,进行详细地分析,选取合适的模型。

本章对HMM 基本理论、基本原理做了分析,重点分析了隐马尔可夫模型提出的三个问题及其相应的算法,这些算法对于将HMM应用于动作识别中十分关键,其中前向-后向算法可以进行识别,Baum-Welch 算法可以进行学习,也从侧面说明了 HMM 是一种十分适宜进行动作识别的研究的模型。

第 3章 预处理 .................... 20

3.1 基于背景减除法的人体运动目标检测 .......................... 20

3.2 视频图像处理 ......................... 23

第 4章 人体动作特征提取与描述 ................. 28

4.1 引言 ........................... 28

第 5章 基于 HMM的人体动作识别 ............ 37

5.1 动作分析 .................... 37

5.2 模型及初始化 ......................... 38

第 5章 基于 HMM的人体动作识别

在本章中,我们将用五现实 DH-HMM 进行人体动作识别,并将其与传统模型进行对比。FDH-HMM 是一个经过优化的模型,它的优点是把人体动作特征与 HMM 布局设计结合起来,限制现实数量和现实转移条件,减少模型中的参数数量,在降低运算复杂度的同时提高了人体动作识别的准确度。

5.1 动作分析

HMM 是一个双重随机过程的统计模型,通过表观现实让我们推测接下来最可能的情况,被广泛应用语音识别、人工智能领域。在动作识别中,此种模型也可以很好地得到应用。首先我们观察图 5.1,这是独自一人走路的人体剪影图。由常识可以推知,独自一人走路时,其动作一定具有一定的规律性与周期性。如果将一个动作周期中的走;分解成取若干动作,并提取出关键现实,此例中将此动作分为 5个关键现实。

可从图中看出走;的各个现实从右至左。开始的时候,人站在原地未动,胳膊与腿保持一致;接下来,双肘提到两侧腰部附近,同时身体前倾;第三步,微抬起左腿;第四步就是迈出左腿,同时右臂前伸;接下来右腿迈到前面,左臂前伸。直到最后停下来,回到初始现实。因此我们选择五个关键姿态代表的五现实作为本文现实数。

本文实验中,关键因素之一为隐现实的数量。如果隐现实数量过多,那么特征抽取的数量会急剧增加,与其对应矩阵的维数也同样会增大,这会直接导致维数灾难。如果隐现实数量过少,将会直接影响人体动作的识别效果。从我们对人体动作的分析来看,我们选择的五现实符合一般人体运动的规律。

结论

计算机视觉的发展日新月异,人类的目标是要让计算机可以像人类一样分辨动作,甚至预测下一步动作。从目前的发展来看,动作识别虽有一定发展,但远未达到理想的目标。如今动作识别领域的研究大部分仍停留在一些简易动作、简易背景阶段,要想实现对复杂环境下的复杂动作准确识别,最终实现机器人工智能化,还需提出并尝试更多更先进的识别模型和算法。本文选择了 FDH-HMM 进行动作识别作为解决上述问题的突破口进行研究。

全文的主要工作及结论总结如下:

1.在阅读大量文献的基础上,研究分析了国内外人体动作识别领域已有的方法和研究成果,其中重点学习了特征提取和 HMM 识别的方法。

2.在图像预处理方面,对视频图像中人体动作识别的前期技术做了细致的研究和实验。采用背景减除方法得到人体行为的侧影图,然后进行形态学处理,改善图像的质量,获得满意的人体运动图像。最后,利用基于 alman滤波的Camshift 算法实现人体跟踪。

3.在特征提取方面,深入研究了特征提取的相关知识,详细介绍了动态特征、静态特征及其组合,深入分析了各自的优缺点。按照本文的实验,采用了将改进的 Zernie矩特征与运动特征相结合的特征提取算法。

4.在动作识别方面,与本文提出的特征组合相结合,采用了五现实的双层 HMM 模型进行人体动作识别。最后通过对 Weizmann 和 TH 数据集实验结果的分析与比较,突出本文方法的优势。

参考文献(略)