2. 河北大学网络空间安全与计算机学院 保定 071000;
3. 智能信息技术北京市重点实验室 北京 100081
2. School of Cyber Security and Computer, Hebei University, Baoding 071000;
3. Beijing Laboratory of Intelligent Information Technology, Beijing 100081
视频人体姿态估计是指获取给定视频中人体各部位在每帧图像中的位置及方向等信息的过程[1], 是目前计算机视觉领域的研究热点, 在行为识别[2]、人机交互[3]、视频理解[4-5]等领域均有广泛的应用.
近些年, 基于部件模型[6], 针对单帧图像的人体姿态估计展开了大量的研究并取得了卓有成效的进展[7-10], 然而这些方法对人体四肢, 尤其末端(手腕、肘、脚踝、膝盖)部位的估计结果还很不理想, 直接运用到视频的人体姿态估计问题上并不能得到满意的结果.针对视频中的人体姿态估计, 借助运动信息, 在人体部件模型基础上添加时序一致性约束, 将会得到更准确的估计结果.现有基于部件的视频人体姿态估计方法通常的做法是, 为每帧图像生成各个人体部件的状态候选; 然后, 构建时空概率图模型, 推理视频中每一时刻的人体姿态.根据实体在时域上的覆盖度, 目前这类方法采用的模型可以分为细粒度模型和粗粒度模型两类.
第一类是细粒度模型.以人体部件(构成姿态序列的最小单位)为实体, 在单帧人体空域部件模型(图 1(a))基础上, 添加部件的帧间时域联系, 形成一个时空部件模型(图 1 (b)), 实体在时域上只覆盖单帧图像, 模型推理目的是为每帧图像中的人体各部件挑选符合时空约束的最优状态[11-16].由于人体姿态变化的多样性, 人的体型、穿着、视角等变化, 部件模型很难捕捉到所有的表观变化, 而时域上只引入了相邻帧间的一致性约束, 没有长时一致性的约束, 易出现部件状态估计的误差累积.另外由于模型存在环路, 无法获取精确解, 近似推理也在一定程度上进一步降低估计的精度.
![]() |
图 1 现有视频人体姿态估计方法采用的模型 Figure 1 The models used in video pose estimation |
第二类是粗粒度模型.以人体部件的轨迹为实体, 时空部件模型在时域上的依赖关系不复存在, 实体在时域上覆盖整个视频, 模型塌陷成为与单帧人体姿态估计相同的模型(图 1 (c)), 模型中结点表示部件的轨迹, 边表示部件轨迹间的约束关系, 此时模型推理的目的是为每个人体部件挑选一个最优的轨迹来组装成最终的姿态序列[17-18].粗粒度模型在时域上可以添加长时一致性的约束, 避免了误差累积的情况, 而且模型简化, 推理简单.然而, 为人体部件生成合理优质的轨迹本身属于跟踪问题, 对于人体四肢部位, 尤其末端部位(比如腕部、踝部), 极易出现表观的剧烈变化、遮挡、快速运动等情况, 而这些都是跟踪的典型难题.
本文综合粗、细粒度模型的优点, 从中粒度出发, 以人体部件的轨迹片段为实体, 构建时空模型, 推理为每一人体部件选择最优的轨迹片段, 通过拼接各部件的轨迹片段形成最终的人体姿态序列估计.模型中实体覆盖若干帧, 方便添加长时的一致性约束, 降低对部件模型的敏感度.为解决对称部件易混淆的问题, 模型中添加对称部件间约束(如图 2(a)), 并从概念上将对称部件合并为一个结点(如图 2 (b)), 通过该处理消除空域模型中的环路, 同时保留对称部件间约束, 最终模型如图 2 (c)所示.
![]() |
图 2 中粒度时空模型 Figure 2 The medium granularity model |
环路的存在使得时空概率图模型的确切解不可得, 通常只能通过近似推理, 如循环置信度传播[11, 19]、采样[20]变分[12]等手段来获取近似解.另外一类思路对原始环状图模型进行拆解, 用一组树状子图来近似原始图模型[13-14, 21].还有部分研究者采用分步优化的策略[15-16], 首先不考虑空间约束, 对检测最为稳定的部件(如头部)进行序列估计, 再基于该序列估计, 对其邻接部件进行优化, 该过程一直到所有部件处理完成.本文将整个时空模型(图 4(a))拆解为一组马尔科夫随机场(图 4 (b))和隐马尔科夫模型(图 4 (c)), 分别负责空域和时域的解析, 通过迭代的时域和空域交替解析, 完成时空模型的近似推理.
![]() |
图 4 不同方法的长时运动估计对比 Figure 4 Long-term performances of different motion estimation approaches |
除推理算法外, 部件候选集的质量直接影响最终姿态估计的结果.直接将单帧图像的前
![]() |
图 3 不同方法的短时运动估计对比 Figure 3 Short-term performances of different motion estimation approaches |
本文的主要贡献可以归纳如下: 1)引入全局运动信息进行姿态检测的传播, 克服局部运动信息的弊端, 为后期推理提供更合理、优质的状态候选. 2)构建中粒度模型, 有效避免细粒度模型对部件模型敏感的缺点, 同时便于添加长时的一致性约束.
1 问题描述给定含有
![]() |
图 5 基于中粒度模型的视频人体姿态估计方法示意图 Figure 5 Overview of the video pose estimation method based on medium granularity model |
第1.1节简要介绍单帧图像中进行姿态检测的混合部件模型[7], 第1.2节描述轨迹片段候选的生成过程, 第1.3节定义中粒度时空概率图模型.
1.1 单帧姿态检测用于单帧图像的人体姿态检测器将人体建模成一个包含
$ \begin{equation} \label{equ_fmp} S(I, X)=\sum\limits_{i\in \mathcal{V}}\phi (x_i, I)+\sum\limits_{(i, j)\in \mathcal{E}}\psi({x_i, x_j}) \end{equation} $ | (1) |
这里
姿态检测问题则形式化为最大化
本文采用分层弹性运动跟踪方法[31]对视频中的人体进行弹性运动跟踪[30], 获取全局运动信息, 并基于此信息, 对每帧获得的人体姿态检测结果进行传播.全局运动信息给出的是目标在视频各帧的一个全局对应关系, 给定某帧图像中一个点, 通过该对应关系可以获取该点在其他帧的对应位置.因此, 将第
在假设全局运动信息可信的前提下,
本文将视频的姿态估计问题建模成一个如图 6(a)所示的时空概率图模型, 其中结点对应人体部件轨迹片段, 边表示轨迹片段间的空间几何约束以及时间上相邻片段的一致性约束, 目的是为每个人体部件挑选出最优的轨迹片段.该问题可形式化为图模型的优化问题, 由于该图模型存在环, 受文献[14]启发, 本文将时空模型分解为两个树状结构子图模型:马尔科夫随机场与隐马尔科夫模型, 分别负责空域解析(如图 6 (b))和时域解析(如图 6 (c)).为保留对称部件间的约束关系, 同时剔除空域模型中的环路, 对称部件已合并, 即原始的14个关节点的人体模型简化为8结点模型, 为描述清晰, 我们用单部件和组合部件对部件进行区分, 其中单部件指头和颈两部件, 组合部件指合并的对称部件即肩、肘、腕、胯、膝以及踝等6个部件.
![]() |
图 6 时空模型分解为空域子模型和时域子模型 Figure 6 Sub-models of the full graphical model |
子图模型马尔科夫随机场(图 6 (b))用于在每个视频分段内进行空域解析, 我们用
$ \begin{equation} \label{equ_mn} {S}_T(T^t, V^t)=\sum\limits_{i\in \mathcal{V}_T} \Phi(T_i^t, V^t)+\sum\limits_{(i, j)\in \mathcal{E}_T} \Psi({T_i^t, T_j^t}) \end{equation} $ | (2) |
其中, 一元项
为了能使公式描述更清晰, 用
对单部件, 一元项定义为
$ \begin{equation} \label{equ_Phis} \Phi(T_i^t, V^t)=\Phi_\mathit{s}(S_i, Q) = \sum\limits_{f=1}^F \phi_d(s_i^f, q^f) + \lambda_1\phi_g(S_i) \end{equation} $ | (3) |
其中,
$ \begin{equation} \label{equ_phig} \phi_g(S_i) = -\frac{var(\Lambda(s_i^1), \Lambda(s_i^2), \cdots, \Lambda(s_i^F))}{\max\limits_{f_1, f_2}\|s_i^{f_1}-s_i^{f_2}\|_2^2} \end{equation} $ | (4) |
其中,
对组合部件, 一元项定义为
$ \begin{equation} \label{equ_Phic}\\ \begin{split} \Phi(T_i^t, &V^t)=\Phi_\mathit{c}(C_i, Q) = \Phi_\mathit{s}(C_i.l, Q) +\\& \Phi_\mathit{s}(C_i.r, Q)+ \lambda_2\sum\limits_{f=1}^F(-\psi_{\text{color}}(c_i^f\!\!.l, c_i^f\!\!.r)) +\\& \lambda_3\sum\limits_{f=1}^F\psi_{\text{dist}}(c_i^f\!\!.l, c_i^f\!\!.r) \end{split} \end{equation} $ | (5) |
其中, 前两项分别为左右部件轨迹片段的表观评分,
二元项
$ \begin{equation} \label{equ_PsiSS} \Psi({T_i^t, T_j^t})=\Psi(S_i, S_j) = \sum\limits_{f=1}^F \psi_p(s_i^f, s_j^f) \end{equation} $ | (6) |
当邻接的两结点分别对应单部件与组合部件时, 二元项定义为
$ \begin{align} \label{equ_PsiSC} \Psi({T_i^t, T_j^t})= &\Psi(S_i, C_j)= \\ &\sum\limits_{f=1}^F( \psi_p(s_i^f, c_j^f\!.l)+\psi_p(s_i^f, c_j^f\!.r)) \end{align} $ | (7) |
当邻接的两结点均为组合部件时, 二元项定义为
$ \begin{align} \label{equ_PsiCC} \Psi({T_i^t, T_j^t})= &\Psi(C_i, C_j)= \\ &\sum\limits_{f=1}^F( \psi_p(c_i^f\!.l, c_j^f\!.l)+\psi_p(c_i^f\!.r, c_j^f\!.r)) \end{align} $ | (8) |
其中,
隐马尔科夫模型负责在候选集中挑选出符合时域一致性约束的轨迹片段.我们将整个视频分割为重叠的
$ \begin{equation} \label{equ_hmm} {S}'_T(T_i, V)=\sum\limits_{t=1}^N \Phi'(T_i^t, V^t)+\sum\limits_{t=1}^{N\!-\!1}\Psi'(T_i^t, T_i^{t+1}) \end{equation} $ | (9) |
其中, 一元项
$ \begin{equation} \label{equ_PHI_HMM} \Phi'(T_i^t, V^t) = \Phi(T_i^t, V^t)+ \Psi({T_i^t, T_{pa(i)}^t}) \end{equation} $ | (10) |
其中,
$ \begin{equation} \label{equ_PsiHMM} \Psi'(A, B) = -\lambda_4\|A - B\|_2^2 \end{equation} $ | (11) |
对组合部件结点, 二元项定义为
$ \Psi '(A,B) = - {\lambda _5}{\left( {\frac{{\parallel A.l - B.l{\parallel _2} + \parallel A.r - B.r{\parallel _2}}}{2}} \right)^2} $ | (12) |
其中,
给定所有人体部件在每一视频片段的轨迹片段候选, 模型推理的目标是挑选符合时空约束的最优轨迹片段, 即获取轨迹片段的最优配置.我们通过迭代的时空解析来实现.通过空域子模型上的解析, 计算出所有轨迹片段的得分, 筛选高分轨迹片段候选, 构成时域解析的输入状态空间.依据时域解析结果再次对候选进行筛选, 作为空域解析的输入进入下一次迭代.迭代解析过程从空域开始, 原始输入状态空间由切割轨迹获取的轨迹片段构成.随着交替解析的进行, 逐步缩减状态候选数量, 一直到最后挑选出最优结果.最终的姿态序列由最优轨迹片段拼接融合得到.
在空域解析阶段, 在第
$ \begin{equation} \mathcal{M}_{\mathcal{T}}(T_i^t, a) = \max\limits_{T^t\in\mathcal{T}:T_i^t=a}b{S}_T(T^t, V^t) \end{equation} $ | (13) |
由于空域子模型是树状结构, 所有部件轨迹片段候选的评分可以通过消息传递算法求得.从部件
$ \begin{equation} \label{equ_msg_space} m_{i\rightarrow j}( T_j^t) \propto \max\limits_ {T_i^t}(m_i(T_i^t)+ \Psi({T_i^t, T_j^t})) \end{equation} $ | (14) |
$ \begin{equation} \label{equ_belief_space} m_i(T_i^t) \propto \Phi(T_i^t, V^t) +\sum\limits_{k \in N\!b\!d(i)\backslash j} m_{k\rightarrow i}( T_i^t) \end{equation} $ | (15) |
由此, 部件
$ \begin{equation} b(T_i^t) = \Phi(T_i^t, V^t) + \sum\limits_{k \in N\!b\!d(i)} m_{k\rightarrow i}( T_i^t) \end{equation} $ | (16) |
消息从叶子传递到根, 再由根传递回叶子, 一个循环即可求得所有轨迹片段的评分.
在时域解析阶段, 由于子模型为链状结构, 所有轨迹片段的评分同样可通过消息在马尔科夫链上的一个循环传递完成.时域模型上从
$ \begin{equation} \label{equ_msg_time} m_{t\rightarrow {t\!+\!1}}( T_i^{t+1}) \propto \max\limits_ {T_i^t}(m_i(T_i^t)+ \Psi'(T_i^t, T_i^{t+1})) \end{equation} $ | (17) |
$ \begin{equation} m_i(T_i^t) \propto \Phi'(T_i^t, V^t) + m_{{t\!-\!1}\rightarrow t}( T_i^t) \end{equation} $ | (18) |
时序反向传递的消息定义类似, 由此, 部件
$ \begin{equation} \label{equ_belief_time} b(T_i^t) = \Phi'(T_i^t, V^t\!)\!+m_{{t\!-\!1}\rightarrow t}( T_i^t)+ m_{{t\!+\!1}\rightarrow t}( T_i^t) \end{equation} $ | (19) |
其中,
迭代时空解析的算法如算法1所示.
算法1. 迭代时空解析算法
输入:
输出:
WHILE迭代次数
FOR
FOR
依据式(14)计算消息
END FOR
FOR
依据式(14)计算消息
END FOR
FOR
依据式(15)计算轨迹片段的评分
依据
END FOR
END FOR
FOR
FOR
依据式(17)计算消息
END FOR
FOR
依据式(17)计算消息
END FOR
FOR
依据式(19)计算轨迹片段的评分
依据
END FOR
END FOR
END WHILE
本文在三个视频数据集上进行了实验.
UnusualPose视频数据集[12]:该视频集包含4段视频, 存在大量的非常规人体姿态以及快速运动.
FYDP视频数据集[29]:由20个舞蹈视频构成, 除个别视频外, 大部分运动比较平滑.
Sub_Nbest视频数据集[22]:为方便与其他方法对比, 本文按照对比算法中的挑选方法, 只选用了文献[22]中给出的Walkstraight和Baseball两个视频.
3.2 评价机制及实验设置本文采用目前常用的两个评价机制对实验结果进行分析.
PCK (Percentage of correct keypoints)[7]: PCK给出正确估计关键点(关节点部件的坐标位置)的百分比, 这里的关键点, 通常指的是人体的关节点(如头、颈、肩、肘、腕、胯、膝、踝, 当一个关键点的估计位置落在真值
PCP (Percentage of correct limb parts)[11]: PCP是目前应用非常广泛的姿态估计的评价机制, 它计算的是人体部件的正确评估百分比, 与关节点不同, 这里的人体部件是指两相邻关节点连接所对应的人体部位(比如上臂、前臂、大腿、小腿、躯干、头部).当一个人体部件两端对应的关节点均落在端点连线长度的50 %范围内时, 该部件的估计被认为是正确的.
实验中, 视频分段的长度为7帧, 邻接片段重叠3帧, 模型推理通过一次迭代完成.通过表观评分挑选前20个轨迹片段构成最初输入空域解析的状态空间, 经空域推理为每个部件挑选最优的3个假设构成时域解析的输入, 并通过时域推理得到最优的估计, 最终的姿态序列由轨迹片段的拼接融合得到.
3.3 算法有效性分析本文提出的人体姿态估计方法, 主要包括三个关键处理策略: 1)采用全局运动信息对姿态检测结果进行传播; 2)构建中粒度模型, 以部件轨迹片段为推理实体; 3)对称部件合并, 以简化空域模型结构同时保留对称部件间约束.为验证这三个关键处理策略的有效性, 本文设置了4组对比实验, 每组实验改变其中一个处理策略, 实验的设置如下.
实验1. 用局部运动信息对姿态检测结果进行长时传播, 构建中粒度模型, 模型中添加对称部件间约束.
实验2. 用全局运动信息对姿态检测结果进行长时传播, 构建小粒度模型, 推理每帧中每一部件的状态, 模型中添加对称部件间约束.
实验3. 用全局运动信息对姿态检测结果进行长时传播, 构建大粒度模型, 推理每一部件的轨迹状态, 模型中添加对称部件间约束.
实验4. 用全局运动信息对姿态检测结果进行长时传播, 构建中粒度模型, 模型中只保留连接部件间空间约束关系, 不添加对称部件间约束.
所有算法在UnusualPose视频数据集上进行了对比, 结果如图 7所示, 其中"局部运动信息"、"细粒度模型"、"粗粒度模型"和"无对称"分别对应实验1
![]() |
图 7 算法关键策略有效性测试结果 Figure 7 Examination of key modules |
本文与Nbest[22]、UVA[29]、SYM[15]、HPEV[18]以及PE_GM[12]共5个视频人体姿态估计方法进行了实验对比.由于SYM与HPEV方法的代码无法获取, 在UnusualPose视频数据集上, 本文只对比了Nbest、UVA和PE_GM三种方法.在FYDP视频集和Sub_Nbest视频集上, 我们直接引用文献中提供的数据结果进行对比.
人体四肢在表达姿态中起着至关重要的作用, 也是在评估姿态估计算法性能时最为关注的地方.由表 1可以看出, 在UnusualPose视频集上, 对比其他视频姿态估计方法, 本文方法在四肢关节点上的PCK精度最高, 体现了本文方法在应对非常规人体姿态和快速运动等难题时的优势.从表 2可以看出, 在FYDP数据集上, 本文方法得到了最高的平均PCK得分.表 3显示本文方法在Sub_Nbest视频集上的PCP值与PE_GM方法综合性能相当, 均优于其他视频姿态估计方法, 需要注意的是PE_GM方法采用与本文相同的全局运动信息对检测结果进行传播, 候选质量与本文相同, 进一步证明采用全局运动信息对姿态检测结果进行传播的有效性.不同在于PE_GM方法采用细粒度模型, 通过选取姿态检测结果最优的关键帧启动其推理过程, 其最终的检测结果高度依赖其选取的启动帧, 而本文方法无需选取启动帧, 不受初始选取的限制.综合来看, 本文提出的算法具有一定的优越性.
![]() |
表 1 UnusualPose视频集上的PCK评分对比 Table 1 PCK on UnusualPose dataset |
![]() |
表 2 FYDP视频集上的PCK评分对比 Table 2 PCK on FYDP dataset |
![]() |
表 3 Sub_Nbest视频集上的PCP评分对比 Table 3 PCP on Sub_Nbest dataset |
除了以上定量实验结果外, 我们还在图 8中展示了不同方法在UnusualPose视频集上的姿态估计结果.我们为每段视频选取一帧, 并用骨架结构展示姿态估计的结果, 相比较可以看出, 本文给出的姿态估计结果更符合真实的人体姿态.图 9与图 10分别展示了本文方法在FYDP视频集和Sub_Nbest视频集上的部分姿态估计结果.
![]() |
图 8 UnusualPose数据集上的实验结果对比 Figure 8 Qualitative comparison on UnusualPose dataset |
![]() |
图 9 FYDP数据集上的实验结果 Figure 9 Sample results on FYDP dataset |
![]() |
图 10 Sub_Nbest数据集上的实验结果 Figure 10 Sample results on Sub_Nbest dataset |
本文提出了一种用于视频人体姿态估计的中粒度模型, 该模型以人体部件的轨迹片断为实体构建时空模型, 采用迭代的时域和空域解析进行模型推理, 目标是为各人体部件挑选最优的轨迹片断, 以拼接组成最后的人体姿态序列.为生成高质量的轨迹片段候选, 本文借助全局运动信息对姿态检测结果进行时域传播, 克服了局部运动信息的不足.为解决对称部件易混淆的问题, 模型中添加对称部件间约束, 提高了对称部件的检测准确率.算法有效性分析实验表明本文中采用中粒度模型, 通过全局运动信息进行姿态的传播以及在对称部件间添加约束等三个策略均对姿态估计的准确率提高有不同程度的贡献.与其他主流视频姿态估计方法在三个数据集上的对比实验结果显示了本文方法的优势.
1 |
Li Yi, Sun Zheng-Xing, Chen Song-Le, Li Qian. 3D Human pose analysis from monocular video by simulated annealed particle swarm optimization. Acta Automatica Sinica, 2012, 38(5): 732-741. ( 李毅, 孙正兴, 陈松乐, 李骞. 基于退火粒子群优化的单目视频人体姿态分析方法. 自动化学报, 2012, 38(5): 732-741.) |
2 |
Zhu Yu, Zhao Jiang-Kun, Wang Yi-Ning, Zheng Bing-Bing. A review of human action recognition based on deep learning. Acta Automatica Sinica, 2016, 42(6): 848-857. ( 朱煜, 赵江坤, 王逸宁, 郑兵兵. 基于深度学习的人体行为识别算法综述. 自动化学报, 2016, 42(6): 848-857.) |
3 |
Shotton J, Girshick R, Fitzgibbon A, Sharp T, Cook M, Finocchio M, Moore R, Kohli P, Criminisi A, Kipman A, Blake A. E-cient human pose estimation from single depth images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2821-2840. DOI:10.1109/TPAMI.2012.241 |
4 |
Cristani M, Raghavendra R, del Bue A, Murino V. Human behavior analysis in video surveillance:a social signal processing perspective. Neurocomputing, 2013, 100: 86-97. DOI:10.1016/j.neucom.2011.12.038 |
5 |
Wang L M, Qiao Y, Tang X O. Video action detection with relational dynamic-poselets. In: Proceedings of the European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 565-580
|
6 |
Felzenszwalb P F, Huttenlocher D P. Pictorial structures for object recognition. International Journal of Computer Vision, 2005, 61(1): 55-79. DOI:10.1023/B:VISI.0000042934.15159.49 |
7 |
Yang Y, Ramanan D. Articulated human detection with flexible mixtures of parts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2878-2890. DOI:10.1109/TPAMI.2012.261 |
8 |
Sapp B, Jordan C, Taskar B. Adaptive pose priors for pictorial structures. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010. 422-429
|
9 |
Andriluka M, Roth S, Schiele B. Pictorial structures revisited: people detection and articulated pose estimation. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009. 1014-1021
|
10 |
Eichner M, Marin-Jimenez M, Zisserman A, Ferrari V. 2D articulated human pose estimation and retrieval in (almost) unconstrained still images. International Journal of Computer Vision, 2012, 99(2): 190-214. DOI:10.1007/s11263-012-0524-9 |
11 |
Ferrari V, Marin-Jimenez M, Zisserman A. Progressive search space reduction for human pose estimation. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008. 1-8
|
12 |
Shi Q X, Di H J, Lu Y, Lü F. Human pose estimation with global motion cues. In: Proceedings of the 2015 IEEE International Conference on Image Processing. Quebec, Canada: IEEE, 2015. 442-446
|
13 |
Sapp B, Toshev A, Taskar B. Cascaded models for articulated pose estimation. In: Proceedings of the Eeuropean Conference on Computer Vision. Heraklion, Greece: Springer, 2010. 406-420
|
14 |
Zhao L, Gao X B, Tao D C, Li X L. Tracking human pose using max-margin Markov models. IEEE Transactions on Image Processing, 2015, 24(12): 5274-5287. DOI:10.1109/TIP.2015.2473662 |
15 |
Ramakrishna V, Kanade T, Sheikh Y. Tracking human pose by tracking symmetric parts. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013. 3728-3735
|
16 |
Cherian A, Mairal J, Alahari K, Schmid C. Mixing bodypart sequences for human pose estimation. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014. 2361-2368
|
17 |
Tokola R, Choi W, Savarese S. Breaking the chain: liberation from the temporal Markov assumption for tracking human poses. In: Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013. 2424-2431
|
18 |
Zhang D, Shah M. Human pose estimation in videos. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 2012-2020
|
19 |
Sigal L, Bhatia S, Roth S, Black M J, Isard M. Tracking loose-limbed people. In: Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition. Washington, D. C., USA: IEEE, 2004. 421-428
|
20 |
Sminchisescu C, Triggs B. Estimating articulated human motion with covariance scaled sampling. The International Journal of Robotics Research, 2003, 22(6): 371-391. DOI:10.1177/0278364903022006003 |
21 |
Weiss D, Sapp B, Taskar B. Sidestepping intractable inference with structured ensemble cascades. In: Proceedings of the 23rd International Conference on Neural Information Processing Systems. Vancouver, Canada: MIT Press, 2010. 2415-2423
|
22 |
Park D, Ramanan D. N-best maximal decoders for part models. In: Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011. 2627-2634
|
23 |
Wang C Y, Wang Y Z, Yuille A L. An approach to posebased action recognition. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013. 915-922
|
24 |
Zu-S, Romero J, Schmid C, Black M J. Estimating human pose with flowing puppets. In: Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013. 3312-3319
|
25 |
Sapp B, Weiss D, Taskar B. Parsing human motion with stretchable models. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, CO, USA: IEEE, 2011. 1281-1288
|
26 |
Fragkiadaki K, Hu H, Shi J B. Pose from flow and flow from pose. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013. 2059-2066
|
27 |
Brox T, Malik J. Large displacement optical flow:descriptor matching in variational motion estimation. IEEE Transactions on Pattern Recognition and Machine Intelligence, 2011, 33(3): 500-513. DOI:10.1109/TPAMI.2010.143 |
28 |
Wang H, Klaser A, Schmid C, Liu C L. Action recognition by dense trajectories. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington, D. C., USA: IEEE, 2011. 3169-3176
|
29 |
Shen H Q, Yu S I, Yang Y, Meng D Y, Hauptmann A. Unsupervised video adaptation for parsing human motion. In: Proceedings of the European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 347-360
|
30 |
Di H J, Tao L M, Xu G Y. A mixture of transformed hidden Markov models for elastic motion estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(10): 1817-1830. DOI:10.1109/TPAMI.2009.111 |
31 |
Lü Feng, Di Hui-Jun, Lu Yao, Xu Guang-You. Non-rigid tracking method based on layered elastic motion analysis. Acta Automatica Sinica, 2015, 41(2): 295-303. ( 吕峰, 邸慧军, 陆耀, 徐光祐. 基于分层弹性运动分析的非刚体跟踪方法. 自动化学报, 2015, 41(2): 295-303.) |