面向人体动作预测的对称残差网络

目录摘要全文 图/表

PDF

DOI：10.13973/j.cnki.robot.210188

引用本文

张晋, 唐进, 尹建芹. 面向人体动作预测的对称残差网络[J]. 机器人, 2022, 44(3): 291-298.

ZHANG Jin, TANG Jin, YIN Jianqin. Symmetric Residual Network for Human Motion Prediction[J]. ROBOT, 2022, 44(3): 291-298.

面向人体动作预测的对称残差网络

张晋 , 唐进 , 尹建芹

北京邮电大学人工智能学院，北京 100876

收稿日期：2021-05-19；录用日期：2021-08-09; 修回日期：2021-11-01

基金项目：国家自然科学基金(61673192);中央高校基本科研业务费(2020XD-A04-2)。

作者简介：张晋(1997-)，男，硕士生。研究领域：机器视觉，人体姿态估计;
唐进(1978-)，女，博士，讲师。研究领域：机器视觉，嵌入式系统;
尹建芹(1978-)，女，博士，教授。研究领域：服务机器人与机器视觉。

通信作者：唐进, tangjin@bupt.edu.cn。

摘要：为了研究不同残差连接方式对人体动作预测卷积神经网络的影响，探讨了在保持网络深度一定的情况下，如何利用残差连接构成一个高效捕捉人体动作特征的预测模型。通过观察人体骨骼关节点排列方式，提出一种适用于人体骨骼关节点预测的对称残差连接方法，并基于该方法设计了对称残差块(symmetric residual block，SRB)。所设计的SRB，最后一层卷积核的感受野达到最大，覆盖了人体全部关节信息，采用的对称连接方式高效地利用浅层动态特征，使预测的效果更好、模型使用的参数更少。此外，本文提出一种基于2个SRB和1个解码器的端到端卷积网络——对称残差网络(symmetric residual network，SRNet)，取得的预测结果高于基准方法。最后，在TensorFlow框架下利用公开数据集Human3.6M和CMU-Mocap进行了人体动作预测实验。其结果表明，与基准方法相比，本文方法的关节位置平均误差(mean per joint postion error，MPJPE)在各个预测时间点上均有0.2mm~1mm的降低，验证了本文提出的SRNet能有效建模人体姿态的全局空间特征。

关键词：人体动作预测对称残差连接卷积神经网络骨骼关节点建模

中图分类号：TP391 文献标志码：A 文章编号：1002-0446(2022)-03-0291-08

Symmetric Residual Network for Human Motion Prediction

ZHANG Jin , TANG Jin , YIN Jianqin

School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China

Abstract: To study the influence of different residual connection methods on CNN (convolutional neural network) for human motion prediction, this paper investigates how to use residual connection to construct an effective prediction model for capturing the human motion features by the network with a certain depth. Through observing the arrangement of human skeletal joints, a symmetric residual connection method is proposed for predicting the human skeletal joints, and a symmetric residual block (SRB) is designed based on the proposed method. In the designed SRB, the receptive field of the last convolution kernel is maximized, covering all the joint information of the human body. The symmetric connection method is adopted to efficiently utilize the shallow dynamic features, and consequently improve the prediction performance and reduce the model parameters. Based on two SRBs and one decoder, an end-to-end convolutional network is proposed, named as symmetric residual network (SRNet), by which a higher accuracy is achieved comparing with the baseline methods. In the framework of TensorFlow, human motion prediction experiments are carried out on two public datasets, Human3.6M and CMU-Mocap. The results indicate that, the proposed method reduces the mean per joint position error (MPJPE) by 0.2 mm~1 mm at each prediction time point comparing with the baseline methods, which confirms the effectiveness of the proposed SRNet for modeling the human global spatial features.

Keywords: human motion prediction symmetric residual connection convolutional neural network skeletal joints modeling

1 引言(Introduction)

人体动作预测是计算机视觉领域的经典任务，该任务通过观察输入的人体动作序列来预测未来动作序列。随着机器人技术发展逐渐成熟，大量人体动作预测算法被用在护理机器人^[1]、虚拟现实等应用场景中，完成如跌倒、握手等动作的预判以及辅助人与机械臂交互^[2] 等任务。

目前实现人体动作预测的方法多种多样，基于深度学习的人体运动建模方法取得了非常显著的预测效果^[3-4]。随着LeNet^[5]、AlexNet^[6]、ResNet^[7]、GoogleNet^[8] 等卷积网络的提出及深度学习技术的发展，网络呈现出卷积尺度越来越丰富、深度越来越深、残差结构越来越复杂的特点。常见的人体动作预测模型，主要为基于卷积神经网络(CNN)的模型与基于图卷积网络(GCN)的预测模型。

很多工作^[9-12] 都采用了图结构建模人体骨架点的空间信息。其中Zhou等^[9] 设计了多尺度图卷积网络，利用各子网络分别学习了人体关节、骨骼、肢体3种不同尺度的动态特征。Lebailly等^[10] 采用多路卷积网络学习人体各关节运动轨迹特征，通过图卷积网络融合特征中的全局动态规律。然而，图神经网络以节点为单位建模人体动态信息，难以充分建模人体某一关节与其他各关节之间的关联性，导致例如“行走”动作中手腕关节与距离较远的脚踝关节所存在的关联摆动没有被网络充分捕捉。因此定义合适深度的网络来覆盖所有关节点特征是利用图卷积网络对人体动作预测进行建模的难点。

仅由卷积层构成的编码－解码结构的卷积网络与包含图结构的卷积网络相比，前者在深度与参数量上更为灵活。Liu等^[13] 提出的Multi-GAN构建了多个基于编码－解码结构的子GAN(生成式对抗网络)，分别学习人体各肢体的动态信息，并通过对抗式训练策略利用融合特征实现动作迁移。Hernandez等^[14] 通过GAN沿着时间维度对预测姿态进行填充，实现了更长时间的动作预测。其提出的编码器中采用多个残差连接并引入浅层特征，这一做法有效丰富了建模过程中的运动信息。Liu等^[15] 提出的TrajectoryNet构建了多个轨迹模块逐渐提取动作序列的高维特征，然而该轨迹模块覆盖的感受野未达到最大化，在每个模块尚未完全提取人体姿态特征时就引入了浅层特征信息，削弱了网络建模能力。

ResNet^[7] 是一种引入残差连接的方法。当残差为0时，它进行恒等映射(identity mapping)，其网络性能不会下降；而当实际残差不为0时，它能够帮助网络学习到新的特征。文[16]从网络的前向传播和反向传播的角度分别证明残差连接有效解决了深度网络的退化及梯度消失的问题。ResNet^[7] 通过增加网络深度提升网络性能，但随着网络深度增加，网络参数总量增大。Huang等^[17] 提出了DenseNet并认为残差连接方式是一种特征保留方法，提出尽可能添加残差连接来最大程度丰富各卷积层的输入特征信息，达到特征重用，并取得了比ResNet^[7] 更优的结果。DenseNet^[17] 最大化实现了信息在网络中流动，从而提升了参数利用率，降低了参数总量。Martinez等^[18] 为解决第一帧预测结果与最后一帧输入姿态之间的不连续性问题，在网络输出端通过残差连接引入了输入姿态，将网络的任务由预测人体位置信息变为预测位移差值信息，有效提高了预测精度。

本文提出一种基于编解码结构的对称残差网络(SRNet)，该网络从特征重用角度，在有限深度及参数量下，设计了一种新的对称残差连接结构。本文探讨了在保持网络深度一定的情况下，如何由有限残差连接构成一个高效的、能捕捉全部空间信息的人体动作预测网络。本工作从“感受野越大，包含的信息越丰富”出发，设计了感受野最大化的对称残差连接块(symmetric residual block，SRB)，该模块通过对称的首尾相连的残差连接方式，实现了高效重用浅层特征。通过对多种不同结构SRB进行测试，结果显示，感受野最大化的SRB测试效果最优。

本文完成的主要工作可概括为如下2方面：(1) 提出一种基于对称残差连接的SRB，从网络深度、特征信息重用方面考察了不同结构的SRB对关节点空间的建模能力。(2) 构建了基于2个SRB的SRNet，在保持参数量与深度基本一致的情况下取得了精度超过基准方法的预测结果。

2 对称残差网络(Symmetric residual network) 2.1 网络结构

在人体动作预测任务中，网络通过对输入观察序列$ \mathit{\boldsymbol{O}} $建模产生预测序列$ \hat{\mathit{\boldsymbol{S}}} $，输入形式为$ (T, $ $ N, $ $ 3) $的矩阵，表示在$ T $帧$ N $个关节点的人体3D空间坐标。其中$ \mathit{\boldsymbol{O}} = [\mathit{\boldsymbol{P}}_{1}, \mathit{\boldsymbol{P}}_{2}, \cdots, \mathit{\boldsymbol{P}}_{T} ] $代表观察序列，$ \hat{\mathit{\boldsymbol{S}}} = [\hat{\mathit{\boldsymbol{P}}}_{T + 1}, \hat{\mathit{\boldsymbol{P}}}_{T + 2}, \cdots, \hat{\mathit{\boldsymbol{P}}}_{T + L} ] $代表预测序列，$ \mathit{\boldsymbol{S}} = [\mathit{\boldsymbol{P}}_{T + 1}, \mathit{\boldsymbol{P}}_{T + 2}, \cdots, \mathit{\boldsymbol{P}}_{T + L} ] $代表预测序列对应的真值序列，$ \mathit{\boldsymbol{P}}_{i} $代表第$ i $帧的人体姿态，$ \hat{\mathit{\boldsymbol{P}}}_{T + l} $代表预测的第$ l $帧的人体姿态，$ T $和$ L $分别是观察帧数与预测帧数，文中符号详细标注如表 1所示。

表 1 符号与定义 Tab. 1 Notations and definitions

本文提出的对称残差网络结构如图 1所示，网络的输入输出均为3D空间骨架点序列，通过2个对称残差块(SRB)所构成的编码器学习输入序列中的动态表征，每个SRB内部由11层3$ \times $3卷积层和5条含有1$ \times $1卷积层的残差连接组成，实现前向建模。2个SRB不仅可以多层次地提取人体动态特征，还保证了每个SRB都能收到来自输入端的人体运动信息，防止网络过深出现梯度消失。解码器由1个3$ \times $3卷积层和1个1$ \times $1卷积层组成，生成预测动作序列，实现端到端输出。

图 1 对称残差网络 Fig.1 Symmetrical residual network

2.2 对称残差块 2.2.1 残差连接

ResNet^[7]、DenseNet^[17] 及本文提出的SRNet所采用的残差连接方式如图 2所示，图中为了保持恒等映射使用了短路连接(shortcut connection)表示残差连接。ResNet^[7] 中多个残差连接之间采用了等跨度方式，DenseNet^[17] 中多个残差连接之间采用了密集方式，本文提出的SRB残差采用首尾相连的对称连接方式。研究表明^[17]，如果卷积网络在靠近输入和靠近输出之间包含更短的连接，则卷积网络可以更深、更准确，训练更高效。与ResNet^[7] 的等跨度连接相比，本文采用的对称残差连接使用的残差连接个数更少，输出和输入之间的距离更近，在网络末端引入了更丰富的动态信息。

图 2 不同的残差连接方式 Fig.2 The different residual connections

人体动作预测中为了获得与输入尺寸相同的输出骨骼序列，并对浅层特征进行重构，SRB中采用了经过1$ \times $1卷积层的残差连接方式。1$ \times $1卷积层的引入虽然会增加一定的参数，但在网络不深的情况下会对网络性能有一定提升。本文设计的经过1$ \times $1卷积映射的残差连接方式如图 3所示，每个SRB采用奇数个3$ \times $3卷积层，为了能有效利用输入信息，SRB内部添加了首尾相连的残差连接，即当前模块的输入通过首尾相连的残差连接传递到后续模块，则每个SRB第$ n $层卷积层所输出的特征序列$ \mathit{\boldsymbol{F}}_{n} $可表示为

$ \begin{align} \mathit{\boldsymbol{F}}_{n} =\begin{cases} {C_{n} ({\mathit{\boldsymbol{F}}_{n-1}}), } & 0<n\leqslant \dfrac{l-1}{2} \\[9pt] {C_{n} ({\mathit{\boldsymbol{F}}_{n-1} +R_{l-n+1} ({\mathit{\boldsymbol{F}}_{l-n+1}})}), } & \dfrac{l-1}{2}<n\leqslant l \end{cases} \end{align} $

(1)

图 3 SRB-$l$(深度为$l$层的对称残差块)结构图 Fig.3 Structure of SRB-$l$ (SRB with a depth of $l$ layers)

其中$ l $代表该模块前向卷积总层数，$ C_{n} $代表第$ n $层卷积操作，$ R_{n} $代表该模块中第$ n $个残差连接，且$ \mathit{\boldsymbol{F}}_{0} $为输入序列$ \mathit{\boldsymbol{O}} $。由式(1) 可知，模块内部的浅层表征均实现与深层表征融合，并保持了原输入信息的传递。

2.2.2 对称残差块结构

卷积深度是设计每个模块的重要因素。在卷积网络对人体动作进行建模的过程中，卷积核以时间维度为通道对骨架点位置信息进行卷积操作。为了充分建模全局空间信息，即覆盖全部关节点位置信息，卷积层的感受野应覆盖全部输入关节点，从而在特征层上给出动态信息较为明显的关节点所在位置。面对人体动作预测任务，每个SRB存在一个最优网络深度来建模人体动作信息。VGG算法^[19] 中2个连续的3$ \times $3卷积层与1个5$ \times $5卷积层具有一样大小的感受野，4个连续的3$ \times $3卷积层与1个7$ \times $7卷积层具有一样大小的感受野。此外，使用多个3$ \times $3卷积层提取细粒度特征，不仅可以利用卷积层后面添加的非线性层(ReLU)增强判别能力，还能减小计算量、提高效率。综上，SRB内部采用多个3$ \times $3卷积层进行前向建模。在Human3.6M^[20] 数据集中，人体共有22个关键骨架点，则每帧的人体动作由$ 22 \times 3 $的矩阵构成，由于每个SRB都接收到来自输入端的位置信息，故SRB最后一个卷积层的感受野大于$ 22\times 3 $，即SRB网络深度大于11层时，获得的感受野最大化，可以覆盖人体全部关节，实现对全局空间信息的充分利用。因此，在保持网络深度与TrajectoryNet^[15] 基本一致的条件下，本文串联2个深度为11层的对称残差模块(表示为SRB-11)作为网络的编码器。

2.3 损失函数

本文采用MPJPE(mean per joint position error)^[20] 作为训练阶段的损失函数，MPJPE是姿态估计以及动作预测等任务中常用的评价指标，损失函数如式(2) 所示。

$ \begin{align} \mathcal{I } =\frac{1}{L \times N}\sum\limits_{l = 1}^{L} \sum\limits_{k = 1}^{N} \| \hat{{\mathit{\boldsymbol{ J }}}}_{l, k} - {{\mathit{\boldsymbol{ J }}}}_{l, k} \|^{2} \end{align} $

(2)

其中$ {{\mathit{\boldsymbol{ J }}}}_{k, l} $代表第$ k $个关节点在第$ l $帧的真实3D空间位置坐标，$ \hat{{\mathit{\boldsymbol{ J }}}}_{{k, l}} $代表预测结果中第$ k $个关节点在第$ l $帧的3D空间位置坐标，$ L $和$ N $分别为预测帧数和人体骨骼关节点数量。它通过计算关节点预测值与关节点真值的平均欧氏距离，即L2范数，衡量预测动作与真实动作之间的差异。

3 实验与分析(Experiments and analysis) 3.1 数据集

在人体动作捕捉方面的公开数据集Human3.6M和CMU-Mocap上进行了人体动作预测实验。

Human3.6M数据集因包含360万个人体动作帧得名，动作种类包含走路、交谈等总计15个日常动作，由7位动作捕捉演员专业录制，本文沿用文[21]的数据处理方法，将数据集中的角度空间坐标转换为3D空间坐标，并统一将对象为S1、S5、S6、S7、S8的动作序列作为训练集样本，S9、S11的动作序列作为测试集样本。

CMU-Mocap数据集共包含了2235个人体动作序列，与Human3.6M数据集相似，均由演员专业录制，本文沿用文[21]实验设置，选取其中包括原地动作、体育运动、情感交流等8个动作种类，并采用了一致的训练集与测试集划分方式。

3.2 实验设置

本文所有的模型搭建都是基于TensorFlow框架进行，训练阶段采用Adam优化器，SRB内每个3$ \times $3卷积层均添加了Leaky-Relu的非线性层与Dropout操作。为了与TrajectoryNet^[15] 实验效果相比较，采用了与其一致的骨架点编码顺序。本文在Human3.6M、CMU-Mocap数据集上进行的短时实验采用10帧(400 ms)输入动作，预测10帧输出动作，而长时实验采用10帧输入预测25帧(1000 ms)输出。短时实验中学习率为0.0001，长时实验中学习率为0.00003，以防止过拟合。所有实验均以式(2) 所示的MPJPE作为评价指标。

3.3 基准方法

本文使用LearnTrajDep^[21]、TrajectoryNet^[15]、LPJP 3D^[22] 三项工作作为基准，其中LearnTraj\-Dep^[21] 采用图卷积网络以时间为图节点建模人体动态信息，TrajectoryNet^[15] 采用卷积网络建模人体各关节运动轨迹，并以模块堆叠的方式加深网络，本文采用了相近的网络深度与其进行对比。LPJP 3D^[22] 在递归循环网络架构中引入了Transformer^[23] 结构，由人体中心关节点逐步迭代建模边缘关节点位置。

3.4 实验结果 3.4.1 定量分析

本节展示Human3.6M数据集以及CMU-Mocap数据集上的实验结果。

在保持SRNet网络深度不变的基础上，为验证残差连接的有效性，进行了移除残差连接实验(记为“W/O-res”)。此外，本文还设计了4种不同结构的对称残差块(SRB)进行实验，如图 4所示。其中图 4(a)(b)(c)(d) 显示了采用3、7、11、21层3$ \times $3卷积层组成的SRB(下文将依次表示为SRB-3、SRB-7、SRB-11、SRB-21)。为使SRNet编码器的卷积深度保持为21层，在SRNet中分别串联了7个SRB-3、3个SRB-7、2个SRB-11、1个SRB-21。

图 4 4种不同深度的SRB Fig.4 The 4 SRBs with different depths

在Human3.6M数据集上15类动作的平均预测实验结果如表 2所示，由2个SRB-11构成的SRNet的短时预测平均误差最小，预测精度超过了基准方法，证明了在多个不同的对称残差块结构中，确实存在一个最优残差连接结构。实验结果显示，移除残差连接后的W/O-res网络模型预测精度差，SRB-3与TrajectoryNet的结果较为接近，而SRB-7与SRB-21相对于TrajectoryNet误差较高，故在网络深度一定的情况下(同为21层)，不同结构的SRB有不同的动态信息建模能力。此外，SRB-11能取得最优结果是因为11层以上深度的卷积模块感受野最大化，可覆盖人体的全部骨架点，故各模块内部都能完整接收并提取人体动态特征；SRB-21虽然也能实现感受野最大化，但由于整体网络首尾残差连接过多，导致在网络深处引入了过多的浅层特征，网络建模的动态信息被削弱，故效果不如SRB-11。其中各模块的实际建模效果会在3.4.2节定性分析部分继续给出可视化结果并展开讨论。

表 2 在Human3.6M数据集上的短时预测结果 Tab. 2 Short-term prediction results on dataset Human3.6M

Human3.6M数据集上的长时实验结果如表 3所示，由2个SRB-11构成的SRNet在560 ms和1000 ms时取得了最优预测结果，进一步证明了基于SRB-11的SRNet模型的有效性。去掉残差连接的W/O-res模型在560 ms和1000 ms时实验效果都不理想，而其他结构的SRB构成的网络模型与TrajectoryNet相比，在1000 ms时预测误差较大。

表 3 在Human3.6M数据集上的长时预测结果 Tab. 3 Long-term prediction results on dataset Human3.6M

由表 4可见，由2个SRB-11构成的SRNet同样在CMU-Mocap数据集的短时预测和长时预测上取得了最优结果，体现了SRB-11的有效性以及对全局空间信息的建模能力。

表 4 在CMU-Mocap数据集上的长短时预测结果 Tab. 4 Short-term and long-term prediction results on dataset CMU-Mocap

3.4.2 定性分析

本节通过可视化的预测结果和SRB模块的特征热图开展定性分析。图 5展示了在Human3.6M数据集上对“行走”“坐下”两种动作进行预测的可视化结果，其中第1行是真实姿态，第2、3行是基准方法的结果，第4行是W/O-res网络的结果，最后4行是4种SRB的结果，其中SRB-11取得最优预测结果。由图 5(a) 可见，不同结构的SRB对动态规律较简单的“行走”动作的预测结果与基准方法相比并没有较大差异，但移除残差连接的网络输出的是完全静止的序列，腿部与真实姿态有较大差异，说明残差连接有效传递了人体的动态信息。

图 5 预测结果可视化 Fig.5 Visualization of prediction results

如图 5(b) 所示，由2个SRB-11构成的SRNet对“坐下”动作的手部活动敏感。在“坐下”动作的真实序列中，其主要特点在于人体小臂在腰部存在上下伸展，SRB-11预测的伸展幅度最接近真实序列。可证明由2个SRB-11构成的SRNet捕捉到了更多肢体末端的动态信息，即有效建模了人体全局空间信息。此外，由SRB-3、SRB-7、SRB-21构成的SRNet的预测结果尽管细节上表现不如由2个SRB-11构成的SRNet，但也取得了不错的预测效果。而W/O-res输出为静止序列，再次验证了在编码器中，残差连接可以多尺度地引入浅层模块建模的动态信息，丰富人体局部与全局的动态特征。

图 6为各SRB-11模块在“行走”动作实验时输出的热图。图中纵坐标代表人体的22个骨骼关节点，参考TrajectoryNet^[15] 的骨架排列方式，第14~21关节代表人体双腿，横坐标代表隐含层3D特征，实验中隐含层通道数设为64，故横坐标长度为64$ \times $3。由图可见，更深层的模块(图 6(b))输出的热图的对比度更高，即暗处更暗、亮处更亮，说明深层模块提取到了相较浅层模块(图 6(a))更清晰的动态特征。同时，深层模块集中在腿部的高亮特征更为明显，说明随着网络的加深，“行走”动作中人体腿部的动态信息被有效提取。

图 6 “行走”动作实验中SRB-11输出的热图，其中第2个SRB-11提取到更清晰的腿部动态特征(关节14~21) Fig.6 The heatmap of the output using SRB-11 in the "walking" action, and the 2nd SRB-11 extracts clearer dynamic features of the legs (joint 14 $\sim $ joint 21)

图 7显示了不同结构的SRB构成的SRNet编码器输出特征热图。不难看出，SRB-7与SRB-11构成的编码器均提取到了较丰富的腿部动态信息，如图 7(b)(c) 所示。然而由SRB-7构成的编码器的输出特征缺失了手臂的动态信息，这是因为SRB-7中最后1个卷积层的感受野最大仅为15$ \times $3，难以捕捉人体的全局空间信息，导致第5~13关节存在明显的特征缺失。SRB-3构成的模型尽管单个模块的建模能力较弱，但7个模块的堆叠使得网络也能提取到少量的手臂动态特征，如图 7(a) 所示。图 7(d) 中，SRB-21构成的模型其热图颜色对比度明显弱于其他3种模块，其原因在于将过多的浅层特征引入到了深层特征，导致深层动态特征信息占比小，深浅特征的区分度减小。最后，图 7(e) 中W/O-res的特征热图中没有明显的手臂与腿部的动态特征，输出静止的序列。综上所述，SRB-11构成的SRNet模型取得最优预测效果。

图 7 提出的4种基于SRB的SRNet以及W/O-res网络的编码器末端特征热图 Fig.7 The encoder end feature heatmap of the 4 proposed SRB-based SRNets and W/O-res net

4 结论(Conclusion)

从事人体动作预测的网络模型在深度、连接方法以及特征尺度上多种多样，本文对不同残差连接方式构成的人体动作预测网络进行了建模和测试，提出了基于感受野最大化的对称残差建模模块SRB-11。该模块在结构上采用数量最多的首尾相连的残差连接来传递浅层特征，充分利用了人体全局空间信息。实验结果表明，由2个SRB-11构成的SRNet在人体动作预测中取得了最低的预测误差，具有最优的建模能力。

参考文献（References）

[1]	刘今越, 李顺达, 陈梦倩, 等. 面向移乘搬运护理机器人的人体姿态视觉识别[J]. 机器人, 2019, 41(5): 601-608. Liu J Y, Li S D, Chen M Q, et al. Visual recognition of human pose for the transfer-care assistant robot[J]. Robot, 2019, 41(5): 601-608.
[2]	林安迪, 干旻峰, 葛涵, 等. 基于模糊模型参考学习控制的手术机器人人机交互[J]. 机器人, 2019, 41(4): 543-550. Lin A D, Gan M F, Ge H, et al. Human-robot interaction for surgical robot based on fuzzy model reference learning control[J]. Robot, 2019, 41(4): 543-550.
[3]	马淼, 李贻斌. 基于多级动态模型的2维人体姿态估计[J]. 机器人, 2016, 38(5): 578-587. Ma M, Li Y B. 2D human pose estimation using multi-level dynamic model[J]. Robot, 2016, 38(5): 578-587.
[4]	谭嘉崴, 丁其川, 白忠玉. 基于视频帧连贯信息的3维人体姿势优化估计方法[J]. 机器人, 2021, 43(1): 9-16. Tan J W, Ding Q C, Bai Z Y. Optimal estimation method of 3-dimensional human pose based on video frame coherent information[J]. Robot, 2021, 43(1): 9-16.
[5]	Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791
[6]	Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//25th International Conference on Neural Information Processing Systems, Vol. 1. New York, USA: ACM, 2012: 1097-1105.
[7]	He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2016: 770-778.
[8]	Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2015: 1-9.
[9]	Zhou H H, Guo C L, Zhang H, et al. Learning multiscale correlations for human motion prediction[DB/OL]. (2021-05-19)[2021-07-12]. https://arxiv.org/pdf/2103.10674.pdf.
[10]	Lebailly T, Kiciroglu S, Salzmann M, et al. Motion prediction using temporal inception module[M]//Lecture Notes in Computer Science, Vol. 12623. Berlin, Germany: Springer, 2020: 651-665.
[11]	Li B, Tian J, Zhang Z F, et al. Multitask non-autoregressive model for human motion prediction[J]. IEEE Transactions on Image Processing, 2020, 30: 2562-2574.
[12]	Li M S, Chen S H, Zhao Y H, et al. Dynamic multiscale graph neural networks for 3D skeleton based human motion prediction[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2020: 211-220.
[13]	Liu Z G, Lyu K, Wu S, et al. Aggregated multi-GANs for controlled 3D human motion prediction[DB/OL]. (2021-03-17)[2021-03-23]. https://arxiv.org/abs/2103.09755.
[14]	Hernandez A, Gall J, Moreno F. Human motion prediction via spatio-temporal inpainting[C]//IEEE/CVF International Conference on Computer Vision. Piscataway, USA: IEEE, 2019: 7133-7142.
[15]	Liu X L, Yin J Q, Liu J, et al. TrajectoryCNN: A new spatio-temporal feature learning network for human motion prediction[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(6): 2133-2146. DOI:10.1109/TCSVT.2020.3021409
[16]	He K M, Zhang X Y, Ren S Q, et al. Identity mappings in deep residual networks[M]//Lecture Notes in Computer Science, Vol. 9908. Berlin, Germany: Springer, 2016: 630-645.
[17]	Huang G, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2017: 2261-2269.
[18]	Martinez J, Black M J, Romero J. On human motion prediction using recurrent neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2017: 4674-4683.
[19]	Karen S, Andrew Z. Very deep convolutional networks for large-scale image recognition[DB/OL]. (2015-04-10)[2020-10-20]. https://arxiv.org/abs/1409.1556.
[20]	Ionescu C, Papava D, Olaru V, et al. Human3.6M: Large scale datasets and predictive methods for 3D human sensing in natural environments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1325-1339. DOI:10.1109/TPAMI.2013.248
[21]	Mao W, Liu M, Salzmann M, et al. Learning trajectory dependencies for human motion prediction[C]//IEEE/CVF International Conference on Computer Vision. Piscataway, USA: IEEE, 2019: 9488-9496.
[22]	Cai Y J, Huang L, Wang Y W, et al. Learning progressive joint propagation for human motion prediction[M]//Lecture Notes in Computer Science, Vol. 12352. Berlin, Germany: Springer, 2020: 226-242.
[23]	Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//31st International Conference on Neural Information Processing Systems. New York, USA: ACM, 2017: 6000-6010.