自动化学报  2018, Vol. 44 Issue (6): 978-1004   PDF    
人体行为识别数据集研究进展
朱红蕾, 朱昶胜, 徐志刚     
兰州理工大学计算机与通信学院 兰州 730050
摘要: 人体行为识别是计算机视觉领域的一个研究热点,具有重要理论价值和现实意义.近年来,为了评价人体行为识别方法的性能,大量的公开数据集被创建.本文系统综述了人体行为识别公开数据集的发展与前瞻:首先,对公开数据集的层次与内容进行归纳.根据数据集的数据特点和获取方式的不同,将人体行为识别的公开数据集分成4类.其次,对4类数据集分别描述,并对相应数据集的最新识别率及其研究方法进行对比与分析.然后,通过比较各数据集的信息和特征,引导研究者选取合适的基准数据集来验证其算法的性能,促进人体行为识别技术的发展.最后,给出公开数据集未来发展的趋势与人体行为识别技术的展望.
关键词: 计算机视觉     行为识别     真实场景     多视角     多模态    
Research Advances on Human Activity Recognition Datasets
ZHU Hong-Lei, ZHU Chang-Sheng, XU Zhi-Gang     
School of Computer and Communication, Lanzhou University of Technology, Lanzhou 730050
Manuscript received : January 16, 2017, accepted: July 18, 2017.
Foundation Item: Supported by National Natural Science Foundation of China (61563030), and Natural Science Foundation of Gansu Province (1610RJZA027)
Author brief: ZHU Chang-Sheng Professor at the School of Computer and Conmunacation, Lanzhou University of Technology. He received his Ph. D. degree from Lanzhou University of Technology in 2006. His research interest covers high performance computing, data analysis, and understanding;
XU Zhi-Gang Associate professor at the School of Computer and Conmunacation, Lanzhou University of Technology. He received his Ph. D. degree from Graduate University of Chinese Academy of Sciences in 2012. His research interest covers computer vision and image processing
Corresponding author. ZHU Hong-Lei Ph. D. candidate at the School of Computer and Conmunacation, Lanzhou University of Technology. She received her master degree from Lanzhou University of Technology in 2004. Her research interest covers computer vision and pattern recognition. Corresponding author of this paper
Recommended by Associate Editor SANG Nong
Abstract: Human activity recognition is an important research field of computer vision with important theoretical value and practical significance. In recent years, a large number of public datasets have been created for evaluation of human activity recognition methodologies. This paper reviews the progress and forecast the future of public datasets for human activity recognition. First, the hierarchy and contents of the public datasets are summarized, and the public datasets are divided into four categories according to the characteristics and acquiring methods. Then, the four categories are described and analyzed separately. Meantime, the state-of-the-art research results and corresponding methods of the public datasets are introduced to researchers. By comparing the information and characteristics of each dataset, researchers can be guided in the selection of the most suitable dataset for benchmarking their algorithms, so as to promote the technology progress of human activity recognition. Finally, the future trends of the public datasets and the prospects of human activity recognition are discussed.
Key words: Computer vision     activity recognition     real scenes     multi-view     multimodality    

人体行为识别是一个多学科交叉的研究方向, 涉及图像处理、计算机视觉、模式识别、机器学习、人工智能等多个学科, 是计算机视觉领域的一个重要研究课题[1].随着数字图像处理技术和智能硬件制造技术的飞速发展, 人体行为识别在智能视频监控[1-3]、自然人机交互[4-6]、智能家居[7-9]、虚拟现实[10]等领域具有广泛的应用前景.

自以色列魏茨曼科学研究所于2001年发布基于事件的视频分析数据库[11]以来, 许多人体行为数据集陆续公开发布, 对促进人体行为识别方法的研究起到关键的作用, 也对计算机视觉研究的发展具有很大的推动作用.公开的人体行为数据集为众多研究者提供了一定的研究规范, 使研究者可以利用相同的输入数据来比较不同识别方法的相关性能, 是校验识别方法性能优劣的重要标准.

人体行为数据集的更新和发展在计算机视觉领域起到了方向标的作用.而各个公开的人体行为数据集在相机状态、拍摄视角、活动场景、行为类别以及视频规模等方面具有很大的差异.因此, 对公开数据集进行对比分析, 有利于研究者根据自己的需求选择合适的数据集, 缩短研究周期.截至目前, 已有一些涉及行为识别数据集相关的综述性文章[12-14]. Ahad等[12]简单介绍了与人体行为相关的数据集信息. Chaquet等[13]较详尽地介绍与人体行为和活动相关的数据集, 并罗列出应用各个数据集的相应文献, 但没有提供数据集的最新研究成果.而等[14]针对涉及深度信息的行为识别数据集进行了详细介绍, 但有些数据集的信息和研究成果需要更新.还有一些综述性文章[15-18], 侧重于行为识别的研究方法, 而对相关数据集介绍较简单.

根据数据集的数据特点和获取方式, 可以把人体行为识别领域常用的公开数据集分为4类:通用数据集、真实场景数据集、多视角数据集和特殊数据集.而根据人的行为方式可以将公开数据集分为三类:个体行为数据集、交互行为数据集和群体行为数据集.根据第一种分类方式, 下面的章节将分别对4类数据集及其研究方法进行详细介绍.

1 通用数据集

通用行为识别数据集, 它们包含受试者在受限场景下执行的一系列简单动作, 如KTH[19]和Weizmann[20-21].

KTH[19]数据集发布于2004年, 是计算机视觉领域的一个里程碑.该数据集提供了4类场景下25个不同受试者的6种人体行为:步行(Walking)、慢跑(Jogging)、跑步(Running)、拳击(Boxing)、挥手(Hand waving)和拍手(Hand clapping), 其示例如图 1所示.

图 1 KTH数据集示例图[19] Figure 1 Sample images of KTH dataset[19]

该数据集的4类场景分别为室外(s1)、室外不同着装(s2)、室外放大(s3)和室内(s4).数据集一共包含599个视频, 其中8个受试者的视频作为训练集, 8个受试者的视频作为验证集, 9个受试者的视频作为测试集.该数据集的视频具有尺度、衣着和光照的变化, 但其场景中背景相对静止, 摄像机位置也相对固定, 只有焦距的变化.因此该数据集相对比较简单, 但由于场景变化, 目前其识别准确率未能达到100 %. Zhou等[22]基于多核学习(Multiple kernel leaning, MKL), 针对时空兴趣点(Space-time interest points, STIP)利用语义上下文特征树模型增强行为描述符的辨别力, 其识别率达到98.67 %.而Xu等[23]利用三个低层特征: STIP、空间星图(SSG)和时间星图(TSG)构建基于中层特征的视觉词袋(MLDF), 达到98.83 %的识别率.

Weizmann[20-21]数据集发布于2005年, 一共包含9个不同受试者的10种人体行为:走(Walk)、跑(Run)、双腿跳(Jump)、侧身跑(Gallop sideways)、弯腰(Bend)、挥单手(One-hand wave)、挥双手(Two-hands wave)、原地跳(Jump in place)、开合跳(Jumping Jack)和单腿跳(Skip).该数据集一共包含93个视频, 其分辨率较低, 为144 $\times$ 180.数据集视频场景中的背景、视角及摄像头都是静止的, 并提供利用背景消减法得到的剪影信息, 如图 2所示.此外, 该数据集还提供包含两个单独动作的视频序列:一个是不同视角下人体行走的视频; 另一个为衣着和人物等方面有细微差异的行走动作序列.该数据集比较简单, 研究者于2008年利用度量学习方法[25]和中层运动特征[26]已达100 %的识别率.

图 2 Sample images of KTH dataset[19] Figure 2 Sample images and silhouettes of Weizmann dataset[24]

通用数据集提出较早, 包含行为类型简单、规模较小.目前研究者对其关注较少, 仅利用它来对比验证算法的性能.

通用数据集中各数据集的最新识别率、研究方法、评价方案等信息如表 1所示.

表 1 通用数据集的最新研究成果概览表 Table 1 Summary of state-of-the-art research results on general datasets
2 真实场景数据集

真实场景数据集主要是从电影或视频中收集的数据, 比如Hollywood[27]、UCF Sports[28]、Hollywood 2[29]、UCF YouTube[30]、Olympic Sports[31]、HMDB51[32]、UCF50[33]、UCF101[34]、Sports-1M[35]数据集等.它们共同的特点是相机、场景不固定且同类动作的类内散度比较大, 因而极具挑战性.

Hollywood (HOHA)[27]数据集来自32部电影, 从中抽取由不同的演员在不同的环境下执行的相同动作.该数据集包括8种行为类别:接电话(AnswerPhone)、下车(GetOutCar)、握手(HandShake)、拥抱(HugPerson)、亲吻(Kiss)、坐下(SitDown)、端坐(SitUp)、起立(StandUp), 并具有一个或多个标签.该数据集被划分成两部分:从12部电影获得的2个训练集和从其余的20部电影获得的测试集.其中, 2个训练集包括一个自动训练集和一个干净训练集.自动训练集使用自动脚本进行行为标注, 包含233个视频样本, 并具有超过60 %的正确标签; 而干净训练集则包含219个视频样本, 具有手动验证标签.测试集包含211个视频样本, 均具有手动验证标签. Kulkarni等[36]针对连续行为识别, 基于动态时间规整提出一种新颖的视觉对准技术动态帧规整(DFW), 达到59.9 %的识别率.而Shabani等[37]基于标准判别词袋行为识别框架, 通过对比基于结构的特征和基于运动的特征的性能, 使用非对称运动特征进行有效的稀疏紧凑表示达到62 %的识别率.

Hollywood 2[29]数据集是Hollywood[27]的扩展, 来自69部电影, 包含12种行为类别和10类场景, 共有3 669个视频.该数据集包含两个子集:行为数据集(2 517个视频, 现实际有2 442个视频)和场景数据集(1 152个视频).行为数据集(Actions)在Hollywood[27]的基础上增加了4种行为类别:开车(DriveCar)、吃饭(Eat)、打架(FightPerson)和跑(Run), 其示例如图 3所示.

图 3 Hollywood 2数据集示例图[48] Figure 3 Sample images of Hollywood 2 Dataset[48]

该数据集的训练集从33部电影中获得, 而测试集从其余的36部电影中获得.行为数据集包含2个训练集和一个测试集(884个视频).其中, 2个训练集包括一个自动训练集和一个干净训练集.自动训练集使用自动脚本进行行为标注, 包含810个视频样本(现实际有735个); 而干净训练集则包含823个视频样本.场景数据集(Scenes)包含一个自动标注的训练集(570个视频)和一个测试集(582个视频).因为视频中演员的表情、姿态、穿着各异, 再加上相机运动、光照条件、遮挡、背景等诸多因素影响, 其视频接近于真实场景下的情况, 因此该数据集极具挑战性. Fernando等[38]采用卷积神经网络(Cellular neural networks, CNN), 利用Fisher向量(Fisher vector, FV)和秩池化(Rank pooling, RP)对改进稠密轨迹(Improved dense trajectory, iDT)[39]描述符编码, 并结合分层秩池化(HRP)编码的CNN特征, 达到76.7 %的识别率. Liu等[40]提出一种分层聚类多任务学习(HC-MTL)方法, 同时利用低秩(Low rank)和组稀疏(Group sparsity)结构进行正则化, 达到78.5 %的识别率.而Wang等[41]利用改进的双流卷积神经网络(Two-stream ConvNets, TCNN)[42], 在多个卷积层计算EPT (Evolution-preserving dense trajectory)描述符, 并与稠密轨迹(DT)[49]描述符融合, 同时利用VideoDarwin技术, 达到78.6 %的识别率.

UCF Sports[28]数据集主要来自BBC和ESPN等广播电视频道, 包含150个视频.该数据集包含10种运动类别:跳水(Diving)、高尔夫挥杆(Golf Swing)、踢足球(Kicking)、举重(Lifting)、骑马(Riding Horse)、跑步(Running)、滑板(Skateboarding)、平衡木(Swing-Bench)、双杠(Swing-Side)和行走(Walking), 其示例如图 4所示.

图 4 UCF Sports数据集示例图[50] Figure 4 Sample images of UCF Sports Dataset[50]

该数据集的视频具有较高分辨率, 是各种现实场景的自然行为, 因此其在动作类型、相机运动、视角、光照和背景等方面有较大差异, 具有一定的挑战性, 并有助于研究不受约束环境的行为识别.目前, Tong等[44]提出3D-TCCHOGAC和3D-HOOFGAC两个构建动态描述符的方法, 并利用这两个动态描述符与静态描述符融合形成一种行为识别新框架, 达到96 %的识别率.而Harbi等[43]有别于传统的基于时空兴趣点技术, 通过先进的人体检测和分割方法(HBRT/VOC)提取时空人体区域信息, 利用局部约束线性编码(LLC)达到96.2 %的识别率.

UCF YouTube[30]数据集目前被称为UCF11, 是由中佛罗里达大学(University of Central Florida, UCF)计算机视觉研究中心发布的, 包含1 600个视频.该数据集共有11种行为类别:篮球投篮(b_shooting)、骑自行车(cycling)、跳水(diving)、高尔夫挥杆(g_swinging)、骑马(r_riding)、足球颠球(s_juggling)、荡秋千(swinging)、打网球(t_swinging)、跳蹦床(t_jumping)、排球扣球(v_spiking)、与狗一起散步(g_walking), 其示例如图 5所示.

图 5 UCF YouTube数据集示例图[30] Figure 5 Sample images of UCF YouTube Dataset[30]

该数据集的视频格式是MPEG格式, 对于每个类别的视频被分成25组, 每组至少4个行为视频.同一组的视频具有一些共同的特征, 如演员相同、背景相似、视角相似等.因此, 虽然该数据集也具有相机运动、视角、背景复杂度、光照条件等变化, 但由于类内相似度较高, 目前其识别准确率较高. Peng等[51]通过在表征层将传统的Fisher向量与堆叠Fisher向量(SFV)合并, 达到93.77 %的识别率. Liu等[52]提出一个深度学习框架CNRF, 采用时空CNN从原始输入帧学习不变特征, 同时采用结合条件随机场(CRF)的CNN捕获输出之间的相互依赖关系, 通过联合学习它们的参数, 达到94.4 %的识别率. Sun等[53]利用词袋量化将残差向量压缩成低维残差直方图, 并与多个迭代高阶残差向量生成的高阶残差直方图连接形成分层词袋模型(HBoW), 然后采用内部归一化处理, 达到94.50 %的识别率.

Olympic Sports[31]数据集来自于YouTube, 包含运动员练习的783个视频.该数据集包含16种运动类别:跳高(high-jump)、跳远(long-jump)、三级跳远(triple-jump)、撑杆跳(pole-vault)、单手上篮(basketball lay-up)、打保龄球(bowling)、网球发球(tennis-serve)、10米跳台(platform)、铁饼(discus)、链球(hammer)、标枪(javelin)、铅球(shot put)、3米跳板(springboard)、举重抓举(snatch)、举重挺举(clean-jerk)和跳马(vault), 其示例如图 6所示.该数据集在亚马逊土耳其机器人的帮助下注释其类标签, 包含复杂运动、严重遮挡、相机运动等因素影响.目前, Sekma等[54]基于人体检测的iDT描述符提出一种多层Fisher向量编码的方法, 达到96.5 %的识别率.而Li等[55]通过深度卷积神经网络(DCNN)获得短时动态特征; 利用线性动态系统(LDS)得到中间范围动态特征; 借助局部特征聚合描述符(VLAD)获得长期的不均匀动态特征, 并在考虑上述不同级别视频动态特征的基础上提出VLAD$^3$表征方法, 同时结合iDT描述符进一步提高性能, 获得96.6 %的识别率.

图 6 Olympic Sports数据集示例图 Figure 6 Sample images of Olympic Sports Dataset

HMDB51[32]数据集主要来源于电影, 只有一小部分来自公共数据库, 如Prelinger存档、YouTube和Google视频.该数据集包含6 849个视频, 分为51种行为类别, 每种行为包含至少101个视频.该数据集的行为类别可以归纳为5种类型: 1)普通面部动作:微笑、大笑、咀嚼、说话; 2)操纵对象的面部动作:抽烟、吃、喝; 3)普通身体运动:侧手翻、拍手、攀登、爬楼梯、俯冲、落地、反手空翻、倒立、跳、引体向上、俯卧撑、跑、坐下、仰卧起坐、翻筋斗、站起来、转身、走、挥手; 4)与对象交互的身体运动:梳头、抓球、拔剑、运球、打高尔夫、打东西、踢足球、捡东西、倒东西、推东西、骑自行车、骑马、投篮、射箭、射枪、打球棒、练剑、扔东西; 5)与人交互的身体运动:击剑、拥抱、踢人、亲吻、拳击、握手、斗剑, 其部分示例如图 7所示.因为该数据集来源不同, 并伴有遮挡、相机移动、复杂背景、光照条件变化等诸多因素影响, 导致其识别准确率较低, 极具有挑战性.最初, 该数据集的识别率为23.18 %[32]. 2016年, Feichtenhofer等[56]利用TCNN融合时间和空间特征达到69.2 %的识别率. Wang等[57]则利用三个TCNN构建时间分割网络(TSN)达到69.4 %的识别率, 略高于前者.此外, Wang等[58]研究了行为和场景之间的关系, 通过深度卷积神经网络Places205-VGGNet[59]模型获得场景特征, 同时利用静态场景编码和动态场景编码作为场景特征的补充, 再与运动特征结合, 将识别率提高到73.6 %.

图 7 HDMB51数据集示例图 Figure 7 Sample images of HDMB51 dataset

UCF50[33]数据集来自YouTube的现实视频, 是UCF11[30]的扩展.该数据集的行为类别由11种扩展到50种, 包含6 676个视频(现在实际有6 681个).该数据集增加的39种行为类别为:棒球投掷、卧推、台球击球、蛙泳、挺举、击鼓、击剑、弹吉他、跳高、赛马、呼啦圈、掷标枪、杂耍球、跳绳、开合跳、皮划艇、弓步、阅兵、调糊、双截棍、弹钢琴、扔披萨、撑竿跳、鞍马、引体向上、拳击、俯卧撑、室内攀岩、爬绳、赛艇、萨尔萨舞旋转、滑板、滑雪、摩托艇、打手鼓、太极、掷铁饼、弹小提琴和溜溜球, 其示例如图 8所示.每种行为类别也包含25组, 每组包含4 $\sim$ 23个视频, 具有一些共同的特征.因此, 该数据集识别率较高.截至目前, Lan等[60]为解决高斯金字塔不能在粗尺度产生新特征的问题, 提出一种新的特征增强技术MIFS. MIFS使用一系列差分滤波器提取堆叠特征, 通过多次时间跳跃参数化, 实现频率空间的平移不变性, 同时以粗尺度重新获取的信息来补偿使用差分算子丢失的信息, 提高基于差分滤波器特征的可学习性, 达到94.4 %的识别率. Ijjina等[61]利用遗传算法和深度卷积神经网络, 采用5折交叉验证达到99.98 %的识别率.

图 8 UCF50数据集示例图[33] Figure 8 Sample images of UCF50 dataset[33]

UCF101[34]数据集又是UCF50[33]的扩展, 包含101种动作类别, 共计13 320个视频片段.该数据集的行为类别可以分成5类: 1)人与对象的交互; 2)身体运动; 3)人之间的交互; 4)乐器演奏; 5)体育运动, 其部分示例如图 9所示.该数据集的每种行为类别包含25组, 每组包含4 $\sim$ 7个视频片段.该数据集由用户上传, 来自于无约束的现实环境, 平均剪辑长度为7.21秒, 包含相机运动、杂乱背景、不同光照条件、遮挡、低质量等不确定因素, 因此该数据集非常具有挑战性, 也引起了众多研究者的关注. 2012年最初的识别率为43.9 %[34]. 2016年, Feichtenhofer等[56]利用TCNN将识别率提升到93.5 %.同年, Lev等[62]基于FV, 利用递归神经网络(RNN)生成概率模型, 同时利用反向传播算法(BP)计算偏导数, 达到94.08 %的识别率.而Wang等[57]则利用TSN进一步将识别率提升到94.2 %, 给研究者提供了更好的研究思路.

图 9 UCF101数据集示例图 Figure 9 Sample images of UCF101 dataset

THUMOS挑战开始于2013年, 基于UCF101[34]数据集, 其目的是对含有大量类别的真实原始视频的大规模行为识别探索新的方法. THUMOS'13[63]的基准数据集在UCF101数据集的基础上增加了24类的注释框, 其中14个类来自UCF101, 10个类来自UCF11. THUMOS'14[64]的基准数据集在THUMOS'13的基础上增加了2 500个背景视频、1 010个验证视频和1 574个测试视频. THUMOS'15[65]的基准数据集是THUMOS'14数据集的扩展, 增加到2 980个背景视频、2 104个验证视频和5 613个测试视频.而且THUMOS增加的视频是未经修剪的原始视频, 其中还包括验证集和测试集中每种行为的负背景视频, 使行为识别任务更加困难.在2015年的THUMOS挑战赛中, 参赛组大都采用深度学习技术, 利用VGG-Net或CNN模型进行研究和改进, 其中悉尼科技大学和美国卡内基梅隆大学的联合参赛组取得74.6 %[66]的最好识别准确率.而后Li等[55]提出融合不同级别视频动态特征的VLAD$^3$表征方法, 同时利用iDT描述符获得80.8 %的识别率.

Sports-1M[35]数据集是Google公布的一个大型视频数据集, 来自于公开的YouTube视频.该数据集包含487种体育运动项目, 共计1 133 158个视频.该数据集中每种行为类别包含1 000 $\sim$ 3 000个视频, 其中有大约5 %的视频带有多个标注.该数据集包含的体育运动项目可以分为6大类:水上运动、团队运动、冬季运动、球类运动、对抗运动、与动物运动.而且各类别在叶级层次差异很小, 如包含6个不同类型的保龄球和23个不同类型台球等.自数据集创建以来, 约有7 %的视频已经被用户删除.由于该数据集来自公开视频, 所以相机运动不受限制, 导致光流参数在视频间变化较大, 给视频的识别带来一定的困难.目前, Mahasseni等[67]基于深度卷积神经网络(DCNN)和两层长短时记忆(LSTM)的多层体系结构, 同时利用3D骨架序列补充训练数据特征来改进大规模行为识别的效率.在正则化约束参数g1下, Hit@1的识别率为73.4 %, Hit@5的识别率为91.3 %; 而在正则化约束参数g3下, Hit@1的识别率为75.9 %, Hit@5的识别率为91.7 %.

真实场景数据集的行为类别、数据规模、场景复杂度不断增大, 给研究者提出了新挑战.而随着近年来深度学习在机器视觉领域的研究与应用, 研究者基于深度学习技术, 利用不同的模型, 如卷积神经网络(CNN)、深度卷积神经网络(DCNN)、递归神经网络(RNN)、双流卷积神经网络(TCNN)等, 同时结合不同的方法使相关数据集的识别率有了较大地提升.

真实场景数据集中各数据集的最新识别率、研究方法、评价方案等信息如表 2所示.

表 2 真实场景数据集的最新研究成果概览表 Table 2 Summary of state-of-the-art research results on real scene datasets
3 多视角数据集

视频行为分析最大的困难之一是由视角变化引起的特征不确定性.多视角数据集为视角变化情况下研究行为的旋转不变性提供了基准数据集.常见的多视角数据集有: IXMAS[68]、MuHAVi[69]、PETS[70-71]等.

INRIA Xmas Motion Acquisition Sequence (IXMAS)[68]数据集是由法国国家信息与自动化研究所(Institute for Research in Computer Science and Automation, INRIA)发布的, 是多视角和三维研究的重要校验基石.该数据集是从5个视角拍摄的, 室内的4个方向和顶部的1个方向.目前, 该数据集更新至总共由12个受试者完成13种不同的日常行为, 共计180个视频.该数据集的13种日常行为:看手表、抱胳膊、抓头、坐下、起来、转身、走、挥手、拳击、踢、指、捡和扔, 其同一动作5个视角的示例及其剪影如图 10所示.其中扔的动作又可以细分为两类:过头扔和从下方扔.

图 10 IXMAS数据集同一动作的5个视角及其剪影示例图 Figure 10 Sample images and the corresponding silhouettes for the same action of IXMAS dataset (5 cameras)

该数据集的视频中受试者顺序执行13种日常行为动作, 并重复执行3次.而最早公开的数据集[68]仅包含10个受试者执行的11种日常行为, 比目前公开的数据集少了2个受试者和两种行为(指和扔).另外, 该数据集还提供人体轮廓和体积元等信息.该数据集非常具有挑战性, 虽然摄像机是固定的, 环境的光照条件和背景基本不变, 但是受试者可以自由选择自己的位置和姿态, 故存在较大的外观变化、内部类变化和遮挡问题.针对该数据集的特点, 研究者分别从单视角和多视角两个方面进行研究.对常见单视角的5种行为(看手表、抱胳膊、抓头、坐下和起来), Ashraf等[72]利用对极几何单应性的一致性, 将身体姿态看作11个身体点研究视角无关的行为识别, 其识别率为91.6 %.而对单视角的11种行为, Ji等[73]通过连接相邻视点空间之间的子行为模型建立多视角转换隐马尔科夫模型(HMM), 达到92.7 %的识别率.对5个视角的11种行为, Gao等[74]通过有监督迁移字典对学习, 利用Cuboid特征获得95.3 %的识别率; 利用STIP特征获得95.1 %的识别率.而Wu等[75]利用基于多视角最大间距的支持向量机(MMM-SVM), 达到95.54 %的识别率.

多视角MuHAVi[69]数据集最早由英国工程和物理科学研究委员会(EPSRC)项目支持, 而目前则由智力科学技术研究委员会(CONICYT)常规项目支持.该数据集由7个受试者执行, 包含8个视角(其位置如图 11所示), 共计952个视频. 图 11的中间区域是行为执行区域, 在现场地板用白色胶带标记.

图 11 8个摄像机配置的顶视图[69] Figure 11 The top view of the configuration of 8 cameras[69]

该数据集包含17种行为类别:来回走、跑步停止、拳击、踢、强迫倒、拉重物、捡起扔物体、步行摔倒、看车、膝盖爬行、挥胳膊、画涂鸦、跳过栅栏、醉走、爬梯子、打碎物体、跳过间隙, 其8个视角的示例如图 12所示.针对4个视角, Moghaddam等[82]利用基于轮廓的扇形极值点, 采用HMM进行分类, 达到92.1 %的识别率; 而Wu等[83]提出视角无关的LKSSVM学习算法, 达到97.48 %的识别率. Alcantara等[84]针对所有视角, 利用累积运动形状(CMS)和多层描述符, 采用多级K近邻法(K-NN)进行分类, 达到91.6 %的识别率.

图 12 MuHAVi数据集的8个视角示例图[69] Figure 12 Sample images of MuHAVi dataset (8 cameras)[69]

多视角MuHAVi-MAS[69]数据集是MuHAVi[69]的子集, 并对轮廓数据进行了手动标注.该数据集由2个受试者执行, 仅包含侧面和45°两个视角(位置如图 11中所示的V3和V4), 共计136个视频.该数据集的行为划分更加精细, 一共含有14种行为(MuHAVi-14):向左倒、向右倒、自卫踢、自卫拳击、右踢、右击、从左向右跑、从右向左跑、从左边站起来、从右边站起来、从左向后转、从右向后转、从左向右走和从右向左走, 其两个视角的部分行为剪影如图 13所示.由于该数据集中包含视角变化, 行为类别之间具有较大的混淆性, 如从左向右跑和从右向左跑都可以视为跑, 因此, 具有一定的挑战性. Chaaraoui等[85]利用低维径向概括特征(Radial summary feature)和特征子集选择(Feature subset selection)进行特征级优化, 达到98.5 %的识别率.而Cai等[86]利用姿势字典学习达到98.53 %的识别率.

图 13 MuHAVi-Mas数据集的2个视角剪影示例图[69] Figure 13 Sample silhouette images of MuHAVi-MAS dataset (2 cameras)[69]

另外, MuHAVi-14的14种原始行为也可以合并为8种(MuHAVi-8):倒(向左/右)、站起来(从左/右)、右踢、右击、自卫(踢/拳击)、跑(向左/右)、走(向左/右)和向后转(从左/右).该数据集由于合并混淆性行为而降低了识别难度, Chaaraoui等[85]、Chaaraoui等[87]和Alcantara等[84, 88]都实现了100 %的识别率.

PETS (International Workshop on Performance Evaluation of Tracking and Surveillance), 其全称为跟踪与监控性能评估会议.该会议自2000年在法国召开第一届以来, 截至2016年, 已举行了16届.它的数据集是从现实生活中获取的, 主要来源于直接从视频监控系统拍摄的视频. PETS研讨会的目标是通过提供基准数据集来促进计算机视觉中检测和跟踪技术的发展.

PETS 2009[70]的基准数据集采自在英国雷丁大学的Whiteknights校区, 涉及大约40个受试者, 有8个摄像机位于不同角度进行拍摄, 其位置和方向的平面图如图 14所示, 而实景拍摄示例如图 15所示.该数据集记录了不同的人群活动序列, 分为三个数据集:数据集S1涉及人群人数和密度估计; 数据集S2用于人群中个体的跟踪; 数据集S3涉及人群流分析和事件检测.

图 14 8个摄像机位置和方向的平面图[70] Figure 14 Plan view showing the location and direction of the 8 cameras[70]
图 15 PETS 2009基准数据集示例图[70] Figure 15 Sample images of PETS 2009 benchmark dataset[70]

PETS 2014[71]的基准数据集由欧盟项目ARENA赞助, 称为"ARENA数据集".该数据集采用安装在车辆4个角落上的4个非重叠的视觉摄像机, 覆盖面积约100米$\times$ 30米, 如图 16所示.

图 16 卡车车载摄像头位置及覆盖范围[71] Figure 16 The on-board camera configuration and coverage[71]

该数据集共包含22个视频, 其分辨率为1 280 $\times$ 960, 其目的是检测和理解在停放的车辆周围的人类行为.该数据集涉及视频理解的三个层次内容的挑战: 1)低级视频分析, 即目标检测和跟踪; 2)中级视频分析, 即简单事件检测, 涉及个体行为识别; 3)高级视频分析, 即复杂事件检测, 涉及群体行为和交互行为识别.该数据集主要侧重于区分正常、异常和威胁行为.对威胁行为分为三个等级:异常行为、潜在犯罪行为和犯罪行为, 其示例如图 17所示. ARENA数据集由于其复杂性, 在PETS 2015[89]和PETS 2016[90]中继续作为基准数据集之一使用.

图 17 停放车辆周围的三种不同行为[91] Figure 17 Three different kinds of behavior recorded around a parked vehicle[91]

多视角数据集具有同一位置不同视角的信息, 有利于研究者进行视角无关的行为识别研究.目前, 对多视角数据集, 研究者大都通过提取不同的特征(如STIP、Cuboid、MoSIFT、Hog3D、CMS等), 采用不同的方法(如字典学习、迁移学习、多任务学习等)进行研究.

多视角数据集中各数据集的最新识别率、研究方法、评价方案等信息如表 3所示.

表 3 多视角数据集的最新研究成果概览表 Table 3 Summary of state-of-the-art research results on multi-view datasets
4 特殊数据集

为了更好地研究人体运动过程中的运动规律, 采用特殊技术捕获动作数据, 为人体行为识别提供有利信息, 比如利用运动传感器、惯性传感器、红外摄像头、Kinect相机等捕获运动信息、深度信息、人体骨架信息等.常见的数据集有: WARD[93]、CMU Motion Capture[94]、MSR Action 3D[95]、MSR Daily Activity 3D[96]、UCF Kinect[97]等.

WARD (Wearable Action Recognition Database)[93]人体日常行为数据库来自美国加州大学伯克利分校部分支持的项目.该数据库将无线运动传感器(如图 18 (a)所示)放置于人体腰部、左右手腕和左右脚踝5个部位上(如图 18 (b)所示), 构成一个身体传感器系统.其中, 每个传感器单元包括一个三轴加速度计和一个双轴陀螺仪, 数据采样频率为20 Hz.该数据集的早期规模较小, 利用8个无线运动传感器, 仅包含3个受试者12种行为类别的626个行为样本[98].目前该数据库包括年龄在19岁到75岁之间的20个受试者(13名男性和7名女性)在自然状态下执行的13种行为, 共计1 300个行为样本(现在实际有1 298个).该数据库的13种行为类别为:站、坐、躺、向前走、逆时针走、顺时针走、向左转、向右转、上楼、下楼、慢跑、跳和推轮椅, 每种行为重复执行5次.

图 18 WARD数据库示例图[93] Figure 18 Sample images of WARD database[93]

该数据库除提供相对稳定的公开定量比较平台外, 还有望引导未来分布式模式识别领域的创新算法的发展.目前, Guo等[99]首先对每个传感器节点的特征利用广义判别分析(GDA)进行降维, 然后采用多级关联向量机(RVM)获得个体分类, 最后利用传感器节点的异构和互补信息在决策层进行融合, 达到98.78 %的识别率.而Guo等[100]提出一种新的特征提取方法鲁棒线性判别分析(RLDA), 通过主成分分析(PCA)降维后重新估计类内散射矩阵的特征值而获得新的投影矩阵, 达到99.02 %的识别率.

CMU Motion Capture (Mocap)[94]数据集是由美国卡内基梅隆大学的图形实验室发布的.该数据集采用8个红外摄像头, 提供带有41个标记关节点的信息, 可以精确估计人体骨架结构信息.该数据集的运动捕获数据包括6个类别和23个亚类的2 605个实验.每个实验包含一个或多个行为类别, 提供低分辨率的RGB视频和3种格式的关节点数据: tvd、c3d和amc. 6个大类分别为:人类交互、与环境交互、人体移动、体育活动和运动、情况和情景、测试运动, 其部分示例如图 19所示.

图 19 CMU Mocap数据集示例图 Figure 19 Sample images of CMU Mocap dataset dataset

虽然CMU Mocap数据集随机采样执行动作, 其类内、类间的差异巨大, 但是由于提供的参数数据能够构建完整的3D模型, 吸引众多研究者的关注.目前, 研究者从该数据集中选取不同类别进行研究.对5种常见行为(走、跳、跑、爬和高尔夫挥杆), Jia等[101]提出用于描述3D非共面点的投影不变量, 即特征数(CN).对运动轨迹, 利用时间序列的人体单个关节点计算视角无关的时间特征数(TCN), 可用有限的关节点表征动作; 而在单帧的空间域, 计算5个关节点的空间特征数(SCN), 其与时间特征具有互补性.利用近邻分类器(1-NN), 采用时间特征数达到94.8 %的识别率, 采用空间特征数达到接近100 %的识别率. Aghbari等[102]提出一种贪心算法DisCoSet, 通过递增寻找一个最小的局部特征对比集, 不需要离散化就可以最大限度地区分一个类, 在选取的12种行为上达到98.6 %的识别率.而Kadu等[103]提出基于树型矢量量化(TSVQ)的多分辨率字符串表示方案将人体姿态的时间序列转换为码字序列, 并利用码字匹配考虑姿态的时间变化, 采用基于姿态直方图的支持向量机(SVM)进行分类, 在选取的30种行为上达到99.6 %的识别率.

利用Microsoft Kinect相机(如图 20所示)采集的深度数据可获得较为精准的人体关节点骨架序列.微软剑桥研究院(Microsoft Research Cambridge, MSR)先后发布了MSR Action 3D[95]和MSR Daily Activity 3D[96], 美国中佛罗里达大学发布了UCF Kinect[97].近几年, 陆续出现了综合利用Kinect和其他信息构建的多模态数据集, 如N-UCLA Multiview Action3D[104]、UTD-MHAD[105]等.这些数据集都是基于Kinect v1 (如图 20 (a)所示)构建的.而随着Kinect v2 (如图 20 (b)所示)的发布, 新加坡南洋理工大学的Shahroudy等[106]利用其特点构建了包含4种模态的大型数据集NTU RGB+D.

图 20 Microsoft Kinect相机示例图 Figure 20 Sample images of Microsoft Kinect camera

MSR Action 3D[95]数据集提供20个关节点的三维坐标数据、深度图像与RGB图像, 包含20种行为类别, 每种行为由10个受试者重复执行2 $\sim$ 3次, 总共567个样本.该数据集的20种行为类别为:高挥手、水平挥手、锤、手抓、打拳、高抛、画叉、画勾、画圆、拍手、双手挥、侧边拳击、弯曲、向前踢、侧踢、慢跑、网球挥拍、网球发球、高尔夫挥杆、捡起扔(对应标记为a01 $\sim$ a20), 其中网球发球的深度序列图如图 21所示.

图 21 MSR Action 3D数据集的深度序列图[95] Figure 21 The sequences of depth maps of MSR Action 3D dataset[95]

MSR Action 3D数据集的视频序列为无背景的纯人体运动, 但由于相似的动作以及关节位置噪声, 仍然非常具有挑战性.为了减少测试的计算复杂度, 依据行为的复杂程度将数据集划分为3个子集: AS$_1$、AS$_2$和AS$_3$ (如表 4所示).其中每个子集包含8种行为类别, 子集AS$_1$和AS$_2$中包含的动作复杂度相对较低, 但每个子集内的动作相似度较高; 而子集AS$_3$中的动作复杂度最高.

表 4 MSR Action 3D数据集的子集 Table 4 The subsets of MSR Action 3D dataset

该数据集被研究者广泛研究, 已成为3D行为识别的典型基准数据集.研究者大都采用划分3个子集和交叉受试者的方式进行验证.在划分3个子集的情况下, Luo等[107]提出基于组稀疏和几何约束的字典学习(DL-GSGC)算法, 利用时间金字塔匹配(TPM), 在利用1/3样本和2/3样本进行训练时均达到98.9 %的识别率.而Chen等[108]采用来自三个投影视图的深度运动图(DMM)捕捉运动线索, 同时使用局部二值模式(LBP)获得紧凑特征表征, 利用特征级和决策级两种融合方式, 在利用2/3样本进行训练时达到100 %的识别率.在交叉受试者的情况下, Chen等[109]提出一个有效利用3D深度数据进行识别的框架TriViews, 通过对每个投影视图的5个不同特征(STIP、DT-Shape、DT-MBH、ST-Shape和ST-MBH)选取最佳三个特征基于概率融合方法(PFA)进行融合, 达到98.2 %的识别率.而澳大利亚卧龙岗大学高级多媒体研究实验室的Wang等[110]提出利用分层深度运动图(HDMM)和3通道深度卷积神经网络(3ConvNets)的框架对深度图序列进行识别, 达到100 %的识别率.

MSR Daily Activity 3D[96]是由Kinect设备捕获的日常活动的数据集.该数据集由10个受试者执行, 包含16种类别的320个样本.该数据集的16种日常行为类别为:喝、吃、读书、打手机、写字、用笔记本电脑、用吸尘器、欢呼、静坐、扔纸、玩游戏、躺沙发、走、弹吉他、站起来、坐下, 其示例如图 22所示.其中, 每种行为由受试者以站姿或坐姿分别执行2次, 因此严格说来, 该数据集的行为类别分为17种, 因为静坐在执行时分别执行了两类行为:静坐和站.该数据集在具有背景物体的真实环境拍摄, 并且受试者距离相机的位置不固定; 大部分样本涉及到人与物体的交互行为; 有些行为包含身体的细节运动; 捕获的3D关节点坐标受噪声污染严重.因此, 该数据集比MSR Action3D[95]数据集更具挑战性.截至目前, Zhang等[111]通过深度梯度信息和骨架关节点距离来提取粗Depth-Skeleton (DS)特征, 并利用稀疏编码和最大池化进行细化, 采用随机决策森林(RDF)进行分类达到97.5 %的识别率; 而Shahroudy等[112]考虑RGB信息和深度信息的互补性, 提出一种基于共享特性特征分解网络的深度自动编码器, 将输入的多模态信号分离成一个分层结构, 利用结构化稀疏学习机(SSLM)同样获得97.5 %的识别率.

图 22 MSR Daily Activity 3D数据集示例图 Figure 22 Sample images of MSR Daily Activity 3D dataset

UCF Kinect[97]数据集使用微软Kinect传感器和OpenNI平台估计骨架, 包含16个受试者(13个男性和3个女性), 年龄介于20岁到35岁之间, 共计1 280个行为样本.该数据集的16种行为类别为:平衡、向上爬、爬梯子、躲避、单脚跳、跳跃、飞跃、跑、踢、打拳、向左扭、向右扭、向前走、后退、向左速移和向右速移, 其中每种行为由每个受试者重复执行5次.而且在每帧中, 包含15个关节点的三维坐标及方向数据, 部分骨架示例如图 23所示.

图 23 UCF Kinect数据集的骨架示例图[97] Figure 23 Sample skeleton images of UCF Kinect dataset[97]

该数据集在收集每个行为数据时, 要求受试者以一个放松的姿势站立, 双手自然垂于身体两侧, 因此, 可以更真实地估计各种行为的等待时间.该数据集具有不同的视点, 且相同行为具有类内差异. Kerola等[113]利用深度图序列, 基于骨架和关键点分别利用光谱图小波变换(SGWT)和金字塔池化计算相应的光谱图序列(SGS)描述符, 再通过SVM训练并使用晚融合策略达到98.8 %的识别率.而Beh等[114]为在单位超球面空间对手势轨迹建模, 将MvMM概率密度函数并入HMM, 同时利用$L_2$正则化达到98.9 %的识别率.

N-UCLA Multiview Action3D[104]数据集由美国西北大学和加州大学洛杉矶分校联合构建.该数据集将深度、骨架和多视角数据融合在一起, 旨在捕获人类从多个摄像机角度执行的日常行为.该数据集由3个Kinect相机从三个视角同时捕获, 包含10个受试者执行10种日常行为的1 493个行为样本(现在实际有1 475个). 10种日常行为是:用一只手捡(Pick up with one hand)、用两只手捡(Pick up with two hands)、丢垃圾(Drop trash)、走动(Walk around)、坐下(Sit down)、站起来(Stand up)、穿衣(Donning)、脱衣(Doffing)、投掷(Throw)和搬运(Carry), 其示例如图 24所示.

图 24 N-UCLA Multiview Action3D数据集示例图 Figure 24 Sample images of N-UCLA Multiview Action3D dataset

该数据集的若干行为包括与对象的交互, 如丢垃圾和搬运; 每个动作都是从不同的视角捕获的, 其视角分布如图 25所示; 有些行为非常相似, 如用一只手捡和用两只手捡; 有些动作很容易误判, 如将丢垃圾误认为是走动.因此, 该数据集非常具有挑战性. Kerola等[113]利用骨架和关键点构建的SGS取得90.8 %的识别率.而Liu等[115]针对时空骨架序列的有效表征问题提出一种增强骨架可视化方法, 通过基于序列的视角无关变换将骨架序列可视化为一系列彩色图像, 并对彩色图像利用视觉和运动增强方法进行局部增强, 然后利用CNN模型在决策级融合, 达到92.61 %的识别率.

图 25 Multiview Action3D的视角分布[104] Figure 25 The view distribution of Multiview Action3D dataset[104]

UTD-MHAD[105]数据集是由德克萨斯大学达拉斯分校的机构审查委员会(IRB)发布的多模态人体行为识别数据集.该数据集由Kinect相机和可穿戴惯性传感器(如图 26 (a)所示)同时来捕获4种模式的数据: RGB视频、深度视频、骨架关节点位置和惯性传感器信号, 其左臂向右滑行为的多模态数据示例如图 27所示.这4种模式的数据被记录在3个通道, 其中深度视频和20个骨架关节点位置信息被同时捕获在一个通道.该数据集包含27种行为, 由8名受试者(4名男性和4名女性)重复执行4次, 共计861个样本(去掉了3个损坏样本).

图 26 可穿戴惯性传感器及其位置示例图[105] Figure 26 Sample images of the wearable inertial sensor and its placements[105]
图 27 左臂向右滑行为的多模态数据示例图 Figure 27 Sample images of the multimodality data corresponding to the action left arm swipe to the right

该数据集的27种行为可以分为4大类: 1)体育运动:篮球投篮、保龄球、正面拳击、棒球挥杆、网球正手挥拍、网球发球; 2)手势:左臂向左滑、左臂向右滑、画X、顺时针画圆、逆时针画圆、画三角形; 3)日常活动:挥手、两手前拍、扔、交叉双臂、双手推、敲门、抓物、捡起扔、慢跑、走、站起来、坐下; 4)训练练习:双臂二头肌弯曲、左脚向前弓步、伸臂蹲.在采集数据集时, 可穿戴惯性传感器位于右手腕(21种行为)或右大腿(6种行为), 如图 26 (b)(c)所示(实际测试时位于左手腕或左大腿).由于受试者的差异, 并且行为以自然方式在不同的速度下执行, 因此该数据集具有较大的类内变化, 非常具有挑战性.目前, Li等[116]通过关节距离图(JDM)将3D骨架序列转化为4个二维彩色图像, 同时采用4个CNN分别学习判别特征, 通过晚融合获得88.1 %的识别率.而Bulbul等[117]从整个视频序列生成三个DMM, 然后利用DMM获得三个判别特征:基于轮廓的方向梯度直方图(CT-HOG)、局部二值模式(LBP)和边缘方向直方图(EOH), 最后采用决策级融合达到88.4 %的识别率.

NTU RGB+D[106]数据集是由新加坡南洋理工大学的博云搜索实验室(Rapid-Rich Object Search, ROSE)于2016年发布的最新的多视角深度信息数据集.利用Kinect v2的高分辨率和新的主动式红外检测, 构建了包含4种模态的大型数据集: RGB视频、深度视频、骨架关节点位置和红外视频.该数据集由年龄介于10岁到35岁之间的40个受试者执行60种行为, 共计56 880个行为样本, 4种模态数据共计1.3 TB.该数据集也是多视角数据集, 由3个Kinect v2相机从三个角度的17种不同高度和距离同时捕获, 共计80个视角.该数据集的行为类别分成三类: 1) 40种日常行为; 2) 9种与健康相关行为; 3) 11种交互行为, 其红外视频的部分示例如图 28所示.该数据集利用Kinect v2获得具有25个骨架关节点的信息, 其分布示意图如图 29所示.

图 28 NTU RGB+D数据集的红外示例图 Figure 28 Sample infrared images of NTU RGB+D dataset
图 29 25个骨架点示意图[106] Figure 29 Configuration of 25 body joints[106]

NTU RGB+D数据集不仅包含复杂的行为类型和多模态的数据信息, 而且数据量非常大, 具有很大挑战性.该数据集在2016年的CVPR会议上一经提出, 立即引起研究者的关注.针对该数据集的特点, 研究者大都采用Shahroudy等[106]提出的两种测试验证方式(交叉受试者验证和交叉视角验证).交叉受试者验证的训练集包含20个受试者共计40 320个样本; 测试集包含20个受试者共计16 560个样本.而交叉视角验证的训练集包含相机2和3的视频, 共计37 920个样本; 测试集包含相机1的视频, 共计18 960个样本. Wang等[118]提出了一种简单有效的表征3D骨架序列时空信息的方法, 通过关节轨迹图(JTM)将3D骨架序列转化为三个二维彩色图像, 同时采用三个CNN分别学习判别特征, 并通过多分数层融合(MSF)提高识别准确度.该方法在交叉受试者的方式下, 达到76.32 %的识别率; 而在交叉视角的方式下, 达到81.08 %的识别率. Li等[116]提出的利用关节距离图(JDM)方法在交叉受试者的方式下, 达到76.2 %的识别率; 而在交叉视角的方式下, 达到82.3 %的识别率.由此可以看出, 关节轨迹图(JTM)和关节距离图(JDM)各有优势, 二者的关系有待进一步探索.

特殊数据集, 尤其是RGB-D数据集, 由于其提供的多模态信息的互补性而受到研究者的广泛关注.研究者利用深度、骨架等信息, 通过深度图序列、3D骨架序列等提取不同判别特征来提高识别率. Li等[116]和Wang等[118]将3D骨架序列进行转换后, 利用CNN学习判别特征的新思路值得借鉴.而Zhang等[14]提出在RGB-D数据集中采用交叉数据集验证方式增强数据集鲁棒性和实用性的建议有待进一步研究.此外, 随着红外视频数据集的发展, 红外信息具有的避免光照、阴影、遮挡等因素影响的特性也将受到研究者的关注.

近年来, 随着对老人、孩子等特殊群体安全及监护的需求, 相继出现了包含跌倒行为在内的日常行为数据集, 如UR Fall Detection Dataset (URFD)[119]、TST Fall Detection v1[120]、TST Fall Detection v2[121]等, 也给人体行为识别的研究提出了新要求.

特殊数据集中各数据集的最新识别率、研究方法、评价方案等信息如表 5所示.

表 5 特殊数据集的最新研究成果概览表 Table 5 Summary of state-of-the-art research results on special datasets
5 公开数据集比较

本文对上述介绍的4类人体行为数据库/集, 从公开年份、行为类别、行为人数、视频总数、每类视频数、分辨率等方面进行了的详细比较, 其信息如表 6表 7所示.从表中可以看出, 特殊数据集的行为类别和规模相对于真实场景数据库来说较少.这与特殊数据库需要利用专门的设备来捕获有直接的关系.另外, 根据这4类数据集的场景、内容、视角、应用领域等信息, 对各数据集按不同特征进行分类对比, 具体内容如表 8所示.

表 6 通用、真实场景及多视角数据集信息表 Table 6 The information of general datasets, real scene datasets and multi-view datasets
表 7 特殊数据集信息表 Table 7 The information of special human activity recognition datasets
表 8 人体行为数据集分类信息表 Table 8 Human activity dataset classification according to different features

由于篇幅所限, 本文中仅介绍了相对应用较多的公开数据集.还有一些数据集信息参见表 6~8.

6 总结与展望

总体而言, 早期的公开数据集相机固定、行为类别较少、背景较简单.而近几年发布的人体行为识别公开数据集有如下几个趋势:

1) 行为类别和数量越来越多.随着科技的发展和设备的进步, 发布的公开数据集的行为类别从最初KTH的6种行为类别发展到Sports-1M的487种行为类别.而视频的数量从100个左右发展到1M.近期, Google又公布了一个大型视频数据集YouTube-8M[146].该数据集是目前最大的视频数据集, 包含800万个YouTube视频共计4 800个类别, 并带有视频标注.而其中与人相关的视频只是其中的一小部分, 大约有8 000个.虽然如此, 但可以肯定, 人体行为识别公开数据集的规模会越来越大, 行为类别的数量会越来越多.

2) 行为越来越复杂.公开数据集的人体行为从走、跑、跳等简单的行为发展到涉及人与人交互、人与物交互、异常行为、群体行为等复杂行为.对异常行为、交互行为、群体行为等复杂行为的识别, 逐渐成为研究者关注的热点, 并将为以后公共场所的安全防范提供有力的保障.

3) 场景越来越复杂.数据集的视频从简单场景到复杂场景, 并伴有遮挡、光照等噪声影响, 给人体行为识别的研究带来进一步的挑战.因此, 如何降低噪声对识别效果的影响是人体行为识别未来的研究方向之一.

4) 多视角化.较早的公开数据集相机基本固定, 几乎没有视角变化.近几年的数据集出现了相机运动和视角变化.而相机在不同视角下, 人、物和场景的大小、方向和形状都会发生变化, 这给行为识别的研究提出了新要求.在行为识别中, 多视角的研究具有一定的优势, 通过视角变化对人体行为进行二维或三维建模, 利用相同点在模型不同位置的匹配和分析实现不同视角下人体行为特征的表征.因此, 视角无关的行为识别研究也是人体行为识别未来的研究方向之一.

5) 多模态化.随着各式新型传感器和设备的发展, 相继出现了包含RGB视频、深度信息、骨架信息、红外信息等多模态信息的数据集.不同模态数据之间存在较强相关性, 利用人体行为语义信息和互补性信息, 从多模态的低层特征学习到高层语义特征来进行人体行为识别, 这也将成为未来的研究方向.

总之, 人体行为识别公开数据集越来越接近于不受控的自然状态下的情形, 给研究者在保持算法鲁棒性的同时, 提高行为识别准确率带来更大的难度.而随着深度学习在目标检测、分类等领域的应用, 其强大的数据表达能力, 必将为提高行为识别的性能开辟一个新的研究方向.

参考文献
1
Hu W M, Tan T N, Wang L, Maybank S. A survey on visual surveillance of object motion and behaviors. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2004, 34(3): 334-352. DOI:10.1109/TSMCC.2004.829274
2
Kim I S, Choi H S, Yi K M, Choi J Y, Kong S G. Intelligent visual surveillance-a survey. International Journal of Control, Automation and Systems, 2010, 8(5): 926-939. DOI:10.1007/s12555-010-0501-4
3
Huang Kai-Qi, Chen Xiao-Tang, Kang Yun-Feng, Tan Tie-Niu. Intelligent visual surveillance:a review. Chinese Journal of Computers, 2015, 38(6): 1093-1118.
( 黄凯奇, 陈晓棠, 康运锋, 谭铁牛. 智能视频监控技术综述. 计算机学报, 2015, 38(6): 1093-1118. DOI:10.11897/SP.J.1016.2015.01093)
4
Dix A. Human-Computer Interaction. Berlin: Springer-Verlag, 2009. 1327-1331
5
Myers B A. A brief history of human-computer interaction technology. Interactions, 1998, 5(2): 44-54. DOI:10.1145/274430.274436
6
Rautaray S S, Agrawal A. Vision based hand gesture recognition for human computer interaction:a survey. Artificial Intelligence Review, 2015, 43(1): 1-54. DOI:10.1007/s10462-012-9356-9
7
Park S H, Won S H, Lee J B, Kim S W. Smart home-digitally engineered domestic life. Personal and Ubiquitous Computing, 2003, 7(3-4): 189-196. DOI:10.1007/s00779-003-0228-9
8
Jeong K-A, Salvendy G, Proctor R W. Smart home design and operation preferences of Americans and Koreans. Ergonomics, 2010, 53(5): 636-660. DOI:10.1080/00140130903581623
9
Komninos N, Philippou E, Pitsillides A. Survey in smart grid and smart home security:Issues, challenges and countermeasures. IEEE Communications Surveys & Tutorials, 2014, 16(4): 1933-1954.
10
Suma E A, Krum D M, Lange B, Koenig S, Rizzo A, Bolas M. Adapting user interfaces for gestural interaction with the flexible action and articulated skeleton toolkit. Computers & Graphics, 2013, 37(3): 193-201.
11
Zelnik-Manor L, Irani M. Event-based analysis of video. In: Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). Kauai, Hawaii, USA: IEEE, 2001, 2: Ⅱ-123-Ⅱ-130 http://doi.ieeecomputersociety.org/10.1109/CVPR.2001.990935
12
Ahad M A R, Tan J, Kim H, Ishikawa S. Action dataset-a survey. In: Proceedings of the 2011 SICE Annual Conference (SICE). Tokyo, Japan: IEEE, 2011. 1650-1655 http://www.mendeley.com/catalog/action-dataset-survey/
13
Chaquet J M, Carmona E J, Fernández-Caballero A. A survey of video datasets for human action and activity recognition. Computer Vision and Image Understanding, 2013, 117(6): 633-659. DOI:10.1016/j.cviu.2013.01.013
14
Zhang J, Li W Q, Ogunbona P O, Wang P C, Tang C. RGB-D-based action recognition datasets:a survey. Pattern Recognition, 2016, 60: 86-105. DOI:10.1016/j.patcog.2016.05.019
15
Aggarwal J K, Ryoo M S. Human activity analysis:a review. ACM Computing Surveys, 2011, 43(3): Article No. 16.
16
Vishwakarma S, Agrawal A. A survey on activity recognition and behavior understanding in video surveillance. The Visual Computer, 2013, 29(10): 983-1009. DOI:10.1007/s00371-012-0752-6
17
Chen C, Jafari R, Kehtarnavaz N. A survey of depth and inertial sensor fusion for human action recognition. Multimedia Tools and Applications, 2017, 76(3): 4405-4425. DOI:10.1007/s11042-015-3177-1
18
Shan Yan-Hu, Zhang Zhang, Huang Kai-Qi. Visual human action recognition:history, status and prospects. Journal of Computer Research and Development, 2016, 53(1): 93-112.
( 单言虎, 张彰, 黄凯奇. 人的视觉行为识别研究回顾、现状及展望. 计算机研究与发展, 2016, 53(1): 93-112. DOI:10.7544/issn1000-1239.2016.20150403)
19
Schuldt C, Laptev I, Caputo B. Recognizing human actions: a local SVM approach. In: Proceedings of the 17th International Conference on Pattern Recognition (ICPR). Cambridge, UK: IEEE, 2004, 3: 32-36 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=1334462
20
Blank M, Gorelick L, Shechtman E, Irani M, Basri R. Actions as space-time shapes. In: Proceedings of the 10th IEEE International Conference on Computer Vision (ICCV'05). Beijing, China: IEEE, 2005, 2: 1395-1402 http://europepmc.org/abstract/MED/17934233
21
Gorelick L, Blank M, Shechtman E, Irani M, Basri R. Actions as space-time shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(12): 2247-2253. DOI:10.1109/TPAMI.2007.70711
22
Zhou T C, Li N J, Cheng X, Xu Q J, Zhou L, Wu Z Y. Learning semantic context feature-tree for action recognition via nearest neighbor fusion. Neurocomputing, 2016, 201: 1-11. DOI:10.1016/j.neucom.2016.04.007
23
Xu W R, Miao Z J, Tian Y. A novel mid-level distinctive feature learning for action recognition via diffusion map. Neurocomputing, 2016, 218: 185-196. DOI:10.1016/j.neucom.2016.08.057
24
Gorelick L, Blank M, Shechtman E, Irani M, Basri R. Actions as space-time shapes[Online], available: http://www.wisdom.weizmann.ac.il/~vision/SpaceTime-Actions.html, January 26, 2016.
25
Tran D, Sorokin A. Human activity recognition with metric learning. In: Proceedings of the 10th European Conference on Computer Vision (ECCV). Marseille, France: Springer, 2008. 548-561 http://www.springerlink.com/content/p2183333585g8845
26
Fathi A, Mori G. Action recognition by learning mid-level motion features. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, AK, USA: IEEE, 2008. 1-8 http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4587735
27
Laptev I, Marszalek M, Schmid C, Rozenfeld B. Learning realistic human actions from movies. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, AK, USA: IEEE, 2008. 1-8 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=4587756
28
Rodriguez M D, Ahmed J, Shah M. Action MACH a spatio-temporal maximum average correlation height filter for action recognition. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, AK, USA: IEEE, 2008. 1-8 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=4587727
29
Marszalek M, Laptev I, Schmid C. Actions in context. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, FL, USA: IEEE, 2009. 2929-2936
30
Liu J G, Luo J B, Shah M. Recognizing realistic actions from videos "in the wild". In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, FL, USA: IEEE, 2009. 1996-2003 http://doi.ieeecomputersociety.org/10.1109/CVPRW.2009.5206744
31
Niebles J C, Chen C W, Li F F. Modeling temporal structure of decomposable motion segments for activity classification. In: Proceedings of the 11th European Conference on Computer Vision (ECCV): Part Ⅱ. Heraklion, Crete, Greece: Springer, 2010. 392-405
32
Kuehne H, Jhuang H, Garrote E, Poggio T, Serre T. HMDB: a large video database for human motion recognition. In: Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona, Spain: IEEE, 2011. 2556-2563 http://doi.ieeecomputersociety.org/10.1109/ICCV.2011.6126543
33
Reddy K K, Shah M. Recognizing 50 human action categories of web videos. Machine Vision and Applications, 2013, 24(5): 971-981. DOI:10.1007/s00138-012-0450-4
34
Soomro K, Zamir A R, Shah M. UCF101: a dataset of 101 human actions classes from videos in the wild. arXiv: 1212. 0402, 2012. 1-7
35
Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Li F F. Large-scale video classification with convolutional neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014. 1725-1732 http://ieeexplore.ieee.org/document/6909619/
36
Kulkarni K, Evangelidis G, Cech J, Horaud R. Continuous action recognition based on sequence alignment. International Journal of Computer Vision, 2015, 112(1): 90-114. DOI:10.1007/s11263-014-0758-9
37
Shabani A H, Clausi D A, Zelek J S. Evaluation of local spatio-temporal salient feature detectors for human action recognition. In: Proceedings of the 2012 Ninth Conference on Computer and Robot Vision (CRV). Toronto, ON, Canada: IEEE, 2012. 468-475 http://dl.acm.org/citation.cfm?id=2354394
38
Fernando B, Anderson P, Hutter M, Gould S. Discriminative hierarchical rank pooling for activity recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 1924-1932 http://doi.ieeecomputersociety.org/10.1109/CVPR.2016.212
39
Wang H, Schmid C. Action recognition with improved trajectories. In: Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia: IEEE, 2013. 3551-3558 http://doi.ieeecomputersociety.org/10.1109/ICCV.2013.441
40
Liu A A, Su Y T, Nie W Z, Kankanhalli M. Hierarchical clustering multi-task learning for joint human action grouping and recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(1): 102-114. DOI:10.1109/TPAMI.2016.2537337
41
Wang Y, Tran V, Hoai M. Evolution-preserving dense trajectory descriptors. arXiv: 1702. 04037, 2017.
42
Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos. Advance in Neural Information Processing Systems, 2014, 1(4): 568-576.
43
Al Harbi N, Gotoh Y. A unified spatio-temporal human body region tracking approach to action recognition. Neurocomputing, 2015, 161: 56-64. DOI:10.1016/j.neucom.2014.11.072
44
Tong M, Wang H Y, Tian W J, Yang S L. Action recognition new framework with robust 3D-TCCHOGAC and 3D-HOOFGAC. Multimedia Tools and Applications, 2017, 76(2): 3011-3030. DOI:10.1007/s11042-016-3279-4
45
Vishwakarma D K, Kapoor R, Dhiman A. Unified framework for human activity recognition:an approach using spatial edge distribution and R-transform. AEU-International Journal of Electronics and Communications, 2016, 70(3): 341-353. DOI:10.1016/j.aeue.2015.12.016
46
Vishwakarma D K, Kapoor R, Dhiman A. A proposed unified framework for the recognition of human activity by exploiting the characteristics of action dynamics. Robotics and Autonomous Systems, 2016, 77: 25-38. DOI:10.1016/j.robot.2015.11.013
47
Liu C W, Pei M T, Wu X X, Kong Y, Jia Y D. Learning a discriminative mid-level feature for action recognition. Science China Information Sciences, 2014, 57(5): 1-13.
48
Laptev I, Marszalek M, Schmid C, Rozenfeld B. Hollywood2: Human actions and scenes dataset[Online], available: http://www.di.ens.fr/~laptev/actions/hollywood2/, March 12, 2016.
49
Wang H, Kläser A, Schmid C, Liu C L. Dense trajectories and motion boundary descriptors for action recognition. International Journal of Computer Vision, 2013, 103(1): 60-79. DOI:10.1007/s11263-012-0594-8
50
Soomro K, Zamir A R. Action recognition in realistic sports videos. Computer vision in sports. Cham, Switzerland: Springer, 2014. 181-208
51
Peng X J, Zou C Q, Qiao Y, Peng Q. Action recognition with stacked fisher vectors. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland: Springer, 2014. 581-595 http://rd.springer.com/chapter/10.1007/978-3-319-10602-1_38
52
Liu C H, Liu J, He Z C, Zhai Y J, Hu Q H, Huang Y L. Convolutional neural random fields for action recognition. Pattern Recognition, 2016, 59: 213-224. DOI:10.1016/j.patcog.2016.03.019
53
Sun Q R, Liu H, Ma L Q, Zhang T W. A novel hierarchical bag-of-words model for compact action representation. Neurocomputing, 2016, 174(Part B): 722-732.
54
Sekma M, Mejdoub M, Amar C B. Human action recognition based on multi-layer fisher vector encoding method. Pattern Recognition Letters, 2015, 65(C): 37-43.
55
Li Y W, Li W X, Mahadevan V, Vasconcelos N. VLAD3: encoding dynamics of deep features for action recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 1951-1960 http://doi.ieeecomputersociety.org/10.1109/CVPR.2016.215
56
Feichtenhofer C, Pinz A, Zisserman A. Convolutional two-stream network fusion for video action recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 1933-1941 http://arxiv.org/abs/1604.06573
57
Wang L M, Xiong Y J, Wang Z, Qiao Y, Lin D H, Tang X O, Van Gool L. Temporal segment networks: Towards good practices for deep action recognition. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, the Netherlands: Springer, 2016. 20-36 http://link.springer.com/chapter/10.1007/978-3-319-46484-8_2
58
Wang H S, Wang W, Wang L. How scenes imply actions in realistic videos? In: Proceedings of the 2016 IEEE International Conference on Image Processing (ICIP). Phoenix, AZ, USA: IEEE, 2016. 1619-1623 http://ieeexplore.ieee.org/document/7532632/
59
Wang L M, Guo S, Huang W L, Qiao Y. Places205-VGGNet models for scene recognition. arXiv: 1508. 01667, 2015.
60
Lan Z Z, Lin M, Li X C, Hauptmann A G, Raj B. Beyond Gaussian pyramid: multi-skip feature stacking for action recognition. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015. 204-212 http://doi.ieeecomputersociety.org/10.1109/CVPR.2015.7298616
61
Ijjina E P, Chalavadi K M. Human action recognition using genetic algorithms and convolutional neural networks. Pattern Recognition, 2016, 59: 199-212. DOI:10.1016/j.patcog.2016.01.012
62
Lev G, Sadeh G, Klein B, Wolf L. RNN Fisher vectors for action recognition and image annotation. In: Proceedings of the 14th European Conference on Computer Vision (ECCV): Part Ⅷ . Amsterdam, the Netherlands: Springer, 2016. 833-850
63
Jiang Y G, Liu J G, Zamir A R, Laptev I, Piccardi M, Shah M, Sukthankar R. THUMOS challenge: Action recognition with a large number of classes[Online], available: http://crcv.ucf.edu/ICCV13-Action-Workshop/index.html, November 20, 2016.
64
Jiang Y G, Liu J G, Zamir A R, Toderici G, Laptev I, Shah M, Sukthankar R. THUMOS challenge: action recognition with a large number of classes[Online], available: http://crcv.ucf.edu/THUMOS14/home.html, November 20, 2016.
65
Gorban A, Idrees H, Jiang Y G, Zamir A R, Laptev I, Shah M, Sukthankar R. THUMOS challenge: action recognition with a large number of classes[Online], available: http://www.thumos.info/home.html, November 20, 2016.
66
Xu Z, Zhu L, Yang Y, Hauptmann A G. UTS-CMU at THUMOS 2015. In: Proceedings of the 2015 THUMOS Challenge. Boston, MA, USA: CVPR, 2015. 1-3
67
Mahasseni B, Todorovic S. Regularizing long short term memory with 3D human-skeleton sequences for action recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 3054-3062 http://doi.ieeecomputersociety.org/10.1109/CVPR.2016.333
68
Weinland D, Ronfard R, Boyer E. Free viewpoint action recognition using motion history volumes. Computer Vision and Image Understanding, 2006, 104(2-3): 249-257. DOI:10.1016/j.cviu.2006.07.013
69
Singh S, Velastin S A, Ragheb H. MuHAVi: a multicamera human action video dataset for the evaluation of action recognition methods. In: Proceedings of the 7th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Boston, MA, USA: IEEE, 2010. 48-55 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5597316
70
Ferryman J, Shahrokni A. PETS2009: dataset and challenge. In: Proceedings of the 22th IEEE International Workshop on Performance Evaluation of Tracking and Surveillance (PETS-Winter). Snowbird, UT, USA: IEEE, 2009. 1-6 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5399556
71
Patino L, Ferryman J. PETS 2014: dataset and challenge. In: Proceedings of the 11th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Seoul, South Korea: IEEE, 2014. 355-360 http://doi.ieeecomputersociety.org/10.1109/AVSS.2014.6918694
72
Ashraf N, Foroosh H. Motion retrieval using consistency of epipolar geometry. In: Proceedings of the 2015 IEEE International Conference on Image Processing (ICIP). Quebec City, QC, Canada: IEEE, 2015. 4219-4223 http://ieeexplore.ieee.org/document/7351601/
73
Ji X F, Ju Z J, Wang C, Wang C H. Multi-view transition HMMs based view-invariant human action recognition method. Multimedia Tools and Applications, 2016, 75(19): 11847-11864. DOI:10.1007/s11042-015-2661-y
74
Gao Z, Nie W Z, Liu A N, Zhang H. Evaluation of local spatial-temporal features for cross-view action recognition. Neurocomputing, 2016, 173(Part 1): 110-117.
75
Wu D, Shao L. Multi-max-margin support vector machine for multi-source human action recognition. Neurocomputing, 2014, 127(3): 98-103.
76
Yi Y, Lin M Q. Human action recognition with graph-based multiple-instance learning. Pattern Recognition, 2016, 53(C): 148-162.
77
Jung H J, Hong K S. Modeling temporal structure of complex actions using bag-of-sequencelets. Pattern Recognition Letters, 2017, 85: 21-28. DOI:10.1016/j.patrec.2016.11.012
78
Ballas N, Yang Y, Lan Z Z, Delezoide B, Preteux F, Hauptmann A. Space-time robust representation for action recognition. In: Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, NSW, Australia: IEEE, 2013. 2704-2711 http://doi.ieeecomputersociety.org/10.1109/ICCV.2013.336
79
Qiu Z F, Li Q, Yao T, Mei T, Rui Y. MSR Asia MSM at THUMOS challenge 2015. In: Proceedings of the 2015 THUMOS Challenge. Boston, MA, USA: CVPR, 2015. 1-3 http://storage.googleapis.com/www.thumos.info/thumos15_notebooks/TH15_MSRAsia.pdf
80
Ning K, Wu F. ZJUDCD submission at THUMOS challenge 2015. In: Proceedings of the 2015 THUMOS Challenge. Boston, MA, USA: CVPR, 2015. 1-2
81
Ng J Y H, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G. Beyond short snippets: deep networks for video classification. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015. 4694-4702 http://doi.ieeecomputersociety.org/10.1109/CVPR.2015.7299101
82
Moghaddam Z, Piccardi M. Training initialization of Hidden Markov Models in human action recognition. IEEE Transactions on Automation Science and Engineering, 2014, 11(2): 394-408. DOI:10.1109/TASE.2013.2262940
83
Wu X X, Jia Y D. View-invariant action recognition using latent kernelized structural SVM. In: Proceedings of the 12th European Conference on Computer Vision (ECCV). Florence, Italy: Springer, 2012. 411-424 http://dl.acm.org/citation.cfm?id=2403170
84
Alcantara M F, Moreira T P, Pedrini H. Real-time action recognition using a multilayer descriptor with variable size. Journal of Electronic Imaging, 2016, 25(1): Article No., 013020.
85
Chaaraoui A A, Flórez-Revuelta F. Human action recognition optimization based on evolutionary feature subset selection. In: Proceedings of the 15th Annual Conference on Genetic and Evolutionary Computation. Amsterdam, the Netherlands: ACM, 2013. 1229-1236 Human action recognition optimization based on evolutionary feature subset selection
86
Cai J X, Tang X, Feng G C. Learning pose dictionary for human action recognition. In: Proceedings of the 22nd International Conference on Pattern Recognition (ICPR). Stockholm, Sweden: IEEE, 2014. 381-386 http://dl.acm.org/citation.cfm?id=2704008
87
Chaaraoui A A, Flórez-Revuelta F. A low-dimensional radial silhouette-based feature for fast human action recognition fusing multiple views. International Scholarly Research Notices, 2014, 2014: Article No., 547069.
88
Alcantara M F, Moreira T P, Pedrini H. Real-time action recognition based on cumulative motion shapes. In: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy: IEEE, 2014. 2917-2921 http://ieeexplore.ieee.org/document/6854134/
89
Li L Z, Nawaz T, Ferryman J. PETS 2015: datasets and challenge. In: Proceedings of the 12th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Karlsruhe, Germany: IEEE, 2015. 1-6 http://doi.ieeecomputersociety.org/10.1109/AVSS.2015.7301741
90
Patino L, Cane T, Vallee A, Ferryman J. PETS 2016: dataset and challenge. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Las Vegas, NV, USA: IEEE, 2016. 1240-1247 http://ieeexplore.ieee.org/document/7789647/
91
PETS 2014[Online], available: http://www.cvg.reading.ac.uk/PETS2014/, April 16, 2016
92
Chen J W, Wu J, Konrad J, Ishwar P. Semi-coupled two-stream fusion ConvNets for action recognition at extremely low resolutions. In: Proceedings of the 2017 IEEE Winter Conference on Applications of Computer Vision (WACV). Santa Rosa, California, USA: IEEE, 2017. 139-147 http://ieeexplore.ieee.org/document/7926606/
93
Yang A Y, Jafari R, Sastry S S, Bajcsy R. Distributed recognition of human actions using wearable motion sensor networks. Journal of Ambient Intelligence and Smart Environments, 2009, 1(2): 103-115.
94
CMU graphics lab motion capture database[Online], available: http://mocap.cs.cmu.edu, September 27, 2016.
95
Li W Q, Zhang Z Y, Liu Z C. Action recognition based on a bag of 3D points. In: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). San Francisco, CA, USA: IEEE, 2010. 9-14 http://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumber=5543273&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Ficp.jsp%3Farnumber%3D5543273
96
Wang J, Liu Z C, Wu Y, Yuan J S. Mining actionlet ensemble for action recognition with depth cameras. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2012. 1290-1297 http://dl.acm.org/citation.cfm?id=2354966
97
Ellis C, Masood S Z, Tappen M F, LaViola Jr J J, Sukthankar R. Exploring the trade-off between accuracy and observational latency in action recognition. International Journal of Computer Vision, 2013, 101(3): 420-436. DOI:10.1007/s11263-012-0550-7
98
Yang A Y, Iyengar S, Kuryloski P, Jafari R. Distributed segmentation and classification of human actions using a wearable motion sensor network. In: Proceedings of the 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW'08). Anchorage, AK, USA: IEEE, 2008. 1-8 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=4563176
99
Guo Y C, He W H, Gao C. Human activity recognition by fusing multiple sensor nodes in the wearable sensor systems. Journal of Mechanics in Medicine and Biology, 2012, 12(5): Article No., 1250084. DOI:10.1142/S0219519412500844
100
Guo M, Wang Z L. A feature extraction method for human action recognition using body-worn inertial sensors. In: Proceedings of the 19th International Conference on Computer Supported Cooperative Work in Design (CSCWD). Calabria, Italy: IEEE, 2015. 576-581 http://ieeexplore.ieee.org/document/7231022/
101
Jia Q, Fan X, Luo Z X, Li H J, Huyan K, Li Z Z. Cross-view action matching using a novel projective invariant on non-coplanar space-time points. Multimedia Tools and Applications, 2016, 75(19): 11661-11682. DOI:10.1007/s11042-015-2704-4
102
Al Aghbari Z, Junejo I N. DisCoSet:discovery of contrast sets to reduce dimensionality and improve classification. International Journal of Computational Intelligence Systems, 2015, 8(6): 1178-1191.
103
Kadu H, Kuo C C J. Automatic human Mocap data classification. IEEE Transactions on Multimedia, 2014, 16(8): 2191-2202. DOI:10.1109/TMM.2014.2360793
104
Wang J, Nie X H, Xia Y, Wu Y, Zhu S C. Cross-view action modeling, learning, and recognition. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014. 2649-2656 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6909735
105
Chen C, Jafari R, Kehtarnavaz N. UTD-MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In: Proceedings of the 2015 IEEE International Conference on Image Processing (ICIP). Quebec City, QC, Canada: IEEE, 2015. 168-172 http://ieeexplore.ieee.org/document/7350781
106
Shahroudy A, Liu J, Ng T T, Wang G. NTU RGB+D: a large scale dataset for 3D human activity analysis. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 1010-1019 http://arxiv.org/abs/1604.02808
107
Luo J J, Wang W, Qi H R. Group sparsity and geometry constrained dictionary learning for action recognition from depth maps. In: Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, NSW, Australia: IEEE, 2013. 1809-1816 http://doi.ieeecomputersociety.org/10.1109/ICCV.2013.227
108
Chen C, Jafari R, Kehtarnavaz N. Action recognition from depth sequences using depth motion maps-based local binary patterns. In: Proceedings of the 2015 IEEE Winter Conference on Applications of Computer Vision (WACV). Waikoloa, HI, USA: IEEE, 2015. 1092-1099 http://dl.acm.org/citation.cfm?id=2764065.2764211
109
Chen W B, Guo G D. Triviews:a general framework to use 3D depth data effectively for action recognition. Journal of Visual Communication and Image Representation, 2015, 26: 182-191. DOI:10.1016/j.jvcir.2014.11.008
110
Wang P C, Li W Q, Gao Z M, Zhang J, Tang C, Ogunbona P. Deep convolutional neural networks for action recognition using depth map sequences. arXiv: 1501. 04686, 2015. 1-8
111
Zhang H L, Zhong P, He J L, Xia C X. Combining depth-skeleton feature with sparse coding for action recognition. Neurocomputing, 2017, 230: 417-426. DOI:10.1016/j.neucom.2016.12.041
112
Shahroudy A, Ng T T, Gong Y H, Wang G. Deep multimodal feature analysis for action recognition in RGB+D videos. arXiv: 160307120, 2016.
113
Kerola T, Inoue N, Shinoda K. Cross-view human action recognition from depth maps using spectral graph sequences. Computer Vision and Image Understanding, 2017, 154: 108-126. DOI:10.1016/j.cviu.2016.10.004
114
Beh J, Han D K, Durasiwami R, Ko H. Hidden Markov model on a unit hypersphere space for gesture trajectory recognition. Pattern Recognition Letters, 2014, 36: 144-153. DOI:10.1016/j.patrec.2013.10.007
115
Liu M Y, Liu H, Chen C. Enhanced skeleton visualization for view invariant human action recognition. Pattern Recognition, 2017, 68: 346-362. DOI:10.1016/j.patcog.2017.02.030
116
Li C K, Hou Y H, Wang P C, Li W Q. Joint distance maps based action recognition with convolutional neural networks. IEEE Signal Processing Letters, 2017, 24(5): 624-628. DOI:10.1109/LSP.2017.2678539
117
Bulbul M F, Jiang Y S, Ma J W. DMMs-based multiple features fusion for human action recognition. International Journal of Multimedia Data Engineering & Management, 2015, 6(4): 23-39.
118
Wang P C, Li W Q, Li C K, Hou Y H. Action recognition based on joint trajectory maps with convolutional neural networks. arXiv: 1612. 09401v1, 2016. 1-11
119
Kwolek B, Kepski M. Human fall detection on embedded platform using depth maps and wireless accelerometer. Computer Methods and Programs in Biomedicine, 2014, 117(3): 489-501. DOI:10.1016/j.cmpb.2014.09.005
120
Gasparrini S, Cippitelli E, Spinsante S, Gambi E. A depth-based fall detection system using a kinect? sensor. Sensors, 2014, 14(2): 2756-2775. DOI:10.3390/s140202756
121
Gasparrini S, Cippitelli E, Gambi E, Spinsante S, Wåhslén J, Orhan I, Lindh T. Proposal and experimental evaluation of fall detection solution based on wearable and depth data fusion. ICT innovations 2015. Cham, Switzerland: Springer, 2016. 99-108 http://link.springer.com/10.1007/978-3-319-25733-4_11
122
Su Ben-Yue, Jiang Jing, Tang Qing-Feng, Sheng Min. Human dynamic action recognition based on functional data analysis. Acta Automatica Sinica, 2017, 43(5): 866-876.
( 苏本跃, 蒋京, 汤庆丰, 盛敏. 基于函数型数据分析方法的人体动态行为识别. 自动化学报, 2017, 43(5): 866-876.)
123
Han L, Wu X X, Liang W, Hou G M, Jia Y D. Discriminative human action recognition in the learned hierarchical manifold space. Image and Vision Computing, 2010, 28(5): 836-849. DOI:10.1016/j.imavis.2009.08.003
124
Wang J, Liu Z C, Wu Y, Yuan J S. Learning actionlet ensemble for 3D human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(5): 914-927. DOI:10.1109/TPAMI.2013.198
125
Chen H Z, Wang G J, Xue J H, He L. A novel hierarchical framework for human action recognition. Pattern Recognition, 2016, 55: 148-159. DOI:10.1016/j.patcog.2016.01.020
126
Zhu Y, Chen W B, Guo G D. Fusing multiple features for depth-based action recognition. ACM Transactions on Intelligent Systems and Technology, 2015, 6(2): Article No. 18.
127
Jiang X B, Zhong F, Peng Q S, Qin X Y. Robust action recognition based on a hierarchical model. In: Proceedings of the 2013 International Conference on Cyberworlds (CW). Yokohama, Japan: IEEE, 2013. 191-198
128
Chen C C, Aggarwal J K. Recognizing human action from a far field of view. In: Proceedings of the 2009 Workshop on Motion and Video Computing (WMVC'09). Snowbird, UT, USA: IEEE, 2009. 1-7 http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5399231
129
Messing R, Pal C, Kautz H. Activity recognition using the velocity histories of tracked keypoints. In: Proceedings of the 12th International Conference on Computer Vision (ICCV). Kyoto, Japan: IEEE, 2009. 104-111 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5459154
130
Ryoo M S, Aggarwal J K. UT-interaction dataset, ICPR contest on semantic description of human activities (SDHA)[Online], available: http://cvrc.ece.utexas.edu/SDHA2010/Human_Interaction.html, December 10, 2016.
131
Jiang Y G, Ye G N, Chang S F, Ellis D, Loui A C. Consumer video understanding: a benchmark database and an evaluation of human and machine performance. In: Proceedings of the 1st ACM International Conference on Multimedia Retrieval (ICMR'11). Trento, Italy: ACM, 2011. Article No., 29 http://dl.acm.org/citation.cfm?id=1992025
132
Rohrbach M, Amin S, Andriluka M, Schiele B. A database for fine grained activity detection of cooking activities. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2012. 1194-1201 http://dl.acm.org/citation.cfm?id=2354909
133
Rohrbach M, Regneri M, Andriluka M, Amin S, Pinkal M, Schiele B. Script data for attribute-based recognition of composite activities. In: Proceedings of the 12th European Conference on Computer Vision (ECCV). Florence, Italy: Springer, 2012. 144-157 http://dl.acm.org/citation.cfm?id=2402952
134
Bojanowski P, Lajugie R, Bach F, Laptev I, Ponce J, Schmid C, Sivic J. Weakly supervised action labeling in videos under ordering constraints. Computer Vision——ECCV 2014. Cham, Germany: IEEE, 2014, 8693: 628-643
135
Rohrbach M, Rohrbach A, Regneri M, Amin S, Andriluka M, Pinkal M, Schiele B. Recognizing fine-grained and composite activities using hand-centric features and script data. International Journal of Computer Vision, 2016, 119(3): 346-373. DOI:10.1007/s11263-015-0851-8
136
Heilbron F C, Escorcia V, Ghanem B, Niebles J C. Activitynet: a large-scale video benchmark for human activity understanding. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015. 961-970 http://doi.ieeecomputersociety.org/10.1109/CVPR.2015.7298698
137
Gkalelis N, Kim H, Hilton A, Nikolaidis N, Pitas I. The i3DPost multi-view and 3D human action/interaction database. In: Proceedings of the 2009 Conference for Visual Media Production (CVMP). London, UK: IEEE, 2009. 159-168 http://brain.oxfordjournals.org/lookup/external-ref?access_num=20674934&link_type=MED&atom=%2Fbrain%2F135%2F3%2F723.atom
138
De la Torre F, Hodgins J K, Montano J, Valcarcel S. Detailed human data acquisition of kitchen activities: the CMU-multimodal activity database (CMU-MMAC). In: Proceedings of the 2009 Workshop on Developing Shared Home Behavior Datasets to Advance HCI and Ubiquitous Computing Research, in Conjuction with CHI. Boston, MA, USA: ACM, 2009. 1-5 http://www.researchgate.net/publication/242754790_Detailed_Human_Data_Acquisition_of_Kitchen_Activities_the_CMU-Multimodal_Activity_Database_CMU-MMAC
139
Ni B B, Wang G, Moulin P. RGBD-HuDaAct: a color-depth video database for human daily activity recognition. In: Proceedings of the 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops). Barcelona, Spain: IEEE, 2011. 1147-1153 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6130379
140
Xia L, Chen C C, Aggarwal J K. View invariant human action recognition using histograms of 3D joints. In: Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Providence, RI, USA: IEEE, 2012. 20-27 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6239233
141
Cheng Z W, Qin L, Ye Y T, Huang Q Q, Tian Q. Human daily action analysis with multi-view and color-depth data. In: Proceedings of the Computer Vision, ECCV 2012-Workshops and Demonstrations. Florence, Italy: Springer, 2012. 52-61
142
Ofli F, Chaudhry R, Kurillo G, Vidal R, Bajcsy R. Berkeley MHAD: a comprehensive multimodal human action database. In: Proceedings of the 2013 IEEE Workshop on Applications of Computer Vision (WACV). Tampa, FL, USA: IEEE, 2013. 53-60 http://doi.ieeecomputersociety.org/10.1109/WACV.2013.6474999
143
Oreifej O, Liu Z C. HON4D: histogram of oriented 4D normals for activity recognition from depth sequences. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR, USA: IEEE, 2013. 716-723 http://dl.acm.org/citation.cfm?id=2516099
144
Wei P, Zhao Y B, Zheng N N, Zhu S C. Modeling 4D human-object interactions for joint event segmentation, recognition, and object localization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1165-1179. DOI:10.1109/TPAMI.2016.2574712
145
Yu G, Liu Z C, Yuan J S. Discriminative orderlet mining for real-time recognition of human-object interaction. In: Proceedings of the 12th Asian Conference on Computer Vision (ACCV). Singapore: Springer, 2014. 50-65
146
Abu-El-Haija S, Kothari N, Lee J, Natsev P, Toderici G, Varadarajan B, Vijayanarasimhan S. YouTube-8M: a large-scale video classification benchmark. arXiv: 1609. 08675, 2016. 1-10