基于LSTM与CNN融合的智能手机步态身份识别

引用本文

王佳宇, 王庆, 孟晓林, 等. 基于LSTM与CNN融合的智能手机步态身份识别[J]. 大地测量与地球动力学, 2024, 44(9): 932-936.

WANG Jiayu, WANG Qing, MENG Xiaolin, et al. Smartphone Gait Recognition Based on LSTM and CNN Fusion[J]. Journal of Geodesy and Geodynamics, 2024, 44(9): 932-936.

项目来源

江苏省科技计划专项(BE2022820)。

Foundation support

Special Fund for Science and Technology of Jiangsu Province, No. BE2022820.

通讯作者

王庆，博士，教授，博士生导师，主要从事空间信息与导航定位研究，E-mail：wq_seu@seu.edu.cn。

Corresponding author

WANG Qing, PhD, professor, PhD supervisor, majors in spatial information and navigation and positioning, E-mail: wq_seu@seu.edu.cn.

第一作者简介

王佳宇，硕士生，主要从事人体行为识别与室内定位研究，E-mail: jiayu-w@seu.edu.cn。

About the first author

WANG Jiayu, postgraduate, majors in human behavior recognition and indoor positioning, E-mail: jiayu-w@seu.edu.cn.

文章历史

收稿日期：2023-12-12

Contents Abstract Full text Figures/Tables PDF

基于LSTM与CNN融合的智能手机步态身份识别

王佳宇¹ 王庆¹ 孟晓林¹ 许九靖¹ 张凯¹

1. 东南大学仪器科学与工程学院，南京市四牌楼2号，210096

收稿日期：2023-12-12

项目来源：江苏省科技计划专项(BE2022820)。

第一作者简介：王佳宇，硕士生，主要从事人体行为识别与室内定位研究，E-mail: jiayu-w@seu.edu.cn。

通讯作者：王庆，博士，教授，博士生导师，主要从事空间信息与导航定位研究，E-mail：wq_seu@seu.edu.cn。

摘要：首先提出长短期记忆网络(long short-term memory, LSTM)与卷积神经网络(convolutional neural network, CNN)相融合的步态身份识别模型，该模型可以自动提取活动特征，并使用少量的模型参数对活动特征进行分类；然后利用其进行用户身份的识别。实验结果表明，该模型识别准确率约为97.68%，损失率约为0.05，相较于其他模型身份识别率显著提高。

关键词：智能手机；LSTM；CNN；身份识别

随着科技的进步，智能手机得到普及。利用智能手机内置的传感器收集使用者的步态信息，并从中提取有用的特征进行身份识别^[1]已经成为可能。步态身份识别是一种新的生物特征识别手段，具有伪造难度大、非侵入等独一无二的优势。基于机器视觉的身份识别在近些年成为研究热点，如对摄像机采集的各种姿态进行分析与处理，但其精度会受环境影响。部分学者对基于加速度传感器的步态身份识别进行研究，文献[2]利用手机加速度计产生的数据识别手机使用者，采用一种平均模板的方法将识别的总体性能提高1倍左右；Ren等^[3]利用手机的加速度计提取步态信息并进行跟踪实验，证实了使用智能手机的加速度计进行步态识别并进行用户验证的可能性。

近年来深度学习方法逐渐出现在人体活动识别与身份识别领域，Li等^[4]使用一种基于CNN的融合模型进行人体行为识别，但仅考虑数据空间信息而未考虑时序性问题；Zheng等^[5]提出利用基于LSTM的递归神经网络进行行为模式识别，但LSTM主要是对时序特征进行提取，而对信号的空间信息挖掘不充分。CNN具有可以同时捕捉信号的局部依赖性和尺度不变性的特点^[6]，而LSTM具有随多频频谱图数量增加其网络识别精度也呈现一定上升趋势的特点^[7]，本文将两者优点相结合，不仅能够建立类似于LSTM的时序关系，而且还可以拥有类似于CNN的空间信息提取能力。

1 数据预处理

数据采集利用智能手机内置的加速度传感器，在采集过程中难免会产生噪声与误差，因此需要对原始信号进行预处理。数据预处理主要包括数据平滑、数据分割与特征提取。

1.1 扩展卡尔曼滤波

扩展卡尔曼滤波(extended Kalman filter, EKF)是一种非线性近似滤波算法，通过局部线性的方法来解决非线性问题。为了避免因滤波导致数据特征细节丢失，对于不同的运动状态，需要根据不同情况去调整滤波参数。较为平稳的运动通常表现为低动态特性和稳定特征，因此可以选择初始状态为系统的静态平衡点。平稳运动不涉及大幅度变化，因此协方差与测量噪声可以选择较小值，较小的过程噪声可以反映运动的平稳性。对于较为激烈的运动，参数设置则相反。

由图 1可知，未经滤波的加速度信号存在噪声；滤波后波形变平滑，部分抖动误差得到明显改善，更加体现出步态的规律性。

图 1 滤波前后对比 Fig. 1 Comparison before and after filtering

1.2 数据分割

对于采集的数据存在时长不同等问题，需要对数据进行分割以便后续数据特征的提取与分类。数据分割一般采用滑动窗口方法，其利用固定的滑动窗对数据进行切片，其中最关键的是窗口大小和重叠率。本文经过实验分析与对比，最终采用滑动窗口大小为128，采用1.28 s、50%重叠的数据进行训练和测试，即每段包括128个三维数据。图 2为分窗示意图。

图 2 滑动窗口分割示意图 Fig. 2 Diagram of sliding window splitting

1.3 特征提取

在采集到的三轴加速度信号中，对每个轴提取均值、方差、协方差、标准差、中位数、极差、峰值、峰峰值、均方根、样本偏度和样本峰度等11个特征。将特征与步态建立识别关系，首先为每个用户的步态分配标签，然后将这些提取的特征组合成一个特征向量，最后将标签和特征向量组成所需的训练集与测试集，将其放入识别模型中进行训练与测试。

2 基于CNN与LSTM的识别模型 2.1 卷积神经网络

CNN是一种具有深度结构的前馈神经网络，对于自动学习数据的特征表示具有明显效果，其由输入层、卷积层、池化层、全连接层和输出层组成。卷积层是神经网络的核心，用于特征提取，其关键参数包括卷积核的大小和数量。卷积核大小影响局部感知能力，越大感知能力越强，但计算量也越大；卷积核数量决定特征提取的能力和学习到的特征数量，但也会增加计算量。

2.2 长短期记忆神经网络

LSTM是一种特殊的循环神经网络(recurrent neural network, RNN)，其通过添加门控单元(输入门、遗忘门、输出门)来解决传统RNN中的梯度消失和梯度爆炸问题，从而更有效地处理长序列数据。输入门控制信息的输入，遗忘门控制信息的保留，输出门控制信息的输出。LSTM结构图如图 3所示。

图 3 LSTM结构 Fig. 3 LSTM structure

2.3 LSTM+CNN结构

本文LSTM+CNN模型结构如图 4所示，采用LSTM排列在前的模式。该模型包括信号输入层、LSTM层、CNN卷积层、池化层、平均池化层(GAP)、归一化层(BN)以及分类输出层。输入信号经卷积层提取特征，然后通过池化层降维并保留关键特征；降维后的数据作为LSTM层的输入学习序列特征；采用sigmoid激活函数进行分类。

图 4 LSTM-CNN结构 Fig. 4 LSTM-CNN structure

2.4 实验相关参数

超参数在神经网络中具有关键作用^[8]，如迭代次数、卷积层数量、卷积核大小、LSTM单元数量等。表 1为本文实验模型的主要超参数值。

表 1 模型超参数设置 Tab. 1 Model hyperparameter settings

3 实验结果与分析 3.1 WISDM数据集

本文采用福坦莫大学无线数据挖掘实验室提供的WISDM智能手机和智能手表活动以及生物识别数据集，本次只选择其中的智能手机部分数据。51名受试者口袋里放着谷歌Nexus 5/5X或三星Galaxy S5进行步行、慢跑、上楼梯、下楼梯、静坐、站立等6项常见的日常活动任务，每项任务持续3 min，使用智能手机中的加速度计和陀螺仪，传感器数据采集率为20 Hz。每名受试者数据被随机分为两组，70%的数据被用作训练数据，30%的数据被用作测试数据。以往人体活动识别实验是以分辨不同的活动为目的，其将所有受试者的相同活动都打上同一标签。此次实验则与之不同，本文将每名受试者的6种活动数据结合在一起，每名受试者就是一个标签。对于下文的自采数据集，也采用相同的处理方法。表 2为WISDM数据集活动分布样本以及占比情况。

表 2 WISDM数据集活动 Tab. 2 WISDM dataset activities

为验证LSTM+CNN模型的有效性，在WISDM数据集上先进行对比实验，与其他机器学习与深度学习方法进行比较，实验效果评价采用准确率指标，具体结果见表 3。

表 3 WISDM数据集下的对比实验 Tab. 3 Comparative tests under the WISDM dataset

由表 3可见，不同模型在对比实验中的表现各不相同。CNN+LSTM模型准确率最高，达到97.68%，表现十分出色。其次为AttnSense模型和DeepConvLSTM模型，分别为94.59%和92.10%。PCA+RF和Segment+KNN准确率相对较低，分别为75.28%和66.19%。总体而言，CNN+LSTM模型在该任务上表现最佳。

3.2 自采数据集实验

本文实验加速度数据来自于小米MIX4智能手机的Sensor Logger应用程序。智能手机采集受试者步态数据具有简单、高效的优势，但在采集过程中会受到不确定因素的影响，如采集地点、天气、受试者步幅以及智能手机摆放位置等。为减少不必要的干扰，将智能手机放在口袋中^[9]，选取慢跑、走路、快跑、上楼梯和下楼梯等常见动作，共进行多组实验，每次数据采集时间为60 s。10名受试者以100 Hz采集率进行数据采集，每次活动采集30 min(10个受试者×3个位置×60 s)数据。在该数据集基础上开展5组实验，从10名受试者中随机挑选4名实验对象将智能手机放在口袋中进行慢跑、走路、快跑、上楼梯和下楼梯5种运动，对5种运动状态下4名实验对象的身份进行识别。为避免实验结果存在偶然性，每名实验对象测试5次。实验结果如表 4所示。

表 4 不同运动状态下身份识别检测结果 Tab. 4 Detection results for gait recognition under different motion states

运动状态	实验对象	LSTM+CNN身份识别模型					平均准确率/%
运动状态	实验对象	第1次	第2次	第3次	第4次	第5次	平均准确率/%
慢跑	A	95.81	96.39	98.33	96.03	98.73	97.06
	B	96.66	93.77	97.69	94.94	98.11	96.23
	C	96.41	99.65	94.88	96.91	99.25	97.42
	D	99.64	94.73	97.22	98.11	92.79	96.50
走路	A	96.35	96.96	97.45	97.26	99.47	97.50
	B	98.61	97.90	98.09	96.93	95.94	97.49
	C	95.03	96.52	99.32	96.86	90.91	95.73
	D	97.75	95.46	99.86	94.43	97.15	96.93
快跑	A	98.06	93.36	97.35	94.59	96.16	95.90
	B	99.82	95.28	90.95	94.50	99.77	96.06
	C	96.64	99.85	95.23	99.63	95.98	97.47
	D	93.60	98.37	97.36	94.67	95.46	95.89
上楼梯	A	95.93	96.23	96.59	97.81	95.42	96.40
	B	97.21	96.88	95.27	96.60	94.35	96.06
	C	97.13	95.04	97.61	94.28	95.24	95.86
	D	95.66	99.59	91.50	97.52	91.98	95.25
下楼梯	A	95.41	93.38	96.21	92.84	97.85	95.14
	B	95.53	98.74	93.26	94.44	92.06	94.81
	C	91.68	95.48	97.89	91.87	94.54	94.29
	D	90.40	99.61	98.73	96.41	91.23	95.28

表 4 不同运动状态下身份识别检测结果 Tab. 4 Detection results for gait recognition under different motion states

由表 4可见，不同的运动模式对于准确率有一定影响。对于慢跑、走路、快跑3个动作而言，识别精度略高于上、下楼梯；较为平缓运动状态下的识别准确率相较于较为激烈的运动状态来说更高；在所有实验对象中，快跑的平均准确率最低，走路与慢跑则相对较高。总体而言，LSTM+CNN身份识别模型在不同运动模式下的身份识别平均准确率在97%左右，具有较高的识别精度。

对于不同的识别模型也进行相应的对比实验，随机选取3名受试者的3种不同运动状态的数据作为测试集进行3次实验，同时每次实验选用3组不同的数据，实验结果如图 5所示。

图 5 不同模型的识别精度对比 Fig. 5 Comparison of recognition accuracy of different models

由图 5可见，在5种识别模型中RF模型准确率最低，最低时为65%；SVM模型准确率也较低，为85%左右；CNN模型识别精度约为91%；LSTM模型则为93%左右，比RF、SVM和CNN模型准确率要高；LSTM+CNN模型识别准确率最高，平均达到97%。同时为了验证LSTM+CNN模型的有效性和优越性，实验中选取部分常见的模型进行对比。图 6为各种模型在训练过程中的准确率和损失率。

图 6 不同识别模型准确率与损失率对比 Fig. 6 Comparison of accuracy and loss value of different recognition models

由图 6(a)可见，随着迭代次数的增加，5个模型的准确率都呈上升趋势，并逐渐趋于稳定；LSTM+CNN模型与其他模型相比具有较高的准确率，总体趋近于97%。由图 6(b)可见，随着训练迭代次数的增加，5种模型的损失率都呈下降趋势，并逐渐趋于稳定。其中LSTM+CNN识别模型表现最好，损失率下降较快且与其他4种模型相比损失率最低，约为5%。

4 结语

为了提高人体身份识别的准确率，本文将CNN网络在自动学习数据的特征表示方面的优势与LSTM网络在时间序列中能够有效避免梯度消失和梯度爆炸的优点相结合。通过与其他模型进行对比表明，相较于传统的单一网络模型，本文模型在人体身份识别方面具有更高的准确率，同时在对运动、动作等活动的识别和理解上具有一定的普适性。在时效性方面，在保持数据定期更新与模型架构和训练算法不发生大变动的情况下，依然能够保持较高的识别精度。

在未来工作中可以探索手机端实时处理方案的可行性，从而提高身份识别的效率；对于识别准确率较低的运动模式，在后续研究中需进一步考虑改进模型或增加训练数据来提高模型性能；针对手机不同的摆放位置和方向变化对数据的影响，可以在后续工作中寻找一种新的解决方案以消除误差。

参考文献

[1]	汪涛. 基于惯性传感器的步态识别研究[D]. 合肥: 安徽大学, 2020 (Wang Tao. Gait Recognition Based on Inertial Sensor[D]. Hefei: Anhui University, 2020)) (1)
[2]	Del Pozo G B, Sánchez-Ávila C, De-Santos-Sierra A, et al. Speed-Independent Gait Identification for Mobile Devices[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2012, 26(8) (1)
[3]	Ren Y Z, Chen Y Y, Chuah M C, et al. Smartphone Based User Verification Leveraging Gait Recognition for Mobile Healthcare Systems[C]. IEEE International Conference on Sensing, Communications and Networking(SECON), New Orleans, 2013 (1)
[4]	Li M, Sun Q M. 3D Skeletal Human Action Recognition Using a CNN Fusion Model[J]. Mathematical Problems in Engineering, 2021, 2021 (1)
[5]	Zheng B, Yun D W, Liang Y, et al. Research on Behavior Recognition Based on Feature Fusion of Automatic Coder and Recurrent Neural Network[J]. Journal of Intelligent and Fuzzy Systems, 2020, 39(6): 8 927-8 935 DOI:10.3233/JIFS-189290 (1)
[6]	Li X, Si X D, Nie L S, et al. Understanding and Improving Deep Neural Network for Activity Recognition[C]. The 11th EAI International Conference on Mobile Multimedia Communications, Qingdao, 2018 (1)
[7]	Ding C Z, Jia Y, Cui G L, et al. Continuous Human Activity Recognition through Parallelism LSTM with Multi-Frequency Spectrograms[J]. Remote Sensing, 2021, 13(21) (1)
[8]	吴佳, 陈森朋, 陈修云, 等. 基于强化学习的模型选择和超参数优化[J]. 电子科技大学学报, 2020, 49(2): 255-261 (Wu Jia, Chen Senpeng, Chen Xiuyun, et al. Reinforcement Learning for Model Selection and Hyperparameter Optimization[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(2): 255-261) (1)
[9]	Watanabe Y. Influence of Holding Smart Phone for Acceleration-Based Gait Authentication[C]. Fifth International Conference on Emerging Security Technologies, Alcala de Henares, 2014 (1)

Smartphone Gait Recognition Based on LSTM and CNN Fusion

WANG Jiayu¹ WANG Qing¹ MENG Xiaolin¹ XU Jiujing¹ ZHANG Kai¹

1. School of Instrument Science and Engineering, Southeast University, 2 Sipailou, Nanjing 210096, China

Foundation support: Special Fund for Science and Technology of Jiangsu Province, No. BE2022820.

About the first author: WANG Jiayu, postgraduate, majors in human behavior recognition and indoor positioning, E-mail: jiayu-w@seu.edu.cn.

Corresponding author: WANG Qing, PhD, professor, PhD supervisor, majors in spatial information and navigation and positioning, E-mail: wq_seu@seu.edu.cn.

Abstract: We propose a gait recognition model that fuses long short-term memory(LSTM) and convolutional neural network(CNN), the model can automatically extract activity features and classify them using a small number of model parameters, and we utilize this model for user identification. The experimental results show that the recognition accuracy of the model is about 97.68 % and the loss value is about 0.05, which significantly improves the recognition rate compared to other models.

Key words: smartphone; LSTM; CNN; gait recognition

图 1 滤波前后对比 Fig. 1 Comparison before and after filtering

图 2 滑动窗口分割示意图 Fig. 2 Diagram of sliding window splitting

图 3 LSTM结构 Fig. 3 LSTM structure

图 4 LSTM-CNN结构 Fig. 4 LSTM-CNN structure

表 1 模型超参数设置 Tab. 1 Model hyperparameter settings

表 2 WISDM数据集活动 Tab. 2 WISDM dataset activities

表 3 WISDM数据集下的对比实验 Tab. 3 Comparative tests under the WISDM dataset

表 4 不同运动状态下身份识别检测结果 Tab. 4 Detection results for gait recognition under different motion states

运动状态	实验对象	LSTM+CNN身份识别模型					平均准确率/%
运动状态	实验对象	第1次	第2次	第3次	第4次	第5次	平均准确率/%
慢跑	A	95.81	96.39	98.33	96.03	98.73	97.06
	B	96.66	93.77	97.69	94.94	98.11	96.23
	C	96.41	99.65	94.88	96.91	99.25	97.42
	D	99.64	94.73	97.22	98.11	92.79	96.50
走路	A	96.35	96.96	97.45	97.26	99.47	97.50
	B	98.61	97.90	98.09	96.93	95.94	97.49
	C	95.03	96.52	99.32	96.86	90.91	95.73
	D	97.75	95.46	99.86	94.43	97.15	96.93
快跑	A	98.06	93.36	97.35	94.59	96.16	95.90
	B	99.82	95.28	90.95	94.50	99.77	96.06
	C	96.64	99.85	95.23	99.63	95.98	97.47
	D	93.60	98.37	97.36	94.67	95.46	95.89
上楼梯	A	95.93	96.23	96.59	97.81	95.42	96.40
	B	97.21	96.88	95.27	96.60	94.35	96.06
	C	97.13	95.04	97.61	94.28	95.24	95.86
	D	95.66	99.59	91.50	97.52	91.98	95.25
下楼梯	A	95.41	93.38	96.21	92.84	97.85	95.14
	B	95.53	98.74	93.26	94.44	92.06	94.81
	C	91.68	95.48	97.89	91.87	94.54	94.29
	D	90.40	99.61	98.73	96.41	91.23	95.28

表 4 不同运动状态下身份识别检测结果 Tab. 4 Detection results for gait recognition under different motion states

图 5 不同模型的识别精度对比 Fig. 5 Comparison of recognition accuracy of different models

图 6 不同识别模型准确率与损失率对比 Fig. 6 Comparison of accuracy and loss value of different recognition models

返回顶部

微信扫一扫：分享

引用本文

项目来源

Foundation support

通讯作者

Corresponding author

第一作者简介

About the first author

文章历史