基于惯性测量单元的人体运动意图识别方法:现状与挑战

衣淳植 贾翊丞 姜峰 王修来

衣淳植, 贾翊丞, 姜峰, 等. 基于惯性测量单元的人体运动意图识别方法:现状与挑战 [J]. 智能系统学报, 2025, 20(4): 763-775. doi: 10.11992/tis.202407012
引用本文: 衣淳植, 贾翊丞, 姜峰, 等. 基于惯性测量单元的人体运动意图识别方法:现状与挑战 [J]. 智能系统学报, 2025, 20(4): 763-775. doi: 10.11992/tis.202407012
YI Chunzhi, JIA Yicheng, JIANG Feng, et al. Human motion intention recognition method based on inertial measurement unit: current situation, and challenges [J]. CAAI Transactions on Intelligent Systems, 2025, 20(4): 763-775. doi: 10.11992/tis.202407012
Citation: YI Chunzhi, JIA Yicheng, JIANG Feng, et al. Human motion intention recognition method based on inertial measurement unit: current situation, and challenges [J]. CAAI Transactions on Intelligent Systems, 2025, 20(4): 763-775. doi: 10.11992/tis.202407012

基于惯性测量单元的人体运动意图识别方法:现状与挑战

doi: 10.11992/tis.202407012
基金项目: 江苏省科技计划项目(BE2021086); 中央引导地方科技发展专项(2024ZYD0266).
详细信息
    作者简介:

    衣淳植,副教授,博士,主要研究方向为神经信号处理,运动−认知交互,人体生物力学,柔性外骨骼机器人。E-mail:chunzhiyi@hit.edu.cn;

    贾翊丞,科研助理,主要研究方向为生物信号处理、可穿戴计算与人体意图预测。E-mail:3125763352@qq.com;

    王修来,教授,博士生导师,博士,南京信息工程大学人才大数据研究院院长,教育部“泛在网络与健康服务系统”工程研究中心副主任,江苏省“333高层次人才培养工程”第二层次培养对象,江苏省有突出贡献的中青年专家,国务院政府特殊津贴获得者,《技术经济与管理研究》杂志副主编,中国继续教育学会理事,江苏省人才创新创业促进会理事。主要研究方向为人力资源管理与信息不对称、大数据挖掘与分析和数据智能应用。作为主持人、负责人或主要完成人,先后完成国家级、省部级等科研项目和立项课题45项,获省部级优秀科研成果一等奖2项、二等奖2项,科技进步二等奖5项、三等奖4项;申请、获得国家专利授权共23项。发表学术论文132篇,出版著作17本,其中专著3本、主编9本、编著5本。E-mail:wangxiulai@126.com.

    通讯作者:

    王修来. E-mail:wangxiulai@126.com.

  • 中图分类号: TP181; Q81

Human motion intention recognition method based on inertial measurement unit: current situation, and challenges

  • 摘要: 人体行为识别(human activity recognition, HAR)利用可穿戴计算、机器学习等技术识别和理解人体行为,在行为跟踪、健康监测及人机交互等领域得到广泛应用,极大提升了当下人类的生活水平。当前可穿戴传感器中,惯性传感器由于其高度小型化、低成本、信号稳定等优势,已经日益成为可穿戴计算领域的主流应用设备。基于此,HAR领域内较多的研究以惯性信号作为数据源,并通过应用深度学习算法,以应对在数据利用率、隐私保护、模型部署等方面的挑战。本文系统地介绍面向HAR的深度学习方法并对现有工作进行了分类和总结,对于当前进展、发展趋势和主要挑战进行了全面分析。首先,本文介绍当前用于HAR研究的主流可穿戴设备及其数据模态,并对各模态数据特点进行介绍。其次,整理近年来常用的HAR数据集,并对各数据集中包含的数据模态、传感器位置、运动种类以及被引用次数等进行汇总。再次,本文从算法特点、应用场景等方面总结了当前HAR领域主要应用的几种深度学习方法的进展。最终,讨论当前HAR领域深度学习面临的挑战与潜在解决方法。

     

    Abstract: Human activity recognition (HAR) utilizes wearable computing, machine learning, and other technologies to identify and understand human behaviors, which remarkably enhances current human living standards in areas such as behavior tracking, health monitoring, and human–computer interaction. Inertial sensors have increasingly become the mainstream devices in wearable computing due to their highly compact size, low cost, and stable signal characteristics. Consequently, much research in the HAR field employs inertial signals as data sources and applies deep learning algorithms to address challenges in data utilization, privacy protection, and model deployment. This paper systematically introduces deep learning approaches for HAR and categorizes and summarizes existing work, and comprehensively analyzes current advancements, development trends, and key challenges. First, this paper introduces mainstream wearable devices used in HAR research and their data modalities, and details the characteristics of each modality. Second, this paper compiles commonly used HAR datasets in recent years and summarizes the data modalities, sensor placements, movement types, and citation frequencies within each dataset. Furthermore, the paper reviews the progress of several deep learning methods commonly applied in the HAR field from the perspectives of algorithm characteristics and application scenarios. Finally, this paper discusses the challenges currently confronting deep learning in the HAR field and the potential solutions.

     

  • 自2000年,素有“可穿戴计算之父”之称的史蒂夫•曼恩(Steve Mann)于IEEE国际固态电路会议上推出首款基于Linux的智能手表起,可穿戴设备在普适计算、生理信号监测以及人机交互等领域获得了广泛的发展。可穿戴设备融合了低功耗传感器,能够对生理信号予以感知,例如心率、温度、血压以及皮肤电活动等人体的多模态生理信息。当下,受益于惯性、视觉、无线等传感器的广泛运用,人体行为识别(human activity recognition, HAR)逐渐成为可穿戴技术与设备的关键基础。借助多种信号模态,HAR系统能够辨别诸如跑步、行走等各类人体行为。传统的机器学习算法(machine learning,ML)依赖于特征工程和模型选择,通常被应用于结构化数据,早已在HAR系统中得以应用。然而,受制于手工提特征对于数据特性的表征能力以及机器学习算法自身的拟合能力,致使识别准确率偏低,并且常受到领域知识理解瓶颈的制约[1]。深度学习(deep learning,DL)达成了端到端的表征学习,其强大的拟合能力极大程度地提升了图像识别、对象检测、语音识别以及自然语言处理等领域的性能。深度学习在HAR领域有着广泛的运用,其强大的特征提取和模式识别能力使其在复杂的行为识别任务中表现出色。

    在算法层面,HAR领域所应用的主流深度学习算法涵盖基于自动编码器(auto-encoder,AE)、深度信念网络(deep belief network,DBN)、卷积神经网络(convolutional neural network,CNN)、基于时间序列建模的神经网络、生成对抗网络(generative adversarial network,GAN)和深度强化学习(deep reinforcement learning,DRL),在大样本数据集中实现了较高的识别精度。在信号层面,当前HAR领域的传感模态丰富多样,包含惯性测量单元(inertial measurement unit,IMU)、压电传感器、全球定位系统(global positioning system,GPS)、可穿戴相机、肌电图(electromyography,EMG)、心电图(electrocardiogram,ECG)以及光电容积脉搏波(photoplethysmographic,PPG)等。信号模态的丰富性增进了信号中所蕴含的运动信息量,有利于算法在识别过程中理解人体行为中的关键信息与内在状态。

    尽管HAR深度学习算法在实验室条件下取得了显著进展,但在现实场景中仍然存在诸多挑战[2]。在特征提取层面,由于不同活动可能具有相似特征(例如步行和跑步),致使生成独特且可区分的特征变得颇具难度。在数据层面,训练和评估需要大量带有注释的数据样本,然而收集和注释这些数据费时费力,尤其是紧急或意外活动的数据更难以获取,这导致了类不平衡问题。并且数据关联复杂,不同用户的活动模式可能存在差异,活动模式也可能随时间发生变化,新活动或许会出现。传感器设备的位置和类型会对数据产生影响,从而引发训练数据和测试数据之间的分布差异。在算法识别层面,对于由一系列简单活动组成的复合活动,例如“洗手”包含多个步骤,对其精准识别依赖于精确的数据分割技术。当用户同时开展多个活动时(如看电视时接电话)以及多用户参与同一组活动时,识别难度随之增加,这对算法设计提出了更高的要求。在用户体验层面,持续记录用户生活将会引发隐私问题,故而需要解决计算成本和隐私保护的难题。综上所述,人体行为识别所面临的挑战主要涵盖特征提取的复杂性、数据注释的稀缺性、复合活动的数据分割、并发活动及多用户场景的复杂性以及隐私保护等问题。

    针对当前的趋势与上述问题,本文对基于惯性传感器的人体行为识别的深度学习方法展开了全面的分析,总结了最为先进的成果以及如何应用特定的深度学习算法来应对综合分析的挑战,比较了相同挑战的不同解决方案,并罗列了其优缺点,旨在构建一个问题解决方案的架构。此外,本文提供了有关可用公共数据集的信息,最后探讨了该领域的一些开放问题,并指明了未来可能的研究方向。

    基于可穿戴传感器的人体行为识别凭借其独具的灵活性高、适应性强等特质,被广泛应用于人体行为识别领域,是HAR系统的基石。当下的技术整合了多种模态,涵盖惯性位置、生理信号等,这些常常被测量及运用。鉴于不同信号模态之间存在差异,并且在模态选择时需要综合考量各个模态的优劣,本文将针对主要模态当前所面临的问题予以阐述,并在模态选择方面提供建议,最后简述主要的数据集。

    惯性测量单元(IMU)整合了加速度计、陀螺仪等,其中加速度计对3个轴(xyz)的加速度进行测量,以检测线性运动和重力,陀螺仪则测量旋转速率(横滚、偏航和俯仰)。心电图(ECG)和光电容积脉搏波(PPG)是心率监测最为常用的传感方式,心率的有效监测能够为算法提供人体运动剧烈程度、人体心肺能力等整体性信息,可充当人体行为识别的有效信息源。肌电图(EMG)代表了肌肉运动和收缩所产生的电活动。肌音信号(mechanomyography,MMG)运用麦克风或加速度计来测量低频肌肉收缩和振动。

    不同的信号模态蕴含着不同维度的人体运动状态信息。其中,ECG与PPG能够为人体行为识别提供概括性的信息,对人体行为识别的研究起到辅助作用。然而,由于当前ECG与PPG所提供的心率信息难以助力提供细粒度较高的动作信息,仅在少数动作识别研究中得以运用。肢体运动是多个肌肉协同作用的结果,使用EMG能够反映出运动时特定肌肉的活动状况。但此类信号获取难度较大,且稳定性欠佳、形式繁杂、不易分析处理,在当下的智能可穿戴设备中的应用场景受到限制。MMG具备采集更为便捷、抗电磁干扰能力更强等检测优势,采集MMG信号的传感器要求较低,对传感器的摆放位置无需极度精确。由于其仅能探测低频震动,目前MMG仅停留于关节粗略动作识别与控制层面,难以提供细粒度更高的运动意图识别。虽然IMU的加速度传感器存在较大噪声,陀螺仪传感器长期测量会存在累积误差等缺陷,但因其功耗低、重量轻、响应迅速以及操作简便独立等优点,频繁被用于测量人体行为产生的加速度、角速度、位置等特征的变化情况。当下,得益于微机电系统(micro electromechanical system,MEMS)技术的进步,IMU使用便捷、互联便利的测量优势及其可穿戴性得到了进一步提升,并且信号稳定性良好、信号类别简单,故而IMU日渐成为大多数智能穿戴设备的基础部件,基于IMU的人体行为识别也成为当前的研究热点。

    当前HAR领域的算法主要依赖于数据驱动的智能算法。如何收集数据,构建能够满足日常行为监测任务需求的数据库,是制约当前HAR算法性能的主要瓶颈。考虑到IMU所具备的优势,大多数数据集基于惯性信号模态,涵盖了身体活动或日常活动[3-21]、手势[22-23]、呼吸模式[24]、汽车装配线活动[25]以及监测PD患者步态等数据[26]表1给出了用于训练和评估各种ML和DL技术的主要数据集。

    表  1  基于可穿戴设备的HAR的主要公共数据集
    Table  1  Main public datasets of wearable-based HAR
    数据集 应用 传感器 类别 采样率/Hz 每年引用次数
    WISDM [3] 运动 3D Acc. 6 20 217
    ActRecTut [22] 手势 9D IMU 12 30 153
    UCR(UEA)-TSC [27-28] 9个数据集(例如 uWave) Vary Vary Vary 107
    UCI-HAR [4] 运动 智能手机 9D IMU 6 50 78
    Ubicomp 08 [5] 家庭活动 近距离传感器 8 N/A 69
    SHO [6] 运动 智能手机 9D IMU 7 50 52
    UTD-MHAD1/2 [7] 运动活动 3D Acc.&3D Gyro. 27 50 39
    HHAR [8] 运动 3D Acc. 6 50~200 37
    Daily&Sport Activities[9] 运动 9D IMU 19 25 37
    MHEALTH [10-11] 运动和手势 9D IMU&ECG 12 50 33
    Opportunity [12] 运动和手势 9D IMU 16 50 32
    PAMAP2 [13] 运动活动 9D IMU&人体行为 18 100 32
    Daphnet [26] 步态冻结 3D Acc. 2 64 30
    SHL [29] 运动运输 9D IMU 8 100 23
    SARD [14] 运动 9D IMU&GPS 6 50 22
    Skoda Checkpoint [25] 装配线活动 3D Acc. 11 98 21
    UniMiB SHAR [15] 运动和手势 9D IMU 12 N/A 20
    USC-HAD [16] 运动 3D Acc.&3D Gyro. 12 100 20
    ExtraSensory [17] 运动活动 9D IMU&GPS 10 25~40 13
    HASC [18] 运动 智能手机9D IMU 6 100 11
    Actitracker [19] 运动 9D IMU&GPS 5 N/A 6
    FIC [23] 喂食手势 3D Acc 6 20 5
    WHARF [20] 运动 智能手机 9D IMU 16 50 4

    人体行为识别数据集是训练和评估行为识别算法的基础。通过丰富的数据样本,算法能够学习到不同场景下的人体动作特征,从而实现对复杂行为的准确识别。数据集的质量直接影响到算法的准确性和泛化能力,不同数据集之间存在诸多差异,例如采用的收集设备各异、采集环境不同、识别动作种类有别、传感器佩戴数量不同、传感器放置位置不一致等因素都会对实验结果产生影响。因此,在进行算法研究时,应当依据所需数据集的大小、行为种类等多种因素选取适宜的数据集。

    目前在国内外公布了多个人体行为识别数据集,以便于算法的验证与比较,它们包含了受试者在特定场景下执行的一系列人体行为的集合。其中最常被使用的数据集之一是OPPORTUNITY数据集[12]。该数据集包含了使用15个无线和有线网络传感器系统从12名受试者收集的数据,其中72个传感器和10种模态连接到身体或环境。现有的HAR论文主要关注来自人体传感器的数据,包括7个IMU和12个额外的3D加速度计,用于对18种活动进行分类。PAMAP2[13]数据集收集了自9名受试者执行的18种不同的活动,从跳跃到房屋清洁,每名受试者都配备3个IMU(100 Hz采样率)和一个心率监测器(9 Hz采样率)。WISDM[3]数据集从29名用户进行行走、慢跑、爬楼梯时收集标记加速度计数据,如行走、慢跑、爬楼梯、坐等多种运动状态。UCI-HAR[4]数据集以智能手机采集的传感器数据为基础,从30名年龄在19岁到48岁之间的受试者身上收集,将智能手机绑在腰间,进行行走、上下楼梯、站立、坐下以及平躺的运动状态。每名受试者进行两次活动序列,第1次测试设备置于腰间左侧,第2次测试时,智能手机由用户自己按喜好放置。USC-HAD[16]数据集中定义了12种不同的行为,共包含14个受试者的行为数据,每个受试者每种行为进行5次试验,每次试验时长约24 s,在受试者腰间安装三轴加速度计与三轴陀螺仪,进行12项基本活动,包括向前、向左、向右行走、上下楼等行为。该数据集对测试动作的要求描述较为严格,因此精度较高。PAMAP2[13]数据集包含18种不同的身体活动(如步行、骑车、踢足球等)的数据,由9名受试者佩戴3个惯性测量单元和1个心率监测器执行。该数据集可用于运动强度估计。UniMiB SHAR[15]数据集使用智能手机自带传感器设计用于行为识别和跌倒检测,包括11 771个样本,包括30名年龄从18岁到60岁的受试者进行的人类活动和跌倒。样本被分为17个细粒度类,并分为两个粗粒度类:一种包含9种日常生活活动类型的样本,另一种包含8种跌倒类型的样本。尽管有3类数据(行走、跑步、下行)占比较高,但其中的各类数据在总体上是均匀分布的。

    HAR数据集的发展,经历了多维度的改变。场景上,趋于真实现实场景;粒度上,细粒度动作日益丰富;标签类型上,标签更加层次化、非唯一化;质量上,逐渐高质量化;来源上,不再局限于实验拍摄等,这为研究人员在数据集选择上提供更多的参考。

    近年来,伴随可用数据的增多、传感与计算设备性能的提高以及HAR领域算法的进步,深度学习方法逐步在多数HAR任务中展现出优于传统机器学习方法的性能优势,例如自动编码器(AE)、深度信念网络(DBN)、卷积神经网络(CNN)、基于时间序列建模的神经网络、生成对抗网络(GAN)和深度强化学习(DRL)等。尽管当下不断增加的公开数据规模与算法发展促使HAR领域迅速发展,但依然存在众多挑战,对HAR技术在可穿戴设备中实现更广泛的应用形成阻碍。本节结合目前基于惯性测量单元建立的数据库所开发的算法,探讨了HAR中数据采集、标签获取、建模、个体差异和模型部署等方面的机遇与挑战,旨在为研究人员提供目前主流研究思路与主要研究问题。所提供的算法并不局限于前文提及的数据库,也可推广应用于其他HAR的信号模态。

    在人体行为识别中,数据规模通常指用于训练和测试模型的数据量。大规模数据集可以提高模型的准确性和泛化能力,因为它们提供了更多的样本和变异性。然而,数据量大也意味着需要更多的存储和计算资源,处理起来可能更复杂。小规模数据集可能会导致过拟合,并且可能不够全面地覆盖各种行为模式。人体行为识别是一项复杂的任务,其在数据规模方面面临一系列挑战,涵盖数据收集、标注等问题。当前基于深度学习方法性能的提升通常依赖于网络深度与广度的增加,这受到HAR领域数据规模的限制,通常会采用数据增强技术合成训练数据,以获取新的训练样本。Giorgi等[30]通过步态周期、过滤和归一化来处理数据并进行数据增强,通过从统一的分布中提取变换后的样本点来改变每个信号样本,从而扩大数据规模。Ismail等[31]研究基于动态时间扭曲距离的数据增强技术在深度学习模型中的应用,基于UCR TSC数据集的实验表明,数据增强能够显著提高CNN人体行为识别的准确性,并提升深度模型的泛化能力,对于呈现出过度拟合的小型数据集的准确性提升尤为显著。在此基础上,深度学习方法也被用于增强数据集以提高性能[32-34]。Wang等[32]提出了一种全新的生成对抗网络框架SensoryGANs,能够有效地生成用于HAR的传感器数据以增强原始真实传感器数据集。实验结果显示,SensoryGANs模型能够捕捉人体行为的真实传感器数据的隐式分布,进而合成传感器数据,提高精度。Ramponi等[33]基于条件生成对抗网络,提出了基于不规则采样的数据增强方法。实验结果表明,在训练集较小的情况下,与其他时间序列数据增强技术相比,模型准确性更高。Saha等[35]将CNN的特征提取能力和长短期记忆网络(long short-term memory,LSTM)的时间序列数据推理能力相结合,使用CNN和LSTM组合模型,在多传感器场景下通过数据增强消除了采样率变异性,弥补丢失数据和未对齐的数据时间戳带来的数据可用性问题。Wu等[36]结合CNN和LSTM组合模型,运用注意力机制获取并优化最重要的特征,最后使用softmax分类器对识别结果进行分类。仿真实验结果表明,模型在UCI HAR[4]和DaLiAc数据集上的准确率分别达到95.35%、99.43%,F1分别达到95.35%、99.43%,有效提高了识别精度。一些研究人员从视频中提取3D运动信息,并将信息合成为虚拟人体IMU传感器数据。Kwon等[37]提出了一种带有智能手机运动传感器单元的自动化人体行为识别网络HDL。HDL结合了深度双向长短期记忆(deep bidirectional LSTM,DBLSTM)模型和CNN模型。DBLSTM模型处理序列化任务,然后使用CNN模型从中提取特征。实验结果表明,HDL网络准确率可达97.95%。通过这种方式,Kwon等运用传统的计算机视觉和图形方法实现了跨模态IMU传感器数据的生成,这也为当前的研究提供了一种新的思路。

    跨模态传感器数据合成解决数据规模问题显然是一种可行的方案,例如GAN在生成高质量和丰富细节的合成数据方面表现出色,已经展现出与现实传感器数据近乎相同的数据生成能力。Alharbi等[38]用CNN以及LSTM模型作为生成器评估了合成数据,在Sussex-Huawei locomotion(SHL)和Smoking Activity(SAD)两个公共数据集中,利用CNN层构建判别器,结果呈现了两个公共数据集的高质量和多样性的合成数据。此外,Chan等[39]和Li等[40]生成了不同活动的数据,通过采样并将合成传感器数据添加到训练中,增强和缓解了训练集类别不均衡问题,提升了识别性能。因此,利用深度生成模型或许有助于解决传感器数据稀缺的问题[41]

    在数据或模型复杂性有限的场景中,基于DL的方法必须更有效地利用可用数据或在线适应特定场景。例如Siirtola等[42]提出了一种在线增量学习方法,通过持续调整模型以适应用户的个人数据。Qian等[43]引入了可推广独立潜在激励,极大地增强了模型的跨性别泛化能力。目前新的训练方法能够在多个环境中适应、学习并预测模型的泛化能力,例如不变风险最小化[44]。将这些领域纳入基于深度学习的HAR能够提升多种HAR模型的泛化能力。

    半监督学习能够利用标签数据和无标签数据来学习更多具有泛化能力的特征表示。Zeng等[45]提出了两种在训练过程中利用无标签数据的半监督CNN方法,卷积编解码器和卷积梯形图网络,在ActiTrac-ker数据集上的实验结果显示,卷积梯形图网络的性能优于传统的监督方法和半监督学习方法,F1得分高出18%。Balabka[46]利用CNN和对抗自动编码器架构在SHL数据集上证实,使用半监督学习能够借助无标签数据分布,相较于监督学习具有更高的精度。此外,Chen等[47]提出了一种基于编−解码器的方法,该方法减少了由于不同人行为差异产生的数据分布差异,同时保留了执行相同行为在不同个体上的固有相似性。

    研究人员将深度学习方法与主动学习相结合,利用深度学习的分类能力动态构建标签。Gudur等[48]通过将CNN与贝叶斯技术相结合来表示模型的不确定性,进而利用主动学习增强标签数据。Bettini等[49]将主动学习和联邦学习相结合,主动标注无标签数据并建立个性化模型,以应对数据规模问题。此外,鉴于众多现有的数据集,另一个方向是利用标签数据集的特征为无标签数据集生成标签的方法,例如迁移学习或伪标签方法[50]

    模型质量在很大程度上依赖于训练数据的质量,即数据的准确性、完整性和一致性。高质量的数据能提高模型的精度和可靠性。良好的标注和清晰的样本使模型更容易学习行为特征;低质量数据可能引入噪声和错误标签,影响模型性能和可靠性。鉴于在数据采集过程中存在噪声和漂移、传感器存在误差和故障、环境变化以及数据传输等问题,会对识别系统产生影响。此外,在数据集中存在空缺或未标记的样本,即缺失数据,可能导致信息不完整,影响模型的学习效果和泛化能力,处理不当还可能引入偏差。为提升模型质量,研究人员除了改进采集数据的硬件系统外,还提出了多种算法来清理或插补质量欠佳的数据。自动编码器通常被用于清理和去噪原始传感器数据。Mohammed等[51]对传感器相对人体抖动情况下的行为识别进行了研究,发现附着在宽松衣服上的传感器容易包含大量运动伪影,导致平均信噪比较低,为了消除运动伪影,提出了一种反卷积序列到序列自动编码器 (deconvolution sequence to sequence autoencoder,DSTSAE)。该网络的权重使用标准变分自编码器 (variational autoencoders, VAE) 损失函数的加权形式进行训练。实验表明,DSTSAE优于传统卡尔曼滤波器,信噪比从−12 dB提高到+18.2 dB,识别手势的F1分数提高了14.4%,运动识别精度提高了55.3%。

    当采样率波动很大时,数据插补是替换质量差的数据或填补缺失数据的最常见方法之一。Cao等[52]引入了双向递归神经网络,在UCI数据集上进行时间序列数据的插补。Luo等[53]利用GAN推断缺失的时间序列数据。Saeed等[54]提出了一种对抗性自动编码框架来执行数据插补。

    实验表明,当网络足够大、数据规模足够大时,即使使用带有噪声的数据进行训练,深度神经网络也具有良好的学习能力[41]。Gao等[55]利用无监督的5层深度玻尔兹曼机结合深度神经网络(deep Boltzmann machine-deep neural network,DBM-DNN)结构,通过蓝牙耳机收集的音频信号检测进食事件,实验结果表明DBM-DNN方法的准确率为94%,明显优于支持向量机75.6%的准确率,即使存在环境噪声,也展现出相较于SVM的性能提升。这促使HAR研究人员关注其他领域,例如如何在实际系统中有效地部署更大的模型并生成更多数据[56-58]

    人体行为识别主要应用于监控人体行为,故而传感器能够持续捕获用户的活动。由于用户执行活动的方式各不相同,因而能够通过时间序列传感器数据推断出用户的敏感信息,所以隐私保护已成为用户高度关注的问题。隐私保护措施可能会影响数据使用,降低数据的细节和实用性,并需要提供额外的计算资源和存储空间。多项研究在对人体行为进行分类时提出了隐私保护方法,涵盖替代自动编码器、监视器、估计器、中和器[59]以及匿名自动编码器[60]等架构。例如,可以将与敏感活动相对应的时间序列数据的特征替换为非敏感活动的特征,从而在混淆个人特征的同时保留每个活动或运动的共同特征。

    自动编码器能够将数据映射到非线性和低维潜在空间,进而保障数据传输、使用过程中的隐私安全。Malekzadeh等[61]开发的自动编码器可去除如饮酒、吸烟或使用洗手间等敏感活动特征,通过随机替换,从敏感输入产生非敏感输出,同时保持其他非敏感活动的特征不变。在Opportunity[12]、Skoda[25]、Hand-Gesture[12]数据集上的实验结果表明,所提出的自动编码器能够保持非敏感任务的识别精度,同时降低敏感任务的检测能力,从而保障用户在敏感活动下的隐私。

    Mohammad等[59]引入了一个名为(guardian-estimator-neutralizer,GEN)的框架,试图在保护性别隐私的同时识别活动。GEN的基本原理是将数据转换为仅包含非敏感特征的数据。Guardian由深度去噪自动编码器构建,将数据转换为特征空间中的表示。Estimator包括一个多任务卷积神经网络,该网络通过估计转换数据中的敏感和非敏感信息来指导Guardian,以促使Guardian将数据表达在非敏感特征空间内。Neutralizer是一个优化器,可帮助Guardian与Estimator收敛。在MobiAct、MotionSense[62]等数据集上的实验结果表明,使用原始传感器数据时,所提框架既能保持变换后数据对活动识别的实用性,又能将性别分类准确率从90%以上降低到50%。同样,Mohammad等[60]提出了另一种匿名自动编码器,用于对不同的活动进行分类,同时降低用户身份识别的准确性。与大多数将编码器的输出用作分类特征的算法不同,这项工作同时利用编码器和解码器的输出,利用加速度计和陀螺仪数据实现了92%以上的人体行为识别性能,同时将用户识别准确率保持在7%以下。

    联邦学习[63]是解决隐私问题的一种有效手段。它无需公开用户的原始数据就能实现全局模型的协作学习。Xiao等[64]实现了结合感知提取网络的联邦平均方法,以提高联邦学习系统的性能。Tu等[65]设计了一种动态层共享方案,该方案有助于局部模型的合并,加速模型收敛,实现模型的动态聚合。Bettini等[49]提出了一种个性化的半监督联邦学习方法,该方法构建了一个全局活动模型,并利用迁移学习进行用户个性化。Gudur和Perepu[66]使用模型蒸馏更新和加权α-update策略实现了设备上的联邦学习,以解决资源有限的嵌入式系统(Raspberry Pi)上的模型异质性。

    区块链是全球新兴的热门话题。区块链作为一种无需集中权限的点对点网络,已被探索用于促进隐私保护数据收集和共享。联邦学习和区块链的结合也是隐私保护的潜在解决方案[67],是后续研究的热点之一。

    人体行为识别在实际应用中面临的一个关键问题是个体差异。由于生物和环境因素,不同的个体会以不同的方式执行相同的活动。例如缓慢行走与快速行走。由于人的行为模式不同,来自不同用户的数据呈现多样化分布。如果模型使用从特定用户收集的数据进行训练和测试,则准确度可能相当高。但这种设置是不切实际的。在实际的人类活动识别场景中,虽然可以收集和注释一定数量的参与者数据进行训练,但系统通常对目标用户是未知的,这会给行为识别系统的准确性和鲁棒性带来挑战,因此,解决个体差异问题,对特定用户的个性化模型的研究是必要的。

    迁移学习技术从源域学到的知识被迁移到目标域,以提升目标域内模型的性能。它减少了对大量标记数据的需求,针对个体差异问题能够有效地利用已有的大量数据和预训练模型,提高在新个体上的识别准确性。例如Lyu等[68]在RNN的基础上进一步引入迁移学习,解决传感器放置和受试者内差异引起的域适应问题。赵海等[69]在传统算法的基础上进行改进,引入了基于马氏距离的样本筛选算法,提出了可用于人体活动识别的迁移学习算法T-WMD,并在两个公开的人体活动识别数据集上与其他5种算法进行对比实验,结果表明提出的算法可以有效地提升迁移学习效果。

    生成对抗网络(generative adversarial network, GAN)由于能够在从真实数据中学习样本分布后生成新样本,已被广泛应用于HAR迁移学习,以解决新用户未知数据下预训练模型性能急剧下降的问题。研究人员主要利用GAN来生成新个体数据以增广新用户数据,进而提升迁移学习性能。Soleimani等[70]利用GAN对HAR进行跨个体迁移学习,结果初步证明了该方法的有效性,并进一步利用Opportunity benchmark数据集证明使用GAN进行跨个体迁移的性能优于不使用GAN的迁移学习性能,Abedin等[71]在UCI和USC-HAD数据集上证明了基于GAN的迁移学习性能优于其他无监督迁移学习方法。Sanabria等[72]证明GAN在跨用户和跨传感器条件下的迁移学习具有优越性能。这初步表明了GAN在迁移学习技术中的重要作用。

    现有的HAR研究大多聚焦在行走、站立和慢跑等简单活动上,这些活动通常以重复的动作或身体姿势为特征。简单的活动具有较低层级的语义。相比之下,更多的复合活动可能包含一系列简单的动作,具有更高级别的语义、一定的时间序列和上下文关联,例如工作、吃饭等,这能更好地反映人的日常生活。因此,对于大多数实际的人机交互场景,需要识别更复杂和更高级别的人体行为。由于复合活动识别不仅需要人体运动,还需要动作的顺序和上下文信息,需要考虑行为间的关系,并受到环境因素(如光线变化、背景噪声)影响,因此识别复合活动需要更复杂的模型来处理时间序列和行为关联,训练和推理过程可能更为复杂和耗时。

    现有研究试图创建一个统一模型来识别复合和简单活动。文献[73]中将22个简单和复合活动归纳为4类主题,移动(如行走、跑步),语义(如清洁、烹饪),过渡(如室内到室外、步行上楼),静止/相对静止(如站立、躺在床上),并建一个简单的多层前馈神经网络来识别上述活动,平均测试准确率为90%。然而其训练和测试样本来自同一主题,这限制了所提出方法的适应性。

    在将复合活动分解成简单活动的组合方面,Kyritsis等[74]将复杂的手势分解为一系列更简单的手势;Liu等[75]提出了一种分层架构,从低层次的人体行为构建高级人体行为;Peng等[76]提出利用深度多任务学习来学习如何将复杂运动分解为简单运动进行识别。

    因为HAR研究复杂活动使用的传感器最大数量已经达到23个[12],所以如何评估各传感器在运动状态识别中的重要性是融合各传感信息、进一步降低传感通道数量、提升可穿戴性的关键。为解释不同类型的传感器和活动,Grzeszick等[77]提出了一种多分支CNN架构。多分支设计采用并行结构,每个分支对应一个IMU传感器,并将每个分支的输出堆叠,馈入最终输出层之前,在扁平的特征表示上应用全连接层,最终输出分类结果。通过自动学习各传感通道信息权重的方式实现了对不同传感通道重要性的衡量与加权融合。为兼容多种传感器布置方案,Matsui等[78]通过添加自适应层,兼容多通道数据,使其算法具备普适性。

    模型部署在HAR中指的是将训练好的模型应用于实际环境中进行实时或离线行为识别的过程,能够在实际环境中快速处理和分析数据,实现实时行为识别;可以在各种设备上运行,如服务器、移动设备或嵌入式系统;需要定期更新和维护,以确保模型在变化环境下的性能。这导致了对计算资源需求较高,实时部署可能需要高性能硬件,特别是对于复杂模型和大数据量,并需注意模型在实际应用环境中的表现可能会受到光照、遮挡等因素的影响,还要考虑数据隐私和安全问题,特别是在处理敏感数据时。HAR由于任务本身处于边缘端,如何将算法部署至移动计算平台同样是当前研究的热点。当前模型部署方面的研究分为两类,第一类通过高效利用边缘移动计算平台的计算资源来训练网络。Lane等[79]提出了一种基于系统级芯片的架构实现在智能手机上训练深度神经网络。Lane等[80]和Cao等[81]利用智能手机的数字信号处理器和移动图形处理器来缩短推理时间并降低功耗。Yao等[82]提出了一种基于CNN和RNN的轻量级系统,该系统能够考虑来自智能手机的噪声传感器读数,并自动学习传感器窗口之间的局部和全局特征以提高性能。第二类工作侧重于降低神经网络的复杂性,以便在资源有限的移动平台上运行。Bhattacharya等[83]通过将层编码到低维空间中来减少每层所需的计算量。Edel等[84]通过使用二进制权重代替浮点数权重来减少网络存储与计算负担。赵冬冬等[85]设计了一种基于昇腾处理器的边端轻量化人体动作识别时空图卷积算法,针对Enisum算子计算量大且不适配昇腾处理器的问题,设计了Ascend-Enisum算子,减小了计算量,使模型轻量化。最后将训练好的模型转换成昇腾适配的格式并结合目标检测算法,设计新算法并将其部署到昇腾处理器上,实现了端到端人体动作检测。

    部署神经网络的新兴趋势包括将计算移动到专用集成电路(application specific integrated circuit,ASIC)或低功耗微控制器上。Bhat等[86]开发了定制的集成电路和硬件加速器,相比于移动或基于GPU的平台,能够在更低功耗下运行HAR系统。ASIC的缺点是不能针对其他类型的任务重新配置。Islam等[87]提出了一种嵌入式系统的架构,该架构能够动态调度DNN推理任务以提高准确性。

    当前HAR系统部署方面的工作仅停留在单一计算平台层面。在集成云端、移动平台和其他边缘设备实现不同层次计算与智能的划分仍然是HAR模型部署层面亟待解决的问题。文献[88-95]在不同用途的HAR系统上探索了不同层面的云−边计算分配。Lane等[96]通过将HAR模型部署于手机的CPU和DSP等边缘计算设备以及云协同计算设备,测试了小规模不同计算场景对模型性能的影响,结果表明部署于移动设备的HAR模型可通过高效利用移动计算平台的不同计算资源得以有效增强,同时如何确定云计算与边缘计算比例的最佳分配策略值得进一步研究。

    为了在人体行为识别中充分发挥深度学习的潜力,未来的发展方向可能会致力于上述所总结的挑战,但其中一些领域仍未得到充分探索,例如复合活动、个性化等。尽管目前的研究仍然缺少对挑战的全面且可靠的解决方案,但它们奠定了具体的基础,并为未来指明了方向。此外,还有其他研究方向尚未被充分挖掘,在此概述几个关键的研究方向。

    无监督方法:人体行为识别需要大量带有注释的样本来训练深度学习模型。无监督学习能够有助于减轻此类要求。截至目前,用于人体行为识别的深度无监督模型主要用于提取特征,但无法识别活动。因此,无监督学习推断真实标签的一种潜在途径是寻求其他知识,这催生了深度无监督迁移学习的出现[50]

    识别新活动:识别模型从未见过的新活动是人体行为识别的重大挑战。可靠的模型需要能够在线学习新的知识,无需任何基本事实就能实现准确识别。解决这类问题的可靠方案是学习能够扩展到不同活动的特征。

    活动预测:活动预测是活动识别的延伸。与活动识别不同,活动预测系统在检测人类意图方面颇具价值,因此它能够应用于智能服务、刑事检测和驾驶员行为预测。在一些常见的行为任务中,活动通常是按一定的顺序开展的。因此,跨活动建模时间依赖性有助于活动预测。对于长跨度活动,LSTM无法涵盖如此长的依赖关系。在这种情况下,基于大脑信号的意图识别[97]能够助力激发活动预测。

    最新技术的标准化:虽然深度学习和基于传感器的人体行为识别已经有了数百项研究工作,但缺乏最先进的标准化。评估活动识别性能的实验设置和评估指标因论文而异。虽然深度学习严重依赖训练数据,但训练、测试、验证集的划分也会影响识别结果。数据处理和实施平台等其他因素同样会导致比较出现偏差。因此,进行成熟的标准化迫在眉睫。

    基于可穿戴设备的人体行为识别为普适计算场景下的日常生活提供了诸多便利和途径。其中,深度学习技术在该领域发挥了至关重要的作用。近年来,深度学习突破了基于可穿戴设备的HAR的界限,将活动识别性能提升到了历史最高水平。本文对此进行了全面分析,总结了当前基于深度学习的传感器人体行为识别方法。首先介绍了HAR的实际应用、主流传感器和流行的公共数据集。然后回顾了深度学习方法在可穿戴HAR领域的进展,并在比较各HAR领域主流深度学习方法的优缺点后,为如何选择深度学习方法提供了指导建议。最后从数据、标签和模型方面探讨了当前该领域的挑战,并阐述了目前研究人员针对这些问题的解决思路,分析了如何利用现有的深度学习方法来应对挑战,并展望了发展前景,期望能够为该领域的从业人员提供有价值的参考。

  • 表  1   基于可穿戴设备的HAR的主要公共数据集

    Table  1   Main public datasets of wearable-based HAR

    数据集 应用 传感器 类别 采样率/Hz 每年引用次数
    WISDM [3] 运动 3D Acc. 6 20 217
    ActRecTut [22] 手势 9D IMU 12 30 153
    UCR(UEA)-TSC [27-28] 9个数据集(例如 uWave) Vary Vary Vary 107
    UCI-HAR [4] 运动 智能手机 9D IMU 6 50 78
    Ubicomp 08 [5] 家庭活动 近距离传感器 8 N/A 69
    SHO [6] 运动 智能手机 9D IMU 7 50 52
    UTD-MHAD1/2 [7] 运动活动 3D Acc.&3D Gyro. 27 50 39
    HHAR [8] 运动 3D Acc. 6 50~200 37
    Daily&Sport Activities[9] 运动 9D IMU 19 25 37
    MHEALTH [10-11] 运动和手势 9D IMU&ECG 12 50 33
    Opportunity [12] 运动和手势 9D IMU 16 50 32
    PAMAP2 [13] 运动活动 9D IMU&人体行为 18 100 32
    Daphnet [26] 步态冻结 3D Acc. 2 64 30
    SHL [29] 运动运输 9D IMU 8 100 23
    SARD [14] 运动 9D IMU&GPS 6 50 22
    Skoda Checkpoint [25] 装配线活动 3D Acc. 11 98 21
    UniMiB SHAR [15] 运动和手势 9D IMU 12 N/A 20
    USC-HAD [16] 运动 3D Acc.&3D Gyro. 12 100 20
    ExtraSensory [17] 运动活动 9D IMU&GPS 10 25~40 13
    HASC [18] 运动 智能手机9D IMU 6 100 11
    Actitracker [19] 运动 9D IMU&GPS 5 N/A 6
    FIC [23] 喂食手势 3D Acc 6 20 5
    WHARF [20] 运动 智能手机 9D IMU 16 50 4
  • [1] BROPHY E, VEIGA J J D, WANG Zhengwei, et al. An interpretable machine vision approach to human activity recognition using photoplethysmograph sensor data[EB/OL]. (2018−12−03)[2024−07−10]. https://arxiv.org/abs/1812.00668v1.
    [2] WANG Jindong, CHEN Yiqiang, HAO Shuji, et al. Deep learning for sensor-based activity recognition: a survey[J]. Pattern recognition letters, 2019, 119: 3−11. doi: 10.1016/j.patrec.2018.02.010
    [3] KWAPISZ J R, WEISS G M, MOORE S A. Activity recognition using cell phone accelerometers[J]. ACM SIGKDD explorations newsletter, 2011, 12(2): 74−82. doi: 10.1145/1964897.1964918
    [4] ANGUITA D, GHIO A, ONETO L, et al. A public domain dataset for human activity recognition using smartphones[C]//ESANN 2013 Proceedings, 21st European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning. Bruges: ESANN, 2013: 437−442.
    [5] VAN KASTEREN T, NOULAS A, ENGLEBIENNE G, et al. Accurate activity recognition in a home setting[C]//Proceedings of the 10th International Conference on Ubiquitous Computing. Seoul: ACM, 2008: 21−24.
    [6] SHOAIB M, BOSCH S, INCEL O D, et al. Fusion of smartphone motion sensors for physical activity recognition[J]. Sensors, 2014, 14(6): 10146−10176. doi: 10.3390/s140610146
    [7] CHEN Chen, JAFARI R, KEHTARNAVAZ N. UTD-MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor[C]//2015 IEEE International Conference on Image Processing. Quebec City: IEEE, 2015: 168−172.
    [8] STISEN A, BLUNCK H, BHATTACHARYA S, et al. Smart devices are different: assessing and mitigating mobile sensing heterogeneities for activity recognition[C]//Proceedings of the 13th ACM Conference on Embedded Networked Sensor Systems. Seoul: ACM, 2015: 127−140.
    [9] ALTUN K, BARSHAN B, TUNÇEL O. Comparative study on classifying human activities with miniature inertial and magnetic sensors[J]. Pattern recognition, 2010, 43(10): 3605−3620. doi: 10.1016/j.patcog.2010.04.019
    [10] BANOS O, GARCIA R, HOLGADO-TERRIZA J A, et al.MHealthDroid: a novel framework for agile development of mobile health applications[M]//Ambient Assisted Living and Daily Activities. Cham: Springer International Publishing, 2014: 91−98.
    [11] BANOS O, VILLALONGA C, GARCIA R, et al. Design, implementation and validation of a novel open framework for agile development of mobile health applications[J]. Biomedical engineering online, 2015, 14(Suppl 2): S6. doi: 10.1186/1475-925X-14-S2-S6
    [12] CHAVARRIAGA R, SAGHA H, CALATRONI A, et al. The opportunity challenge: a benchmark database for on-body sensor-based activity recognition[J]. Pattern recognition letters, 2013, 34(15): 2033−2042. doi: 10.1016/j.patrec.2012.12.014
    [13] REISS A, STRICKER D. Introducing a new benchmarked dataset for activity monitoring[C]//2012 16th International Symposium on Wearable Computers. Newcastle: IEEE, 2012: 108−109.
    [14] SHOAIB M, SCHOLTEN H, HAVINGA P J M. Towards physical activity recognition using smartphone sensors[C]//2013 IEEE 10th International Conference on Ubiquitous Intelligence and Computing and 2013 IEEE 10th International Conference on Autonomic and Trusted Computing. Vietri sul Mare: IEEE, 2013: 80−87.
    [15] MICUCCI D, MOBILIO M, NAPOLETANO P. UniMiB SHAR: a dataset for human activity recognition using acceleration data from smartphones[J]. Applied sciences, 2017, 7(10): 1101. doi: 10.3390/app7101101
    [16] ZHANG Mi, SAWCHUK A A. USC-HAD: a daily activity dataset for ubiquitous activity recognition using wearable sensors[C]//Proceedings of the 2012 ACM Conference on Ubiquitous Computing. Pittsburgh: ACM, 2012: 1036−1043.
    [17] VAIZMAN Y, ELLIS K, LANCKRIET G. Recognizing detailed human context in the wild from smartphones and smartwatches[J]. IEEE pervasive computing, 2017, 16(4): 62−74. doi: 10.1109/MPRV.2017.3971131
    [18] KAWAGUCHI N, OGAWA N, IWASAKI Y, et al. HASC Challenge: gathering large scale human activity corpus for the real-world activity understandings[C]//Proceedings of the 2nd Augmented Human International Conference. Tokyo: ACM, 2011: 271−275.
    [19] WEISS G M, LOCKHART J W, PULICKAL T T, et al. Actitracker: a smartphone-based activity recognition system for improving health and well-being[C]//2016 IEEE International Conference on Data Science and Advanced Analytics. Montreal: IEEE, 2016: 682−688.
    [20] BRUNO B, MASTROGIOVANNI F, SGORBISSA A. A public domain dataset for ADL recognition using wrist-placed accelerometers[C]//The 23rd IEEE International Symposium on Robot and Human Interactive Communication. Edinburgh: IEEE, 2014: 738−743.
    [21] ZHANG Zhilin, PI Zhouyue, LIU Benyuan. TROIKA: a general framework for heart rate monitoring using wrist-type photoplethysmographic signals during intensive physical exercise[J]. IEEE transactions on biomedical engineering, 2015, 62(2): 522−531. doi: 10.1109/TBME.2014.2359372
    [22] 邓淼磊, 高振东, 李磊, 等. 基于深度学习的人体行为识别综述[J]. 计算机工程与应用, 2022, 58(13): 14−26. doi: 10.3778/j.issn.1002-8331.2201-0096

    DENG Miaolei, GAO Zhendong, LI Lei, et al. Overview of human behavior recognition based on deep learning[J]. Computer engineering and applications, 2022, 58(13): 14−26. doi: 10.3778/j.issn.1002-8331.2201-0096
    [23] KYRITSIS K, TATLI C L, DIOU C, et al. Automated analysis of in meal eating behavior using a commercial wristband IMU sensor[C]//2017 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Jeju: IEEE, 2017: 2843−2846.
    [24] CHAUHAN J, HU Yining, SENEVIRATNE S, et al. BreathPrint: breathing acoustics-based user authentication[C]//Proceedings of the 15th Annual International Conference on Mobile Systems, Applications, and Services. New York: ACM, 2017: 278−291.
    [25] ZAPPI P, LOMBRISER C, STIEFMEIER T, et al. Activity recognition from on-body sensors: accuracy-power trade-off by dynamic sensor selection[M]//Wireless Sensor Networks. Berlin: Springer Berlin Heidelberg, 2008: 17−33.
    [26] BÄCHLIN M, PLOTNIK M, ROGGEN D, et al. Wearable assistant for Parkinson’s disease patients with the freezing of gait symptom[J]. IEEE transactions on information technology in biomedicine, 2010, 14(2): 436−446. doi: 10.1109/TITB.2009.2036165
    [27] CHEN Y, KEOGH E, HU B, et al. The UCR time series classification archive[EB/OL]. (2022−02−10)[2024−07−10]. http://www.cs.ucr.edu/~eamonn/time_series_data/.
    [28] BAGNALL A, DAU H A, LINES J, et al. The UEA multivariate time series classification archive[EB/OL]. (2018−11−31)[2024−07−10]. https://arxiv.org/abs/1811.00075v1.
    [29] GJORESKI H, CILIBERTO M, WANG Lin, et al. The University of Sussex-Huawei locomotion and transportation dataset for multimodal analytics with mobile devices[J]. IEEE access, 2018, 6: 42592−42604. doi: 10.1109/ACCESS.2018.2858933
    [30] GIORGI G, MARTINELLI F, SARACINO A, et al. Try walking in my shoes, if you can: accurate gait recognition through deep learning[M]//Computer Safety, Reliability, and Security. Cham: Springer International Publishing, 2017: 384-395.
    [31] ISMAIL F H, FORESTIER G, WEBER J, et al. Data augmentation using synthetic data for time series classification with deep residual networks[C]//Proceedings of the International Workshop on Advanced Analytics and Learning on Temporal Data. Dublin: ECML PKDD, 2018.
    [32] WANG Jiwei, CHEN Yiqiang, GU Yang, et al. SensoryGANs: an effective generative adversarial framework for sensor-based human activity recognition[C]//2018 International Joint Conference on Neural Networks. Rio de Janeiro: IEEE, 2018: 1−8.
    [33] RAMPONI G, PROTOPAPAS P, BRAMBILLA M, et al. T-CGAN: conditional generative adversarial network for data augmentation in noisy time series with irregular sampling[EB/OL]. (2018−11−20)[2024−07−10]. https://arxiv.org/abs/1811.08295v2.
    [34] ALZANTOT M, CHAKRABORTY S, SRIVASTAVA M. SenseGen: a deep learning architecture for synthetic sensor data generation[C]//2017 IEEE International Conference on Pervasive Computing and Communications Workshops. Kona: IEEE, 2017: 188−193.
    [35] SAHA S S, SANDHA S S, SRIVASTAVA M. Deep convolutional bidirectional LSTM for complex activity recognition with missing data[M]//Human Activity Recognition Challenge. Singapore: Springer Singapore, 2020: 39−53.
    [36] WU Donghui, XU Jing, CHEN Jibin, et al. Human activity recognition algorithm based on CNN-LSTM with attention mechanism[J]. Science technology and engineering, 2023, 23(2): 681−689.
    [37] KWON H, TONG C, HARESAMUDRAM H, et al. IMUTube: automatic extraction of virtual on-body accelerometry from video for human activity recognition[EB/OL]. (2020−06−29)[2024−07−10]. https://arxiv.org/abs/2006.05675v2.
    [38] ALHARBI F, OUARBYA L, WARD J A. Synthetic sensor data for human activity recognition[C]//2020 International Joint Conference on Neural Networks. Glasgow: IEEE, 2020: 1−9.
    [39] CHAN Manghong, NOOR M H M. A unified generative model using generative adversarial network for activity recognition[J]. Journal of ambient intelligence and humanized computing, 2021, 12(7): 8119−8128. doi: 10.1007/s12652-020-02548-0
    [40] LI Xiang, LUO Jinqi, YOUNES R. ActivityGAN: generative adversarial networks for data augmentation in sensor-based human activity recognition[C]//Adjunct Proceedings of the 2020 ACM International Joint Conference on Pervasive and Ubiquitous Computing and Proceedings of the 2020 ACM International Symposium on Wearable Computers. Virtual Event: ACM, 2020: 249−254.
    [41] 许芬, 史鹏飞. 人体动作与行为识别研究综述[J]. 工业控制计算机, 2023, 36(9): 58−59. doi: 10.3969/j.issn.1001-182X.2023.09.023

    XU Fen, SHI Pengfei. Research on review on human action recognition[J]. Industrial control computer, 2023, 36(9): 58−59. doi: 10.3969/j.issn.1001-182X.2023.09.023
    [42] SIIRTOLA P, RÖNING J. Incremental learning to personalize human activity recognition models: the importance of human AI collaboration[J]. Sensors, 2019, 19(23): 5151. doi: 10.3390/s19235151
    [43] QIAN Hangwei, PAN S J, MIAO Chunyan. Latent independent excitation for generalizable sensor-based cross-person activity recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Virtual: AAAI, 2021: 11921−11929.
    [44] ARJOVSKY M, BOTTOU L, GULRAJANI I, et al. Invariant risk minimization[EB/OL]. (2019−07−05)[2024−07−10]. https://arxiv.org/abs/1907.02893v3.
    [45] ZENG Ming, YU Tong, WANG Xiao, et al. Semi-supervised convolutional neural networks for human activity recognition[C]//2017 IEEE International Conference on Big Data. Boston: IEEE, 2017: 522−529.
    [46] BALABKA D. Semi-supervised learning for human activity recognition using adversarial autoencoders[C]//Adjunct Proceedings of the 2019 ACM International Joint Conference on Pervasive and Ubiquitous Computing and Proceedings of the 2019 ACM International Symposium on Wearable Computers. London: ACM, 2019: 685−688.
    [47] CHEN Kaixuan, YAO Lina, ZHANG Dalin, et al. Distributionally robust semi-supervised learning for people-centric sensing[J]. Proceedings of the AAAI conference on artificial intelligence, 2019, 33(1): 3321−3328. doi: 10.1609/aaai.v33i01.33013321
    [48] GUDUR G K, SUNDARAMOORTHY P, UMAASHANKAR V. ActiveHARNet: towards on-device deep Bayesian active learning for human activity recognition[C]//The 3rd International Workshop on Deep Learning for Mobile Systems and Applications. Seoul: ACM, 2019: 7−12.
    [49] BETTINI C, CIVITARESE G, PRESOTTO R. Personalized semi-supervised federated learning for human activity recognition[EB/OL]. (2021−04−05)[2024−07−10]. https://arxiv.org/abs/2104.08094v2.
    [50] 马偲臆, 刘晓薇, 谢雪琴, 等. 迁移学习在生物医学领域的应用[J]. 生物医学工程学进展, 2023, 44(4): 347−356. doi: 10.3969/j.issn.1674-1242.2023.04.004

    MA Caiyi, LIU Xiaowei, XIE Xueqin, et al. The application of transfer learning in biomedicine[J]. Progress in biomedical engineering, 2023, 44(4): 347−356. doi: 10.3969/j.issn.1674-1242.2023.04.004
    [51] MOHAMMED S, TASHEV I. Unsupervised deep representation learning to remove motion artifacts in free-mode body sensor networks[C]//2017 IEEE 14th International Conference on Wearable and Implantable Body Sensor Networks. Eindhoven: IEEE, 2017: 183−188.
    [52] CAO Wei, WANG Dong, LI Jian, et al. BRITS: bidirectional recurrent imputation for time series[J]. Advances in neural information processing systems, 2018, 31: 6775−6785.
    [53] LUO Y, CAI X, ZHANG Y, et al. Multivariate time series imputation with generative adversarial networks[J]. Advances in neural information processing systems, 2018, 31: 1596−1607.
    [54] SAEED A, OZCELEBI T, LUKKIEN J. Synthesizing and reconstructing missing sensory modalities in behavioral context recognition[J]. Sensors, 2018, 18(9): 2967. doi: 10.3390/s18092967
    [55] GAO Yang, ZHANG Ning, WANG Honghao, et al. iHear food: eating detection using commodity bluetooth headsets[C]//2016 IEEE First International Conference on Connected Health: Applications, Systems and Engineering Technologies. Washington: IEEE, 2016: 163−172.
    [56] ZHOU Yipin, WANG Zhaowen, FANG Chen, et al. Visual to sound: generating natural sound for videos in the wild[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3550−3558.
    [57] HOSSAIN M Z, SOHEL F, SHIRATUDDIN M F, et al. A comprehensive survey of deep learning for image captioning[J]. ACM computing surveys, 2019, 51(6): 1−36.
    [58] 梁绪, 李文新, 张航宁. 人体行为识别方法研究综述[J]. 计算机应用研究, 2022, 39(3): 651−660.

    LIANG Xu, LI Wenxin, ZHANG Hangning. Review of research on human action recognition methods[J]. Application research of computers, 2022, 39(3): 651−660.
    [59] MALEKZADEH M, CLEGG R G, CAVALLARO A, et al. Protecting sensory data against sensitive inferences[C]//Proceedings of the 1st Workshop on Privacy by Design in Distributed Systems. Porto Portugal: ACM, 2018: 21−26.
    [60] MALEKZADEH M, CLEGG R G, CAVALLARO A, et al. Mobile sensor data anonymization[C]//Proceedings of the International Conference on Internet of Things Design and Implementation. Montrea: ACM, 2019: 49−58.
    [61] MALEKZADEH M, CLEGG R G, HADDADI H. Replacement AutoEncoder: a privacy-preserving algorithm for sensory data analysis[C]//2018 IEEE/ACM Third International Conference on Internet-of-Things Design and Implementation. Orlando: IEEE, 2018: 165−176.
    [62] VAVOULAS G, CHATZAKI C, MALLIOTAKIS T, et al. The MobiAct dataset: recognition of activities of daily living using smartphones[C]//Proceedings of the International Conference on Information and Communication Technologies for Ageing Well and E-Health. Rome: SCITEPRESS-Science and and Technology Publications, 2016: 143−151.
    [63] 梁朝晖, 朱笑笑, 曹其新, 等. 基于联邦学习的下肢康复评估算法与实现[J]. 计算机工程与设计, 2023, 44(8): 2548−2554.

    LIANG Zhaohui, ZHU Xiaoxiao, CAO Xinqi, et al. Algorithm and implementation of lower limb rehabilitation evaluation based on federated learning[J]. Computer engineering and design, 2023, 44(8): 2548−2554.
    [64] XIAO Zhiwen, XU Xin, XING Huanlai, et al. A federated learning system with enhanced feature extraction for human activity recognition[J]. Knowledge-based systems, 2021, 229: 107338. doi: 10.1016/j.knosys.2021.107338
    [65] TU Linlin, OUYANG Xiaomin, ZHOU Jiayu, et al. FedDL: federated learning via dynamic layer sharing for human activity recognition[C]//Proceedings of the 19th ACM Conference on Embedded Networked Sensor Systems. Coimbra Portugal: ACM, 2021: 15−28.
    [66] GUDUR G K, PEREPU S K. Resource-constrained federated learning with heterogeneous labels and models for human activity recognition[M]//Deep Learning for Human Activity Recognition. Singapore: Springer Singapore, 2021: 57−69.
    [67] 薛开平, 范茂, 王峰, 等. 区块链隐私众包中的数据验证与可控匿名方案[J]. 电子与信息学报, 2024, 46(2): 748−756. doi: 10.11999/JEIT230106

    XUE Kaiping, FAN Mao, WANG Feng, et al. Privacy crowdsourcing on blockchain with data verification and controllable anonymity[J]. Journal of electronics & information technology, 2024, 46(2): 748−756. doi: 10.11999/JEIT230106
    [68] LYU Mingqi, XU Wei, CHEN Tieming. A hybrid deep convolutional and recurrent neural network for complex activity recognition using multimodal sensors[J]. Neurocomputing, 2019, 362: 33−40. doi: 10.1016/j.neucom.2019.06.051
    [69] 赵海, 陈佳伟, 施瀚, 等. 一种应用于人体活动识别的迁移学习算法[J]. 东北大学学报(自然科学版), 2022, 43(6): 776−782. doi: 10.12068/j.issn.1005-3026.2022.06.003

    ZHAO Hai, CHEN Jiawei, SHI Han, et al. A transfer learning algorithm applied to human activity recognition[J]. Journal of northeastern university (natural science edition), 2022, 43(6): 776−782. doi: 10.12068/j.issn.1005-3026.2022.06.003
    [70] SOLEIMANI E, NAZERFARD E. Cross-subject transfer learning in human activity recognition systems using generative adversarial networks[J]. Neurocomputing, 2021, 426: 26−34. doi: 10.1016/j.neucom.2020.10.056
    [71] ABEDIN A, REZATOFIGHI H, RANASINGHE D C. Guided-GAN: adversarial representation learning for activity recognition with wearables[EB/OL]. (2021−10−12)[2024−07−10]. https://arxiv.org/abs/2110.05732v1.
    [72] SANABRIA A R, ZAMBONELLI F, DOBSON S, et al. ContrasGAN: unsupervised domain adaptation in human activity recognition via adversarial and contrastive learning[J]. Pervasive and mobile computing, 2021, 78: 101477. doi: 10.1016/j.pmcj.2021.101477
    [73] VEPAKOMMA P, DE D, DAS S K, et al. A-wristocracy: deep learning on wrist-worn sensing for recognition of user complex activities[C]//2015 IEEE 12th International Conference on Wearable and Implantable Body Sensor Networks. Cambridge: IEEE, 2015: 1−6.
    [74] KYRITSIS K, DIOU C, DELOPOULOS A. Modeling wrist micromovements to measure in-meal eating behavior from inertial sensor data[J]. IEEE journal of biomedical and health informatics, 2019, 23(6): 2325−2334. doi: 10.1109/JBHI.2019.2892011
    [75] LIU Cihang, ZHANG Lan, LIU Zongqian, et al. Lasagna: towards deep hierarchical understanding and searching over mobile sensing data[C]//Proceedings of the 22nd Annual International Conference on Mobile Computing and Networking. New York: ACM, 2016: 334−347.
    [76] PENG Liangying, CHEN Ling, YE Zhenan, et al. AROMA: a deep multi-task learning based simple and complex human activity recognition method using wearable sensors[C]// Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies. New York: ACM, 2018, 2: 74.
    [77] GRZESZICK R, LENK J M, RUEDA F M, et al. Deep neural network based human activity recognition for the order picking process[C]//Proceedings of the 4th International Workshop on Sensor-based Activity Recognition and Interaction. Rostock: ACM, 2017: 1−6.
    [78] MATSUI S, INOUE N, AKAGI Y, et al. User adaptation of convolutional neural network for human activity recognition[C]//2017 25th European Signal Processing Conference. Kos: IEEE, 2017: 753−757.
    [79] LANE N D, BHATTACHARYA S, GEORGIEV P, et al. DeepX: a software accelerator for low-power deep learning inference on mobile devices[C]//2016 15th ACM/IEEE International Conference on Information Processing in Sensor Networks. Vienna: IEEE, 2016: 1−12.
    [80] LANE N D, GEORGIEV P, QENDRO L. DeepEar: robust smartphone audio sensing in unconstrained acoustic environments using deep learning[C]//Proceedings of the 2015 ACM International Joint Conference on Pervasive and Ubiquitous Computing. Osaka: ACM, 2015: 283−294.
    [81] CAO Qingqing, BALASUBRAMANIAN N, BALASUBRAMANIAN A. MobiRNN: efficient recurrent neural network execution on mobile GPU[C]//Proceedings of the 1st International Workshop on Deep Learning for Mobile Systems and Applications. New York: ACM, 2017: 1−6.
    [82] YAO Shuochao, HU Shaohan, ZHAO Yiran, et al. DeepSense: a unified deep learning framework for time-series mobile sensing data processing[C]//Proceedings of the 26th International Conference on World Wide Web. Perth: International World Wide Web Conferences Steering Committee, 2017: 351−360.
    [83] BHATTACHARYA S, LANE N D. Sparsification and separation of deep learning layers for constrained resource inference on wearables[C]//Proceedings of the 14th ACM Conference on Embedded Network Sensor Systems CD-ROM. Stanford: ACM, 2016: 176−189.
    [84] EDEL M, KÖPPE E. Binarized-BLSTM-RNN based human activity recognition[C]//2016 International Conference on Indoor Positioning and Indoor Navigation. Alcala de Henares: IEEE, 2016: 1−7.
    [85] 赵冬冬, 赖亮, 陈朋, 等. 基于昇腾处理器的边端人体动作识别算法设计与实现[J]. 光电工程, 2024, 51(6): 66−80.

    ZHAO Dongdong, LAI Liang, CHEN Peng, et al. Design and implementation of edge-based human action recognition algorithm based on ascend processor[J]. Opto-electronic engineering, 2024, 51(6): 66−80.
    [86] BHAT G, TUNCEL Y, AN Sizhe, et al. An ultra-low energy human activity recognition accelerator for wearable health applications[J]. ACM transactions on embedded computing systems, 2019, 18(5s): 1−22.
    [87] ISLAM B, NIRJON S. Zygarde: time-sensitive on-device deep inference and adaptation on intermittently-powered systems[EB/OL]. (2019−05−05)[2024−07−10]. https://arxiv.org/abs/1905.03854v2.
    [88] XIA S, NIE Jingping, JIANG Xiaofan. CSafe: an intelligent audio wearable platform for improving construction worker safety in urban environments[C]//Proceedings of the 20th International Conference on Information Processing in Sensor Networks. Nashville: ACM, 2021: 207−221.
    [89] XIA S, DE GODOY PEIXOTO D, ISLAM B, et al. Improving pedestrian safety in cities using intelligent wearable systems[J]. IEEE internet of things journal, 2019, 6(5): 7497−7514. doi: 10.1109/JIOT.2019.2903519
    [90] DE GODOY D, ISLAM B, XIA S, et al. PAWS: a wearable acoustic system for pedestrian safety[C]//2018 IEEE/ACM Third International Conference on Internet-of-Things Design and Implementation. Orlando: IEEE, 2018: 237−248.
    [91] NIE Jingping, HU Yigong, WANG Y, et al. SPIDERS: low-cost wireless glasses for continuous in situ bio-signal acquisition and emotion recognition[C]//2020 IEEE/ACM Fifth International Conference on Internet-of-Things Design and Implementation. Sydney: IEEE, 2020: 27−39.
    [92] NIE Jingping, LIU Yanchen, HU Yigong, et al. SPIDERS +: a light-weight, wireless, and low-cost glasses-based wearable platform for emotion sensing and bio-signal acquisition[J]. Pervasive and mobile computing, 2021, 75: 101424. doi: 10.1016/j.pmcj.2021.101424
    [93] HU Yigong, NIE Jingping, WANG Y, et al. Demo abstract: wireless glasses for non-contact facial expression monitoring[C]//2020 19th ACM/IEEE International Conference on Information Processing in Sensor Networks. Sydney: IEEE, 2020: 367−368.
    [94] 万涛, 李婉琦, 葛晶晶. 基于区块链的边缘移动群智感知声誉更新方案[J]. 计算机应用研究, 2023, 40(6): 1636−1640.

    WAN Tao, LI Wanqi, GE Jingjing. Reputation update scheme for blockchain-based edge mobile crowdsensing[J]. Application research of computers, 2023, 40(6): 1636−1640.
    [95] XIA S, DE GODOY D, ISLAM B, et al. A smartphone-based system for improving pedestrian safety[C]//2018 IEEE Vehicular Networking Conference. Taipei: IEEE, 2018: 1−2.
    [96] LANE N D, GEORGIEV P. Can deep learning revolutionize mobile sensing?[C]//Proceedings of the 16th International Workshop on Mobile Computing Systems and Applications. Santa Fe New Mexico: ACM, 2015: 117−122.
    [97] ZHANG Dalin, YAO Lina, ZHANG Xiang, et al. Cascade and parallel convolutional recurrent neural networks on EEG-based intention recognition for brain computer interface[J]. Proceedings of the AAAI conference on artificial intelligence, 2018, 32(1): 11496.
WeChat 点击查看大图
表(1)
出版历程
  • 收稿日期:  2024-07-10
  • 网络出版日期:  2025-02-25

目录

    /

    返回文章
    返回