【论文阅读】基于多变量CNN模型的可穿戴外骨骼机器人人体运动活动识别

Abstract: This study introduces a novel convolutional neural network (CNN) architecture, encompassing both single and multi-head designs, developed to identify a user’s locomotion activity while using a wearable lower limb robot. Our research involved 500 healthy adult participants in an activities of daily living (ADL) space, conducted from 1 September to 30 November 2022. We collected prospective data to identify ﬁve locomotion activities (level ground walking, stair ascent/descent, and ramp ascent/descent) across three terrains: ﬂat ground, staircase, and ramp. To evaluate the predictive capabilities of the proposed CNN architectures, we compared its performance with three other models: one CNN and two hybrid models (CNN-LSTM and LSTM-CNN). Experiments were conducted using multivariate signals of various types obtained from electromyograms (EMGs) and the wearable robot. Our results reveal that the deeper CNN architecture signiﬁcantly surpasses the performance of the three competing models. The proposed model, leveraging encoder data such as hip angles and velocities, along with postural signals such as roll, pitch, and yaw from the wearable lower limb robot, achieved superior performance with an inference speed of 1.14 s. Speciﬁcally, the F-measure performance of the proposed model reached 96.17%, compared to 90.68% for DDLMI, 94.41% for DeepConvLSTM, and 95.57% for LSTM-CNN, respectively.

Keywords: human activity recognition; wearable robot; single-head CNN; multi-head CNN; hyperparameter optimization; time series classiﬁcation

本研究介绍了一种新颖的卷积神经网络（CNN）架构，包括单头和多头设计，旨在识别用户在使用可穿戴下肢机器人时的运动活动。我们的研究涉及500名健康的成年参与者，他们在日常生活活动（ADL）空间中进行，时间从2022年9月1日至11月30日。我们收集了前瞻性数据，以识别三种地形（平地、楼梯和坡道）上的五种运动活动（平地行走、楼梯上升/下降以及坡道上升/下降）。为了评估所提出的CNN架构的预测能力，我们将其性能与另外三个模型进行了比较：一个CNN和两个混合模型（CNN-LSTM和LSTM-CNN）。实验使用从肌电图（EMG）和可穿戴机器人获得的不同类型的多元信号进行。我们的结果表明，更深层的CNN架构显著优于三个竞争模型的性能。所提出的模型利用编码器数据（如髋关节角度和速度）以及可穿戴下肢机器人的姿势信号（如横滚、俯仰和偏航），实现了卓越的性能，推理速度为1.14秒。具体而言，所提出的模型的F-measure性能达到了96.17%，而DDLMI为90.68%，DeepConvLSTM为94.41%，LSTM-CNN分别为95.57%。

关键词：人体活动识别；可穿戴机器人；单头CNN；多头CNN；超参数优化；时间序列分类

1绪论

可穿戴外骨骼机器人已被开发出来，以帮助个人进行各种活动，包括搬运重物、减轻体力劳动负担以及协助住院患者康复。研究表明，外骨骼可以显著帮助和降低行走过程中的代谢成本[1,2]。许多动力外骨骼机器人通过对关节施加辅助扭矩[8]，促进了改善由中风[3–5]或诸如截肢[6,7]等损伤引起的下肢运动障碍。然而，尽管有这些成功的应用，但在开发安全且通用的控制系统[9]方面仍然存在若干挑战，包括在没有外部命令的情况下识别穿戴者的预期运动，以及在不同特定于活动的控制器之间进行自主转换。

识别预期活动的一种方法是使用运动活动意图识别框架 [10,11]。该方法主要应用于医疗康复领域，分析患者的步态模式，为临床医生提供患者在较长时间内运动功能行为的定量概述，从而帮助客观治疗策略的应用 [12]。例如，由于姿势不稳定和步态障碍，帕金森病患者更容易发生与跌倒相关的损伤 [13,14]。实时运动监测可以通过及时识别跌倒危险来降低受伤风险。意图识别技术通过精确定位疾病特异性预测因子，如震颤和运动过度 [15,16]，来增强当前的方法，区分不同运动活动中的症状。准确识别个体的预期运动方式还可以提供数据，从而促进辅助设备或可穿戴机器人的自适应控制。一些研究已经通过利用传感器融合来实现活动意图识别策略 [10,11,17]。具体而言，[10] 采用多个传感器来监测假肢的内部状态（即关节角度和角速度），以及收集有关用户与环境交互的信息（即力和扭矩），以控制假肢用于各种活动模式（例如，行走、站立、坐下）。对一名单侧截肢受试者的试验表明，基于高斯混合模型 (GMM) 的意图识别框架可以实时识别用户意图，并过渡到适当的活动控制。然而，本研究中的意图识别依赖于从假肢信号中提取的手工特征，例如均值和标准差。由于穿戴者预期运动之间的转换期间可能发生连续变化，这提出了一个挑战，因为时间特征提取变得复杂 [18]。因此，需要特定领域的知识和反复试验的方法来推导出有意义的特征 [9,19–22]。

深度学习（DL）技术作为一种自主检测人类活动识别（HAR）领域中用户运动活动或意图的工具而日益普及[18,23,24]。与传统的机器学习（ML）技术不同，深度学习显著减少了从可穿戴传感器数据中费力提取有价值特征的需求。特别是，卷积神经网络（CNN）凭借其局部依赖性和尺度不变性，已成为许多实际问题中最广泛使用的技术，例如图像分类[25,26]、物体识别[27]和自然语言处理[28–32]。最近的一些研究通过结合额外的层来构建混合架构，例如长短期记忆网络（LSTM）[33–36]、门控循环单元（GRU）[20–22,37]或挤压激励网络（SENet）[38]。这些最先进的技术不仅旨在最小化计算成本（即参数数量），而且还旨在提高HAR中的预测性能。虽然LSTM和GRU作为循环神经网络（RNN）的变体，可以提高活动或意图识别的准确性，但它们通常会带来诸如训练时间延长的问题。这是因为每个后续阶段的计算过程都依赖于前一步的结果，并且是顺序执行的。由于其局部连接和权重共享机制[22]，CNN比LSTM和GRU具有更少的参数和更快的训练速度。然而，特征提取的能力和准确性取决于网络的深度。随着深度的增加，模型参数呈指数增长。因此，除了模型超参数之外，在CNN或混合模型架构（如CNN + LSTM (GRU) 和 LSTM + CNN）中选择合适的网络深度至关重要。

在本文中，我们介绍了多元单头和多头CNN架构，用于在穿戴下肢可穿戴机器人时进行人体运动活动识别。在我们的设计中，两种具有不同网络深度和卷积滤波器尺寸的CNN架构各自保持固定的内核尺寸。这些架构分别从EMG和可穿戴机器人获取的多元信号中提取局部时间特征。然后，每个架构连接到具有不同神经元大小的全连接层，并最终识别五种运动活动：水平地面行走（LW）、楼梯上升（SA）、楼梯下降（SD）、斜坡上升（RA）和斜坡下降（RD）。这些活动是在三种地形上测量的：平坦地面、楼梯和斜坡。

本研究的主要贡献包括：首先，我们收集了前瞻性研究数据，评估了500名年龄在19至64岁之间的健康成年人的运动活动。其次，使用从八个肌电图（EMG）传感器和一个可穿戴机器人收集的不同多元信号，我们比较了我们的两个CNN架构和三个竞争模型（即一个CNN和两个混合架构（即CNN + LSTM和LSTM + CNN））对五种运动活动的预测性能。最后，我们证明了仅使用编码器，即髋关节角度和速度以及姿势信号，即来自下肢可穿戴机器人的惯性测量单元（IMU）的横滚/俯仰/偏航，更深层的单头CNN架构明显优于三个竞争架构。

本文的其余部分组织如下：第2节介绍相关工作。第3节解释了数据收集、所提出的CNN模型架构和超参数优化。第4节描述了收集到的数据特征，并比较了所提出的模型和三个竞争模型。结论和未来的研究计划总结在第5节。

2相关工作

本节概述了几种用于检测可穿戴外骨骼下肢机器人和 HAR 中用户运动活动和意图的深度神经网络 (DNN) 架构。表 1 总结了 10 项最相关的研究，这些研究试图开发一种用于识别人类运动活动的模型。

2.1. 运动活动或手势识别

参考文献 [39] 提出了一个深度CNN架构，名为ConvNet，用于使用智能手机传感器执行高效且有效的HAR。他们的模型利用了活动和一维时间序列信号的固有属性，提供了一种从原始数据中自动和自适应地提取鲁棒特征的方法。与我们的研究类似，他们在搜索空间内使用贪婪式调整方法调整了结构超参数。这包括层数（1–4）、特征图的数量（10–200）和滤波器大小（1 × 3–1 × 15）。他们建议的ConvNet配置为C(96)–C(192)–C(192)–D(1000)–S(6)，内核/滤波器大小为9，池化大小为3。这里，C代表卷积/池化层中特征图的数量，而D和S分别代表全连接层和softmax层中的节点数量。与其他方法相比，ConvNet表现出卓越的识别性能，达到94.79%，使用的是从UCI-HAR数据集 [40] 中提取的手工特征。参考文献 [33] 开发了一种新的DNN框架，DeepConvLSTM，它结合了四个卷积层和两个循环LSTM层，用于识别两个公共数据集（即OPPORTUNITY [41] 和 Skoda [42]）上的不同活动模式。他们测试了12种不同ML算法在OPPORTUNITY数据集上的性能，以及两种CNN模型在Skoda数据集上的性能。在两个数据集上，DeepConvLSTM在F1得分方面均优于其他方法：在OPPORTUNITY的5种运动模式和18种手势识别中分别达到89.5%和91.5%；在Skoda的手势识别中达到95.8%。为了减少模型参数并加快收敛速度，参考文献 [34] 开发了一种DNN架构（即LSTM-CNN），该架构具有全局平均池化（GAP）层，后跟批量归一化层（BN）。在他们提出的架构中，参考文献 [34] 使用UCIHAR数据集检查了几个网络结构（例如，使用/不使用GAP和BN）和三个超参数（即五个优化器、滤波器数量和批量大小）的影响。他们的LSTM-CNN模型结构为L(32)–L(32)–C(64)–C(128)–GAP–BN，其中L和C分别表示LSTM和卷积层中的节点数和特征图数，与其他模型（如CNN [43] 和 DeepConvLSTM [33]）相比，实现了最高的加权F1得分。该模型在UCI-HAR、OPPORTUNITY和WISDM数据集 [44] 上分别取得了95.8%、92.71%和95.75%的得分。

LSTM和GRU在语音信号建模和自然语言处理方面表现出相似的性能。一般来说，LSTM比GRU更强大、更灵活，尤其是在处理较长的序列数据时，但它也更复杂，并且容易过拟合。相比之下，GRU消耗的内存更少，处理速度比LSTM更快。参考文献[20]提出了一种混合DNN分类器，该分类器结合了两个CNN和两个堆叠的GRU层，以自动从具有不同模态的传感器数据中提取空间或局部信息，例如从Google Nexus或Samsung Galaxy S5移动设备和智能手表收集的陀螺仪或加速度计数据。该混合CNN-GRU在WISDM智能手机、智能手表活动和生物识别数据集[45]上实现了90.44%到96.54%之间的分类准确率。类似地，一些研究[21,22,37]使用了3头CNN-GRU架构来捕捉原始数据中用于HAR的各种时间局部依赖关系，但模型结构不同。这些结构在组合层的顺序（例如，BN、dropout、最大池化或GAP）以及卷积层中滤波器的数量和大小方面有所不同。3头CNN-GRU模型在三个数据集上表现良好，对于UCI-HAR，F1得分在96.19%和96.71%之间，对于WISDM，F1得分在96.39%和97.22%之间，对于PAMAP2，F1得分在95.24%和96.59%之间。

表1. 基于深度学习的人体运动活动检测相关工作总结。

2.2. 运动意图识别

参考文献[11]表明，纳入双侧神经机械信号可以显著提高意图识别控制系统的准确性。该系统仅通过增加来自对侧的一个额外传感器，就可以预测五种运动活动（即，LW、RA、RD、SA和SD）和八种过渡模式。此外，作者通过在离线分析中使用动力腿假肢控制左侧创伤性膝上截肢者的行走，证明了他们方法的可行性。与其他模型（即，支持向量机（SVM）和人工神经网络（ANN））相比，他们在线性判别分析（LDA）中实现了最低的错误率（总体、稳态和过渡模式分别为1.43、0.76和4.5）。在一项专注于过渡运动意图识别的研究中，参考文献[46]从七名健康受试者身上收集了运动活动数据，这些受试者佩戴了装有四个IMU和一个测力传感器的软性下肢外骨骼机器人。这些数据包括五种稳态运动（即，LW、SA/SD和RA/RD）和八种过渡模式（即，LW→SA、LW→SD、SA→LW、SD→LW、LW→RA、LW→RD、RA→LW和RD→LW）。他们开发了一种基于IMU的运动意图模型，称为基于DNN的深度位置模式识别模型（DDLMI），该模型包括四个卷积层，后跟一个全连接层。该模型对五种运动的识别率达到97.64%，对八种过渡模式的平均延迟为23.97%。在另一项旨在识别用户发起的运动动作的研究中，参考文献[8]设计了一个DNN分类器，该分类器结合了堆叠的因果2D卷积层，后跟一个全连接层。与上述研究不同，本研究强调在检测过渡运动之前，对不太具体的运动活动进行分层分类。作者使用了从八名健康成年人身上收集的16种运动模式的数据，证明了他们的运动模式检测分类器更有效，准确率达到94.34%。

3方法

3.1. 参与者人口统计和招募过程

本研究于2022年9月1日至11月30日对500名年龄在19至64岁之间的成年人进行的五种不同的运动活动（LW、SA、SD、RA和RD）进行了前瞻性分析。我们通过针对门诊病人和其监护人的院内广告招募参与者。在招募过程中，每位参与者都被告知研究的目的、要收集的个人详细信息（例如，姓名、性别、居住地区、出生日期、联系方式）以及数据收集的设备和程序。排除标准包括拒绝参与临床研究的个人、无法独立行走的个人或无法进行口头交流的个人。

3.2. 伦理考量

为了解决隐私和研究伦理问题，我们向参与者提供了以下条款：（1）参与者通过签署知情同意书自愿同意加入临床研究，且不丧失任何权利。（2）虽然研究人员和相关机构可能会查阅参与者的知情同意书和其他记录，但所有文件都将保密。（3）参与者同意将身体数据测量期间拍摄的照片和视频的肖像权用作临床研究的原始数据。如果撤回同意，相关数据将被立即删除。（4）参与者有权在任何时候撤销他们对这项临床研究的同意。所有参与者都给予了知情同意，包括研究对象知情同意书、安全承诺书、个人信息收集和使用协议以及肖像权使用表格。该研究已获得韩国庆尚国立大学医院机构审查委员会（IRB）的批准（编号：GNUCH 2022-08-007-001）。

3.3. 数据收集

在五种运动行为期间，参与者佩戴下肢可穿戴机器人，并配备了肌电图传感器和运动捕捉系统，用于日常活动(ADL)的空间，如图1所示。

他们按照以下规格在三种类型的地形上进行了五种运动活动：（1）对于平坦地面地形，总长度设置为3000毫米。（2）对于斜坡地形，总长度设置为3600毫米，总高度为400毫米，坡度为4.3度。（3）对于楼梯地形，总高度设置为692毫米，共有四个台阶，完整脚踏深度为1519毫米，其中包括第一和第三个台阶的每个脚踏深度为303毫米，以及最终脚踏深度为610毫米。

本研究采用了韩国HEXAR Humancare公司生产的Hector H30A可穿戴机器人。该机器人旨在辅助髋关节的肌肉力量，使其能够在各种地形上行走，例如平地、上坡和下坡[47]。该机器人由执行器、控制单元、传感器和电池组成，重量约为4.3公斤。机器人中的两个无刷直流（BLDC）电机均能够为用户的髋关节提供高达12牛米的扭矩。该机器人配备了两种类型的传感器：旋转编码器和IMU。编码器位于执行器模块内，用于测量髋关节的角速度。IMU传感器包括一个三轴加速度计和一个三轴陀螺仪，用于估计穿戴者的姿势。该机器人可以连续运行约2小时。在研究过程中，我们以支持髋关节肌肉力量的三种扭矩模式的最低级别（即默认模式）收集了7通道无线信号。这些信号以71.42857 Hz的速率采样，包括左/右髋关节角度（以度为单位）、左/右速度（以rpm为单位）和三种姿势（横滚、俯仰和偏航；以度为单位）。

除了机器人的传感器数据外，我们还使用了一个8通道无线表面肌电图（EMG）系统（Delsys Trigno，Delsys, Inc.，波士顿，马萨诸塞州，美国），以2000 Hz的频率[48]采集来自四个下肢肌肉的EMG信号。这些肌肉包括双侧下肢的股外侧肌（VL）、胫骨前肌（TA）、股二头肌（BF）和腓肠肌外侧头（GAL）[49]。在放置EMG传感器之前，使用酒精湿巾清洁每个肌肉上的皮肤，以去除干燥的皮肤和皮肤油脂。然后使用双面胶带将EMG电极固定到皮肤上，并根据需要调整其位置。为了测量运动学信息，使用了八个摄像头的运动捕捉系统（Kestrel 2200，Motion Analysis Corp.，圣罗莎，加利福尼亚州，美国）。该系统以100 Hz的采样率[50]捕捉关于脊柱、肩膀、肘部、手、脚和踝关节的信息。

3.4. 模型架构

所提出的模型的模型架构如图2所示。它利用单头或多头CNN结构，从可穿戴机器人和EMG传感器收集的两种类型的多变量信号中提取更丰富的特征。这些架构在结构上相似，但在包含卷积层的块数、滤波器大小和全连接层的数量上有所不同。

在单头CNN架构中，每个块（特别是特征提取器）从EMG传感器信号和可穿戴机器人捕获局部时间特征。每个块最多可以包含三个卷积层。我们将卷积块限制为三个，以避免因网络深度增加而导致的潜在梯度消失和爆炸[51–53]。卷积层中滤波器的数量在四种尺寸之间变化：16、32、64或128，相邻卷积层在特征图中的差异为两倍。我们采用固定内核大小为3，步幅为1，以增强决策函数，并确保通过非线性激活更快地实现网络收敛。为了加速训练和收敛，每个卷积层之后都跟随一个BN层和一个修正线性单元（ReLU）激活。每个块都以一个池化层结束，从而有助于下采样，以最大限度地减少参数，保留主要特征并过滤掉人体非自愿抖动产生的噪声[34]。我们考虑了池化大小为2的最大池化层或平均池化层。此外，我们将全连接层的数量限制为三个。在第一个全连接层中，神经元的数量可以设置为32、64、128、256或512。类似地，相邻层在节点中表现出两倍的差异，与卷积层中的设计相似。

如图 2 所示，多头 CNN 架构被设计为一种可分离的结构，以独立地保留来自 EMG 传感器或可穿戴机器人的不同信号的独特特征。从各个块中提取的时间特征被组合起来，形成最终的特征表示。然后，这些特征被传递到全连接层。然后，使用具有 softmax 层的分类器来识别五种运动活动。

3.5. 超参数优化

超参数优化，也称为超参数调优，是选择最佳超参数组合的过程，以最大限度地提高学习算法的性能。诸如网格搜索之类的传统方法在其方法中是详尽的，并且涉及试验超参数值的子集以找到最佳配置。然而，由于需要大量的试验以及需要跟踪它们，因此这种方法可能非常耗时。最近，诸如随机搜索和贝叶斯优化之类的替代方法越来越受欢迎。一种特定的贝叶斯优化方法是树结构Parzen估计（TPE）[54]。

TPE是一种独特的贝叶斯优化方法，它依次构建模型，以根据过去的测量结果来估计超参数的性能[55,56]。它利用条件概率P(x|y)，其中x表示超参数，y表示目标函数上的质量得分（例如，损失、准确率）。这种方法具有在相对较短的时间内有效收敛到全局最小值的优点。

图2. 用于运动活动检测的单头或多头CNN架构。符号B、C和D分别表示块、卷积和全连接层的数量。(a) 单头CNN架构。(b) 多头CNN架构。

在本研究中，我们的重点是结构优化问题，更具体地说，是确定所提出的架构中卷积层和全连接层的深度（即，块、卷积层和全连接层的数量）。为此，我们采用了Hyperopt库[56,57]，以识别在验证数据中产生最高识别能力的超参数。随后，我们在测试数据上评估了使用这些最佳超参数设计的模型的预测性能。

4. 结果与讨论

4.1. 实验设置

在实验之前，参与者在三种不同的地形上进行了大约10分钟的步态测试，以熟悉可穿戴机器人。在这个准备阶段，协调员监测了来自可穿戴机器人和EMG传感器的信号质量。对于数据收集，参与者被指示开始和结束五个运动活动的每一个，双脚并拢，无论从左脚还是右脚开始。每个活动由每位参与者执行三次。因此，对于每项运动活动，我们获得了每位参与者九个数据文件，其中包含来自可穿戴机器人、EMG传感器和运动捕捉系统的详细信息[58]。在整个研究过程中，78名云工作者仔细审查了运动捕捉数据，识别了特定的步态事件，如足跟着地和脚趾离地。此外，他们根据EMG传感器和可穿戴机器人的数据，验证了每个运动活动的开始和结束时间戳，以确保数据的完整性。

4.2. 数据特征

本研究共招募了500名参与者，年龄介于19岁至64岁之间。年龄分布最多的群体是30-49岁，19-29岁和50-64岁的参与者较少。平均年龄为40.16 ± 13.39岁，男性（40.02 ± 13.47）和女性（40.29 ± 13.31）之间略有差异。性别分布均匀，男性250人（50%），女性250人（50%）（表2）。

表2. 人口统计学特征。

SD，标准差。† LHS，左脚跟撞击；‡ RHS，右脚跟撞击；§ LTO，左脚趾离地；¶ RTO，右脚趾离地。SD，标准差。

表3显示了不同运动活动（LW、SA、SD、RA和RD）的步态周期。步态周期表现出规律的周期：LW为1.39–1.4 s；SA为1.57–1.58 s；SD为1.51–1.53 s；RA为1.9–1.95 s。然而，RD活动表现出稍微更多的变化，范围从1.62到1.7 s，且离地事件比足跟着地事件花费的时间相对更长。

表 3. 五种运动方式的步态周期（单位：秒）。

表4展示了所有佩戴带有肌电传感器可穿戴机器人的参与者尝试五种运动活动三次时收集数据的测量时间。收集到的原始信号不包含缺失值。如表4所示，肌电数据的样本量为(23,288,780, 8)，可穿戴机器人数据的样本量为(832,447, 7)。收集到的多元信号的平均测量时间约为4.66秒。在运动活动中，LW（约4.8秒）和RA（约4.9秒）比其他活动花费的时间更长，SA和SD都约为4.6秒，RD花费的时间最少，为4.3秒。

表 4. 五种运动活动的测量时间（单位：秒）。

SD，标准差。括号内的数值通常表示样本数和通道数。

4.3. 预处理

来自传感器的原始数据可能受到源于各种因素的噪声污染，包括电子波动和传感器故障。虽然可以采用信号处理技术，例如 Butterworth 滤波器 [11,40]，来消除这些干扰，但建议谨慎使用。这些技术可能会在无意中从原始信号中去除关键信息 [59]。此外，将新的时间序列数据引入预训练模型需要额外的努力来解决这些伪影，即使延迟很短，也需要使用相同的预处理步骤。在我们的研究中，我们使用了来自 EMG 传感器和可穿戴机器人的原始信号，而没有应用任何滤波。然后将这些原始信号归一化到 -1 和 1 之间的范围。

4.4. 数据分割

归一化后，信号被传递到分割阶段，这是准备从传感器收集的数据的关键步骤[19]。我们使用重叠滑动窗口技术[59]将信号分割成序列，这种技术因其简单性和计算效率而受到青睐[19]。采用1.76秒的窗口大小，重叠率为0.9，由左脚跟撞击（LHS）的平均值和标准差确定。这种窗口化方法应用于来自EMG和可穿戴机器人的多元信号。考虑到在五种运动活动中记录的不同测量时间，因此做出了这个选择，如表4所示。通常，滑动窗口分割后生成的序列被随机分为训练集和测试集。然而，这种传统的数据划分方法可能导致来自同一用户活动的序列同时出现在训练集和测试集中，从而导致信息泄露。为了防止这种情况，我们应用了一种基于分组的数据划分策略[21,22,33,39]，以确保来自同一用户的样本仅存在于其中一个数据集中。这种方法将序列分为训练集、验证集和测试集，样本比例为8:1:1。实验中使用的训练集、验证集和测试集中序列数据的分布，包括用户数量、样本大小和运动活动频率，如表5所示。

表5. 训练集、验证集和测试集中的序列数据分布。

在肌电图和可穿戴机器人数据集中，括号内的数值分别代表样本数、时间戳和通道数。此外，在活动分布的上下文中，指示值对应于相应运动活动的频率。

4.5. 基准模型

我们考虑了三个著名的模型：基于 CNN 的模型，称为 DDLMI [46]；CNN-LSTM 模型，称为 DeepConvLSTM [33]；以及 LSTM-CNN 模型 [34]，它们被应用于运动意图检测或 HAR 的应用领域。DDLMI 架构集成了四个由 ReLU 激活的卷积层，辅以四个最大池化层和一个随后的全连接层，然后依次是 BN 层和 dropout 层。我们利用 softmax 函数来确定模型的概率。另一方面，DeepConvLSTM 包含四个连续的卷积层和一对 LSTM 层，最终以 softmax 层结束。在每个卷积段内，ReLU 被用来描绘特征图。值得注意的是，循环单元的激活是使用双曲正切函数来辨别的。LSTM-CNN 模型融合了两个 LSTM 层和两个卷积层，它们之间由一个最大池化层连接。在最后一个卷积层之后，设置了一个 GAP，随后是一个 BN 层。该模型通过从配备 softmax 分类器的全连接层产生输出来结束其处理。实验是使用表 5 中的分段数据集，在相同条件下，使用上述研究中提供的模型结构和学习参数进行的。

4.6. 实验环境与实施

我们使用Tensorflow后端的Keras API来实现所提出的模型和基准模型。实验是在一个配备Intel Xeon(R) Silver 4208 @ 2.1 GHz CPU、NVIDIA Quadro RTX A6000的系统上进行的，该系统运行Ubuntu 22.04 LTS。代码使用Python 3.8.16编写，使用Intellij IDEA 2019.2.4 (Ultimate Edition)，并利用Tensorflow-GPU 2.5、NumPy 1.19.5、Pandas 1.4.4、Matplotlib 3.5.3和Hyperopt 0.2.7。

4.7. 评估指标

该模型性能通过四个统计标准进行评估[21,22]：准确率（accuracy）、召回率（recall）、精确率（precision）和 F-measure。这些指标可以用数学方式定义如下：

在公式 (1)–(4) 中，TP、FP、FN 和 TN 分别代表真阳性、假阳性、假阴性和真阴性值。除了这些指标之外，还使用混淆矩阵来说明每种运动活动的分类结果。

4.8. 不同网络架构上的实验

我们对数据集进行了三个不同的实验，以研究利用从肌电传感器和可穿戴机器人收集的不同多元信号的益处：首先，仅使用从肌电传感器收集的多元信号评估了所提出模型的运动活动识别性能。然后将结果与三个基准模型的性能进行比较。其次，仅使用来自可穿戴机器人的多元信号评估了所提出模型的运动活动识别性能。同样，将结果与基准模型进行了比较。最后，当同时考虑两种类型的多元信号（来自肌电传感器和可穿戴机器人）时，检查了所提出模型的性能。在这三个实验中，所提出架构的超参数（参见图2），例如每个块中的块数和卷积层数，都在表6中指示的搜索空间中进行了优化，使用了HyperoptPython库[57]。在超参数优化过程中，我们将候选模型（或评估器）的数量限制为50。选择在验证数据上具有最高F-measure的模型作为最佳模型。

表6. 超参数的搜索空间。

4.8.1. 基于EMG的运动活动检测

经过超参数优化过程，确定单头CNN架构是从EMG数据中检测五种运动活动的最有效模型，如图3所示。

该架构包括三个块和一个全连接层。每个块由两个卷积层和一个最大池化层组成，全连接层包含512个单元。学习率和批次大小分别设置为1 × 10−4和128。通过观察训练和验证期间准确率和损失的变化，对所提出的模型和三个基准模型进行了详细的性能比较。在200个epoch中，如果模型的验证损失连续10个epoch没有改善，学习率将降低0.9倍。DDLMI和所提出的模型的初始学习率设置为1 × 10−4，DeepConvLSTM和LSTM-CNN模型的初始学习率设置为1 × 10−3。当模型达到最低验证损失时，记录每个网络的权重。

图4展示了四个模型在训练集和验证集上的准确率和损失的变化。所提出的模型的验证损失在不到20个epoch内迅速下降。相比之下，DeepConvLSTM和LSTMCNN这两个混合模型在50-75次迭代后显示出收敛趋势。然而，DDLMI没有收敛。具有最低验证损失的epoch记录如下：DDLMI为第162个epoch（1.373），DeepConvLSTM为第67个epoch（0.5136），LSTM-CNN为第57个epoch（0.909），所提出的模型为第8个epoch（0.5531）。

在表 7 提供的性能比较中，可以看出我们的模型在应用于 EMG 测试数据时，表现出 0.8938 的准确率，0.8943 (0.0779) 的召回率，0.8968 (0.0394) 的精确率以及 0.8931 (0.0321) 的 F-measure。我们的方法在提取判别性特征和实现准确识别结果方面表现出优于其他两个模型的性能，即使 F-measure 略低于 DeepConvLSTM（低 0.49%）。在处理时间方面，DDLMI 始终表现出色，在训练 epoch 和测试数据的推理时间上都拥有最快的平均速度。在训练 epoch 方面，我们的模型遥遥领先，分别比 DeepConvLSTM 和 LSTM-CNN 快约 4.6 倍和 2.4 倍。此外，在推理测试数据时，我们提出的模型表现出令人印象深刻的响应时间，分别比 DeepConvLSTM 和 LSTMCNN 快大约 3.7 倍和 2.6 倍。当模型达到其最低验证损失时。

图 3. 用于 EMG 数据集的单头 CNN 架构。

图4. EMG数据集上四个模型的训练和验证准确率曲线图。

表 7. 所提出的模型与三个基准模型在 EMG 数据集上的性能比较。

混淆矩阵（图5）显示，在DeepConvLSTM、LSTM-CNN和我们的模型中，LW、RA和RD这三种活动的错误分类率较高。具体而言，LW活动经常被错误分类为SA：DeepConvLSTM为10%，LSTM-CNN为12%，我们的模型为9%。对于SA活动，DeepConvLSTM有5%，LSTMCNN有2%，我们的模型有2%被预测为LW活动。这一结果表明，LW与SA相似，导致分类上的一些混淆。

图5. 四种模型在EMG测试数据集上的混淆矩阵。LW，水平地面行走；SA，楼梯上升；SD，楼梯下降；RA，斜坡上升；RD，斜坡下降。(a) DDLMI；(b) DeepConvLSTM；(c) LSTM-CNN；(d) 提出的模型。颜色越深的蓝色表示分类性能越高。

4.8.2. 基于可穿戴机器人的运动活动检测

图 6 展示了一个单头 CNN 架构，旨在检测由可穿戴机器人收集的多元信号中的五种运动活动。该模型的结构与用于肌电图数据检测的结构相似，但它有两个全连接层，分别有 128 和 256 个单元。学习率和批量大小分别选择为 1 × 10−4 和 32。我们监测了我们的模型和其他三个模型的训练和验证数据集的准确率和损失变化，如图 7 所示。

与图4中描述的先前结果相比，所有四个模型都表现出更稳定的学习。特别是，所提出的模型和LSTM-CNN收敛速度更快。然而，在20-50个训练epoch后，DeepConvLSTM的验证损失有所增加。最低验证损失如下：DDLMI在第102个epoch（0.3203），DeepConvLSTM在第22个epoch（0.3061），LSTM-CNN在第34个epoch（0.2321），所提出的模型在第69个epoch（0.1706）。

图6. 用于可穿戴机器人数据集的单头CNN架构。

性能比较结果如表8所示，我们的模型实现了最高的F-measure值0.9617，超过了其他竞争模型：DDLMI为0.9068，DeepConvLSTM为0.9441，LSTM-CNN为0.9557。此外，我们的模型在准确率方面分别比DDLMI、DeepConvLSTM和LSTM-CNN提高了5.33%、1.72%和0.63%。与之前的处理时间结果一致，DDLMI速度最快，其次是我们提出的模型，然后是两个混合模型LSTM-CNN和DeepConvLSTM。所提出的模型、LSTM-CNN和DeepConvLSTM的平均训练epoch时间分别为19.21秒、31.17秒和46.16秒，推理时间分别为1.14秒、2.51秒和2.89秒。因此，我们的模型展示了更快的推理速度，分别比LSTM-CNN和DeepConvLSTM快约2.2倍和2.5倍。

图 7. 可穿戴机器人数据集上四个模型的训练和验证准确率曲线图。

表 8. 提出的模型与三个基准模型在可穿戴机器人数据集上的性能比较。

图8展示了在使用从可穿戴机器人收集的多元信号识别五种运动活动时，混淆矩阵的差异。所有四个模型在识别两种活动时表现出最低的识别性能：LW和RD。在LW活动中，三个模型显示出较高的误分类率，将其误分类为SD：DeepConvLSTM为5%，LSTM-CNN为5%，我们的模型为3%。然而，仅对于DDLMI，在SA活动中的误分类率为8%。此外，RD活动被误分类为两种活动，SA和RA：DDLMI分别为4%和6%，DeepConvLSTM分别为4%和3%。同时，另外两个模型LSTM-CNN和我们的模型在RA活动中分别显示出4%和5%的误分类率。

图8. 四种模型在可穿戴机器人测试数据集上的混淆矩阵。LW，水平地面行走；SA，楼梯上升；SD，楼梯下降；RA，斜坡上升；RD，斜坡下降。(a) DDLMI；(b) DeepConvLSTM；(c) LSTM-CNN；(d) 提出的模型。较深的蓝色表示较高的分类性能。

4.8.3. 基于EMG和可穿戴机器人的运动活动检测

图 9 展示了一个双头 CNN 架构，该架构经过超参数优化后生成，用于识别五种运动活动。这些活动是通过从肌电图传感器和可穿戴机器人收集的多变量信号来识别的。在图 9 中，第一个头由两个块组成，每个块包含一个卷积层，后跟一个最大池化层。第二个头的特点是堆叠结构，每个结构包含三个具有不同滤波器的卷积层，后跟一个最大池化层。两个头都通过一个连接层连接到一个全连接层。学习率和批次大小分别选择为 1 × 10−4 和 128。

我们尽可能地保持了它们的原始结构。图 11 显示了我们的模型以及三个竞争模型在训练和验证数据集中准确率和损失的变化。从实验结果来看，与其他两个模型 DeepConvLSTM 和 DDLMI 相比，我们的模型和 LSTM-CNN 在验证数据集中表现出更稳定的损失曲线。记录的最佳验证损失如下：DDLMI 为第 32 个 epoch (0.4839)，DeepConvLSTM 为第 21 个 epoch (0.3602)，LSTM-CNN 为第 62 个 epoch (0.186)，所提出的模型为第 21 个 epoch (0.1908)。

图 9. 用于 EMG 和可穿戴机器人数据集的多头 CNN 架构。

为了区分这两种类型的多元信号，我们修改了三个竞争模型的结构，使其成为一个双头输入架构，如图10所示。

如表9所示，我们的模型实现了0.9539的F-measure性能，相比LSTM-CNN降低了0.72%，但相比DDLMI和DeepConvLSTM分别提高了3.74%和2.25%。在处理时间比较中，所提出的模型表现出最快的平均训练时间（10.9秒）和推理速度（1.67秒）。尽管如此，由于双头输入结构的存在，与之前的研究结果相比（参见表7和8），这三个模型的学习速度和推理时间相对较慢。特别是，DeepConvLSTM的推理时间被证明比EMG传感器慢约1.1倍（即，8.11秒→ 9.16秒），比可穿戴机器人慢3.16倍（2.89秒→ 9.16秒）。

图10. DDLMI、DeepConvLSTM和LSTM-CNN的双头输入架构。(a) DDLMI的修改版本；(b) DeepConvLSTM的修改版本；(c) LSTM-CNN的修改版本。

图 11. EMG 和可穿戴机器人数据集上四个模型的训练和验证准确率图。

图12突出了四种模型在识别五种运动活动类型时的混淆矩阵的差异。所有四个模型对RD活动的检测性能最低。DDLMI和DeepConvLSTM在三种运动活动（SA、SD和RA）中具有相似的高误分类率：DDLMI分别为4%、3%和3%，DeepConvLSTM分别为3%、4%和3%。此外，我们的模型和LSTM-CNN在RA中表现出最高的误分类率，为4%。

表9. 所提出的模型与三个基准模型在EMG和可穿戴机器人数据集上的性能比较。

图12. 四种模型在EMG和可穿戴机器人测试数据集上的混淆矩阵。LW，水平地面行走；SA，楼梯上升；SD，楼梯下降；RA，斜坡上升；RD，斜坡下降。(a) DDLMI；(b) DeepConvLSTM；(c) LSTM-CNN；(d) 提出的模型。较深的蓝色表示较高的分类性能。

本研究探讨了四种不同的DNN架构在五种不同运动活动中的预测性能。这些模型在来自EMG传感器和可穿戴机器人的不同多元信号上进行了训练。所有四个模型在使用来自可穿戴机器人的编码器和姿势信号（即，髋关节角度、速度、横滚/俯仰/偏航）识别五种运动活动方面，比使用EMG传感器更有效。F-measure性能改进如下：DDLMI从0.4742提高到0.9068，DeepConvLSTM从0.898提高到0.9441，LSTM-CNN从0.8527提高到0.9557，所提出的模型从0.8931提高到0.9617（参见表7和8）。这些结果与先前的结果一致，先前的结果强调了使用IMU传感器检测人类运动模式的高识别准确率[8]。有趣的是，当结合来自EMG传感器和可穿戴机器人的所有信号时，DDLMI和LSTM-CNN在F-measure性能上略有提高（分别提高0.97%和0.54%）。然而，所提出的模型和DeepConvLSTM的性能略有下降（分别下降0.78%和1.27%；参见表8和9）。所提出的模型提供了最高的预测性能，推理速度为1.14秒（即平均0.28毫秒），在正确识别五种运动活动方面，准确率和F-measure分别达到0.9627和0.9617。如表10所示，该模型具有成本效益，因为它使用的多元信号数量比LSTM-CNN少。

5结论

在本文中，我们提出了一种多元单头和多头CNN架构，用于检测用户在佩戴下肢可穿戴机器人时的运动活动。我们的研究涉及2022年9月1日至11月30日期间在ADL空间中的500名健康成年参与者。前瞻性数据被收集用于识别三种地形（平地、楼梯和斜坡）上的五种运动活动（LD、SA、SD、RA和RD）。通过我们的实验，我们比较了我们提出的CNN与另外三个竞争模型之间的预测性能。这些模型在从EMG和可穿戴机器人获取的不同模态的多元信号上进行训练。我们发现，当仅使用可穿戴下肢机器人的编码器（髋关节角度和速度）和姿势信号（来自IMU的roll/pitch/yaw）时，更深层的CNN架构优于三个竞争模型。尽管所提出的CNN架构取得了可喜的成果，但仍有改进的空间。值得注意的是，我们的CNN模型具有深度结构，这导致更高的计算成本。在后续研究中，我们计划采用轻量级模型，将GAP层与SENet或注意力网络集成。这将提高在各种连续地形场景中运动意图识别的效率，并促进使用可穿戴下肢机器人为肌肉力量支持生成自适应控制配置文件。