基于GT-HMMs的手语时空手势识别
立即解锁
发布时间: 2025-08-17 01:27:00 阅读量: 1 订阅数: 3 

# 基于GT - HMMs的手语时空手势识别
## 1. 手势识别模型评估背景
手势识别在手语交流中具有重要意义,因为手语交流是多模态的,不仅包括手动手势(手动签名),还包括通过面部表情、头部运动、身体姿势和躯干运动传达的非手动信号。为了评估HMM、T - HMM、GT - HMM和不同CRF模型在识别基于运动的手势以及识别手语中出现的插入动作(epenthesis)的性能,进行了一系列实验。
### 1.1 不同模型的特点
- **T - HMM**:是一种并行阈值HMM框架,训练和分类方式与GT - HMM模型相同,但它不使用特定的手势子单元初始化技术,而是采用标准分割方法,将观察序列线性分割成S个相等的子序列。
- **GT - HMM**:使用特定的手势子单元初始化技术,在后续实验中表现出与T - HMM不同的性能。
## 2. 实验数据与评估方法
### 2.1 数据选择
为了评估HMM和CRF模型在识别手语中基于运动的手势的应用,使用了三个数据集:
- **手动签名数据集**:由流畅手语者执行自然手语句子的视频中提取的八种不同的双手时空手势组成。
- **头部运动手势数据集**:包含从自然手语句子视频中提取的三种不同头部运动手势。
- **眉毛运动手势数据集**:由两种不同的眉毛运动手势组成,同样从自然手语句子视频中提取。
### 2.2 评估方法
对不同模型进行ROC分析并计算每个模型的AUC(曲线下面积)。在ROC分析中,对于T - HMM和GT - HMM模型,改变阈值的权重;对于CRF模型,改变静态阈值Ω。在实现HCRF模型和LDCRF模型时,还会改变隐藏状态的数量和窗口参数ω,窗口参数用于定义在预测时间t的状态时使用的过去和未来历史的数量,以纳入长距离依赖关系。
## 3. 手动签名实验
### 3.1 数据处理
从视频流中提取两个观察通道,即左手观察GL和右手观察GR,将它们组合成并行观察序列G′。从视频序列中提取观察序列集Δ′y,将其分为训练集Δ′t y和测试集Δ′ζ y。每个手势记录10个训练样本和10个测试样本,共160个手势样本。此外,还从视频序列中提取了代表运动插入动作的观察集Δ′E,用于测试阈值模型的性能。
### 3.2 特征向量选择
- **HMM模型**:最佳特征向量为f = {RPx, RPy, Vx, Vy, DH},描述了手相对于眼睛的位置、手的运动方向以及双手之间的距离。
- **CRF模型**:最佳特征向量为f = {Vx, Vy},描述了手的运动方向。
### 3.3 实验结果
| 模型 | 数据集1(含100个插入样本) | 数据集2(不含插入样本) |
| ---- | ---- | ---- |
| HMM | 0.902 | 0.943 |
| GT - HMM | 0.976 | 0.977 |
| T - HMM | 0.941 | 0.944 |
| CRF ω = 0 | 0.833 | 0.876 |
| CRF ω = 1 | 0.794 | 0.828 |
| HCRF ω = 0, S = 6 | 0.909 | 0.944 |
| HCRF ω = 1, S = 6 | 0.957 | 0.983 |
| HCRF ω = 2, S = 6 | 0.944 | 0.971 |
| HCRF ω = 0, S = 8 | 0.947 | 0.965 |
| HCRF ω = 1, S = 8 | 0.934 | 0.968 |
| LDCRF ω = 0, S* = 1 | 0.847 | 0.881 |
| LDCRF ω = 0, S* = 2 | 0.806 | 0.842 |
| LDCRF ω = 0, S* = 3 | 0.808 | 0.836 |
| LDCRF ω = 0, S* = 4 | 0.863 | 0.901 |
| LDCRF ω = 0, S* = 8 | 0.942 | 0.985 |
| LDCRF ω = 1, S* = 8 | 0.899 | 0.928 |
从结果可以看出:
- 数据集2中整体表现最佳的模型是每个标签有8个隐藏状态的LDCRF模型,AUC为0.985。
- 对于手语识别系统更相关的数据集1,表现最佳的模型是GT - HMM,AUC为0.976。虽然HCRF和LDCRF在分类手势时表现优于GT - HMM,但引入插入动作数据后,它们的性能显著下降,而GT - HMM的性能下降幅度较小,表明GT - HMM在分类手势和识别插入动作时更稳健。
- GT - HMM的手势子单元初始化技术对识别性能有积极影响,其AUC比T - HMM高3.5%。
## 4. 头部手势实验
### 4.1 数据处理
从视频中提取观察序列Δy,分为训练集Δt y和测试集Δζ y。每个手势记录6个训练样本和6个测试样本,共36个手势样本。此外,还提取了25个其他头部手势序列ΔE,用于测试系统识别运动插入动作的性能。
### 4.2 特征向量选择
HMM和CRF模型在分类头部手势时的最佳特征向量均为二维向量f = {Vx, Vy},描述了头部在x和y方向的运动速度,通过计算眼睛中点从一帧到另一帧的运动来得到速度向量。
### 4.3 实验结果
| 模型 | 数据集1(含25个非手势样本) | 数据集2(不含非手势样本) |
| ---- | ---- | ---- |
| HMM | 0.848 | 0.891 |
| GT - HMM | 0.936 | 0.947 |
| T - HMM | 0.873 | 0.882 |
| CRF ω = 0 | 0.736 | 0.768 |
| CRF ω = 1 | 0.527 | 0.545 |
| HCRF ω = 0, S = 2 | 0.698 | 0.801 |
| HCRF ω = 1, S = 2 | 0.786 | 0.911 |
| HCRF ω = 2, S = 2 | 0.702 | 0.816 |
| HCRF ω = 0, S = 4 | 0.784 | 0.927 |
| HCRF ω = 1, S = 4 | 0.719 | 0.811 |
| HCRF ω = 0, S = 6 | 0.743 | 0.850 |
| HCRF ω = 1, S = 6 | 0.736 | 0.893 |
| HCRF ω = 0, S = 8 | 0.715
0
0
复制全文
相关推荐









