基于OpenCV和Python的手势识别与控制系统_通过摄像头实时捕捉手部动作并利用计算机视觉算法进行动态手势识别_实现非接触式的人机交互控制

共16个文件

png：9个

py：4个

txt：1个

版权申诉

18 浏览量 2025-08-21 11:59:30 上传评论收藏 6.05MB ZIP 举报

在当今快速发展的科技时代，人机交互方式正在经历从传统的鼠标键盘向更加自然直观的交互方式转变。手势识别技术便是其中的一种，它能够使人们通过自然的手部动作与计算机系统进行交流，从而实现非接触式的交互控制。本文所讨论的项目是基于开源计算机视觉库OpenCV和编程语言Python，开发出的一套手势识别与控制系统。通过连接电脑的摄像头实时捕捉手部动作，并利用一系列的计算机视觉算法进行动态手势识别，以达到控制计算机或其他智能设备的目的。视频采集是整个系统运行的起点。系统需要实时从摄像头获取视频流，这通常涉及到视频捕获设备的初始化和视频帧的读取。接下来的图像处理是为了提取出手部图像并准备进行手势分析。色域转换是图像处理中的一项重要技术，它可以将原始图像从一个色彩空间转换到另一个色彩空间，以便于后续的图像分析。例如，将RGB色彩空间转换到HSV色彩空间，这样的转换可以更有效地分割出图像中的手势区域。高斯滤波是一种常用的图像平滑技术，它利用高斯函数对图像进行卷积操作，可以去除噪声和图像中的细节，使得手部轮廓更加清晰，从而提高手势识别的准确性。在色域转换和高斯滤波之后，系统将进入动态手势识别阶段。这一阶段是整个手势识别与控制系统的核心，它涉及到手势的检测、跟踪和分类。手势检测是指从经过预处理的图像中识别出手部的存在，这通常需要使用诸如肤色检测、背景减除、轮廓检测等技术。手势跟踪则是指在连续的视频帧中对同一个手势进行跟踪，这可以使用卡尔曼滤波、粒子滤波或者基于深度学习的方法来实现。手势分类是识别出检测和跟踪到的手势属于预定义手势集合中的哪一个，这可以通过机器学习分类器来完成，例如支持向量机(SVM)或神经网络。在实现非接触式的人机交互控制时，系统需要将识别出的手势动作映射为计算机的命令或者控制信号。例如，一个特定的手势可能被映射为一个鼠标点击操作，或者一个手势轨迹被映射为图形界面中的绘制动作。这种映射机制的设计是实现手势控制的关键，它需要开发者有良好的用户体验设计能力，以确保手势控制的直观性和易用性。为了辅助开发者更好地理解和使用该系统，压缩包中还包含了一些文档资源。其中“附赠资源.docx”可能包含了系统的安装指南、使用说明以及一些额外的开发资源，如手势识别的预训练模型、开发所需的数据集等。而“说明文件.txt”则可能是针对系统操作的具体说明，比如如何运行系统、如何调试程序中的常见问题等。另外，“dino-jump-game-cnn-gesture-identification-main”目录下的文件可能包含了一个基于卷积神经网络(CNN)的手势识别示例项目，该项目不仅是一个练习和学习CNN在手势识别中应用的平台，也可能是一个完整的可运行的手势识别游戏。该手势识别与控制系统项目为计算机视觉和机器学习爱好者提供了一个实用的平台，通过它可以学习到从视频捕获到手势识别的整个流程，同时也为开发者提供了一个实践非接触式人机交互控制的工具。随着技术的不断进步，这类系统有望在未来的智能交互领域中扮演更加重要的角色。

资源推荐

资源详情

资源评论

收起资源包目录

基于OpenCV和Python的手势识别与控制系统_通过摄像头实时捕捉手部动作并利用计算机视觉算法进行动态手势识别_实现非接触式的人机交互控制_包括视频采集图像处理色域转换高斯滤波.zip （16个子文件）

说明文件.txt 419B

附赠资源.docx 42KB

dino-jump-game-cnn-gesture-identification-main

7a4719919a5f11da4cd86e116eeac05e.png 21KB

e846c979f4fdd1a967a8fdf2c4917404.png 17KB

868f723f462a32a4baedd4c3cdda8749.png 916KB

b16f32683f1e123b9aa92a9ac1a3850a.png 1.06MB

import_numpy_as_np.py 2KB

e35dd8458339c3e4264f70071cabba0f.png 968KB

e9bb7b9858dc17821a2b37ea10fe322b.png 1.13MB

_get_contours.py 2KB

0da11b21ed107f84a9ae84f9f5fe37dc.png 1.1MB

Capture.py 617B

13ea7c232fe5eef4d5d99fe36e8e9806.png 253KB

_remove_background.py 896B

README.md 14KB

642ae252aebd68757276dd41210729ee.png 1.15MB

# Python手势识别与控制 ![1.png](e9bb7b9858dc17821a2b37ea10fe322b.png) ## 概述本文中的手势识别与控制功能主要采用 OpenCV 库实现, OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库, 可以运行在Linux, Windows, Android和Mac-OS操作系统上. 它轻量级而且高效—-由一系列 C 函数和少量 C++ 类构成, 同时提供了Python, Ruby, MATLAB等语言的接口, 实现了图像处理和计算机视觉方面的很多通用算法. ![11.png](13ea7c232fe5eef4d5d99fe36e8e9806.png) 本文主要使用了OpenCV的视频采集, 图像色域转换, 颜色通道分割, 高斯滤波, OSTU自动阈值, 凸点检测, 边缘检测, 余弦定理计算手势等功能. ## 准备工作 **安装 Python-OpenCV 库** * pip install opencv-python -i [https://mirrors.ustc.edu.cn/pypi/web/simple](https://link.zhihu.com/?target=https%3A//mirrors.ustc.edu.cn/pypi/web/simple) 利用 **-i** 为pip指令镜像源, 这里使用电子科技大学的源, 速度比官方源更快. **安装 Numpy 科学计算库** * pip install numpy -i [https://mirrors.ustc.edu.cn/pypi/web/simple](https://link.zhihu.com/?target=https%3A//mirrors.ustc.edu.cn/pypi/web/simple) **安装 PyAutogui 库** * pip install pyautogui -i [https://mirrors.ustc.edu.cn/pypi/web/simple](https://link.zhihu.com/?target=https%3A//mirrors.ustc.edu.cn/pypi/web/simple) ## 代码实现 ``` import numpy as np import cv2 imname = "6358772.jpg" # 读入图像 ''' 使用函数 cv2.imread() 读入图像。这幅图像应该在此程序的工作路径，或者给函数提供完整路径. 警告：就算图像的路径是错的，OpenCV 也不会提醒你的，但是当你使用命令print(img)时得到的结果是None。 ''' img = cv2.imread(imname, cv2.IMREAD_COLOR) ''' imread函数的第一个参数是要打开的图像的名称(带路径) 第二个参数是告诉函数应该如何读取这幅图片. 其中 cv2.IMREAD_COLOR 表示读入一副彩色图像, alpha 通道被忽略, 默认值 cv2.IMREAD_ANYCOLOR 表示读入一副彩色图像 cv2.IMREAD_GRAYSCALE 表示读入一副灰度图像 cv2.IMREAD_UNCHANGED 表示读入一幅图像，并且包括图像的 alpha 通道 ''' # 显示图像 ''' 使用函数 cv2.imshow() 显示图像。窗口会自动调整为图像大小。第一个参数是窗口的名字，其次才是我们的图像。你可以创建多个窗口，只要你喜欢，但是必须给他们不同的名字. ''' cv2.imshow("image", img) # "image" 参数为图像显示窗口的标题, img是待显示的图像数据 cv2.waitKey(0) #等待键盘输入,参数表示等待时间,单位毫秒.0表示无限期等待 cv2.destroyAllWindows() # 销毁所有cv创建的窗口 # 也可以销毁指定窗口: #cv2.destroyWindow("image") # 删除窗口标题为"image"的窗口 # 保存图像 ''' 使用函数 cv2.imwrite() 来保存一个图像。首先需要一个文件名，之后才是你要保存的图像。保存的图片的格式由后缀名决定. ''' #cv2.imwrite(imname + "01.png", img) cv2.imwrite(imname + "01.jpg", img) ``` ## 摄像头数据采集我们经常需要使用摄像头捕获实时图像。OpenCV 为这种应用提供了一个非常简单的接口。让我们使用摄像头来捕获一段视频，并把它转换成灰度视频显示出来。从这个简单的任务开始吧。为了获取视频，你应该创建一个 VideoCapture 对象。它的参数可以是设备的索引号，或者是一个视频文件。设备索引号就是在指定要使用的摄像头。一般的笔记本电脑都有内置摄像头。所以参数就是 0。你可以通过设置成 1 或者其他的来选择别的摄像头。之后，你就可以一帧一帧的捕获视频了。但是最后，别忘了停止捕获视频。 cap.read() 返回一个布尔值（True/False）。如果帧读取的是正确的，就是 True。所以最后你可以通过检查他的返回值来查看视频文件是否已经到了结尾。有时 cap 可能不能成功的初始化摄像头设备。这种情况下上面的代码会报错。你可以使用cap.isOpened()，来检查是否成功初始化了。如果返回值是True，那就没有问题。否则就要使用函数 cap.open()。 [图片上传失败...(image-ffa87e-1661755697120)] ``` class Capture(object): ''' Capture object :param deviceID: device ID of your capture device, defaults to 0 :type deviceID: :obj:`int` Example >>> import pygr >>> cap = pygr.Capture() ''' def __init__(self, deviceID=0): # ID为0, 表示从默认的摄像头读取视频数据 self.deviceID = deviceID self.capture = cv2.VideoCapture(self.deviceID) # def read(self): _, frame = self.capture.read() # 调用默认摄像头捕获一帧图像 frame = cv2.bilateralFilter(frame, 5, 50, 100) # 对捕获到的图像进行双边滤波 image = Image.fromarray(frame) # 转换图像数据格式 return image ``` **视频数据的处理** 为了更准确的识别视频数据中包含的手势信息, 需要对视频数据进行预处理, 包括背景减除, [人体皮肤侦测](https://mbd.pub/o/bread/Yp6blZps). **背景减除** [参考该博客提出的背景减除法](https://afdian.net/item?plan_id=5e2dd5845e3b11ed912f52540025c377)，在很多基础应用中背景检出都是一个非常重要的步骤。例如顾客统计，使用一个静态摄像头来记录进入和离开房间的人数，或者是交通摄像头，需要提取交通工具的信息等。在所有的这些例子中，首先要将人或车单独提取出来。技术上来说，我们需要从静止的背景中提取移动的前景。如果你有一张背景（仅有背景不含前景）图像，比如没有顾客的房间，没有交通工具的道路等，那就好办了。我们只需要在新的图像中减去背景就可以得到前景对象了。但是在大多数情况下，我们没有这样的（背景）图像，所以我们需要从我们有的图像中提取背景。如果图像中的交通工具还有影子的话，那这个工作就更难了，因为影子也在移动，仅仅使用减法会把影子也当成前景。真是一件很复杂的事情。为了实现这个目的科学家们已经提出了几种算法。OpenCV 中已经包含了其中三种比较容易使用的方法: BackgroundSubtractorMOG , BackgroundSubtractorMOG2 , BackgroundSubtractorGMG。这里我们使用的是 **BackgroundSubtractorMOG2 .** BackgroundSubtractorMOG 和 BackgroundSubtractorMOG2 BackgroundSubtractorMOG2 是一个以混合高斯模型为基础的前景/背景分割算法。它是 P.KadewTraKuPong和 R.Bowden 在 2001 年提出的。它使用 K（K=3 或 5）个高斯分布混合对背景像素进行建模。使用这些颜色（在整个视频中）存在时间的长短作为混合的权重。背景的颜色一般持续的时间最长，而且更加静止。一个像素怎么会有分布呢？在 x，y 平面上一个像素就是一个像素没有分布，但是我们现在讲的背景建模是基于时间序列的，因此每一个像素点所在的位置在整个时间序列中就会有很多值，从而构成一个分布。在编写代码时，我们需要使用函数： **cv2.createBackgroundSubtractorMOG()** 创建一个背景对象。这个函数有些可选参数，比如要进行建模场景的时间长度，高斯混合成分的数量，阈值等。将他们全部设置为默认值。然后在整个视频中我们是需要使用 **backgroundsubtractor.apply()** 就可以得到前景的掩模了。 **BackgroundSubtractorMOG2** 也是以高斯混合模型为基础的背景/前景分割算法。它是以 2004 年和 2006 年 Z.Zivkovic 的两篇文章为基础的。这个算法的一个特点是它为每一个像素选择一个合适数目的高斯分布。（上一个方法中我们使用是 K 高斯分布）。这样就会对由于亮度等发生变化引�

评论收藏

内容反馈

版权申诉