计算机视觉

借助精妙、可扩展且经过测试的强大软件，您的设备能够感知和了解我们周围的世界。

NVIDIA 软件为个人开发者、高等教育和研究人员以及企业提供端到端计算机视觉工作流程（从模型开发到部署）。

计算机视觉是能够使智能摄像头等设备获取、处理、分析和解读图像及视频的一项技术。例如，在使用计算机视觉算法设计的车辆上，其搭载的驾驶员辅助系统利用摄像头和其他传感器，不仅能够显示，而且还能感知车辆前后的环境，进而识别每一帧图像中的区域或兴趣点并对其进行分类处理。在本例中，计算机视觉可用于安全方面，即帮助驾驶员识别道路碎石、其他车辆、动物和行人。同理，对于具备了计算机视觉功能的设备，农民可依靠其自动识别功能，在大片农田中清理杂草，监测作物生长状态，从而提高产量。当今的计算机视觉任务（如上所述）基于人工智能，确切地说，是基于深度学习，这是一种以大脑为模型的机器学习。基于深度学习的计算机视觉模型使设备具有人类专家的执行力和适应性，投入反而大大减少。

计算机视觉技术

大多数计算机视觉技术都是以一种模型或数学算法为基础，该模型或算法以完成某项特定任务为目的，已通过了大量的数据训练。一些常用技术包括：

分类

分类是指确定图像或视频帧中的物体并进行分类。分类模型通常使用大型数据集进行训练，从而识别简单的对象（如狗、猫、椅子）或非常具体的对象（如道路场景中的车辆类型）。分类输出的质量取决于所用的训练数据。训练数据的数量越多，种类越多元，准确度就越高。

检测

检测是指在图像或视频帧中定位一个或多个对象。该算法会在检测到的对象周围输出一个矩形边界框，表示对象在图像中的位置。对象检测器经过训练可用来检测图像或视频帧中的车辆、道路标志、人员或其他会引起兴趣的对象。

分割

分割是指通过标记图像中的每一个像素，精确定位图像中与兴趣点相关对象或区域。由此，使用相同标签的像素具有相似的特征，如颜色或纹理。分割模型在医学成像中常用于执行在磁共振成像 (MRI) 扫描中自动检测肿瘤等任务。

图像合成

图像合成是指创建或人工生成包含某些所需对象或内容的图像。生成对抗网络 (GAN) 是一种神经网络，常用于合成上述这类图像，甚至是视频帧。图像合成的一个常见应用是文字转图片翻译，其中包含根据文本说明使用 GAN 生成图像。

基于人工智能的
计算机视觉工作流程

计算机视觉工作流程高度依赖任务、模型和数据。简化版基于 AI 的典型端到端计算机视觉工作流程简要涉及三 (3) 个关键阶段：模型和数据选择、训练和测试/评估以及部署和执行。

您可以浏览这些阶段，使用计算机视觉检测技术识别狗狗

（基于分类和分割的技术会遵循相同的工作流程）。

查找 Fido：开发基于 AI 的物体检测计算机视觉工作流程

挑战：您希望开发一个监控系统的软件，该软件能自动检测您的狗狗何时到达后门或从后门离开。

三阶段解决方案：

模型和数据选择

选择一个物体检测模型。

收集您的狗狗的照片（我们叫他 Fido），您可以用这些照片训练和微调用来识别 Fido 的模型。

训练和测试/评估

使用不同的 Fido 照片训练和测试您的模型，以确认模型检测狗狗的准确性。

部署和执行

将经过训练的模型部署到硬件，使用已安装的摄像头监控和检测狗狗下次离开家的时间。

下方的简明图表总结了基于 AI 的计算机视觉解决方案。

NVIDIA 支持端到端计算机视觉工作流程。NVIDIA 不仅提供基于 AI 的预训练模型，还提供用于训练、测试/评估的工具和用于部署和执行的软件应用框架。请在下方详细了解 NVIDIA 如何为计算机视觉开发的每个阶段提供支持。

开始使用 NVIDIA 的预训练模型
用于计算机视觉

自行为这些技术开发模型需要大量的训练数据、时间和专业知识。好消息是，您不必成为专家就可以开始工作。NVIDIA 托管着许多已构建完成且随时可用的预训练模型，便于您开始开发自己的计算机视觉解决方案。从我们的 GPU 加速软件中心 NGC 开始，了解计算机视觉模型和资源，以及其他基于深度学习的语音和自然语言处理用例和应用框架。

浏览 NGC 目录上的预训练模型

开发端到端计算机
视觉工作流程

首先使用 NVIDIA 预训练模型、TAO 和 DeepStream，简化端到端计算机视觉 AI 开发流程。

AI 模型自适应框架

NVIDIA TAO

使用自定义数据微调预训练模型，在几个小时（而非数月）内生成高度准确的计算机视觉和对话式 AI 模型。

了解详情

流分析工具包

NVIDIA DeepStream SDK

构建用于多传感器处理、视频、音频和图像理解的实时视觉 AI 应用。

了解详情

智能基础设施和城市

NVIDIA Metropolis

构建基于视频的端到端分析平台，或通过行业生态系统中的合作伙伴使用此类平台。

了解详情

浏览 NVIDIA 软件中的计算机视觉

了解如何通过特定行业专用的 NVIDIA 软件产品和平台，开发计算机视觉应用。

医疗健康

Clara

开发在病房中用于手势识别、心率监测、口罩检测和身体姿态估计的计算机视觉模型，用于检测跌倒。在医学成像、使用流媒体视频的医疗设备以及智能医院中构建、管理和部署工作流程。

了解详情

汽车

DRIVE

为自动驾驶汽车 (AV) 和智能驾驶舱 (IX) 开发端到端 (E2E) 计算机视觉解决方案。收集和生成计算机视觉数据，使用端到端 (E2E) 仿真平台 (DRIVE Sim) 训练 DNN 模型。

了解详情

视频流

Maxine SDK

使用视频效果、音频效果和增强现实来创建虚拟协作和内容创作应用。

了解详情

多模态对话

Riva

通过同时融合视觉、音频和其他传感器输入，开发多模态对话式 AI 应用。

了解详情

设想新一代计算机视觉

探索 NVIDIA 在计算机视觉方面的新技术和创新研究工作

研究

新出现的创新

了解我们的计算机视觉研究工程师和数据科学家在解决哪些问题。阅读我们最新的出版物。

了解详情

机器人

NVIDIA Isaac Sim

在虚拟环境中开发、测试、训练和管理机器人。使用计算机视觉进行操作、导航并生成合成数据。

了解详情

探索 NVIDIA 的 GPU 加速库和优化平台

了解 NVIDIA 的库和优化平台如何加速 GPU 上的计算机视觉。

数据流水线加速器

数据加载库 (DALI)

使用 GPU 来加载和处理计算机视觉和音频数据。在 TensorFlow、PyTorch、MXNet 和 PaddlePaddle 模型中直接使用。

了解详情

3D 深度学习研究库

NVIDIA KAOLIN 库

生成合成数据。渲染和可视化 3D 训练数据集。

了解详情

图像和信号处理库

NVIDIA 性能基元 (NPP)

为图像、视频和信号处理部署特定领域专用的即用型高性能功能。

了解详情

嵌入式计算机视觉和图像处理库

视觉编程接口 (VPI)

实时实现异步计算机视觉和图像处理应用。

了解详情

图像解码库

nvJPEG 和 nvJPEG2000

加快 JPEG 和 JPEG2000 图像的处理速度。

了解详情

运动流生成

光流 SDK

使用 GPU 增强帧之间的流向量计算，识别、分类和跟踪视频流中的对象和动作。

了解详情

推理优化器和运行时

TensorRT

支持为推理应用提供低延迟和高吞吐量。

了解详情

与您相关由 NVIDIA 计算机视觉支持的世界

开始使用（附带常见问题解答）

计算机视觉不仅仅是进行研究。它会提供切实可行的现实解决方案，改变生活。NVIDIA 在人工智能和高性能计算领域的深厚专业知识提供了对世界产生有意义影响的丰富机会。

了解详情

了解计算机视觉的基础知识

新接触计算机视觉？想要在入门前先做些基础了解？请参加 NVIDIA 深度学习培训中心 (DLI) 提供的八小时课程，通过计算机视觉实操练习来了解深度学习的基础知识。您将了解如何从头开始训练深度学习模型和使用预训练模型、试验不同的模型架构、探索深度学习工具和技术，以及使用数据集提高模型准确性。您还将获得展示成就的证书。

入门