计算机视觉
借助精妙、可扩展且经过测试的强大软件,您的设备能够感知和了解我们周围的世界。
NVIDIA 软件为个人开发者、高等教育和研究人员以及企业提供端到端计算机视觉工作流程(从模型开发到部署)。
计算机视觉是能够使智能摄像头等设备获取、处理、分析和解读图像及视频的一项技术。例如,在使用计算机视觉算法设计的车辆上,其搭载的驾驶员辅助系统利用摄像头和其他传感器,不仅能够显示,而且还能感知车辆前后的环境,进而识别每一帧图像中的区域或兴趣点并对其进行分类处理。在本例中,计算机视觉可用于安全方面,即帮助驾驶员识别道路碎石、其他车辆、动物和行人。同理,对于具备了计算机视觉功能的设备,农民可依靠其自动识别功能,在大片农田中清理杂草,监测作物生长状态,从而提高产量。当今的计算机视觉任务(如上所述)基于人工智能,确切地说,是基于深度学习,这是一种以大脑为模型的机器学习。基于深度学习的计算机视觉模型使设备具有人类专家的执行力和适应性,投入反而大大减少。
计算机视觉技术
大多数计算机视觉技术都是以一种模型或数学算法为基础,该模型或算法以完成某项特定任务为目的,已通过了大量的数据训练。一些常用技术包括:
分类
分类是指确定图像或视频帧中的物体并进行分类。分类模型通常使用大型数据集进行训练,从而识别简单的对象(如狗、猫、椅子)或非常具体的对象(如道路场景中的车辆类型)。分类输出的质量取决于所用的训练数据。训练数据的数量越多,种类越多元,准确度就越高。
检测
检测是指在图像或视频帧中定位一个或多个对象。该算法会在检测到的对象周围输出一个矩形边界框,表示对象在图像中的位置。对象检测器经过训练可用来检测图像或视频帧中的车辆、道路标志、人员或其他会引起兴趣的对象。
分割
分割是指通过标记图像中的每一个像素,精确定位图像中与兴趣点相关对象或区域。由此,使用相同标签的像素具有相似的特征,如颜色或纹理。分割模型在医学成像中常用于执行在磁共振成像 (MRI) 扫描中自动检测肿瘤等任务。
图像合成
图像合成是指创建或人工生成包含某些所需对象或内容的图像。生成对抗网络 (GAN) 是一种神经网络,常用于合成上述这类图像,甚至是视频帧。图像合成的一个常见应用是文字转图片翻译,其中包含根据文本说明使用 GAN 生成图像。
基于人工智能的
计算机视觉工作流程
计算机视觉工作流程高度依赖任务、模型和数据。简化版基于 AI 的典型端到端计算机视觉工作流程简要涉及三 (3) 个关键阶段:模型和数据选择、训练和测试/评估以及部署和执行。
您可以浏览这些阶段,使用计算机视觉检测技术识别狗狗
(基于分类和分割的技术会遵循相同的工作流程)。
查找 Fido:开发基于 AI 的物体检测计算机视觉工作流程
挑战:您希望开发一个监控系统的软件,该软件能自动检测您的狗狗何时到达后门或从后门离开。
三阶段解决方案:
模型和数据选择
选择一个物体检测模型。
收集您的狗狗的照片(我们叫他 Fido),您可以用这些照片训练和微调用来识别 Fido 的模型。
训练和测试/评估
使用不同的 Fido 照片训练和测试您的模型,以确认模型检测狗狗的准确性。
部署和执行
将经过训练的模型部署到硬件,使用已安装的摄像头监控和检测狗狗下次离开家的时间。
下方的简明图表总结了基于 AI 的计算机视觉解决方案。

NVIDIA 支持端到端计算机视觉工作流程。NVIDIA 不仅提供基于 AI 的预训练模型,还提供用于训练、测试/评估的工具和用于部署和执行的软件应用框架。请在下方详细了解 NVIDIA 如何为计算机视觉开发的每个阶段提供支持。
开始使用 NVIDIA 的预训练模型
用于计算机视觉
自行为这些技术开发模型需要大量的训练数据、时间和专业知识。好消息是,您不必成为专家就可以开始工作。NVIDIA 托管着许多已构建完成且随时可用的预训练模型,便于您开始开发自己的计算机视觉解决方案。从我们的 GPU 加速软件中心 NGC 开始,了解计算机视觉模型和资源,以及其他基于深度学习的语音和自然语言处理用例和应用框架。
开发端到端计算机
视觉工作流程
首先使用 NVIDIA 预训练模型、TAO 和 DeepStream,简化端到端计算机视觉 AI 开发流程。
浏览 NVIDIA 软件中的计算机视觉
了解如何通过特定行业专用的 NVIDIA 软件产品和平台,开发计算机视觉应用。


汽车
DRIVE
为自动驾驶汽车 (AV) 和智能驾驶舱 (IX) 开发端到端 (E2E) 计算机视觉解决方案。收集和生成计算机视觉数据,使用端到端 (E2E) 仿真平台 (DRIVE Sim) 训练 DNN 模型。
了解详情

设想新一代计算机视觉
探索 NVIDIA 在计算机视觉方面的新技术和创新研究工作
探索 NVIDIA 的 GPU 加速库和优化平台
了解 NVIDIA 的库和优化平台如何加速 GPU 上的计算机视觉。

数据流水线加速器
数据加载库 (DALI)
使用 GPU 来加载和处理计算机视觉和音频数据。在 TensorFlow、PyTorch、MXNet 和 PaddlePaddle 模型中直接使用。
了解详情


与您相关由 NVIDIA 计算机视觉支持的世界
开始使用(附带常见问题解答)
计算机视觉不仅仅是进行研究。它会提供切实可行的现实解决方案,改变生活。NVIDIA 在人工智能和高性能计算领域的深厚专业知识提供了对世界产生有意义影响的丰富机会。
了解详情


了解计算机视觉的基础知识
新接触计算机视觉? 想要在入门前先做些基础了解? 请参加 NVIDIA 深度学习培训中心 (DLI) 提供的八小时课程,通过计算机视觉实操练习来了解深度学习的基础知识。您将了解如何从头开始训练深度学习模型和使用预训练模型、试验不同的模型架构、探索深度学习工具和技术,以及使用数据集提高模型准确性。您还将获得展示成就的证书。
入门
计算机视觉提供哪些新功能

Metropolis 聚焦:Bluecity 将视觉 AI 与激光雷达相结合,实现实时道路安全并缓解交通拥堵
城市现在可以访问实时多模态交通数据,从而改善道路安全并减少交通拥堵。

借助 Fujifilm Healthcare 的 Cardio StillShot,在任何心率下截取时间分辨率高 6 倍的心脏成像
借助 NVIDIA GPU,Fujifilm Healthcare 开发了 Cardio StillShot,在任何心率下捕获心脏成像,将心脏 CT 图像的时间分辨率提高 6 倍。

开发者参加 NVIDIA DOCA 编程马拉松,推动 DPU 演进
最近召开的欧洲 DOCA 编程马拉松揭示了使用 BlueField DPU 和 DOCA SDK 在视频处理、存储解决方案和交换协议方面的简化创新。
计算机视觉:真实应用
所有挑战都应该认真对待,没有大公司会拒绝计算机视觉。从初创公司到全球制造商,了解创新解决方案的实际应用。
改善低视力障碍人群的移动性 (Biel Glasses)
使用计算机视觉和 AI 提高车辆质量(奥迪)
使用 Maximo 视觉检查部署 NGC 模型 (IBM)
合作制胜
全球挑战需要社区的力量。我们借助强大的解决方案在您应对挑战时提供支持,以便满足您的确切需求。

