为您的对话式 AI 应用提供语音界面。
语音 AI 是对话式 AI 的一个子集,它包括自动语音识别 (ASR) 和文本转语音 (TTS),可将人类语音转换为文本,并从书面词句中生成类似人类的声音,从而实现虚拟助理、实时转录和由大语言模型 (LLM) 和检索增强生成 (RAG) 驱动的语音搜索等强大技术。
通过语音 AI 模型自定义实现的出色准确性,将客户体验升级到卓越水平。
通过提供客户所用语言的语音应用,拓展您的客户群。
借助低延迟、高吞吐量的应用为更多客户提供服务,这些应用可以基于任意基础设施进行即时扩展:本地、云、边缘或嵌入式基础设施。
借助您的品牌专属语音进行快速、有意义的互动,提升您的客户服务质量。
了解如何为您的对话式 AI 应用构建和部署实时语音 AI 工作流。
现代语音 AI 系统使用基于海量数据集训练的深度神经网络 (DNN) 模型。随着时间的推移,语音 AI 模型的规模大幅增长,因此,即使在高性能 GPU 上使用 PyTorch、TensorFlow 和 MXNet 等深度学习框架,训练此类模型也可能需要数周的密集计算时间。
NVIDIA 语音 AI 在 NVIDIA NGC™ 目录中提供预训练的生产级优质模型,这些模型基于多个公共和专有数据集在 NVIDIA DGX™ 系统上训练了超过数十万小时。
图 1:高度准确的预训练模型。
图 2: 端到端 NVIDIA NeMo 工作流程
许多企业必须自定义语音和翻译 AI 模型,以实现其特定对话式应用所需的多语种准确性。但是,从头开始自定义语音 AI 模型通常需要大型训练数据集和 AI 专业知识。
为加速开发和高度自定义语音模型,您可以使用 NVIDIA NeMo 构建、自定义和部署语音 (自动语音识别 (ASR) 和文本转语音 (TTS)) 以及自然语言处理 (NLP) 流程。借助 NeMo,您可以自定义、扩展和合成现有的预构建语音 AI 模块,以创建新模型。使用 NeMo 优化的模型可以轻松导出,并在 NVIDIA® Riva 本地或云端作为语音服务进行部署。
对于语音 AI 技能,公司之前必须始终在准确性和实时性能之间做出选择。例如,他们不能问一个问题,然后等待几秒钟才能得到回复。此外,他们不希望对话式 AI 应用存在误解或传达无用信息。
借助 NVIDIA Riva,公司可以实现出色的准确性,并在几毫秒内实时运行语音 AI 工作流。Riva 提供 NGC 上的 SOTA 预训练模型、低代码工具(例如用于微调的 TAO 工具套件),以实现出色准确性和面向实时性能的优化技能。
图 3:NVIDIA Riva 语音 AI 能力。
开发中使用用于音频转录和智能虚拟助理的免费 AI 工作流,可以大大缩短开发时间。AI 工作流包括 NVIDIA AI 框架和预训练模型,以及 Helm 图表、Jupyter Notebook 和文档等资源,可帮助您快速构建 AI 解决方案。
除了付费版本的 NVIDIA Riva,但NVIDIA 还免费提供了可以用于大规模部署的各种容器、模型和自定义工具。
注册以接收 NVIDIA 发布的关于语音 AI 的新动态