使用简单的 API 将预训练的 AI 基础模型集成到产品和体验的能力显著提高了开发者对 LLM 端点和应用开发框架的使用率。NVIDIA NIM 使开发者和工程团队能够快速部署自己的 AI 模型端点,以便使用热门开发工具和框架安全开发加速生成式 AI 应用程序。
开发者表示,出于开发目的,他们希望更轻松地访问 NVIDIA Inference Microservices (NIM),因此我们很高兴为超过 500 万 NVIDIA Developer Program 成员提供用于开发、测试和研究的可下载 NIM 微服务的免费访问权限。该计划的成员可以获得全面的资源、培训、工具和专家社区,帮助构建加速应用程序和解决方案。
在本文中,我们简要介绍了 NIM 微服务的技术概述,重点介绍了一些可供下载和自托管部署的微服务,并提供了入门所需的手册资源以开始使用。
什么是 NIM 微服务?
NIM 提供用于跨云、数据中心和工作站自行托管 GPU 加速微服务的容器,用于预训练和自定义 AI 模型。这些容器可以使用单个命令进行部署,并自动公开行业标准 API,以快速集成到应用程序、开发框架和工作流程中。其中一个示例是基于大型语言模型(LLM)的 NIM 微服务的 OpenAI API 规范。
使用 NVIDIA TensorRT 和 NVIDIA TensorRT-LLM 构建的经过优化的推理引擎可提供低响应延迟和高吞吐量。在运行时,NIM 微服务会根据基础模型、GPU 和系统的每种组合选择最合适的推理引擎。NIM 容器还提供标准的可观察性数据源,以及对在 NVIDIA GPUs 上使用 Kubernetes 的内置自动扩展支持。有关 NVIDIA NIM for LLMs 的功能和架构的更多信息,请参阅相关文档。
下载适用于任何用例的 NIM 微服务
虽然任何人都可以注册到NVIDIA API 目录以获取免费积分,通过 NVIDIA 托管的 NIM 端点访问模型,但 NVIDIA 开发者计划的成员可以免费访问最新的可下载 NVIDIA-hosted NIM 微服务,包括 Meta 的Llama 3.1 8B、Mistral AI 的 compact Mistral 7B Instruct等。
开发者计划成员最多可在两个节点或 16 个 GPUs 上使用 NVIDIA Inference Engine 微服务。当准备好在生产环境中使用 NVIDIA Inference Engine 后,组织可以免费注册 90 天的 NVIDIA AI Enterprise 许可证。 有关更多信息,请参阅 FAQ。
开始使用可下载的 NIM 微服务
在 NVIDIA API 目录中,选择一个微服务,然后选择 Build with this NIM 以下载 NVIDIA 微服务并获取容器的 API 密钥。
如果您还不是程序成员,您将有机会加入 – 只需查看 Developer Program 选项。有关更多信息,请参阅Getting Started和A Simple Guide to Deploying Generative AI with NVIDIA NIM。
如果您想通过简单部署在托管基础设施上获得 NIM 微服务的实操体验,请尝试使用 NVIDIA API 密钥的 NVIDIA Brev Launchable 快速置备 GPU,下载 Llama 3.1 NIM 微服务,并通过 Jupyter notebook 或一组端点与之交互。Hugging Face 上也提供托管 NIM 微服务。两种托管解决方案均按小时定价。
有关更多信息,请参阅以下资源:
- 借助 NVIDIA NIM 无缝部署一群 LoRA 适配器
- GitHub 库示例:
- /NVIDIA/GenerativeAIExamples
- /langchain-ai/langchain-nvidia for an LLM RAG agent with NVIDIA NIM
- /run-llama for a LlamaIndex RAG pipeline with NVIDIA NIM
- /NVIDIA/NeMo-Curator for synthetic preference data generation using Nemotron-4 340B
- /NVIDIA/workbench-example-hybrid-rag for chatting with documents using RAG and NVIDIA AI Workbench
- 采用自部署 AI 模型和 NVIDIA NIM 的 Haystack RAG 流程 (Colab notebook)
要与 NVIDIA 和 NIM 微服务社区互动,请参阅 NVIDIA NIM 开发者论坛。我们期待收到您的消息,迫不及待的想知道您会构建什么!