2025년 Red Hat Summit에서 공개된 llm-d 커뮤니티는 오픈소스 생태계에서 생성형 AI 추론 혁신을 가속하는 중요한 진전입니다.llm-d는 vLLM과 Inference Gateway 위에 구축됐으며, Kubernetes 기반 아키텍처를 통해 대규모 추론 환경에 맞춰 vLLM의 기능을 확장합니다.
이 글에서는 llm-d 프로젝트를 지원하는 주요 NVIDIA Dynamo 구성 요소를 설명합니다.
고속 추론 데이터 전송
대규모 분산 추론은 텐서, 파이프라인, 전문가 병렬 처리와 같은 모델 병렬 기술을 사용하며, 이는 노드 간 또는 노드 내의 저지연 고처리량 통신에 의존합니다. 또한, 분리형 서비스 환경에서는 prefill과 decode 단계의 GPU 워커 간에 KV 캐시를 빠르게 전송해야 합니다.
이러한 고처리량 저지연 데이터 전송을 위해 llm-d는 NVIDIA NIXL을 사용합니다. NIXL은 NVIDIA Dynamo의 일부로, 다양한 메모리와 저장소 계층을 동일한 방식으로 빠르고 비동기적으로 연결해주는 고처리량 저지연 지점 간 통신 라이브러리입니다. 이 라이브러리는 추론 데이터를 이동하는 데 최적화돼 있으며, 다양한 메모리 및 저장소 간 비차단·불연속 데이터 전송을 지원합니다. llm-d는 분리형 서비스 구조에서 prefill과 decode 간 KV 캐시 전송을 빠르게 하기 위해 NIXL을 활용합니다.
Prefill과 Decode의 분리
기존 LLM 추론 방식은 계산이 집중되는 prefill 단계와 메모리를 많이 쓰는 decode 단계를 동일한 GPU에서 실행합니다. 이 방식은 리소스를 비효율적으로 사용하게 만들고 성능 최적화에 한계를 줍니다.
분리형 서비스는 두 단계를 다른 GPU나 노드로 분리해 각각 따로 최적화하고 하드웨어 자원을 더 효율적으로 활용할 수 있게 해줍니다.
이 방식은 prefill과 decode 노드 간 요청을 정밀하게 스케줄링해야 합니다. 오픈소스 커뮤니티에서 분리형 서비스를 빠르게 도입할 수 있도록 NVIDIA는 vLLM 프로젝트에서 prefill과 decode 요청 스케줄링 알고리즘의 설계와 구현을 지원했습니다.
앞으로도 NVIDIA는 llm-d 커뮤니티와 협력해 다양한 기여를 이어갈 예정이며, 다음 항목에서 그 내용을 자세히 소개합니다.
동적 GPU 리소스 계획
초당 요청 수(QPS) 같은 지표에 기반한 기존 오토스케일링 방식은 특히 분리형 서비스를 사용하는 최신 LLM 추론 시스템에 잘 맞지 않습니다. 이는 추론 작업의 입력 시퀀스 길이(ISL)와 출력 시퀀스 길이(OSL)가 매우 다양하게 변하기 때문입니다. ISL이 길면 prefill GPU에 부담이 커지고, OSL이 길면 decode GPU가 더 많이 소모됩니다.
ISL과 OSL이 계속 바뀌는 환경에서는 QPS 같은 단순 지표로는 리소스 수요 예측이나 GPU 부하 분산이 어렵습니다. 이 복잡성을 해결하기 위해 NVIDIA는 llm-d 커뮤니티와 협력해 Dynamo Planner 기능을 llm-d의 Variant Autoscaler 구성에 적용할 예정입니다. Dynamo Planner는 LLM 추론의 특성을 이해하고, 필요한 GPU를 적시에 지능적으로 스케일링하는 전문 엔진입니다.
KV 캐시 오프로딩
대량의 KV 캐시를 GPU 메모리에 저장하는 데 드는 높은 비용은 AI 추론 팀에게 큰 과제가 되고 있습니다. 이 문제를 해결하기 위해 NVIDIA Dynamo KV Cache Manager 기능을 llm-d의 KV 캐시 시스템에 도입할 수 있도록 커뮤니티와 협력할 예정입니다.
Dynamo KV Cache Manager는 자주 사용되지 않는 KV 캐시를 CPU 메모리, SSD, 네트워크 스토리지 같은 더 저렴한 저장소로 옮깁니다. 이 방식은 저장 비용을 크게 줄이면서도 GPU 리소스를 다른 작업에 사용할 수 있게 해줍니다. Dynamo KV Cache Manager는 NIXL을 사용해 다양한 저장소와 연동하며, llm-d에서 KV 캐시 계층화를 자연스럽게 구현할 수 있게 합니다.
NVIDIA NIM을 활용한 최적화된 AI 추론 제공
오픈소스의 민첩성과 상용 솔루션의 안정성, 보안, 지원을 함께 원하는 기업들을 위해, NVIDIA NIM은 NVIDIA와 커뮤니티의 선도적인 추론 기술을 통합합니다. 여기에는 SGLang, NVIDIA TensorRT-LLM, vLLM이 포함되며, Dynamo 구성 요소도 곧 지원될 예정입니다. NVIDIA NIM은 클라우드, 데이터센터, 워크스테이션 전반에 고성능 AI 모델 추론을 안전하고 신뢰성 있게 배포할 수 있도록 설계된 사용하기 쉬운 마이크로서비스 모음이며, Red Hat OpenShift AI에서 NVIDIA AI Enterprise 상용 라이선스를 통해 지원됩니다.
NVIDIA와 Red Hat은 NVIDIA 가속 컴퓨팅 환경에서 Red Hat OpenShift와 OpenShift AI를 지원하기 위해 오랜 기간 협력해왔습니다. AI 학습 및 추론 작업의 배포, 관리, 확장을 간소화하기 위해 NVIDIA GPU Operator, NVIDIA Network Operator, NVIDIA NIM Operator는 모두 Red Hat OpenShift에서 인증을 받았고, OpenShift AI와 호환됩니다.
Red Hat은 NVIDIA NIM을 Red Hat OpenShift AI 애플리케이션 카탈로그에 통합했습니다. Red Hat은 모든 NVIDIA 인증 시스템에서 OpenShift 및 OpenShift AI가 실행될 수 있도록 지원하며, 현재 NVIDIA와 협력해 NVIDIA GB200 NVL72 시스템에 대한 지원 검증 작업도 진행 중입니다.
오픈소스 추론 혁신을 지금 시작하세요
NVIDIA가 llm-d 프로젝트를 어떻게 지원하고 있는지 더 알고 싶다면, Red Hat Summit 2025의 기조연설을 시청해 llm-d 개요를 확인하고, Google, Neural Magic, NVIDIA, Red Hat의 전문가들이 참여한 패널 토론도 들어보세요.
오픈소스 소프트웨어는 NVIDIA의 클라우드 네이티브 기술의 기반입니다. NVIDIA는 컨테이너 런타임, Kubernetes 오퍼레이터 및 확장 기능, 모니터링 도구 등 다양한 오픈소스 프로젝트와 커뮤니티에 기여하고 있습니다.
AI 개발자와 연구자들은 GitHub에서 llm-d와 NVIDIA Dynamo 프로젝트 개발에 참여해 오픈소스 추론의 미래를 함께 만들어갈 것을 권장합니다.
관련 리소스
- GTC 세션: NVIDIA Dynamo 소개: 추론 모델을 위한 분산 추론 서비스 프레임워크 소개
- GTC 세션: NVIDIA GPU에서 추론 가속화
- GTC 세션: 엣지 장치에서 고처리량 LLM 제공(NVIDIA Jetson AGX Orin 32GB)
- NGC 컨테이너: Phind-CodeLlama-34B-v2-Instruct
- SDK: Triton 추론 서버
- SDK: Torch-TensorRT