MLRun项目中的服务图高可用配置指南

惠淼铖

于 2025-06-29 09:12:26 发布

阅读量270

点赞数 5

CC 4.0 BY-SA版权

在MLRun项目中，服务图(Serving Graph)是实现机器学习服务化部署的核心组件。本文将深入讲解如何配置服务图的高可用性参数，确保您的机器学习服务能够稳定可靠地运行。

MLRun的服务图基于Nuclio函数构建，支持远程调用功能。一个典型的服务图处理流程如下图所示：

服务图处理流程

Nuclio支持多种触发器类型，当与Kafka、V3IO等流触发器配合使用时：

Window ACK大小的设置需要考虑：

消费者函数是带有流触发器的Nuclio函数，关键配置参数包括：

副本数量配置

StreamSource：副本数由分片数决定，不可配置
KafkaSource：
- Nuclio 1.12.10之前：固定为1
- Nuclio 1.12.10及之后：可通过function.spec.min_replicas和function.spec.max_replicas配置

工作线程配置

缓冲区配置

当远程函数调用出现以下情况时会触发重试：

调用方配置参数

配置示例：

RemoteStep(name="remote_scale", 
           max_in_flight=2, 
           timeout=100, 
           retries=10)

远程函数配置参数

配置示例：

my_serving_func.with_http(gateway_timeout=125, 
                         worker_timeout=60)

高可用参数配置图示

超时设置
- timeout：应设置在<Pt+ε>到<Pt+worker_timeout>之间
- gateway_timeout：建议设置为Pt+1秒
- worker_timeout：取Pt/10和60秒中的较大值
并发控制
- 处理时间较长时，应降低max_in_flight值
- 避免过多重试导致系统过载
ACK窗口大小计算
- 单工作线程：buffer_size + max_in_flight
- 多工作线程：(#workers × buffer_size) + max_in_flight

配置ACK窗口大小时，必须考虑服务图的整体结构：

顺序调用（如：消费者→远程r1→远程r2）：
- 窗口大小=消费者buffer_size + r1的max_in_flight + r2的max_in_flight
并行调用（如：同时调用远程r1和r2）：
- 窗口大小=消费者buffer_size + max(r1的max_in_flight, r2的max_in_flight)