推論

NVIDIA Triton Inference Server

あらゆるプラットフォーム上で、任意のアプリケーションに AI をデプロイ、実行、拡張します。

今すぐ始める

ビデオを見る | ホワイトペーパーを読む | 開発者向け

概要
特集
利点
スタートオプション
ユースケース
お客様の事例
導入事例
関連情報
次のステップ

概要
特集
利点
スタートオプション
ユースケース
お客様の事例
導入事例
関連情報
次のステップ

今すぐ始める

概要

あらゆる AI ワークロードに対応する推論

NVIDIA Triton を使用すると、任意のプロセッサ (GPU、CPU、その他) 上で、任意のフレームワークからトレーニング済みの機械学習やディープラーニングモデルの推論を実行できます。Triton Inference Server は、AI モデルのデプロイと実行をあらゆるワークロードで標準化するオープンソースソフトウェアです。これは NVIDIA AI プラットフォームの一部であり、NVIDIA AI Enterprise で利用できます。

LLM のデプロイ、最適化、ベンチマーク

Triton Inference Server を使用して大規模言語モデル (LLM) を効率的に提供する方法をステップバイステップで説明します。

セッションを視聴する

特集

NVIDIA Triton Inference Server の機能とツールを探る

大規模言語モデルの推論

Triton は、大規模言語モデル (LLM) の推論において低遅延と高スループットを実現します。オープンソースのライブラリである TensorRT-LLM をサポートしており、本番環境での推論用 LLM の定義、最適化、実行が可能です。

モデルアンサンブル

Triton Model Ensembles を使用すると、複数のモデル、パイプライン、前処理および後処理ステップを有する AI ワークロードを実行できます。これにより、CPU または GPU 上でアンサンブルの異なる部分を実行でき、アンサンブル内の複数のフレームワークをサポートします。

NVIDIA PyTriton

PyTriton を使用すると、Python 開発者は 1 行のコードで Triton を起動し、モデル、単純な処理機能、または推論パイプライン全体を提供し、プロトタイプ作成とテストを高速化できます。

NVIDIA Triton Model Analyzer

Model Analyzer は、バッチサイズ、精度、並行実行インスタンスなど、最適なモデルデプロイ構成を見つけるのに必要な時間を短縮します。アプリケーションの遅延、スループット、メモリ要件を満たす最適な構成を選択するのに役立ちます。

利点

Triton Inference Server のメリット

あらゆるトレーニングおよび推論フレームワークをサポート

Triton Inference Server を使用すると、TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDSTM cuML、XGBoost、scikit-learn RandomForest、OpenVINO、カスタム C++ など、あらゆる主要フレームワークに AI モデルをデプロイできます。

あらゆるプラットフォームで高性能な推論

動的なバッチ処理、同時実行、最適な構成、オーディオとビデオのストリーミングにより、スループットと利用率を最大化します。Triton Inference Server は、すべての NVIDIA GPU、x86 および Arm CPU、AWS Inferentia をサポートしています。

オープンソースで DevOps と MLOps 向けに設計

Triton Inference Server を、スケーリング用の Kubernetes やモニタリング用の Prometheus などの DevOps および MLOps ソリューションに統合します。また、すべての主要なクラウドおよびオンプレミスの AI および MLOps プラットフォームで使用できます。

エンタープライズグレードのセキュリティ、管理性、API の安定性

NVIDIA Triton Inference Server を含む NVIDIA AI Enterprise は、サポート、セキュリティ、API の安定性により、価値実現までの時間を短縮するように設計された、安全で本番環境対応の AI ソフトウェアプラットフォームです。

スタートオプション

NVIDIA Triton を使い始める

適切なツールとテクノロジを使用して、あらゆるプラットフォーム上のあらゆるアプリケーションに AI をデプロイ、実行、拡張します。

開発する

Triton Inference Server のオープンソースコードにアクセスして開発を行いたいと考えている個人向け。

アクセスコード

開発する

無料の開発用 Triton Inference Server コンテナにアクセスしたい個人向け。

コンテナを取得する

体験

NVIDIA LaunchPad から、NVIDIA がホストするインフラとガイド付き実践ラボに無料でアクセスしてお試しいただけます。ステップバイステップの手順と例も含まれます。

実践ラボにアクセス

展開する

既存のインフラストラクチャを使用して、NVIDIA AI Enterprise を本番環境で試用する 90 日間ライセンスを無料で入手できます。

90 日間ライセンスをリクエストする

使い始める方法を比較する

ユースケース

Triton がどのように活用されているか

業界のリーダーたちが Triton Inference Server を使用して、どのようにイノベーションを推進しているかをご覧ください。

ユースケース 1
ユースケース 2
ユースケース 3
ユースケース 4

推論サーバーの統合

Triton Inference Server を使用すると、組織はフレームワーク固有の推論サーバーを単一の統一プラットフォームに統合できます。AI フレームワークごとに個別のサーバーをデプロイおよび管理する代わりに、単一の統合サーバーとして機能し、推論サービスのコストを削減します。Triton Inference Server は、PyTorch、TensorFlow、TensorRT-LLM、VLLM、TensorRT、ONNX、OpenVINO など、主要な AI フレームワークをすべてサポートしています。

Snapchat が Triton を使用してどのようにショッピング体験を高めているかをご覧ください

モデルデプロイの最適化

Triton Inference Server は、自動スイープを実行して、多くのモデル同時実行性およびバッチサイズの構成で遅延とスループットをテストできます。これにより、開発者は手作業を行わずに、サービスレベル契約を満たす最も効果的なセットアップを迅速に特定できます。LLM モデルの場合、Triton Inference Server はトークン生成を自動化し、最初のトークン遅延、トークン間の遅延、および秒あたりのトークン数などのデプロイメトリクスを提供します。この機能により、最も効率的な LLM 本番環境セットアップの特定とデプロイが高速化します。

Triton Model Analyzer がモデルデプロイを最適化する方法をご覧ください

生成 AI パフォーマンスアナライザーガイドを読む

マルチモデル AI パイプラインを簡単に作成

Triton Inference Server を使用すると、組織はモデルアンサンブルを簡単に構築できます。AI モデルを統合パイプラインにシームレスに接続し、単一の推論リクエストでトリガーできるローコードツールを提供します。これにより、組織は手作業によるコーディングを必要とせずに、前処理および後処理のワークフローを組み込むことができます。Triton Inference Server は、CPU 上の前処理と後処理のスケジューリングもサポートしており、ワークフロー全体を合理化します。

アンサンブルモデルによる Triton でのモデルパイプラインの提供について読む

どこにでもデプロイ可能: オンプレミス、エッジ、または任意のクラウドに

Triton Inference Server は、Docker コンテナとして提供され、オンプレミス、クラウド、エッジデバイスでのデプロイに適しています。Amazon SageMaker、Azure ML Studio、Google Vertex AI、OCI Data Science など、すべての主要なクラウドプロバイダーの主要な MLOps AI ツールに深く統合されています。Triton Inference Server はシンプルなコマンドラインフラグで簡単に起動できるため、クラウドデプロイにかかる実装時間を最小限に抑え、エンタープライズガバナンス標準に適合させることができます。

Amazon SageMaker へのデプロイ

Google Vertex AI へのデプロイ

Azure ML Studio へのデプロイ

Oracle Cloud へのデプロイ