推論

NVIDIA Triton Inference Server

あらゆるプラットフォーム上で、任意のアプリケーションに AI をデプロイ、実行、拡張します。

概要

あらゆる AI ワークロードに対応する推論

NVIDIA Triton を使用すると、任意のプロセッサ (GPU、CPU、その他) 上で、任意のフレームワークからトレーニング済みの機械学習やディープラーニング モデルの推論を実行できます。Triton Inference Server は、AI モデルのデプロイと実行をあらゆるワークロードで標準化するオープンソース ソフトウェアです。これは NVIDIA AI プラットフォームの一部であり、NVIDIA AI Enterprise で利用できます。

LLM のデプロイ、最適化、ベンチマーク

Triton Inference Server を使用して大規模言語モデル (LLM) を効率的に提供する方法をステップバイステップで説明します。

特集

NVIDIA Triton Inference Server の機能とツールを探る

大規模言語モデルの推論

Triton は、大規模言語モデル (LLM) の推論において低遅延と高スループットを実現します。オープンソースのライブラリである TensorRT-LLM をサポートしており、本番環境での推論用 LLM の定義、最適化、実行が可能です。

モデル アンサンブル

Triton Model Ensembles を使用すると、複数のモデル、パイプライン、前処理および後処理ステップを有する AI ワークロードを実行できます。これにより、CPU または GPU 上でアンサンブルの異なる部分を実行でき、アンサンブル内の複数のフレームワークをサポートします。

NVIDIA PyTriton

PyTriton を使用すると、Python 開発者は 1 行のコードで Triton を起動し、モデル、単純な処理機能、または推論パイプライン全体を提供し、プロトタイプ作成とテストを高速化できます。

NVIDIA Triton Model Analyzer

Model Analyzer は、バッチサイズ、精度、並行実行インスタンスなど、最適なモデル デプロイ構成を見つけるのに必要な時間を短縮します。アプリケーションの遅延、スループット、メモリ要件を満たす最適な構成を選択するのに役立ちます。

利点

Triton Inference Server のメリット

あらゆるトレーニングおよび推論フレームワークをサポート

Triton Inference Server を使用すると、TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDSTM cuML、XGBoost、scikit-learn RandomForest、OpenVINO、カスタム C++ など、あらゆる主要フレームワークに AI モデルをデプロイできます。

あらゆるプラットフォームで高性能な推論

動的なバッチ処理、同時実行、最適な構成、オーディオとビデオのストリーミングにより、スループットと利用率を最大化します。Triton Inference Server は、すべての NVIDIA GPU、x86 および Arm CPU、AWS Inferentia をサポートしています。

オープンソースで DevOps と MLOps 向けに設計

Triton Inference Server を、スケーリング用の Kubernetes やモニタリング用の Prometheus などの DevOps および MLOps ソリューションに統合します。また、すべての主要なクラウドおよびオンプレミスの AI および MLOps プラットフォームで使用できます。

エンタープライズグレードのセキュリティ、管理性、API の安定性

NVIDIA Triton Inference Server を含む NVIDIA AI Enterprise は、サポート、セキュリティ、API の安定性により、価値実現までの時間を短縮するように設計された、安全で本番環境対応の AI ソフトウェア プラットフォームです。

スタート オプション

NVIDIA Triton を使い始める

適切なツールとテクノロジを使用して、あらゆるプラットフォーム上のあらゆるアプリケーションに AI をデプロイ、実行、拡張します。

開発する

Triton Inference Server のオープンソース コードにアクセスして開発を行いたいと考えている個人向け。

開発する

無料の開発用 Triton Inference Server コンテナにアクセスしたい個人向け。

体験

NVIDIA LaunchPad から、NVIDIA がホストするインフラとガイド付き実践ラボに無料でアクセスしてお試しいただけます。ステップバイステップの手順と例も含まれます。

展開する

既存のインフラストラクチャを使用して、NVIDIA AI Enterprise を本番環境で試用する 90 日間ライセンスを無料で入手できます。

ユース ケース

Triton がどのように活用されているか

業界のリーダーたちが Triton Inference Server を使用して、どのようにイノベーションを推進しているかをご覧ください。

推論サーバーの統合

Triton Inference Server を使用すると、組織はフレームワーク固有の推論サーバーを単一の統一プラットフォームに統合できます。AI フレームワークごとに個別のサーバーをデプロイおよび管理する代わりに、単一の統合サーバーとして機能し、推論サービスのコストを削減します。Triton Inference Server は、PyTorch、TensorFlow、TensorRT-LLM、VLLM、TensorRT、ONNX、OpenVINO など、主要な AI フレームワークをすべてサポートしています。

モデルデプロイの最適化

Triton Inference Server は、自動スイープを実行して、多くのモデル同時実行性およびバッチサイズの構成で遅延とスループットをテストできます。これにより、開発者は手作業を行わずに、サービスレベル契約を満たす最も効果的なセットアップを迅速に特定できます。LLM モデルの場合、Triton Inference Server はトークン生成を自動化し、最初のトークン遅延、トークン間の遅延、および秒あたりのトークン数などのデプロイメトリクスを提供します。この機能により、最も効率的な LLM 本番環境セットアップの特定とデプロイが高速化します。

マルチモデル AI パイプラインを簡単に作成

Triton Inference Server を使用すると、組織はモデル アンサンブルを簡単に構築できます。AI モデルを統合パイプラインにシームレスに接続し、単一の推論リクエストでトリガーできるローコードツールを提供します。これにより、組織は手作業によるコーディングを必要とせずに、前処理および後処理のワークフローを組み込むことができます。Triton Inference Server は、CPU 上の前処理と後処理のスケジューリングもサポートしており、ワークフロー全体を合理化します。

どこにでもデプロイ可能: オンプレミス、エッジ、または任意のクラウドに

Triton Inference Server は、Docker コンテナとして提供され、オンプレミス、クラウド、エッジデバイスでのデプロイに適しています。Amazon SageMaker、Azure ML Studio、Google Vertex AI、OCI Data Science など、すべての主要なクラウドプロバイダーの主要な MLOps AI ツールに深く統合されています。Triton Inference Server はシンプルなコマンドライン フラグで簡単に起動できるため、クラウドデプロイにかかる実装時間を最小限に抑え、エンタープライズガバナンス標準に適合させることができます。

お客様の事例

業界リーダーが Triton でどのようにモデルのデプロイを強化しているかをご覧ください

Snapchat

衣料品購買を AI で強化

Snapchat が、Triton Inference Server を使用して、衣料品の購買体験と絵文字を認識する光学文字認識を強化し、規模の拡大、コスト削減、本番環境までの時間短縮を実現した方法をご覧ください。

Docusign

NVIDIA の推論プラットフォームで契約管理を加速する

Docusign が Triton と Azure を使用して、どのように契約情報のロックを解除し、契約データをインサイトに変換し、生産性を高めているかをご覧ください。

Oracle Cloud

NVIDIA Triton、Oracle Cloud での推論を高速化

Oracle Cloud Infrastructure のコンピューター ビジョンとデータ サイエンス サービスが、NVIDIA Triton Inference Server を使用して AI 予測の速度をどのように向上させているかをご覧ください。

導入事例

全産業における主要な採用企業

関連情報

最新の NVIDIA Triton リソース

最新のニュースを入手

Triton Inference Server の最新の推論アップデートと発表についてお読みください。

技術ブログを見る

推論を始める方法に関する技術的なチュートリアルをお読みください。

さらに詳しく見る

生成 AI、LLM、レコメンダー システム、コンピューター ビジョンなどの推論用 AI モデルのデプロイ、実行、スケーリングに関するヒントやベストプラクティスを入手できます。

LLM のデプロイ、最適化、ベンチマーク

Triton Inference Server を使用して LLM を効率的に提供する方法を、手順を追って紹介します。複数のバックエンドに LLM を簡単にデプロイしてパフォーマンスを比較する方法や、最適なパフォーマンスを得るためにデプロイ構成をファインチューニングする方法について説明します。

開発から本番環境へのエンタープライズ AI 移行のユースケース

AI 推論とは何か、AI が企業の AI デプロイ戦略にどのように適合するか、エンタープライズグレードの AI ユースケースをデプロイする際の主な課題、これらの課題に対処するためにフルスタック AI 推論ソリューションが必要な理由、フルスタック プラットフォームの主要コンポーネント、最初の AI 推論ソリューションのデプロイ方法について学びます。

クラウド対応 AI 推論ソリューションのパワーを活用する

NVIDIA AI 推論プラットフォームが、どのように主要なクラウド サービス プロバイダーとシームレスに統合され、デプロイを簡略化し、LLM 搭載 AI ユースケースの立ち上げを迅速化するかをご覧ください。

クイックスタート ガイド

Triton Inference Server を初めてご利用の方で、モデルをすぐにデプロイしたいとお考えですか? このクイックスタート ガイドを活用して、Triton を使いこなす旅に踏み出しましょう。

チュートリアル

Triton を使い始めると、さまざまな疑問が生じることがあります。このリポジトリを探して、Triton の機能を理解し、移行を容易にするガイドやサンプルを見つけてください。

NVIDIA LaunchPad

ハンズオン ラボでは、NVIDIA Triton Inference Server を使用した高速でスケーラブルな AI を体験できます。NVIDIA のアクセラレーテッド コンピューティング インフラストラクチャの利点をすぐに活用して、AI ワークロードを拡張できるようになります。

Triton が推論をシンプルにする 5 つの理由

NVIDIA Triton Inference Server は、本番環境での AI モデルの大規模なデプロイを簡略化し、チームが、任意の GPU または CPU ベースのインフラストラクチャ上で、ローカルストレージまたはクラウド プラットフォームから、任意のフレームワークのトレーニング済み AI モデルをデプロイできるようにします。

HuggingFace の Stable Diffusion パイプラインを Triton でデプロイする

この動画では、HuggingFace ディフューザーライブラリで利用可能な Stable Diffusion パイプラインのデプロイを紹介します。パイプラインのデプロイと実行には Triton Inference Server を使用します。

NVIDIA Triton Inference Server の使用を開始する

Triton Inference Server は、モデルのデプロイを標準化し、本番環境での高速かつスケーラブルな AI を可能にするオープンソースの推論ソリューションです。多くの機能を搭載しているため、「どこから始めればよいのか?」という疑問が生じることになりますので、動画を見て確認してください。

Oracle Cloud

NVIDIA Triton、Oracle Cloud での推論を高速化

Oracle Cloud Infrastructure のコンピューター ビジョンとデータ サイエンス サービスが、NVIDIA Triton 推論 サーバー を使用して AI 予測の速度をどのように向上させているかをご覧ください。

ControlExpert

自動車の請求管理に革命をもたらす

ControlExpert が、どのように NVIDIA AI を活用して、顧客に 24 時間サービスを提供するエンドツーエンドの請求管理ソリューションを開発したかをご覧ください。

Wealthsimple

機械学習モデルの配信と推論の高速化

Wealthsimple が NVIDIA の AI 推論プラットフォームを使用して、モデルのデプロイ期間を数カ月からわずか 15 分に短縮した方法をご覧ください。

Triton オンライン フォーラム

NVIDIA Triton Inference Server のオンライン コミュニティでは、不明点に関する質問と回答の参照、ベスト プラクティスの学習、他の開発者との交流、バグの報告などを行えます。

NVIDIA 開発者プログラム

NVIDIA 開発者プログラムを通して、同じ志を持つ数百万人もの開発者とつながることができます。また、数百もの GPU 対応コンテナー、モデル、SDK を提供しており、NVIDIA の技術でアプリを構築するために必要なすべてのツールにアクセスすることができます。

スタートアップを加速する

NVIDIA Inception は、最先端のスタートアップ向けの無料プログラムで、市場参入支援、技術的専門知識、トレーニング、資金調達機会といった欠かせないアクセスを提供します。

次のステップ

さっそく始めませんか?

適切なツールとテクノロジーを使用して、完全にカスタマイズ可能な多言語の音声、翻訳 AI アプリケーションを構築およびデプロイします。

開発者向け

最新のドキュメント、チュートリアル、技術ブログなど、AI アプリケーション開発を始めるために必要な情報をすべてご覧ください。

お問い合わせ

試作から本番環境への移行については、NVIDIA の製品スペシャリストにご相談ください。NVIDIA AI Enterprise のセキュリティ、API 安定性、サポートを活用することができます。