Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
推論
あらゆるプラットフォーム上で、任意のアプリケーションに AI をデプロイ、実行、拡張します。
ビデオを見る | ホワイトペーパーを読む | 開発者向け
NVIDIA Triton を使用すると、任意のプロセッサ (GPU、CPU、その他) 上で、任意のフレームワークからトレーニング済みの機械学習やディープラーニング モデルの推論を実行できます。Triton Inference Server は、AI モデルのデプロイと実行をあらゆるワークロードで標準化するオープンソース ソフトウェアです。これは NVIDIA AI プラットフォームの一部であり、NVIDIA AI Enterprise で利用できます。
Triton Inference Server を使用して大規模言語モデル (LLM) を効率的に提供する方法をステップバイステップで説明します。
Triton は、大規模言語モデル (LLM) の推論において低遅延と高スループットを実現します。オープンソースのライブラリである TensorRT-LLM をサポートしており、本番環境での推論用 LLM の定義、最適化、実行が可能です。
Triton Model Ensembles を使用すると、複数のモデル、パイプライン、前処理および後処理ステップを有する AI ワークロードを実行できます。これにより、CPU または GPU 上でアンサンブルの異なる部分を実行でき、アンサンブル内の複数のフレームワークをサポートします。
PyTriton を使用すると、Python 開発者は 1 行のコードで Triton を起動し、モデル、単純な処理機能、または推論パイプライン全体を提供し、プロトタイプ作成とテストを高速化できます。
Model Analyzer は、バッチサイズ、精度、並行実行インスタンスなど、最適なモデル デプロイ構成を見つけるのに必要な時間を短縮します。アプリケーションの遅延、スループット、メモリ要件を満たす最適な構成を選択するのに役立ちます。
Triton Inference Server を使用すると、TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDSTM cuML、XGBoost、scikit-learn RandomForest、OpenVINO、カスタム C++ など、あらゆる主要フレームワークに AI モデルをデプロイできます。
動的なバッチ処理、同時実行、最適な構成、オーディオとビデオのストリーミングにより、スループットと利用率を最大化します。Triton Inference Server は、すべての NVIDIA GPU、x86 および Arm CPU、AWS Inferentia をサポートしています。
Triton Inference Server を、スケーリング用の Kubernetes やモニタリング用の Prometheus などの DevOps および MLOps ソリューションに統合します。また、すべての主要なクラウドおよびオンプレミスの AI および MLOps プラットフォームで使用できます。
NVIDIA Triton Inference Server を含む NVIDIA AI Enterprise は、サポート、セキュリティ、API の安定性により、価値実現までの時間を短縮するように設計された、安全で本番環境対応の AI ソフトウェア プラットフォームです。
適切なツールとテクノロジを使用して、あらゆるプラットフォーム上のあらゆるアプリケーションに AI をデプロイ、実行、拡張します。
Triton Inference Server のオープンソース コードにアクセスして開発を行いたいと考えている個人向け。
無料の開発用 Triton Inference Server コンテナにアクセスしたい個人向け。
NVIDIA LaunchPad から、NVIDIA がホストするインフラとガイド付き実践ラボに無料でアクセスしてお試しいただけます。ステップバイステップの手順と例も含まれます。
既存のインフラストラクチャを使用して、NVIDIA AI Enterprise を本番環境で試用する 90 日間ライセンスを無料で入手できます。
業界のリーダーたちが Triton Inference Server を使用して、どのようにイノベーションを推進しているかをご覧ください。
Triton Inference Server を使用すると、組織はフレームワーク固有の推論サーバーを単一の統一プラットフォームに統合できます。AI フレームワークごとに個別のサーバーをデプロイおよび管理する代わりに、単一の統合サーバーとして機能し、推論サービスのコストを削減します。Triton Inference Server は、PyTorch、TensorFlow、TensorRT-LLM、VLLM、TensorRT、ONNX、OpenVINO など、主要な AI フレームワークをすべてサポートしています。
Triton Inference Server は、自動スイープを実行して、多くのモデル同時実行性およびバッチサイズの構成で遅延とスループットをテストできます。これにより、開発者は手作業を行わずに、サービスレベル契約を満たす最も効果的なセットアップを迅速に特定できます。LLM モデルの場合、Triton Inference Server はトークン生成を自動化し、最初のトークン遅延、トークン間の遅延、および秒あたりのトークン数などのデプロイメトリクスを提供します。この機能により、最も効率的な LLM 本番環境セットアップの特定とデプロイが高速化します。
Triton Inference Server を使用すると、組織はモデル アンサンブルを簡単に構築できます。AI モデルを統合パイプラインにシームレスに接続し、単一の推論リクエストでトリガーできるローコードツールを提供します。これにより、組織は手作業によるコーディングを必要とせずに、前処理および後処理のワークフローを組み込むことができます。Triton Inference Server は、CPU 上の前処理と後処理のスケジューリングもサポートしており、ワークフロー全体を合理化します。
Triton Inference Server は、Docker コンテナとして提供され、オンプレミス、クラウド、エッジデバイスでのデプロイに適しています。Amazon SageMaker、Azure ML Studio、Google Vertex AI、OCI Data Science など、すべての主要なクラウドプロバイダーの主要な MLOps AI ツールに深く統合されています。Triton Inference Server はシンプルなコマンドライン フラグで簡単に起動できるため、クラウドデプロイにかかる実装時間を最小限に抑え、エンタープライズガバナンス標準に適合させることができます。
Snapchat が、Triton Inference Server を使用して、衣料品の購買体験と絵文字を認識する光学文字認識を強化し、規模の拡大、コスト削減、本番環境までの時間短縮を実現した方法をご覧ください。
Docusign が Triton と Azure を使用して、どのように契約情報のロックを解除し、契約データをインサイトに変換し、生産性を高めているかをご覧ください。
Oracle Cloud Infrastructure のコンピューター ビジョンとデータ サイエンス サービスが、NVIDIA Triton Inference Server を使用して AI 予測の速度をどのように向上させているかをご覧ください。
Triton Inference Server の最新の推論アップデートと発表についてお読みください。
推論を始める方法に関する技術的なチュートリアルをお読みください。
生成 AI、LLM、レコメンダー システム、コンピューター ビジョンなどの推論用 AI モデルのデプロイ、実行、スケーリングに関するヒントやベストプラクティスを入手できます。
Triton Inference Server を使用して LLM を効率的に提供する方法を、手順を追って紹介します。複数のバックエンドに LLM を簡単にデプロイしてパフォーマンスを比較する方法や、最適なパフォーマンスを得るためにデプロイ構成をファインチューニングする方法について説明します。
AI 推論とは何か、AI が企業の AI デプロイ戦略にどのように適合するか、エンタープライズグレードの AI ユースケースをデプロイする際の主な課題、これらの課題に対処するためにフルスタック AI 推論ソリューションが必要な理由、フルスタック プラットフォームの主要コンポーネント、最初の AI 推論ソリューションのデプロイ方法について学びます。
NVIDIA AI 推論プラットフォームが、どのように主要なクラウド サービス プロバイダーとシームレスに統合され、デプロイを簡略化し、LLM 搭載 AI ユースケースの立ち上げを迅速化するかをご覧ください。
Triton Inference Server を初めてご利用の方で、モデルをすぐにデプロイしたいとお考えですか? このクイックスタート ガイドを活用して、Triton を使いこなす旅に踏み出しましょう。
Triton を使い始めると、さまざまな疑問が生じることがあります。このリポジトリを探して、Triton の機能を理解し、移行を容易にするガイドやサンプルを見つけてください。
ハンズオン ラボでは、NVIDIA Triton Inference Server を使用した高速でスケーラブルな AI を体験できます。NVIDIA のアクセラレーテッド コンピューティング インフラストラクチャの利点をすぐに活用して、AI ワークロードを拡張できるようになります。
NVIDIA Triton Inference Server は、本番環境での AI モデルの大規模なデプロイを簡略化し、チームが、任意の GPU または CPU ベースのインフラストラクチャ上で、ローカルストレージまたはクラウド プラットフォームから、任意のフレームワークのトレーニング済み AI モデルをデプロイできるようにします。
この動画では、HuggingFace ディフューザーライブラリで利用可能な Stable Diffusion パイプラインのデプロイを紹介します。パイプラインのデプロイと実行には Triton Inference Server を使用します。
Triton Inference Server は、モデルのデプロイを標準化し、本番環境での高速かつスケーラブルな AI を可能にするオープンソースの推論ソリューションです。多くの機能を搭載しているため、「どこから始めればよいのか?」という疑問が生じることになりますので、動画を見て確認してください。
Oracle Cloud Infrastructure のコンピューター ビジョンとデータ サイエンス サービスが、NVIDIA Triton 推論 サーバー を使用して AI 予測の速度をどのように向上させているかをご覧ください。
ControlExpert が、どのように NVIDIA AI を活用して、顧客に 24 時間サービスを提供するエンドツーエンドの請求管理ソリューションを開発したかをご覧ください。
Wealthsimple が NVIDIA の AI 推論プラットフォームを使用して、モデルのデプロイ期間を数カ月からわずか 15 分に短縮した方法をご覧ください。
NVIDIA Triton Inference Server のオンライン コミュニティでは、不明点に関する質問と回答の参照、ベスト プラクティスの学習、他の開発者との交流、バグの報告などを行えます。
NVIDIA 開発者プログラムを通して、同じ志を持つ数百万人もの開発者とつながることができます。また、数百もの GPU 対応コンテナー、モデル、SDK を提供しており、NVIDIA の技術でアプリを構築するために必要なすべてのツールにアクセスすることができます。
NVIDIA Inception は、最先端のスタートアップ向けの無料プログラムで、市場参入支援、技術的専門知識、トレーニング、資金調達機会といった欠かせないアクセスを提供します。
適切なツールとテクノロジーを使用して、完全にカスタマイズ可能な多言語の音声、翻訳 AI アプリケーションを構築およびデプロイします。
最新のドキュメント、チュートリアル、技術ブログなど、AI アプリケーション開発を始めるために必要な情報をすべてご覧ください。
試作から本番環境への移行については、NVIDIA の製品スペシャリストにご相談ください。NVIDIA AI Enterprise のセキュリティ、API 安定性、サポートを活用することができます。