Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
対話型 AI アプリケーション向け音声ベース インターフェイスを提供します。
スピーチ AI は、人々とデバイス、機械、コンピューターとの会話を可能にし、日常生活を簡素化、拡張します。対話型 AI のサブセットであるこの AI の自動音声認識 (ASR) と文字起こし (TTS) 機能により、音声をテキストに変換し、文章から人間のような声を生成します。これにより、大規模言語モデル (LLM) や検索拡張生成 (RAG) を用いたバーチャル アシスタントやリアルタイム文字起こし、音声検索などの強力なアプリケーションの実現が可能になります。
スピーチ AI モデルのカスタマイズで実現されるクラス最高の精度で、さらに卓越した顧客体験にアップグレードします。
顧客が話す言語で音声ベースのアプリケーションを提供することで、顧客基盤を拡大します。
オンプレミス、クラウド、エッジ、組み込みなど、あらゆるインフラストラクチャで瞬時に拡張できる低レイテンシ、高スループットのアプリケーションで、より多くの顧客にサービスを提供します。
ブランド独自の音声で、すばやく有意義なエンゲージメントを提供することで、一歩進んだ顧客サービスを実現できます。
対話型 AI アプリケーション向けのリアルタイム スピーチ AI パイプラインの構築と展開方法をご紹介します。
自動音声認識や音声読み上げなどのスピーチ AI 技術が、現在、何百万もの会話を自動化している方法を学びましょう。
LLM と RAG アプリケーションでスピーチ / 翻訳 AI を使用して、チャットボットを強力な多言語バーチャル アシスタントおよびアバターに変換する方法を学びます。
NVIDIA® Riva の音声認識、音声読み上げ、翻訳機能を使用して、特定の言語で字幕や吹き替えを追加する方法を学びます。
最新の文字起こしアルゴリズムは、さまざまな言語で行われる会議、講義、社交的な会話を、話者を特定し、発言に対するラベル付けをしながら書き起こします。NVIDIA のスピーチ / 翻訳 AI 技術と SDK を使用すると、コールセンターでの会話やビデオ会議の正確な記録を作成したり、医師と患者との会話中の臨床ノートの作成をさまざまな言語で自動化したりできます。
多言語バーチャル アシスタントは、音声インターフェースを介してユーザーと通信し、コールセンターでの顧客の問題解決や、スマートホーム アシスタントとしてテレビ電源のオン オフ、車内インテリジェント アシスタントとして最寄りのガソリンスタンドまでの経路案内など、多種多様なタスクを支援します。LLM と RAG をベースにした超インテリジェントなバーチャル アシスタントやチャットボットを構築したり、NVIDIA Avatar Cloud Engine (ACE) を活用して NVIDIA のスピーチ / 翻訳 AI をアバター アプリケーションに統合することで、多言語でのインタラクションを実現します。
企業独自のブランドボイスがあると、発話および言語能力の面で困難を抱える方々を含むすべての顧客をサポートしつつ、顧客自身の母語を使用して関係を構築する多言語アプリケーションを作成できます。NVIDIA のスピーチ / 翻訳 AI の一部である NVIDIA Custom Voice を使用すると、わずか 30 分の録音された音声データから、数時間から数週間で、ブランドの選択したユニークで高品質な音声パーソナリティを希望の言語で簡単に作成することができます。
現代のスピーチ AI システムは、大量のデータセットで訓練されたディープ ニューラル ネットワーク (DNN) モデルを使用しています。時間の経過とともにスピーチ AI モデルの規模は非常に大きくなっており、そのようなモデルのトレーニングには、高性能な GPU で PyTorch、TensorFlow、MXNet などのディープラーニング フレームワークを使用しても、大量の計算処理に数週間かかることがあります。
NVIDIA のスピーチ / 翻訳 AI は、NVIDIA DGX™ システム上で数十万時間以上にわたり複数の公開データセットおよび独自データセットで訓練された、NVIDIA NGC™ カタログの訓練済み生産品質モデルを提供します。
図 1: 高精度の事前訓練済み多言語モデル。
図 2: エンドツーエンドの NVIDIA NeMo ワークフロー。
多くの企業は、特定の会話アプリケーションに必要な精度を多言語で実現するために、スピーチ / 翻訳 AI モデルをカスタマイズする必要があります。しかし、スピーチ AI モデルをゼロからカスタマイズするには、通常、大規模なトレーニング データセットと AI の専門知識が必要です。
開発をスピードアップし、高度なカスタマイズを可能にするにあたっては、NVIDIA NeMo™ を活用して自動音声認識 (ASR)、音声読み上げ (TTS)、そして自然言語処理 (NLP) のパイプラインを構築、カスタマイズ、展開することができます。NeMo を使用すると、既存の構築済みのスピーチ AI モジュールをカスタマイズ、拡張、構成して、新しいモデルを作成できます。NeMo で最適化されたモデルは、NVIDIA® Riva オンプレミスまたはクラウドで音声サービスとして簡単にエクスポートおよびデプロイできます。
スピーチ AI スキルについて、これまで企業は、精度を重視するか、リアルタイムのパフォーマンスを重視するかを選択しなければなりませんでした。例えば、質問をして応答を数秒待つことはありえません。また、対話型 AI アプリケーションが間違って解釈し、意味不明な発言をすることも避けなければなりません。
NVIDIA Riva を使用すると、企業は世界クラスの精度を実現しながら、数ミリ秒以内にリアルタイムでスピーチ / 翻訳 AI パイプラインを実行できます。Riva は NVIDIA NeMo での微調整が可能な最先端の訓練済みモデルを NGC 上で提供しており、世界最高水準の精度とリアルタイム パフォーマンスに向けた最適化スキルを実現します。
図 3: NVIDIA Riva のスピーチ AI スキル機能
スピーチ AI を利用したアプリケーションとパイプラインを世界中で展開するためには、複数の言語、方言、アクセントを理解する必要があります。例えば、米国に住む人と、他の国に住む人の大部分とでは、話す言語が異なります。コール センターのようなユースケースでは、顧客が複数の言語を使用して、状況を説明することがあります。次のステップは、こうした状況に対応できるスピーチ AI アプリケーションを用意することです。
開発者は、言語ごとに別々のスピーチ モデルを使用したり、複数の言語を処理できる単一のモデルを使用したりすることができます。さまざまな言語の ASR モデルに関する説明については、音声認識に関するコレクション ページで詳細をご覧ください。
企業がスピーチ AI を使用し始めた当初は、誰もが設定と使用方法が簡単なクラウド サービスを利用していました。その後、データのプライバシーに関する問題を避けるため、企業は徐々にオンプレミスのソリューションに切り替え始めました。現在では、オンデバイス ソリューションこそが データのプライバシー保護だけでなく、より迅速な推論とコスト削減にも役立つ最新の画期的な技術となっています。
NVIDIA Riva では、アプリケーションを組み込み、データ センター、クラウド環境に展開して、対話型 AI アプリケーション用にカスタマイズ可能なスピーチ AI インターフェイスを開発することができます。
NVIDIA AI フレームワークやトレーニング済みのモデル、Helm チャート、Jupyter Notebook、ドキュメントなどのリソースをパッケージ化した AI ワークフローを活用することで、開発時間を短縮して AI ソリューションの構築をスピードアップできます。
大規模な導入には NVIDIA Riva の購入が必要ですが、NVIDIA はまた、様々なコンテナー、モデル、カスタマイズ ツールを無料で提供しています。
スピーチ AI のコア概念と、音声技術を活用したアプリケーションの構築および展開方法を理解しましょう。
スピーチ AI の概要、歴史、主要コンポーネント、課題、導入事例、NVIDIA スピーチ AI SDK について学びます。
NVIDIA Riva の主な機能を理解しておけば、スピーチ AI サービスを構築する際に役立ちます。
登録してスピーチ AI に関する最新ニュースを NVIDIA から受け取る