スピーチ AI

対話型 AI アプリケーション向け音声ベースインターフェイスを提供します。

利点
ユースケース
ソリューション
最新技術
関連情報

利点
ユースケース
ソリューション
最新技術
関連情報

スピーチ AI とは

スピーチ AI は、人々とデバイス、機械、コンピューターとの会話を可能にし、日常生活を簡素化、拡張します。対話型 AI のサブセットであるこの AI の自動音声認識 (ASR) と文字起こし (TTS) 機能により、音声をテキストに変換し、文章から人間のような声を生成します。これにより、大規模言語モデル (LLM) や検索拡張生成 (RAG) を用いたバーチャルアシスタントやリアルタイム文字起こし、音声検索などの強力なアプリケーションの実現が可能になります。

スピーチ AI の利点

世界最高レベルの精度

スピーチ AI モデルのカスタマイズで実現されるクラス最高の精度で、さらに卓越した顧客体験にアップグレードします。

多言語サポート

顧客が話す言語で音声ベースのアプリケーションを提供することで、顧客基盤を拡大します。

パフォーマンスと拡張性

オンプレミス、クラウド、エッジ、組み込みなど、あらゆるインフラストラクチャで瞬時に拡張できる低レイテンシ、高スループットのアプリケーションで、より多くの顧客にサービスを提供します。

独特かつ自然な声

ブランド独自の音声で、すばやく有意義なエンゲージメントを提供することで、一歩進んだ顧客サービスを実現できます。

無料 Ebook: スピーチ AI アプリケーションの構築

対話型 AI アプリケーション向けのリアルタイムスピーチ AI パイプラインの構築と展開方法をご紹介します。

eBook をダウンロードする

GTC 2024 セッション

スピーチ AI を解明する

自動音声認識や音声読み上げなどのスピーチ AI 技術が、現在、何百万もの会話を自動化している方法を学びましょう。

オンデマンドで見る

スピーチ & 生成 AI 開発者デー

LLM と RAG アプリケーションでスピーチ / 翻訳 AI を使用して、チャットボットを強力な多言語バーチャルアシスタントおよびアバターに変換する方法を学びます。

オンデマンドで見る

スピーチ AI による多言語マルチメディアの変革

NVIDIA® Riva の音声認識、音声読み上げ、翻訳機能を使用して、特定の言語で字幕や吹き替えを追加する方法を学びます。

オンデマンドで見る

スピーチ AI の使い方

複数の話者の会話を一度に文字起こし

最新の文字起こしアルゴリズムは、さまざまな言語で行われる会議、講義、社交的な会話を、話者を特定し、発言に対するラベル付けをしながら書き起こします。NVIDIA のスピーチ / 翻訳 AI 技術と SDK を使用すると、コールセンターでの会話やビデオ会議の正確な記録を作成したり、医師と患者との会話中の臨床ノートの作成をさまざまな言語で自動化したりできます。

NVIDIA Riva: 独自のスピーチ / 翻訳 AI アプリケーションを構築

アシスタントを仮想化し、超インテリジェントに

多言語バーチャルアシスタントは、音声インターフェースを介してユーザーと通信し、コールセンターでの顧客の問題解決や、スマートホームアシスタントとしてテレビ電源のオンオフ、車内インテリジェントアシスタントとして最寄りのガソリンスタンドまでの経路案内など、多種多様なタスクを支援します。LLM と RAG をベースにした超インテリジェントなバーチャルアシスタントやチャットボットを構築したり、NVIDIA Avatar Cloud Engine (ACE) を活用して NVIDIA のスピーチ / 翻訳 AI をアバターアプリケーションに統合することで、多言語でのインタラクションを実現します。

RAG と AI チャットボットの詳細を見るインタラクティブなアバターの開発と展開ならば NVIDIA ACE

あなただけのブランドボイスを確立

企業独自のブランドボイスがあると、発話および言語能力の面で困難を抱える方々を含むすべての顧客をサポートしつつ、顧客自身の母語を使用して関係を構築する多言語アプリケーションを作成できます。NVIDIA のスピーチ / 翻訳 AI の一部である NVIDIA Custom Voice を使用すると、わずか 30 分の録音された音声データから、数時間から数週間で、ブランドの選択したユニークで高品質な音声パーソナリティを希望の言語で簡単に作成することができます。

Project Tokkio の NVIDIA Omniverse ACE 受け答えによる専門的で自然な受け答え

カスタマイズ可能なスピーチ AI インターフェスの開発

事前訓練されたモデルを使用してトレーニングを短縮

現代のスピーチ AI システムは、大量のデータセットで訓練されたディープニューラルネットワーク (DNN) モデルを使用しています。時間の経過とともにスピーチ AI モデルの規模は非常に大きくなっており、そのようなモデルのトレーニングには、高性能な GPU で PyTorch、TensorFlow、MXNet などのディープラーニングフレームワークを使用しても、大量の計算処理に数週間かかることがあります。

NVIDIA のスピーチ / 翻訳 AI は、NVIDIA DGX™ システム上で数十万時間以上にわたり複数の公開データセットおよび独自データセットで訓練された、NVIDIA NGC™ カタログの訓練済み生産品質モデルを提供します。

NVIDIA トレーニング済みモデルの詳細を見る

図 1: 高精度の事前訓練済み多言語モデル。

図 2: エンドツーエンドの NVIDIA NeMo ワークフロー。

モデルをカスタマイズしてさらに高精度に

多くの企業は、特定の会話アプリケーションに必要な精度を多言語で実現するために、スピーチ / 翻訳 AI モデルをカスタマイズする必要があります。しかし、スピーチ AI モデルをゼロからカスタマイズするには、通常、大規模なトレーニングデータセットと AI の専門知識が必要です。

開発をスピードアップし、高度なカスタマイズを可能にするにあたっては、NVIDIA NeMo™ を活用して自動音声認識 (ASR)、音声読み上げ (TTS)、そして自然言語処理 (NLP) のパイプラインを構築、カスタマイズ、展開することができます。NeMo を使用すると、既存の構築済みのスピーチ AI モジュールをカスタマイズ、拡張、構成して、新しいモデルを作成できます。NeMo で最適化されたモデルは、NVIDIA® Riva オンプレミスまたはクラウドで音声サービスとして簡単にエクスポートおよびデプロイできます。

こちらの Ebook をダウンロードして、カスタマイズ可能なスピーチ AI の開発を始めましょう

リアルタイムスキルの開発で自然なインタラクションを実現

スピーチ AI スキルについて、これまで企業は、精度を重視するか、リアルタイムのパフォーマンスを重視するかを選択しなければなりませんでした。例えば、質問をして応答を数秒待つことはありえません。また、対話型 AI アプリケーションが間違って解釈し、意味不明な発言をすることも避けなければなりません。

NVIDIA Riva を使用すると、企業は世界クラスの精度を実現しながら、数ミリ秒以内にリアルタイムでスピーチ / 翻訳 AI パイプラインを実行できます。Riva は NVIDIA NeMo での微調整が可能な最先端の訓練済みモデルを NGC 上で提供しており、世界最高水準の精度とリアルタイムパフォーマンスに向けた最適化スキルを実現します。

Riva を運用環境に導入した企業の手法を見る

図 3: NVIDIA Riva のスピーチ AI スキル機能

スピーチ AI の最新のブレイクスルーを探る

スピーチ AI が多言語に対応

スピーチ AI を利用したアプリケーションとパイプラインを世界中で展開するためには、複数の言語、方言、アクセントを理解する必要があります。例えば、米国に住む人と、他の国に住む人の大部分とでは、話す言語が異なります。コールセンターのようなユースケースでは、顧客が複数の言語を使用して、状況を説明することがあります。次のステップは、こうした状況に対応できるスピーチ AI アプリケーションを用意することです。

開発者は、言語ごとに別々のスピーチモデルを使用したり、複数の言語を処理できる単一のモデルを使用したりすることができます。さまざまな言語の ASR モデルに関する説明については、音声認識に関するコレクションページで詳細をご覧ください。

スピーチ AI をクラウドからデバイスへ

企業がスピーチ AI を使用し始めた当初は、誰もが設定と使用方法が簡単なクラウドサービスを利用していました。その後、データのプライバシーに関する問題を避けるため、企業は徐々にオンプレミスのソリューションに切り替え始めました。現在では、オンデバイスソリューションこそがデータのプライバシー保護だけでなく、より迅速な推論とコスト削減にも役立つ最新の画期的な技術となっています。

NVIDIA Riva では、アプリケーションを組み込み、データセンター、クラウド環境に展開して、対話型 AI アプリケーション用にカスタマイズ可能なスピーチ AI インターフェイスを開発することができます。