スピーチ AI

対話型 AI アプリケーション向け音声ベース インターフェイスを提供します。

スピーチ AI とは

スピーチ AI は、人々とデバイス、機械、コンピューターとの会話を可能にし、日常生活を簡素化、拡張します。対話型 AI のサブセットであるこの AI の自動音声認識 (ASR) と文字起こし (TTS) 機能により、音声をテキストに変換し、文章から人間のような声を生成します。これにより、大規模言語モデル (LLM)検索拡張生成 (RAG) を用いたバーチャル アシスタントやリアルタイム文字起こし、音声検索などの強力なアプリケーションの実現が可能になります。

スピーチ AI の利点

世界最高レベルの精度

スピーチ AI モデルのカスタマイズで実現されるクラス最高の精度で、さらに卓越した顧客体験にアップグレードします。

多言語サポート

顧客が話す言語で音声ベースのアプリケーションを提供することで、顧客基盤を拡大します。

パフォーマンスと拡張性

オンプレミス、クラウド、エッジ、組み込みなど、あらゆるインフラストラクチャで瞬時に拡張できる低レイテンシ、高スループットのアプリケーションで、より多くの顧客にサービスを提供します。

独特かつ自然な声

ブランド独自の音声で、すばやく有意義なエンゲージメントを提供することで、一歩進んだ顧客サービスを実現できます。

無料 Ebook: スピーチ AI アプリケーションの構築

対話型 AI アプリケーション向けのリアルタイム スピーチ AI パイプラインの構築と展開方法をご紹介します。

GTC 2024 セッション

スピーチ AI を解明する

自動音声認識や音声読み上げなどのスピーチ AI 技術が、現在、何百万もの会話を自動化している方法を学びましょう。

スピーチ & 生成 AI 開発者デー

LLM と RAG アプリケーションでスピーチ / 翻訳 AI を使用して、チャットボットを強力な多言語バーチャル アシスタントおよびアバターに変換する方法を学びます。

スピーチ AI による多言語マルチメディアの変革

NVIDIA® Riva の音声認識、音声読み上げ、翻訳機能を使用して、特定の言語で字幕や吹き替えを追加する方法を学びます。

スピーチ AI の使い方

Multi-Speaker Transcription

複数の話者の会話を一度に文字起こし

最新の文字起こしアルゴリズムは、さまざまな言語で行われる会議、講義、社交的な会話を、話者を特定し、発言に対するラベル付けをしながら書き起こします。NVIDIA のスピーチ / 翻訳 AI 技術と SDK を使用すると、コールセンターでの会話やビデオ会議の正確な記録を作成したり、医師と患者との会話中の臨床ノートの作成をさまざまな言語で自動化したりできます。

Virtual Assistant Applications

アシスタントを仮想化し、超インテリジェントに

多言語バーチャル アシスタントは、音声インターフェースを介してユーザーと通信し、コールセンターでの顧客の問題解決や、スマートホーム アシスタントとしてテレビ電源のオン オフ、車内インテリジェント アシスタントとして最寄りのガソリンスタンドまでの経路案内など、多種多様なタスクを支援します。LLM と RAG をベースにした超インテリジェントなバーチャル アシスタントやチャットボットを構築したり、NVIDIA Avatar Cloud Engine (ACE) を活用して NVIDIA のスピーチ / 翻訳 AI をアバター アプリケーションに統合することで、多言語でのインタラクションを実現します。

NVIDIA Custom Voice

あなただけのブランド ボイスを確立

企業独自のブランドボイスがあると、発話および言語能力の面で困難を抱える方々を含むすべての顧客をサポートしつつ、顧客自身の母語を使用して関係を構築する多言語アプリケーションを作成できます。NVIDIA のスピーチ / 翻訳 AI の一部である NVIDIA Custom Voice を使用すると、わずか 30 分の録音された音声データから、数時間から数週間で、ブランドの選択したユニークで高品質な音声パーソナリティを希望の言語で簡単に作成することができます。

カスタマイズ可能なスピーチ AI インターフェスの開発

事前訓練されたモデルを使用してトレーニングを短縮

現代のスピーチ AI システムは、大量のデータセットで訓練されたディープ ニューラル ネットワーク (DNN) モデルを使用しています。時間の経過とともにスピーチ AI モデルの規模は非常に大きくなっており、そのようなモデルのトレーニングには、高性能な GPU で PyTorch、TensorFlow、MXNet などのディープラーニング フレームワークを使用しても、大量の計算処理に数週間かかることがあります。

NVIDIA のスピーチ / 翻訳 AI は、NVIDIA DGX™ システム上で数十万時間以上にわたり複数の公開データセットおよび独自データセットで訓練された、NVIDIA NGC™ カタログの訓練済み生産品質モデルを提供します。

図 1: 高精度の事前訓練済み多言語モデル。

図 2: エンドツーエンドの NVIDIA NeMo ワークフロー。

モデルをカスタマイズしてさらに高精度に

多くの企業は、特定の会話アプリケーションに必要な精度を多言語で実現するために、スピーチ / 翻訳 AI モデルをカスタマイズする必要があります。しかし、スピーチ AI モデルをゼロからカスタマイズするには、通常、大規模なトレーニング データセットと AI の専門知識が必要です。

開発をスピードアップし、高度なカスタマイズを可能にするにあたっては、NVIDIA NeMo™ を活用して自動音声認識 (ASR)、音声読み上げ (TTS)、そして自然言語処理 (NLP) のパイプラインを構築、カスタマイズ、展開することができます。NeMo を使用すると、既存の構築済みのスピーチ AI モジュールをカスタマイズ、拡張、構成して、新しいモデルを作成できます。NeMo で最適化されたモデルは、NVIDIA® Riva オンプレミスまたはクラウドで音声サービスとして簡単にエクスポートおよびデプロイできます。

リアルタイム スキルの開発で自然なインタラクションを実現

スピーチ AI スキルについて、これまで企業は、精度を重視するか、リアルタイムのパフォーマンスを重視するかを選択しなければなりませんでした。例えば、質問をして応答を数秒待つことはありえません。また、対話型 AI アプリケーションが間違って解釈し、意味不明な発言をすることも避けなければなりません。

NVIDIA Riva を使用すると、企業は世界クラスの精度を実現しながら、数ミリ秒以内にリアルタイムでスピーチ / 翻訳 AI パイプラインを実行できます。Riva は NVIDIA NeMo での微調整が可能な最先端の訓練済みモデルを NGC 上で提供しており、世界最高水準の精度とリアルタイム パフォーマンスに向けた最適化スキルを実現します。

図 3: NVIDIA Riva のスピーチ AI スキル機能

スピーチ AI の最新のブレイクスルーを探る

スピーチ AI が多言語に対応

スピーチ AI を利用したアプリケーションとパイプラインを世界中で展開するためには、複数の言語、方言、アクセントを理解する必要があります。例えば、米国に住む人と、他の国に住む人の大部分とでは、話す言語が異なります。コール センターのようなユースケースでは、顧客が複数の言語を使用して、状況を説明することがあります。次のステップは、こうした状況に対応できるスピーチ AI アプリケーションを用意することです。

開発者は、言語ごとに別々のスピーチ モデルを使用したり、複数の言語を処理できる単一のモデルを使用したりすることができます。さまざまな言語の ASR モデルに関する説明については、音声認識に関するコレクション ページで詳細をご覧ください。

スピーチ AI をクラウドからデバイスへ

企業がスピーチ AI を使用し始めた当初は、誰もが設定と使用方法が簡単なクラウド サービスを利用していました。その後、データのプライバシーに関する問題を避けるため、企業は徐々にオンプレミスのソリューションに切り替え始めました。現在では、オンデバイス ソリューションこそが データのプライバシー保護だけでなく、より迅速な推論とコスト削減にも役立つ最新の画期的な技術となっています。

NVIDIA Riva では、アプリケーションを組み込み、データ センター、クラウド環境に展開して、対話型 AI アプリケーション用にカスタマイズ可能なスピーチ AI インターフェイスを開発することができます。

スピーチ AI を使い始める

スピーチ AI ワークフローを始める

NVIDIA AI フレームワークやトレーニング済みのモデル、Helm チャート、Jupyter Notebook、ドキュメントなどのリソースをパッケージ化した AI ワークフローを活用することで、開発時間を短縮して AI ソリューションの構築をスピードアップできます。

コンテナーとモデルで開発を開始する

大規模な導入には NVIDIA Riva の購入が必要ですが、NVIDIA はまた、様々なコンテナー、モデル、カスタマイズ ツールを無料で提供しています。

教育資料にアクセス

スピーチ AI 入門

スピーチ AI のコア概念と、音声技術を活用したアプリケーションの構築および展開方法を理解しましょう。

スピーチ AI を解明する

自動音声認識や音声読み上げなどのスピーチ AI 技術が、現在、何百万もの会話を自動化している方法を学びましょう。

スピーチ AI に関するブログを読む

スピーチ AI の概要、歴史、主要コンポーネント、課題、導入事例、NVIDIA スピーチ AI SDK について学びます。

NVIDIA Riva の見る

NVIDIA Riva の主な機能を理解しておけば、スピーチ AI サービスを構築する際に役立ちます。

登録してスピーチ AI に関する最新ニュースを NVIDIA から受け取る