Speech Studio とは

Speech Studio は、アプリケーションで Azure AI 音声サービスの機能を構築および統合するための UI ベースのツールのセットです。 コーディングなしのアプローチを使用して Speech Studio でプロジェクトを作成し、Speech SDKSpeech CLI、または REST API を使用して、アプリケーション内のアセットを参照します。

ヒント

Speech Studio では、サインアップやコードの記述を行わずに、音声テキスト変換とテキスト読み上げを試すことができます。

Speech Studio のシナリオ

一般的ないくつかのユース ケースについて、サンプル コードを調べ、試し、確認します。

  • キャプション: サンプル ビデオ クリップを選ぶと、リアルタイムまたはオフラインで処理されたキャプションの結果が表示されます。 キャプションを入力オーディオと同期する方法、不適切表現フィルターを適用する方法、部分的な結果を取得する方法、カスタマイズを適用する方法、多言語シナリオで音声言語を識別する方法について学習します。 詳細については、キャプションのクイックスタートを参照してください。

  • コール センター: Language と Speech のサービスを使ってコール センターの会話を分析する方法に関するデモを確認します。 通話をリアルタイムで文字起こしするか、通話をバッチ処理して、個人を識別する情報を編集し、感情などの分析情報を抽出して、コール センターのユース ケースに役立てます。 詳細については、コール センターのクイックスタートを参照してください。

Speech Studio でのこれらのシナリオのデモンストレーションについては、この紹介ビデオを参照してください。

Speech Studio の機能

Speech Studio では、次の音声サービスの機能をプロジェクト タイプとして使用できます。

  • リアルタイム音声テキスト変換: コードを使用する必要なく、オーディオ ファイルをここにドラッグして、音声テキスト変換をすばやくテストします。 Speech Studio には、音声テキスト変換がオーディオ サンプルでどのように機能するかを確認するためのデモ ツールがあります。 すべての機能を確認するには、「音声テキスト変換の概要」をご覧ください。

  • Batch 音声テキスト変換: バッチ文字起こし機能をすばやくテストして、ストレージ内で大量のオーディオを文字起こしし、非同期的に結果を受け取ります。Batch 音声テキスト変換の詳細については、「バッチ文字起こしとは」を参照してください。

  • Custom Speech: 特定のボキャブラリ セットと話し方に合わせて調整された音声認識モデルを作成します。 基本音声認識モデルとは異なり、Custom Speech モデルはパブリックにアクセスすることができないため、独自の競争上の優位性の一部になります。 サンプル オーディオのアップロードを開始して Custom Speech モデルを作成するには、「トレーニングデータセットとテストデータセットをアップロードする」をご参照ください。

  • 発音評価: スピーチの発音を評価し、話された音声の正確性と流暢性に関するフィードバックを話者に提供します。 Speech Studio には、この機能をコードなしですばやくテストするためのサンドボックスが用意されています。 機能をアプリケーションで Speech SDK と共に使用するには、「発音評価」の記事をご覧ください。

  • 音声翻訳: 短い待機時間で音声をすばやくテストし、任意の言語に翻訳します。 すべての機能を確認するには、「音声翻訳とは何か」をご覧ください。

  • 音声ギャラリー: 自然に話すアプリとサービスを構築します。 言語、音声、バリエーションの幅広いポートフォリオから選択できます。 豊富な表現力と人間のようなニューラル音声でシナリオを実現します。

  • Custom Voice: テキスト読み上げ用の独自のカスタム音声を作成します。 Speech Studio でオーディオ ファイルを指定し、対応する文字起こしを作成してから、アプリケーションでカスタム音声を使用します。 エンドポイント経由でカスタム音声を作成および使用する方法については、音声モデルの作成と使用に関するページをご覧ください。

  • Audio Content Creation: テキスト読み上げ合成のためのノーコード アプローチ。 出力オーディオをそのまま使用することも、さらにカスタマイズするための開始点として使用することもできます。 オーディオブック、ニュース配信、ビデオ ナレーション、チャット ボットなどのさまざまなシナリオ向けの非常に自然なオーディオ コンテンツをビルドできます。 詳細については、Audio Content Creation のドキュメントを参照してください。

  • Custom Keyword: カスタム キーワードは、製品を音声でアクティブにするために使用できる単語または短い語句です。 Speech Studio でカスタム キーワードを作成し、アプリケーションに Speech SDK で使用するバイナリ ファイルを生成します。

  • Custom Commands: 音声優先の対話操作を行うために最適化された、リッチな音声コマンド処理アプリを構築できます。 Custom Commands により、Speech Studio でのコーディング不要な作成エクスペリエンスと、自動ホスティング モデルが提供され、複雑さが比較的に低くなります。 この機能により、音声コマンド処理シナリオに最適なソリューションの構築に専念できるようになります。 詳細については、「Custom Commands アプリケーションを開発する」をご覧ください。 「Speech SDK を使用してクライアント アプリケーションと統合する」もご覧ください。

次の手順