概要
注
詳細については、「 テキストと画像 」タブを参照してください。
このモジュールでは、音声対応アプリケーションとエージェントの基盤として音声認識 (音声テキスト変換) を導入します。 学習者は、音声オーディオをマイクまたはオーディオ ファイルからキャプチャし、Azure Speech を使用して書き込みテキストに変換する方法について説明します。 このモジュールでは、音声テキスト変換がクライアント アプリまたはバックエンド サービスのアプリケーション内でどこに適合するかについて説明し、ライブ文字起こし、キャプション、ボイスメール処理、AI エージェントへのテキスト入力の提供などの一般的なシナリオについて説明します。
その後、このモジュールは音声合成 (テキスト読み上げ) を対象とします。これにより、アプリケーションはテキストから自然に聞こえる音声を生成できます。 学習者は、Azure Speech でニューラル音声を使用して発音、トーン、速度、ピッチを制御する方法と、合成されたオーディオをすぐに再生したり、後で使用するために保存したりする方法を確認します。 このセクションでは、テキスト読み上げによって、アプリケーションとエージェントが音声的に応答し、アクセシビリティ、ハンズフリー操作、全体的なユーザー エクスペリエンスを向上させる方法について説明します。
最後に、このモジュールは、Voice Live を使用した音声読み上げと共にこれらの機能を提供します。 学習者は、Voice Live が音声テキスト変換、AI 推論、テキスト読み上げを 1 つのフル マネージド サービスに組み合わせてリアルタイムの会話を行う方法を発見します。 開発者は、複数のコンポーネントを結合する代わりに、Voice Live を使用して、聞いたり、考え、話したりできる応答性の高い自然な音声エージェントを構築できるため、Azure Speech と Microsoft Foundry を使用して、運用環境に対応した会話エクスペリエンスを簡単に作成できます。
詳細については、以下のリンクを参照してください。
- サービス ドキュメントの Azure Speech
- Azure Speech のソフトウェア開発キット (SDK) の詳細を確認する
- Azure Speech - Voice Live の詳細については、 ドキュメントを参照してください