Azure AI音声認識および生成テクノロジを選択する

2025-06-21

Azure AI サービスは、ワークロードの設計者と開発者が、すぐに使用でき、事前に構築済みでカスタマイズ可能な API とモデルを使用して、インテリジェントで最先端、市場に対応した責任あるアプリケーションを作成するのに役立ちます。

この記事では、音声テキスト変換やテキスト読み上げ変換、音声翻訳、話者認識など、音声認識と生成機能を提供する AI サービスについて説明します。また、学習に違いを持つ人々のための読書支援も含まれています。

注

用語や語句に関する分析情報を収集したり、話し言葉や書き言葉の詳細なコンテキスト分析を取得したりするには、「Azure AI をターゲットとした言語処理テクノロジを選択する」を参照してください。

サービス

次の AI サービスは、ワークロードの音声認識および生成機能を提供できます。

Microsoft Azure AI Speech は、テキスト分析のための自然言語処理を提供します。
- 使う音声話し言葉を書き起こしたり翻訳したり、会話の話者を特定したりする必要がある場合の音声。また、OpenAI モデルの高品質な Whisper システムと比較して、自然な音声生成のための低コストの代替手段として Speech を使用することもできます。
- 使用しないでください チャット、コンテンツの要約、モデレーション、またはスクリプトによるユーザーのガイドのための音声。代わりに他のモデルを使用してください。
Immersive Reader は、初心者の読者、言語学習者、学習障害のある人々の読解力を向上させる実証済みの手法を実装したツールです。
- Immersive Reader を使用すると、言語学習者や学習障害のある人向けにカスタマイズされた、読みやすさが向上します。
- 使用しないでください 従来のテキスト読み上げのユースケースに適したイマーシブリーダー。

スピーチ

Speech は、Speech リソースを使用して、音声テキスト変換機能とテキスト読み上げ機能を提供します。音声テキスト変換を高精度で文字起こししたり、自然に聞こえるテキスト読み上げ音声を生成したり、話し声を翻訳したり、会話中に話者認識を使用したりできます。カスタム音声を作成したり、ベースボキャブラリに特定の単語を追加したり、独自のモデルを構築したりできます。 Speech は、クラウドでも、コンテナ内のエッジでも、どこでも実行できます。

音声は、複数の言語と地域で利用できます。

機能

次の表に、Speech で使用できる機能の一覧を示します。

能力	説明
バッチ文字起こし	ストレージ内の大量のオーディオデータを文字起こしします。 speech-to-text REST API と Speech CLI の両方で、バッチ文字起こしがサポートされています。
意図認識	インテントとは、フライトの予約、天気の確認、電話の発信など、ユーザーが実行したいことです。インテント認識を使用すると、アプリケーション、ツール、およびデバイスは、オプションに基づいてユーザーが開始または実行したいことを判断できます。ユーザーの意図は、意図認識エンジンまたは会話言語理解モデルで定義します。
発音評価	音声の発音を評価し、話者に音声の正確さと流暢さに関するフィードバックを提供します。
話者認識	話者認識は、オーディオクリップで誰が話しているのかを判断するのに役立ちます。このサービスは、音声バイオメトリーを用いて、話者固有の音声特性から話者を検証・識別するものです。
音声テキスト変換	オーディオストリームをリアルタイムまたはバッチ処理でテキストに変換します。
テキスト読み上げ	アプリケーション、ツール、またはデバイスで、テキストを人間のような合成音声に変換できるようにします。
音声翻訳	オーディオストリームの複数言語の音声合成および音声テキスト変換を提供します。
ビデオ翻訳	複数の言語でビデオを自動的に翻訳および生成します。

使用事例

次の表では、音声認識を使用するいくつかの方法について説明します。

使用例	使用する機能	説明
オーディオコンテンツの作成	音声をテキストに変換	ニューラルボイスを使用して、チャットボットや音声アシスタントとの対話をより自然で魅力的なものにします。電子書籍などのデジタルテキストをオーディオブックに変換し、カーナビを強化します。
コールセンターの文字起こし	音声をテキストに変換	通話をリアルタイムで文字起こししたり、通話のバッチを処理したり、個人を特定できる情報を編集したり、センチメントなどのインサイトを抽出したりして、コールセンターのユースケースに役立てることができます。
字幕	音声をテキストに変換	キャプションを入力オーディオと同期し、不適切な表現フィルターを適用し、部分的な結果を取得し、カスタマイズを適用し、多言語シナリオで話されている言語を識別します。
言語学習	音声をテキストに変換	言語学習者に発音評価フィードバックを提供し、リモート学習会話のリアルタイム文字起こしをサポートし、ニューラル音声で教材を読み上げます。
音声アシスタント	テキスト読み上げ	アプリケーションやエクスペリエンスのための自然で人間らしい会話型インターフェースを作成します。音声アシスタント機能は、デバイスとアシスタント実装間の高速で信頼性の高い対話を提供します。

没入型リーダー

AI サービスの一部であるイマーシブリーダーは、新しい読者、言語学習者、失読症などの学習の違いを持つ人々の読解力を向上させるための実証済みの手法を実装する、包括的に設計されたツールです。イマーシブリーダークライアントライブラリを使用すると、Microsoft Word や Microsoft OneNote で使用されているのと同じテクノロジを使用して、ワークロードのユーザーに強化されたエクスペリエンスを提供できます。

機能

ワークロードでは、ユーザーが読解力の目標を達成するために、次の機能を使用できます。

コンテンツを分離して読みやすくします。
一般的な単語や用語の画像を表示します。
動詞、名詞、代名詞を強調表示することで、品詞と文法の理解を助けます。
ワークロードの UI でユーザーが選択したテキストなど、コンテンツを読み上げます。
コンテンツをリアルタイムで多くの言語に翻訳します。この方法は、新しい言語を学ぶ読者の理解を向上させるのに役立ちます。
単語を音節に分割して、読みやすさを向上させたり、新しい単語を読み上げたりします。

次の方法で共有

Azure AI音声認識および生成テクノロジを選択する

サービス

スピーチ

機能

使用事例

没入型リーダー

機能

次のステップ

関連リソース

フィードバック

その他のリソース