音声翻訳とは何か

2025-05-20

この記事では、Azure AI Speech を使用した翻訳の利点と機能について説明します。 Speech サービスは、音声ストリームのリアルタイムの多言語音声変換と音声テキスト変換をサポートします。

Speech SDK または Speech CLI を使用すると、アプリケーション、ツール、デバイスから、提供されたオーディオのソーストランスクリプションや翻訳出力にアクセスできます。音声の検出中には中間トランスクリプションと翻訳結果が返され、最終的な結果は、合成された音声に変換することができます。

音声翻訳でサポートされている言語の一覧については、「言語と音声のサポート」を参照してください。

ヒント

Speech Studio に移動して、低待機時間で音声をすばやくテストし、希望する他の言語に翻訳します。

コア機能

音声翻訳の主な機能は次のとおりです。

音声テキスト翻訳
音声間翻訳
多言語音声翻訳
複数のターゲット言語への翻訳

音声テキスト変換の翻訳

Speech サービスによって提供される標準機能は、指定したソース言語で入力オーディオストリームを取り込み、それを指定したターゲット言語でテキストとして翻訳し出力する機能です。

音声間翻訳

上記の機能の補足として、Speech サービスでは、Microsoft の事前トレーニング済み音声の大規模データベースを使用して、翻訳されたテキストを読み上げるオプションも提供され、入力音声の自然な出力が可能になります。

多言語音声翻訳

多言語音声翻訳は、入力言語を指定しない、同じセッション内での言語切り替えへの対応、英語へのライブストリーミング翻訳のサポートなど、さまざまな機能を新たに提供する新しいレベルの音声翻訳テクノロジを実装します。これらの機能により、強力な新しいレベルの音声翻訳機能を製品に実装することが可能になります。

入力言語を特定しない。多言語の音声翻訳では、さまざまな言語でオーディオを受信できます。また、想定される入力言語を指定する必要はありません。
言語の切り替え。多言語音声翻訳を使用すると、同じセッション中に複数の言語を話すことができ、それをすべて同じターゲット言語に翻訳できます。入力言語が変更された場合に、セッションを再起動したり、他のアクションを実行したりする必要はありません。
文字起こし。サービスは、指定されたターゲット言語の文字起こしトランスクリプトを出力します。ソース言語の文字起こしはまだ使用できません。

多言語音声翻訳のユースケースには、次のようなものがあります。

旅行通訳。海外旅行の場合、多言語音声翻訳では、ユーザーが任意の入力音声を現地言語との間で両方向で翻訳できるソリューションを作成できます。これにより、地元の人々とコミュニケーションを取り、周囲をよりよく理解することができます。
ビジネスミーティング。異なる言語を話す人との会議では、多言語の音声翻訳により、会議のメンバーは言語の壁がないかのように自然に互いにコミュニケーションを取ることができます。

サポートされている入力 (ソース) 言語の一覧については、音声テキスト変換言語のドキュメントを参照してください。サポートされている出力 (ターゲット) 言語の一覧については、音声翻訳言語ドキュメントの "テキスト言語への翻訳" の表を参照してください。

多言語音声翻訳の詳細については、「音声翻訳ハウツーガイド」および GitHub にある音声翻訳サンプルを参照してください。

複数のターゲット言語への翻訳

複数の言語で出力するシナリオでは、Speech サービスは入力言語を 2 つのターゲット言語に直接翻訳する機能を提供します。これにより、1 回の API 呼び出しで 2 つの出力を受信し、これらの翻訳を幅広いユーザーに共有できます。さらに多くの出力言語が必要な場合は、マルチサービスリソースを作成するか、個別の翻訳サービスを使用できます。

2 つ以上のターゲット言語への翻訳が必要な場合は、 AI Foundry リソースを作成するか、別の翻訳サービスを利用して 2 番目の言語を超える言語を使用する必要があります。マルチサービスリソースを使用して音声翻訳サービスを呼び出す場合は、翻訳の文字数に基づいて、2 番目以降の言語のそれぞれに翻訳料金が適用されることに注意してください。

適用される翻訳料金を計算するには、Azure AI Translator の価格を参照してください。

複数のターゲット言語への翻訳の価格

音声翻訳サービスはリアルタイムで動作し、中間の音声結果が中間の翻訳結果を生成するために翻訳されることに注意してください。したがって、実際の翻訳量は、入力オーディオのトークンよりも大きくなります。各ターゲット言語について、音声からテキストへの文字起こしと、テキスト翻訳に対して課金されます。

たとえば、1 時間のオーディオファイルから 3 つのターゲット言語へのテキスト翻訳が必要であるとします。最初の音声テキスト変換の最初の文字起こしに 10,000 文字が含まれている場合は、2.80 ドルが課金される可能性があります。

警告

この例の価格は説明のみを目的としています。最新の価格情報については、「Azure AI Speech の価格」と「Azure AI Translator の価格」を参照してください。

前の価格の例 $2.80 は、音声からテキストへの文字起こしとテキスト翻訳のコストを組み合わせて計算しました。計算の実行方法を次に示します。

音声翻訳の定価は 1 時間あたり 2.50 ドルで、最大 2 つのターゲット言語をカバーします。この価格は、コストを計算する方法の例として使用します。最新の価格情報については、Azure AI Speech の価格表の「Standard」>「Speech Translation」>「標準」を参照してください。
この例では、3 番目の言語翻訳のコストは 30 セントです。翻訳表示価格は、100 万文字あたり 10 ドルです。オーディオファイルには 10,000 文字が含まれるため、翻訳コストは $10 * 10,000 / 1,000,000 * 3 = $0.3 です。この式の数値 "3" は、中間トラフィックの重み付け係数を表します。これは、関係する言語によって異なる場合があります。この価格は、コストを計算する方法の例として使用します。最新の価格情報については、Azure AI 翻訳の価格表の「Standard」>「テキスト翻訳」>「標準」を参照してください。

作業の開始

最初の手順として、「音声翻訳のクイックスタート」をお試しください。音声翻訳サービスは、Speech SDK と Speech CLI を介して利用できます。

GitHub には、Speech SDK の音声テキスト変換と翻訳のサンプルがあります。これらのサンプルは、ファイルやストリームからの音声の読み取り、連続的および単発の認識と翻訳、カスタムモデルの使用など、一般的なシナリオを対象としています。

次のステップ

音声翻訳のクイックスタートを試す
Speech SDK をインストールする
Speech CLI をインストールする