次の方法で共有


ビデオ翻訳とは

ビデオ翻訳は、複数の言語でビデオをシームレスに翻訳および生成できる Azure AI 音声の機能です。 この機能は、世界中の多様な視聴者に対応するためにビデオ コンテンツをローカライズするのに役立ちます。 Vlog、教育、ニュース、エンタープライズ トレーニング、広告、映画、テレビ番組など、さまざまなユース ケースでイマーシブでローカライズされたビデオを効率的に作成できます。

ビデオの元の言語を別の言語で録音された音声に置き換えるプロセスは、多様な視聴者に対応するために不可欠です。 この方法は、通常、人間による録音と手動のポストプロダクションによって実現され、視聴者は自分の母国語でビデオコンテンツを楽しむことができます。 ただし、次の重要な問題点があります。

  • コストが高い: 従来のビデオ翻訳方法では、多くの場合、高価な人間の声優と広範なポストプロダクション作業が必要になり、コンテンツ作成者にとってはコストのかかる作業になります。
  • 時間がかかる: 翻訳された音声を手動で録音および編集するプロセスには、かなりの時間がかかり、ローカライズされたコンテンツのリリースが遅れる可能性があります。
  • 品質に一貫性がない: 人間の声優が、元の話者の声を正確に再現するとは限らないため、視聴者のイマーシブ エクスペリエンスが低下する可能性があります。

Azure AI Speech のビデオ翻訳を使用すると、これらの課題に効果的に対処できます。 この機能により翻訳プロセスが自動化され、コストと生産時間が大幅に削減され、高品質の結果が得られます。 元の話者の声を正確に複製することで、世界中の視聴者にシームレスでイマーシブな視聴エクスペリエンスが提供されます。

  • コスト効率: 高価な人間の声優と手動のポストプロダクション作業の必要性を減らします。
  • 時間効率: ローカライズされたビデオを生成するために必要な時間を大幅に短縮します。
  • 高品質: 元のスピーカーの音声を正確に複製し、シームレスでイマーシブな視聴エクスペリエンスを実現します。
  • スケーラブル: 大量のローカライズされたコンテンツを迅速かつ効率的に生成できます。

利用事例

Azure AI 音声で提供されるビデオ翻訳には、さまざまな業界やコンテンツの種類にわたる幅広いユース ケースがあります。 主な用途を次に示します。

  • ニュース + インタビュー: ニュース組織は、世界中の視聴者に正確でタイムリーな情報を提供するために、ニュース セグメントやインタビューを翻訳し、吹き替えを行うことができます。

  • 広告 + マーケティング: 企業は、広告やマーケティング ビデオをローカライズして、さまざまな市場のターゲット層と共感し、ブランド認識と顧客エンゲージメントを高めることができます。

  • 教育 +学習:教育機関やeラーニングプラットフォームは、教育ビデオや講義を異なる言語に吹き替えることができるため、学習がよりアクセシビリティが高く、包括的になります。

  • 映画 + テレビ番組: 映画スタジオや制作会社は、映画やテレビ番組を世界中に配信するために吹き替え、より多くの視聴者にリーチし、収益の可能性を最大化することができます。

  • Vlog + ショート ビデオ: コンテンツ所有者は、Vlog やショート ビデオを簡単に翻訳して吹き替えし、世界中の視聴者にリーチし、視聴者数とエンゲージメントを拡大できます。

  • エンタープライズ トレーニング: 企業は、さまざまな地域の従業員向けにトレーニング ビデオをローカライズし、従業員間で一貫した効果的なコミュニケーションを確保できます。

コア機能

  • ダイアログ オーディオ抽出と音声コンテンツの文字起こし。

    ソース ビデオからダイアログ オーディオを自動的に抽出し、音声コンテンツを文字起こしします。

  • 言語 A から B への翻訳と大規模言語モデル (LLM) の再変換。

    高度な言語処理手法を使用して、文字起こしされたコンテンツを元の言語 (言語 A) からターゲット言語 (言語 B) に変換します。 LLM の再調整を通じて、翻訳の品質を向上させ、翻訳済みテキストを性別を考慮して改善します。

  • 自動翻訳 – 他の言語での音声生成。

    AI を利用したテキスト読み上げテクノロジを利用して、ターゲット言語で人間のような音声を自動的に生成します。 これらの音声はビデオと正確に同期され、完璧な翻訳体験を保証します。 これには、高品質の出力に標準音声を利用したり、個人用音声のオプションを提供したりできます。

  • コンテンツ編集に人間が関与する。

    翻訳されたコンテンツをレビューおよび編集する人間の介入を可能にし、吹き替えされたビデオを完成させる前に正確性と文化的な適切性を確保します。

  • 字幕の生成。

    翻訳されたダイアログ、同期された字幕、生成された音声を含む完全に吹き替えされたビデオを配信し、さまざまなプラットフォームでダウンロードして配布できます。 また、最適な表示のために、各画面で字幕の長さを設定することもできます。

しくみ

次の図は、ワークフローの概要を示しています。

ビデオ翻訳 API ワークフローの図。

  1. 変換するビデオ ファイルを Azure Blob Storage にアップロードします。
  2. 翻訳を作成するには、ビデオ ファイルの URL を指定します。 ソース言語とターゲット言語、音声の種類、字幕をビデオに書き込むかどうかなど、他のパラメーターを含めます。

    メモ

    翻訳を作成しても、翻訳プロセスは開始されません。

  3. イテレーションを作成することで、ビデオの翻訳を開始できます。 イテレーションは、翻訳プロセスの特定のインスタンスです。 同じ翻訳に対して複数のイテレーションを作成できるため、さまざまな設定やパラメーターを試すことができます。
  4. 最初のイテレーションの後、後続のイテレーションでサブタイトル ファイルを使用できます。 独自のサブタイトル ファイルをアップロードするか、自動生成されたサブタイトル ファイルに変更を加えて、変更したサブタイトル ファイルをアップロードします。
  5. 翻訳とイテレーションの状態を定期的に取得します。 状態は、翻訳が進行中か、完了したか、失敗したかを示します。
  6. 翻訳が完了したら、翻訳されたビデオと字幕をダウンロードできます。 翻訳されたビデオでは、元の音声が翻訳された音声に置き換えられ、字幕は翻訳された音声と同期されます。
  7. 必要がなくなった場合は、翻訳とイテレーションを削除することもできます。 翻訳を削除すると、関連するすべてのイテレーションとデータが削除されます。

サポートされているリージョンと言語

現在、Azure AI 音声でのビデオ翻訳は、米国東部リージョンでのみサポートされています。

さまざまな言語間でのビデオ翻訳がサポートされており、特定の言語の優先順位に合わせてコンテンツを調整できます。 ビデオ翻訳でサポートされている言語については、「サポートされているソースおよびターゲットの言語」を参照してください。

価格設定

ビデオ翻訳の価格の詳細については、「Speech サービスの価格」を参照してください。 ビデオ翻訳の価格は、この機能が利用可能な サービス リージョン でのみ表示されます。