メディア文字起こし、翻訳、言語識別

[アーティクル]
03/23/2024

重要

Azure Media Services の提供終了の発表により、Azure AI Video Indexer は Azure AI Video Indexer の機能の調整を発表します。 Azure AI Video Indexer アカウントの意味を理解するには、Azure Media Service (AMS) の提供終了に関連する変更に関するページを参照してください。 AMS 提供終了の準備: VI の更新と移行に関するガイドを参照してください。

Azure AI Video Indexer の文字起こし、翻訳、言語識別は、メディアファイル内の音声の検出、文字起こし、50 を超える言語への翻訳を自動で行います。

Azure AI Video Indexer は、オーディオファイル内の音声を処理して音声テキストを抽出し、その後、それを複数の言語に翻訳します。特定の言語への翻訳を選択すると、音声テキストとキーワード、トピック、ラベル、OCR などの分析情報の両方が、指定した言語に翻訳されます。文字起こしは、そのまま使用するか、話者に音声テキストをマップして割り当てる話者の分析情報と組み合わせて使用することができます。 1 つのオーディオファイルで複数の話者を検出できます。 ID が各話者に割り当てられ、文字起こしされた音声の下に表示されます。
Azure AI Video Indexer 言語識別 (LID) は、ビデオファイル内のサポートされている主要な音声言語を自動的に認識します。詳細については、「LID の適用」を参照してください。
Azure AI Video Indexer の多言語識別 (MLID) は、オーディオファイル内の異なるセグメント内の音声言語を自動的に認識し、識別された言語で文字起こしされるように各セグメントを送信します。このプロセスの最後に、すべての音声テキストが同じファイルに結合されます。詳細については、「MLID の適用」を参照してください。結果として得られる分析情報は、ID、言語、文字起こしされたテキスト、時間、信頼度スコアを含む JSON ファイル内の分類リストとして生成されます。
複数の話者がいるメディアファイルのインデックス作成を行う場合、Azure AI Video Indexer は、ビデオ内の各話者を識別し、文字起こしされた各文を話者に紐づける話者のダイアライゼーションを実行します。話者には、Speaker #1、Speaker #2 などの一意の ID が与えられます。これは、会話中の話者の識別を可能とし、医師と患者の会話、エージェントと顧客のやり取り、裁判所手続きなど、さまざまなシナリオで役立ちます。

前提条件

透過性のためのメモの概要を確認してください

一般的な原則

この記事では、文字起こし、翻訳、言語識別と、このテクノロジを責任を持って使用するための重要な考慮事項について説明します。 AI を利用した機能の使用と実装の方法を決定する際に考慮する必要がある事項は多数あります。

この機能は、私のシナリオで適切に動作しますか? 文字起こし、翻訳、言語識別を自分のシナリオで使用する前に、実際のデータを使用してそれがどのように動作するかをテストし、必要な精度を提供できることを確認してください。
エラーを特定して対応する機能を備えているか? AI を利用した製品や機能は 100% 正確とはいえません。そのため、発生する可能性のあるエラーを特定し、対応する方法を検討します。

分析情報を表示する

Web サイトで分析情報を表示するには:

[分析情報] に移動し、[文字起こしと翻訳] までスクロールします。

insights.json 内の言語分析情報を表示するには、以下の操作を行います。

[ダウンロード] を選択し、[分析情報 (JSON)] を選択します。

insights の下の目的の要素をコピーして、オンライン JSON ビューアーにそれを貼り付けます。

"insights": {
  "version": "1.0.0.0",
  "duration": "0:01:50.486",
  "sourceLanguage": "en-US",
  "sourceLanguages": [
    "en-US"
  ],
  "language": "en-US",
  "languages": [
    "en-US"
  ],
  "transcript": [
    {
      "id": 1,
      "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
      "confidence": 0.8879,
      "speakerId": 1,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:00",
          "adjustedEnd": "0:00:05.75",
          "start": "0:00:00",
          "end": "0:00:05.75"
        }
      ]
    },
    {
      "id": 2,
      "text": "Emily Tran, with office graphics.",
      "confidence": 0.8879,
      "speakerId": 1,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:05.75",
          "adjustedEnd": "0:00:07.01",
          "start": "0:00:05.75",
          "end": "0:00:07.01"
        }
      ]
    },

API を使用して JSON ファイルをダウンロードするには、[Azure AI Video Indexer 開発者ポータル] を使用します。

文字起こし、翻訳、言語識別コンポーネント

文字起こし、翻訳、言語識別の手順では、メディアファイル内の音声が以下のように処理されます。

コンポーネント	定義
ソース言語	ユーザーが、インデックス作成のためにソースファイルをアップロードして、以下のいずれかを行います。 - ビデオのソース言語を指定します。 - ファイルの言語を識別するための単一言語自動検出 (LID) を選択します。出力は個別に保存されます。 - ファイル内の複数の言語を識別するための多言語自動検出 (MLID) を選択します。各言語の出力は個別に保存されます。
文字起こし API	オーディオファイルは、文字起こしと翻訳が行われた出力を取得するために Azure AI サービスに送信されます。言語が指定されている場合は、それに応じて処理されます。言語が指定されていない場合は、言語を識別するための LID または MLID プロセスが実行され、その後にファイルが処理されます。
出力の統合	文字起こしされたファイルと翻訳されたファイルは、同じファイルに統合されます。出力されたデータには、抽出された各文の話者 ID とその信頼度レベルが含まれます。
信頼度値	各文の推定信頼度レベルは、0 から 1 の範囲で計算されます。信頼度スコアは、結果の精度の確実性を表しています。たとえば、82% の確実性はスコア 0.82 として表されます。

ユースケースの例

Azure AI Video Indexer を使用して音声からテキストへの文字起こしと複数の言語への翻訳を生成して聴覚障碍のあるユーザーがコンテンツを利用できるようにすることでアクセシビリティを促進します。
Azure AI Video Indexer の文字起こしと翻訳機能を使用してコンテンツを複数の言語で配信することで、さまざまな地域や言語の多様な聴衆へのコンテンツ配信を改善します。
Azure AI Video Indexer の文字起こしと翻訳機能を利用し、サポートされている形式のいずれかで Azure AI Video Indexer によって生成されたクローズドキャプションを使用することで、手動のクローズドキャプションと字幕の生成を強化および改善します。
言語が不明なビデオの文字起こしを行うための言語識別 (LID) または多言語識別 (MLID) を使用して、Azure AI Video Indexer がビデオ内に現れる言語を自動的に識別し、それに応じた音声テキストを生成できるようにします。

ユースケース選択時の考慮事項と制限事項

責任を持って慎重に使用すれば、Azure AI Video Indexer は多くの業界にとって価値のあるツールとなります。他の人のプライバシーと安全性を尊重し、現地の規制、グローバルな規制を遵守するために、次のことをお勧めします。

結果の正確性を慎重に検証します。より正確なデータを促進するためには、オーディオの品質をチェックします。低品質のオーディオは検出された分析情報に影響を与える可能性があります。
プライバシーについての個人の権利を常に尊重し、合法的かつ正当な目的でのみビデオを取り込むようにします。
著名人の幼い子供や家族が映った不適切なメディア、その他のコンテンツを意図的に開示することのないようにしてください。個人的な自由に悪影響を及ぼしたり、脅威を与える可能性があります。
分析されたメディアの設計とデプロイにおいて、人権の尊重と促進にコミットします。
第三者の素材を使用する場合は、そのコンテンツに由来するコンテンツを配布する前に、必要な既存の著作権や許諾に注意してください。
不明なソースからのメディアを使用する場合は、常に法的なアドバイスを求めるようにしてください。
アップロードされた動画がセキュリティで保護され、コンテンツの整合性を維持し、不正アクセスを防止するための適切な管理が行われていることを確認するため、常に適切な法的アドバイスおよび専門家のアドバイスを求めるようにしてください。
ユーザーと個人がサービスに関する問題を報告できるフィードバックチャネルを提供します。
複数人が含まれるメディアの処理、分析、共有に関しては、当該の地域に存在する適用される法律や規制に注意してください。
人間の関与を維持してください。いかなるソリューションも、人間の監視と意思決定を置き換えるものとして使用しないでください。
使用している AI モデルについて、その潜在能力を十分に検証して確認し、その能力と限界について理解してください。
Video Indexer は話者認識を実行しないため、話者には複数のファイルに及ぶ識別子が割り当てられません。複数のファイルまたは音声テキストで個々の話者を検索することはできません。
話者識別子はランダムに割り当てられ、1 つのファイル内の異なる話者を区別するためにのみ使用できます。
クロストークと重複音声: 複数の話者が同時に話したり、割り込み合ったりすると、モデルが正確に認識を行い適切なテキストを対応する話者に割り当てることが困難になります。
話者の重複: 時には、複数の話者が類似した音声パターンやアクセントを持っていたり、類似したボキャブラリを使用する場合があり、モデルが話者を区別することが困難になります。
ノイズの多いオーディオ: 低品質オーディオ、バックグラウンドノイズ、低品質の録音は、話者を正しく識別して文字起こしするモデルの機能を妨げる可能性があります。
感情的な音声: 音声内の感情的なバリエーション (叫ぶ、泣く、極端な興奮など) は、話者を正確に記録するモデルの機能に影響を与える可能性があります。
話者の偽装またはなりすまし: 話者が意図的に他者の声を模倣または偽装しようとすると、モデルは話者を誤って識別する可能性があります。
あいまいな話者識別: 音声の一部のセグメントには、モデルが特定の話者に自信を持って紐づけるのに十分な固有の特性がない場合があります。

詳細については、「言語検出と文字起こし」内のガイドラインと制限事項を参照してください。

メディア文字起こし、翻訳、言語識別

前提条件

一般的な原則

分析情報を表示する

文字起こし、翻訳、言語識別コンポーネント

ユース ケースの例

ユース ケース選択時の考慮事項と制限事項

フィードバック

フィードバック

その他のリソース

ユースケースの例

ユースケース選択時の考慮事項と制限事項