複数言語のコンテンツを自動的に識別および文字起こしする

Azure Video Indexer では、複数言語のコンテンツ内の自動的な言語識別と文字起こしがサポートされています。 このプロセスでは、音声から異なるセグメントにある音声言語を自動的に識別し、メディア ファイルの各セグメントを送信して文字起こしし、文字起こしを結合して元の 1 つの統合された文字起こしを作成する必要があります。

ポータルを使用してインデックス作成時に多言語識別を選択

ビデオをアップロードしてインデックスを作成するときに、複数言語の検出を選択することができます。 あるいは、ビデオのインデックスを再作成するときに、複数言語の検出を選択することもできます。 次の手順では、インデックスを再作成する方法について説明します。

  1. Azure Video Indexer の Web サイトに移動してサインインします。

  2. [ライブラリ] ページに移動し、インデックスを再作成するビデオの名前にカーソルを合わせます。

  3. 右下隅にある [ビデオのインデックスの再作成] ボタンをクリックします。

  4. [ビデオのインデックスの再作成] ダイアログで、 [ビデオのソース言語] ドロップダウン ボックスから [複数言語の検出] を選択します。

    • ビデオが複数言語としてインデックス付けされると、分析情報ページにそのオプションが含められ、追加の種類の分析情報が表示されます。これにより、ユーザーはどのセグメントが、どの言語の "音声言語" で文字起こしされているかを確認することができます。
    • すべての言語への翻訳は、複数言語のトランスクリプトから完全に利用できます。
    • その他の分析情報はすべて、検出されたマスター言語で表示されます。これは、オーディオに最も多く登場した言語です。
    • プレーヤー上のクローズド キャプションも、複数言語で利用できます。

ポータルでの操作

API を使用してインデックス作成時に多言語識別を選択

API を使用してビデオのインデックスを作成するとき、またはインデックスを再作成するときは、sourceLanguage パラメーターで multi-language detection オプションを選択します。

モデルの出力

このモデルでは、ビデオ内で検出されたすべての言語が 1 つのリストに取得されます。

"sourceLanguage": null,
"sourceLanguages": [
    "es-ES",
    "en-US"
],

また、文字起こしセクションの各インスタンスには、それを文字起こしした言語が含まれます。

{
  "id": 136,
  "text": "I remember well when my youth Minister took me to hear Doctor King I was a teenager.",
  "confidence": 0.9343,
  "speakerId": 1,
  "language": "en-US",
  "instances": [
    {
       "adjustedStart": "0:21:10.42",
       "adjustedEnd": "0:21:17.48",
       "start": "0:21:10.42",
       "end": "0:21:17.48"
    }
  ]
},

ガイドラインと制限

  • 一連のサポートされている言語: 英語、フランス語、ドイツ語、スペイン語。
  • サポートされている言語が最大で 3 つ含まれる複数言語コンテンツをサポート。
  • オーディオに上のサポートされている一覧以外の言語が含まれている場合は、予期しない結果になります。
  • 言語ごとに検出する最小セグメント長 – 15 秒。
  • 言語検出オフセットは平均で 3 秒です。
  • 音声は継続的であることが期待されます。 言語を頻繁に切り替えると、モデルのパフォーマンスに影響する可能性があります。
  • ネイティブでない話者の音声は、モデルのパフォーマンスに影響を与える可能性があります (たとえば、母国語を使用している話者が、別の言語に切り替える場合など)。
  • このモデルは、適切なオーディオ音響を使用して、(音声コマンド、歌声などではなく) 自然な会話音声を認識するように設計されています。
  • プロジェクトの作成と編集は現在、複数言語ビデオでは利用できません。
  • 複数言語の検出を使用する場合、カスタム言語モデルは使用できません。
  • キーワードの追加はサポートされていません。
  • クローズ ドキャプション ファイルをエクスポートするときに、言語表示は示されません。
  • トランスクリプトの更新 API は、複数の言語ファイルをサポートしていません。

次のステップ

Azure Video Indexer の概要