言語識別モデルを使用して音声言語を自動的に識別する

Azure Video Indexer は、自動言語識別 (LID) をサポートしています。これは、オーディオから音声言語コンテンツが自動的に識別され、識別された主要言語で書き起こすメディア ファイルが送信されるプロセスです。

サポートされている言語で Azure Video Indexer 言語のサポート対象の一覧を参照してください。

後述する「ガイドラインと制限」セクションを確認してください。

インデックス作成時の自動言語識別の選択

API を使用して動画のインデックスを作成するとき、またはインデックスを再作成するときは、sourceLanguage パラメーターで auto detect オプションを選択します。

ポータルを使用している場合は、Azure Video Indexer ホーム ページの [アカウントのビデオ] に移動し、インデックスを再作成するビデオの名前の上にカーソルを合わせます。 右下にあるインデックスの再作成ボタンをクリックします。 [ビデオのインデックスの再作成] ダイアログで、 [ビデオのソース言語] ドロップダウン ボックスから [自動検出] を選択します。

自動検出

モデルの出力

その言語に対する信頼度が > 0.6 の場合、Azure Video Indexer では最も可能性の高い言語に従ってビデオが書き起こされます。 言語を確実に識別できない場合、音声言語は英語と想定されます。

モデルの主要言語は、分析情報の JSON で sourceLanguage 属性 (root/videos/insights 以下) として使用できます。 対応する信頼度スコアも sourceLanguageConfidence 属性以下にあります。

"insights": {
        "version": "1.0.0.0",
        "duration": "0:05:30.902",
        "sourceLanguage": "fr-FR",
        "language": "fr-FR",
        "transcript": [...],
        . . .
        "sourceLanguageConfidence": 0.8563
      },

ガイドラインと制限

  • 自動言語識別 (LID) は、次の言語をサポートしています。

    サポートされている言語で Azure Video Indexer 言語のサポート対象の一覧を参照してください。

  • Azure Video Indexer ではアラビア語 (現代標準とレバント)、ヒンディー語、および韓国語がサポートされていますが、これらの言語は LID ではサポートされていません。

  • オーディオに上のサポートされている一覧以外の言語が含まれている場合は、予期しない結果になります。

  • Azure Video Indexer で十分に高い信頼度 (>0.6) で言語が識別されない場合、フォールバック言語は英語です。

  • 現在、言語が混在したオーディオを含むファイルはサポートされていません。 オーディオに複数の言語が混在している場合は、予期しない結果になります。

  • オーディオの品質が低い場合、モデルの結果に影響する可能性があります。

  • このモデルには、オーディオに少なくとも 1 分間の音声が必要です。

  • このモデルは、(音声コマンド、歌声などではなく) 自然な会話音声を認識するように設計されています。

次のステップ