言語識別モデルを使用して音声言語を自動的に識別する

重要

Azure Media Services の 提供終了の発表により、Azure AI Video Indexer は Azure AI Video Indexer の 機能の調整を発表します。 Azure AI Video Indexer アカウントの意味を理解するには、Azure Media Service (AMS) の提供終了に関連する変更に関するページを参照してください。 AMS 提供 終了の準備: VI の更新と移行に関するガイドを参照してください。

Azure AI Video Indexer は、自動言語識別 (LID) をサポートしています。これは、オーディオ コンテンツから音声言語が自動的に識別されるプロセスです。 メディア ファイルは、識別された主要言語で書き起こされます。

サポート対象言語に関するページで、Azure AI Video Indexer のサポート対象言語の一覧を参照してください。

ガイドラインと制限」セクションを確認してください。

インデックス作成時の自動言語識別の選択

API を使用してビデオのインデックスを作成するとき、またはインデックスを再作成するときは、sourceLanguage パラメーターで auto detect オプションを選択します。

ポータルを使用している場合は、Azure AI Video Indexer ホーム ページの [アカウントのビデオ] に移動し、インデックスを再作成するビデオの名前の上にカーソルを合わせます。 右下にある [インデックスの再作成] ボタンを選択します。 [ビデオのインデックスの再作成] ダイアログで、[ビデオのソース言語] ドロップダウン ボックスから [自動検出] を選択します。

自動検出を選択する場所を示すスクリーンショット。

モデルの出力

その言語に対する信頼度が > 0.6 の場合、Azure AI Video Indexer では最も可能性の高い言語に従ってビデオが書き起こされます。 言語を確実に識別できない場合、音声言語は英語と想定されます。

モデルの主要言語は、分析情報の JSON で sourceLanguage 属性 (root/videos/insights 以下) として使用できます。 対応する信頼度スコアも sourceLanguageConfidence 属性以下にあります。

"insights": {
        "version": "1.0.0.0",
        "duration": "0:05:30.902",
        "sourceLanguage": "fr-FR",
        "language": "fr-FR",
        "transcript": [...],
        . . .
        "sourceLanguageConfidence": 0.8563
      }

ガイドラインと制限

自動言語識別 (LID) は、次の言語をサポートしています。

サポート対象言語に関するページで、Azure AI Video Indexer のサポート対象言語の一覧を参照してください。

  • オーディオにサポート対象の一覧以外の言語が含まれている場合は、予期しない結果になります。
  • Azure AI Video Indexer で十分に高い信頼度 (0.6 超) で言語が識別されない場合、フォールバック言語は英語です。
  • 現在、言語が混在したオーディオを含むファイルはサポートされていません。 オーディオに複数の言語が混在している場合は、予期しない結果になります。
  • オーディオの品質が低い場合、モデルの結果に影響する可能性があります。
  • このモデルには、オーディオに少なくとも 1 分間の音声が必要です。
  • このモデルは、(音声コマンド、歌声などではなく) 自然な会話音声を認識するように設計されています。