言語識別モデルを使用して音声言語を自動的に識別する
Azure Video Indexer は、自動言語識別 (LID) をサポートしています。これは、オーディオから音声言語コンテンツが自動的に識別され、識別された主要言語で書き起こすメディア ファイルが送信されるプロセスです。
サポートされている言語で Azure Video Indexer 言語のサポート対象の一覧を参照してください。
後述する「ガイドラインと制限」セクションを確認してください。
インデックス作成時の自動言語識別の選択
API を使用して動画のインデックスを作成するとき、またはインデックスを再作成するときは、sourceLanguage
パラメーターで auto detect
オプションを選択します。
ポータルを使用している場合は、Azure Video Indexer ホーム ページの [アカウントのビデオ] に移動し、インデックスを再作成するビデオの名前の上にカーソルを合わせます。 右下にあるインデックスの再作成ボタンをクリックします。 [ビデオのインデックスの再作成] ダイアログで、 [ビデオのソース言語] ドロップダウン ボックスから [自動検出] を選択します。
モデルの出力
その言語に対する信頼度が > 0.6
の場合、Azure Video Indexer では最も可能性の高い言語に従ってビデオが書き起こされます。 言語を確実に識別できない場合、音声言語は英語と想定されます。
モデルの主要言語は、分析情報の JSON で sourceLanguage
属性 (root/videos/insights 以下) として使用できます。 対応する信頼度スコアも sourceLanguageConfidence
属性以下にあります。
"insights": {
"version": "1.0.0.0",
"duration": "0:05:30.902",
"sourceLanguage": "fr-FR",
"language": "fr-FR",
"transcript": [...],
. . .
"sourceLanguageConfidence": 0.8563
},
ガイドラインと制限
自動言語識別 (LID) は、次の言語をサポートしています。
サポートされている言語で Azure Video Indexer 言語のサポート対象の一覧を参照してください。
Azure Video Indexer ではアラビア語 (現代標準とレバント)、ヒンディー語、および韓国語がサポートされていますが、これらの言語は LID ではサポートされていません。
オーディオに上のサポートされている一覧以外の言語が含まれている場合は、予期しない結果になります。
Azure Video Indexer で十分に高い信頼度 (
>0.6
) で言語が識別されない場合、フォールバック言語は英語です。現在、言語が混在したオーディオを含むファイルはサポートされていません。 オーディオに複数の言語が混在している場合は、予期しない結果になります。
オーディオの品質が低い場合、モデルの結果に影響する可能性があります。
このモデルには、オーディオに少なくとも 1 分間の音声が必要です。
このモデルは、(音声コマンド、歌声などではなく) 自然な会話音声を認識するように設計されています。