言語識別モデルを使用して音声言語を自動的に識別する
重要
Azure Media Services の 提供終了の発表により、Azure AI Video Indexer は Azure AI Video Indexer の 機能の調整を発表します。 Azure AI Video Indexer アカウントの意味を理解するには、Azure Media Service (AMS) の提供終了に関連する変更に関するページを参照してください。 AMS 提供 終了の準備: VI の更新と移行に関するガイドを参照してください。
Azure AI Video Indexer は、自動言語識別 (LID) をサポートしています。これは、オーディオ コンテンツから音声言語が自動的に識別されるプロセスです。 メディア ファイルは、識別された主要言語で書き起こされます。
サポート対象言語に関するページで、Azure AI Video Indexer のサポート対象言語の一覧を参照してください。
「ガイドラインと制限」セクションを確認してください。
インデックス作成時の自動言語識別の選択
API を使用してビデオのインデックスを作成するとき、またはインデックスを再作成するときは、sourceLanguage
パラメーターで auto detect
オプションを選択します。
ポータルを使用している場合は、Azure AI Video Indexer ホーム ページの [アカウントのビデオ] に移動し、インデックスを再作成するビデオの名前の上にカーソルを合わせます。 右下にある [インデックスの再作成] ボタンを選択します。 [ビデオのインデックスの再作成] ダイアログで、[ビデオのソース言語] ドロップダウン ボックスから [自動検出] を選択します。
モデルの出力
その言語に対する信頼度が > 0.6
の場合、Azure AI Video Indexer では最も可能性の高い言語に従ってビデオが書き起こされます。 言語を確実に識別できない場合、音声言語は英語と想定されます。
モデルの主要言語は、分析情報の JSON で sourceLanguage
属性 (root/videos/insights 以下) として使用できます。 対応する信頼度スコアも sourceLanguageConfidence
属性以下にあります。
"insights": {
"version": "1.0.0.0",
"duration": "0:05:30.902",
"sourceLanguage": "fr-FR",
"language": "fr-FR",
"transcript": [...],
. . .
"sourceLanguageConfidence": 0.8563
}
ガイドラインと制限
自動言語識別 (LID) は、次の言語をサポートしています。
サポート対象言語に関するページで、Azure AI Video Indexer のサポート対象言語の一覧を参照してください。
- オーディオにサポート対象の一覧以外の言語が含まれている場合は、予期しない結果になります。
- Azure AI Video Indexer で十分に高い信頼度 (0.6 超) で言語が識別されない場合、フォールバック言語は英語です。
- 現在、言語が混在したオーディオを含むファイルはサポートされていません。 オーディオに複数の言語が混在している場合は、予期しない結果になります。
- オーディオの品質が低い場合、モデルの結果に影響する可能性があります。
- このモデルには、オーディオに少なくとも 1 分間の音声が必要です。
- このモデルは、(音声コマンド、歌声などではなく) 自然な会話音声を認識するように設計されています。
フィードバック
https://aka.ms/ContentUserFeedback。
近日公開予定: 2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub イシューを段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、以下を参照してください:フィードバックの送信と表示