複数言語のコンテンツを自動的に識別および文字起こしする
Azure Video Indexer では、複数言語のコンテンツ内の自動的な言語識別と文字起こしがサポートされています。 このプロセスでは、音声から異なるセグメントにある音声言語を自動的に識別し、メディア ファイルの各セグメントを送信して文字起こしし、文字起こしを結合して元の 1 つの統合された文字起こしを作成する必要があります。
ポータルを使用してインデックス作成時に多言語識別を選択
ビデオをアップロードしてインデックスを作成するときに、複数言語の検出を選択することができます。 あるいは、ビデオのインデックスを再作成するときに、複数言語の検出を選択することもできます。 次の手順では、インデックスを再作成する方法について説明します。
Azure Video Indexer の Web サイトに移動してサインインします。
[ライブラリ] ページに移動し、インデックスを再作成するビデオの名前にカーソルを合わせます。
右下隅にある [ビデオのインデックスの再作成] ボタンをクリックします。
[ビデオのインデックスの再作成] ダイアログで、 [ビデオのソース言語] ドロップダウン ボックスから [複数言語の検出] を選択します。
- ビデオが複数言語としてインデックス付けされると、分析情報ページにそのオプションが含められ、追加の種類の分析情報が表示されます。これにより、ユーザーはどのセグメントが、どの言語の "音声言語" で文字起こしされているかを確認することができます。
- すべての言語への翻訳は、複数言語のトランスクリプトから完全に利用できます。
- その他の分析情報はすべて、検出されたマスター言語で表示されます。これは、オーディオに最も多く登場した言語です。
- プレーヤー上のクローズド キャプションも、複数言語で利用できます。
API を使用してインデックス作成時に多言語識別を選択
API を使用してビデオのインデックスを作成するとき、またはインデックスを再作成するときは、sourceLanguage
パラメーターで multi-language detection
オプションを選択します。
モデルの出力
このモデルでは、ビデオ内で検出されたすべての言語が 1 つのリストに取得されます。
"sourceLanguage": null,
"sourceLanguages": [
"es-ES",
"en-US"
],
また、文字起こしセクションの各インスタンスには、それを文字起こしした言語が含まれます。
{
"id": 136,
"text": "I remember well when my youth Minister took me to hear Doctor King I was a teenager.",
"confidence": 0.9343,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:21:10.42",
"adjustedEnd": "0:21:17.48",
"start": "0:21:10.42",
"end": "0:21:17.48"
}
]
},
ガイドラインと制限
- 一連のサポートされている言語: 英語、フランス語、ドイツ語、スペイン語。
- サポートされている言語が最大で 3 つ含まれる複数言語コンテンツをサポート。
- オーディオに上のサポートされている一覧以外の言語が含まれている場合は、予期しない結果になります。
- 言語ごとに検出する最小セグメント長 – 15 秒。
- 言語検出オフセットは平均で 3 秒です。
- 音声は継続的であることが期待されます。 言語を頻繁に切り替えると、モデルのパフォーマンスに影響する可能性があります。
- ネイティブでない話者の音声は、モデルのパフォーマンスに影響を与える可能性があります (たとえば、母国語を使用している話者が、別の言語に切り替える場合など)。
- このモデルは、適切なオーディオ音響を使用して、(音声コマンド、歌声などではなく) 自然な会話音声を認識するように設計されています。
- プロジェクトの作成と編集は現在、複数言語ビデオでは利用できません。
- 複数言語の検出を使用する場合、カスタム言語モデルは使用できません。
- キーワードの追加はサポートされていません。
- クローズ ドキャプション ファイルをエクスポートするときに、言語表示は示されません。
- トランスクリプトの更新 API は、複数の言語ファイルをサポートしていません。