会話の文字起こしマルチチャンネル ダイアライゼーションとは (プレビュー)
Note
現在、この機能はパブリック プレビュー段階にあります。 このプレビュー版はサービス レベル アグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。
会話の文字起こしマルチチャンネル ダイアライゼーションは、音声テキスト変換ソリューションであり、会議のリアルタイムまたは非同期の文字起こしを提供します。 この機能は、音声認識、話者識別、文の属性を組み合わせて、会議の中でだれがいつ何を言ったのかを判別します。
重要
会話の文字起こしマルチチャンネル ダイアライゼーション (プレビュー) は、2025 年 3 月 28 日に廃止されます。 他の音声テキスト変換機能への移行の詳細については、「会話の文字起こしマルチチャンネル ダイアライゼーションから移行する」を参照してください。
会話の文字起こしマルチチャンネル ダイアライゼーションから移行する
会話の文字起こしマルチチャンネル ダイアライゼーション (プレビュー) は、2025 年 3 月 28 日に廃止されます。
ダイアライゼーションを伴う音声テキスト変換を引き続き使用するには、代わりに次の機能を使用します。
これらの音声テキスト変換機能では、単一チャネル オーディオのダイアライゼーションのみがサポートされます。 会話の文字起こしマルチチャンネル ダイアライゼーションで使用したマルチチャンネル オーディオは、サポートされません。
主要な機能
場合によって、会話の文字起こしの次の機能が役に立ちます。
- タイムスタンプ: 各話者の発話にはタイムスタンプが付いているため、語句がいつ話されたのかが簡単にわかります。
- 読みやすいトランスクリプト: トランスクリプトに書式設定と句読点が自動的に追加され、テキストと言われた内容が厳密に一致するように保証します。
- ユーザー プロファイル: ユーザー プロファイルは、ユーザーの音声サンプルを収集して署名生成に送信することによって生成されます。
- 話者識別: 話者はユーザー プロファイルを使用して識別され、話者 ID がそれぞれに割り当てられます。
- 複数話者のダイアライゼーション: 各話者識別子を付けてオーディオ ストリームを合成することによって、だれが何を言ったのかを判別します。
- リアルタイムの文字起こし: 会議の最中に誰がいつ何を言ったのかをライブで文字起こしします。
- 非同期の文字起こし: マルチチャンネル オーディオ ストリームを使用して、より精度の高い文字起こしを提供します。
注意
会話の文字起こしは、室内の話者数に制限を設けていませんが、セッションあたり 2 から 10 人の話者に最適化されています。
ユース ケース
聴覚障碍により耳が聞こえない参加者など、すべての人が会議に参加できるようにするには、リアルタイムでの文字起こしを行うことが重要です。 リアルタイム モードの会話の文字起こしでは、会議の音声が取得され、だれが何を言っているのかが判別されます。これにより、会議のすべての参加者がトランスクリプトを目で追い、遅れをとらずに会議に参加できるようになります。
会議の参加者は、メモを取るのを会話の文字起こしに任せて、会議に集中できます。 参加者は、メモを取ることで会議中に何かを聞き逃したりすることなく、積極的に会議に参加し、次のステップにすばやく進むことができます。
しくみ
次の図は、この機能の概要を示しています。
想定される入力
会話の文字起こしでは、次の 2 種類の入力が使用されます。
- マルチチャンネル オーディオ ストリーム: 仕様と設計の詳細については、「マイク配列の推奨事項」を参照してください。
- ユーザーの音声サンプル: 会話の文字起こしには、話者識別のために、会話より前にユーザー プロファイルが必要です。 各ユーザーの音声録音を収集し、署名生成サービスにその録音を送信して、音声を検証し、ユーザー プロファイルを生成します。
話者識別には、音声署名のユーザー音声サンプルが必要です。 音声サンプルのない話者は、"不詳" として認識されます。 DifferentiateGuestSpeakers
プロパティを有効にすると、不詳の話者も区別できます (以下の例を参照)。 文字起こしの出力で、話者は、事前登録されている特定の話者名として認識される代わりに、"Guest_0" や "Guest_1" のように表示されます。
config.SetProperty("DifferentiateGuestSpeakers", "true");
リアルタイムまたは非同期
次の各セクションで、選択可能な文字起こしモードの詳細について説明します。
リアルタイム
オーディオ データはライブで処理され、話者識別子とトランスクリプトが返されます。 文字起こしソリューションで、進行中の会議のトランスクリプトをライブで表示する必要がある場合は、このモードを選択します。 たとえば、聴覚障碍により耳が聞こえない参加者を会議により参加しやすくするアプリケーションの構築は、リアルタイムの文字起こしの最適なユース ケースです。
非同期
オーディオ データはバッチ処理されて、話者識別子とトランスクリプトが返されます。 文字起こしソリューションで、より高い精度が求められ、トランスクリプトのライブ表示がない場合は、このモードを選択します。 たとえば、会議の参加者が欠席した会議の内容を簡単に把握できるようにするためにアプリケーションを構築する場合は、非同期の文字起こしモードを使用して、精度の高い文字起こしの結果を得られるようにします。
リアルタイム + 非同期
オーディオ データはライブで処理され、話者識別子とトランスクリプトが返されるのに加えて、非同期処理による精度の高いトランスクリプトが求められます。 アプリケーションで、リアルタイムの文字起こしを必要とし、会議が行われた後で使用するためにより精度の高いトランスクリプトも求められる場合は、このモードを選択します。
言語とリージョンのサポート
現在、会話の文字起こしでは、次のリージョンのすべての音声テキスト変換言語がサポートされています: centralus
、eastasia
、eastus
、westeurope
。