会議の文字起こしとは (プレビュー)
会議の文字起こしは、会議のリアルタイムまたは非同期の文字起こしを提供する音声テキスト変換ソリューションです。 この機能は現在プレビュー段階であり、音声認識、話者識別、文の属性を組み合わせて、会議の中でだれがいつ何を言ったのかを判別します。
重要
以前の "会話の文字起こし" シナリオの名前が "会議の文字起こし" に変更されました。たとえば、ConversationTranscriber
の代わりに MeetingTranscriber
を使用し、CreateConversationAsync
の代わりに CreateMeetingAsync
を使用します。 新しい "会話の文字起こし" 機能は、ユーザー プロファイルと音声署名を使用せずにリリースされます。 詳しくは、リリース ノートのページをご覧ください。
主要な機能
会話の文字起こしの次の機能が役に立つ場合があります。
- タイムスタンプ: 各話者の発話にはタイムスタンプが付いているため、語句がいつ話されたのかが簡単にわかります。
- 読みやすいトランスクリプト: トランスクリプトに書式設定と句読点が自動的に追加され、テキストと言われた内容が厳密に一致するように保証します。
- ユーザー プロファイル: ユーザー プロファイルは、ユーザーの音声サンプルを収集して署名生成に送信することによって生成されます。
- 話者識別: 話者はユーザー プロファイルを使用して識別され、話者 ID がそれぞれに割り当てられます。
- 複数話者のダイアライゼーション: 各話者識別子を付けてオーディオ ストリームを合成することによって、だれが何を言ったのかを判別します。
- リアルタイムの文字起こし: 会議の最中に誰がいつ何を言ったのかをライブで文字起こしします。
- 非同期の文字起こし: マルチチャンネル オーディオ ストリームを使用して、より精度の高い文字起こしを提供します。
注意
会議の文字起こしは、室内の話者数に制限を設けていませんが、セッションあたり 2 から 10 人の話者に最適化されています。
はじめに
作業を開始するには、リアルタイムでの会議の文字起こしのクイックスタートをご覧ください。
ユース ケース
聴覚障碍により耳が聞こえない参加者など、すべての人が会議に参加できるようにするには、リアルタイムでの文字起こしを行うことが重要です。 リアルタイム モードの会議の文字起こしは、会議の音声を取得し、誰が何を言っているのかを判別します。これにより、会議のすべての参加者がトランスクリプトを読み、遅れをとらずに会議に参加できるようになります。
会議の参加者は、会議の文字起こしにメモを取るのを任せて、会議に集中できます。 参加者は、メモを取ることで会議中に何かを聞き逃したりすることなく、積極的に会議に参加し、次のステップにすばやく進むことができます。
しくみ
次の図は、この機能の概要を示しています。
想定される入力
会議の文字起こしでは、次の 2 種類の入力が使用されます。
- マルチチャンネル オーディオ ストリーム: 仕様と設計の詳細については、「マイク配列の推奨事項」を参照してください。
- ユーザーの音声サンプル: 会議の文字起こしには、話者識別の会話の前にユーザー プロファイルが必要です。 各ユーザーの音声録音を収集し、署名生成サービスにその録音を送信して、音声を検証し、ユーザー プロファイルを生成します。
Note
会議の文字起こし用の単一チャネル オーディオ構成は、現在、プライベート プレビューでのみ使用できます。
話者識別には、音声署名のユーザー音声サンプルが必要です。 音声サンプルのない話者は、"不詳" として認識されます。 DifferentiateGuestSpeakers
プロパティを有効にすると、不詳の話者も区別できます (以下の例を参照)。 文字起こしの出力で、話者は、事前登録されている特定の話者名として認識される代わりに、Guest_0 や Guest_1 のように表示されます。
config.SetProperty("DifferentiateGuestSpeakers", "true");
リアルタイムと非同期
次の各セクションで、選択可能な文字起こしモードの詳細について説明します。
リアルタイム
オーディオ データはライブで処理され、話者識別子とトランスクリプトが返されます。 文字起こしソリューションで、進行中の会議のトランスクリプトをライブで表示する必要がある場合は、このモードを選択します。 たとえば、聴覚障碍により耳が聞こえない参加者を会議により参加しやすくするアプリケーションの構築は、リアルタイムの文字起こしの最適なユース ケースです。
非同期
オーディオ データはバッチ処理されて、話者識別子とトランスクリプトが返されます。 文字起こしソリューションで、より高い精度が求められ、トランスクリプトのライブ表示がない場合は、このモードを選択します。 たとえば、会議の参加者が欠席した会議の内容を簡単に把握できるようにするためにアプリケーションを構築する場合は、非同期の文字起こしモードを使用して、精度の高い文字起こしの結果を得られるようにします。
リアルタイム + 非同期
オーディオ データはライブで処理され、話者識別子とトランスクリプトが返されるのに加えて、非同期処理による精度の高いトランスクリプトが求められます。 アプリケーションで、リアルタイムの文字起こしを必要とし、会議が行われた後で使用するためにより精度の高いトランスクリプトも求められる場合は、このモードを選択します。
言語のサポート
現在、会議の文字起こしでは、次のリージョンのすべての音声テキスト変換言語がサポートされています: centralus
、eastasia
、eastus
、westeurope
。
次のステップ
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示