音声認識と文字起こしを統合して使用する

2 分

音声サービスは、音声テキスト変換、テキスト読み上げ、音声翻訳を 1 つの Azure サブスクリプションに統合したものです。 Speech CLI、Speech SDK、Speech Devices SDK、Speech Studio、または REST API を使用して、アプリケーション、ツール、デバイスを簡単に音声対応にできます。

音声認識

Speaker Recognition サービスは、音声生物測定学を使用して、固有の音声特性で話者を確認および識別するアルゴリズムを提供します。これは、"誰が話しているのか" という質問に答えるのに使われます。まず、1 人の話者のオーディオトレーニングデータを提供します。これにより、話者の音声の固有の特性に基づいて登録プロファイルが作成されます。その後、このプロファイルに対してオーディオ音声サンプルをクロスチェックして、話者が同じ人物か検証 (話者認証) したり、登録されている話者プロファイルのグループに対してオーディオ音声サンプルをクロスチェックして、それがグループ内のプロファイルと一致するか確認 (話者識別) することができます。これに対し、Speaker Diarization では、バッチ操作を使って、オーディオストリームを話者 ID でグループ化します。つまり、話者ごとに独自のオーディオセグメントを持ちます。

文字起こし

文字起こしは、ストレージ内の音声を文字起こしできる一連の REST API 操作です。 Shared Access Signature (SAS) URI を持つオーディオファイルを示し、文字起こし結果を非同期的に受信できます。

MRTK 音声コマンド

Windows の音声入力と同様に、音声入力プロバイダーによってコントローラーは作成されませんが、認識時に音声入力イベントを生成するキーワードを定義できます。入力システムプロファイルの音声コマンドプロファイルで、認識するキーワードを構成します。各コマンドについて、次のこともできます。

コマンドにマップする入力アクションを選びます。この方法では、たとえば、キーワード選択とマウスの左クリックを同じアクションにマッピングすることで、同じ効果を持たせることができます。
押されたときに同じ音声イベントを生成するキーコードを指定します。
アプリリソースからローカライズされたキーワードを取得するために UWP アプリで使用されるローカライズキーを追加します。

Speech SDK

Speech ソフトウェア開発キット (SDK) では、音声対応アプリケーションの開発を支援する多くの音声サービス機能が公開されています。 Speech SDK は、多くのプログラミング言語と、すべてのプラットフォームで使用できます。 Speech SDK では、音声サービスの多くの機能 (すべてではありません) が公開されています。 Speech SDK の機能は、多くの場合、シナリオに関連づけられています。 Speech SDK は、ローカルデバイス、ファイル、Azure BLOB ストレージ、さらに入力と出力ストリームを使用する、リアルタイムと非リアルタイムのシナリオに適しています。 Speech SDK でシナリオを実現できない場合は、別の REST API を探してください。

空間認識

空間認識では、空間マッピングデータへのプログラムによるアクセスを提供しており、ユーザーの近くにあるアプリケーションで指定された空間領域の表面に関する情報が Mixed Reality アプリに提供されます。空間認識機能は、アプリでこれらの表面メッシュを明示的に使用する場合にのみ宣言します。 Mixed Reality アプリでユーザーの頭部姿勢に基づいてホログラフィックレンダリングを実行するには、この機能は必要ありません。

インターネットクライアントサーバー

インターネットクライアントサーバーを使うと、アプリで受信ネットワーク接続をリッスンする必要があるピアツーピア (P2P) シナリオが可能になります。

プライベートネットワーククライアントサーバー

プライベートネットワーククライアントサーバーでは、ファイアウォール経由で自宅と勤務先のネットワークへの着信アクセスと発信アクセスを提供します。この機能は通常、ローカルエリアネットワーク (LAN) 全体で通信が行われるゲームや、さまざまなローカルデバイス間でデータが共有するされるアプリに使用されます。