音声認識と文字起こしを統合して使用する

完了

音声サービスは、音声テキスト変換、テキスト読み上げ、音声翻訳を 1 つの Azure サブスクリプションに統合したものです。 Speech CLI、Speech SDK、Speech Devices SDK、Speech Studio、または REST API を使用して、アプリケーション、ツール、デバイスを簡単に音声対応にできます。

音声認識

Speaker Recognition サービスは、音声生物測定学を使用して、固有の音声特性で話者を確認および識別するアルゴリズムを提供します。 これは、"誰が話しているのか" という質問に答えるのに使われます。まず、1 人の話者のオーディオ トレーニング データを提供します。これにより、話者の音声の固有の特性に基づいて登録プロファイルが作成されます。 その後、このプロファイルに対してオーディオ音声サンプルをクロスチェックして、話者が同じ人物か検証 (話者認証) したり、登録されている話者プロファイルのグループに対してオーディオ音声サンプルをクロスチェックして、それがグループ内のプロファイルと一致するか確認 (話者識別) することができます。 これに対し、Speaker Diarization では、バッチ操作を使って、オーディオ ストリームを話者 ID でグループ化します。つまり、話者ごとに独自のオーディオ セグメントを持ちます。

文字起こし

文字起こしは、ストレージ内の音声を文字起こしできる一連の REST API 操作です。 Shared Access Signature (SAS) URI を持つオーディオ ファイルを示し、文字起こし結果を非同期的に受信できます。

MRTK 音声コマンド

Windows の音声入力と同様に、音声入力プロバイダーによってコントローラーは作成されませんが、認識時に音声入力イベントを生成するキーワードを定義できます。 入力システム プロファイルの音声コマンド プロファイルで、認識するキーワードを構成します。 各コマンドについて、次のこともできます。

  • コマンドにマップする入力アクションを選びます。 この方法では、たとえば、キーワード選択とマウスの左クリックを同じアクションにマッピングすることで、同じ効果を持たせることができます。
  • 押されたときに同じ音声イベントを生成するキー コードを指定します。
  • アプリ リソースからローカライズされたキーワードを取得するために UWP アプリで使用されるローカライズ キーを追加します。

Speech SDK

Speech ソフトウェア開発キット (SDK) では、音声対応アプリケーションの開発を支援する多くの音声サービス機能が公開されています。 Speech SDK は、多くのプログラミング言語と、すべてのプラットフォームで使用できます。 Speech SDK では、音声サービスの多くの機能 (すべてではありません) が公開されています。 Speech SDK の機能は、多くの場合、シナリオに関連づけられています。 Speech SDK は、ローカル デバイス、ファイル、Azure BLOB ストレージ、さらに入力と出力ストリームを使用する、リアルタイムと非リアルタイムのシナリオに適しています。 Speech SDK でシナリオを実現できない場合は、別の REST API を探してください。

空間認識

空間認識では、空間マッピング データへのプログラムによるアクセスを提供しており、ユーザーの近くにあるアプリケーションで指定された空間領域の表面に関する情報が Mixed Reality アプリに提供されます。 空間認識機能は、アプリでこれらの表面メッシュを明示的に使用する場合にのみ宣言します。 Mixed Reality アプリでユーザーの頭部姿勢に基づいてホログラフィック レンダリングを実行するには、この機能は必要ありません。

インターネット クライアント サーバー

インターネット クライアント サーバーを使うと、アプリで受信ネットワーク接続をリッスンする必要があるピアツーピア (P2P) シナリオが可能になります。

プライベート ネットワーク クライアント サーバー

プライベート ネットワーク クライアント サーバーでは、ファイアウォール経由で自宅と勤務先のネットワークへの着信アクセスと発信アクセスを提供します。 この機能は通常、ローカル エリア ネットワーク (LAN) 全体で通信が行われるゲームや、さまざまなローカル デバイス間でデータが共有するされるアプリに使用されます。