Azure AI Speech to Text API を使用する

完了

Azure AI Speech サービスでは、次の機能を使用した音声認識がサポートされています。

  • リアルタイム文字起こし: ライブ オーディオ入力の中間結果を含むインスタント文字起こし。
  • ファスト トランスクリプション: 予測可能な待機時間がある状況での最速の同期出力です。
  • バッチ文字起こし: 大量の録音済みオーディオに対して効率的な処理を行います。
  • Custom Speech: 特定のドメインおよび条件に対して精度を強化したモデルです。

Azure AI Speech SDK の使用

具体的な詳細は、使用されている SDK (Python、C# など) によって異なります。 音声テキスト 変換 API を使用するための一貫したパターンがあります。

SpeechConfig と AudioConfig から SpeechRecognizer オブジェクトを作成し、その RecognizeOnceAsync メソッドを使用して Speech API を呼び出す方法を示す図。

  1. SpeechConfig オブジェクトを使用して、Azure AI Speech リソースに接続するために必要な情報をカプセル化します。 具体的には、その 場所キー
  2. 必要に応じて、AudioConfig を使用して、文字起こしするオーディオの入力ソースを定義します。 既定では、これは既定のシステム マイクですが、オーディオ ファイルを指定することもできます。
  3. SpeechConfigAudioConfig を使用して SpeechRecognizer オブジェクトを作成します。 このオブジェクトは、 Speech to Text API のプロキシ クライアントです。
  4. SpeechRecognizer オブジェクトのメソッドを使用して、基になる API 関数を呼び出します。 たとえば、 RecognizeOnceAsync() メソッドは、Azure AI Speech サービスを使用して、1 つの発話を非同期的に文字起こしします。
  5. Azure AI Speech サービスからの応答を処理します。 RecognizeOnceAsync() メソッドの場合、結果は次のプロパティを含む SpeechRecognitionResult オブジェクトになります。
    • 期間
    • OffsetInTicks
    • 特性
    • 理由
    • 結果ID
    • テキスト

操作が成功した場合、 Reason プロパティには列挙値 RecognizedSpeech があり、 Text プロパティには文字起こしが含まれます。 Result に指定できるその他の値には、NoMatch (オーディオが正常に解析されたが、音声が認識されなかったことを示す) や Canceled (エラーが発生したことを示す値) があります (その場合は、CancellationReason プロパティの Properties コレクションを確認して、問題が発生したことを確認できます)。