Azure AI Speech to Text API を使用する
Azure AI Speech サービスでは、次の機能を使用した音声認識がサポートされています。
- リアルタイム文字起こし: ライブ オーディオ入力の中間結果を含むインスタント文字起こし。
- ファスト トランスクリプション: 予測可能な待機時間がある状況での最速の同期出力です。
- バッチ文字起こし: 大量の録音済みオーディオに対して効率的な処理を行います。
- Custom Speech: 特定のドメインおよび条件に対して精度を強化したモデルです。
Azure AI Speech SDK の使用
具体的な詳細は、使用されている SDK (Python、C# など) によって異なります。 音声テキスト 変換 API を使用するための一貫したパターンがあります。
- SpeechConfig オブジェクトを使用して、Azure AI Speech リソースに接続するために必要な情報をカプセル化します。 具体的には、その 場所 と キー。
- 必要に応じて、AudioConfig を使用して、文字起こしするオーディオの入力ソースを定義します。 既定では、これは既定のシステム マイクですが、オーディオ ファイルを指定することもできます。
- SpeechConfig と AudioConfig を使用して SpeechRecognizer オブジェクトを作成します。 このオブジェクトは、 Speech to Text API のプロキシ クライアントです。
- SpeechRecognizer オブジェクトのメソッドを使用して、基になる API 関数を呼び出します。 たとえば、 RecognizeOnceAsync() メソッドは、Azure AI Speech サービスを使用して、1 つの発話を非同期的に文字起こしします。
- Azure AI Speech サービスからの応答を処理します。
RecognizeOnceAsync() メソッドの場合、結果は次のプロパティを含む SpeechRecognitionResult オブジェクトになります。
- 期間
- OffsetInTicks
- 特性
- 理由
- 結果ID
- テキスト
操作が成功した場合、 Reason プロパティには列挙値 RecognizedSpeech があり、 Text プロパティには文字起こしが含まれます。 Result に指定できるその他の値には、NoMatch (オーディオが正常に解析されたが、音声が認識されなかったことを示す) や Canceled (エラーが発生したことを示す値) があります (その場合は、CancellationReason プロパティの Properties コレクションを確認して、問題が発生したことを確認できます)。