Azure AI Speech to Text API を使用する

5 分

Azure AI Speech サービスでは、次の機能を使用した音声認識がサポートされています。

リアルタイム文字起こし: ライブオーディオ入力の中間結果を含むインスタント文字起こし。
ファストトランスクリプション: 予測可能な待機時間がある状況での最速の同期出力です。
バッチ文字起こし: 大量の録音済みオーディオに対して効率的な処理を行います。
Custom Speech: 特定のドメインおよび条件に対して精度を強化したモデルです。

Azure AI Speech SDK の使用

具体的な詳細は、使用されている SDK (Python、C# など) によって異なります。 音声テキスト 変換 API を使用するための一貫したパターンがあります。

SpeechConfig と AudioConfig から SpeechRecognizer オブジェクトを作成し、その RecognizeOnceAsync メソッドを使用して Speech API を呼び出す方法を示す図。

SpeechConfig オブジェクトを使用して、Azure AI Speech リソースに接続するために必要な情報をカプセル化します。具体的には、その場所とキー。
必要に応じて、AudioConfig を使用して、文字起こしするオーディオの入力ソースを定義します。既定では、これは既定のシステムマイクですが、オーディオファイルを指定することもできます。
SpeechConfig と AudioConfig を使用して SpeechRecognizer オブジェクトを作成します。このオブジェクトは、 Speech to Text API のプロキシクライアントです。
SpeechRecognizer オブジェクトのメソッドを使用して、基になる API 関数を呼び出します。たとえば、 RecognizeOnceAsync() メソッドは、Azure AI Speech サービスを使用して、1 つの発話を非同期的に文字起こしします。
Azure AI Speech サービスからの応答を処理します。 RecognizeOnceAsync() メソッドの場合、結果は次のプロパティを含む SpeechRecognitionResult オブジェクトになります。
- 期間
- OffsetInTicks
- 特性
- 理由
- 結果ID
- テキスト

操作が成功した場合、 Reason プロパティには列挙値 RecognizedSpeech があり、 Text プロパティには文字起こしが含まれます。 Result に指定できるその他の値には、NoMatch (オーディオが正常に解析されたが、音声が認識されなかったことを示す) や Canceled (エラーが発生したことを示す値) があります (その場合は、CancellationReason プロパティの Properties コレクションを確認して、問題が発生したことを確認できます)。

Azure AI Speech to Text API を使用する

Azure AI Speech SDK の使用

フィードバック