単発認識の音声テキスト変換アプリケーションを作成する
前の演習では、Azure CLI を使用して Azure AI サービス アカウントを作成する方法について説明しました。 使用する Azure AI サービス アカウントが用意できたので、音声テキスト変換アプリケーションの作業を開始できます。
最初の課題は、会社で医療クライアントからの短いメモを文字起こしするために使用できるアプリケーションを作成することです。 Azure AI サービスには、開発に使用できる 2 種類の音声認識が用意されています。
単発の認識
単発認識は、オーディオの中断をリッスンし、続いて認識を停止して、最大 15 秒のオーディオのみを処理します。
この種の認識は、会社の医療クライアントが提供する簡単なメモには適していますが、ディクテーションが長くなる場合には適していません。
単発認識はアプリケーションへの実装が簡単ですが、あまり制御できなくなります。
継続的認識
連続認識は、認識が停止するまでリッスンし続けます。
この種の認識は、簡単なメモと長時間のディクテーションの両方に適しています。
連続認識では、アプリケーションに実装するためにより多くのコードが必要になりますが、より制御できるようになります。
次の演習では、単発認識を使用して、会社の医療クライアントの簡単なメモを文字起こしするために使用できるアプリケーションを作成します。 このモジュールの後半では、連続認識を使用して、簡単なメモと長時間のディクテーションの両方を文字起こしするために使用できるアプリケーションを作成します。
単発認識を使用してオーディオ ファイルを文字起こしするアプリケーションの作成
Azure AI 音声の単発認識を使用して音声をテキストに変換するアプリケーションを作成するには、アプリケーションで次のタスクをすべて実行する必要があります。
Microsoft.CognitiveServices.Speech
パッケージを組み込みます。Azure AI サービス アカウントから API キーを使用して
SpeechConfig
クラスを作成します。WAVE ファイルをソースとして使用して
AudioConfig
クラスを作成します。SpeechConfig
クラスとAudioConfig
クラスを使用してSpeechRecognizer
クラスを作成します。SpeechRecognizer
クラスのRecognizeOnceAsync()
メソッドを呼び出して、音声をテキストに変換します。変換されたテキストをファイルに書き込む
StreamWriter
クラスを作成します。
次の演習では、これらの手順をすべて詳しく見ていきます。