Azure OpenAI 音声読み上げチャット

[アーティクル]
2024/10/16

リファレンスドキュメント | パッケージ (NuGet) | GitHub 上のその他のサンプル

この攻略ガイドでは、Azure AI 音声を使用して Azure OpenAI Service と会話できます。 Speech サービスによって認識されたテキストは、Azure OpenAI に送信されます。 Speech サービスでは、Azure OpenAI からのテキスト応答から音声が合成されます。

マイクに話し込み、Azure OpenAI との会話を開始します。

Speech サービスは音声を認識し、テキストに変換します (音声テキスト変換)。
テキストとしての要求が Azure OpenAI に送信されます。
Speech サービスのテキスト読み上げ機能では、Azure OpenAI からの応答を既定のスピーカーに合成します。

この例のエクスペリエンスはやり取りですが、Azure OpenAI では会話のコンテキストを覚えていません。

前提条件

Azure サブスクリプション - 無料アカウントを作成します
Azure portalで Microsoft Azure OpenAI Service リソースを作成します。
Azure OpenAI リソースにモデルをデプロイします。モデルデプロイの詳細については、 Azure OpenAI リソースデプロイガイドを参照してください。
Azure OpenAI リソースキーとエンドポイントを取得します。 Azure OpenAI リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。
Azure ポータルで、音声リソースを作成します。
Speech リソースキーとリージョンを取得します。音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。

環境をセットアップする

Speech SDK は NuGet パッケージとして提供されていて、.NET Standard 2.0 が実装されています。 Azure Cognitive Service for Speech SDK は、このガイドで後でインストールしますが、まず、これ以上要件がないか SDK のインストールガイドを確認してください。

環境変数の設定

この例では、AZURE_OPENAI_API_KEY、AZURE_OPENAI_ENDPOINT、AZURE_OPENAI_CHAT_DEPLOYMENT、SPEECH_KEY、SPEECH_REGION という名前の環境変数が必要です。

Azure AI サービスリソースにアクセスするには、アプリケーションを認証する必要があります。この記事では、環境変数を使って資格情報を保存する方法について説明します。その後、コードから環境変数にアクセスして、アプリケーションを認証できます。運用環境では、資格情報を保存してそれにアクセスする際に、安全性が高い方法を使用します。

重要

Microsoft Entra 認証と Azure リソースのマネージド ID を併用して、クラウドで実行されるアプリケーションに資格情報を格納しないようにすることをお勧めします。

API キーを使用する場合は、それを Azure Key Vault などの別の場所に安全に保存します。 API キーは、コード内に直接含めないようにし、絶対に公開しないでください。

AI サービスのセキュリティの詳細については、「Azure AI サービスに対する要求の認証」を参照してください。

環境変数を設定するには、コンソールウィンドウを開き、オペレーティングシステムと開発環境の指示に従います。

AZURE_OPENAI_API_KEY 環境変数を設定するには、your-openai-key をリソースのキーの 1 つに置き換えます。
AZURE_OPENAI_ENDPOINT 環境変数を設定するには、your-openai-endpoint をリソースのリージョンの 1 つに置き換えます。
AZURE_OPENAI_CHAT_DEPLOYMENT 環境変数を設定するには、your-openai-deployment-name をリソースのリージョンの 1 つに置き換えます。
SPEECH_KEY 環境変数を設定するには、your-speech-key をリソースのキーの 1 つに置き換えます。
SPEECH_REGION 環境変数を設定するには、your-speech-region をリソースのリージョンの 1 つに置き換えます。

setx AZURE_OPENAI_API_KEY your-openai-key
setx AZURE_OPENAI_ENDPOINT your-openai-endpoint
setx AZURE_OPENAI_CHAT_DEPLOYMENT your-openai-deployment-name
setx SPEECH_KEY your-speech-key
setx SPEECH_REGION your-speech-region

注意

現在実行中のコンソール内の環境変数にのみアクセスする必要がある場合は、環境変数を setx の代わりに set に設定します。

環境変数を追加した後、コンソールウィンドウを含め、環境変数を読み取る必要がある実行中のプログラムの再起動が必要になる場合があります。たとえば、エディターが Visual Studio である場合、サンプルを実行する前に Visual Studio を再起動します。

export AZURE_OPENAI_API_KEY=your-openai-key
export AZURE_OPENAI_ENDPOINT=your-openai-endpoint
export AZURE_OPENAI_CHAT_DEPLOYMENT=your-openai-deployment-name
export SPEECH_KEY=your-speech-key
export SPEECH_REGION=your-speech-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bashrc を実行します。

Bash

.bash_profile を編集し、環境変数を追加します。

export AZURE_OPENAI_API_KEY=your-openai-key
export AZURE_OPENAI_ENDPOINT=your-openai-endpoint
export AZURE_OPENAI_CHAT_DEPLOYMENT=your-openai-deployment-name # For example, "gpt-4o-mini"
export SPEECH_KEY=your-speech-key
export SPEECH_REGION=your-speech-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bash_profile を実行します。

Xcode

iOS と macOS の開発では、Xcode で環境変数を設定します。たとえば、次の手順に従って、Xcode 13.4.1 で環境変数を設定します。

[製品]>[スキーム]>[スキームの編集] の順に選択します。
[実行] (デバッグ実行) ページで [引数] を選択します。
[環境変数] で、プラス記号 (+) を選択して、新しい環境変数を追加します。
[名前] に SPEECH_KEY を入力し、[値] に Azure Cognitive Service for Speech リソースキーを入力します。

手順を繰り返して、他の必要な環境変数を設定します。

その他の構成オプションについては、Xcode のドキュメントを参照してください。

マイクから音声を認識する

次の手順を実行して、新しいコンソールアプリケーションを作成します。

新しいプロジェクトを作成したいフォルダーでコマンドプロンプトウィンドウを開きます。次のコマンドを実行して、.NET CLI でコンソールアプリケーションを作成します。
```
dotnet new console
```
このコマンドは、プロジェクトディレクトリに Program.cs ファイルを作成します。
.NET CLI を使用して、新しいプロジェクトに Speech SDK をインストールします。
```
dotnet add package Microsoft.CognitiveServices.Speech
```
.NET CLI を使用して、Azure OpenAI SDK (プレリリース) を新しいプロジェクトにインストールします。
```
dotnet add package Azure.AI.OpenAI --prerelease 
```

Program.cs の内容を以下のコードに置き換えます。

using System.Text;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;
using Azure;
using Azure.AI.OpenAI;

// This example requires environment variables named "AZURE_OPENAI_API_KEY", "AZURE_OPENAI_ENDPOINT" and "AZURE_OPENAI_CHAT_DEPLOYMENT"
// Your endpoint should look like the following https://YOUR_OPEN_AI_RESOURCE_NAME.openai.azure.com/
string openAIKey = Environment.GetEnvironmentVariable("AZURE_OPENAI_API_KEY") ??
                   throw new ArgumentException("Missing AZURE_OPENAI_API_KEY");
string openAIEndpoint = Environment.GetEnvironmentVariable("AZURE_OPENAI_ENDPOINT") ??
                        throw new ArgumentException("Missing AZURE_OPENAI_ENDPOINT");

// Enter the deployment name you chose when you deployed the model.
string engine = Environment.GetEnvironmentVariable("AZURE_OPENAI_CHAT_DEPLOYMENT") ??
                throw new ArgumentException("Missing AZURE_OPENAI_CHAT_DEPLOYMENT");

// This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY") ??
                   throw new ArgumentException("Missing SPEECH_KEY");
string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION") ??
                      throw new ArgumentException("Missing SPEECH_REGION");

// Sentence end symbols for splitting the response into sentences.
List<string> sentenceSaperators = new() { ".", "!", "?", ";", "。", "！", "？", "；", "\n" };

try
{
    await ChatWithAzureOpenAI();
}
catch (Exception ex)
{
    Console.WriteLine(ex);
}

// Prompts Azure OpenAI with a request and synthesizes the response.
async Task AskAzureOpenAI(string prompt)
{
    object consoleLock = new();
    var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);

    // The language of the voice that speaks.
    speechConfig.SpeechSynthesisVoiceName = "en-US-JennyMultilingualNeural";
    var audioOutputConfig = AudioConfig.FromDefaultSpeakerOutput();
    using var speechSynthesizer = new SpeechSynthesizer(speechConfig, audioOutputConfig);
    speechSynthesizer.Synthesizing += (sender, args) =>
    {
        lock (consoleLock)
        {
            Console.ForegroundColor = ConsoleColor.Yellow;
            Console.Write($"[Audio]");
            Console.ResetColor();
        }
    };

    // Ask Azure OpenAI
    OpenAIClient client = new(new Uri(openAIEndpoint), new AzureKeyCredential(openAIKey));
    var completionsOptions = new ChatCompletionsOptions()
    {
        DeploymentName = engine,
        Messages = { new ChatRequestUserMessage(prompt) },
        MaxTokens = 100,
    };
    var responseStream = await client.GetChatCompletionsStreamingAsync(completionsOptions);

    StringBuilder gptBuffer = new();
    await foreach (var completionUpdate in responseStream)
    {
        var message = completionUpdate.ContentUpdate;
        if (string.IsNullOrEmpty(message))
        {
            continue;
        }

        lock (consoleLock)
        {
            Console.ForegroundColor = ConsoleColor.DarkBlue;
            Console.Write($"{message}");
            Console.ResetColor();
        }

        gptBuffer.Append(message);

        if (sentenceSaperators.Any(message.Contains))
        {
            var sentence = gptBuffer.ToString().Trim();
            if (!string.IsNullOrEmpty(sentence))
            {
                await speechSynthesizer.SpeakTextAsync(sentence);
                gptBuffer.Clear();
            }
        }
    }
}

// Continuously listens for speech input to recognize and send as text to Azure OpenAI
async Task ChatWithAzureOpenAI()
{
    // Should be the locale for the speaker's language.
    var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);
    speechConfig.SpeechRecognitionLanguage = "en-US";

    using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
    using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    var conversationEnded = false;

    while (!conversationEnded)
    {
        Console.WriteLine("Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.");

        // Get audio from the microphone and then send it to the TTS service.
        var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();

        switch (speechRecognitionResult.Reason)
        {
            case ResultReason.RecognizedSpeech:
                if (speechRecognitionResult.Text == "Stop.")
                {
                    Console.WriteLine("Conversation ended.");
                    conversationEnded = true;
                }
                else
                {
                    Console.WriteLine($"Recognized speech: {speechRecognitionResult.Text}");
                    await AskAzureOpenAI(speechRecognitionResult.Text);
                }

                break;
            case ResultReason.NoMatch:
                Console.WriteLine($"No speech could be recognized: ");
                break;
            case ResultReason.Canceled:
                var cancellationDetails = CancellationDetails.FromResult(speechRecognitionResult);
                Console.WriteLine($"Speech Recognition canceled: {cancellationDetails.Reason}");
                if (cancellationDetails.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"Error details={cancellationDetails.ErrorDetails}");
                }

                break;
        }
    }
}

Azure OpenAI によって返されるトークンの数を増減するには、ChatCompletionsOptions クラスインスタンスで MaxTokens プロパティを変更します。トークンとコストへの影響の詳細については、「 Azure OpenAI トークンと Azure OpenAI の価格」を参照してください。
新しいコンソールアプリケーションを実行して、マイクからの音声認識を開始します。
```
dotnet run
```

重要

説明どおりに、AZURE_OPENAI_API_KEY、AZURE_OPENAI_ENDPOINT、AZURE_OPENAI_CHAT_DEPLOYMENT、SPEECH_KEY、SPEECH_REGION 環境変数を設定してください。これらの変数を設定しない場合、サンプルはエラーメッセージが表示されて失敗します。

指示されたらマイクに向って話します。コンソール出力には、読み上げを開始するためのプロンプト、テキストとしての要求、次に Azure OpenAI からの応答がテキストとして含まれます。 Azure OpenAI からの応答は、テキストから音声に変換してから、既定のスピーカーに出力する必要があります。

PS C:\dev\openai\csharp> dotnet run
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Recognized speech:Make a comma separated list of all continents.
Azure OpenAI response:Africa, Antarctica, Asia, Australia, Europe, North America, South America
Speech synthesized to speaker for text [Africa, Antarctica, Asia, Australia, Europe, North America, South America]
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Recognized speech: Make a comma separated list of 1 Astronomical observatory for each continent. A list should include each continent name in parentheses.
Azure OpenAI response:Mauna Kea Observatories (North America), La Silla Observatory (South America), Tenerife Observatory (Europe), Siding Spring Observatory (Australia), Beijing Xinglong Observatory (Asia), Naukluft Plateau Observatory (Africa), Rutherford Appleton Laboratory (Antarctica)
Speech synthesized to speaker for text [Mauna Kea Observatories (North America), La Silla Observatory (South America), Tenerife Observatory (Europe), Siding Spring Observatory (Australia), Beijing Xinglong Observatory (Asia), Naukluft Plateau Observatory (Africa), Rutherford Appleton Laboratory (Antarctica)]
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Conversation ended.
PS C:\dev\openai\csharp>

解説

いくつかの考慮事項を次に示します。

音声認識言語を変更するには、en-US を別のen-USに置き換えます。たとえば、スペイン語 (スペイン) の場合は、es-ES を作成します。既定の言語は en-US です。話される可能性のある複数の言語の 1 つを識別する方法の詳細については、言語の識別に関するページを参照してください。
読み上げる音声を変更するには、別のサポートされている音声にen-US-JennyMultilingualNeuralを置き換えます。 Azure OpenAIから返されたテキストの言語が音声で読み上げられない場合、Speech サービスでは合成された音声が出力されません。
テキスト読み上げ出力の待ち時間を短縮するには、テキストストリーミング機能を使います。これを使うと、高速オーディオ生成のためのリアルタイムテキスト処理が有効になり、待ち時間が最小限に抑えられて、リアルタイムオーディオ出力の滑らかさと応答性が向上します。「テキストストリーミングの使用方法」をご覧ください。
音声出力の視覚的なエクスペリエンスとして TTS アバターを有効にするには、テキスト読み上げアバターのリアルタイム合成に関する記事と、アバターを使用したチャットシナリオのサンプルコードをご覧ください。
Azure OpenAI では、プロンプト入力と生成された出力に対してコンテンツモデレーションも実行されます。有害なコンテンツが検出された場合、プロンプトまたは応答がフィルター処理される可能性があります。詳しくは、コンテンツフィルターアーティクルを参照してください。

リソースをクリーンアップする

Azure portal または Azure コマンドラインインターフェイス (CLI) を使用して、作成した音声リソースを削除できます。

リファレンスドキュメント | パッケージ (PyPi) | GitHub 上のその他のサンプル

マイクに話し込み、Azure OpenAI との会話を開始します。

Speech サービスは音声を認識し、テキストに変換します (音声テキスト変換)。
テキストとしての要求が Azure OpenAI に送信されます。
Speech サービスのテキスト読み上げ機能では、Azure OpenAI からの応答を既定のスピーカーに合成します。

この例のエクスペリエンスはやり取りですが、Azure OpenAI では会話のコンテキストを覚えていません。

前提条件

Azure サブスクリプション - 無料アカウントを作成します
Azure portalで Microsoft Azure OpenAI Service リソースを作成します。
Azure OpenAI リソースにモデルをデプロイします。モデルデプロイの詳細については、 Azure OpenAI リソースデプロイガイドを参照してください。
Azure OpenAI リソースキーとエンドポイントを取得します。 Azure OpenAI リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。
Azure ポータルで、音声リソースを作成します。
Speech リソースキーとリージョンを取得します。音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。

環境をセットアップする

Speech SDK Python は、Python パッケージインデックス (PyPI) モジュールとして入手できます。 Speech SDK for Python は、Windows、Linux、macOS との互換性があります。

お使いのプラットフォームに対応した Visual Studio 2015、2017、2019、2022 の Microsoft Visual C++ 再頒布可能パッケージをインストールします。このパッケージを初めてインストールする場合、再起動が必要になる可能性があります。
Linux では、x64 ターゲットアーキテクチャを使う必要があります。

Python の 3.7 以降のバージョンをインストールします。最初に、これ以上要件がないか、SDK のインストールガイドを確認してください。

次の Python ライブラリをインストールします。os、requests、json.

環境変数を設定する

この例では、AZURE_OPENAI_API_KEY、AZURE_OPENAI_ENDPOINT、AZURE_OPENAI_CHAT_DEPLOYMENT、SPEECH_KEY、SPEECH_REGION という名前の環境変数が必要です。

重要

AI サービスのセキュリティの詳細については、「Azure AI サービスに対する要求の認証」を参照してください。

環境変数を設定するには、コンソールウィンドウを開き、オペレーティングシステムと開発環境の指示に従います。

AZURE_OPENAI_API_KEY 環境変数を設定するには、your-openai-key をリソースのキーの 1 つに置き換えます。
AZURE_OPENAI_ENDPOINT 環境変数を設定するには、your-openai-endpoint をリソースのリージョンの 1 つに置き換えます。
AZURE_OPENAI_CHAT_DEPLOYMENT 環境変数を設定するには、your-openai-deployment-name をリソースのリージョンの 1 つに置き換えます。
SPEECH_KEY 環境変数を設定するには、your-speech-key をリソースのキーの 1 つに置き換えます。
SPEECH_REGION 環境変数を設定するには、your-speech-region をリソースのリージョンの 1 つに置き換えます。

setx AZURE_OPENAI_API_KEY your-openai-key
setx AZURE_OPENAI_ENDPOINT your-openai-endpoint
setx AZURE_OPENAI_CHAT_DEPLOYMENT your-openai-deployment-name
setx SPEECH_KEY your-speech-key
setx SPEECH_REGION your-speech-region

注意

現在実行中のコンソール内の環境変数にのみアクセスする必要がある場合は、環境変数を setx の代わりに set に設定します。

export AZURE_OPENAI_API_KEY=your-openai-key
export AZURE_OPENAI_ENDPOINT=your-openai-endpoint
export AZURE_OPENAI_CHAT_DEPLOYMENT=your-openai-deployment-name
export SPEECH_KEY=your-speech-key
export SPEECH_REGION=your-speech-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bashrc を実行します。

Bash

.bash_profile を編集し、環境変数を追加します。

export AZURE_OPENAI_API_KEY=your-openai-key
export AZURE_OPENAI_ENDPOINT=your-openai-endpoint
export AZURE_OPENAI_CHAT_DEPLOYMENT=your-openai-deployment-name # For example, "gpt-4o-mini"
export SPEECH_KEY=your-speech-key
export SPEECH_REGION=your-speech-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bash_profile を実行します。

Xcode

iOS と macOS の開発では、Xcode で環境変数を設定します。たとえば、次の手順に従って、Xcode 13.4.1 で環境変数を設定します。

[製品]>[スキーム]>[スキームの編集] の順に選択します。
[実行] (デバッグ実行) ページで [引数] を選択します。
[環境変数] で、プラス記号 (+) を選択して、新しい環境変数を追加します。
[名前] に SPEECH_KEY を入力し、[値] に Azure Cognitive Service for Speech リソースキーを入力します。

手順を繰り返して、他の必要な環境変数を設定します。

その他の構成オプションについては、Xcode のドキュメントを参照してください。

マイクから音声を認識する

次の手順を実行して、新しいコンソールアプリケーションを作成します。

新しいプロジェクトを作成したいフォルダーでコマンドプロンプトウィンドウを開きます。新しいプロジェクトを作成するコマンドプロンプトを開き、azure-openai-speech.py という名前の新しいファイルを作成します。
次のコマンドを実行して、Speech SDK をインストールします。
```
pip install azure-cognitiveservices-speech
```
次のコマンドを実行して、 OpenAI SDK をインストールします：
```
pip install openai
```
注意

このライブラリは、Microsoft Azure ではなく OpenAI によって管理されます。このライブラリの最新の更新を追跡するには、リリース履歴または version.py のコミット履歴を参照してください。

azure-openai-speech.py という名前のファイルを作成します。次のコードをそのファイルにコピーします。

import os
import azure.cognitiveservices.speech as speechsdk
from openai import AzureOpenAI

# This example requires environment variables named "AZURE_OPENAI_API_KEY", "AZURE_OPENAI_ENDPOINT" and "AZURE_OPENAI_CHAT_DEPLOYMENT"
# Your endpoint should look like the following https://YOUR_OPEN_AI_RESOURCE_NAME.openai.azure.com/
client = AzureOpenAI(
azure_endpoint=os.environ.get('AZURE_OPENAI_ENDPOINT'),
api_key=os.environ.get('AZURE_OPENAI_API_KEY'),
api_version="2023-05-15"
)

# This will correspond to the custom name you chose for your deployment when you deployed a model.
deployment_id=os.environ.get('AZURE_OPENAI_CHAT_DEPLOYMENT')

# This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
audio_output_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)

# Should be the locale for the speaker's language.
speech_config.speech_recognition_language="en-US"
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

# The language of the voice that responds on behalf of Azure OpenAI.
speech_config.speech_synthesis_voice_name='en-US-JennyMultilingualNeural'
speech_synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_output_config)
# tts sentence end mark
tts_sentence_end = [ ".", "!", "?", ";", "。", "！", "？", "；", "\n" ]

# Prompts Azure OpenAI with a request and synthesizes the response.
def ask_azure_openai(prompt):
    # Ask Azure OpenAI in streaming way
    response = client.chat.completions.create(model=deployment_id, max_tokens=200, stream=True, messages=[
        {"role": "user", "content": prompt}
    ])
    collected_messages = []
    last_tts_request = None

    # iterate through the stream response stream
    for chunk in response:
        if len(chunk.choices) > 0:
            chunk_message = chunk.choices[0].delta.content  # extract the message
            if chunk_message is not None:
                collected_messages.append(chunk_message)  # save the message
                if chunk_message in tts_sentence_end: # sentence end found
                    text = ''.join(collected_messages).strip() # join the recieved message together to build a sentence
                    if text != '': # if sentence only have \n or space, we could skip
                        print(f"Speech synthesized to speaker for: {text}")
                        last_tts_request = speech_synthesizer.speak_text_async(text)
                        collected_messages.clear()
    if last_tts_request:
        last_tts_request.get()

# Continuously listens for speech input to recognize and send as text to Azure OpenAI
def chat_with_azure_openai():
    while True:
        print("Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.")
        try:
            # Get audio from the microphone and then send it to the TTS service.
            speech_recognition_result = speech_recognizer.recognize_once_async().get()

            # If speech is recognized, send it to Azure OpenAI and listen for the response.
            if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
                if speech_recognition_result.text == "Stop.": 
                    print("Conversation ended.")
                    break
                print("Recognized speech: {}".format(speech_recognition_result.text))
                ask_azure_openai(speech_recognition_result.text)
            elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
                print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
                break
            elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
                cancellation_details = speech_recognition_result.cancellation_details
                print("Speech Recognition canceled: {}".format(cancellation_details.reason))
                if cancellation_details.reason == speechsdk.CancellationReason.Error:
                    print("Error details: {}".format(cancellation_details.error_details))
        except EOFError:
            break

# Main

try:
    chat_with_azure_openai()
except Exception as err:
    print("Encountered exception. {}".format(err))

Azure OpenAI によって返されるトークンの数を増減するには、max_tokens パラメーターを変更します。トークンとコストへの影響の詳細については、「 Azure OpenAI トークンと Azure OpenAI の価格」を参照してください。
新しいコンソールアプリケーションを実行して、マイクからの音声認識を開始します。
```
python azure-openai-speech.py
```

重要

前述の説明に従って、環境変数 AZURE_OPENAI_API_KEY、AZURE_OPENAI_ENDPOINT、AZURE_OPENAI_CHAT_DEPLOYMENT、SPEECH_KEY、SPEECH_REGION を設定してください。これらの変数を設定しない場合、サンプルはエラーメッセージが表示されて失敗します。

PS C:\dev\openai\python> python.exe .\azure-openai-speech.py
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Recognized speech:Make a comma separated list of all continents.
Azure OpenAI response:Africa, Antarctica, Asia, Australia, Europe, North America, South America
Speech synthesized to speaker for text [Africa, Antarctica, Asia, Australia, Europe, North America, South America]
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Recognized speech: Make a comma separated list of 1 Astronomical observatory for each continent. A list should include each continent name in parentheses.
Azure OpenAI response:Mauna Kea Observatories (North America), La Silla Observatory (South America), Tenerife Observatory (Europe), Siding Spring Observatory (Australia), Beijing Xinglong Observatory (Asia), Naukluft Plateau Observatory (Africa), Rutherford Appleton Laboratory (Antarctica)
Speech synthesized to speaker for text [Mauna Kea Observatories (North America), La Silla Observatory (South America), Tenerife Observatory (Europe), Siding Spring Observatory (Australia), Beijing Xinglong Observatory (Asia), Naukluft Plateau Observatory (Africa), Rutherford Appleton Laboratory (Antarctica)]
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Conversation ended.
PS C:\dev\openai\python>

解説

いくつかの考慮事項を次に示します。

音声認識言語を変更するには、en-US を別のen-USに置き換えます。たとえば、スペイン語 (スペイン) の場合は、es-ES を作成します。既定の言語は en-US です。話される可能性のある複数の言語の 1 つを識別する方法の詳細については、言語の識別に関するページを参照してください。
読み上げる音声を変更するには、別のサポートされている音声にen-US-JennyMultilingualNeuralを置き換えます。 Azure OpenAIから返されたテキストの言語が音声で読み上げられない場合、Speech サービスでは合成された音声が出力されません。
テキスト読み上げ出力の待ち時間を短縮するには、テキストストリーミング機能を使います。これを使うと、高速オーディオ生成のためのリアルタイムテキスト処理が有効になり、待ち時間が最小限に抑えられて、リアルタイムオーディオ出力の滑らかさと応答性が向上します。「テキストストリーミングの使用方法」をご覧ください。
音声出力の視覚的なエクスペリエンスとして TTS アバターを有効にするには、テキスト読み上げアバターのリアルタイム合成に関する記事と、アバターを使用したチャットシナリオのサンプルコードをご覧ください。
Azure OpenAI では、プロンプト入力と生成された出力に対してコンテンツモデレーションも実行されます。有害なコンテンツが検出された場合、プロンプトまたは応答がフィルター処理される可能性があります。詳しくは、コンテンツフィルターアーティクルを参照してください。

リソースをクリーンアップする

Azure portal または Azure コマンドラインインターフェイス (CLI) を使用して、作成した音声リソースを削除できます。

次の方法で共有

Azure OpenAI 音声読み上げチャット

前提条件

環境をセットアップする

環境変数の設定

Bash

Xcode

マイクから音声を認識する

解説

リソースをクリーンアップする

前提条件

環境をセットアップする

環境変数を設定する

Bash

Xcode

マイクから音声を認識する

解説

リソースをクリーンアップする

フィードバック

その他のリソース

次の方法で共有

Azure OpenAI 音声読み上げチャット

前提条件

環境をセットアップする

環境変数の設定

マイクから音声を認識する

解説

リソースをクリーンアップする

前提条件

環境をセットアップする

環境変数を設定する

マイクから音声を認識する

解説

リソースをクリーンアップする

関連するコンテンツ

フィードバック

その他のリソース