API GPT-4o v reálném čase pro řeč a zvuk (Preview)

2025-07-02

Poznámka:

Tato funkce je aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce nemusí být podporované nebo můžou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Rozhraní API Azure OpenAI GPT-4o v reálném čase pro řeč a zvuk je součástí řady modelů GPT-4o, která podporuje konverzace s nízkou latencí, kde se řeč zpracovává jako vstup i výstup.

Pomocí rozhraní API v reálném čase přes WebRTC nebo WebSocket můžete odeslat zvukový vstup do modelu a přijímat zvukové odpovědi v reálném čase.

Postupujte podle pokynů v tomto článku a začněte používat rozhraní API v reálném čase prostřednictvím webSocketů. Použití rozhraní API v reálném čase prostřednictvím webSocketů ve scénářích mezi servery, kdy nízká latence není požadavkem.

Návod

Ve většině případů doporučujeme používat rozhraní API v reálném čase přes WebRTC pro streamování zvuku v reálném čase v klientských aplikacích, jako je webová aplikace nebo mobilní aplikace. WebRTC je navržený pro nízkou latenci, streamování zvuku v reálném čase a je nejlepší volbou pro většinu případů použití.

Podporované modely

Modely GPT 4o v reálném čase jsou k dispozici pro globální nasazení.

gpt-4o-realtime-preview (verze 2024-12-17)
gpt-4o-mini-realtime-preview (verze 2024-12-17)

Další informace najdete v dokumentaci k modelům a verzím.

Podpora rozhraní API

Podpora rozhraní API v reálném čase byla poprvé přidána ve verzi 2024-10-01-preview rozhraní API (vyřazeno). Použijte verzi 2025-04-01-preview pro přístup k nejnovějším funkcím rozhraní API v reálném čase.

Nasazení modelu pro zvuk v reálném čase

Nasadit model gpt-4o-mini-realtime-preview na portálu Azure AI Foundry:

Přejděte na portál Azure AI Foundry a vytvořte nebo vyberte svůj projekt.
V části Moje prostředky v levém podokně vyberte Modely a koncové body.
Vyberte + Nasadit model>Nasadit základní model, aby se otevřelo okno nasazení.
Vyhledejte a vyberte gpt-4o-mini-realtime-preview model a pak vyberte Potvrdit.
Zkontrolujte podrobnosti o nasazení a vyberte Nasadit.
Následujte průvodce k dokončení nasazení modelu.

Teď, když máte nasazení gpt-4o-mini-realtime-preview modelu, můžete s ním pracovat na portálu Azure AI Foundry Audio playground nebo v rozhraní API pro zpracování v reálném čase.

Použijte zvuk GPT-4o v reálném čase

Pokud chcete chatovat s nasazeným gpt-4o-mini-realtime-preview modelem ve zvukovémhřišti Azure AI Foundryv reálném čase, postupujte takto:

Přejděte na portál Azure AI Foundry a vyberte svůj projekt s nasazeným gpt-4o-mini-realtime-preview modelem.
V levém podokně vyberte Dětské hřiště .
Vyberte Audio playground>.

Poznámka:

Chatové hřiště nepodporuje gpt-4o-mini-realtime-preview model. Použijte zvukové hřiště , jak je popsáno v této části.
Vyberte svůj gpt-4o-mini-realtime-preview model z rozevíracího seznamu Nasazení.
Volitelně můžete upravit obsah v poli Zadat pokyny k modelu a kontextové textové pole. Poskytněte modelu pokyny, jak by se měl chovat, a jakýkoli kontext, na který by měl odkazovat při generování odpovědi. Můžete popsat osobnost asistenta, sdělit, co by měl a neměl odpovídat, a sdělit, jak formátovat odpovědi.
Volitelně můžete změnit nastavení, jako je prahová hodnota, odsazení předpony a doba trvání ticha.
Vyberte Spustit naslouchání a spusťte relaci. Můžete mluvit do mikrofonu a zahájit chat.
Chat můžete kdykoli přerušit tím, že promluvíte. Chat můžete ukončit tak , že vyberete tlačítko Ukončit naslouchání .

Požadavky

Předplatné Azure – Vytvoření předplatného zdarma
Podpora LTS nebo ESM pro Node.js.
Prostředek Azure OpenAI vytvořený v jedné z podporovaných oblastí. Další informace o dostupnosti oblastí najdete v dokumentaci k modelům a verzím.
Pak potřebujete nasadit model do prostředku Azure OpenAI gpt-4o-mini-realtime-preview. Další informace najdete v tématu Vytvoření prostředku a nasazení modelu pomocí Azure OpenAI.

Požadavky pro Microsoft Entra ID

Pro doporučené ověřování bez klíčů s ID Microsoft Entra musíte:

Nainstalujte Azure CLI, které se používá pro ověřování bez klíčů pomocí ID Microsoft Entra.
Přiřaďte k vašemu uživatelskému účtu roli Cognitive Services User. Role můžete přiřadit v portálu Azure v části Řízení přístupu (IAM)>Přidat přiřazení role.

Nasazení modelu pro zvuk v reálném čase

Nasadit model gpt-4o-mini-realtime-preview na portálu Azure AI Foundry:

Přejděte na portál Azure AI Foundry a vytvořte nebo vyberte svůj projekt.
V části Moje prostředky v levém podokně vyberte Modely a koncové body.
Vyberte + Nasadit model>Nasadit základní model, aby se otevřelo okno nasazení.
Vyhledejte a vyberte gpt-4o-mini-realtime-preview model a pak vyberte Potvrdit.
Zkontrolujte podrobnosti o nasazení a vyberte Nasadit.
Následujte průvodce k dokončení nasazení modelu.

Teď, když máte nasazení gpt-4o-mini-realtime-preview modelu, můžete s ním pracovat na portálu Azure AI Foundry Audio playground nebo v rozhraní API pro zpracování v reálném čase.

Nastavení

Vytvořte novou složku realtime-audio-quickstart a přejděte do složky průvodce rychlým začátkem pomocí následujícího příkazu:
```
mkdir realtime-audio-quickstart && cd realtime-audio-quickstart
```
Vytvořte package.json pomocí následujícího příkazu:
```
npm init -y
```
Nainstalujte klientskou knihovnu OpenAI pro JavaScript pomocí:
```
npm install openai
```
Pro doporučené ověřování bez klíčů s ID Microsoft Entra nainstalujte balíček pomocí@azure/identity:
```
npm install @azure/identity
```

Získat informace o prostředcích

Abyste mohli aplikaci ověřit pomocí prostředku Azure OpenAI, musíte načíst následující informace:

Microsoft Entra ID
Klíč rozhraní API

Název proměnné	Hodnota
`AZURE_OPENAI_ENDPOINT`	Tuto hodnotu najdete v sekci Klíče a koncový bod při kontrole vašeho prostředku v Azure portálu.
`AZURE_OPENAI_DEPLOYMENT_NAME`	Tato hodnota bude odpovídat vlastnímu názvu, který jste si zvolili při nasazování modelu. Tuto hodnotu najdete v části Nasazení modelu správy>prostředků na webu Azure Portal.
`OPENAI_API_VERSION`	Přečtěte si další informace o verzích rozhraní API. Můžete změnit verzi v kódu nebo použít proměnnou prostředí.

Přečtěte si další informace o ověřování bez klíčů a nastavení proměnných prostředí.

Název proměnné	Hodnota
`AZURE_OPENAI_ENDPOINT`	Tuto hodnotu najdete v sekci Klíče a koncový bod při kontrole vašeho prostředku v Azure portálu.
`AZURE_OPENAI_API_KEY`	Tuto hodnotu najdete v sekci Klíče a koncový bod při kontrole vašeho prostředku v Azure portálu. Použít můžete předponu `KEY1` nebo `KEY2`.
`AZURE_OPENAI_DEPLOYMENT_NAME`	Tato hodnota bude odpovídat vlastnímu názvu, který jste si zvolili při nasazování modelu. Tuto hodnotu najdete v části Nasazení modelu správy>prostředků na webu Azure Portal.
`OPENAI_API_VERSION`	Přečtěte si další informace o verzích rozhraní API.

Přečtěte si další informace o hledání klíčů rozhraní API a nastavení proměnných prostředí.

Důležité

Používejte klíče rozhraní API s opatrností. Nezahrnujte klíč API přímo do svého kódu a nikdy ho nezveřejňujte veřejně. Pokud používáte klíč rozhraní API, bezpečně ho uložte ve službě Azure Key Vault. Další informace o bezpečném používání klíčů ROZHRANÍ API ve vašich aplikacích najdete v tématu Klíče rozhraní API se službou Azure Key Vault.

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Upozornění

Pokud chcete použít doporučované bezklíčové ověřování při použití sady SDK, ujistěte se, že proměnná prostředí AZURE_OPENAI_API_KEY není definovaná.

index.js Vytvořte soubor s následujícím kódem:

import { OpenAIRealtimeWS } from "openai/beta/realtime/ws";
import { AzureOpenAI } from "openai";
import { DefaultAzureCredential, getBearerTokenProvider } from "@azure/identity";
async function main() {
    // You will need to set these environment variables or edit the following values
    const endpoint = process.env.AZURE_OPENAI_ENDPOINT || "AZURE_OPENAI_ENDPOINT";
    // Required Azure OpenAI deployment name and API version
    const deploymentName = process.env.AZURE_OPENAI_DEPLOYMENT_NAME || "gpt-4o-mini-realtime-preview";
    const apiVersion = process.env.OPENAI_API_VERSION || "2025-04-01-preview";
    // Keyless authentication 
    const credential = new DefaultAzureCredential();
    const scope = "https://cognitiveservices.azure.com/.default";
    const azureADTokenProvider = getBearerTokenProvider(credential, scope);
    const azureOpenAIClient = new AzureOpenAI({
        azureADTokenProvider,
        apiVersion: apiVersion,
        deployment: deploymentName,
        endpoint: endpoint,
    });
    const realtimeClient = await OpenAIRealtimeWS.azure(azureOpenAIClient);
    realtimeClient.socket.on("open", () => {
        console.log("Connection opened!");
        realtimeClient.send({
            type: "session.update",
            session: {
                modalities: ["text", "audio"],
                model: "gpt-4o-mini-realtime-preview",
            },
        });
        realtimeClient.send({
            type: "conversation.item.create",
            item: {
                type: "message",
                role: "user",
                content: [{ type: "input_text", text: "Please assist the user" }],
            },
        });
        realtimeClient.send({ type: "response.create" });
    });
    realtimeClient.on("error", (err) => {
        // Instead of throwing the error, you can log it
        // and continue processing events.
        throw err;
    });
    realtimeClient.on("session.created", (event) => {
        console.log("session created!", event.session);
        console.log();
    });
    realtimeClient.on("response.text.delta", (event) => process.stdout.write(event.delta));
    realtimeClient.on("response.audio.delta", (event) => {
        const buffer = Buffer.from(event.delta, "base64");
        console.log(`Received ${buffer.length} bytes of audio data.`);
    });
    realtimeClient.on("response.audio_transcript.delta", (event) => {
        console.log(`Received text delta:${event.delta}.`);
    });
    realtimeClient.on("response.text.done", () => console.log());
    realtimeClient.on("response.done", () => realtimeClient.close());
    realtimeClient.socket.on("close", () => console.log("\nConnection closed!"));
}
main().catch((err) => {
    console.error("The sample encountered an error:", err);
});
export { main };

Přihlaste se k Azure pomocí následujícího příkazu:
```
az login
```
Spusťte javascriptový soubor.
```
node index.js
```

index.js Vytvořte soubor s následujícím kódem:

import { OpenAIRealtimeWS } from "openai/beta/realtime/ws";
import { AzureOpenAI } from "openai";
async function main() {
    // You will need to set these environment variables or edit the following values
    const endpoint = process.env.AZURE_OPENAI_ENDPOINT || "AZURE_OPENAI_ENDPOINT";
    const apiKey = process.env.AZURE_OPENAI_API_KEY || "Your API key";
    // Required Azure OpenAI deployment name and API version
    const deploymentName = process.env.AZURE_OPENAI_DEPLOYMENT_NAME || "gpt-4o-mini-realtime-preview";
    const apiVersion = process.env.OPENAI_API_VERSION || "2025-04-01-preview";
    const azureOpenAIClient = new AzureOpenAI({
        apiKey: apiKey,
        apiVersion: apiVersion,
        deployment: deploymentName,
        endpoint: endpoint,
    });
    const realtimeClient = await OpenAIRealtimeWS.azure(azureOpenAIClient);
    realtimeClient.socket.on("open", () => {
        console.log("Connection opened!");
        realtimeClient.send({
            type: "session.update",
            session: {
                modalities: ["text", "audio"],
                model: "gpt-4o-mini-realtime-preview",
            },
        });
        realtimeClient.send({
            type: "conversation.item.create",
            item: {
                type: "message",
                role: "user",
                content: [{ type: "input_text", text: "Please assist the user" }],
            },
        });
        realtimeClient.send({ type: "response.create" });
    });
    realtimeClient.on("error", (err) => {
        // Instead of throwing the error, you can log it
        // and continue processing events.
        throw err;
    });
    realtimeClient.on("session.created", (event) => {
        console.log("session created!", event.session);
        console.log();
    });
    realtimeClient.on("response.text.delta", (event) => process.stdout.write(event.delta));
    realtimeClient.on("response.audio.delta", (event) => {
        const buffer = Buffer.from(event.delta, "base64");
        console.log(`Received ${buffer.length} bytes of audio data.`);
    });
    realtimeClient.on("response.audio_transcript.delta", (event) => {
        console.log(`Received text delta:${event.delta}.`);
    });
    realtimeClient.on("response.text.done", () => console.log());
    realtimeClient.on("response.done", () => realtimeClient.close());
    realtimeClient.socket.on("close", () => console.log("\nConnection closed!"));
}
main().catch((err) => {
    console.error("The sample encountered an error:", err);
});
export { main };

Spusťte javascriptový soubor.
```
node index.js
```

Počkejte chvíli, než se odpověď zobrazí.

Výstup

Skript získá odpověď z modelu a zobrazí přijatý přepis a zvuková data.

Výstup bude vypadat nějak takto:

Received text delta:Of.
Received text delta: course.
Received text delta:!.
Received text delta: How.
Received text delta: can.
Received 4800 bytes of audio data.
Received 7200 bytes of audio data.
Received text delta: I.
Received 12000 bytes of audio data.
Received text delta: help.
Received text delta: you.
Received text delta: today.
Received text delta:?.
Received 12000 bytes of audio data.
Received 12000 bytes of audio data.
Received 12000 bytes of audio data.
Received 26400 bytes of audio data.

Connection closed!

Požadavky

Předplatné služby Azure. Vytvořte si ho zdarma.
Python 3.8 nebo novější verze Doporučujeme používat Python 3.10 nebo novější, ale vyžaduje se aspoň Python 3.8. Pokud nemáte nainstalovanou vhodnou verzi Pythonu, můžete postupovat podle pokynů v kurzu VS Code Python pro nejjednodušší způsob instalace Pythonu do operačního systému.
Prostředek Azure OpenAI vytvořený v jedné z podporovaných oblastí. Další informace o dostupnosti oblastí najdete v dokumentaci k modelům a verzím.
Pak potřebujete nasadit model do prostředku Azure OpenAI gpt-4o-mini-realtime-preview. Další informace najdete v tématu Vytvoření prostředku a nasazení modelu pomocí Azure OpenAI.

Požadavky pro Microsoft Entra ID

Pro doporučené ověřování bez klíčů s ID Microsoft Entra musíte:

Nainstalujte Azure CLI, které se používá pro ověřování bez klíčů pomocí ID Microsoft Entra.
Přiřaďte k vašemu uživatelskému účtu roli Cognitive Services User. Role můžete přiřadit v portálu Azure v části Řízení přístupu (IAM)>Přidat přiřazení role.

Nasazení modelu pro zvuk v reálném čase

Nasadit model gpt-4o-mini-realtime-preview na portálu Azure AI Foundry:

Přejděte na portál Azure AI Foundry a vytvořte nebo vyberte svůj projekt.
V části Moje prostředky v levém podokně vyberte Modely a koncové body.
Vyberte + Nasadit model>Nasadit základní model, aby se otevřelo okno nasazení.
Vyhledejte a vyberte gpt-4o-mini-realtime-preview model a pak vyberte Potvrdit.
Zkontrolujte podrobnosti o nasazení a vyberte Nasadit.
Následujte průvodce k dokončení nasazení modelu.

Teď, když máte nasazení gpt-4o-mini-realtime-preview modelu, můžete s ním pracovat na portálu Azure AI Foundry Audio playground nebo v rozhraní API pro zpracování v reálném čase.

Nastavení

Vytvořte novou složku realtime-audio-quickstart a přejděte do složky průvodce rychlým začátkem pomocí následujícího příkazu:
```
mkdir realtime-audio-quickstart && cd realtime-audio-quickstart
```
Vytvořte virtuální prostředí. Pokud už máte nainstalovaný Python 3.10 nebo novější, můžete vytvořit virtuální prostředí pomocí následujících příkazů:
- Windows
- Linux
- macOS
```
py -3 -m venv .venv
.venv\scripts\activate
```
```
python3 -m venv .venv
source .venv/bin/activate
```
```
python3 -m venv .venv
source .venv/bin/activate
```
Aktivace prostředí Python znamená, že při spuštění python nebo pip z příkazového řádku pak použijete interpret Pythonu obsažený ve .venv složce vaší aplikace. Pomocí příkazu můžete deactivate ukončit virtuální prostředí Pythonu a později ho v případě potřeby znovu aktivovat.

Návod

Doporučujeme vytvořit a aktivovat nové prostředí Pythonu pro instalaci balíčků, které potřebujete pro účely tohoto kurzu. Neinstalujte balíčky do globální instalace Pythonu. Při instalaci balíčků Pythonu byste měli vždy používat virtuální prostředí nebo prostředí Conda, jinak můžete přerušit globální instalaci Pythonu.
Nainstalujte klientskou knihovnu OpenAI Pythonu pomocí:
```
pip install openai[realtime]
```
Poznámka:

Tuto knihovnu udržuje OpenAI. Informace o nejnovějších aktualizacích knihovny najdete v historii vydání.
Pro doporučené ověřování bez klíčů s ID Microsoft Entra nainstalujte balíček pomocíazure-identity:
```
pip install azure-identity
```

Získat informace o prostředcích

Abyste mohli aplikaci ověřit pomocí prostředku Azure OpenAI, musíte načíst následující informace:

Microsoft Entra ID
Klíč rozhraní API

Název proměnné	Hodnota
`AZURE_OPENAI_ENDPOINT`	Tuto hodnotu najdete v sekci Klíče a koncový bod při kontrole vašeho prostředku v Azure portálu.
`AZURE_OPENAI_DEPLOYMENT_NAME`	Tato hodnota bude odpovídat vlastnímu názvu, který jste si zvolili při nasazování modelu. Tuto hodnotu najdete v části Nasazení modelu správy>prostředků na webu Azure Portal.
`OPENAI_API_VERSION`	Přečtěte si další informace o verzích rozhraní API. Můžete změnit verzi v kódu nebo použít proměnnou prostředí.

Přečtěte si další informace o ověřování bez klíčů a nastavení proměnných prostředí.

Název proměnné	Hodnota
`AZURE_OPENAI_ENDPOINT`	Tuto hodnotu najdete v sekci Klíče a koncový bod při kontrole vašeho prostředku v Azure portálu.
`AZURE_OPENAI_API_KEY`	Tuto hodnotu najdete v sekci Klíče a koncový bod při kontrole vašeho prostředku v Azure portálu. Použít můžete předponu `KEY1` nebo `KEY2`.
`AZURE_OPENAI_DEPLOYMENT_NAME`	Tato hodnota bude odpovídat vlastnímu názvu, který jste si zvolili při nasazování modelu. Tuto hodnotu najdete v části Nasazení modelu správy>prostředků na webu Azure Portal.
`OPENAI_API_VERSION`	Přečtěte si další informace o verzích rozhraní API.

Přečtěte si další informace o hledání klíčů rozhraní API a nastavení proměnných prostředí.

Důležité

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Upozornění

Pokud chcete použít doporučované bezklíčové ověřování při použití sady SDK, ujistěte se, že proměnná prostředí AZURE_OPENAI_API_KEY není definovaná.

Text ve zvukovém přenosu

Microsoft Entra ID
Klíč rozhraní API

text-in-audio-out.py Vytvořte soubor s následujícím kódem:

import os
import base64
import asyncio
from openai import AsyncAzureOpenAI
from azure.identity.aio import DefaultAzureCredential, get_bearer_token_provider

async def main() -> None:
    """
    When prompted for user input, type a message and hit enter to send it to the model.
    Enter "q" to quit the conversation.
    """

    credential = DefaultAzureCredential()
    token_provider=get_bearer_token_provider(credential, "https://cognitiveservices.azure.com/.default")
    client = AsyncAzureOpenAI(
        azure_endpoint=os.environ["AZURE_OPENAI_ENDPOINT"],
        azure_ad_token_provider=token_provider,
        api_version="2025-04-01-preview",
    )
    async with client.beta.realtime.connect(
        model="gpt-4o-realtime-preview",  # name of your deployment
    ) as connection:
        await connection.session.update(session={"modalities": ["text", "audio"]})  
        while True:
            user_input = input("Enter a message: ")
            if user_input == "q":
                break

            await connection.conversation.item.create(
                item={
                    "type": "message",
                    "role": "user",
                    "content": [{"type": "input_text", "text": user_input}],
                }
            )
            await connection.response.create()
            async for event in connection:
                if event.type == "response.text.delta":
                    print(event.delta, flush=True, end="")
                elif event.type == "response.audio.delta":

                    audio_data = base64.b64decode(event.delta)
                    print(f"Received {len(audio_data)} bytes of audio data.")
                elif event.type == "response.audio_transcript.delta":
                    print(f"Received text delta: {event.delta}")
                elif event.type == "response.text.done":
                    print()
                elif event.type == "response.done":
                    break

    await credential.close()

asyncio.run(main())

Přihlaste se k Azure pomocí následujícího příkazu:
```
az login
```
Spusťte soubor Pythonu.
```
python text-in-audio-out.py
```
Po zobrazení výzvy k zadání uživatelského vstupu zadejte zprávu a stisknutím klávesy Enter ji odešlete do modelu. Zadáním "q" ukončíte konverzaci.

text-in-audio-out.py Vytvořte soubor s následujícím kódem:

import os
import base64
import asyncio
from openai import AsyncAzureOpenAI
from azure.identity.aio import DefaultAzureCredential, get_bearer_token_provider

async def main() -> None:
    """
    When prompted for user input, type a message and hit enter to send it to the model.
    Enter "q" to quit the conversation.
    """

    client = AsyncAzureOpenAI(
        azure_endpoint=os.environ["AZURE_OPENAI_ENDPOINT"],
        api_key=os.environ["AZURE_OPENAI_API_KEY"],
        api_version="2025-04-01-preview",
    )
    async with client.beta.realtime.connect(
        model="gpt-4o-realtime-preview",  # deployment name of your model
    ) as connection:
        await connection.session.update(session={"modalities": ["text", "audio"]})  
        while True:
            user_input = input("Enter a message: ")
            if user_input == "q":
                break

            await connection.conversation.item.create(
                item={
                    "type": "message",
                    "role": "user",
                    "content": [{"type": "input_text", "text": user_input}],
                }
            )
            await connection.response.create()
            async for event in connection:
                if event.type == "response.text.delta":
                    print(event.delta, flush=True, end="")
                elif event.type == "response.audio.delta":

                    audio_data = base64.b64decode(event.delta)
                    print(f"Received {len(audio_data)} bytes of audio data.")
                elif event.type == "response.audio_transcript.delta":
                    print(f"Received text delta: {event.delta}")
                elif event.type == "response.text.done":
                    print()
                elif event.type == "response.done":
                    break

asyncio.run(main())

Spusťte soubor Pythonu.
```
python text-in-audio-out.py
```
Po zobrazení výzvy k zadání uživatelského vstupu zadejte zprávu a stisknutím klávesy Enter ji odešlete do modelu. Zadáním "q" ukončíte konverzaci.

Počkejte chvíli, než se odpověď zobrazí.

Výstup

Skript získá odpověď z modelu a zobrazí přijatý přepis a zvuková data.

Výstup vypadá nějak takto:

Enter a message: Please assist the user
Received text delta: Of
Received text delta:  course
Received text delta: !
Received text delta:  How
Received 4800 bytes of audio data.
Received 7200 bytes of audio data.
Received 12000 bytes of audio data.
Received text delta:  can
Received text delta:  I
Received text delta:  assist
Received 12000 bytes of audio data.
Received 12000 bytes of audio data.
Received text delta:  you
Received text delta:  today
Received text delta: ?
Received 12000 bytes of audio data.
Received 24000 bytes of audio data.
Received 36000 bytes of audio data.
Enter a message: q

Požadavky

Předplatné Azure – Vytvoření předplatného zdarma
Podpora LTS nebo ESM pro Node.js.
TypeScript je nainstalovaný globálně.
Prostředek Azure OpenAI vytvořený v jedné z podporovaných oblastí. Další informace o dostupnosti oblastí najdete v dokumentaci k modelům a verzím.
Pak potřebujete nasadit model do prostředku Azure OpenAI gpt-4o-mini-realtime-preview. Další informace najdete v tématu Vytvoření prostředku a nasazení modelu pomocí Azure OpenAI.

Požadavky pro Microsoft Entra ID

Pro doporučené ověřování bez klíčů s ID Microsoft Entra musíte:

Nainstalujte Azure CLI, které se používá pro ověřování bez klíčů pomocí ID Microsoft Entra.
Přiřaďte k vašemu uživatelskému účtu roli Cognitive Services User. Role můžete přiřadit v portálu Azure v části Řízení přístupu (IAM)>Přidat přiřazení role.

Nasazení modelu pro zvuk v reálném čase

Nasadit model gpt-4o-mini-realtime-preview na portálu Azure AI Foundry:

Přejděte na portál Azure AI Foundry a vytvořte nebo vyberte svůj projekt.
V části Moje prostředky v levém podokně vyberte Modely a koncové body.
Vyberte + Nasadit model>Nasadit základní model, aby se otevřelo okno nasazení.
Vyhledejte a vyberte gpt-4o-mini-realtime-preview model a pak vyberte Potvrdit.
Zkontrolujte podrobnosti o nasazení a vyberte Nasadit.
Následujte průvodce k dokončení nasazení modelu.

Teď, když máte nasazení gpt-4o-mini-realtime-preview modelu, můžete s ním pracovat na portálu Azure AI Foundry Audio playground nebo v rozhraní API pro zpracování v reálném čase.

Nastavení

Vytvořte novou složku realtime-audio-quickstart a přejděte do složky průvodce rychlým začátkem pomocí následujícího příkazu:
```
mkdir realtime-audio-quickstart && cd realtime-audio-quickstart
```
Vytvořte package.json pomocí následujícího příkazu:
```
npm init -y
```
Aktualizujte package.json na ECMAScript následujícím příkazem:
```
npm pkg set type=module
```
Nainstalujte klientskou knihovnu OpenAI pro JavaScript pomocí:
```
npm install openai
```
Pro doporučené ověřování bez klíčů s ID Microsoft Entra nainstalujte balíček pomocí@azure/identity:
```
npm install @azure/identity
```

Získat informace o prostředcích

Abyste mohli aplikaci ověřit pomocí prostředku Azure OpenAI, musíte načíst následující informace:

Microsoft Entra ID
Klíč rozhraní API

Název proměnné	Hodnota
`AZURE_OPENAI_ENDPOINT`	Tuto hodnotu najdete v sekci Klíče a koncový bod při kontrole vašeho prostředku v Azure portálu.
`AZURE_OPENAI_DEPLOYMENT_NAME`	Tato hodnota bude odpovídat vlastnímu názvu, který jste si zvolili při nasazování modelu. Tuto hodnotu najdete v části Nasazení modelu správy>prostředků na webu Azure Portal.
`OPENAI_API_VERSION`	Přečtěte si další informace o verzích rozhraní API. Můžete změnit verzi v kódu nebo použít proměnnou prostředí.

Přečtěte si další informace o ověřování bez klíčů a nastavení proměnných prostředí.

Název proměnné	Hodnota
`AZURE_OPENAI_ENDPOINT`	Tuto hodnotu najdete v sekci Klíče a koncový bod při kontrole vašeho prostředku v Azure portálu.
`AZURE_OPENAI_API_KEY`	Tuto hodnotu najdete v sekci Klíče a koncový bod při kontrole vašeho prostředku v Azure portálu. Použít můžete předponu `KEY1` nebo `KEY2`.
`AZURE_OPENAI_DEPLOYMENT_NAME`	Tato hodnota bude odpovídat vlastnímu názvu, který jste si zvolili při nasazování modelu. Tuto hodnotu najdete v části Nasazení modelu správy>prostředků na webu Azure Portal.
`OPENAI_API_VERSION`	Přečtěte si další informace o verzích rozhraní API.

Přečtěte si další informace o hledání klíčů rozhraní API a nastavení proměnných prostředí.

Důležité

Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.

Upozornění

Pokud chcete použít doporučované bezklíčové ověřování při použití sady SDK, ujistěte se, že proměnná prostředí AZURE_OPENAI_API_KEY není definovaná.

Text ve zvukovém přenosu

Microsoft Entra ID
Klíč rozhraní API

index.ts Vytvořte soubor s následujícím kódem:

import { OpenAIRealtimeWS } from "openai/beta/realtime/ws";
import { AzureOpenAI } from "openai";
import { DefaultAzureCredential, getBearerTokenProvider } from "@azure/identity";

async function main(): Promise<void> {

    // You will need to set these environment variables or edit the following values
    const endpoint = process.env.AZURE_OPENAI_ENDPOINT || "AZURE_OPENAI_ENDPOINT";

    // Required Azure OpenAI deployment name and API version
    const deploymentName = process.env.AZURE_OPENAI_DEPLOYMENT_NAME || "gpt-4o-mini-realtime-preview";
    const apiVersion = process.env.OPENAI_API_VERSION || "2025-04-01-preview"; 

    // Keyless authentication 
    const credential = new DefaultAzureCredential();
    const scope = "https://cognitiveservices.azure.com/.default";
    const azureADTokenProvider = getBearerTokenProvider(credential, scope);

    const azureOpenAIClient = new AzureOpenAI({
        azureADTokenProvider,
        apiVersion: apiVersion,
        deployment: deploymentName,
        endpoint: endpoint,
    });

    const realtimeClient = await OpenAIRealtimeWS.azure(azureOpenAIClient);

    realtimeClient.socket.on("open", () => {
        console.log("Connection opened!");
        realtimeClient.send({
        type: "session.update",
        session: {
            modalities: ["text", "audio"],
            model: "gpt-4o-mini-realtime-preview",
        },
        });
        realtimeClient.send({
        type: "conversation.item.create",
        item: {
            type: "message",
            role: "user",
            content: [{ type: "input_text", text: "Please assist the user" }],
        },
        });
        realtimeClient.send({ type: "response.create" });
    });
    realtimeClient.on("error", (err) => {
        // Instead of throwing the error, you can log it
        // and continue processing events.
        throw err;
    });
    realtimeClient.on("session.created", (event) => {
        console.log("session created!", event.session);
        console.log();
    });
    realtimeClient.on("response.text.delta", (event) => process.stdout.write(event.delta));
    realtimeClient.on("response.audio.delta", (event) => {
        const buffer = Buffer.from(event.delta, "base64");
        console.log(`Received ${buffer.length} bytes of audio data.`);
    });
    realtimeClient.on("response.audio_transcript.delta", (event) => {
        console.log(`Received text delta:${event.delta}.`);
    });
    realtimeClient.on("response.text.done", () => console.log());
    realtimeClient.on("response.done", () => realtimeClient.close());
    realtimeClient.socket.on("close", () => console.log("\nConnection closed!"));
}

main().catch((err) => {
    console.error("The sample encountered an error:", err);
});

export { main };

tsconfig.json Vytvořte soubor pro transpilování kódu TypeScript a zkopírujte následující kód pro ECMAScript.

{
    "compilerOptions": {
      "module": "NodeNext",
      "target": "ES2022", // Supports top-level await
      "moduleResolution": "NodeNext",
      "skipLibCheck": true, // Avoid type errors from node_modules
      "strict": true // Enable strict type-checking options
    },
    "include": ["*.ts"]
}

Transpilovat z TypeScriptu do JavaScriptu.
```
tsc
```
Přihlaste se k Azure pomocí následujícího příkazu:
```
az login
```
Spusťte kód pomocí následujícího příkazu:
```
node index.js
```

index.ts Vytvořte soubor s následujícím kódem:

import { OpenAIRealtimeWS } from "openai/beta/realtime/ws";
import { AzureOpenAI } from "openai";

async function main(): Promise<void> {

    // You will need to set these environment variables or edit the following values
    const endpoint = process.env.AZURE_OPENAI_ENDPOINT || "AZURE_OPENAI_ENDPOINT";
    const apiKey = process.env.AZURE_OPENAI_API_KEY || "Your API key";

    // Required Azure OpenAI deployment name and API version
    const deploymentName = process.env.AZURE_OPENAI_DEPLOYMENT_NAME || "gpt-4o-mini-realtime-preview";
    const apiVersion = process.env.OPENAI_API_VERSION || "2025-04-01-preview"; 

    const azureOpenAIClient = new AzureOpenAI({
        apiKey: apiKey,
        apiVersion: apiVersion,
        deployment: deploymentName,
        endpoint: endpoint,
    });

    const realtimeClient = await OpenAIRealtimeWS.azure(azureOpenAIClient);

    realtimeClient.socket.on("open", () => {
        console.log("Connection opened!");
        realtimeClient.send({
        type: "session.update",
        session: {
            modalities: ["text", "audio"],
            model: "gpt-4o-mini-realtime-preview",
        },
        });
        realtimeClient.send({
        type: "conversation.item.create",
        item: {
            type: "message",
            role: "user",
            content: [{ type: "input_text", text: "Please assist the user" }],
        },
        });
        realtimeClient.send({ type: "response.create" });
    });
    realtimeClient.on("error", (err) => {
        // Instead of throwing the error, you can log it
        // and continue processing events.
        throw err;
    });
    realtimeClient.on("session.created", (event) => {
        console.log("session created!", event.session);
        console.log();
    });
    realtimeClient.on("response.text.delta", (event) => process.stdout.write(event.delta));
    realtimeClient.on("response.audio.delta", (event) => {
        const buffer = Buffer.from(event.delta, "base64");
        console.log(`Received ${buffer.length} bytes of audio data.`);
    });
    realtimeClient.on("response.audio_transcript.delta", (event) => {
        console.log(`Received text delta:${event.delta}.`);
    });
    realtimeClient.on("response.text.done", () => console.log());
    realtimeClient.on("response.done", () => realtimeClient.close());
    realtimeClient.socket.on("close", () => console.log("\nConnection closed!"));
}

main().catch((err) => {
    console.error("The sample encountered an error:", err);
});

export { main };

tsconfig.json Vytvořte soubor pro transpilování kódu TypeScript a zkopírujte následující kód pro ECMAScript.

{
    "compilerOptions": {
      "module": "NodeNext",
      "target": "ES2022", // Supports top-level await
      "moduleResolution": "NodeNext",
      "skipLibCheck": true, // Avoid type errors from node_modules
      "strict": true // Enable strict type-checking options
    },
    "include": ["*.ts"]
}

Transpilovat z TypeScriptu do JavaScriptu.
```
tsc
```
Spusťte kód pomocí následujícího příkazu:
```
node index.js
```

Počkejte chvíli, než se odpověď zobrazí.

Výstup

Skript získá odpověď z modelu a zobrazí přijatý přepis a zvuková data.

Výstup bude vypadat nějak takto:

Received text delta:Of.
Received text delta: course.
Received text delta:!.
Received text delta: How.
Received text delta: can.
Received 4800 bytes of audio data.
Received 7200 bytes of audio data.
Received text delta: I.
Received 12000 bytes of audio data.
Received text delta: help.
Received text delta: you.
Received text delta: today.
Received text delta:?.
Received 12000 bytes of audio data.
Received 12000 bytes of audio data.
Received 12000 bytes of audio data.
Received 26400 bytes of audio data.

Connection closed!

Další informace o tom, jak používat rozhraní API v reálném čase
Viz referenční informace k rozhraní API v reálném čase
Další informace o kvótách a limitech Azure OpenAI
Další informace o podpoře jazyka a hlasu pro službu Speech

Sdílet prostřednictvím

API GPT-4o v reálném čase pro řeč a zvuk (Preview)

Podporované modely

Podpora rozhraní API

Nasazení modelu pro zvuk v reálném čase

Použijte zvuk GPT-4o v reálném čase

Požadavky

Požadavky pro Microsoft Entra ID

Nasazení modelu pro zvuk v reálném čase

Nastavení

Získat informace o prostředcích

Text ve zvukovém přenosu

Výstup

Požadavky

Požadavky pro Microsoft Entra ID

Nasazení modelu pro zvuk v reálném čase

Nastavení

Získat informace o prostředcích

Text ve zvukovém přenosu

Výstup

Požadavky

Požadavky pro Microsoft Entra ID

Nasazení modelu pro zvuk v reálném čase

Nastavení

Získat informace o prostředcích

Text ve zvukovém přenosu

Výstup

Související obsah

Váš názor

Další materiály